Širok spektar besplatnih govornih alata osobama sa invaliditetom olakšava studiranje, pretraživanje interneta i celokupnu onlajn i oflajn komunikaciju. Pretvaranjem govora u tekst, slepe i slabovide osobe, kao i one koje se otežano kreću, mogu pisati poruke bez korišćenja slova na tastaturi, dok čitačem ekrana mogu iščitati gotovo sve selektovane datoteke. Iako IT stručnjaci ove alate neprekidno usavršavaju radi kvalitetnije socijalne interakcije, problemi nastaju kada sajtovi i aplikacije ostaju neprilagođeni govornim programima.
Ovaj tekst je dostupan i u audio formi koju možete aktivirati klikom na audio sadržaj ispod:
„Kad sam bila dete, čitala sam isključivo knjige na Brajevom pismu, a kako je štampa bila skupa, nije bilo mnogo ovakvih naslova. Književnu literaturu nedostupnu na ovom pismu čitali su mi roditelji ili nastavnici. Osećala sam se vrlo ograničeno jer sam mogla da dođem samo do materijala za koje je neko drugi odlučio da mi budu dostupni. Danas, zahvaljujući govornom programu, sve što može da pročita osoba koja vidi, mogu i ja”, kaže Ana Jovčić, apsolventkinja književnosti i srpskog jezika na Filološkom fakultetu i osoba koja ne vidi.
Uz pomoć čitača ekrana Ana Jovčić može da pročita sve knjige i dokumente koji su dostupni u docx formatu ili se mogu konvertovati u Word dokument. To joj je, kaže, u velikoj meri olakšalo studiranje jer je dostupno mnogo više tekstualnih nego audio knjiga.
„Ne bih se usudila da upišem fakultet da nema govornog programa. Nailazila sam na brojne prepreke i pored toga što govorni program postoji. Skeniranje knjiga je dug proces, a za književost treba mnogo litereture. Jedini način da sve knjige iščitam je da se one skreniraju, konvertuju u Word, i da im onda pristupi govorni program. Jeste duži proces, ali bar postoji mogućnost. Da nema govornog programa, te mogućnosti ne bi bilo. Kada se budem zaposlila, značiće mi, jer treba da komuniciram sa ljudima putem imejla i pišem naučne radove”, navodi Jovčić.
Iako su mogućnosti koje pružaju ovi programi brojne, postoje i nedostaci u njihovom radu poput nepostojanja znakova interpunkcije prilikom govornog unosa teksta ili neprepoznavanja vizuelnih elemenata prilikom čitanja ekrana. Ipak, da bi osvrt na njih bio potpun, neophodno je najpre objasniti kako govorni programi funkcionišu. Pri tome je važno imati u vidu programe za prepoznavanje govora i čitače ekrana, koji se, zbog načina na koji funkcionišu, mogu smatrati podvrstama govornih programa.
Kako rade čitači ekrana i programi za govorni unos teksta
Čitači ekrana ili Screen Readeri poput JAWS i NVDA su široko pristupačni programi koji čitaju sve što se selektuje na ekranu – bilo da je to neka aplikacija, ikonica, tekst ili fajl. Kako napamet znaju celu tastaturu na računaru, kretanjem po ekranu, uz pomoć strelica, slepe osobe mogu selektovati ikonicu po ikonicu, a čitač ekrana će im čitati o kojoj datoteci je reč. Na taj način, osobe koje ne vide lako mogu pronaći ono što im je potrebno na računaru.
Zabluda je, kaže Ana Jovčić, da većina slepih korisnika ima specijalizovane tastature na Brajevom pismu, jer svako koga zna, kako dodaje, nema ništa slično.
„Ukoliko želim, na primer, da napišem neki rad u Wordu, to ću takođe uraditi uz pomoć govornog programa. Kada otkucam slovo, govorni program će mi čitati koje je slovo u pitanju”, dodaje naša sagovornica.
Na pametnim telefonima je, s druge strane, dovoljan jedan dodir ikonice da bi ovaj program pročitao o čemu je reč, a dvostruki klik da bi korisnik otvorio željeni dokument ili aplikaciju. Glasovi, odnosno zvučne informacije, koje se čuju na telefonima ili računarima zovu se govorne sinteze, a mnogi ljudi ih, kako kaže student Socijalne politike i socijalnog rada Mihajlo Mitrović, mešaju sa čitačem ekrana, tj. programom koji ih zapravo pokreće.
Govorne sinteze i čitači ekrana su zajedno korisni i za kucanje SMS poruka, imejlova i poruka na društvenim mrežama, jer zahvaljujući njima, prevlačenjem prsta po ekranu, korisnici govornih programa mogu čuti za svaki odeljak koje slovo predstavlja. Kada pronađu glas koji su želeli, korisnici čitača ekrana odvajaju prst od telefona i tako kucaju slovo koje im je potrebno.
Još jedan od načina funkcionisanja zvučnih tastatura je govorni unos teksta, posebno razvijen na tastaturi Ajfona, kao i Google Gboardu na Android telefonima. Klikom na mikrofon u desnom delu tastature na Android telefonu, korisnici izgovaraju reč po reč, a za efikasno korišćenje ove tastature neophodno je govoriti glasnije i sporije.
To objašnjava i diplomirana menadžerka Jelena Marić, inače korisnica Google GBoarda na Androidu, koja navodi da neki parametri prikazuju i da li je brzina govora odgovarajuća, kao i da li su sve komande dobro podešene.
„Ukoliko nije prekrižen mikrofončić, govorni program možete da koristite, ali kada je ova ikonica precrtana, znajte da u podešavanjima nešto niste uradili kako treba. Kada izgovorite neku reč, pojaviće vam se knjiga pored i moći ćete da je dodate u program. Na taj način, stvara se vaš lični rečnik, a istovremeno će vam izaći poruka ‘Hvala što ste unapredili ovaj alat’”, objašnjava Marić.
Ova funkcija, kako se navodi u istraživanju Muhameda Sulimana i Dalasa Leita sa Univerziteta u Dablinu, pomaže i programu, koji radi po principu mašinskog učenja, da predvidi sledeću reč. To značajno olakšava unos teksta osobama sa invaliditetom.
Za Jelenu Marić, koja živi sa celebralnom paralizom, upravo spomenuti Google GBoard značajno olakšava komunikaciju sa prijateljima, porodicom i poznanicima. Osim toga, nakon završene Akademije mladih lidera Nacionalne organizacije osoba sa invaliditetom (NOOIS) ona je objavljivala tekstove u rubrikama Intervju i Blog na Omladinskom portalu, a Google GBoard je koristila za pronalaženje sagovornika i pripremu za intervju, kao i prilikom objavljivanja tekstova. Uz pomoć ovog alata, lakše je napisala i diplomski rad za Visoku strukovnu školu u Užicu i prošla efikasnije kroz sve što škovanje sa sobom nosi.
Nedostaci govornih programa i neprilagođenost sajtova i aplikacija
Kao manu Google GBoard-a na Androidu, Marić izdvaja to što ne prepoznaje znakove interpunkcije kada je na srpskom jeziku, te ih je neophodno ručno unositi. Tačku, zapetu, znak pitanja i znak uzvika, kako je primetila, GBoard prepoznaje na španskom i engleskom jeziku, što pokazuje da bolje prepoznaje te jezike.
Da postoji neujednačenost u prepoznavanju jezika kod govornih programa, potvrđuju i istraživači iz Sjedinjenih Američkih Država, koji navode da je prepoznavanje govora dostupno samo na nekoliko desetina jezika u većini dostupnih govornih programima.
Kada su u pitanju čitači ekrana, Mihajlo Mitrović kao manu navodi robotizovan i neprirodan glas. „Glasovi koji postoje za naše tržište nemaju dobru fonetiku, prigušeni su i mešaju glasove B, P, D i T. Slične probleme odslikava i sinteza Vokalizer Lana, koja nije rešila neke bagove sa rečnikom, pa, na primer, reč ‘24 sata’ čita kao ‘ponoć’, marku laptopa ‘HP’ kao ‘horse power’, a ‘submenu’, kao ‘subota meni”, navodi Mitrović. Zato programe za prepoznavanje govora, kako ističe, retko koristi jer smatra da zbog nedovoljno dobrog prepoznavanja reči i sintagmi, ovi govorni alati usporavaju komunikaciju.
Ipak, od samih nedostataka govornih programa veća mana je nedovoljna prilagođenost sajtova. Kada kažemo da neki sajt nije dovoljno prilagođen za čitače ekrana, to znači da govorni program ne može da pročita tekst, te da slepa osoba ne može samostalno da ga pretražuje. Aleksandar Đurić, zaposlen u američkoj firmi Allyant, koja je posvećena testiranju pristupačnosti sajtova svim osobama sa invaliditetom, kaže da prepreke za čitače ekrana u najvećoj meri prave vizuelni elementi.
„Kada fotografije nemaju opisni, odnsono Alt tekst, koji objašnjava ono što se nalazi na njima, čitač ekrana će nam pročitati samo da je u pitanju fotografija, ali mi nećemo znati šta je njen sadržaj”, kaže Đurić.
Testirajući koliko su sajtovi prilagođeni čitačima ekrana, primetio je da nepristupačni portali sadrže i niz elemenata do kojih čitači ekrana ne mogu da dopru, baš zbog samog dizajna. Đurić apeluje i na novinare da ne koriste senzacionalističke naslove, jer natpisi sa velikim slovima takođe mogu biti problematični za neke govorne programe.
„Postoje govorni programi koji veliko slovo prepoznaju kao reč i onda ga zasebno izgovaraju. Tako, na primer, ‘NEVREME’ govorni programi čitaju kao ‘n e v r e m e’. Zamislite koliko traje iščitavanje naslova koji imaju oko 50 slova. Takođe, senzacionalistički naslovi često imaju uzvičnike na kraju, pa onda čitači ekrana prilikom njihovog iščitavanja viču, što može biti jako neprijatno za slušanje osobama koje ne vide”, dodao naš sagovornik.
Prepoznavanje govora je, kako dodaje, nedovoljno razvijeno na internetu. „Programi za govorni unos teksta još nisu dovoljno prilagođeni. Na Ajfonu, na primer, dobro prepoznaju brojeve i nazive izgovorene na hrvatskom jeziku, dok je na Androidu prepoznatljivost reči nešto lošija”, naveo Đurić.
Govorni programi kao svakodnevna pomoć
Nemanja Crnatović, master muzičke pedagogije na Muzičkoj akademiji u Beogradu i osoba koja ne vidi, oprečnog je mišljenja, te smatra da program za prepoznavanje govora omogućuje brži i efikasniji unos teksta. „Brže je kucati diktatom, ali se mora sporije diktirati reč po reč. Ljudi uglavnom, na primer, ‘Ćao, kako si’, kažu kao jednu reč. Programi za prepoznavanje govora to ne mogu da otkucaju dobro, jer uglavnom prepoznaju reči na engleskom jeziku. Zbog toga je potrebno izgovarati reč po reč”, navodi naš sagovornik.
S obzirom na to da se bavi pevanjem, govorni program Nemanji Crnatoviću pomaže ne samo u dopisivanju, već i u učenju tekstova pesama. „Na telefonu imam program na više jezika. Kada radim nemačku ariju, on mi iščitava reči, a zahvaljujući njemu je i moj izgovor tačniji”, dodaje Crnatović. Programi za prepoznavanje govora i diktafon mu, kaže, pomažu da testira i svoj izgovor.
Čitač ekrana je, kako kaže, od srednjoškolskih dana za njega deo socijalne interakcije. „AlfaNum kompanija je tada proizvela dve sinteze govora – Mariju i Stevu, a nakon njih je uvedena i Snežana. Ove programe sam koristio preko laptopa, ali su kada sam želeo da čitam medijski sadržaj, bila neophodna česta ažuriranja”, priseća se svog dugogodišnjeg iskustva.
Kada je 2018. godine počeo da koristi touchscreen telefon, čitač ekrana je za njega postao neizostavan element za komunikaciju. S obzirom na to da literatura na fakultetu koji je pohađao, kako kaže, nije bila dovoljno prilagođena, telefon mu je bio značajan za usvajanje velikog dela gradiva.
Zbog značaja čitača ekrana i programa prepoznavanja govora, fizioterapeutkinja Tijana Simić kaže da su joj govorni program i beli štap najbolji prijatelji. Kako se Simić bavi i pravljenjem parfema, govorni programi joj beleženje recepture i doziranje čine lakšim.
„Kada dođu ti momenti navale novih ideja prilikom izrade parfema, sedam za računar i pravim tekstualne beleške kako ne bih zaboravila recepturu do koje sam došla. U tome mi u velikoj meri pomažu programi za govorni unos teksta i čitači ekrana, te sada bez probelma mogu zabeležiti i pročitati sastav i dozu uljanog parfema, kao i to kome sam ga namenila”, kaže Simić.
Osim beleženja podataka važnih za pravljenje parfema, govoni softver joj, kako kaže, omogućuje nesmetano pretraživanje interneta i ispitivanje uticaja eteričnih ulja na fizičko i mentalno zdravlje. „Na taj način, samostalno mogu da pronađem, odaberem i poručim parfemske ambalaže i potrebna eterična ulja za izradu parfema. Naučila sam da je bitno da detaljno saslušam svaki opis artikla i pronađem utiske ljudi, koje će mi govorni program pročitati, kako bih imala bolji uvid u to što poručujem”, objašnjava Simić.
Govorni program bio je od velikog značaja i za unapređenje njenih poslovnih kompetencija kao fizioterapeuta. „Zahvaljujući tim mogućnostima svake godine uspešno pohađam neku novu edukaciju iz sveta masaže i manuelnih tehnika. Edukacije se često sastoje iz praktičnog i teorijskog dela koji lakše mogu da pratim i učim, kao i ostali polaznici, ukoliko mi edukativni centar obezbedi literaturu u tekstualnom obliku. U tom slučaju, značaj govornog programa je ogroman. Prvenstveno se dobro osećam jer sam samostalnija tokom procesa učenja i ne opterećujem nikoga da mi nešto čita”, zaključuje ona.
Razvoj veštačke inteligencije i govorni alati
Razvoj veštačke inteligencije (VI) doprineo je tome da alati za prepoznavanje govora više ne kucaju samo tekst, već i izvršavaju druge komande. Izgovaranje „Hej, Siri” na pametnim telefonima dovoljno je za aktiviranje VI alata koji će izvršiti komande poput podešavanja alarma, pretrage interneta, zvanja i primanja poziva.
Napredak VI alata izraz je pronašao i u samoj izradi govornih sinteza. Dok je ranije, kaže Aleksandar Đurić, neko morao čitati sedam do osam sati teksta, da bi glas bio kreiran na osnovu govornih signala i obrada rečenica, danas taj proces traje 25 minuta. Glas koji se proizvede je, kako dodaje, jedinstven, te ne zvuči identično kao bilo koji postojeći.
Veštačka inteligencija uspela je da nadomesti i nemogućnost dostupnih i besplatnih govornih programa da opišu sadržaj fotografije u audio formi. Tako VI alati korišćenjem algoritama za analizu slika i opcija za proizvodnju tekstualnih i audio opisa omogućuju slepim osobama da razumeju šta se nalazi na fotografijama.
Kao najkorisniju aplikaciju koja zajedno sa govornim alatima može pretvarati fotografije u tekst i detaljno opisati okolinu sagovornici su izdvojili „Be my eyes”. Ovaj VI alat ima dve korisne opcije – „Be my AI” i „Pozovi volontera”.
Mitrović ističe da ovu aplikaciju od trenutka kada je puštena u opštu upotrebu koristi radi komunikacije sa volonterima, koji mu opisuju sve što se u tom trenutnku nalazi u njegovoj okolini. Ana Jovčić, pak, ne zove volontere, jer se za opis okoline radije oslanja na ljude oko sebe. Ipak, opciju „Be my AI” smatra revolucionarnom.
„Be my AI” opcija mi je pružila informacije koje nisam mogla da dobijem od ljudi koji vide, jer oni samo opišu ono što je bitno za njih u datom trenutku. Neće reći neke detalje ili opisati nešto precizno. Tako se jednom desilo da nisam znala gde mi je kofer u vozu. Uzela sam da slikam bespomučno oko sebe i uz pomoć ove opcije sam našla svoj kofer”, navodi samo jednu od ilustrativnih situacija.
IT stručnjak Miloš Selaković kaže da je kod ove opcije problematično to što osoba koja ne vidi veliki deo komandi mora da unese ručno. Ipak, imajući u vidu brzinu kojom se razvija veštačka inteligencija, Selaković veruje da će korisnici uskoro moći da dobijaju audio opise u realnom vremenu.
„Nećemo morati da šaljemo fotografije već će i video u realnom vremenu dobijati opis. Odvijaće se direktna dvosmerna komunikacija. To ne treba da čudi imajući u vidu da ovakva komunikacija već uveliko postoji. Primer su četbotovi”, dodaje on. Ukoliko osoba koja ne vidi uđe u prostoriju, ona će, smatra Selaković, u realnom vremenu moći da snima prostoriju, govorno unosi informacije i dobija fidbek. „Pošto sam osoba koja ne vidi, uzmimo primer da sam ušao sam u prostoriju i uključio snimanje, a da je aplikacija poput ‘Be my eyes’ u realnom vremenu opisala sve šta se nalazi u toj sobi. Ovaj scenario je, po mom mišljenju, potpuno realan, i otvara mogućnost da slepe osobe bez problema prate sportske utakmice i predstave”, navodi Selaković.
Ta opcija bi u velikoj meri poboljšala i audiodeskripciju jer, kako ističe Selaković, realna osoba ne bi morala da čita scenario filmova ili serija.
„Sa automatskim generisanjem glasova, sve bi išlo lakše i brže, a audiodeskripcija bi bila učestalija. Prirodnost se ne bi gubila, jer primećujem da su glasovi koje proizvode ovi programi sve prirodniji. Sećam se prvih glasova, kada je počela prva primena glasovnog fidbeka od strane veštačke inteligencije. Bili su potpuno robotizovani. Sada glas sve više liči na ljudski”, kaže naš sagovornik. Ovo bi, kako dodaje, omogućilo postojanje audio deskripcije na svim jezicima, jer na Netfliksu postoji samo na jeziku kojim govore glumci. S obzirom na to da takva opcija još uvek ne postoji, Tijana Simić filmove i serije prati koristeći upravo govorni program. „Kada podesim govorni program tako da govorna sinteza sadržaj izgovara naglas, istovremeno sa titlovanim sadržajem, krećem da gledam film. Tada zvuk filma utišam u odnosu na govornu sintezu i ne mora niko da mi čita prevod”, objašnjava Simić.
Mogućnosti koje moderne tehnologije pružaju su raznolike, kao i opseg njihove primene. Kako primećuje Jelena Marić, alati za prepoznavanje govora nam najbolje pokazuju da ne znamo sve jedni o drugima, kako se obično čini.
„Primetila sam da je život brz, jer dolazim iz struke gde je bitno obezbediti što bolji život. Ipak, poruka koju uvek ponavljam je ‘Stani malo, ne okreći glavu. Sačekaj da čuješ šta neko ima da kaže, nikad ne znaš kakav je kraj rečenice”, navodi Marić. Zato analiza govornih alata nije samo priča o programima prepoznavanja govora i čitačima ekrana već korak ka tome da bolje upoznamo jedni druge i da život ne gledamo naočarima stigme.
* Ovaj tekst nastao je u okviru projekta „Veštačka inteligencija u službi osoba sa invaliditetom: Novim tehnologijama do efikasnije inkluzije osoba sa invaliditetom” koji sprovodi Centar za profesionalizaciju medija i medijsku pismenost (CEPROM), a koji je sufinansiran iz budžeta Republike Srbije – Ministarstva informisanja i telekomunikacija. Stavovi izneti u podržanom medijskom projektu i ovom tekstu nužno ne izražavaju stavove organa koji je dodelio sredstva.
Pratite nas na našoj Facebook i Instagram stranici, ali i na X nalogu. Pretplatite se na PDF izdanje lista Danas.