Microsoftovi stručnjaci najavili su novi model pretvaranja teksta u govor baziran na umjetnoj intelgenciji i nazvan VALL-E. Može iznimno precizno simulirati glas osobe temeljem uzorka od samo tri sekunde. Temelji se na tehnologiji nazvanoj EnCodec, koju je Meta najavila u listopadu 2022.
Nakon što nauči određeni glas, VALL-E može sintetizirati zvuk te osobe na način koji pokušava sačuvati emocionalni ton govornika. Ujedno, njegovi kreatori nagađaju da bi se VALL-E mogao koristiti za visokokvalitetne aplikacije pretvaranja teksta u govor, uređivanje govora, gdje bi se snimka osobe mogla uređivati i mijenjati iz transkripta tekstate stvaranje audio sadržaja u kombinaciji s drugim generativnim AI modelima poput GPT-3.
Za razliku od drugih metoda pretvaranja teksta u govor koje obično sintetiziraju govor manipulirajući valnim oblicima, VALL-E u osnovi analizira kako osoba zvuči, rastavlja tu informaciju u diskretne komponente zvane "tokeni" zahvaljujući EnCodecu i koristi podatke kako bi uskladio ono što "zna" o tome kako bi taj glas zvučao da je izgovorio druge fraze.
"VALL-E za sintetiziranje personaliziranog govora generira odgovarajuće akustične tokene uvjetovane akustičnim tokenima upisane snimke od tri sekunde i odzivnika fonema, koji ograničavaju govornika i informacije o sadržaju. Konačno, generirani akustični tokeni koriste se za sintetiziranje konačnog valnog oblika s odgovarajućim dekoderom neuralnog kodeka", stručno je objašnjenje iz Microsofta.
Microsoft je uvježbao VALL-E-ove mogućnosti sinteze govora na audiobiblioteci koju je sastavila Meta, a koja se zove LibriLight. Sadrži 60.000 sati govora na engleskom jeziku od više od 7000 govornika, većinom izvučenih iz LibriVox audioknjiga u javnoj domeni. Kako bi VALL-E generirao dobar rezultat, glas u uzorku od tri sekunde mora biti vrlo sličan glasu u podacima o vježbanju.
"Budući da VALL-E može sintetizirati govor koji održava identitet govornika, može nositi potencijalne rizike u zlouporabi modela, kao što je krivotvorenje identifikacije glasa ili oponašanje određenog govornika. Kako bi se ublažili takvi rizici, moguće je izgraditi model detekcije za diskriminaciju je li audiozapis sintetizirao VALL-E. Također ćemo primijeniti Microsoftova AI načela u praksi pri daljnjem razvoju modela", odgovor je Microsofta na potencijalnu zlonamjeru pri korištenju ove tehnologije.
Globalne isporuke AR/VR uređaja pale su 20,9 posto u odnosu na prethodnu godinu na 8,8 milijuna jedinica, prema IDC-u. Međutim, pad nije bio posve neočekivan s obzirom na ograničen broj dobavljača na tržištu, izazovno makroekonomsko okruženje i nedostatak masovnog prihvaćanja tržišta od strane potrošača.
Podaci domaćeg telekom regulatora Hrvatske agencije za mrežne djelatnosti (HAKOM) pokazuju kako su ukupni prihodi od usluga televizije povećani 4,28 posto na 225,99 milijuna kuna. Pritom je broj priključaka naplatne televizije manji malenih 0,07 posto na 872,64 tisuće.
Petal Ads (prethodno Huawei Ads) postao je član Udruženja mobilnog marketinga (MMA) za Europu. Taj strateški potez dokaz je predanosti oblikovanju i postavljanju budućnosti mobilnog marketinga i proširivanju platforme za mobilne oglase među ključnim oglašivačima i u Europi.