Microsoftovi stručnjaci najavili su novi model pretvaranja teksta u govor baziran na umjetnoj intelgenciji i nazvan VALL-E. Može iznimno precizno simulirati glas osobe temeljem uzorka od samo tri sekunde. Temelji se na tehnologiji nazvanoj EnCodec, koju je Meta najavila u listopadu 2022.
Nakon što nauči određeni glas, VALL-E može sintetizirati zvuk te osobe na način koji pokušava sačuvati emocionalni ton govornika. Ujedno, njegovi kreatori nagađaju da bi se VALL-E mogao koristiti za visokokvalitetne aplikacije pretvaranja teksta u govor, uređivanje govora, gdje bi se snimka osobe mogla uređivati i mijenjati iz transkripta tekstate stvaranje audio sadržaja u kombinaciji s drugim generativnim AI modelima poput GPT-3.
Za razliku od drugih metoda pretvaranja teksta u govor koje obično sintetiziraju govor manipulirajući valnim oblicima, VALL-E u osnovi analizira kako osoba zvuči, rastavlja tu informaciju u diskretne komponente zvane "tokeni" zahvaljujući EnCodecu i koristi podatke kako bi uskladio ono što "zna" o tome kako bi taj glas zvučao da je izgovorio druge fraze.
"VALL-E za sintetiziranje personaliziranog govora generira odgovarajuće akustične tokene uvjetovane akustičnim tokenima upisane snimke od tri sekunde i odzivnika fonema, koji ograničavaju govornika i informacije o sadržaju. Konačno, generirani akustični tokeni koriste se za sintetiziranje konačnog valnog oblika s odgovarajućim dekoderom neuralnog kodeka", stručno je objašnjenje iz Microsofta.
Microsoft je uvježbao VALL-E-ove mogućnosti sinteze govora na audiobiblioteci koju je sastavila Meta, a koja se zove LibriLight. Sadrži 60.000 sati govora na engleskom jeziku od više od 7000 govornika, većinom izvučenih iz LibriVox audioknjiga u javnoj domeni. Kako bi VALL-E generirao dobar rezultat, glas u uzorku od tri sekunde mora biti vrlo sličan glasu u podacima o vježbanju.
"Budući da VALL-E može sintetizirati govor koji održava identitet govornika, može nositi potencijalne rizike u zlouporabi modela, kao što je krivotvorenje identifikacije glasa ili oponašanje određenog govornika. Kako bi se ublažili takvi rizici, moguće je izgraditi model detekcije za diskriminaciju je li audiozapis sintetizirao VALL-E. Također ćemo primijeniti Microsoftova AI načela u praksi pri daljnjem razvoju modela", odgovor je Microsofta na potencijalnu zlonamjeru pri korištenju ove tehnologije.
Tvrtka KING ICT i Klub za podvodne aktivnosti Rovinj organizirali su akciju čišćenja rovinjskog podmorja. Gume, tepisi, plastika, kante, staklo – samo je dio onoga što su ronioci našli u dubinama pored mola u samom centru Rovinja.
Medijski giganti Disney i NBCUniversal, zajednički su pokrenuli tužbu protiv AI kompanije Midjourney, optužujući je za masovno kršenje autorskih prava.
Prema podacima Tenderi.hr ukupna procijenjena vrijednost tendera za koje je objavljen sklopljeni ugovor za travanj 2025. godine iznosila 200,43 milijuna eura što uključuje i veliki ugovor za Microsoft licence za državnu upravu, a time je i ugovorena vrijednost dosegla 112,59 milijuna eura. U odnosu na 2024. procijenjena vrijednost ugovora za koje je posao sklopljen u travnju veća je 140,9 posto, dok je sama vrijednost ugovorenih poslova u travnju veća 52,04 posto.