Microsoftovi stručnjaci najavili su novi model pretvaranja teksta u govor baziran na umjetnoj intelgenciji i nazvan VALL-E. Može iznimno precizno simulirati glas osobe temeljem uzorka od samo tri sekunde. Temelji se na tehnologiji nazvanoj EnCodec, koju je Meta najavila u listopadu 2022.
Nakon što nauči određeni glas, VALL-E može sintetizirati zvuk te osobe na način koji pokušava sačuvati emocionalni ton govornika. Ujedno, njegovi kreatori nagađaju da bi se VALL-E mogao koristiti za visokokvalitetne aplikacije pretvaranja teksta u govor, uređivanje govora, gdje bi se snimka osobe mogla uređivati i mijenjati iz transkripta tekstate stvaranje audio sadržaja u kombinaciji s drugim generativnim AI modelima poput GPT-3.
Za razliku od drugih metoda pretvaranja teksta u govor koje obično sintetiziraju govor manipulirajući valnim oblicima, VALL-E u osnovi analizira kako osoba zvuči, rastavlja tu informaciju u diskretne komponente zvane "tokeni" zahvaljujući EnCodecu i koristi podatke kako bi uskladio ono što "zna" o tome kako bi taj glas zvučao da je izgovorio druge fraze.
"VALL-E za sintetiziranje personaliziranog govora generira odgovarajuće akustične tokene uvjetovane akustičnim tokenima upisane snimke od tri sekunde i odzivnika fonema, koji ograničavaju govornika i informacije o sadržaju. Konačno, generirani akustični tokeni koriste se za sintetiziranje konačnog valnog oblika s odgovarajućim dekoderom neuralnog kodeka", stručno je objašnjenje iz Microsofta.
Microsoft je uvježbao VALL-E-ove mogućnosti sinteze govora na audiobiblioteci koju je sastavila Meta, a koja se zove LibriLight. Sadrži 60.000 sati govora na engleskom jeziku od više od 7000 govornika, većinom izvučenih iz LibriVox audioknjiga u javnoj domeni. Kako bi VALL-E generirao dobar rezultat, glas u uzorku od tri sekunde mora biti vrlo sličan glasu u podacima o vježbanju.
"Budući da VALL-E može sintetizirati govor koji održava identitet govornika, može nositi potencijalne rizike u zlouporabi modela, kao što je krivotvorenje identifikacije glasa ili oponašanje određenog govornika. Kako bi se ublažili takvi rizici, moguće je izgraditi model detekcije za diskriminaciju je li audiozapis sintetizirao VALL-E. Također ćemo primijeniti Microsoftova AI načela u praksi pri daljnjem razvoju modela", odgovor je Microsofta na potencijalnu zlonamjeru pri korištenju ove tehnologije.
U sklopu interaktivnog događanja Tehnološki dani, kompaniju Ericsson Nikola Tesla posjetio je potpredsjednik Vlade RH i ministar obrane Ivan Anušić sa suradnicima, predsjednik Hrvatske gospodarske komore Luka Burilović sa suradnicima te drugi uvaženi visoki predstavnici tijela javne uprave.
Vertiv je otvorio novi centar za obuku Vertiv Academy u Frankfurtu. Strateški smješten u jednom od najpovezanijih europskih gradova, novi centar unaprijedit će tehničku obuku, inovacije u uslugama i angažman s korisnicima na području Njemačke, Austrije i Švicarske (regija DACH), pripremajući novu generaciju inženjera za doba sve izraženije AI dominacije i automatizacije. Svečano otvorenje okupilo je industrijske lidere, predstavnike vlasti i rukovoditelje tvrtke Vertiv u proslavi novog poglavlja u digitalnoj infrastrukturi i izvrsnosti usluga.
GlobalLogic, tvrtka iz Hitachi grupe i lider u području digitalnog inženjeringa, te Matera, vodeći pružatelj modernih bankarskih tehnoloških rješenja, danas su najavili strateško partnerstvo s ciljem isporuke rješenja nove generacije za bankarstvo, temeljenih na Materinom softverskom rješenju Digital Twin.