Microsoftova nova umjetna inteligencija može simulirati bilo čiji glas sa svega 3 sekunde audio zapisa

03.02.2023.

Veličina fontaPrint

Microsoftova nova umjetna inteligencija može simulirati bilo čiji glas sa svega 3 sekunde audio zapisa

Microsoftovi stručnjaci najavili su novi model pretvaranja teksta u govor baziran na umjetnoj intelgenciji i nazvan VALL-E. Može iznimno precizno simulirati glas osobe temeljem uzorka od samo tri sekunde. Temelji se na tehnologiji nazvanoj EnCodec, koju je Meta najavila u listopadu 2022.

Nakon što nauči određeni glas, VALL-E može sintetizirati zvuk te osobe na način koji pokušava sačuvati emocionalni ton govornika. Ujedno, njegovi kreatori nagađaju da bi se VALL-E mogao koristiti za visokokvalitetne aplikacije pretvaranja teksta u govor, uređivanje govora, gdje bi se snimka osobe mogla uređivati i mijenjati iz transkripta tekstate stvaranje audio sadržaja u kombinaciji s drugim generativnim AI modelima poput GPT-3.

Za razliku od drugih metoda pretvaranja teksta u govor koje obično sintetiziraju govor manipulirajući valnim oblicima, VALL-E u osnovi analizira kako osoba zvuči, rastavlja tu informaciju u diskretne komponente zvane "tokeni" zahvaljujući EnCodecu i koristi podatke kako bi uskladio ono što "zna" o tome kako bi taj glas zvučao da je izgovorio druge fraze.

"VALL-E za sintetiziranje personaliziranog govora generira odgovarajuće akustične tokene uvjetovane akustičnim tokenima upisane snimke od tri sekunde i odzivnika fonema, koji ograničavaju govornika i informacije o sadržaju. Konačno, generirani akustični tokeni koriste se za sintetiziranje konačnog valnog oblika s odgovarajućim dekoderom neuralnog kodeka", stručno je objašnjenje iz Microsofta.

Microsoft je uvježbao VALL-E-ove mogućnosti sinteze govora na audiobiblioteci koju je sastavila Meta, a koja se zove LibriLight. Sadrži 60.000 sati govora na engleskom jeziku od više od 7000 govornika, većinom izvučenih iz LibriVox audioknjiga u javnoj domeni. Kako bi VALL-E generirao dobar rezultat, glas u uzorku od tri sekunde mora biti vrlo sličan glasu u podacima o vježbanju.

"Budući da VALL-E može sintetizirati govor koji održava identitet govornika, može nositi potencijalne rizike u zlouporabi modela, kao što je krivotvorenje identifikacije glasa ili oponašanje određenog govornika. Kako bi se ublažili takvi rizici, moguće je izgraditi model detekcije za diskriminaciju je li audiozapis sintetizirao VALL-E. Također ćemo primijeniti Microsoftova AI načela u praksi pri daljnjem razvoju modela", odgovor je Microsofta na potencijalnu zlonamjeru pri korištenju ove tehnologije.

Microsoftova nova umjetna inteligencija može simulirati bilo čiji glas sa svega 3 sekunde audio zapisa

SPONZORIRANO

NT konferencija: "Budućnost nije u umjetnoj inteligenciji koju kupujete, nego u ljudima koje zapošljavate"

Predstavljen program najvećeg Weekenda dosad: Mate Rimac, Jack Kreindler, Ulrik Haagerup i Emil Tedeschi stižu u Rovinj

Predstavljen natječaj za djecu i edukativna slikovnica Sretno more koju potpisuje Domagoj Jakopović Ribafish

Kibernetička sigurnost u eri AI-ja i naprednih prijetnji: 10. eSecurity konferencija stiže u Beograd

NIS2 je stigao. Koliko su zapravo sigurni kriptografski ključevi koji štite vaše poslovanje?

NAJNOVIJE

IBM predstavio prvu svjetsku čip tehnologiju ispod 1 nanometra

Europska komisija će Amazonov i Microsoftov cloud označiti kao gatekeepere

Hrvatskoj trebaju brži modeli obrazovanja za razvoj koji gospodarstvu nedostaje

Zagrebačka banka i Arhivanalitika pokrenule Nekretninski puls i analizirat će tržište i građevinski sektor

Europa se sve češće pojavljuje kao glavna meta ransomware kampanja

NAJČITANIJE

Predstavljen natječaj za djecu i edukativna slikovnica Sretno more koju potpisuje Domagoj Jakopović Ribafish

Predstavljen program najvećeg Weekenda dosad: Mate Rimac, Jack Kreindler, Ulrik Haagerup i Emil Tedeschi stižu u Rovinj

NT konferencija: "Budućnost nije u umjetnoj inteligenciji koju kupujete, nego u ljudima koje zapošljavate"

EU počela naplaćivati novu e-trgovinsku carinu za male pakete

Najnoviji Honor Magic V6 osvojio dvije prestižne nagrade na MWC-u u Šangaju i ušao u povijest GLOMO-a

Prijavi se na newsletter

PONUDA POSLOVA U ICT SEKTORU

Prati nas i na Facebooku

Microsoftova nova umjetna inteligencija može simulirati bilo čiji glas sa svega 3 sekunde audio zapisa

Više vijesti iz kategorije

SPONZORIRANO

NAJNOVIJE

NAJČITANIJE

Prijavi se na newsletter

PONUDA POSLOVA U ICT SEKTORU

Prati nas i na Facebooku