NOVI ISKORAK

Meta kreirala Voicebox, koji vjerno oponaša glasove nakon samo dvije sekunde

Meta kreirala Voicebox, koji vjerno oponaša glasove nakon samo dvije sekunde

Dok se čini da chatbotovi i generatori umjetnosti iz minute u minutu dobivaju sve veću popularnost, neki od najistaknutijih "igrača" u poslu pokušavaju se nametnuti svojim alatima baziranima na umjetnoj inteligenciji.

Primjerice, Meta je nedavno predstavila Voicebox, tekstualno vođen, generator govora toliko moćan da navodno nadmašuje sve postojeće modele.

Voicebox je dovoljno moćan da generira glasove jednako lako kao što ChatGPT može generirati tekst, a Bing ili Dall-E 2 fotografije. Iako sustav još nije dostupan za javnu upotrebu, izabrani sretnici mogli su isprobati sve što može.

Sustav bi mogli koristiti kreatori i drugi profesionalci za uređivanje zvuka jer njegovo generiranje glasa čini audio zapise prirodnog zvuka. No dovoljno je svestran da inteligentno uredi šum iz glasovnih isječaka, poput laveža pasa te potom regenerira glas bez propuštanja ritma.

Ujedno, jedna od mogućnosti Voiceboxa je da može uskladiti audio stil uzorka i generirati isječke pretvaranja teksta u govor. U suštini, slabovidni korisnici mogli bi Voiceboxu dati audio isječak prijatelja od samo dvije sekunde, a on bi mogao čitati pisane poruke tog prijatelja njegovim glasom.

Može rješavati zadatke putem učenja u kontekstu, tako da može obraditi tekst koji nikada prije nije bio dan i ispravno generirati kontekst i infleksije slično kao što bi ga osoba pročitala koristeći postojeće znanje za učenje i suočavanje s novim izazovima.

Etičke i pravne implikacije ovog revolucionarnog alata nije lako odbaciti. Svatko bi mogao generirati audio isječke koristeći snimke nečijeg glasa bez dopuštenja i tvrditi da će ta osoba reći što god želi.

Meta je trenirala Voicebox na 60.000 sati audioknjiga na engleskom i 50.000 sati višejezičnih audioknjiga na šest jezika za optimalnu izvedbu. Također, iz kompanije tvrde da Voicebox može generirati različite audio uzorke 20 puta brže od Microsoftovog VALL-E i da je konačni rezultat razumljiviji.

U usporedbi s prethodnim najsuvremenijim modelom, YourTTS, utvrđeno je da Voicebox smanjuje prosječnu stopu pogreške riječi s 10,9 posto na 5,2 posto, kao i da povećava sličnost zvuka s 0,335 na 0,481.