TEHNOLOŠKI ISKORAK

Što je multimodalna umjetna inteligencija?

Što je multimodalna umjetna inteligencija?
Depositphotos

Rani modeli umjetne inteligencije kao što je ChatGPT ostavili su snažan dojam sposobnošću tumačenja tekstualnih upita, no multimodalna umjetna inteligencija sposobna je činiti mnogo više i zato je se gledao kao budućnost.

Logično, kako postojeći modeli proširuju svoje mogućnosti prihvaćanja različitih izvora informacija, alati za umjetnu inteligenciju postaju sve napredniji.

No, što znači "multimodalno"? Doslovno se odnosi na korištenje više načina, a u kontekstu umjetne inteligencije to znači korištenje različitih izvora informacija kako bi se postigli bolji rezultati pri obuci i interakciji modela. Chatbotovi koji su osvojili svijet prošle godine bili su sposobni samo za jedan način unosa, a to je bio tekst.

Multimodalna umjetna inteligencija sposobna je prihvatiti dva ili više načina unosa. To vrijedi i prilikom obuke modela i prilikom interakcije s modelom. Primjerice, možete obučiti model da poveže određene slike s određenim zvukovima koristeći slike i audio. Istovremeno, možete zamoliti model da kombinira tekstualni opis i audio datoteku kako bi generirao sliku koja predstavlja oboje.

Recimo da želite stvoriti novu sliku temeljenu na fotografiji koju ste snimili. Možete predati fotografiju umjetnoj inteligenciji i opisati promjene koje želite vidjeti. Također možete obučiti model da povezuje zvukove s određenim vrstama slika ili stvarati veze poput temperature. Ovi tipovi modela dali bi "bolje" rezultate čak i ako s njima interagirate samo putem teksta.

Dakle, multimodalna umjetna inteligencija logička je evolucija trenutačnih modela umjetne inteligencije koja omogućuje razvoj "informiranijih" modela. Primjene ovih modela su znatno šire, kako u smislu potrošačke upotrebe, strojnog učenja, tako i implementacije u industriji.

Postupno se uvodi u svakodnevnu tehnologiju. Mobilni asistenti mogli bi se znatno poboljšati korištenjem multimodalnih modela, budući da će imati više podataka i dodani kontekst kako bi donosio bolje pretpostavke. Vaš pametni telefon već ima kamere, mikrofone, senzore svjetlosti i dubine, žiroskop i akcelerometar, usluge geolokacije te internetsku vezu. Sve to može biti korisno pomoćniku u odgovarajućem kontekstu.

Google Gemini je možda jedan od najpoznatijih primjera multimodalne umjetne inteligencije iako još daleko od savršenog. Svejedno, i dalje je obećavajući multimodalni model umjetne inteligencije treniran na zvukovima, slikama, videima, kodu i tekstu na različitim jezicima. Suprotstavlja se OpenAI-jevom GPT-4, koji može prihvatiti tekstualne i vizualne upite.

No, prava priča leži u tome kako će kompanije poput Applea, Googlea, Samsunga i drugih divova ovu tehnologiju unijeti u našu svakodnevicu.