TEHNOLOŠKI ISKORAK

Što je multimodalna umjetna inteligencija?

05.02.2024.

Veličina fontaPrint

Što je multimodalna umjetna inteligencija?

Rani modeli umjetne inteligencije kao što je ChatGPT ostavili su snažan dojam sposobnošću tumačenja tekstualnih upita, no multimodalna umjetna inteligencija sposobna je činiti mnogo više i zato je se gledao kao budućnost.

Logično, kako postojeći modeli proširuju svoje mogućnosti prihvaćanja različitih izvora informacija, alati za umjetnu inteligenciju postaju sve napredniji.

No, što znači "multimodalno"? Doslovno se odnosi na korištenje više načina, a u kontekstu umjetne inteligencije to znači korištenje različitih izvora informacija kako bi se postigli bolji rezultati pri obuci i interakciji modela. Chatbotovi koji su osvojili svijet prošle godine bili su sposobni samo za jedan način unosa, a to je bio tekst.

Multimodalna umjetna inteligencija sposobna je prihvatiti dva ili više načina unosa. To vrijedi i prilikom obuke modela i prilikom interakcije s modelom. Primjerice, možete obučiti model da poveže određene slike s određenim zvukovima koristeći slike i audio. Istovremeno, možete zamoliti model da kombinira tekstualni opis i audio datoteku kako bi generirao sliku koja predstavlja oboje.

Recimo da želite stvoriti novu sliku temeljenu na fotografiji koju ste snimili. Možete predati fotografiju umjetnoj inteligenciji i opisati promjene koje želite vidjeti. Također možete obučiti model da povezuje zvukove s određenim vrstama slika ili stvarati veze poput temperature. Ovi tipovi modela dali bi "bolje" rezultate čak i ako s njima interagirate samo putem teksta.

Dakle, multimodalna umjetna inteligencija logička je evolucija trenutačnih modela umjetne inteligencije koja omogućuje razvoj "informiranijih" modela. Primjene ovih modela su znatno šire, kako u smislu potrošačke upotrebe, strojnog učenja, tako i implementacije u industriji.

Postupno se uvodi u svakodnevnu tehnologiju. Mobilni asistenti mogli bi se znatno poboljšati korištenjem multimodalnih modela, budući da će imati više podataka i dodani kontekst kako bi donosio bolje pretpostavke. Vaš pametni telefon već ima kamere, mikrofone, senzore svjetlosti i dubine, žiroskop i akcelerometar, usluge geolokacije te internetsku vezu. Sve to može biti korisno pomoćniku u odgovarajućem kontekstu.

Google Gemini je možda jedan od najpoznatijih primjera multimodalne umjetne inteligencije iako još daleko od savršenog. Svejedno, i dalje je obećavajući multimodalni model umjetne inteligencije treniran na zvukovima, slikama, videima, kodu i tekstu na različitim jezicima. Suprotstavlja se OpenAI-jevom GPT-4, koji može prihvatiti tekstualne i vizualne upite.

No, prava priča leži u tome kako će kompanije poput Applea, Googlea, Samsunga i drugih divova ovu tehnologiju unijeti u našu svakodnevicu.

#umjetnainteligencija #AI #Gemini #multimodalnainteligencija

Što je multimodalna umjetna inteligencija?

SPONZORIRANO

NT konferencija: "Budućnost nije u umjetnoj inteligenciji koju kupujete, nego u ljudima koje zapošljavate"

Predstavljen program najvećeg Weekenda dosad: Mate Rimac, Jack Kreindler, Ulrik Haagerup i Emil Tedeschi stižu u Rovinj

Predstavljen natječaj za djecu i edukativna slikovnica Sretno more koju potpisuje Domagoj Jakopović Ribafish

Kibernetička sigurnost u eri AI-ja i naprednih prijetnji: 10. eSecurity konferencija stiže u Beograd

NIS2 je stigao. Koliko su zapravo sigurni kriptografski ključevi koji štite vaše poslovanje?

NAJNOVIJE

Uwe Heckert postaje novi izvršni direktor Detecona

Generacija Z najviše koristi društvene mreže, ali najviše vjeruje tradicionalnim medijima

Fina dodijelila deset Zlatnih bilanci za rezultate ostvarene u 2025. godini

Visa i europske banke ulaze u novu fazu plaćanja putem AI agenata

EU počela naplaćivati novu e-trgovinsku carinu za male pakete

NAJČITANIJE

Predstavljen natječaj za djecu i edukativna slikovnica Sretno more koju potpisuje Domagoj Jakopović Ribafish

Predstavljen program najvećeg Weekenda dosad: Mate Rimac, Jack Kreindler, Ulrik Haagerup i Emil Tedeschi stižu u Rovinj

Egzodus s VMware platforme ubrzava investicije u suvereni hibridni oblak i alternativne hipervizore

ETSI objavio prve specifikacije za digitalni novčanik Europske unije

Hrvatska je prihvatila generativni AI, ali tek mora razviti stvarnu AI pismenost

Prijavi se na newsletter

PONUDA POSLOVA U ICT SEKTORU

Prati nas i na Facebooku

Što je multimodalna umjetna inteligencija?

Više vijesti iz kategorije

SPONZORIRANO

NAJNOVIJE

NAJČITANIJE

Prijavi se na newsletter

PONUDA POSLOVA U ICT SEKTORU

Prati nas i na Facebooku