Znanstvenici s MIT-a osmislili algoritam koji identificira slike do piksela

Znanstvenici s MIT-a osmislili algoritam koji identificira slike do piksela
DepositPhotos

Za ljude je identificirati jabuku od kruške potpuno jednostavno već nakon prvog pogleda, ali za umjetnu inteligenciju tako nešto bitno je teže. Konkretnije, 800 sati treninga teže!

Naime, tim stručnjaka na američkim sveučilištima MIT i Cornell, uz pomoć Microsofta, razvili su STEGO (Self-supervised Transformer with Energy-based Graph Optimization), algoritam koji može identificirati fotografije sve do pojedinačnog piksela. A da se dođe do toga, trebalo je proći spomenutih 800 sati treninga, "ručnog"!

Inače, samo treniranje umjetne inteligencije u ovom smislu radi se na način da čovjek naglasi što je što na fotografiji pa umjetna inteligencija potom jasnije razdvaja, primjerice, psa od trave na kojoj leži ili stoji.

S druge strane, STEGO koristi tehniku poznatu kao semantička segmentacija, koja primjenjuje oznaku (eng. label) klase svakog piksela na slici kako bi umjetnoj inteligenciji dao točniji pogled na svijet oko sebe.

Dok bi označeni okvir sadržavao objekt i druge stavke u okolnim pikselima unutar okvira, semantička segmentacija označava svaki piksel u objektu, ali samo piksele koji čine objekt, dobivate samo piksele pasa, a ne piksele pasa plus malo trave, također. To je ekvivalent strojnog učenja korištenju Smart Lasso u Photoshopu, u odnosu na Rectangular Marquee alat.

Problem s ovom tehnikom je u opsegu. Konvencionalni nadzirani sustavi s više snimaka često zahtijevaju tisuće, ako ne i stotine tisuća, označenih slika s kojima se trenira algoritam. Pomnožite to sa 65.536 pojedinačnih piksela koji čine čak i jednu sliku veličine 256x256, a sve to sada također treba pojedinačno označiti, a potrebno radno opterećenje brzo postaje neizvedivo.

Umjesto toga, STEGO traži slične objekte koji se pojavljuju u cijelom skupu podataka. Potom povezuje te slične objekte zajedno kako bi izgradio dosljedan pogled na svijet kroz sve slike iz kojih uči. Na ovaj način postiže dvostruko bolje rezultate od ostalih tehnika temeljenih na semantičkoj segmentaciji.

Ipak, unatoč superiornim performansama u odnosu na sustave koji su bili prije njega, STEGO ima ograničenja. Primjerice, može identificirati tjesteninu i zelje kao hranu, ali ne razlikuje ih baš dobro. Pogubi se i ako nešto nema smisla, kao banana na računalu. Ne prepoznaje radi li se o hrani, računalu, nečemu trećem... Dakle, još je mnogo posla da se sve skupa usavrši!