Data Science: znanost o podacima i još o ponečemu

Data Science: znanost o podacima i još o ponečemu
Dražen Tomić

„Vrijeme je novac“, rečenica je koju ste čuli nebrojeno puta. Jeste li čuli i rečenicu „Podaci su novac“? Podaci su postali od izrazite važnosti bilo kojoj organizaciji i to na potpuno drugačiji način. Ne tako davno, podaci su se promatrali samo iz područja potrebe za prostorom za pohranu (storage) gdje su organizacije razmišljale o tome kako pohraniti podatak na troškovno najučinkovitiji način. Danas, kada je pohrana gotovo besplatna, podaci se pokušavaju iskoristiti na pametniji način: zapravo, tražimo odgovor na pitanje zašto ih uopće i pohranjujemo.

No, je li pitanje podataka i upravljanja istima uistinu toliko bitno? Već desetak godina živimo u svijetu koji je nadrastao pitanje podatka i baze podataka, te se zabavljamo s terminima kao što su Data Warehouse, Data Lake, Big Data, Open Data, Data ovo i ono - prepoznali smo da bogatstvo podataka nekako treba i iskoristiti i razumjeti kuda nas podaci vode i što nam govore. S druge strane, količina podataka je postala ogromna - danas to nije samo pitanje prikupljanja svih podataka, već pitanje analize samo „nekih“ podataka, razumijevajući da nikada nećemo moći analizirati sve podatke već samo tražiti najbolji uzorak koji nam onda govori što se događa (i još bitnije, što bi se trebalo dogoditi). Internet uređaja (Internet of Things) pri tome neće puno pomoći, zar ne, već samo drastično ubrzati vrijeme i količinu stvorenih podataka.

Jesu li podaci nova moneta? Podaci su zapravo vrlo slični stvarnom novcu - možete ih izgubiti, mogu propasti, teško ih je prebaciti s jednog mjesta na drugi. Znate li da je još uvijek najučinkovitiji način za prebacivanje velikih količina podataka - tvrdi disk? Podaci su osnova bez koje nema poslovnog odlučivanja, danas se želi „data driven“ zasnovano poslovanje, koje, uz sve alate koji su nam raspolaganju, i dalje vodi ka odlukama koje ne možemo uvijek poduprijeti čvrstom analizom. Znate li da čak i vodeće analitičke kuće svoje prognoze daju s naznačenom vjerojatnosti?

Poseban problem je svojevrsna paraliza koja se događa kada se analizira previše podataka i kada se želi biti potpuno precizan (što je gotovo nemoguće). Već danas se ta paraliza vidi na sastancima na koje svaki sudionik dolazi s svojom verzijom istine, a koji uobičajeno završava s pitanjem „i dobro... koji je tvoj osjećaj?“. Strahovito puno vremena i novca odlazi u sustave za upravljanje podacima koji ne samo da ne daju odgovore, nego zapravo otvaraju sve više pitanja.

Je li to naša budućnost? Znate li za onu narodnu „čovjek s dva sata nikada nije siguran koliko je točno sati“? Trebamo li se pripremiti za poslovno odlučivanje koje se ne temelji na točnim podacima već se vraćamo ponovo na, gledajući na podatke, procjenjivanje na osnovu najbolje prezentiranih podataka (da ne napišem, najuvjerljivije prezentiranih). Također, vremenski okvir takvih podataka podataka postaje posebno interesantan, jer podaci koji vrijede danas, vjerojatno ne vrijede sutra.

S druge strane, pitanje podataka nije samo podatak i kako se s njim (tehnološki) upravlja. Danas je to pitanje politike, zakona, uredbe ili bilo kojeg drugog oblika pravnog okvira s kojim se pokušava „zauzdati“ otvoreni prostor koji danas podaci omogućuju. Prvo, to je pitanje klasifikacije podataka, pitanje koje podatke možemo a koje ne koristiti. Drugo tu je pitanje otvorenih podataka, podataka koje možemo javno objaviti i na osnovu njih probati ostvariti određenu ekonomski vrijednost. Treće, tu je pitanje privatnosti podataka, jer danas već uobičajeno ostavljamo cijelu gomilu podataka na uporabu trećim stranama. Dodajmo onda i pitanja otvorenosti, transparentnosti, zaštite, primjene podataka u različitim industrijama i tako dalje i već imamo dovoljno materijala za pokrenuti jedan znanstveni skup.

Na tragu tih pitanja odlučili smo pokrenuti potpuno novu konferenciju, Data Science Monetization 2016 koja će pružiti dublji uvid u poslovnu primjenu znanosti o podacima (Data Science) te ono što je najvažnije odgovoriti na to kako monetizirati ogromnu količinu podataka koje tvrtke posjeduju i svakodnevno prikupljaju. Konferencija koja se održava 13. i 14. travnja u zagrebačkom Hypo centru, a više informacija možete pronaći na stranici konferencije www.dsm2016.com.