Što je to zapravo Big Data i gdje se primjenjuje?

Što je to zapravo Big Data i gdje se primjenjuje?

Posljednjih nekoliko godina rasprava na temu Big Data se poprilično zahuktala. Ono što je donedavno bila isključivo akademska tema, polako se pretvara u opipljive, konkretne projekte. Mogućnost primjene zahvatila je mnoga područja; primjerice, nadzor procesa proizvodnje ekstenzivnim korištenjem informacija koje generiraju senzori; znanstvena istraživanja obradom golemih skupova podataka u fizici, genetici ili astronomiji; ili čak u politici, analizom podataka o ponašanju i javno dostupnim mišljenjima birača s ciljem kreiranja efikasnih izbornih kampanja.

Kad god vam neka tražilica automatski dopuni pojam koji unosite ili vam online knjižara predloži neki naslov za koji smatra da bi se baš vama mogao svidjeti, radi se o rješenjima Big Data. Podaci (točnije, analize velike količine podataka) su pomogli Obami da dobije posljednje predsjedničke izbore u SAD-u; podaci su pomogli otkriti Higgsov bozon; podaci su korišteni za izgradnju računalnog algoritma koji je po prvi puta pobijedio ljudskog suparnika u kvizu „Jeopardy“. Mnogi tvrde da smo na rubu revolucije koja će potpuno transformirati naše živote u bližoj budućnosti te da je Big Data jedna od ključnih komponenti u tom procesu.

Nepobitna je činjenica da je od druge polovice 20. stoljeća razvoj elektronike eksponencijalno napredovao, tako da smo sada došli u točku kada brzina obrade i kapacitet pohrane više ne predstavljaju realno ograničenje. U praćenju izvođenja poslovnih procesa i poslovanja općenito, dosad smo se uglavnom morali ograničavati na visoko strukturirane izvore (uglavnom relacijske baze podataka). Skladišta podataka i alati za izvještavanje i ad-hoc analizu bili su (i još dugo će biti) ključni koncepti, odnosno mehanizmi. No jeste li znali da je svega 20 posto  izvora podataka strukturirano? Što je sve „zakopano“ u dokumentima, e-mailovima, na društvenim mrežama? Što nam sve mogu dojaviti različiti senzori? Što kada bismo mogli iskoristiti informacije iz ovih izvora? Rekli bismo „ali previše je toga“. Koliko bi nam samo prostora trebalo za pohranu tih informacija... koliko bi obrada tih podataka trajala... i na kraju, sasvim je legitimno pitanje bismo li uopće našli nešto korisno u svoj toj šumi podataka. Odgovore na upravo ova pitanja daje nam Big Data koncept i tehnologija.

Kako najbolje opisati što je to zapravo Big Data? Definicija koju najčešće susrećemo jest „3V“:

  • Volume - velika količina podataka koji se prikupljaju, obrađuju i stavljaju na raspolaganje za analizu
  • Velocity - kontinuirano prikupljanje velike količine podataka u realnom vremenu
  • Variety - podaci su dostupni u različitim oblicima i izvorima, a zapravo su najčešće nestrukturirani

Ili, u jednoj rečenici, Big Data je tehnologija koja omogućava prikupljanje i obradu velikih količina strukturiranih i nestrukturiranih podataka u realnom vremenu.

A što je to tako tehnološki revolucionarno, što zapravo stoji „ispod haube“? Hoće li Big Data uskoro zamijeniti skladišta podataka? Koliko je zapravo velika Big Data? Koliko košta takvo što? Koje su tipične primjene po industrijama? Ima li to smisla za moju tvrtku/organizaciju?

Odgovore na ova pitanja pokušat ćemo dati na CROZ-ovoj redovnoj, godišnjoj QED konferenciji. Uz to, pokazat ćemo vam i jedinstveno Big Data rješenje koje smo razvili unutar tvrtke, a koje prikuplja komentare s društvenih mreža (Facebook, Twitter), foruma, web stranica, te automatski otkriva o čemu se najviše piše i prepoznaje sentiment/raspoloženje vezano uz te teme. Tko zna, možda vam otkrijemo i tko će pobijediti na nadolazećim izborima za EU parlament...

 

O autoru: Luka Stepinac, voditelj CROZ-ovog odjela za usluge iz Business Intelligence područja