Kako se mijenjao hrvatski internetski prostor

Kako se mijenjao hrvatski internetski prostor
Fotolia

Početkom 2002. godine stručni je tim Srca započeo pripreme za provedbu prvog mjerenja hrvatskog prostora weba. Sveučilišni računski centar (Srce) se istraživanjem tehnologija i informacijskog prostora weba bavi dugi niz godina.

Početkom 2002. godine stručni je tim Srca započeo pripreme za provedbu prvog mjerenja hrvatskog prostora weba. Sveučilišni računski centar (Srce) se istraživanjem tehnologija i informacijskog prostora weba bavi dugi niz godina, a poticaj za ovaj projekt došao je kroz suradnju Srca i Nacionalne i sveučilišne knjižnice (NSK) na projektu „Nacionalni informacijski sustav knjižnica Republike Hrvatske - NISKA". Cilj nam je bio „izmjeriti hrvatski web“, odnosno prikupiti informacije o veličini i sadržaju hrvatskoga prostora weba.

Mjerenjem se prije svega željelo ustanoviti: veličinu prostora weba, korištene formate datoteka prema MIME standardu, omjer teksta, slike, audio i video zapisa, obim i sadržaj meta podataka.

„Složenost i dinamičnost informacijskoga prostora weba predstavljala je na samom početku prije 15 godina, izazov kao i danas. Web su već tada uspoređivali sa santom leda kojoj je vidljivi, površinski i jednostavno dohvatljivi dio (engl. surface web) bitno manji od nevidljivog, teško dostupnoga dijela (engl. invisible, deep web)“, naglasio je Miroslav Milinović, pomoćnik ravnatelja za informacijsku i posredničku infrastrukturu.

Prvo je mjerenje izvedeno korištenjem programske podrške razvijene u Srcu. Započelo je 29. ožujka i trajalo sve do 7. svibnja 2002. godine. Dobiveni rezultati odgovarali su našim očekivanjima, ali i rezultatima sličnih istraživanja provedenih u svijetu. Prikupljeni podaci prvog mjerenja prostora weba predstavljali su neophodni temelj za svaku daljnju, složeniju analizu mrežno dostupne elektroničke građe.

Nakon prvog, nastavili smo unapređivati i provoditi mjerenja sve do 2008. godine kada smo u proljeće dovršili posljednje mjerenje weba, čiji su rezultati predstavljeni pod oznakom projekta MWP6. Kroz ukupno provedenih šest mjerenja stručni je tim prikupio znanja i iskustva koja su omogućila uspješnu suradnju s NSK na projektu izgradnje Hrvatskog arhiva weba (http://haw.nsk.hr) i s Hrvatskom informacijsko-dokumentacijskom referalnom agencijom (HIDRA, danas Središnji državni ured za razvoj digitalnog društva) na projektu arhiva DAMIR.

Oba su arhiva u produkcijskom radu više od 10 godina. Izgrađeni su korištenjem programske podrške DAMP (Digitalni arhiv mrežnih publikacija) koja je razvijena u Srcu. HAW je arhiv čija je svrha preuzimanje i trajno čuvanje publikacija s interneta kao dijela hrvatske kulturne baštine te je po tome jedinstven u Hrvatskoj i svijetu. Nema drugog internetskog servisa koji bi jednakim obuhvatom, sustavno arhivirao sadržaje s hrvatskog weba i nudio im otvoreni pristup. Arhiv DAMIR prikuplja i čuva sadržaje koji su javnosti dostupni kroz internetske usluge Središnjeg državnog ureda za razvoj digitalnog društva (http://www.digured.hr). Oba su arhiva danas udomljena na računalnoj opremi Srca pri čemu stručni tim Srca u suradnji s njihovim vlasnicima skrbi o njihovom radu i razvoju.

Mjerenje postaje harvestiranje

Mjerenje weba, od 2011. godine, zamijenjeno je harvestiranjem. Naime, od te se godine, u okviru HAW-a, pomoću programske podrške Heritrix modificirane u Srcu, provode redovita godišnja harvestiranja - prikupljanja i arhiviranja javno dostupnih sadržaja s hrvatskog prostora weba. Harvestiraju se aktivna sjedišta weba na nacionalnoj internetskoj domeni .hr u pravilu krajem kalendarske godine. Harvestiranje je aktivnost komplementarna selektivnom pobiranju sadržaja koje se u okviru HAW neprekidno provodi od samog početka 2004. godine.

U proteklih smo 15 godina, kao izazove u procesu prikupljanja sadržaja, upoznali različite prije svega inventivne, ali i nestandardne načine korištenja weba i pratećih tehnologija. Naučili smo puno i o samom informacijskom prostoru hrvatskoga weba koji je narastao, postao složeniji, dinamičniji i interaktivniji, ali neka zapažanja po svemu su sudeći aktualna i nakon 15 godina.

„Primjerice uzorak izmjeren 2002. godine obuhvatio je 4.667.920 resursa (objekata dostupnih webom). Veličina uzorka procijenjena je na preko 300 GB podataka. Najveći broj resursa, čak 67%, otpadao je na HTML dok je na slikovne formate otpadalo je 23% resursa. Netom dovršenim harvestiranjem za 2016. godinu uspješno je preuzeto 77 milijuna resursa s weba, ukupne veličine 7.0 TB. Najzastupljenije vrste sadržaja su tekst u HTML formatu (51.3%) i slike u JPEG formatu (33.8%)“, zaključio je Draženko Celjak, voditelj Službe za podatkovne usluge i kolaboracijske alate.