Kako se mijenjao hrvatski internetski prostor

Kako se mijenjao hrvatski internetski prostor

Foto: Fotolia

Početkom 2002. godine stručni je tim Srca započeo pripreme za provedbu prvog mjerenja hrvatskog prostora weba. Sveučilišni računski centar (Srce) se istraživanjem tehnologija i informacijskog prostora weba bavi dugi niz godina.

Početkom 2002. godine stručni je tim Srca započeo pripreme za provedbu prvog mjerenja hrvatskog prostora weba. Sveučilišni računski centar (Srce) se istraživanjem tehnologija i informacijskog prostora weba bavi dugi niz godina, a poticaj za ovaj projekt došao je kroz suradnju Srca i Nacionalne i sveučilišne knjižnice (NSK) na projektu „Nacionalni informacijski sustav knjižnica Republike Hrvatske - NISKA". Cilj nam je bio „izmjeriti hrvatski web“, odnosno prikupiti informacije o veličini i sadržaju hrvatskoga prostora weba.

Mjerenjem se prije svega željelo ustanoviti: veličinu prostora weba, korištene formate datoteka prema MIME standardu, omjer teksta, slike, audio i video zapisa, obim i sadržaj meta podataka.

„Složenost i dinamičnost informacijskoga prostora weba predstavljala je na samom početku prije 15 godina, izazov kao i danas. Web su već tada uspoređivali sa santom leda kojoj je vidljivi, površinski i jednostavno dohvatljivi dio (engl. surface web) bitno manji od nevidljivog, teško dostupnoga dijela (engl. invisible, deep web)“, naglasio je Miroslav Milinović, pomoćnik ravnatelja za informacijsku i posredničku infrastrukturu.

Prvo je mjerenje izvedeno korištenjem programske podrške razvijene u Srcu. Započelo je 29. ožujka i trajalo sve do 7. svibnja 2002. godine. Dobiveni rezultati odgovarali su našim očekivanjima, ali i rezultatima sličnih istraživanja provedenih u svijetu. Prikupljeni podaci prvog mjerenja prostora weba predstavljali su neophodni temelj za svaku daljnju, složeniju analizu mrežno dostupne elektroničke građe.

Nakon prvog, nastavili smo unapređivati i provoditi mjerenja sve do 2008. godine kada smo u proljeće dovršili posljednje mjerenje weba, čiji su rezultati predstavljeni pod oznakom projekta MWP6. Kroz ukupno provedenih šest mjerenja stručni je tim prikupio znanja i iskustva koja su omogućila uspješnu suradnju s NSK na projektu izgradnje Hrvatskog arhiva weba (http://haw.nsk.hr) i s Hrvatskom informacijsko-dokumentacijskom referalnom agencijom (HIDRA, danas Središnji državni ured za razvoj digitalnog društva) na projektu arhiva DAMIR.

Oba su arhiva u produkcijskom radu više od 10 godina. Izgrađeni su korištenjem programske podrške DAMP (Digitalni arhiv mrežnih publikacija) koja je razvijena u Srcu. HAW je arhiv čija je svrha preuzimanje i trajno čuvanje publikacija s interneta kao dijela hrvatske kulturne baštine te je po tome jedinstven u Hrvatskoj i svijetu. Nema drugog internetskog servisa koji bi jednakim obuhvatom, sustavno arhivirao sadržaje s hrvatskog weba i nudio im otvoreni pristup. Arhiv DAMIR prikuplja i čuva sadržaje koji su javnosti dostupni kroz internetske usluge Središnjeg državnog ureda za razvoj digitalnog društva (http://www.digured.hr). Oba su arhiva danas udomljena na računalnoj opremi Srca pri čemu stručni tim Srca u suradnji s njihovim vlasnicima skrbi o njihovom radu i razvoju.

Mjerenje postaje harvestiranje

Mjerenje weba, od 2011. godine, zamijenjeno je harvestiranjem. Naime, od te se godine, u okviru HAW-a, pomoću programske podrške Heritrix modificirane u Srcu, provode redovita godišnja harvestiranja - prikupljanja i arhiviranja javno dostupnih sadržaja s hrvatskog prostora weba. Harvestiraju se aktivna sjedišta weba na nacionalnoj internetskoj domeni .hr u pravilu krajem kalendarske godine. Harvestiranje je aktivnost komplementarna selektivnom pobiranju sadržaja koje se u okviru HAW neprekidno provodi od samog početka 2004. godine.

U proteklih smo 15 godina, kao izazove u procesu prikupljanja sadržaja, upoznali različite prije svega inventivne, ali i nestandardne načine korištenja weba i pratećih tehnologija. Naučili smo puno i o samom informacijskom prostoru hrvatskoga weba koji je narastao, postao složeniji, dinamičniji i interaktivniji, ali neka zapažanja po svemu su sudeći aktualna i nakon 15 godina.

„Primjerice uzorak izmjeren 2002. godine obuhvatio je 4.667.920 resursa (objekata dostupnih webom). Veličina uzorka procijenjena je na preko 300 GB podataka. Najveći broj resursa, čak 67%, otpadao je na HTML dok je na slikovne formate otpadalo je 23% resursa. Netom dovršenim harvestiranjem za 2016. godinu uspješno je preuzeto 77 milijuna resursa s weba, ukupne veličine 7.0 TB. Najzastupljenije vrste sadržaja su tekst u HTML formatu (51.3%) i slike u JPEG formatu (33.8%)“, zaključio je Draženko Celjak, voditelj Službe za podatkovne usluge i kolaboracijske alate.

Još iz kategorije

Vaše kućno računalo možda je potajno dio masivne botnet mreže

Vaše kućno računalo možda je potajno dio masivne botnet mreže

12.12.2017. komentiraj

Kućno računalo prosječnog korisnika možda djeluje nevino i neopasno, ali u teoriji može služiti kao alat u međunarodnom kriminalu. Bez da korisnik to zna! Razlog za to može biti uključenost u botnetu ili skupu računala koji su putem malicioznog softvera zaražena i samim time pogodna za korištenje na bilo koji način.

Obrada popularne rock pjesme Thunderstruck hrvatskog dvojca 2Cellos pogledana 100 milijuna puta

Obrada popularne rock pjesme Thunderstruck hrvatskog dvojca 2Cellos pogledana 100 milijuna puta

11.12.2017. komentiraj

2Cellos, domaći glazbeni dvojac kojeg čine Stjepan Hauser i Luka Šulić postavili su hrvatski rekord u broju pogleda pojedinačnog videa na YouTubeu. Njihova obrada pjesme Thunderstuck legendardnog rock benda AC/DC pogledana je preko 100 milijuna puta, što je prvi puta da netko iz Hrvatske bilježi takav broj pregleda.

U 2017. čak 47 posto svjetske populacije online

U 2017. čak 47 posto svjetske populacije online

10.12.2017. komentiraj

Najnovije istraživanje koje je proveo eMarketer pokazuje kako će ove godine čak 47 posto svjetske populacije biti online bilo da je riječ o pristupu putem računala, tableta ili pametnog telefona. Za dvije godine očekuje se nastavak rasta broja internetskih korisnika koji bi trebao dosegnuti čak 50 posto populacije odnosno gotovo 3,9 milijardi ljudi.