Hrvatska arhiva weba veća od 50 TB

Hrvatska arhiva weba veća od 50 TB

Foto: DepositPhotos

Nacionalna i sveučilišna knjižnica u Zagrebu obilježava 15 godina postojanja Hrvatskog arhiva weba (HAW) - sustava za preuzimanje i arhiviranje obaveznog primjerka online građe s ciljem obrade, pohrane, trajnog čuvanja i osiguravanja pristupa arhiviranoj građi.

Hrvatski arhiv weba uspostavljen je u rujnu 2004. godine u suradnji sa Sveučilišnim računskim centrom Sveučilišta u Zagrebu (Srce). Među prvim arhiviranim stranicama bile web stranice Vjesnika, Večernjeg lista i Slobodne Dalmacije.  Hrvatska je tada bila jedna od desetak zemalja koje su krenule s arhiviranjem nacionalnog weba pohranjujući građu koja predstavlja dio hrvatske nacionalne, kulturne i znanstvene baštine (news portali, blogovi, web-sjedišta ustanova, udruga, događaja, klubova, znanstvenih projekata, stručnih i znanstvenih časopisa i knjiga).

Do 2011. godine pohranjivala se prethodno identificirana građa na temelju kriterija utvrđenih od same Knjižnice. Od te godine NSK  (uz dnevna i tjedna arhiviranja) jednom godišnje pobire (harvestira)  sve javno dostupne sadržaje na nacionalnoj domeni (.hr). Prateći svjetske trendove,  provode se i arhiviranja sadržaja koji se odnose na posebnu temu ili događaj od općeg nacionalnog  značaja kao što su parlamentarni izbori, predsjednički izbori, ulazak Republike Hrvatske u Europsku uniju, povijesni i sportski događaji,  prirodne katastrofe… Posljednje osmo pobiranje weba provedeno je koncem 2018. i početkom 2019. godine, a posljednja tematska pohranjivanje odnosila se na uspjeh hrvatske nogometne reprezentacije na Svjetskom prvenstvu u nogometu 2018. u Rusiji i nedavno održane  europarlamentarne izbore.

Danas je u HAW-u 7500 naslova odnosno 65 000 arhiviranih primjeraka, koji zajedno s harvestiranjima vršne .hr domene zauzimaju 50 TB diskovnog prostora.  Arhivirana građa javno je dostupna i može se pretraživati po bilo kojoj riječi iz naslova, URL-a te po ključnim riječima, a omogućeno je i složeno pretraživanje. Sadržaj je moguće pregledavati i prema predmetnim područjima i abecedno na http://haw.nsk.hr/. Kao jedini arhiv weba, Hrvatski arhiv weba moguće je pretraživati i u Europeani, najvećoj europskoj digitalnoj baštinskoj zbirci.

Povijest arhiviranja weba u svijetu seže u 1996. godinu kada je s arhiviranjem weba započela međunarodna organizacija Internet Archive, čija je arhiva weba dostupna putem Wayback Machine danas najveći arhiv sadržaja objavljenih na Internetu s više od 350 bilijuna web stranica, 20 milijuna knjiga i tekstova, 4.5 milijuna audio zapisa, 4 milijuna video zapisa i 3 milijuna fotografija. Nakon njih ubrzo je s arhiviranjem weba započelo i nekoliko nacionalnih knjižnica – među prvima Australija, Švedska i Novi Zeland.

Stručnjaci iz Internet Archiva, Europeane te nacionalnih knjižnica, arhiva, sveučilišta i drugih znanstvenih i baštinskih ustanova iz cijelog svijeta okupit će se 6. i 7. lipnja 2019. godine u Zagrebu, kada će se u povodu 15. obljetnice Hrvatskog arhiva weba održati treća Konferencija o arhiviranju weba (prethodne su održane u Londonu i Wellingtonu).

Konferenciji prethodi i Godišnja skupština Konzorcija za dugoročnu pohranu internetskog sadržaja (International Internet Preservation Consortium – IIPC). Konzorcij je osnovan 2003. godine na poticaj nacionalnih knjižnica Australije, Kanade, Danske, Finske, Francuske, Islanda, Italije, Norveške, Švedske, Velike Britanije, Kongresne knjižnice (SAD) i Internet Archivea (SAD), a od 2008. godine član Konzorcija je i Hrvatski arhiv weba.

„Građa s weba predstavlja značajan izvor informacija i važno ju je sačuvati i ponuditi budućim generacijama na korištenje. Arhiviranje weba ključno je za sva područja znanosti, jer se danas sve veći dio znanstvenog života, ali i značajan dio života jedne zemlje odvija na webu i raznim platformama kao što su blogovi i društvene mreže. U Nacionalnoj i sveučilišnoj knjižnici u Zagrebu rano smo prepoznali važnost arhiviranja i čuvanja nacionalne kulturne i znanstvene baštine na webu te u najvećoj mogućoj mjeri nastojimo biti u korak s najnovijim svjetskim trendovima u arhiviranju weba, kako bi se i ubuduće nastavilo s radom, važnim za povijest i kulturu našeg naroda. Ponosni smo što smo upravo povodom 15. obljetnice postojanja Hrvatskog arhiva weba, u godini kada WWW slavi svoj 30. rođendan, domaćin prestižne konferencije koja okuplja svjetske stručnjake iz područja arhiviranja weba“, Ingeborg Rudomino, Hrvatski arhiv weba.

Još iz kategorije

Malware framework kreirao milijardu lažnih Google Adsense prikazivanja u svega 3 mjeseca

Malware framework kreirao milijardu lažnih Google Adsense prikazivanja u svega 3 mjeseca

20.08.2019. komentiraj

Stručnjaci za kibernetičku sigurnost u Flashpointu otkrili su da je novi malware frameworka uspio kreirati oko milijardu lažnih Google AdSense prikaza oglasa tijekom protekla tri mjeseca, ali nije se zaustavio na tome veać je generirao i lažne “lajkove” na YouTube i Twitch video sadržaju.

INFOGRAFIKA: Koliko je Facebook uspješan u detekciji lošeg sadržaja

INFOGRAFIKA: Koliko je Facebook uspješan u detekciji lošeg sadržaja

19.08.2019. komentiraj

Facebook je s godinama postao poprilično učinkovit po pitanju prepoznavanja lošeg sadržaja, posebno kad se radi o spamu, terorističkoj propagandi, pedofiliji, seksualnom iskorištavanju svake vrste, propagandi nasilja, pornografiji i sadržaju za odrasle kojem nije mjesto na najvećoj društvenoj mreži svijeta.

Stream online pornografije godišnje generira ugljičnog dioksida kao i cijela Belgija

Stream online pornografije godišnje generira ugljičnog dioksida kao i cijela Belgija

14.08.2019. komentiraj

Pornografija na internetu može biti samo nevina zabava odraslima, ali iza nje se krije i opasnost za okoliš, vjerovali ili ne. Naime, francuski The Shift Project analizirao je koliko se pornografskog sadržaja pregleda na godišnjoj razini pa izračunao koliko to generira ugljičnog dioksida (CO2) u Zemljinu atmosferu.