Provedeno šesto harvestiranje hrvatskog weba

Provedeno šesto harvestiranje hrvatskog weba
Dražen Tomić

Na hrvatskom internetskom prostoru postoji 77 milijuna datoteka i to veličine 7 TB pokazalo je šesto harvestiranje hrvatskog weba koje proveo Sveučilišni računski centar s Nacionalnom i sveučilišnom knjižnicom. Harvestiranje je provedeno od 25. prosinca 2016. do 2. siječnja 2017. Prikupljeni su i arhivirani javno dostupni sadržaji svih web sjedišta na vršnoj .hr domeni uključujući from.hr i .com.hr.

Kao ishodišna točka korišten je popis aktivnih domena koji je Nacionalnoj i sveučilišnoj knjižnici dostavio Registar .hr domena. Harvestiranje je provedeno na računalnoj opremi Srca pomoću open source alata Heritrix dorađenog u Srcu. Robot koji je provodio harvestiranje predstavljao se kao: Mozilla/5.0 (compatible; heritrix/1.14.4; +http://haw.nsk.hr/faq).

Novost je da su se u 2016. godini počele koristiti domene s dijakritičkim znakovima (Internationalized Domain Names) pa će u budućnosti biti sve više webova na adresama poput http://šktigrići.hr/, ističu iz SRCA.