Informácie WWW

Webový archívny formát

Oddelenie DDP využíva na zber a archiváciu vybraných webových stránok v podobe súborov WARC voľne dostupné softvérové riešenie Heritrix. Pre účely archívu sú použité disky v objeme 800TB. Heritrix zozbiera webový obsah z domén na základe pravidiel zadefinovaných v konfigurácii. Webový obsah sa ukladá ako WARC súbor. Počas zberu sa zbierajú aj metadáta z webových stránok a ukladajú sa do katalógu s previazaním na WARC súbory. Zbierajú sa primárne html, php, css, js a image formáty. Pri zbere sa rešpektujú nastavenia v súbore robots.txt na strane servera. Pre každú webovú adresu URL zo zberu sa vytvoria vlastné WARC súbory. Jeden WARC má maximálnu veľkosť 2 GB a pri prekročení limitu sa pre danú doménu vytvorí viacero WARC súborov. Archivácia pracovných a log súborov sa komprimuje do súboru ZIP. Vznikne finálny WARC súbor s príponou súboru „warc.gz“.

Užitočné linky

Názov Popis
SK-NIC Stránka správy internetovej domény najvyššej úrovne .sk, ktorá je vyhradená pre slovenský internet.
Creative Commons Creative Commons je americká nezisková organizácia, ktorej cieľom je rozšíriť množstvo autorských diel dostupných verejnosti k legálnemu využívaniu a zdieľaniu.
Creative Commons logo a zdrojový kód na vloženie na stránku Výber z rôznych voľných licencií, ktoré je možné použiť pri sprístupnení svojho diela na webe.
URN:NBN Jednotný názov prameňa URN určený na nezávislú trvalú a jednoznačnú identifikáciu digitálnych objektov.
International Internet Preservation Consortium Medzinárodné konzorcium pre uchovávanie internetu.
Udržateľnosť digitálnych formátov LOC Faktory udržateľnosti, kategórie obsahu a opisy formátov v rámci plánu Library of Congress.
Archivovateľnosť webu LOC Sprievodca Library of Congress tvorbou archivovateľných webstránok.
UK Web Archive Webový archív Spojeného kráľovstva Veľkej Británie a Severného Írska.
Webarchiv – památník českého internetu Webový archív Českej republiky.
Portugalský webový archív Portugalský webový archív.
Open preservation foundation Open preservation foundation.
List of Web archiving initiatives Stránka obsahuje zoznam iniciatív zaoberajúcich sa archiváciou webových sídiel na celom svete. Informácie sú rozdelené do troch tabuliek: Iniciatívy archivácie webových stránok, archivované údaje a metódy prístupu.
Web Almanac Výročné správy o stave webu
Nástroje a softvér Prehľad dokumentácie a používaných softvérových nástrojov v oblasti webovej archivácie
Print Friendly, PDF & Email
Digitálne pramene | www.webdepozit.sk