Webový archívny formát | Užitočné linky
Webový archívny formát
Oddelenie DDP využíva na zber a archiváciu vybraných webových stránok v podobe súborov WARC voľne dostupné softvérové riešenie Heritrix. Pre účely archívu sú použité disky v objeme 800TB. Heritrix zozbiera webový obsah z domén na základe pravidiel zadefinovaných v konfigurácii. Webový obsah sa ukladá ako WARC súbor. Počas zberu sa zbierajú aj metadáta z webových stránok a ukladajú sa do katalógu s previazaním na WARC súbory. Zbierajú sa primárne html, php, css, js a image formáty. Pri zbere sa rešpektujú nastavenia v súbore robots.txt na strane servera. Pre každú webovú adresu URL zo zberu sa vytvoria vlastné WARC súbory. Jeden WARC má maximálnu veľkosť 2 GB a pri prekročení limitu sa pre danú doménu vytvorí viacero WARC súborov. Archivácia pracovných a log súborov sa komprimuje do súboru ZIP. Vznikne finálny WARC súbor s príponou súboru „warc.gz“.
Užitočné linky
Názov | Popis |
---|---|
SK-NIC | Stránka správy internetovej domény najvyššej úrovne .sk, ktorá je vyhradená pre slovenský internet. |
Creative Commons | Creative Commons je americká nezisková organizácia, ktorej cieľom je rozšíriť množstvo autorských diel dostupných verejnosti k legálnemu využívaniu a zdieľaniu. |
Creative Commons logo a zdrojový kód na vloženie na stránku | Výber z rôznych voľných licencií, ktoré je možné použiť pri sprístupnení svojho diela na webe. |
URN:NBN | Jednotný názov prameňa URN určený na nezávislú trvalú a jednoznačnú identifikáciu digitálnych objektov. |
International Internet Preservation Consortium | Medzinárodné konzorcium pre uchovávanie internetu. |
Udržateľnosť digitálnych formátov LOC | Faktory udržateľnosti, kategórie obsahu a opisy formátov v rámci plánu Library of Congress. |
Archivovateľnosť webu LOC | Sprievodca Library of Congress tvorbou archivovateľných webstránok. |
UK Web Archive | Webový archív Spojeného kráľovstva Veľkej Británie a Severného Írska. |
Webarchiv – památník českého internetu | Webový archív Českej republiky. |
Portugalský webový archív | Portugalský webový archív. |
Open preservation foundation | Open preservation foundation. |
List of Web archiving initiatives | Stránka obsahuje zoznam iniciatív zaoberajúcich sa archiváciou webových sídiel na celom svete. Informácie sú rozdelené do troch tabuliek: Iniciatívy archivácie webových stránok, archivované údaje a metódy prístupu. |
Web Almanac | Výročné správy o stave webu |
Nástroje a softvér | Prehľad dokumentácie a používaných softvérových nástrojov v oblasti webovej archivácie |