Informácie WWW

Odporúčania pre poskytovateľov

Režim sprístupnenia

Archivácia zahŕňa kompletnú verziu webu vrátane kaskádového štýlovania (CSS), fotografií a ďalších artefaktov. Väčšina multimediálneho obsahu nepatrí do predmetu archivácie. V licenčnej zmluve je možné určiť limity pre každý artefakt samostatne.  

Poskytovateľ má možnosť vybrať si z troch režimov sprístupnenia archivovanej domény:

  • voľný prístup do archívu vrátane prístupu prostredníctvom portálu
  • lokálny prístup v priestoroch knižnice
  • bez prístupu

Poskytovateľ si vyberie jednu z týchto možností pri návrhu svojej webovej stránky na archiváciu, resp. pri uzatvorení zmluvy o poskytovaní elektronických online prameňov.

Proces archivácie

Na zber a archiváciu webových sídiel sa v IS DIP používa open-source nástroj Heritrix. Ak sa zber webových stránok zrealizoval, v prístupových protokoloch webových sídiel sa zobrazí identifikátor: Mozilla / 5.0 compatible; Heritrix / „Verzia“ + http: //www.webdepozit.sk

Robot pri zbere postupne pristupuje na všetky vystavené stránky vrátane vnorených liniek, čo môže dočasne spomaliť prístupnosť stránky. Ak archivácia spôsobí nežiaduci vplyv na používateľských stránkach, prosíme, aby ste nás kontaktovali.

Testovanie archivácie

Internet Archive ponúka on-line možnosť pre otestovanie, ako sa stránka zobrazí v archíve pri akceptovaní pravidiel pre roboty. Po zadaní adresy URL sa stránka zobrazí v archíve. V prípade obmedzenia alebo zakázania robotov sa zobrazí príslušný popis problému. Adresa:  http://archive.org/web/.

Nástroj ArchiveReady poskytuje on-line možnosť pre otestovanie, či je stránka pripravená na archiváciu. Po zadaní URL začne nástroj stránku analyzovať. Po skončení analýz pripraví stručné zhrnutie a hodnotenie „archivovateľnosti“. Adresa: http://archiveready.com/.

Zásady archivovateľnosti webových stránok

Kongresová knižnica USA publikovala nasledovné odporúčania na tvorbu archivovateľných webových sídiel:  

  1. Rešpektujte webové normy a smernice o prístupnosti sídiel
  2. Buďte opatrní pri používaní robots.txt
  3. Požívajte mapu stránok, transparentné linky a súvislú navigáciu
  4. Udržiavajte stabilnú adresáciu (URI) a presmerovávajte len v krajnom prípade
  5. Zvážte použitie verejnej licencie Creative Commons
  6. Používajte udržateľné  digitálne formáty
  7. Včleňujte metaúdaje, osobitne kódovanie znakov

Viac na  http://loc.gov/webarchiving/preservable.html

 

Webový archívny formát

Oddelenie DDP využíva na zber a archiváciu vybraných webových stránok v podobe súborov WARC voľne dostupné softvérové riešenie Heritrix. Pre účely archívu sú použité disky v objeme 800TB. Heritrix zozbiera webový obsah z domén na základe pravidiel zadefinovaných v konfigurácii. Webový obsah sa ukladá ako WARC súbor. Počas zberu sa zbierajú aj metadáta z webových stránok a ukladajú sa do katalógu s previazaním na WARC súbory. Zbierajú sa primárne html, php, css, js a image formáty. Pri zbere sa rešpektujú nastavenia v súbore robots.txt na strane servera. Pre každú webovú adresu URL zo zberu sa vytvoria vlastné WARC súbory. Jeden WARC má maximálnu veľkosť 2 GB a pri prekročení limitu sa pre danú doménu vytvorí viacero WARC súborov. Archivácia pracovných a log súborov sa komprimuje do súboru ZIP. Vznikne finálny WARC súbor s príponou súboru „warc.gz“.

WARC (Web Archive File Format)  je webový archívny formát, vytvorený pre archiváciu webového obsahu,  uchováva veľký počet dátových objektov rôznych formátov a typov. WARC formát zhromažďuje a  riadi veľa malých súborov vo veľkých systémových súboroch. Medzinárodný štandard ISO 28500: 2009 zdokumentoval súbor vo formáte WARC. Norma popisuje formát súboru webového archívu WARC, ktorý ponúka konvencie pre zreťazenie viacerých dátových objektov do jedného dlhého súboru.

Užitočné linky

Názov Popis
SK-NIC Stránka správy internetovej domény najvyššej úrovne .sk, ktorá je vyhradená pre slovenský internet.
Creative Commons Slovensko Creative Commons je americká nezisková organizácia, ktorej cieľom je rozšíriť množstvo autorských diel dostupných verejnosti k legálnemu využívaniu a zdieľaniu.
Creative Commons logo a HTML segment Výber z rôznych voľných licencií, ktoré je možné použiť pri sprístupnení svojho diela na webe.
Národná agentúra ISSN Národná agentúra ISSN je výkonný orgán Medzinárodného systému ISSN s ústredím v Paríži. Agentúra prideľuje ISSN periodickým publikáciám vydávaným na Slovensku.
Národný register ISSN Portál národnej databázy ISSN.
Národná agentúra ISBN Národná agentúra pre medzinárodné štandardné číslovanie dokumentov a medzinárodnú identifikáciu dokumentov.
URN:NBN – Trvalá identifikácia digitálnych objektov Jednotný názov prameňa (Uniform Resource Name- URN) určený na nezávislú trvalú a jednoznačnú identifikáciu digitálnych objektov.
Štatistiky domén SK Zbieranie štatistík o slovenskej národnej doméne “.sk”.
International Internet Preservation Consortium Medzinárodné konzorcium pre uchovávanie internetu.
Udržateľnosť digitálnych formátov LOC Faktory udržateľnosti, kategórie obsahu a opisy formátov v rámci plánu Library of Congress.
Archivovateľnosť webu LOC Sprievodca Library of Congress tvorbou archivovateľných webstránok.
Multilingual European Registration Agency of DOI Registračná agentúra DOI (DOI RA), ktorá poskytuje štandardný trvalý identifikátor pre akúkoľvek formu duševného vlastníctva v digitálnej sieti.
The European Library Online portál pre prístup k zbierkam národných a popredných knižníc Európy.
UK Web Archive Webový archív Spojeného kráľovstva Veľkej Británie a Severného Írska.
The British Library Národná knižnica Spojeného kráľovstva Veľkej Británie a Severného Írska.
Webarchiv – památník českého internetu Webový archív Českej republiky.
Portál Európskej únie Oficiálna webová lokalita Európskej Únie.

 

Print Friendly, PDF & Email

Partneri

Úrad vlády SR Operačný program informatizácia spoločnosti Ministerstvo kultúry Slovenskej republiky Európska únia
Tvoríme vedomostnú spoločnosť Spolufinancované z prostriedkov EFRR www.opis.gov.sk www.nsrr.sk