Archívy a katalógy digitálnych prameňov

Archív WWW sídiel

Databázu Archív WWW sídel (archív webového obsahu) tvoria archívne kópie webových sídel (v špeciálnom archívnom formáte WARC). Kópie sa vytvárajú v procese zberu WWW sídel prostredníctvom nástrojov IS DIP. V závislosti na veľkosti WWW sídla majú WARC súbory rôznu veľkosť (od niekoľkých kB do rádovo 100 MB). V systéme IS DIP jednému webovému sídlu, ktoré je určené vstupnou URL adresou (tzv. semienko), odpovedá 1 WARC súbor. Základnou entitou, na ktorú sa viaže metadátová sada, je 1 zber 1 webového sídla. Pre zber je kľúčovým parametrom dátum zberu. Zároveň sa pre každé webové sídlo vytvára katalógový záznam, ktorý obsahuje opisné metaúdaje vo formáte MARC21. Ku každému WARC súboru sa v procese zberu ukladá aj skomprimovaný log súbor (o veľkosti rádovo 10ky kB). Archív WWW sídel je špecializované úložisko archivovaných WARC.

Technický popis: Archív WWW sídel je zdieľaný súborový systém, na ktorý sa ukladajú súbory WARC vytvorené špeciálnym programom – tzv. harvesterom. Zber (harvest) webového obsahu v systéme IS DIP sa uskutočňuje pomocou open source nástroja Heritrix. Nastavenie parametrov zberu a jeho spustenie zabezpečuje kurátor WWW v súlade s politikou zberu (Politika zberu DIP WWW).

Jedinečným identifikátorom entity je URN NBN (ID má tvar: urn:nbn:sk:ddp-<id objektu> – napr. urn:nbn:sk:ddp-wa0000001234

Na zobrazenie archivovaného webového obsahu slúži zobrazovací modul OpenWayback. Zabezpečuje transparentný prístup k uloženým dátam cez jednoduchú URL adresu. Archivované dáta a prislúchajúce metadáta sú uložené v archíve.

Archív elektronických dokumentov

Databázu Archív elektronických publikácií (Archív elektronických publikácií) tvoria archívne kópie elektronických publikácií v predpísanom archívnom formáte (PDF alebo e-Pub). Do archívu sa ukladajú tromi spôsobmi:

  • automatickým downloadom – systém automaticky stiahne súbory z externých liniek

  • uploadom

  • zberom – systém na základe kurátorom vytvorenej šablóny pre zber a pokynu pre vykonanie zberu spustí webharvesting príslušnej domény (URL pre webové seriály).

Dodané súbory sa ukladajú mimo archív a do archívu sa presunú až po potvrdení vkladu kurátorom.

Print Friendly, PDF & Email
Digitálne pramene | www.webdepozit.sk