Semienka (zbierané URL) sa v jednotlivých zberoch počas takmer troch mesiacov kampane odlišovali. Do zberov sme postupne zaraďovali novovytvorené stránky kandidátov, stránka Webnovín si v priebehu kampane zmenila URL, kde sledovala dianie ohľadom volieb. Zmeny v súboroch zbieraných domén boli zaznamenané.
Jedná sa o tematický zber, nastavenia limitov teda boli 1 GB, 2 dni trvania zberu a 99999999 objektov na doménu.
Vyhodnotenie zberu podľa normy ISO/TR 14873 |
|
Number of granted permissions (Počet podpísaných zmlúv/počet oslovení) |
0/0 |
Number of nominations (proposed web sites) (Počet navrhovaných zdrojov) |
74 zdrojov |
Number od nominations successfully collected (partly or fully) (Počet úspešne zozbieraných zdrojov) |
72 (úspešne) |
Z celkového počtu 74 domén sme úspešne zozbierali 72 domén. Stránky denníkov boli vďaka dobre nastaveným výnimkám Heritrixu (Crawler traps) zozbierané bez zbytočných odskokov na nesúvisiace témy. V prípade Bratislavského kuriéra, systém prieskumu domény zistil, že nie je harvestovateľná. V zberoch konaných pred voľbami boli zbery stránky košického kandidáta Richarda Rašiho, neúspešné v dvoch prípadoch z neznámeho dôvodu a v ďalších dvoch kvôli chybe prieskumu domény. Úspešne máme archivovanú stránku prešovského kandidáta Andreja Gmittera, ktorá z internetu zmizla ešte pred termínom volieb.
Z pohľadu evidencie systémom sa za úspešne zozbierané považujú aj domény, ktoré majú nastavené obmedzenia v súbore robots.txt. pričom zozbieraný môže byť len tento súbor a na základe jeho rešpektovania – teoreticky, už nič iné z obsahu stránky. Takéto prípady nastali pri stránkach samosprávnych krajov Banskej Bystrice a Trnavy. Stránka Trenčianskeho samosprávneho kraja využíva redakčný systém Buxus, pri ktorom sme sa kvôli reštriktívnej politike robots.txt, už v minulosti stretli s nie verným zozbieraním obsahu. Pri ostatných stránkach krajov, stránkach denníkov či samotných kandidátov, sme problémové zobrazenie kvôli robots.txt nezaznamenali. Prehľad zozbieraných domén je dostupný v súbore.
Celkový zozbieraný objem počas trvania kampane je 96,7 GB.
Podrobnosti ohľadom objemu, počtu objektov a čase zberov jednotlivých domén je možné vidieť v reportoch zberu. V ďalších dvoch reportoch je možné vidieť štruktúru zozbieraných objektov a HTTP status kódy jednotlivých stránok.
Zvolení predsedovia VÚC
Archivované stránky zvolených predsedov samosprávnych krajov sú dostupné v Univerzitnej knižnici v Bratislave.

Archivovaný blog a stránka predsedu Bratislavského samosprávneho kraja Mgr. Juraja Drobu