Celoplošný zber 2016

V októbri 2016 v rámci Digitálnych prameňov prebehol aj celoplošný (celodoménový, komplexný) zber. Pre tento zber sme určili maximálne limity (na doménu) 5 000 objektov, 1 hodinu a 200 MB. Úspešne sa v ňom zozbieralo 278 610 domén slovacikálneho charakteru v objeme vyše 10 TB (Tab.).

Základné údaje po celodoménovom zbere

   MB  GB  TB  B
 Nekomprimovaná veľkosť 10963839 10706.87 10.456 11496418631813
 Komprimovaná veľkosť 7181265 7012.95 6.849 7530102562089
 Úspešných URL z katalógu DDP 278610      
 Neúspešných URL z katalógu DDP 16253    Spustenie 8:11:00
 Zrušených pre zber / vynechaných  z katalógu DDP 65765     7.10.2016
 Celkový počet URL z katalógu DDP 278642    Ukončenie 8:37:00
 Počet WARC 278663     11.10.2016

 

Graf rozdelenia podľa veľkosti domén v MB

graf-6-rozdelenia-podla-velkosti-domen-v-mb

Zo všetkých úspešne zozbieraných URL bola priemerná veľkosť zozbieraného obsahu na jednu doménu 39,35 Mb. Stránok skončených na limite počtu objektov bolo 8872. Aby sa správne ukončil zber po prekročení limitu 200 Mb, všetky už sťahované súbory po prekročení boli dokončené, teda ak sa pri prekročení limitu sťahoval napríklad súbor veľkosti 300 Mb, tak výsledný zber bol ukončený až po celom stiahnutí a uložený o veľkosti väčšej ako bol limit napríklad 500 Mb. Veľkosť do 1 Kb zodpovedá hlavne doménam ktoré existujú no na stránke sa nenachádza žiaden obsah. Do 1 Mb sú zväčša stránky obmedzené pomocou nastavení v súbore robots.txt, čiže archivovaný obsah je súbor s informáciou DNS servera a súbor robots.txt zakazujúci zber. O týchto obmedzujúcich nastaveniach často krát nevedia vlastníci stránok, keďže ich stiahli napríklad spolu so šablónou. Pri uzatváraní zmlúv sa tento súbor konzultuje, aby bolo možné vykonať archiváciu dôveryhodne a úplne.

Graf počtu zozbieraných objektov v tisícoch

 

graf-7pocet-zozbieranych-objektov-v-tisicoch

Najviac objektov sa vyzbieralo, ako sme predpokladali html obsahu, ktorý prevláda nad ostatnými s počtom objektov 106 milióna a priemerne jedna stránka obsahuje 380 html objektov. Veľa stránok obsahuje články a odkazy, ktoré majú osobitné adresy. Ako druhé sa umiestnili v počte objektov obrázkové formáty img, v ktorých dominoval najpoužívanejší JPEG formát s počtom 76 milióna objektov, hneď druhý bol formát png s počtom 14 mil. objektov. Ostatné obrázkové formáty ako bmp (3 mil.) , icon (754 tis.) a iné sa veľmi nevyužívali a preto boli v menších počtoch. Priemerne na jednu doménu pripadá 273 img objektov. K dizajnu stránky patria neodlúčiteľne aj kaskádové štýly css, čo sa potvrdilo s počtom 3,9 miliona, pričom ich priemer je 13 na doménu. Ďalší populárny formát je javascript s počtom 3.5 milióna. Medzi ostatné formáty patria rôzne ďalšie vyskytujúce sa zriedkavo alebo aj chybne zadané napríklad htl, csss, jpe a pod. Medzi najviac vyskytujúce sa formáty sa ďalej vyskytli ttf, zip, pdf, xml, dns, json a neznáme.

Graf zozbieraného objemu v TB

Nielen v počte objektov ale aj veľkosťou dominujú img a html formáty. Obrázkové img formáty majú najväčšiu veľkosť 4,97 TB, hneď za nimi je veľkosť html 3,23 TB, s priemerom na jeden objekt 32 KB. Na treťom mieste sa veľkostne umiestnili s veľkosťou 1,33 TB pdf formáty, ktorých priemerná veľkosť bola 1,1 MB. Na základe štatistík predpokladáme, že veľkosť formátu pdf by rástla aj pri ich menšom počte, ak by sa zber pustil bez obmedzení. Rovnako by rástla ja veľkosť img a html formátov, ktorá je ale úmerná počtu objektov zo zberu. Zvyšnú veľkosť zaberajú hlavne textové typy, no pri zbere multimediálnych alebo zip formátov vo väčšom množstve by sa aj niektoré ďalšie zaradili do popredia ako napríklad mp4, avi a pod.

One thought on “Celoplošný zber 2016”