Základné údaje po celodoménovom zbere
MB | GB | TB | B | |
Nekomprimovaná veľkosť | 10963839 | 10706.87 | 10.456 | 11496418631813 |
Komprimovaná veľkosť | 7181265 | 7012.95 | 6.849 | 7530102562089 |
Úspešných URL z katalógu DDP | 278610 | |||
Neúspešných URL z katalógu DDP | 16253 | Spustenie | 8:11:00 | |
Zrušených pre zber / vynechaných z katalógu DDP | 65765 | 7.10.2016 | ||
Celkový počet URL z katalógu DDP | 278642 | Ukončenie | 8:37:00 | |
Počet WARC | 278663 | 11.10.2016 |
Graf rozdelenia podľa veľkosti domén v MB
Zo všetkých úspešne zozbieraných URL bola priemerná veľkosť zozbieraného obsahu na jednu doménu 39,35 Mb. Stránok skončených na limite počtu objektov bolo 8872. Aby sa správne ukončil zber po prekročení limitu 200 Mb, všetky už sťahované súbory po prekročení boli dokončené, teda ak sa pri prekročení limitu sťahoval napríklad súbor veľkosti 300 Mb, tak výsledný zber bol ukončený až po celom stiahnutí a uložený o veľkosti väčšej ako bol limit napríklad 500 Mb. Veľkosť do 1 Kb zodpovedá hlavne doménam ktoré existujú no na stránke sa nenachádza žiaden obsah. Do 1 Mb sú zväčša stránky obmedzené pomocou nastavení v súbore robots.txt, čiže archivovaný obsah je súbor s informáciou DNS servera a súbor robots.txt zakazujúci zber. O týchto obmedzujúcich nastaveniach často krát nevedia vlastníci stránok, keďže ich stiahli napríklad spolu so šablónou. Pri uzatváraní zmlúv sa tento súbor konzultuje, aby bolo možné vykonať archiváciu dôveryhodne a úplne.
Graf počtu zozbieraných objektov v tisícoch
Najviac objektov sa vyzbieralo, ako sme predpokladali html obsahu, ktorý prevláda nad ostatnými s počtom objektov 106 milióna a priemerne jedna stránka obsahuje 380 html objektov. Veľa stránok obsahuje články a odkazy, ktoré majú osobitné adresy. Ako druhé sa umiestnili v počte objektov obrázkové formáty img, v ktorých dominoval najpoužívanejší JPEG formát s počtom 76 milióna objektov, hneď druhý bol formát png s počtom 14 mil. objektov. Ostatné obrázkové formáty ako bmp (3 mil.) , icon (754 tis.) a iné sa veľmi nevyužívali a preto boli v menších počtoch. Priemerne na jednu doménu pripadá 273 img objektov. K dizajnu stránky patria neodlúčiteľne aj kaskádové štýly css, čo sa potvrdilo s počtom 3,9 miliona, pričom ich priemer je 13 na doménu. Ďalší populárny formát je javascript s počtom 3.5 milióna. Medzi ostatné formáty patria rôzne ďalšie vyskytujúce sa zriedkavo alebo aj chybne zadané napríklad htl, csss, jpe a pod. Medzi najviac vyskytujúce sa formáty sa ďalej vyskytli ttf, zip, pdf, xml, dns, json a neznáme.
Graf zozbieraného objemu v TB
Nielen v počte objektov ale aj veľkosťou dominujú img a html formáty. Obrázkové img formáty majú najväčšiu veľkosť 4,97 TB, hneď za nimi je veľkosť html 3,23 TB, s priemerom na jeden objekt 32 KB. Na treťom mieste sa veľkostne umiestnili s veľkosťou 1,33 TB pdf formáty, ktorých priemerná veľkosť bola 1,1 MB. Na základe štatistík predpokladáme, že veľkosť formátu pdf by rástla aj pri ich menšom počte, ak by sa zber pustil bez obmedzení. Rovnako by rástla ja veľkosť img a html formátov, ktorá je ale úmerná počtu objektov zo zberu. Zvyšnú veľkosť zaberajú hlavne textové typy, no pri zbere multimediálnych alebo zip formátov vo väčšom množstve by sa aj niektoré ďalšie zaradili do popredia ako napríklad mp4, avi a pod.
One thought on “Celoplošný zber 2016”