Informační list č. 4/2020: Kontrola komponent ve validátoru SIP národního digitálního archivu

V návaznosti na zveřejněná Pravidla vyplňování metadat komponent v balíčku SIP v bodě 3/2020 Informačního listu, částka 6/2020, sdělujeme, že od nejbližší nové verze validátoru SIP Národního archivu, přístupného na adrese https://validatorsip.nacr.cz, budou tato pravidla aplikována v nově zařazených kontrolách komponent a jejich metadat. Zatímco dosud byl u komponent pouze ověřován deklarovaný MIMETYPE vůči identifikovanému formátu (kontrola 16.4.), bude přehled pravidel obohacen o novou kapitolu 27, která bude obsahovat:

  1. Kontroly metadat – vyplnění atributů prvku <nsesss: Komponenta> Pořadí, Verze, Druh. Tyto kontroly se budou týkat digitálních dokumentů navrhovaných do výběru archiválií ve skartačním řízení i předávaných k trvalému uložení do archivu.
  2. Kontroly, zda u dokumentu existuje verze komponenty, která odpovídá Formátovým pravidlům pro předávání souborů do archivu. Tzn. je porovnáván identifikovaný formát, deklarovaná forma uchování příslušné komponenty, případná souvislost s ostatními komponentami v dokumentu (např. pozdější verze originál ve výstupním datovém formátu po originálu) a Formátová pravidla pro předávání souborů. Tyto kontroly budou uplatněny pouze u digitálních dokumentů, uzavřených/ vyřízených od 1. 8. 2012 včetně a předávaných k trvalému uložení do archivu.

Pro účely transparentního zveřejnění postupu kontrol identifikovaných souborů, byl vytvořen přehled formátů komponent (tzv. Formátová pravidla pro předávání souborů do archivu), který se stává součástí Přehledu pravidel Validátoru SIP a bude, spolu s validátorem SIP, průběžně aktualizován.

Jedná se o seznam formátů využívající primárně záznamy formátového registru PRONOM (https://www.nationalarchives.gov.uk/PRONOM/Default.aspx) s uvedením příslušného PUID (PRONOM Unique Identifier), MIMETYPE (pokud existuje), přípony (extenze), obecné kategorie formátu a doporučeného výstupního formátu (viz sloupce „Výstupní formát“ a „Výstupní formát alternativně I“ a „Výstupní formát alternativně II“).

Ve sloupci „Výstupní formát“ je vždy vyznačeno

  1. zda se jedná o výstupní datový formát podle § 23 Vyhlášky,
  2. výstupní datový formát vyplývající z Vyhlášky
  3. výstupní datový formát doporučovaný Národním archivem nebo
  4. informace, že lze daný formát ponechat (tzn. není nutné převádět do výstupního datového formátu).
  5. informace, že formát obsahuje adresáře nebo soubory, které je třeba rozbalit
  6. informace, že k dalšímu postupu v řízení je nutné individuální posouzení archivářem, který rozhodne, že daný formát lze přijmout k trvalému uložení (např. u formátů databází)

Ve sloupci „Výstupní formát alternativně I“ a „Výstupní formát alternativně II“ mohou být zaznamenány informace dle bodů b), c), d) a f).

Sloupec „Originál vždy (doporučeno)“ zahrnuje formáty, u kterých se doporučuje předat i originál/koncept v původním formátu (např. z důvodu možného strojového zpracování).

Pro snazší orientaci bude u chyb vyvolaných nesouladem v identifikaci formátu ve webovém validátoru https://validatorsip.nacr.cz vypsán identifikovaný formát a příslušný očekávaný formát, příp. akce „rozbalit“.

Upozorňujeme, že pro ověření MIMETYPE vůči formátovým registrům (kontrola č. 16.1.3) a kromě již aplikovaného porovnání s IANA byl v návaznosti na postup identifikace formátu pomocí nástroje DROID http://digital-preservation.github.io/droid/, přidán i referenční registr PRONOM (https://www.nationalarchives.gov.uk/PRONOM/Default.aspx).

Zdroj: https://www.nacr.cz/verejnost/2-predarchivni-pece/verejnopravni-puvodci/informacni-list/castka-7-2020#c4-2020