Existuje seznam digitalizovaných matrik pro SOA Zámrsk. Je uložen ve formátu pdf a je dostupný ke stažení http://vychodoceskearchivy.cz/zamrsk/files/2012/09/digimatriky.pdf. Měl by být průběžně aktualizován při přidání nových digitalizovaných matrik. Toto se však neděje, i když jsou nové digitalizované matriky již dostupné ke stažení. Důvod je známý. SOA Zámrsk nemá informatika, který by toto prováděl. Existují tedy digitalizované matriky, které jsou již přístupné, ale nejsou v seznamu digitalizovaných matrik uvedené.
Protože existuje vazba mezi signaturou matriky a výsledným odkazem, rozhodl jsem se zveřejnit seznam všech odkazů, kde se dají stáhnout i matriky, které v oficiálním výše uvedeném seznamu nejsou.
Napsal jsem skript, který z pdf souboru obsahujícího inventární seznam všech matrik v SOA Zámrsk (http://vychodoceskearchivy.cz/zamrsk/files/2011/11/8700_Sbírka-matrik-východočeského-kraje-1587-1949_NAD_190.pdf) vytvoří textový soubor obsahující odkazy na digitalizované matriky. Obsahuje odkazy na již zveřejněné matriky, ale i odkazy na matriky ještě nezveřejněné nebo dosud nezdigitalizované.
Princip fungování skriptu je jednoduchý. Převádí pdf soubor na textový a ten pak upravuje. Je napsaný v bashi a využívá programy pdftotext, grep, sed a awk. Vyžaduje už stažený soubor inventar.pdf, ze kterého vychází.
Převodní skript:
Výsledek převodu je textový soubor s odkazy. Kvůli velikosti je zde zazipovaný:
Dá se využít třeba jako podklad pro automatické stahování matrik (např. pomocí programu wget) nebo kontrolu aktualizace nových nezveřejněných matrik.
Druhý skript, který se dá pravidelně pouštět, právě kontroluje, které soubory z odkazů na internetu SOA Zámrsk již existují a které ještě ne. Využívá předchozí vytvořený soubor zamrsk-matriky.txt a program wget. Výsledkem je soubor s logem tohoto programu. Je pojmenovaný YYYY-MM-DD-HH-mm.log, kde YYYY je rok, MM měsíc, DD den, HH hodiny a mm minuty podle data a času spouštění. Uvnitř souboru jsou odkazy na matriky a jestli digitalizované verze matriky existuje nebo neexistuje. V případě, že existuje, je u odkazu na konci řádku OK. V případě, že neexistuje, je zde uvedeno Vzdálený soubor neexistuje - slepý odkaz.
Ověřovací skript:
Výsledné logy lze porovnávat a zjišťovat tak přírůstky nově přidaných matrik.
Přikládám zazipovaný log neboli výsledek druhého skriptu:
Jinými slovy, tento soubor prozrazuje, které matriky jsou dostupné a které zatím ne.
Vybrané záznamy s OK na konci jsou požadované online matriky. Toto je cílový a požadovaný soubor. Budu se jej snažit průběžně aktualizovat.
Skripty doporučuji používat pouze zkušenějším uživatelům linuxu.
Online matriky:
zamrsk-matriky-online-2011-11-03.txt
zamrsk-matriky-online-2011-02-23-21-17.log
zamrsk-matriky-online-2011-04-15.log