Táto príručka by vám mala ozrejmiť, z čoho pozostáva práca digitalizátora, čo všetko je nutné k tomu, aby ste mohli prácu vykonávať efektívne a kvalitne. Zbežne si ju prečítajte predtým než sa zapojíte do projektu, podrobne si ju naštudujte hneď potom.
Základným predpokladom spolupráce na projekte je vlastniť počítač (a internet), skener (prípadne digitálny fotoaparát so statívom) a tzv. OCR softvér - najlepšie doma, keďže sa predpokladá, že prácu budete vykonávať najčastejšie po večeroch. Skenerom sa postupne do počítača stránka po stránke vloží celá kniha, OCR softvérom sa v nej rozpozná text tak, aby mohol byť v treťom kroku vašej práce pripravený pre čitateľa. Jadro vašej práce bude v treťom kroku.
Skenery dnes na trhu možno kúpiť za tri až päť tisíc korún, v zásade pre
digitalizáciu stačia skenery určené na text (nie na fotografie). Ich výhodou je,
že sú rýchlejšie a lacnejšie. Nevýhodou kúpy lacnejšieho zariadenia je, že k
nemu nedostanete softvér na rozpoznávanie textu a preto si ho budete musieť
dokúpiť.
V niektorých prípadoch sa namiesto skenera oplatí vlastniť digitálny fotoaparát. Pomocou dobre nastaviteľného stojana možno rovnaký efekt ako so skenerom dosiahnuť sériou fotografií jednotlivých strán knihy, tento spôsob digitalizácie vás odmení úsporou času. Nie vždy však takáto práca splní efekt - ak máte malú pamäťovú kartu, budete ju musieť viackrát vymieňať. Fotografovať budete musieť vo väčšom rozlíšení (odporúča sa 1024x768 a vyššie) a pred každou knihou, ktorú začnete skenovať si budete musieť odskúšať, či si s ňou OCR softvér skutočne poradí (tu platí, čím menšie písmená, tým väčšia šanca, že digitálny fotoaparát nemusí stačiť).
Digitálny fotoaparát výslovne radíme použiť v prípade kníh starších ako 80 rokov. Týmto by mohol skener poškodiť väzbu, v prípade ešte starších tlačí môže hlava skenera tiež narušiť štruktúru papiera.
Softvér na rozpoznávanie textu (tiež nazývaný OCR) je program, ktorý z naskenovaného obrázka knihy vytvorí plný text. Robí to tak, že jednotlivé písmenka knihy porovnáva s písmenami vo svojej databáze a následne generuje čistý text, ktorý potom môžeme uložiť ako *.txt. Samozrejme, nie vždy písmená rozpozná správne - najväčšia časť práce digitalizátora preto spočíva práve v kontrolovaní výstupu a jeho formátovaní.
Najlepším programom v tejto triede je komerčný program ABBYY FineReader. Napriek tomu, že program nie je celkom najlacnejší, je dobrým zvykom niektorú z jeho jednoduchších verzií dodávať priamo so skenerom. Skontrolujte preto inštalačné CD k vášmu skeneru, je dosť možné, že tam FineReader nájdete. Skúšobnú verziu funkčnú jeden mesiac možno nájsť aj na internete.
Ak chceme začať digitalizovať, asi by sme si mali najskôr vybrať, čo budeme digitalizovať. Zoznam "voľných" diel slovenskej literatúry nájdete na tejto adrese. Zoznam diel, na ktorých sa na Slovensku pracuje, alebo sú už hotové, nájdete tu. Pred výberom diela sa s nami skontaktujte; prediskutujeme spolu váš výber diela!
Druhou je potom otázka z ktorého vydania vychádzať. Najnovšia či najstaršia — o tomto by sa dali viesť dlhé debaty. Ak nie je v zozname údaj o vydaní priamo uvedený (s výberom "ideálneho" vydania nám pomáha Ústav slovenskej literatúry Slovenskej akadémie vied), výber v tomto prípade s nami konzultujte. To urobte aj vtedy, ak sa neviete dostať k predpísanému vydaniu.
Nainštalujte si skener podľa návodu, ktorý dodal jeho výrobca, pripojte ho k počítaču a overte, či pracuje správne. Nainštalujte si program ABBYY FineReader a spustite ho.
V rozbaľovacej ponuke jazyka vyberte slovenčinu! Ak zabudnete nastaviť
ako jazyk slovenčinu, po skenovaní budete musieť čakať ešte približne desať
minút na dokončenie rozpoznávania textu. Kliknite na šípku pri prvej ikone a vyberte možnosť "Scan & Read Multiple
Images".
Tip: Predtým ako začnete skenovať, je dobré si nastaviť vlastnosti skenovania tak, aby ste zbytočne neskenovali prázdnu plochu skenera, na ktorej nie je položená kniha. Kliknite na šípku pri druhej ikone (Scan alebo Open image) a zvoľte Options. Zaškrtnite FineReader interface. Ak sa vám na skener zmestia obe strany knihy, zaškrtnite Split dual pages, rozdelí vám to obrázok na dve strany. Ak je kniha, napr. z knižnice, popísaná, môžete zaškrtnúť Despeckle images a program sa bude snažiť nečistoty odstrániť. Teraz kliknite na Scaner settings... a podľa typu skenera nastavte Režim skenovania na Čiernobiely (pri starších a zažltnutých knihách je výhodnejšie použiť Šedý režim), Rozlíšenie na cca 300 DPI a prípadne nastavte aj ohraničenie plochy, ktorá ma byť oskenovaná.
Teraz sa Vám otvorilo okno, ktoré Vám umožní skenovať predlohu a priebežne ju vkladať na spracovanie programu FineReader. Každý skenovací nástroj vyzerá inak, každý by Vám však mal umožniť nastaviť tieto tri podstatné nastavenia:
Teraz otvorte knihu na prvej strane a vložte ju do skenera. Programu je jedno, či bude výsledný obrázok naopak, alebo otočený doľava - dôležité je dostať do skenera všetok text z každej strany knihy - na to klaďte dôraz. Ak sú strany menšie, pokojne môžete skenovať dve naraz, pri väčších formátoch bude treba každú prikladať zvlášť. Počas skenovania nechajte veko skenera otvorené, pomáhajte si rukou tak, aby sa preskenovali aj časti strany umiestnene bližšie k väzbe.
Po stlačení tlačidla "Skenovať" ("Scan") začne hlava skenera načítavať aktuálnu stranu, počkajte, kým proces úplne neprebehne, otočte stranu a pokračujte. Kým bude prebiehať skenovanie ďalšej strany, FineReader predchádzajúcu stranu spracuje. Po skončení práce bude v knihe kompletne rozpoznaný text.
Preklikajte jednotlivé stránky textu (ich výber máte k dispozícii v ľavom menu) a opticky skontrolujte, či program správne rozpoznal každú z nich.
Ak pri strane svieti výstražný trojuholník, program zrejme počas práce narazil na nejaký problém (zlý výber jazyka, nízka kvalita predlohy ap.). Prezrite, či FineReader správne otočil stránku a vyznačil plochy, v ktorých je text. Ak je to nutné, preskenujte zlú stránku ešte raz a vložte ju ťahaním v zozname stránok na správne miesto.
Kliknite na "Check spelling" (kontrola pravopisu) a skontrolujte pravopis na všetkých stránkach. V hornej časti okna vidíte pôvodnú predlohu, to Vám opravovanie zjednoduší. Pozor! Nevynechajte tento krok, aj keď zaberie viac času. Veľmi Vám zjednoduší neskoršiu prácu!
Teraz môžeme projekt vložiť. Z menu File vyberte možnosť "Send all pages to" a zvoľte "Clipboard".
Spustite program Poznámkový blok (Notepad) z Štart -> Programy (Programs) -> Príslušenstvo (Accessories) -> Poznámkový blok (Notepad) a stlačte klávesovú skratku Ctrl+V (alebo tiež Úpravy - > Vložiť). Z menu File (Súbor) zvoľte Save (Vložiť) a súbor uložte na disk ako súbor s príponou *.txt.
Teraz môžete spustiť program zfEdit a výsledný text konečne zeditovať a sformátovať.
Text, ktorý ste získali po OCR spracovaní programom ABBYY FineReader otvorte v programe zfEdit. Otvorte si knihu, ktorú ste skenovali a dôkladne slovo po slove kontrolujte chyby. Dodržiavajte pri tom tieto zásady:
V súbore teraz ostal iba kontinuálny text, do ktorého pomocou tzv. meta značiek pridáme potrebné formátovanie.
Postup je vo Veľkej príručke digitalizátora.
Text diela odovzdajte vo formáte txt upravený špeciálnymi značkami. Pri formátovaní si môžete pomôcť programom zfEdit.
V programe zfEdit sa prekliknite na položku Informácie o knihe a vyplňte všetky známe údaje. Pri ukladaní sa okrem textového súboru s dielom vygeneruje aj špeciálny *.ini súbor, ktorý nám pošlite
Pri každom diele zvyknú byť umiestnené aj rôzne sprievodné texty ako poznámka editora, doslov, úvod. Tieto strany nemusíte formátovať, stačí keď nám ich pošlete oskenované. Súbory s obrázkami zbaľte vo formáte zip a priložte.
Copyright © 2006-2009 Petit Press, a.s. Všetky práva vyhradené. Zlatý fond je projektom denníka SME.
Web design by abaffy design © 2007
Autorské práva k literárnym dielam