Zlatý fond > Príručka zfEdit

Príručka zfEdit

Táto príručka by vám mala ozrejmiť, z čoho pozostáva práca digitalizátora, čo všetko je nutné k tomu, aby ste mohli prácu vykonávať efektívne a kvalitne. Zbežne si ju prečítajte predtým než sa zapojíte do projektu, podrobne si ju naštudujte hneď potom.

Základným predpokladom spolupráce na projekte je vlastniť počítač (a internet), skener (prípadne digitálny fotoaparát so statívom) a tzv. OCR softvér - najlepšie doma, keďže sa predpokladá, že prácu budete vykonávať najčastejšie po večeroch. Skenerom sa postupne do počítača stránka po stránke vloží celá kniha, OCR softvérom sa v nej rozpozná text tak, aby mohol byť v treťom kroku vašej práce pripravený pre čitateľa. Jadro vašej práce bude v treťom kroku.

Skener

Skenery dnes na trhu možno kúpiť za tri až päť tisíc korún, v zásade pre digitalizáciu stačia skenery určené na text (nie na fotografie). Ich výhodou je, že sú rýchlejšie a lacnejšie. Nevýhodou kúpy lacnejšieho zariadenia je, že k nemu nedostanete softvér na rozpoznávanie textu a preto si ho budete musieť dokúpiť.

V niektorých prípadoch sa namiesto skenera oplatí vlastniť digitálny fotoaparát. Pomocou dobre nastaviteľného stojana možno rovnaký efekt ako so skenerom dosiahnuť sériou fotografií jednotlivých strán knihy, tento spôsob digitalizácie vás odmení úsporou času. Nie vždy však takáto práca splní efekt - ak máte malú pamäťovú kartu, budete ju musieť viackrát vymieňať. Fotografovať budete musieť vo väčšom rozlíšení (odporúča sa 1024x768 a vyššie) a pred každou knihou, ktorú začnete skenovať si budete musieť odskúšať, či si s ňou OCR softvér skutočne poradí (tu platí, čím menšie písmená, tým väčšia šanca, že digitálny fotoaparát nemusí stačiť).

Digitálny fotoaparát výslovne radíme použiť v prípade kníh starších ako 80 rokov. Týmto by mohol skener poškodiť väzbu, v prípade ešte starších tlačí môže hlava skenera tiež narušiť štruktúru papiera.

OCR program

Softvér na rozpoznávanie textu (tiež nazývaný OCR) je program, ktorý z naskenovaného obrázka knihy vytvorí plný text. Robí to tak, že jednotlivé písmenka knihy porovnáva s písmenami vo svojej databáze a následne generuje čistý text, ktorý potom môžeme uložiť ako *.txt. Samozrejme, nie vždy písmená rozpozná správne - najväčšia časť práce digitalizátora preto spočíva práve v kontrolovaní výstupu a jeho formátovaní.

Najlepším programom v tejto triede je komerčný program ABBYY FineReader. Napriek tomu, že program nie je celkom najlacnejší, je dobrým zvykom niektorú z jeho jednoduchších verzií dodávať priamo so skenerom. Skontrolujte preto inštalačné CD k vášmu skeneru, je dosť možné, že tam FineReader nájdete. Skúšobnú verziu funkčnú jeden mesiac možno nájsť aj na internete.

Výber predlohy

Ak chceme začať digitalizovať, asi by sme si mali najskôr vybrať, čo budeme digitalizovať. Zoznam "voľných" diel slovenskej literatúry nájdete na tejto adrese. Zoznam diel, na ktorých sa na Slovensku pracuje, alebo sú už hotové, nájdete tu. Pred výberom diela sa s nami skontaktujte; prediskutujeme spolu váš výber diela!

Druhou je potom otázka z ktorého vydania vychádzať. Najnovšia či najstaršia — o tomto by sa dali viesť dlhé debaty. Ak nie je v zozname údaj o vydaní priamo uvedený (s výberom "ideálneho" vydania nám pomáha Ústav slovenskej literatúry Slovenskej akadémie vied), výber v tomto prípade s nami konzultujte. To urobte aj vtedy, ak sa neviete dostať k predpísanému vydaniu.

Skenovanie a OCR

Nainštalujte si skener podľa návodu, ktorý dodal jeho výrobca, pripojte ho k počítaču a overte, či pracuje správne. Nainštalujte si program ABBYY FineReader a spustite ho.

Pre väčší pohľad kliknite na obrázok

V rozbaľovacej ponuke jazyka vyberte slovenčinu! Ak zabudnete nastaviť ako jazyk slovenčinu, po skenovaní budete musieť čakať ešte približne desať minút na dokončenie rozpoznávania textu. Kliknite na šípku pri prvej ikone a vyberte možnosť "Scan & Read Multiple Images".

Tip: Predtým ako začnete skenovať, je dobré si nastaviť vlastnosti skenovania tak, aby ste zbytočne neskenovali prázdnu plochu skenera, na ktorej nie je položená kniha. Kliknite na šípku pri druhej ikone (Scan alebo Open image) a zvoľte Options. Zaškrtnite FineReader interface. Ak sa vám na skener zmestia obe strany knihy, zaškrtnite Split dual pages, rozdelí vám to obrázok na dve strany. Ak je kniha, napr. z knižnice, popísaná, môžete zaškrtnúť Despeckle images a program sa bude snažiť nečistoty odstrániť. Teraz kliknite na Scaner settings... a podľa typu skenera nastavte Režim skenovania na Čiernobiely (pri starších a zažltnutých knihách je výhodnejšie použiť Šedý režim), Rozlíšenie na cca 300 DPI a prípadne nastavte aj ohraničenie plochy, ktorá ma byť oskenovaná.

Teraz sa Vám otvorilo okno, ktoré Vám umožní skenovať predlohu a priebežne ju vkladať na spracovanie programu FineReader. Každý skenovací nástroj vyzerá inak, každý by Vám však mal umožniť nastaviť tieto tri podstatné nastavenia:

  • Spôsob skenovania - Vyberte možnosť "Normal".
  • Kvalita/hĺbka skenovania udáva sa v DPI (bodov na jeden palec skenovanej predlohy). Hoci skenery umožňujú obrázky načítať vo vysokých kvalitách, nám podľa veľkosti textu bude úplne stačiť nastaviť príslušnú hodnotu na 300-400 DPI (program vám upozorní, ak by kvalita skenovania bola prinízka).
  • Spôsob spracovania - skenovacie nástroje umožňujú na export poslať naskenovanú predlohu v rôznych kvalitách - od plnofarebných obrázkov, cez čiernobiele, až po monochromatické. Nám postačí tretia možnosť, v ktorej sa obrázok zmení na dve farby - bielu a čiernu. Toto nastavenie síce nezrýchli proces skenovania, podstatne ale zmenší veľkosť výsledného obrázku, takže si budete môcť omnoho jednoduchšie archivovať naskenované predlohy vašich kníh pre potreby budúcich opráv.

Teraz otvorte knihu na prvej strane a vložte ju do skenera. Programu je jedno, či bude výsledný obrázok naopak, alebo otočený doľava - dôležité je dostať do skenera všetok text z každej strany knihy - na to klaďte dôraz. Ak sú strany menšie, pokojne môžete skenovať dve naraz, pri väčších formátoch bude treba každú prikladať zvlášť. Počas skenovania nechajte veko skenera otvorené, pomáhajte si rukou tak, aby sa preskenovali aj časti strany umiestnene bližšie k väzbe.

Po stlačení tlačidla "Skenovať" ("Scan") začne hlava skenera načítavať aktuálnu stranu, počkajte, kým proces úplne neprebehne, otočte stranu a pokračujte. Kým bude prebiehať skenovanie ďalšej strany, FineReader predchádzajúcu stranu spracuje. Po skončení práce bude v knihe kompletne rozpoznaný text.

Preklikajte jednotlivé stránky textu (ich výber máte k dispozícii v ľavom menu) a opticky skontrolujte, či program správne rozpoznal každú z nich.

Ak pri strane svieti výstražný trojuholník, program zrejme počas práce narazil na nejaký problém (zlý výber jazyka, nízka kvalita predlohy ap.). Prezrite, či FineReader správne otočil stránku a vyznačil plochy, v ktorých je text. Ak je to nutné, preskenujte zlú stránku ešte raz a vložte ju ťahaním v zozname stránok na správne miesto.

Kliknite na "Check spelling" (kontrola pravopisu) a skontrolujte pravopis na všetkých stránkach. V hornej časti okna vidíte pôvodnú predlohu, to Vám opravovanie zjednoduší. Pozor! Nevynechajte tento krok, aj keď zaberie viac času. Veľmi Vám zjednoduší neskoršiu prácu!

Teraz môžeme projekt vložiť. Z menu File vyberte možnosť "Send all pages to" a zvoľte "Clipboard".

Spustite program Poznámkový blok (Notepad) z Štart -> Programy (Programs) -> Príslušenstvo (Accessories) -> Poznámkový blok (Notepad) a stlačte klávesovú skratku Ctrl+V (alebo tiež Úpravy - > Vložiť). Z menu File (Súbor) zvoľte Save (Vložiť) a súbor uložte na disk ako súbor s príponou *.txt.

Teraz môžete spustiť program zfEdit a výsledný text konečne zeditovať a sformátovať.

Formátovanie

Text, ktorý ste získali po OCR spracovaní programom ABBYY FineReader otvorte v programe zfEdit. Otvorte si knihu, ktorú ste skenovali a dôkladne slovo po slove kontrolujte chyby. Dodržiavajte pri tom tieto zásady:

  • text prezerajte pomaly, pozorne
  • jednotlivé ucelené časti textu prejdite po prvej kontrole ešte druhýkrát bez použitia predlohy tak, že text jednoducho znova prečítate.
  • po dvoch hodinách kontrolovania si dajte polhodinovú prestávku.
  • textu knihy odstráňte všetko mimo samotného znenia diela, názvov jeho kapitol, poznámok a podobne. Preč teda treba dať najmä čísla strán, hlavičky, pätičky, aj názov celého diela, informácie o jeho vydavateľovi a iné informácie - - tie sa budú sústreďovať v špeciálnej sekcii.

V súbore teraz ostal iba kontinuálny text, do ktorého pomocou tzv. meta značiek pridáme potrebné formátovanie.

Ako formátovať text?

Postup je vo Veľkej príručke digitalizátora.

Text diela

Text diela odovzdajte vo formáte txt upravený špeciálnymi značkami. Pri formátovaní si môžete pomôcť programom zfEdit.

Bibliografické údaje

V programe zfEdit sa prekliknite na položku Informácie o knihe a vyplňte všetky známe údaje. Pri ukladaní sa okrem textového súboru s dielom vygeneruje aj špeciálny *.ini súbor, ktorý nám pošlite

Poznámky editora a štúdie

Pri každom diele zvyknú byť umiestnené aj rôzne sprievodné texty ako poznámka editora, doslov, úvod. Tieto strany nemusíte formátovať, stačí keď nám ich pošlete oskenované. Súbory s obrázkami zbaľte vo formáte zip a priložte.

Copyright © 2006-2009 Petit Press, a.s. Všetky práva vyhradené. Zlatý fond je projektom denníka SME.
Web design by abaffy design © 2007

Autorské práva k literárnym dielam   

Ďalšie weby skupiny: Prihlásenie do Post.sk Új Szó Slovak Spectator
Vydavateľstvo Inzercia Osobné údaje Návštevnosť webu Predajnosť tlače Petit Academy SME v škole
© Copyright 1997-2018 Petit Press, a.s.