E-knihy a ich formáty: DjVu - jeho história, klady, zápory a vlastnosti

Začiatkom 70. rokov sa to americkému spisovateľovi Michaelovi Hartovi podarilo dostať neobmedzený prístup k počítaču Xerox Sigma 5 nainštalovanému na University of Illinois. Aby dobre využil zdroje stroja, rozhodol sa vytvoriť prvú elektronickú knihu, v ktorej bola dotlačená Deklarácia nezávislosti USA.

Digitálna literatúra sa dnes rozšírila najmä vďaka vývoju prenosných zariadení (smartfóny, elektronické čítačky, notebooky). To viedlo k vzniku veľkého množstva formátov elektronických kníh. Pokúsme sa pochopiť ich vlastnosti a povedať históriu najobľúbenejších z nich - začnime s formátom DjVu.

E-knihy a ich formáty: DjVu - jeho história, klady, zápory a vlastnosti
/Flickr/ Lane Pearman / CC

Vznik formátu

DjVu bol vyvinutý v roku 1996 AT&T Labs s jediným cieľom – poskytnúť webovým vývojárom nástroj na distribúciu obrázkov vo vysokom rozlíšení cez internet.

Faktom je, že v tom čase je 90% všetkých informácií stále bol uložený na papieri a mnohé z dôležitých dokumentov mali farebné obrázky a fotografie. Pre zachovanie čitateľnosti textu a kvality obrázkov bolo potrebné robiť skeny vo vysokom rozlíšení.

Klasické webové formáty – JPEG, GIF a PNG – umožňovali s takýmito obrázkami pracovať, no za cenu objemu. V prípade JPEG tak, že text bol prečítaný na obrazovke monitora som musel dokument naskenovať s rozlíšením 300 dpi. Farebná stránka časopisu zaberala asi 500 KB. Sťahovanie súborov tejto veľkosti z internetu bolo v tom čase pomerne náročným procesom.

Alternatívou bola digitalizácia papierových dokumentov pomocou technológií OCR, no pred 20 rokmi mala ich presnosť ďaleko od ideálu – po spracovaní musel byť konečný výsledok vážne ručne upravovaný. Grafika a obrázky zároveň zostali „cez palubu“. A aj keď bolo možné vložiť naskenovaný obrázok do textového dokumentu, niektoré vizuálne detaily sa stratili, napríklad farba papiera, jeho textúra, a to sú dôležité súčasti historických dokumentov.

Aby sa tieto problémy vyriešili, AT&T vyvinulo DjVu. Umožnil komprimovať naskenované farebné dokumenty s rozlíšením 300 dpi na 40–60 KB, s veľkosťou originálu 25 MB. DjVu zmenšil veľkosť čiernobielych stránok na 10–30 KB.

Ako DjVu komprimuje dokumenty

DjVu dokáže pracovať s naskenovanými papierovými dokumentmi aj inými digitálnymi formátmi, ako je napríklad PDF. Ako funguje DjVu lži technológia, ktorá rozdeľuje obrázok na tri zložky: popredie, pozadie a čiernobiela (bitová) maska.

Maska sa uloží v rozlíšení pôvodného súboru a obsahuje obrázok textu a iné jasné detaily - jemné čiary a diagramy - ako aj kontrastné obrázky.

Má rozlíšenie 300 dpi, aby boli jemné čiary a obrysy písmen ostré, a je komprimovaný pomocou algoritmu JB2, čo je variácia algoritmu JBIG2 spoločnosti AT&T na faxovanie. Funkcia JB2 je čo robí, je, že hľadá duplicitné znaky na stránke a ich obrázok uloží iba raz. Vo viacstranových dokumentoch teda každých niekoľko po sebe idúcich strán zdieľa spoločný „slovník“.

Pozadie obsahuje textúru stránky a ilustrácie a jeho rozlíšenie je nižšie ako rozlíšenie masky. Bezstratové pozadie sa uloží s rozlíšením 100 dpi.

popredia drží farebná informácia o maske a jej rozlíšenie sa zvyčajne ešte viac zníži, pretože vo väčšine prípadov je farba textu čierna a rovnaká pre jeden vytlačený znak. Používa sa na kompresiu popredia a pozadia vlnková kompresia.

Poslednou fázou vytvárania dokumentu DjVu je entropické kódovanie, keď adaptívny aritmetický kódovač premení sekvencie identických znakov na binárnu hodnotu.

Výhody formátu

Úlohou DjVu bolo udržať „vlastnosti“ papierového dokumentu v digitálnej forme, čo umožňuje aj slabým počítačom pracovať s takýmito dokumentmi. Preto má softvér na prezeranie súborov DjVu schopnosť „rýchleho vykresľovania“. Vďaka jej na pamiatku načítava iba tú časť stránky DjVu, ktorá by sa mala zobraziť na obrazovke.

To tiež umožňuje prezeranie „nestiahnutých“ súborov, teda jednotlivých stránok viacstranového dokumentu DjVu. V tomto prípade sa používa progresívne vykresľovanie detailov obrázka, keď sa komponenty pri sťahovaní súboru „zobrazujú“ (ako v JPEG).

Pred 20 rokmi, keď bol tento formát uvedený, sa stránka načítala v troch fázach: najprv sa načítal textový komponent, po niekoľkých sekundách sa načítali prvé verzie obrázkov a pozadia. Potom sa „objavila“ celá stránka knihy.

Prítomnosť trojúrovňovej štruktúry vám tiež umožňuje prehľadávať naskenované knihy (pretože existuje špeciálna textová vrstva). Ukázalo sa to ako výhodné pri práci s technickou literatúrou a referenčnými knihami, takže DjVu sa stalo základom pre niekoľko knižníc vedeckých kníh. Napríklad v roku 2002 bol vybraný Internetový archív ako jeden z formátov (spolu s TIFF a PDF) pre projekt na zachovanie naskenovaných kníh z otvorených zdrojov.

Nevýhody formátu

Avšak ako všetky technológie, aj DjVu má svoje nevýhody. Napríklad pri kódovaní skenov kníh do formátu DjVu môžu byť niektoré znaky v dokumente nahradené inými, ktoré majú podobný vzhľad. Najčastejšie sa to stáva pri písmenách „i“ a „n“, preto tento problém dostal som názov „jin problém“. Nezáleží na jazyku textu a ovplyvňuje okrem iného čísla a iné malé opakujúce sa znaky.

Jeho príčinou sú chyby klasifikácie znakov v kódovači JB2. Skenovanie „rozdeľuje“ do skupín po 10 – 20 kusoch a vytvára slovník spoločných symbolov pre každú skupinu. Slovník obsahuje príklady bežných písmen a číslic so stranami a súradnicami ich vzhľadu. Keď si prezeráte knihu DjVu, znaky zo slovníka sú vložené na správne miesta.

To vám umožňuje zmenšiť veľkosť súboru DjVu, ak sú však zobrazenia dvoch písmen vizuálne podobné, kódovač ich môže zameniť alebo zameniť za rovnaké. Niekedy to vedie k poškodeniu vzorcov v technickom dokumente. Ak chcete tento problém vyriešiť, môžete opustiť kompresné algoritmy, čím sa však zväčší veľkosť digitálnej kópie knihy.

Ďalšou nevýhodou formátu je, že v mnohých moderných operačných systémoch (vrátane mobilných) nie je štandardne podporovaný. Preto, aby ste s ním mohli pracovať, musíte nainštalovať tretiu stranu relácie, ako napríklad DjVuReader, WinDjView, Evince atď. Tu by som však rád poznamenal, že niektoré elektronické čítačky (napríklad ONYX BOOX) podporujú formát DjVu „out of the box“ – keďže potrebné aplikácie sú tam už nainštalované.

Mimochodom, o tom, čo ešte dokážu aplikácie pre čítačky s Androidom, sme sa rozprávali v jednom z predchádzajúcich materiály.

E-knihy a ich formáty: DjVu - jeho história, klady, zápory a vlastnosti
Čitateľ ONYX BOOX Chronos

Ďalší problém s formátom sa objavuje pri práci s dokumentmi DjVu na malých obrazovkách mobilných zariadení – smartfóny, tablety, čítačky. Niekedy sú súbory DjVu prezentované vo forme skenu knižnej nátierky a odborná literatúra a pracovné dokumenty sú často vo formáte A4, takže pri hľadaní informácií musíte obrázok „pohnúť“.

Upozorňujeme však, že aj tento problém sa dá vyriešiť. Najjednoduchšie je samozrejme vyhľadať dokument v inom formáte – ak však táto možnosť nie je možná (napríklad v DjVu potrebujete pracovať s veľkým množstvom odbornej literatúry), môžete použiť elektronické čítačky s veľkou uhlopriečkou od 9,7 do 13,3 palca, ktorá je špeciálne „šitá“ na prácu s takýmito dokumentmi.

Napríklad v rade ONYX BOOX takéto zariadenia sú Chronos и MAX 2 (mimochodom, recenziu tohto modelu čítačky sme pripravili a čoskoro ju zverejníme na našom blogu), a tiež Poznámky, ktorý disponuje obrazovkou E Ink Mobius Carta s uhlopriečkou 10,3 palca a zvýšeným rozlíšením. Takéto zariadenia vám umožňujú pokojne preskúmať všetky detaily ilustrácií v ich pôvodnej veľkosti a sú vhodné pre tých, ktorí často musia čítať náučnú alebo technickú literatúru. Na prezeranie súborov DjVu a PDF použitý NEO Reader, ktorý umožňuje nastaviť kontrast a hrúbku digitalizovaných fontov.

Napriek nedostatkom formátu dnes DjVu zostáva jedným z najpopulárnejších formátov na „uchovávanie“ literárnych diel. Je to z veľkej časti spôsobené tým, že on je otvorený a niektoré technologické obmedzenia dnes umožňujú moderným technológiám a vývoju ho obísť.

V nasledujúcich materiáloch budeme pokračovať v príbehu o histórii vzniku formátov elektronických kníh a črtách ich práce.

PS Niekoľko sád čítačiek ONYX BOOX:



Zdroj: hab.com

Pridať komentár