E-knihy a jejich formáty: DjVu - jeho historie, klady, zápory a vlastnosti

Na počátku 70. let se to podařilo americkému spisovateli Michaelu Hartovi dostat neomezený přístup k počítači Xerox Sigma 5 nainstalovanému na University of Illinois. Aby dobře využil zdroje stroje, rozhodl se vytvořit první elektronickou knihu, která přetiskla Deklaraci nezávislosti USA.

Dnes se digitální literatura rozšířila, a to především díky rozvoji přenosných zařízení (chytré telefony, elektronické čtečky, notebooky). To vedlo ke vzniku velkého množství formátů elektronických knih. Pokusme se porozumět jejich vlastnostem a vyprávět historii nejpopulárnějších z nich – začněme formátem DjVu.

E-knihy a jejich formáty: DjVu - jeho historie, klady, zápory a vlastnosti
/flickr/ Lane Pearman / CC

Vznik formátu

DjVu byl vyvinut v roce 1996 laboratoří AT&T Labs s jediným účelem – poskytnout webovým vývojářům nástroj pro distribuci obrázků ve vysokém rozlišení přes internet.

Faktem je, že v té době je 90% všech informací stále byla uložena na papíře a mnoho důležitých dokumentů mělo barevné obrázky a fotografie. Pro zachování čitelnosti textu a kvality obrázků bylo nutné provést skeny ve vysokém rozlišení.

Klasické webové formáty - JPEG, GIF a PNG - umožnily s takovými obrázky pracovat, ale za cenu objemu. V případě JPEG tak, že text bylo přečteno na obrazovce monitoru jsem musel dokument naskenovat v rozlišení 300 dpi. Barevná stránka časopisu zabírala asi 500 KB. Stahování souborů této velikosti z internetu bylo v té době poměrně náročným procesem.

Alternativou byla digitalizace papírových dokumentů pomocí technologií OCR, ale před 20 lety nebyla jejich přesnost ani zdaleka ideální – po zpracování musel být konečný výsledek seriózně ručně upravován. Grafika a obrázky přitom zůstaly „přes palubu“. A i když bylo možné vložit naskenovaný obrázek do textového dokumentu, některé vizuální detaily se ztratily, například barva papíru, jeho textura, a to jsou důležité součásti historických dokumentů.

Za účelem vyřešení těchto problémů vyvinul AT&T DjVu. Umožnil komprimovat naskenované barevné dokumenty s rozlišením 300 dpi na 40–60 KB, s velikostí originálu 25 MB. DjVu snížil velikost černobílých stránek na 10–30 KB.

Jak DjVu komprimuje dokumenty

DjVu umí pracovat jak s naskenovanými papírovými dokumenty, tak s jinými digitálními formáty, jako je PDF. Jak DjVu funguje lži technologie, která rozděluje obraz na tři složky: popředí, pozadí a černobílou (bitovou) masku.

Maska se uloží v rozlišení původního souboru a obsahuje obrázek textu a další jasné detaily - jemné čáry a diagramy - stejně jako kontrastní obrázky.

Má rozlišení 300 dpi, aby byly jemné čáry a obrysy písmen ostré, a je komprimován pomocí algoritmu JB2, což je varianta algoritmu JBIG2 společnosti AT&T pro faxování. Funkce JB2 to je dělá to, že hledá duplicitní znaky na stránce a jejich obrázek uloží pouze jednou. Ve vícestránkových dokumentech tedy každých několik po sobě jdoucích stránek sdílí společný „slovník“.

Pozadí obsahuje texturu stránky a ilustrací a jeho rozlišení je nižší než rozlišení masky. Bezztrátové pozadí je uloženo v rozlišení 100 dpi.

Popředí udržuje barevnou informaci o masce a její rozlišení je obvykle ještě sníženo, protože ve většině případů je barva textu černá a stejná pro jeden vytištěný znak. Používá se ke kompresi popředí a pozadí waveletová komprese.

Poslední fází vytváření dokumentu DjVu je entropické kódování, kdy adaptivní aritmetický kodér převádí sekvence identických znaků na binární hodnotu.

Výhody formátu

Úkolem DjVu bylo zachránit „vlastnosti“ papírového dokumentu v digitální podobě, umožňující pracovat s takovými dokumenty i slabým počítačům. Proto má software pro prohlížení souborů DjVu schopnost „rychlého vykreslování“. Díky jí na památku načítání pouze tu část stránky DjVu, která by se měla zobrazit na obrazovce.

To také umožňuje prohlížet „nestažené“ soubory, tedy jednotlivé stránky vícestránkového dokumentu DjVu. V tomto případě se používá progresivní vykreslování detailů obrázku, kdy se zdá, že se komponenty při stahování souboru „objevují“ (jako u JPEG).

Před 20 lety, kdy byl tento formát představen, se stránka načítala ve třech fázích: nejprve se načetla textová komponenta, po několika sekundách se načetly první verze obrázků a pozadí. Poté se „objevila“ celá stránka knihy.

Přítomnost tříúrovňové struktury také umožňuje prohledávat naskenované knihy (protože existuje speciální textová vrstva). To se ukázalo jako výhodné při práci s technickou literaturou a referenčními knihami, takže DjVu se stalo základem pro několik knihoven vědeckých knih. Například v roce 2002 byl vybrán Internetový archiv jako jeden z formátů (spolu s TIFF a PDF) pro projekt uchování naskenovaných knih z otevřených zdrojů.

Nevýhody formátu

Nicméně, jako všechny technologie, DjVu má své nevýhody. Například při kódování skenů knih do formátu DjVu mohou být některé znaky v dokumentu nahrazeny jinými, které mají podobný vzhled. Nejčastěji se to děje u písmen „i“ a „n“, proto tento problém přijato název "jin problém". Nezáleží na jazyku textu a ovlivňuje mimo jiné čísla a další malé opakující se znaky.

Jeho příčinou jsou chyby klasifikace znaků v kodéru JB2. Skenování „rozděluje“ do skupin po 10–20 kusech a tvoří slovník společných symbolů pro každou skupinu. Slovník obsahuje příklady běžných písmen a číslic se stránkami a souřadnicemi jejich vzhledu. Když si prohlížíte knihu DjVu, znaky ze slovníku jsou vloženy na správná místa.

To vám umožní zmenšit velikost souboru DjVu, ale pokud jsou zobrazení dvou písmen vizuálně podobná, kodér je může buď splést, nebo je zaměnit za stejné. Někdy to vede k poškození vzorců v technickém dokumentu. Chcete-li tento problém vyřešit, můžete opustit kompresní algoritmy, ale tím se zvětší velikost digitální kopie knihy.

Další nevýhodou formátu je, že v mnoha moderních operačních systémech (včetně mobilních) není standardně podporován. Proto, abyste s ním mohli pracovat, musíte nainstalovat třetí stranu pořady, jako je DjVuReader, WinDjView, Evince atd. Zde bych však rád poznamenal, že některé elektronické čtečky (například ONYX BOOX) podporují formát DjVu „out of the box“ – protože tam jsou potřebné aplikace již nainstalovány.

Mimochodem, o tom, co dalšího umí aplikace pro čtečky s Androidem, jsme si řekli v jednom z předchozích materiály.

E-knihy a jejich formáty: DjVu - jeho historie, klady, zápory a vlastnosti
Čtenář ONYX BOOX Chronos

Další problém s formátem se objevuje při práci s dokumenty DjVu na malých obrazovkách mobilních zařízení – smartphony, tablety, čtečky. Někdy jsou soubory DjVu prezentovány ve formě skenu knižní šířky a odborná literatura a pracovní dokumenty jsou často ve formátu A4, takže při hledání informací musíte obrázek „posunout“.

Upozorňujeme však, že tento problém lze také vyřešit. Nejjednodušší je samozřejmě vyhledat dokument v jiném formátu – pokud však tato možnost není možná (např. potřebujete pracovat s velkým množstvím odborné literatury v DjVu), pak můžete využít elektronické čtečky s velkou úhlopříčkou od 9,7 do 13,3 palce, která je speciálně „ušitá“ pro práci s takovými dokumenty.

Například v řadě ONYX BOOX taková zařízení jsou Chronos и MAX 2 (mimochodem, recenzi tohoto modelu čtečky jsme připravili a brzy ji zveřejníme na našem blogu), a také Poznámka, který má obrazovku E Ink Mobius Carta s úhlopříčkou 10,3 palce a zvýšeným rozlišením. Taková zařízení vám umožní v klidu prozkoumat všechny detaily ilustrací v jejich původní velikosti a jsou vhodná pro ty, kteří často musí číst naučnou nebo technickou literaturu. Chcete-li zobrazit soubory DjVu a PDF použitý NEO Reader, který umožňuje upravit kontrast a tloušťku digitalizovaných písem.

I přes nedostatky formátu dnes DjVu zůstává jedním z nejoblíbenějších formátů pro „uchování“ literárních děl. To je z velké části způsobeno tím, že on to je otevřená a některá technologická omezení dnes umožňují moderním technologiím a vývoji ji obejít.

V následujících materiálech budeme pokračovat v příběhu o historii vzniku formátů e-knih a rysech jejich práce.

PS Několik sad čteček ONYX BOOX:



Zdroj: www.habr.com

Přidat komentář