E-könyvek és formátumaik: DjVu - története, előnyei, hátrányai és jellemzői

A 70-es évek elején Michael Hart amerikai írónak sikerült kap korlátlan hozzáférés az Illinoisi Egyetemen telepített Xerox Sigma 5 számítógéphez. A gép erőforrásainak megfelelő kihasználása érdekében úgy döntött, hogy elkészíti az első elektronikus könyvet, újranyomtatva az Egyesült Államok Függetlenségi Nyilatkozatát.

Mára a digitális irodalom széles körben elterjedt, nagyrészt a hordozható eszközök (okostelefonok, e-olvasók, laptopok) fejlődésének köszönhetően. Ez nagyszámú e-könyv formátum megjelenéséhez vezetett. Próbáljuk megérteni a funkcióikat, és elmondjuk a legnépszerűbbek történetét – kezdjük a DjVu formátummal.

E-könyvek és formátumaik: DjVu - története, előnyei, hátrányai és jellemzői
/flickr/ Lane Pearman / CC

A formátum megjelenése

A DjVu-t 1996-ban az AT&T Labs fejlesztette ki azzal a céllal, hogy eszközt adjon a webfejlesztőknek a nagy felbontású képek interneten keresztüli terjesztésére.

A tény az, hogy akkoriban az összes információ 90%-a mozdulatlan tárolva volt papíron, és sok fontos dokumentumon színes képek és fényképek voltak. A szöveg olvashatóságának és a képek minőségének megőrzése érdekében nagy felbontású szkennelésre volt szükség.

A klasszikus webes formátumok - JPEG, GIF és PNG - lehetővé tették az ilyen képekkel való munkát, de a mennyiség költségén. JPEG esetén úgy, hogy a szöveg olvasták a monitor képernyőjén 300 dpi felbontással kellett beszkennelni a dokumentumot. A magazin egy színes oldala körülbelül 500 KB-ot foglalt el. Ekkora fájlok letöltése az internetről meglehetősen munkaigényes folyamat volt akkoriban.

Alternatíva a papíralapú dokumentumok OCR technológiákkal történő digitalizálása volt, de 20 évvel ezelőtt ezek pontossága még korántsem volt ideális – a feldolgozás után komolyan, kézzel kellett szerkeszteni a végeredményt. Ugyanakkor a grafika és a képek „túlzásba” maradtak. És még ha be is lehetett ágyazni egy szkennelt képet egy szöveges dokumentumba, néhány vizuális részlet elveszett, például a papír színe, textúrája, és ezek a történelmi dokumentumok fontos összetevői.

E problémák megoldása érdekében az AT&T kifejlesztette a DjVu-t. Lehetővé tette a 300 dpi felbontású szkennelt színes dokumentumok 40–60 KB-ra tömörítését, 25 MB eredeti méret mellett. A DjVu 10–30 KB-ra csökkentette a fekete-fehér oldalak méretét.

Hogyan tömöríti a DjVu a dokumentumokat

A DjVu képes dolgozni beolvasott papírdokumentumokkal és más digitális formátumokkal, például PDF-ekkel. Hogyan működik a DjVu jelentése technológia, amely három részre osztja a képet: előtérre, háttérre és fekete-fehér (bit) maszkra.

A maszk mentése az eredeti fájl felbontásával és ez tartalmazza szöveg képe és egyéb áttekinthető részletek - finom vonalak és diagramok -, valamint kontrasztos képek.

Felbontása 300 dpi, hogy a finom vonalak és a betűk körvonalai élesen maradjanak, és a tömörítés a JB2 algoritmussal történik, amely az AT&T JBIG2 faxolási algoritmusának egy változata. A JB2 jellemzője a ez annyit tesz, hogy ismétlődő karaktereket keres az oldalon, és csak egyszer menti el a képüket. Így a többoldalas dokumentumokban minden néhány egymást követő oldal közös „szótáron”.

A háttér az oldal textúráját és az illusztrációkat tartalmazza, felbontása kisebb, mint a maszké. A veszteségmentes háttér 100 dpi-vel kerül mentésre.

előtér megtartja a maszkra vonatkozó színes információkat, és a felbontása általában még tovább csökken, mivel a legtöbb esetben a szöveg színe fekete, és egy nyomtatott karakternél ugyanaz. Az előtér és a háttér tömörítésére szolgál wavelet tömörítés.

A DjVu-dokumentum létrehozásának utolsó szakasza az entrópiakódolás, amikor egy adaptív aritmetikai kódoló az azonos karakterekből álló sorozatokat bináris értékké alakítja.

A formátum előnyei

DjVu feladata az volt kivéve a digitális formátumú papírdokumentum „tulajdonságai”, lehetővé téve, hogy a gyenge számítógépek is dolgozzanak ilyen dokumentumokkal. Ezért a DjVu fájlok megtekintésére szolgáló szoftverek képesek „gyors renderelésre”. Köszönöm neki az emléket Betöltés csak a DjVu oldal azon része, amelyet meg kell jeleníteni a képernyőn.

Ez lehetővé teszi a „le nem töltött” fájlok, azaz egy többoldalas DjVu-dokumentum egyes oldalainak megtekintését is. Ebben az esetben a képrészletek progresszív rajzát használják, amikor az összetevők „megjelennek” a fájl letöltése közben (mint a JPEG-ben).

20 évvel ezelőtt, amikor ez a formátum megjelent, az oldal betöltése három szakaszban történt: először a szöveges komponens, majd pár másodperc múlva a képek és a háttér első verziói. Utána a könyv teljes oldala „megjelent”.

A háromszintű struktúra jelenléte lehetővé teszi a beszkennelt könyvek közötti keresést is (mivel van egy speciális szövegréteg). Ez kényelmesnek bizonyult a szakirodalom és a referenciakönyvek használatakor, így a DjVu számos tudományos könyvkönyvtár alapja lett. Például 2002-ben őt választották Internetes archívum mint az egyik formátum (a TIFF és a PDF mellett) a nyílt forrásokból származó beszkennelt könyvek megőrzésére szolgáló projektben.

A formátum hátrányai

Azonban, mint minden technológiának, a DjVu-nak is megvannak a hátrányai. Például, amikor a beolvasott könyveket DjVu formátumba kódolják, előfordulhat, hogy a dokumentumban egyes karakterek lecserélhetők olyan karakterekre, amelyek megjelenésükben hasonlóak. Ez leggyakrabban az „i” és „n” betűkkel történik, ezért ez a probléma kaptam a "yin probléma" nevet. Nem függ a szöveg nyelvétől, és befolyásolja többek között a számokat és más kis ismétlődő karaktereket.

Ennek oka a JB2 kódoló karakterosztályozási hibái. A szkenneléseket 10-20 darabos csoportokra „bontja”, és minden csoporthoz szótárt alkot a közös szimbólumokból. A szótár példákat tartalmaz a gyakori betűkre és számokra, oldalakkal és megjelenésük koordinátáival. Amikor egy DjVu-könyvet tekint meg, a szótár karakterei a megfelelő helyekre kerülnek be.

Ez lehetővé teszi a DjVu fájl méretének csökkentését, azonban ha két betű megjelenítése vizuálisan hasonló, akkor a kódoló összekeverheti őket, vagy összetévesztheti őket ugyanazzal. Ez néha a műszaki dokumentumok képleteinek károsodásához vezet. A probléma megoldásához elhagyhatja a tömörítési algoritmusokat, de ez megnöveli a könyv digitális példányának méretét.

A formátum másik hátránya, hogy sok modern operációs rendszer (beleértve a mobilokat is) alapértelmezés szerint nem támogatja. Ezért a vele való együttműködéshez harmadik féltől származó telepítést kell telepítenie programok, mint a DjVuReader, WinDjView, Evince stb. Itt azonban szeretném megjegyezni, hogy egyes elektronikus olvasók (például ONYX BOOX) „kivételből” támogatják a DjVu formátumot – mivel ott már telepítve vannak a szükséges alkalmazások.

Arról egyébként az előzőek egyikében beszéltünk, hogy mire képesek még az Android alapú olvasóknak szánt alkalmazások anyagok.

E-könyvek és formátumaik: DjVu - története, előnyei, hátrányai és jellemzői
Olvasó ONYX BOOX Chronos

Egy másik formátumprobléma akkor jelentkezik, amikor DjVu-dokumentumokkal dolgozik mobileszközök kis képernyőjén - okostelefonok, táblagépek, olvasók. Előfordul, hogy a DjVu-fájlokat egy terjedelmes könyv szkennelése formájában mutatják be, a szakirodalom és a munkadokumentumok pedig gyakran A4-es formátumúak, így információkereséskor „mozgatni” kell a képet.

Megjegyezzük azonban, hogy ez a probléma is megoldható. A legegyszerűbb természetesen egy másik formátumú dokumentum keresése - de ha ez a lehetőség nem lehetséges (például nagy mennyiségű műszaki irodalommal kell dolgoznia a DjVu-ban), akkor használhat elektronikus olvasókat. 9,7 és 13,3 hüvelyk közötti nagy átlóval, amelyet kifejezetten az ilyen dokumentumokkal való munkavégzésre „szabtak”.

Például az ONYX BOOX vonalon ilyen eszközök vannak Chronos и MAX 2 (egyébként erről az olvasói modellről készítettünk egy ismertetőt, és hamarosan közzétesszük a blogunkon), és azt is Megjegyzések, amely E Ink Mobius Carta képernyővel rendelkezik, 10,3 hüvelykes képátlóval és megnövelt felbontással. Az ilyen eszközök lehetővé teszik, hogy nyugodtan megvizsgálja az illusztrációk minden részletét eredeti méretükben, és alkalmasak azok számára, akiknek gyakran kell oktatási vagy műszaki irodalmat olvasniuk. DjVu és PDF fájlok megtekintéséhez használt NEO Reader, amely lehetővé teszi a digitalizált betűtípusok kontrasztjának és vastagságának beállítását.

A formátum hiányosságai ellenére ma a DjVu továbbra is az egyik legnépszerűbb formátum az irodalmi művek „megőrzésére”. Ez nagyrészt annak köszönhető, hogy ő a nyitott, és bizonyos technológiai korlátok ma lehetővé teszik a modern technológiák és fejlesztések megkerülését.

A következő anyagokban folytatjuk az e-book formátumok kialakulásának történetét és munkásságuk jellemzőit.

PS Számos ONYX BOOX olvasókészlet:



Forrás: will.com

Hozzászólás