E-knjige i njihovi formati: DjVu - njegova povijest, prednosti, mane i značajke

Početkom 70-ih američki pisac Michael Hart uspio je dobiti neograničen pristup računalu Xerox Sigma 5 instaliranom na Sveučilištu Illinois. Kako bi dobro iskoristio resurse stroja, odlučio je izraditi prvu elektroničku knjigu, ponovno tiskajući Deklaraciju neovisnosti SAD-a.

Danas je digitalna književnost postala široko rasprostranjena, ponajviše zahvaljujući razvoju prijenosnih uređaja (pametnih telefona, e-čitača, prijenosnih računala). To je dovelo do pojave velikog broja formata e-knjiga. Pokušajmo razumjeti njihove značajke i ispričati povijest najpopularnijih od njih - počnimo s DjVu formatom.

E-knjige i njihovi formati: DjVu - njegova povijest, prednosti, mane i značajke
/flickr/ Lane Pearman / CC

Pojava formata

DjVu je 1996. godine razvio AT&T Labs s jednom svrhom - dati web programerima alat za distribuciju slika visoke razlučivosti putem Interneta.

Činjenica je da je u to vrijeme 90% svih informacija još uvijek bio pohranjen na papiru, a mnogi važni dokumenti imali su slike i fotografije u boji. Kako bi se održala čitljivost teksta i kvaliteta slika, bilo je potrebno napraviti skeniranje u visokoj rezoluciji.

Klasični web formati - JPEG, GIF i PNG - omogućili su rad s takvim slikama, ali uz cijenu volumena. U slučaju JPEG-a, tako da tekst bio pročitan na ekranu monitora, morao sam skenirati dokument u rezoluciji od 300 dpi. Stranica časopisa u boji zauzimala je oko 500 KB. Preuzimanje datoteka ove veličine s Interneta u to je vrijeme bio prilično naporan proces.

Alternativa je bila digitalizacija papirnatih dokumenata pomoću OCR tehnologija, no prije 20 godina njihova točnost bila je daleko od idealne - nakon obrade, konačni rezultat je morao biti ozbiljno ručno uređivan. U isto vrijeme, grafika i slike ostali su "izvan palube". Čak i ako je bilo moguće ugraditi skeniranu sliku u tekstualni dokument, neki vizualni detalji su izgubljeni, na primjer, boja papira, njegova tekstura, a to su važne komponente povijesnih dokumenata.

Kako bi riješio te probleme, AT&T je razvio DjVu. Omogućio je kompresiju skeniranih dokumenata u boji rezolucije 300 dpi na 40–60 KB, s izvornom veličinom od 25 MB. DjVu je smanjio veličinu crno-bijelih stranica na 10–30 KB.

Kako DjVu sažima dokumente

DjVu može raditi i sa skeniranim papirnatim dokumentima i drugim digitalnim formatima, poput PDF-a. Kako radi DjVu je tehnologija koja sliku dijeli na tri komponente: prednji plan, pozadinu i crno-bijelu (bitnu) masku.

Maska se sprema u razlučivosti izvorne datoteke i sadrži slika teksta i drugi jasni detalji - fine linije i dijagrami - kao i kontrastne slike.

Ima razlučivost od 300 dpi kako bi fine linije i obrisi slova bili oštri, a komprimiran je pomoću JB2 algoritma, koji je varijacija AT&T-ovog JBIG2 algoritma za faksiranje. Značajka JB2 je ono što radi je da traži duple znakove na stranici i sprema njihovu sliku samo jednom. Stoga, u dokumentima s više stranica, svakih nekoliko uzastopnih stranica dijeli zajednički "rječnik".

Pozadina sadrži teksturu stranice i ilustracije, a njezina je razlučivost manja od one maske. Pozadina bez gubitaka sprema se na 100 dpi.

prednji drži informacije o boji o maski, a njezina je razlučivost obično dodatno smanjena, budući da je u većini slučajeva boja teksta crna i ista za jedan ispisani znak. Koristi se za komprimiranje prednjeg plana i pozadine valićna kompresija.

Završna faza izrade DjVu dokumenta je entropijsko kodiranje, kada adaptivni aritmetički koder pretvara nizove identičnih znakova u binarnu vrijednost.

Prednosti formata

DjVu-ov zadatak bio je zadržati “svojstva” papirnatog dokumenta u digitalnom obliku, omogućujući čak i slabim računalima rad s takvim dokumentima. Stoga softver za pregled DjVu datoteka ima mogućnost "brzog renderiranja". Hvala joj u sjećanju Učitavam samo onaj dio DjVu stranice koji bi trebao biti prikazan na ekranu.

Ovo također omogućuje pregled "nepreuzetih" datoteka, odnosno pojedinačnih stranica DjVu dokumenta od više stranica. U ovom slučaju koristi se progresivno crtanje detalja slike, kada se čini da se komponente "pojavljuju" dok se datoteka preuzima (kao u JPEG).

Prije 20 godina, kada je uveden ovaj format, stranica se učitavala u tri faze: prvo se učitavala tekstualna komponenta, nakon par sekundi učitavale su se prve verzije slika i pozadine. Nakon toga se “pojavila” cijela stranica knjige.

Prisutnost strukture od tri razine također vam omogućuje pretraživanje skeniranih knjiga (budući da postoji poseban tekstualni sloj). To se pokazalo zgodnim pri radu s tehničkom literaturom i referentnim knjigama, pa je DjVu postao osnova za nekoliko knjižnica znanstvenih knjiga. Primjerice, 2002. godine izabran je Internetska arhiva kao jedan od formata (uz TIFF i PDF) za projekt očuvanja skeniranih knjiga iz otvorenih izvora.

Nedostaci formata

Međutim, kao i sve tehnologije, DjVu ima svoje nedostatke. Na primjer, kod kodiranja skeniranih knjiga u DjVu format, neki znakovi u dokumentu mogu biti zamijenjeni drugima koji su sličnog izgleda. To se najčešće događa sa slovima “i” i “n” pa je i razlog ovog problema primljen naziv "yin problem". Ne ovisi o jeziku teksta i utječe, između ostalog, na brojeve i druge male znakove koji se ponavljaju.

Njegov uzrok su pogreške u klasifikaciji znakova u JB2 koderu. On "dijeli" skenirane slike u skupine od 10-20 dijelova i oblikuje rječnik uobičajenih simbola za svaku skupinu. Rječnik sadrži primjere uobičajenih slova i brojeva sa stranicama i koordinatama njihova pojavljivanja. Kada gledate DjVu knjigu, znakovi iz rječnika umetnuti su na prava mjesta.

To vam omogućuje smanjenje veličine DjVu datoteke, međutim, ako su prikazi dvaju slova vizualno slični, koder ih može pobrkati ili zamijeniti za ista. Ponekad to dovodi do oštećenja formula u tehničkom dokumentu. Da biste riješili ovaj problem, možete napustiti algoritme kompresije, ali to će povećati veličinu digitalne kopije knjige.

Još jedan nedostatak formata je što nije podržan prema zadanim postavkama u mnogim modernim operativnim sustavima (uključujući mobilne). Stoga, za rad s njim morate instalirati treću stranu programi, kao što su DjVuReader, WinDjView, Evince, itd. Međutim, ovdje bih želio napomenuti da neki elektronički čitači (na primjer, ONYX BOOX) podržavaju DjVu format "iz kutije" - budući da su tamo već instalirane potrebne aplikacije.

Usput, razgovarali smo o tome što još mogu raditi aplikacije za čitače temeljene na Androidu u jednom od prethodnih materijali.

E-knjige i njihovi formati: DjVu - njegova povijest, prednosti, mane i značajke
Čitač ONYX BOOX Chronos

Drugi problem s formatom pojavljuje se pri radu s DjVu dokumentima na malim ekranima mobilnih uređaja - pametnih telefona, tableta, čitača. Ponekad su DjVu datoteke predstavljene u obliku skena izdanja knjige, a stručna literatura i radni dokumenti često su u formatu A4, pa sliku morate “pomicati” u potrazi za informacijama.

Međutim, napominjemo da se i ovaj problem može riješiti. Najlakši način je, naravno, tražiti dokument u drugom formatu - ali ako ova opcija nije moguća (na primjer, morate raditi s velikom količinom tehničke literature u DjVu), tada možete koristiti elektroničke čitače s velikom dijagonalom od 9,7 do 13,3 inča, koji je posebno “skrojen” za rad s takvim dokumentima.

Na primjer, u liniji ONYX BOOX takvi su uređaji Chronos и MAX 2 (usput, pripremili smo recenziju ovog modela čitača, a uskoro ćemo je objaviti na našem blogu), a također bilješke, koji ima E Ink Mobius Carta zaslon dijagonale 10,3 inča i povećane rezolucije. Takvi uređaji omogućuju vam mirno ispitivanje svih detalja ilustracija u njihovoj izvornoj veličini i prikladni su za one koji često moraju čitati obrazovnu ili tehničku literaturu. Za pregled DjVu i PDF datoteka polovan NEO Reader, koji vam omogućuje podešavanje kontrasta i debljine digitaliziranih fontova.

Unatoč nedostacima formata, DjVu je danas jedan od najpopularnijih formata za “čuvanje” književnih djela. Tome uvelike pridonosi činjenica da on je otvoren, a neka tehnološka ograničenja danas dopuštaju modernim tehnologijama i razvoju da ga zaobiđu.

U sljedećim materijalima nastavit ćemo priču o povijesti nastanka formata e-knjiga i značajkama njihovog rada.

PS Nekoliko kompleta ONYX BOOX čitača:



Izvor: www.habr.com

Dodajte komentar