E-knjige i njihovi formati: DjVu - njegova istorija, prednosti, mane i karakteristike

Početkom 70-ih uspio je američki pisac Michael Hart donesi neograničen pristup računaru Xerox Sigma 5 instaliranom na Univerzitetu Ilinois. Da bi dobro iskoristio resurse mašine, odlučio je da napravi prvu elektronsku knjigu, ponovo štampajući Deklaraciju nezavisnosti SAD.

Danas je digitalna literatura postala široko rasprostranjena, uglavnom zahvaljujući razvoju prijenosnih uređaja (pametni telefoni, e-čitači, laptopi). To je dovelo do pojave velikog broja formata e-knjiga. Pokušajmo razumjeti njihove karakteristike i ispričati povijest najpopularnijih od njih - počnimo s DjVu formatom.

E-knjige i njihovi formati: DjVu - njegova istorija, prednosti, mane i karakteristike
/Flickr/ Lane Pearman / CC

Pojava formata

DjVu je 1996. godine razvio AT&T Labs s jednom svrhom - da web programerima pruži alat za distribuciju slika visoke rezolucije preko Interneta.

Činjenica je da je u to vrijeme još uvijek 90% svih informacija bila pohranjena na papiru, a mnogi važni dokumenti su imali slike i fotografije u boji. Da bi se održala čitljivost teksta i kvalitet slika, bilo je potrebno napraviti skeniranje visoke rezolucije.

Klasični web formati - JPEG, GIF i PNG - omogućili su rad s takvim slikama, ali po cijenu volumena. U slučaju JPEG, tako da tekst je pročitano na ekranu monitora, morao sam skenirati dokument u rezoluciji od 300 dpi. Stranica u boji časopisa zauzimala je oko 500 KB. Preuzimanje datoteka ove veličine sa Interneta je u to vrijeme bio prilično radno intenzivan proces.

Alternativa je bila digitalizacija papirnih dokumenata korištenjem OCR tehnologija, ali prije 20 godina njihova tačnost je bila daleko od idealne - nakon obrade, konačni rezultat je morao biti ozbiljno uređivan ručno. U isto vrijeme, grafika i slike su ostale “pretjerane”. Čak i ako je bilo moguće ugraditi skeniranu sliku u tekstualni dokument, neki vizualni detalji su izgubljeni, na primjer, boja papira, njegova tekstura, a to su važne komponente povijesnih dokumenata.

Kako bi riješio ove probleme, AT&T je razvio DjVu. Omogućio je komprimiranje skeniranih dokumenata u boji s rezolucijom od 300 dpi na 40–60 KB, s originalnom veličinom od 25 MB. DjVu je smanjio veličinu crno-bijelih stranica na 10–30 KB.

Kako DjVu kompresuje dokumente

DjVu može raditi i sa skeniranim papirnim dokumentima i drugim digitalnim formatima, kao što je PDF. Kako DjVu radi laži tehnologija koja dijeli sliku na tri komponente: prvi plan, pozadinu i crno-bijelu (bitnu) masku.

Maska se pohranjuje u rezoluciji originalne datoteke i sadrži slika teksta i drugih jasnih detalja - finih linija i dijagrama - kao i kontrastnih slika.

Ima rezoluciju od 300 dpi kako bi fine linije i obrisi slova ostali oštri, a komprimiran je pomoću JB2 algoritma, koji je varijacija AT&T-ovog JBIG2 algoritma za faksiranje. Karakteristika JB2 To je ono što radi je da traži duple znakove na stranici i sprema njihovu sliku samo jednom. Dakle, u dokumentima na više stranica, svakih nekoliko uzastopnih stranica dijeli zajednički “rječnik”.

Pozadina sadrži teksturu stranice i ilustracije, a njena rezolucija je niža od rezolucije maske. Pozadina bez gubitaka je sačuvana na 100 dpi.

Foreground čuva informacije o boji o maski, a njena rezolucija se obično dodatno smanjuje, jer je u većini slučajeva boja teksta crna i ista za jedan ispisani znak. Koristi se za kompresiju prednjeg plana i pozadine talasna kompresija.

Posljednja faza kreiranja DjVu dokumenta je entropijsko kodiranje, kada adaptivni aritmetički enkoder pretvara sekvence identičnih znakova u binarnu vrijednost.

Prednosti formata

DjVu-ov zadatak je bio štedi “osobine” papirnog dokumenta u digitalnom obliku, omogućavajući čak i slabim računarima da rade sa takvim dokumentima. Stoga softver za gledanje DjVu datoteka ima mogućnost „brzog renderiranja“. Hvala joj za uspomenu učitavanje samo onaj dio DjVu stranice koji bi trebao biti prikazan na ekranu.

Ovo takođe omogućava pregled „nepreuzetih“ datoteka, odnosno pojedinačnih stranica višestranog DjVu dokumenta. U ovom slučaju se koristi progresivno crtanje detalja slike, kada se čini da se komponente "pojavljuju" dok se datoteka preuzima (kao u JPEG).

Prije 20 godina, kada je uveden ovaj format, stranica se učitavala u tri faze: prvo je učitana tekstualna komponenta, nakon nekoliko sekundi prve verzije slika i pozadine. Poslije se “pojavila” cijela stranica knjige.

Prisustvo strukture na tri nivoa takođe vam omogućava da pretražujete skenirane knjige (pošto postoji poseban sloj teksta). Ovo se pokazalo zgodnim za rad sa tehničkom literaturom i referentnim knjigama, pa je DjVu postao osnova za nekoliko biblioteka naučnih knjiga. Na primjer, izabran je 2002. godine Internet Archive kao jedan od formata (uz TIFF i PDF) za projekt očuvanja skeniranih knjiga iz otvorenih izvora.

Nedostaci formata

Međutim, kao i sve tehnologije, DjVu ima svoje nedostatke. Na primjer, kada kodirate skenirane knjige u format DjVu, neki znakovi u dokumentu mogu biti zamijenjeni drugima koji su slični po izgledu. To se najčešće dešava sa slovima “i” i “n”, zbog čega je ovaj problem primljeni naziv "yin problem". Ne zavisi od jezika teksta i utiče, između ostalog, na brojeve i druge male znakove koji se ponavljaju.

Njegov uzrok su greške u klasifikaciji znakova u JB2 koderu. On „razdvaja“ skeniranje u grupe od 10-20 komada i formira rečnik uobičajenih simbola za svaku grupu. Rječnik sadrži primjere uobičajenih slova i brojeva sa stranicama i koordinatama njihovog izgleda. Kada gledate DjVu knjigu, znakovi iz rječnika se ubacuju na prava mjesta.

Ovo vam omogućava da smanjite veličinu DjVu datoteke, međutim, ako su prikazi dvaju slova vizualno slični, koder ih može ili zbuniti ili ih zamijeniti za iste. Ponekad to dovodi do oštećenja formula u tehničkom dokumentu. Da biste riješili ovaj problem, možete napustiti algoritme kompresije, ali to će povećati veličinu digitalne kopije knjige.

Još jedan nedostatak formata je što nije podržan prema zadanim postavkama u mnogim modernim operativnim sistemima (uključujući mobilne). Stoga, da biste radili s njim, morate instalirati treće strane programi, kao što su DjVuReader, WinDjView, Evince, itd. Međutim, ovdje bih želio napomenuti da neki elektronski čitači (na primjer, ONYX BOOX) podržavaju DjVu format "iz kutije" - jer su potrebne aplikacije već instalirane tamo.

Inače, o tome šta još mogu da urade aplikacije za čitače zasnovane na Androidu, pričali smo u jednom od prethodnih materijali.

E-knjige i njihovi formati: DjVu - njegova istorija, prednosti, mane i karakteristike
Reader ONYX BOOX Chronos

Još jedan problem sa formatom javlja se pri radu sa DjVu dokumentima na malim ekranima mobilnih uređaja - pametnih telefona, tableta, čitača. Ponekad su DjVu fajlovi predstavljeni u obliku skeniranog rašira knjige, a stručna literatura i radni dokumenti su često u formatu A4, tako da morate „pomerati“ sliku u potrazi za informacijama.

Međutim, napominjemo da se i ovaj problem može riješiti. Najlakši način je, naravno, potražiti dokument u drugom formatu - ali ako ova opcija nije moguća (na primjer, trebate raditi s velikom količinom tehničke literature u DjVu), onda možete koristiti elektronske čitače sa velikom dijagonalom od 9,7 do 13,3 inča, koja je posebno "skrojena" za rad sa takvim dokumentima.

Na primjer, u liniji ONYX BOOX takvi uređaji su chronos и MAX 2 (usput, pripremili smo recenziju ovog modela čitača i uskoro ćemo je objaviti na našem blogu), a također Bilješka, koji ima E Ink Mobius Carta ekran dijagonale 10,3 inča i povećane rezolucije. Takvi uređaji omogućuju vam da mirno pregledate sve detalje ilustracija u njihovoj originalnoj veličini i prikladni su za one koji često moraju čitati obrazovnu ili tehničku literaturu. Za pregled DjVu i PDF datoteka polovan NEO Reader, koji vam omogućava da podesite kontrast i debljinu digitalizovanih fontova.

Uprkos nedostacima formata, danas DjVu ostaje jedan od najpopularnijih formata za „čuvanje“ književnih dela. To je uglavnom zbog činjenice da on To je otvorena, a neka tehnološka ograničenja danas dopuštaju modernim tehnologijama i razvoju da ga zaobiđu.

U sljedećim materijalima nastavit ćemo priču o povijesti nastanka formata e-knjiga i karakteristikama njihovog rada.

PS Nekoliko setova ONYX BOOX čitača:



izvor: www.habr.com

Dodajte komentar