E-raamatud ja nende formaadid: DjVu – selle ajalugu, plussid, miinused ja funktsioonid

70ndate alguses sai hakkama Ameerika kirjanik Michael Hart saama piiramatu juurdepääs Illinoisi ülikoolis installitud Xerox Sigma 5 arvutile. Masina ressursside paremaks kasutamiseks otsustas ta luua esimese elektroonilise raamatu, trükkides ümber USA iseseisvusdeklaratsiooni.

Tänapäeval on digitaalne kirjandus muutunud laialdaseks, suuresti tänu kaasaskantavate seadmete (nutitelefonid, e-lugerid, sülearvutid) arengule. See on viinud suure hulga e-raamatute vormingute tekkeni. Proovime mõista nende funktsioone ja rääkida neist kõige populaarsemate ajaloost - alustame DjVu-vormingust.

E-raamatud ja nende formaadid: DjVu – selle ajalugu, plussid, miinused ja funktsioonid
/Flickr/ Lane Pearman / CC

Formaadi tekkimine

DjVu töötas välja 1996. aastal AT&T Labs ühe eesmärgiga – anda veebiarendajatele tööriist kõrge eraldusvõimega piltide Internetis levitamiseks.

Fakt on see, et sel ajal on 90% kogu teabest paigal salvestati paberil ning paljudel olulistel dokumentidel olid värvilised pildid ja fotod. Teksti loetavuse ja piltide kvaliteedi säilitamiseks oli vaja teha kõrge eraldusvõimega skaneeringuid.

Klassikalised veebivormingud - JPEG, GIF ja PNG - võimaldasid selliste piltidega töötada, kuid mahu arvelt. JPEG puhul nii, et tekst loeti monitori ekraanil pidin skannima dokumendi eraldusvõimega 300 dpi. Ajakirja värviline leht võttis enda alla umbes 500 KB. Sellise suurusega failide allalaadimine Internetist oli tol ajal üsna töömahukas protsess.

Alternatiiviks oli paberdokumentide digiteerimine OCR-tehnoloogiate abil, kuid 20 aastat tagasi polnud nende täpsus ideaalist kaugel – pärast töötlemist tuli lõpptulemust tõsiselt käsitsi toimetada. Graafika ja pildid jäid samal ajal “üle parda”. Ja isegi kui oli võimalik skannitud pilt tekstidokumenti põimida, läksid kaduma mõned visuaalsed detailid, näiteks paberi värv, tekstuur ja need on ajalooliste dokumentide olulised komponendid.

Nende probleemide lahendamiseks töötas AT&T välja DjVu. See võimaldas 300 dpi eraldusvõimega skannitud värvidokumente tihendada 40–60 KB-ni, originaalsuurusega 25 MB. DjVu vähendas mustvalgete lehtede suurust 10–30 KB-ni.

Kuidas DjVu dokumente tihendab

DjVu saab töötada nii skannitud paberdokumentidega kui ka muude digitaalsete vormingutega, näiteks PDF-iga. Kuidas DjVu töötab on tehnoloogia, mis jagab pildi kolmeks komponendiks: esiplaan, taust ja mustvalge (bitine) mask.

Mask salvestatakse algse faili eraldusvõimega ja sisaldab pilt tekstist ja muudest selgetest detailidest - peened jooned ja diagrammid -, samuti kontrastsed pildid.

Selle eraldusvõime on 300 dpi, et hoida peened jooned ja tähtede piirjooned teravana, ning see on tihendatud JB2-algoritmi abil, mis on AT&T faksimise algoritmi JBIG2 variatsioon. JB2 funktsioon see on see otsib lehelt topeltmärke ja salvestab nende pildi ainult üks kord. Seega on mitmeleheküljelistes dokumentides igal paaril järjestikusel leheküljel ühine “sõnaraamat”.

Taust sisaldab lehe tekstuuri ja illustratsioone ning selle eraldusvõime on madalam kui maskil. Kadudeta taust salvestatakse eraldusvõimega 100 dpi.

Teadmised hoiab maski puudutavat värviteavet ja selle eraldusvõimet vähendatakse tavaliselt veelgi, kuna enamikul juhtudel on teksti värv must ja ühe trükitud märgi puhul sama. Kasutatakse esiplaani ja tausta tihendamiseks lainekeste kokkusurumine.

DjVu dokumendi loomise viimane etapp on entroopia kodeerimine, kui adaptiivne aritmeetiline kodeerija muudab identsete märkide jadad kahendväärtuseks.

Vormi eelised

DjVu ülesanne oli päästma paberdokumendi “omadused” digitaalsel kujul, võimaldades selliste dokumentidega töötada ka nõrkadel arvutitel. Seetõttu on DjVu-failide vaatamise tarkvaral kiire renderdamise võimalus. Tänu talle mälestuseks laadimine ainult see osa DjVu lehelt, mida tuleks ekraanil kuvada.

See võimaldab vaadata ka allalaadimata faile, st mitmeleheküljelise DjVu dokumendi üksikuid lehti. Sel juhul kasutatakse kujutise detailide järkjärgulist joonistamist, kui faili allalaadimisel näivad komponendid „ilmuvat” (nagu JPEG-vormingus).

20 aastat tagasi, kui see formaat kasutusele võeti, laaditi leht kolmes etapis: esmalt laaditi tekstikomponent, paari sekundi pärast laaditi piltide ja tausta esimesed versioonid. Pärast seda ilmus kogu raamatu lehekülg.

Kolmetasandilise struktuuri olemasolu võimaldab otsida ka skannitud raamatuid (kuna seal on spetsiaalne tekstikiht). See osutus tehnilise kirjanduse ja teatmeteostega töötamisel mugavaks, nii et DjVu sai aluseks mitmele teadusraamatukogule. Näiteks 2002. aastal osutus ta valituks Interneti-arhiiv ühe vorminguna (koos TIFF-i ja PDF-iga) avatud allikatest skaneeritud raamatute säilitamise projekti jaoks.

Vormi puudused

Kuid nagu kõigil tehnoloogiatel, on ka DjVul omad puudused. Näiteks kui kodeerite skaneeritud raamatuid DjVu-vormingusse, võidakse mõned märgid dokumendis asendada teistega, mis on välimuselt sarnased. Kõige sagedamini juhtub see tähtedega "i" ja "n", mistõttu see probleem on tingitud saadud nimi "yin probleem". See ei sõltu teksti keelest ja mõjutab muuhulgas numbreid ja muid väikeseid korduvaid märke.

Selle põhjuseks on märkide klassifikatsiooni vead JB2 kodeerijas. See "jagab" skaneeringud 10–20 tükist koosnevateks rühmadeks ja moodustab iga rühma jaoks ühiste sümbolite sõnastiku. Sõnastik sisaldab näiteid levinud tähtedest ja numbritest koos lehtede ja nende välimuse koordinaatidega. Kui vaatate DjVu raamatut, sisestatakse sõnaraamatu tähemärgid õigetesse kohtadesse.

See võimaldab teil DjVu-faili suurust vähendada, kuid kui kahe tähe kuvad on visuaalselt sarnased, võib kodeerija need kas segamini ajada või pidada neid samadeks. Mõnikord põhjustab see tehnilises dokumendis sisalduvate valemite kahjustamist. Selle probleemi lahendamiseks võite loobuda tihendusalgoritmidest, kuid see suurendab raamatu digitaalse koopia suurust.

Vormingu puuduseks on ka see, et seda ei toetata vaikimisi paljudes kaasaegsetes operatsioonisüsteemides (sh mobiilsetes). Seetõttu peate sellega töötamiseks installima kolmanda osapoole programmid, nagu DjVuReader, WinDjView, Evince jne. Siinkohal tahaksin aga märkida, et mõned elektroonilised lugejad (näiteks ONYX BOOX) toetavad DjVu vormingut "kastist väljas" - kuna vajalikud rakendused on sinna juba installitud.

Muide, sellest, mida veel saavad Android-põhistele lugejatele mõeldud rakendused teha, rääkisime ühes eelnevas materjalid.

E-raamatud ja nende formaadid: DjVu – selle ajalugu, plussid, miinused ja funktsioonid
Lugeja ONYX BOOX Chronos

Veel üks vorminguprobleem ilmneb DjVu dokumentidega töötades mobiilseadmete väikestel ekraanidel - nutitelefonid, tahvelarvutid, lugejad. Mõnikord esitatakse DjVu-failid laoraamatu skaneerimisena ning erialane kirjandus ja töödokumendid on sageli A4 formaadis, nii et teabe otsimisel tuleb pilti “liigutada”.

Siiski märgime, et seda probleemi saab ka lahendada. Lihtsaim viis on muidugi otsida dokumenti teises vormingus – aga kui see valik pole võimalik (näiteks peate DjVu-s töötama suure hulga tehnilise kirjandusega), saate kasutada elektroonilisi lugejaid. suure diagonaaliga 9,7–13,3 tolli, mis on spetsiaalselt "kohandatud" selliste dokumentidega töötamiseks.

Näiteks ONYX BOOX sarjas on sellised seadmed Chronos и MAX 2 (muide, oleme koostanud selle lugejamudeli ülevaate ja avaldame selle peagi oma ajaveebis) ja ka märkused, millel on E Ink Mobius Carta ekraan, mille diagonaal on 10,3 tolli ja suurenenud eraldusvõime. Sellised seadmed võimaldavad rahulikult uurida kõiki illustratsioonide detaile nende originaalsuuruses ja sobivad neile, kes peavad sageli lugema õppe- või tehnilist kirjandust. DjVu ja PDF-failide vaatamiseks kasutatud NEO Reader, mis võimaldab reguleerida digiteeritud fontide kontrasti ja paksust.

Vaatamata formaadi puudustele on DjVu tänapäeval endiselt üks populaarsemaid vorminguid kirjandusteoste "säilitamiseks". See on suuresti tingitud asjaolust, et ta see on avatud ning mõned tehnoloogilised piirangud võimaldavad tänapäevastel tehnoloogiatel ja arendustel sellest mööda minna.

Järgnevates materjalides jätkame lugu e-raamatu formaatide tekkeloost ja nende töö eripäradest.

PS Mitmed ONYX BOOXi lugejate komplektid:



Allikas: www.habr.com

Lisa kommentaar