E-libroj kaj iliaj formatoj: DjVu - ĝia historio, avantaĝoj, malavantaĝoj kaj trajtoj

En la fruaj 70-aj jaroj, la usona verkisto Michael Hart administris akiri senlima aliro al Xerox Sigma 5 komputilo instalita ĉe la Universitato de Ilinojso. Por bone utiligi la rimedojn de la maŝino, li decidis krei la unuan elektronikan libron, represante la Usonan Deklaracion de Sendependeco.

Hodiaŭ la cifereca literaturo disvastiĝis, plejparte danke al la disvolviĝo de porteblaj aparatoj (smartphones, e-legiloj, tekkomputiloj). Tio kaŭzis la aperon de granda nombro da e-libroformatoj. Ni provu kompreni iliajn trajtojn kaj rakonti la historion de la plej popularaj el ili - ni komencu per la formato DjVu.

E-libroj kaj iliaj formatoj: DjVu - ĝia historio, avantaĝoj, malavantaĝoj kaj trajtoj
/flickr/ Lane Pearman / CC

La apero de la formato

DjVu estis evoluigita en 1996 de AT&T Labs kun unu celo - doni retajn programistojn ilon por distribui alt-rezoluciajn bildojn tra la Interreto.

La fakto estas, ke tiutempe 90% de ĉiuj informoj ankoraŭ estas estis konservita sur papero, kaj multaj el la gravaj dokumentoj havis kolorbildojn kaj fotojn. Por konservi la legeblecon de la teksto kaj la kvaliton de la bildoj, estis necese fari alt-rezoluciajn skanaĵojn.

Klasikaj retformatoj - JPEG, GIF kaj PNG - ebligis labori kun tiaj bildoj, sed koste de volumeno. En la kazo de JPEG, tiel ke la teksto estis legita sur la monitora ekrano, mi devis skani la dokumenton kun rezolucio de 300 dpi. Kolorpaĝo de la revuo okupis ĉirkaŭ 500 KB. Elŝuti dosierojn de ĉi tiu grandeco el la Interreto estis sufiĉe laborintensa procezo tiutempe.

La alternativo estis ciferecigi paperajn dokumentojn per OCR-teknologioj, sed antaŭ 20 jaroj ilia precizeco estis malproksima de ideala - post prilaborado, la fina rezulto devis esti serioze redaktita mane. Samtempe, grafikaĵoj kaj bildoj restis "eksterŝipe". Kaj eĉ se eblis enigi skanitan bildon en tekstan dokumenton, iuj vidaj detaloj perdiĝis, ekzemple la koloro de la papero, ĝia teksturo, kaj ĉi tiuj estas gravaj komponantoj de historiaj dokumentoj.

Por solvi ĉi tiujn problemojn, AT&T evoluigis DjVu. Ĝi ebligis kunpremi skanitajn kolordokumentojn kun rezolucio de 300 dpi ĝis 40–60 KB, kun originala grandeco de 25 MB. DjVu reduktis la grandecon de nigraj kaj blankaj paĝoj al 10–30 KB.

Kiel DjVu kunpremas dokumentojn

DjVu povas labori kun ambaŭ skanitaj paperaj dokumentoj kaj aliaj ciferecaj formatoj, kiel PDF. Kiel DjVu funkcias mensogoj teknologio kiu dividas la bildon en tri komponentojn: malfono, fono kaj nigrablanka (bit) masko.

La masko estas konservita je la rezolucio de la originala dosiero kaj enhavas bildo de teksto kaj aliaj klaraj detaloj - fajnaj linioj kaj diagramoj - same kiel kontrastaj bildoj.

Ĝi havas rezolucion de 300 dpi por konservi fajnajn liniojn kaj literajn konturojn akraj, kaj estas kunpremita per la JB2-algoritmo, kiu estas vario de la JBIG2-algoritmo de AT&T por telefaksilo. Karakterizaĵo de JB2 Estas kion ĝi faras, ĝi serĉas duplikatajn signojn sur la paĝo kaj konservas ilian bildon nur unufoje. Tiel, en plurpaĝaj dokumentoj, ĉiuj kelkaj sinsekvaj paĝoj kunhavas komunan "vortaron".

La fono enhavas la teksturon de la paĝo kaj ilustraĵojn, kaj ĝia rezolucio estas pli malalta ol tiu de la masko. La senperda fono estas konservita je 100 dpi.

Malfono konservas kolorinformoj pri la masko, kaj ĝia rezolucio estas kutime reduktita eĉ pli, ĉar plejofte la tekstkoloro estas nigra kaj sama por unu presita signo. Uzita por kunpremi la malfonon kaj fonon ondoletkunpremo.

La fina stadio de kreado de DjVu-dokumento estas entropia kodigado, kiam adapta aritmetika kodilo igas sekvencojn de identaj karakteroj binaran valoron.

Avantaĝoj de la formato

La tasko de DjVu estis savu "propraĵoj" de papera dokumento en cifereca formo, permesante eĉ malfortajn komputilojn labori kun tiaj dokumentoj. Tial, programaro por vidi DjVu dosierojn havas la kapablon "rapida bildigo". Dankon al ŝi en memoro ŝarĝo nur tiu peco de la paĝo DjVu kiu devus esti montrata sur la ekrano.

Tio ankaŭ ebligas vidi "neelŝutitajn" dosierojn, tio estas individuajn paĝojn de plurpaĝa DjVu-dokumento. En ĉi tiu kazo, oni uzas progreseman desegnadon de bildaj detaloj, kiam la komponantoj ŝajnas "aperi" dum la dosiero estas elŝutita (kiel en JPEG).

Antaŭ 20 jaroj, kiam ĉi tiu formato estis enkondukita, la paĝo estis ŝarĝita en tri etapoj: unue la tekstkomponento estis ŝarĝita, post kelkaj sekundoj la unuaj versioj de la bildoj kaj la fono estis ŝarĝitaj. Poste, la tuta paĝo de la libro "aperis".

La ĉeesto de trinivela strukturo ankaŭ permesas serĉi tra skanitaj libroj (ĉar ekzistas speciala tekstavolo). Tio montriĝis oportuna kiam oni laboras kun teknika literaturo kaj konsultlibroj, do DjVu fariĝis la bazo por pluraj bibliotekoj de sciencaj libroj. Ekzemple, en 2002 li estis elektita Interreta Arkivo kiel unu el la formatoj (kune kun TIFF kaj PDF) por projekto por konservi skanitajn librojn de malfermaj fontoj.

Malavantaĝoj de la formato

Tamen, kiel ĉiuj teknologioj, DjVu havas siajn malavantaĝojn. Ekzemple, dum kodado de skanadoj de libroj en la DjVu-formaton, kelkaj signoj en la dokumento povas esti anstataŭigitaj per aliaj kiuj estas similaj laŭ aspekto. Ĉi tio plej ofte okazas kun la literoj "i" kaj "n", tial ĉi tiu problemo ricevita nomo "yin-problemo". Ĝi ne dependas de la lingvo de la teksto kaj influas interalie nombrojn kaj aliajn malgrandajn ripetantajn signojn.

Ĝia kaŭzo estas eraroj pri klasifiko de karakteroj en la kodilo JB2. Ĝi "dividas" skanadon en grupojn de 10–20 pecoj kaj formas vortaron de komunaj simboloj por ĉiu grupo. La vortaro enhavas ekzemplojn de oftaj literoj kaj nombroj kun paĝoj kaj koordinatoj de ilia aspekto. Kiam vi rigardas DjVu-libron, signoj de la vortaro estas enmetitaj en la ĝustajn lokojn.

Ĉi tio ebligas al vi redukti la grandecon de la DjVu-dosiero, tamen, se la ekranoj de du literoj estas vide similaj, la kodilo povas aŭ konfuzi ilin aŭ konfuzi ilin kun la sama. Kelkfoje ĉi tio kondukas al damaĝo al formuloj en teknika dokumento. Por solvi ĉi tiun problemon, vi povas forlasi kunpremajn algoritmojn, sed ĉi tio pliigos la grandecon de la cifereca kopio de la libro.

Alia malavantaĝo de la formato estas ke ĝi ne estas subtenata defaŭlte en multaj modernaj operaciumoj (inkluzive de porteblaj). Tial, por labori kun ĝi, vi devas instali triajn partiojn programoj, kiel DjVuReader, WinDjView, Evince, ktp.. Tamen ĉi tie mi ŝatus rimarki, ke kelkaj elektronikaj legantoj (ekzemple ONYX BOOX) subtenas la DjVu-formaton “el la skatolo” – ĉar la necesaj aplikaĵoj jam estas instalitaj tie.

Cetere, ni parolis pri kio alia aplikoj por Android-bazitaj legantoj povas fari en unu el la antaŭaj materialoj.

E-libroj kaj iliaj formatoj: DjVu - ĝia historio, avantaĝoj, malavantaĝoj kaj trajtoj
Leganto ONYX BOX Chronos

Alia formata problemo aperas kiam oni laboras kun DjVu-dokumentoj sur malgrandaj ekranoj de porteblaj aparatoj - inteligentaj telefonoj, tabeloj, legantoj. Foje DjVu-dosieroj estas prezentitaj en formo de skanado de librodisvastiĝo, kaj profesia literaturo kaj labordokumentoj ofte estas en formato A4, do vi devas "movi" la bildon serĉante informojn.

Tamen ni rimarkas, ke ĉi tiu problemo ankaŭ povas esti solvita. La plej facila maniero, kompreneble, estas serĉi dokumenton en malsama formato - sed se ĉi tiu opcio ne eblas (ekzemple, vi devas labori kun granda kvanto da teknika literaturo en DjVu), tiam vi povas uzi elektronikajn legilojn. kun granda diagonalo de 9,7 ĝis 13,3 coloj, kiu speciale "tajlita" por labori kun tiaj dokumentoj.

Ekzemple, en la linio ONYX BOOX tiaj aparatoj estas Chronos и Maksimumo 2 (cetere, ni preparis recenzon pri ĉi tiu leganto-modelo, kaj baldaŭ publikigos ĝin en nia blogo), kaj ankaŭ noto, kiu havas ekranon E Ink Mobius Carta kun diagonalo de 10,3 coloj kaj pliigita rezolucio. Tiaj aparatoj permesas vin trankvile ekzameni ĉiujn detalojn de ilustraĵoj en sia originala grandeco kaj taŭgas por tiuj, kiuj ofte devas legi edukan aŭ teknikan literaturon. Por vidi DjVu kaj PDF-dosierojn estas uzata NEO Reader, kiu ebligas al vi ĝustigi la kontraston kaj dikecon de ciferecigitaj tiparoj.

Malgraŭ la mankoj de la formato, hodiaŭ DjVu restas unu el la plej popularaj formatoj por "konservi" literaturajn verkojn. Ĉi tio estas plejparte pro la fakto ke li Estas malferma, kaj kelkaj teknologiaj limigoj hodiaŭ permesas modernajn teknologiojn kaj evoluojn preteriri ĝin.

En la sekvaj materialoj ni daŭrigos la rakonton pri la historio de la apero de e-libroformatoj kaj la trajtoj de ilia laboro.

PS Pluraj aroj da legantoj de ONYX BOOX:



fonto: www.habr.com

Aldoni komenton