E-boeke en hul formate: DjVu - sy geskiedenis, voordele, nadele en kenmerke

In die vroeë 70's het die Amerikaanse skrywer Michael Hart daarin geslaag kry onbeperkte toegang tot 'n Xerox Sigma 5-rekenaar wat by die Universiteit van Illinois geïnstalleer is. Om die masjien se hulpbronne goed te gebruik, het hy besluit om die eerste elektroniese boek te skep, wat die Amerikaanse Onafhanklikheidsverklaring herdruk.

Vandag het digitale literatuur wydverspreid geword, grootliks danksy die ontwikkeling van draagbare toestelle (slimfone, e-lesers, skootrekenaars). Dit het gelei tot die ontstaan ​​van 'n groot aantal e-boekformate. Kom ons probeer om hul kenmerke te verstaan ​​en vertel die geskiedenis van die gewildste van hulle - kom ons begin met die DjVu-formaat.

E-boeke en hul formate: DjVu - sy geskiedenis, voordele, nadele en kenmerke
/flickr/ Lane Pearman / CC

Die opkoms van die formaat

DjVu is in 1996 deur AT&T Labs ontwikkel met een doel - om webontwikkelaars 'n hulpmiddel te gee om hoë-resolusie beelde oor die internet te versprei.

Die feit is dat op daardie tydstip 90% van alle inligting nog is gestoor is op papier, en baie van die belangrike dokumente het kleurbeelde en foto's gehad. Om die leesbaarheid van die teks en die kwaliteit van die prente te handhaaf, was dit nodig om hoë-resolusie skanderings te maak.

Klassieke webformate – JPEG, GIF en PNG – het dit moontlik gemaak om met sulke beelde te werk, maar ten koste van volume. In die geval van JPEG, sodat die teks gelees is op die monitorskerm moes ek die dokument skandeer met 'n resolusie van 300 dpi. 'n Kleurbladsy van die tydskrif het ongeveer 500 KB beslaan. Om lêers van hierdie grootte van die internet af te laai was in daardie tyd nogal 'n arbeidsintensiewe proses.

Die alternatief was om papierdokumente met behulp van OCR-tegnologie te digitaliseer, maar 20 jaar gelede was hul akkuraatheid ver van ideaal – ná verwerking moes die finale resultaat ernstig met die hand geredigeer word. Terselfdertyd het grafika en beelde “oorboord” gebly. En selfs al was dit moontlik om 'n geskandeerde beeld in 'n teksdokument in te sluit, het sommige visuele besonderhede verlore gegaan, byvoorbeeld die kleur van die papier, sy tekstuur, en dit is belangrike komponente van historiese dokumente.

Om hierdie probleme op te los, het AT&T DjVu ontwikkel. Dit het dit moontlik gemaak om geskandeerde kleurdokumente met 'n resolusie van 300 dpi tot 40–60 KB saam te druk, met 'n oorspronklike grootte van 25 MB. DjVu het die grootte van swart en wit bladsye tot 10–30 KB verminder.

Hoe DjVu dokumente saampers

DjVu kan met beide geskandeerde papierdokumente en ander digitale formate, soos PDF, werk. Hoe DjVu werk leuens tegnologie wat die beeld in drie komponente verdeel: voorgrond, agtergrond en swart en wit (bietjie) masker.

Die masker word gestoor met die resolusie van die oorspronklike lêer en bevat beeld van teks en ander duidelike besonderhede - fyn lyne en diagramme - sowel as kontrasterende prente.

Dit het 'n resolusie van 300 dpi om fyn lyne en letteromlyne skerp te hou, en word saamgepers met die JB2-algoritme, wat 'n variasie van AT&T se JBIG2-algoritme vir faks is. Kenmerk van JB2 is wat dit doen, is dat dit vir duplikaatkarakters op die bladsy soek en hul beeld net een keer stoor. Dus, in multi-bladsy dokumente, deel elke paar opeenvolgende bladsye 'n gemeenskaplike "woordeboek".

Die agtergrond bevat die tekstuur van die bladsy en illustrasies, en die resolusie daarvan is laer as dié van die masker. Die verlieslose agtergrond word teen 100 dpi gestoor.

Voorgrond hou kleurinligting oor die masker, en die resolusie daarvan word gewoonlik nog verder verminder, aangesien die tekskleur in die meeste gevalle swart is en dieselfde vir een gedrukte karakter. Word gebruik om die voorgrond en agtergrond saam te druk wavelet kompressie.

Die finale stadium van die skep van 'n DjVu-dokument is entropie-kodering, wanneer 'n aanpasbare rekenkundige enkodeerder reekse van identiese karakters in 'n binêre waarde verander.

Voordele van die formaat

DjVu se taak was red "eienskappe" van 'n papierdokument in digitale vorm, wat selfs swak rekenaars toelaat om met sulke dokumente te werk. Daarom het sagteware om DjVu-lêers te bekyk die vermoë om "vinnige weergawes" te maak. Dankie aan haar ter nagedagtenis laai net daardie stuk van die DjVu-bladsy wat op die skerm vertoon moet word.

Dit maak dit ook moontlik om "ongelaaide" lêers te sien, dit wil sê individuele bladsye van 'n multi-bladsy DjVu dokument. In hierdie geval word progressiewe tekening van beeldbesonderhede gebruik, wanneer die komponente blyk te "verskyn" terwyl die lêer afgelaai word (soos in JPEG).

20 jaar gelede, toe hierdie formaat bekendgestel is, is die bladsy in drie fases gelaai: eers is die tekskomponent gelaai, na 'n paar sekondes is die eerste weergawes van die beelde en die agtergrond gelaai. Daarna het die hele bladsy van die boek “verskyn”.

Die teenwoordigheid van 'n drievlakstruktuur laat jou ook toe om deur geskandeerde boeke te soek (aangesien daar 'n spesiale tekslaag is). Dit blyk gerieflik te wees wanneer jy met tegniese literatuur en naslaanboeke werk, so DjVu het die basis geword vir verskeie biblioteke van wetenskaplike boeke. Hy is byvoorbeeld in 2002 gekies Internet Argief as een van die formate (saam met TIFF en PDF) vir 'n projek om geskandeerde boeke van oop bronne te bewaar.

Nadele van die formaat

Soos alle tegnologieë, het DjVu egter sy nadele. Byvoorbeeld, wanneer skanderings van boeke in die DjVu-formaat gekodeer word, kan sommige karakters in die dokument vervang word deur ander wat soortgelyk in voorkoms is. Dit gebeur meestal met die letters "i" en "n", en daarom is hierdie probleem ontvang noem "yin probleem". Dit hang nie van die taal van die teks af nie en raak onder meer getalle en ander klein herhalende karakters.

Die oorsaak daarvan is karakterklassifikasiefoute in die JB2-enkodeerder. Dit "verdeel" skanderings in groepe van 10–20 stukke en vorm 'n woordeboek van algemene simbole vir elke groep. Die woordeboek bevat voorbeelde van gewone letters en syfers met bladsye en koördinate van hul voorkoms. Wanneer jy 'n DjVu-boek bekyk, word karakters uit die woordeboek op die regte plekke ingevoeg.

Dit laat jou toe om die grootte van die DjVu-lêer te verklein, maar as die vertonings van twee letters visueel soortgelyk is, kan die enkodeerder hulle óf verwar óf met dieselfde misgis. Soms lei dit tot skade aan formules in 'n tegniese dokument. Om hierdie probleem op te los, kan jy kompressie-algoritmes laat vaar, maar dit sal die grootte van die digitale kopie van die boek vergroot.

Nog 'n nadeel van die formaat is dat dit nie by verstek in baie moderne bedryfstelsels (insluitend mobiele stelsels) ondersteun word nie. Daarom, om daarmee te werk, moet u derdeparty installeer programme, soos DjVuReader, WinDjView, Evince, ens. Hier wil ek egter daarop let dat sommige elektroniese lesers (byvoorbeeld ONYX BOOX) die DjVu-formaat “buite die boks” ondersteun - aangesien die nodige toepassings reeds daar geïnstalleer is.

Terloops, ons het gepraat oor wat ander toepassings vir Android-gebaseerde lesers in een van die vorige kan doen van materiale.

E-boeke en hul formate: DjVu - sy geskiedenis, voordele, nadele en kenmerke
Leser ONYX BOOX Chronos

Nog 'n formaatprobleem kom voor wanneer jy met DjVu-dokumente op klein skerms van mobiele toestelle werk - slimfone, tablette, lesers. Soms word DjVu-lêers in die vorm van 'n skandering van 'n boekverspreiding aangebied, en professionele literatuur en werksdokumente is dikwels in A4-formaat, so jy moet die beeld "skuif" op soek na inligting.

Ons let egter daarop dat hierdie probleem ook opgelos kan word. Die maklikste manier is natuurlik om 'n dokument in 'n ander formaat te soek - maar as hierdie opsie nie moontlik is nie (jy moet byvoorbeeld met 'n groot hoeveelheid tegniese literatuur in DjVu werk), dan kan jy elektroniese lesers gebruik met 'n groot diagonaal van 9,7 tot 13,3 duim, wat spesiaal "gepasmaak" is om met sulke dokumente te werk.

Byvoorbeeld, in die ONYX BOOX-lyn is sulke toestelle Chronos и MAX 2 (terloops, ons het 'n resensie van hierdie lesermodel voorberei, en sal dit binnekort op ons blog publiseer), en ook nota, wat 'n E Ink Mobius Carta-skerm het met 'n diagonaal van 10,3 duim en verhoogde resolusie. Sulke toestelle laat jou toe om al die besonderhede van illustrasies in hul oorspronklike grootte rustig te ondersoek en is geskik vir diegene wat dikwels opvoedkundige of tegniese literatuur moet lees. Om DjVu- en PDF-lêers te bekyk word gebruik NEO Reader, waarmee u die kontras en dikte van gedigitaliseerde lettertipes kan aanpas.

Ten spyte van die formaat se tekortkominge, bly DjVu vandag een van die gewildste formate vir die “bewaring” van literêre werke. Dit is grootliks te wyte aan die feit dat hy is oop, en sommige tegnologiese beperkings vandag laat moderne tegnologieë en ontwikkelings toe om dit te omseil.

In die volgende materiaal gaan ons voort met die storie oor die geskiedenis van die opkoms van e-boekformate en die kenmerke van hul werk.

NS Verskeie stelle ONYX BOOX-lesers:



Bron: will.com

Voeg 'n opmerking