E-Bicher an hir Formater: DjVu - seng Geschicht, Virdeeler, Nodeeler a Funktiounen

An de fréie 70er huet den amerikanesche Schrëftsteller Michael Hart gepackt kréien onlimitéiert Zougang zu engem Xerox Sigma 5 Computer op der University of Illinois installéiert. Fir d'Ressourcen vun der Maschinn gutt ze notzen, huet hien decidéiert dat éischt elektronescht Buch ze kreéieren an d'US Onofhängegkeetserklärung nei ze drécken.

Haut ass digital Literatur verbreet ginn, haaptsächlech duerch d'Entwécklung vu portable Geräter (Smartphones, E-Reader, Laptops). Dëst huet zu der Entstoe vun enger grousser Zuel vun E-Book Formater gefouert. Loosst eis probéieren hir Fonctiounen ze verstoen an d'Geschicht vun de beléifste vun hinnen ze soen - loosst eis mam DjVu Format ufänken.

E-Bicher an hir Formater: DjVu - seng Geschicht, Virdeeler, Nodeeler a Funktiounen
/flickr/ Lane Pearman / CC

D'Entstoe vum Format

DjVu gouf 1996 vun AT&T Labs entwéckelt mat engem Zweck - Webentwéckler en Tool ze ginn fir héichopléisende Biller iwwer den Internet ze verdeelen.

De Fakt ass datt zu där Zäit 90% vun all Informatioun nach ëmmer ass gespäichert gouf op Pabeier, a vill vun de wichtegen Dokumenter hu Faarf Biller a Fotoen. Fir d'Liesbarkeet vum Text an d'Qualitéit vun de Biller z'erhalen, war et néideg héichopléisende Scans ze maachen.

Klassesch Webformate - JPEG, GIF a PNG - hunn et méiglech gemaach mat esou Biller ze schaffen, awer op Käschte vum Volume. Am Fall vun JPEG, sou datt den Text gelies gouf um Monitor Écran, Ech hunn d'Dokument mat enger Resolutioun vun 300 dpi ze scannen. Eng Faarfsäit vum Magazin huet ongeféier 500 KB besat. D'Download vun Dateie vun dëser Gréisst vum Internet war zu där Zäit zimmlech eng Aarbechtsintensiv Prozess.

D'Alternativ war d'Digitaliséierung vu Pabeierdokumenter mat OCR Technologien, awer virun 20 Joer war hir Genauegkeet wäit vun ideal - no der Veraarbechtung huet d'Endresultat eescht mat der Hand geännert. Zur selwechter Zäit bloufen Grafiken a Biller "iwwer Bord". An och wann et méiglech war e gescannt Bild an en Textdokument z'integréieren, goufen e puer visuell Detailer verluer, zum Beispill d'Faarf vum Pabeier, seng Textur, an dëst si wichteg Bestanddeeler vun historeschen Dokumenter.

Fir dës Problemer ze léisen, huet AT&T DjVu entwéckelt. Et huet et méiglech gescannt Faarfdokumenter mat enger Resolutioun vun 300 dpi op 40-60 KB ze kompriméieren, mat enger Originalgréisst vun 25 MB. DjVu reduzéiert d'Gréisst vu schwaarz-wäiss Säiten op 10-30 KB.

Wéi DjVu Dokumenter kompriméiert

DjVu ka mat gescannte Pabeierdokumenter an aner digital Formater schaffen, wéi PDF. Wéi DjVu funktionnéiert läit Technologie déi d'Bild an dräi Komponenten opdeelt: Virdergrond, Hannergrond a schwaarz-wäiss (bëssen) Mask.

D'Mask gëtt bei der Opléisung vun der Originaldatei gespäichert an enthält Bild vum Text an aner kloer Detailer - fein Linnen an Diagrammer - souwéi kontrastéierend Biller.

Et huet eng Resolutioun vun 300 dpi fir fein Linnen a Bréifkonturen scharf ze halen, a gëtt mat dem JB2 Algorithmus kompriméiert, wat eng Variatioun vum AT&T sengem JBIG2 Algorithmus fir Faxen ass. Spezifikatioune vun JB2 et ass wat et mécht ass et sicht no duplizéiert Charaktere op der Säit a späichert hiert Bild nëmmen eemol. Also, a Multi-Säit Dokumenter, deelen all puer opfolgende Säiten e gemeinsame "Wörterbuch".

Den Hannergrond enthält d'Textur vun der Säit an Illustratiounen, a seng Resolutioun ass manner wéi déi vun der Mask. De Verloschtlosen Hannergrond gëtt bei 100 dpi gespäichert.

Viraus hält Faarfinformatioun iwwer d'Mask, a seng Resolutioun gëtt normalerweis nach méi reduzéiert, well an de meeschte Fäll ass d'Textfaarf schwaarz an d'selwecht fir ee gedréckte Charakter. Benotzt fir de Virdergrond an den Hannergrond ze kompriméieren wavelet Kompressioun.

Déi lescht Etapp vun der Schafung vun engem DjVu Dokument ass Entropie Kodéierung, wann en adaptiven arithmetesche Encoder Sequenzen vun identesche Charaktere an e binäre Wäert verwandelt.

Virdeeler vum Format

Dem DJVu seng Aufgab war retten "Eegeschafte" vun engem Pabeier Dokument an digital Form, datt souguer schwaach Computeren mat esou Dokumenter ze schaffen. Dofir huet d'Software fir DjVu Dateien ze gesinn d'Fäegkeet fir "séier Rendering". Merci un hir an Erënnerung lueden nëmmen dat Stéck vun der DjVu Säit déi um Écran ugewise soll ginn.

Dëst mécht et och méiglech "net erofgelueden" Dateien ze gesinn, dat heescht eenzel Säiten vun engem Multi-page DjVu Dokument. An dësem Fall gëtt progressiv Zeechnen vu Bilddetailer benotzt, wann d'Komponente schéngen "opzekommen" wéi d'Datei erofgeluede gëtt (wéi am JPEG).

Virun 20 Joer, wéi dëst Format agefouert gouf, gouf d'Säit an dräi Etappe gelueden: Als éischt gouf den Textkomponent gelueden, no e puer Sekonnen goufen déi éischt Versioune vun de Biller an den Hannergrond gelueden. Duerno ass déi ganz Säit vum Buch "erschien".

D'Präsenz vun enger dräi-Niveau Struktur erlaabt Iech och duerch gescannt Bicher ze sichen (well et eng speziell Text Layer ass). Dëst huet sech bequem wann Dir mat technescher Literatur a Referenzbicher schafft, sou datt DjVu d'Basis fir verschidde Bibliothéike vu wëssenschaftleche Bicher gouf. Zum Beispill, 2002 gouf hie gewielt Internet Archiv als ee vun de Formater (zesumme mat TIFF an PDF) fir e Projet gescannt Bicher aus oppene Quellen ze erhaalen.

Nodeeler vum Format

Wéi och ëmmer, wéi all Technologien, huet DjVu seng Nodeeler. Zum Beispill, wann Dir Scans vu Bicher an d'DjVu-Format kodéiert, kënnen e puer Zeechen am Dokument duerch anerer ersat ginn, déi ähnlech am Erscheinungsbild sinn. Dëst geschitt meeschtens mat de Buschtawen "i" an "n", dofir ass dëse Problem krut Numm "Yin Problem". Et hänkt net vun der Sprooch vum Text of a beaflosst ënner anerem Zuelen an aner kleng Widderhuelungszeechen.

Seng Ursaach ass Charakter Klassifikatioun Feeler am JB2 Encoder. Et "splits" scannt a Gruppen vun 10-20 Stécker a bildt e Wierderbuch mat gemeinsame Symboler fir all Grupp. D'Wörterbuch enthält Beispiller vu gemeinsame Buschtawen an Zuelen mat Säiten a Koordinaten vun hirem Erscheinungsbild. Wann Dir en DjVu Buch kuckt, ginn Zeechen aus dem Wierderbuch op déi richteg Plazen agebaut.

Dëst erlaabt Iech d'Gréisst vun der DjVu Datei ze reduzéieren, awer wann d'Affichage vun zwee Buschtawen visuell ähnlech sinn, kann den Encoder se entweder duercherneen bréngen oder se fir d'selwecht verwiesselen. Heiansdo féiert dat zu Schied un Formulen an engem techneschen Dokument. Fir dëse Problem ze léisen, kënnt Dir d'Kompressiounsalgorithmen opginn, awer dëst wäert d'Gréisst vun der digitaler Kopie vum Buch erhéijen.

En aneren Nodeel vum Format ass datt et net als Standard a ville modernen Betribssystemer (inklusiv mobilen) ënnerstëtzt gëtt. Dofir, fir domat ze schaffen, musst Dir Drëtt Partei installéieren Programmer, wéi DjVuReader, WinDjView, Evince, etc.. Ech wëll awer hei bemierken datt verschidde elektronesch Lieser (zum Beispill ONYX BOOX) den DjVu-Format "aus der Këscht" ënnerstëtzen - well déi néideg Uwendungen do schonn installéiert sinn.

Iwwregens, mir geschwat iwwer wat soss Applikatiounen fir Android-baséiert Lieser kann an ee vun de virdrun maachen Materialien.

E-Bicher an hir Formater: DjVu - seng Geschicht, Virdeeler, Nodeeler a Funktiounen
Lieser ONYX BOOX Chronos

En anere Formatproblem erschéngt wann Dir mat DjVu Dokumenter op klenge Schiirme vu mobilen Apparater schafft - Smartphones, Pëllen, Lieser. Heiansdo ginn DjVu-Dateien a Form vun engem Scan vun enger Buchverbreedung presentéiert, a Beruffsliteratur an Aarbechtsdokumenter sinn dacks am A4-Format, also musst Dir d'Bild op der Sich no Informatioun "réckelen".

Mir bemierken awer datt dëse Problem och geléist ka ginn. Deen einfachste Wee ass natierlech fir en Dokument an engem anere Format ze sichen - awer wann dës Optioun net méiglech ass (zum Beispill musst Dir mat enger grousser Quantitéit vun technescher Literatur am DjVu schaffen), da kënnt Dir elektronesch Lieser benotzen mat enger grousser Diagonal vun 9,7 bis 13,3 Zoll, déi speziell "opgepasst" fir mat esou Dokumenter ze schaffen.

Zum Beispill, an der ONYX BOOX Linn esou Apparater sinn Chronos и MAX 2 an (iwwregens, mir hunn eng Iwwerpréiwung vun dësem Liesermodell virbereet, a wäerte se geschwënn op eisem Blog publizéieren), an och Notéiert, deen en E Ink Mobius Carta Bildschierm huet mat enger Diagonal vun 10,3 Zoll a verstäerkter Resolutioun. Esou Apparater erlaben Iech roueg all d'Detailer vun Illustratiounen an hirer Originalgréisst ënnersicht a si gëeegent fir déi, déi oft pädagogesch oder technesch Literatur liesen muss. Fir DjVu an PDF Dateien ze gesinn benotzt gëtt NEO Reader, wat Iech erlaabt de Kontrast an d'Dicke vun digitaliséierte Schrëften unzepassen.

Trotz de Mängel vum Format bleift DjVu haut ee vun de beléifste Formater fir literaresch Wierker ze "erhalen". Dëst ass haaptsächlech wéinst der Tatsaach, datt hien et ass oppen, an e puer technologesch Aschränkungen haut erlaben modern Technologien an Entwécklungen et ze Contournement.

An de folgende Materialien wäerte mir d'Geschicht iwwer d'Geschicht vun der Entstoe vun E-Book Formater an d'Features vun hirer Aarbecht weiderféieren.

PS Verschidde Sätz vun ONYX BOOX Lieser:



Source: will.com

Setzt e Commentaire