E-books en hun formaten: DjVu - zijn geschiedenis, voor-, nadelen en kenmerken

Begin jaren zeventig slaagde de Amerikaanse schrijver Michael Hart erin krijgen onbeperkte toegang tot een Xerox Sigma 5-computer op de Universiteit van Illinois. Om de mogelijkheden van de machine optimaal te benutten, besloot hij het eerste e-boek te maken door de Amerikaanse Onafhankelijkheidsverklaring opnieuw te drukken.

Tegenwoordig is digitale literatuur wijdverbreid, grotendeels dankzij de ontwikkeling van draagbare apparaten (smartphones, e-readers, laptops). Dit heeft geleid tot de opkomst van een groot aantal e-boekformaten. Laten we proberen hun kenmerken te begrijpen en de geschiedenis van de populairste formaten te vertellen. Laten we beginnen met het DjVu-formaat.

E-books en hun formaten: DjVu - zijn geschiedenis, voor-, nadelen en kenmerken
/flickr/ Laan Pearman / CC

De opkomst van het formaat

DjVu werd in 1996 ontwikkeld door AT&T Labs met één doel: webontwikkelaars een hulpmiddel bieden om afbeeldingen met een hoge resolutie via internet te verspreiden.

Het punt is dat op dat moment 90% van alle informatie nog bestond werd opgeslagen op papier, en veel van de belangrijke documenten bevatten kleurenafbeeldingen en foto's. Om de leesbaarheid van de tekst en de kwaliteit van de afbeeldingen te behouden, was het noodzakelijk om scans met een hoge resolutie te maken.

Klassieke webformaten (JPEG, GIF en PNG) maakten het mogelijk om met dergelijke afbeeldingen te werken, maar dit ging wel ten koste van het volume. In het geval van JPEG, zodat de tekst werd gelezen op het beeldscherm was het noodzakelijk om het document te scannen met een resolutie van 300 dpi. Een kleurenpagina van het tijdschrift nam ongeveer 500 KB in beslag. Het downloaden van bestanden van deze omvang van internet was destijds een behoorlijk arbeidsintensief proces.

Het alternatief was om papieren documenten te digitaliseren met behulp van tekstherkenningstechnologieën, maar 20 jaar geleden was de nauwkeurigheid daarvan verre van optimaal: na de verwerking moest het eindresultaat nog grondig handmatig worden bewerkt. Tegelijkertijd bleven grafieken en afbeeldingen ‘overboord’. En zelfs als het mogelijk was om een ​​gescande afbeelding in een tekstdocument in te voegen, gingen er toch visuele details verloren, zoals de kleur van het papier en de textuur. Dit zijn belangrijke onderdelen van historische documenten.

Om deze problemen op te lossen, heeft AT&T DjVu ontwikkeld. Hiermee konden gescande kleurendocumenten met een resolutie van 300 dpi worden gecomprimeerd tot 40-60 KB, waarbij de oorspronkelijke grootte 25 MB was. DjVu verkleinde de grootte van zwart-witpagina's tot 10–30 KB.

Hoe DjVu documenten comprimeert

DjVu kan zowel met gescande papieren documenten als met andere digitale formaten zoals PDF werken. De basis van DjVu is een technologie die een afbeelding opsplitst in drie componenten: voorgrond, achtergrond en een zwart-wit (bit)masker.

Het masker wordt opgeslagen met de resolutie van het originele bestand en Het bevat de afbeelding van tekst en andere duidelijke details - fijne lijnen en diagrammen - evenals contrasterende afbeeldingen.

De resolutie is 300 dpi, zodat fijne lijnen en lettercontouren scherp blijven. De compressie vindt plaats met behulp van het JB2-algoritme, een variant op het JBIG2-algoritme dat door AT&T is geïntroduceerd voor faxen. Kenmerk van JB2 is dat het zoekt naar herhalende tekens op de pagina en de afbeelding daarvan slechts één keer opslaat. In documenten met meerdere pagina's wordt daarom om de paar opeenvolgende pagina's een gemeenschappelijk 'woordenboek' gebruikt.

De achtergrond bevat paginatextuur en illustraties en de resolutie is lager dan die van het masker. De achtergrond wordt opgeslagen met een resolutie van 100 dpi, zonder dat dit ten koste gaat van de perceptie.

voorgrond houdt kleurinformatie over het masker en de resolutie wordt meestal nog verder verlaagd, omdat de tekstkleur in de meeste gevallen zwart is en hetzelfde is voor één afgedrukt teken. Voor compressie van de voorgrond en achtergrond wordt het gebruikt waveletcompressie.

De laatste fase bij het maken van een DjVu-document is entropiecodering, waarbij een adaptieve rekenkundige encoder reeksen van identieke symbolen omzet in een binaire waarde.

Voordelen van het formaat

Het doel van DjVu was сохранить “eigenschappen” van een papieren document in digitale vorm, waardoor zelfs zwakke computers met zulke documenten kunnen werken. Daarom heeft DjVu-bestandsweergavesoftware een 'snelle rendering'-functie. Dankzij haar in herinnering агружается alleen dat deel van de DjVu-pagina dat op het scherm moet worden weergegeven.

Hierdoor is het ook mogelijk om 'onvoltooide' bestanden te bekijken, dat wil zeggen afzonderlijke pagina's van een DjVu-document met meerdere pagina's. Hierbij wordt gebruikgemaakt van progressieve rendering van beelddetails, waarbij componenten ‘verschijnen’ terwijl het bestand wordt gedownload (zoals bij JPEG).

20 jaar geleden, toen dit formaat werd geïntroduceerd, vond het laden van de pagina plaats in drie fasen: eerst werd het tekstcomponent geladen, na een paar seconden werden de eerste versies van de afbeeldingen en de achtergrond geladen. Daarna “verscheen” de hele pagina van het boek.

Dankzij de structuur met drie niveaus kunt u ook gescande boeken doorzoeken (er is een speciale tekstlaag). Dit bleek handig bij het werken met technische literatuur en naslagwerken. Zo werd DjVu de basis voor verschillende bibliotheken met wetenschappelijke boeken. Zo werd hij in 2002 gekozen Internetarchief als een van de formaten (samen met TIFF en PDF) voor een project om gescande boeken uit open bronnen te bewaren.

Nadelen van het formaat

Maar zoals alle technologieën heeft DjVu ook zijn nadelen. Wanneer u bijvoorbeeld gescande boeken codeert naar DjVu-formaat, kunnen sommige tekens in het document worden vervangen door tekens die er hetzelfde uitzien. Dit komt het vaakst voor bij de letters "i" en "n", vandaar dit probleem ik kreeg de naam "yin-probleem". Het is onafhankelijk van de taal van de tekst en heeft onder andere betrekking op cijfers en andere kleine, zich herhalende tekens.

Dit wordt veroorzaakt door karakterclassificatiefouten in de JB2-encoder. Het ‘splitst’ scans in groepen van 10–20 stukken en vormt een woordenboek van gemeenschappelijke symbolen voor elke groep. Het woordenboek bevat voorbeelden van veelvoorkomende letters en cijfers met pagina's en coördinaten van hun verschijningsvorm. Wanneer u een DjVu-boek bekijkt, worden symbolen uit het woordenboek op de juiste plaats gezet.

Hiermee kunt u de grootte van het DjVu-bestand verkleinen. Als de weergave van twee letters echter op elkaar lijkt, kan de encoder ze verwarren of als hetzelfde beschouwen. Soms leidt dit tot corruptie van formules in het technische document. Om dit probleem op te lossen, kunt u compressiealgoritmen weigeren, maar hierdoor wordt de digitale kopie van het boek wel groter.

Een ander nadeel van het formaat is dat het niet standaard wordt ondersteund door veel moderne besturingssystemen (ook niet mobiele). Om ermee te kunnen werken, moet u daarom software van derden installeren programma's, zoals DjVuReader, WinDjView, Evince, etc. Ik wil hier echter opmerken dat sommige e-readers (bijvoorbeeld ONYX BOOX) het DjVu-formaat "out of the box" ondersteunen - aangezien de benodigde applicaties daar al op zijn geïnstalleerd.

Overigens hebben we in een van onze vorige berichten besproken wat e-reader-apps voor Android nog meer kunnen. materieel.

E-books en hun formaten: DjVu - zijn geschiedenis, voor-, nadelen en kenmerken
Lezer ONYX BOOX Chronos

Een ander probleem met het formaat doet zich voor bij het werken met DjVu-documenten op kleine schermen van mobiele apparaten - smartphones, tablets en e-readers. Soms worden DjVu-bestanden gepresenteerd als een scan van een spread in een boek, en professionele literatuur en werkdocumenten zijn vaak in A4-formaat, dus je moet de afbeelding 'verplaatsen' op zoek naar informatie.

Wij merken echter op dat dit probleem ook oplosbaar is. De gemakkelijkste manier is natuurlijk om naar een document in een ander formaat te zoeken - maar als deze optie niet mogelijk is (u moet bijvoorbeeld met een grote hoeveelheid technische literatuur in DjVu werken), dan kunt u e-readers gebruiken met een grote diagonaal van 9,7 tot 13,3 inch, die speciaal zijn "geslepen" om met dergelijke documenten te werken.

In de ONYX BOOX-lijn zijn dergelijke apparaten bijvoorbeeld Chronos и MAX 2 (overigens hebben we een recensie van dit model van de lezer voorbereid en zullen deze binnenkort op onze blog publiceren), evenals Note, dat een 10,3-inch E Ink Mobius Carta-scherm heeft met een hogere resolutie. Dergelijke apparaten maken het mogelijk om rustig alle details van illustraties in hun originele formaat te bekijken en zijn geschikt voor mensen die vaak educatieve of technische literatuur moeten lezen. Om DjVu- en PDF-bestanden te bekijken gebruikt NEO Reader, waarmee u het contrast en de dikte van gedigitaliseerde lettertypen kunt aanpassen.

Ondanks de tekortkomingen van het formaat is DjVu vandaag de dag nog steeds een van de populairste formaten voor het ‘redden’ van literaire werken. Dit komt grotendeels doordat hij is open en moderne technologieën en ontwikkelingen maken het tegenwoordig mogelijk om een ​​aantal van de technologische beperkingen te omzeilen.

In de volgende materialen vertellen we verder over de opkomst van e-boekformaten en de kenmerken van hun werking.

P.S. Verschillende opties voor ONYX BOOX-lezers:



Bron: www.habr.com

Voeg een reactie