E-books en hun formaten: DjVu - zijn geschiedenis, voor-, nadelen en kenmerken

Begin jaren zeventig lukte het de Amerikaanse schrijver Michael Hart krijgen onbeperkte toegang tot een Xerox Sigma 5-computer geïnstalleerd aan de Universiteit van Illinois. Om goed gebruik te kunnen maken van de mogelijkheden van de machine, besloot hij het eerste elektronische boek te maken, waarin de Amerikaanse Onafhankelijkheidsverklaring werd herdrukt.

Tegenwoordig is digitale literatuur wijdverspreid, grotendeels dankzij de ontwikkeling van draagbare apparaten (smartphones, e-readers, laptops). Dit heeft geleid tot de opkomst van een groot aantal e-bookformaten. Laten we proberen hun functies te begrijpen en de geschiedenis van de meest populaire ervan vertellen - laten we beginnen met het DjVu-formaat.

E-books en hun formaten: DjVu - zijn geschiedenis, voor-, nadelen en kenmerken
/flickr/ Laan Peerman / CC

De opkomst van het formaat

DjVu werd in 1996 ontwikkeld door AT&T Labs met één doel: webontwikkelaars een hulpmiddel bieden voor het distribueren van afbeeldingen met hoge resolutie via internet.

Feit is dat op dat moment 90% van alle informatie nog steeds aanwezig is werd opgeslagen op papier, en veel van de belangrijke documenten waren voorzien van kleurenafbeeldingen en foto's. Om de leesbaarheid van de tekst en de kwaliteit van de afbeeldingen te behouden, was het noodzakelijk om hoge resolutie scans te maken.

Klassieke webformaten - JPEG, GIF en PNG - maakten het mogelijk om met dergelijke afbeeldingen te werken, maar dit ging ten koste van het volume. In het geval van JPEG, zodat de tekst was gelezen op het beeldscherm moest ik het document scannen met een resolutie van 300 dpi. Een kleurenpagina van het tijdschrift besloeg ongeveer 500 KB. Het downloaden van bestanden van deze omvang van internet was in die tijd een behoorlijk arbeidsintensief proces.

Het alternatief was het digitaliseren van papieren documenten met behulp van OCR-technologieën, maar twintig jaar geleden was de nauwkeurigheid ervan verre van ideaal: na verwerking moest het eindresultaat serieus met de hand worden bewerkt. Tegelijkertijd bleven graphics en afbeeldingen “overboord”. En zelfs als het mogelijk zou zijn om een ​​gescande afbeelding in een tekstdocument in te sluiten, gingen sommige visuele details verloren, bijvoorbeeld de kleur van het papier en de textuur ervan, en dit zijn belangrijke componenten van historische documenten.

Om deze problemen op te lossen heeft AT&T DjVu ontwikkeld. Het maakte het mogelijk om gescande kleurendocumenten met een resolutie van 300 dpi te comprimeren tot 40–60 KB, met een origineelformaat van 25 MB. DjVu verkleinde de grootte van zwart-witpagina's tot 10–30 KB.

Hoe DjVu documenten comprimeert

DjVu kan werken met zowel gescande papieren documenten als andere digitale formaten, zoals PDF. Hoe DjVu werkt is technologie die het beeld in drie componenten splitst: voorgrond, achtergrond en zwart-wit (bit)masker.

Het masker wordt opgeslagen met de resolutie van het originele bestand en Het bevat afbeelding van tekst en andere duidelijke details - fijne lijnen en diagrammen - evenals contrasterende afbeeldingen.

Het heeft een resolutie van 300 dpi om fijne lijnen en lettercontouren scherp te houden, en is gecomprimeerd met behulp van het JB2-algoritme, een variant van AT&T's JBIG2-algoritme voor faxen. Kenmerk van JB2 is wat het doet is dat het zoekt naar dubbele tekens op de pagina en hun afbeelding slechts één keer opslaat. In documenten met meerdere pagina's delen dus elke paar opeenvolgende pagina's een gemeenschappelijk 'woordenboek'.

De achtergrond bevat de textuur van de pagina en illustraties, en de resolutie is lager dan die van het masker. De verliesvrije achtergrond wordt opgeslagen met 100 dpi.

voorgrond winkels kleurinformatie over het masker, en de resolutie wordt meestal nog verder verlaagd, aangezien de tekstkleur in de meeste gevallen zwart is en hetzelfde voor één afgedrukt teken. Wordt gebruikt om de voorgrond en achtergrond te comprimeren golfvormige compressie.

De laatste fase van het maken van een DjVu-document is entropiecodering, waarbij een adaptieve rekenkundige encoder reeksen van identieke tekens omzet in een binaire waarde.

Voordelen van het formaat

De taak van DjVu was сохранить “eigenschappen” van een papieren document in digitale vorm, waardoor zelfs zwakke computers met dergelijke documenten kunnen werken. Daarom heeft software voor het bekijken van DjVu-bestanden de mogelijkheid om “snel te renderen”. Dankzij haar ter nagedachtenis агружается alleen dat stukje van de DjVu-pagina dat op het scherm moet worden weergegeven.

Dit maakt het ook mogelijk om “niet-gedownloade” bestanden te bekijken, dat wil zeggen individuele pagina’s van een DjVu-document met meerdere pagina’s. In dit geval wordt progressief tekenen van afbeeldingsdetails gebruikt, waarbij de componenten lijken te “verschijnen” terwijl het bestand wordt gedownload (zoals in JPEG).

Twintig jaar geleden, toen dit formaat werd geïntroduceerd, werd de pagina in drie fasen geladen: eerst werd de tekstcomponent geladen, na een paar seconden werden de eerste versies van de afbeeldingen en de achtergrond geladen. Daarna ‘verscheen’ de hele pagina van het boek.

Door de aanwezigheid van een structuur met drie niveaus kunt u ook in gescande boeken zoeken (aangezien er een speciale tekstlaag is). Dit bleek handig bij het werken met technische literatuur en naslagwerken, dus DjVu werd de basis voor verschillende bibliotheken met wetenschappelijke boeken. In 2002 werd hij bijvoorbeeld gekozen Internetarchief als een van de formaten (samen met TIFF en PDF) voor een project om gescande boeken uit open bronnen te bewaren.

Nadelen van het formaat

Zoals alle technologieën heeft DjVu echter zijn nadelen. Wanneer u bijvoorbeeld scans van boeken codeert in het DjVu-formaat, kunnen sommige tekens in het document worden vervangen door andere die er hetzelfde uitzien. Dit gebeurt meestal met de letters “i” en “n”, vandaar dit probleem ik kreeg noem "yin-probleem". Het is niet afhankelijk van de taal van de tekst en heeft invloed op onder meer cijfers en andere kleine herhalende karakters.

De oorzaak hiervan zijn karakterclassificatiefouten in de JB2-encoder. Het 'splitst' scans op in groepen van 10 tot 20 stukjes en vormt een woordenboek met gemeenschappelijke symbolen voor elke groep. Het woordenboek bevat voorbeelden van veel voorkomende letters en cijfers met pagina's en coördinaten van hun uiterlijk. Wanneer je een DjVu-boek bekijkt, worden tekens uit het woordenboek op de juiste plaatsen ingevoegd.

Hierdoor kunt u de grootte van het DjVu-bestand verkleinen, maar als de weergave van twee letters visueel vergelijkbaar is, kan de encoder ze verwarren of voor hetzelfde aanzien. Soms leidt dit tot beschadiging van formules in een technisch document. Om dit probleem op te lossen, kunt u compressie-algoritmen achterwege laten, maar hierdoor wordt de digitale kopie van het boek groter.

Een ander nadeel van het formaat is dat het niet standaard wordt ondersteund in veel moderne besturingssystemen (inclusief mobiele besturingssystemen). Om ermee te kunnen werken, moet u daarom een ​​derde partij installeren programma's, zoals DjVuReader, WinDjView, Evince, etc. Hier wil ik echter opmerken dat sommige elektronische lezers (bijvoorbeeld ONYX BOOX) het DjVu-formaat “out of the box” ondersteunen - omdat de benodigde applicaties daar al zijn geïnstalleerd.

We hebben trouwens gesproken over wat applicaties voor Android-gebaseerde lezers nog meer kunnen doen in een van de vorige materieel.

E-books en hun formaten: DjVu - zijn geschiedenis, voor-, nadelen en kenmerken
Lezer ONYX BOOX Chronos

Een ander formaatprobleem doet zich voor bij het werken met DjVu-documenten op kleine schermen van mobiele apparaten - smartphones, tablets, lezers. Soms worden DjVu-bestanden gepresenteerd in de vorm van een scan van een boekspread, en vakliteratuur en werkdocumenten zijn vaak in A4-formaat, waardoor je het beeld moet ‘bewegen’ op zoek naar informatie.

We merken echter op dat dit probleem ook kan worden opgelost. De eenvoudigste manier is natuurlijk om naar een document in een ander formaat te zoeken - maar als deze optie niet mogelijk is (je moet bijvoorbeeld met een grote hoeveelheid technische literatuur werken in DjVu), dan kun je elektronische lezers gebruiken met een grote diagonaal van 9,7 tot 13,3 inch, die speciaal "op maat" is gemaakt voor het werken met dergelijke documenten.

In de ONYX BOOX-lijn zijn dergelijke apparaten bijvoorbeeld Chronos и MAX 2 (trouwens, we hebben een recensie van dit lezersmodel voorbereid en zullen deze binnenkort op onze blog publiceren), en ook Note, dat een E Ink Mobius Carta-scherm heeft met een diagonaal van 10,3 inch en een verhoogde resolutie. Met dergelijke apparaten kunt u rustig alle details van illustraties in hun oorspronkelijke formaat bekijken en zijn ze geschikt voor degenen die vaak educatieve of technische literatuur moeten lezen. Om DjVu- en PDF-bestanden te bekijken gebruikt NEO Reader, waarmee u het contrast en de dikte van gedigitaliseerde lettertypen kunt aanpassen.

Ondanks de tekortkomingen van het format blijft DjVu vandaag de dag nog steeds een van de meest populaire formaten voor het “conserveren” van literaire werken. Dit komt grotendeels door het feit dat hij is open, en sommige technologische beperkingen maken het tegenwoordig mogelijk dat moderne technologieën en ontwikkelingen dit omzeilen.

In de volgende materialen gaan we verder met het verhaal over de geschiedenis van de opkomst van e-boekformaten en de kenmerken van hun werk.

PS Verschillende sets ONYX BOOX-lezers:



Bron: www.habr.com

Voeg een reactie