E-bøker og deres formater: DjVu - dens historie, fordeler, ulemper og funksjoner

På begynnelsen av 70-tallet klarte den amerikanske forfatteren Michael Hart ubegrenset tilgang til en Xerox Sigma 5-datamaskin installert ved University of Illinois. For å gjøre god bruk av maskinens ressurser, bestemte han seg for å lage den første elektroniske boken, og trykke den amerikanske uavhengighetserklæringen på nytt.

I dag har digital litteratur blitt utbredt, i stor grad takket være utviklingen av bærbare enheter (smarttelefoner, e-lesere, bærbare datamaskiner). Dette har ført til fremveksten av et stort antall e-bokformater. La oss prøve å forstå funksjonene deres og fortelle historien til de mest populære av dem - la oss starte med DjVu-formatet.

E-bøker og deres formater: DjVu - dens historie, fordeler, ulemper og funksjoner
/flickr/ Lane Pearman / CC

Fremveksten av formatet

DjVu ble utviklet i 1996 av AT&T Labs med ett formål - å gi webutviklere et verktøy for distribusjon av høyoppløselige bilder over Internett.

Faktum er at på den tiden er 90% av all informasjon fortsatt ble lagret på papir, og mange av de viktige dokumentene hadde fargebilder og fotografier. For å opprettholde tekstens lesbarhet og kvaliteten på bildene var det nødvendig å lage høyoppløselige skanninger.

Klassiske nettformater – JPEG, GIF og PNG – gjorde det mulig å jobbe med slike bilder, men på bekostning av volum. I tilfelle av JPEG, slik at teksten ble lest på LCD-skjermen måtte jeg skanne dokumentet med en oppløsning på 300 dpi. En fargeside i magasinet okkuperte omtrent 500 KB. Å laste ned filer av denne størrelsen fra Internett var en ganske arbeidskrevende prosess på den tiden.

Alternativet var å digitalisere papirdokumenter ved hjelp av OCR-teknologier, men for 20 år siden var nøyaktigheten langt fra ideell – etter bearbeiding måtte det endelige resultatet for alvor redigeres for hånd. Samtidig forble grafikk og bilder "over bord". Og selv om det var mulig å legge inn et skannet bilde i et tekstdokument, gikk noen visuelle detaljer tapt, for eksempel fargen på papiret, dets tekstur, og dette er viktige komponenter i historiske dokumenter.

For å løse disse problemene utviklet AT&T DjVu. Det gjorde det mulig å komprimere skannede fargedokumenter med en oppløsning på 300 dpi til 40–60 KB, med en originalstørrelse på 25 MB. DjVu reduserte størrelsen på svart-hvitt-sider til 10–30 KB.

Hvordan DjVu komprimerer dokumenter

DjVu kan fungere med både skannede papirdokumenter og andre digitale formater, for eksempel PDF. Hvordan DjVu fungerer er teknologi som deler bildet i tre komponenter: forgrunn, bakgrunn og svart-hvitt (bit) maske.

Masken lagres med oppløsningen til den originale filen og inneholder bilde av tekst og andre tydelige detaljer - fine linjer og diagrammer - samt kontrasterende bilder.

Den har en oppløsning på 300 dpi for å holde fine linjer og bokstavkonturer skarpe, og komprimeres ved hjelp av JB2-algoritmen, som er en variant av AT&Ts JBIG2-algoritme for faksing. Funksjon av JB2 er det den gjør er at den ser etter dupliserte tegn på siden og lagrer bildet deres bare én gang. I flersidige dokumenter deler altså noen få påfølgende sider en felles "ordbok".

Bakgrunnen inneholder teksturen til siden og illustrasjonene, og oppløsningen er lavere enn maskens. Den tapsfrie bakgrunnen lagres ved 100 dpi.

forgrunnen holder fargeinformasjon om masken, og dens oppløsning reduseres vanligvis ytterligere, siden tekstfargen i de fleste tilfeller er svart og den samme for ett utskrevet tegn. Brukes til å komprimere forgrunnen og bakgrunnen wavelet-komprimering.

Den siste fasen av å lage et DjVu-dokument er entropi-koding, når en adaptiv aritmetisk koder gjør sekvenser av identiske tegn til en binær verdi.

Fordeler med formatet

DjVus oppgave var сохранить "egenskaper" til et papirdokument i digital form, slik at selv svake datamaskiner kan jobbe med slike dokumenter. Derfor har programvare for visning av DjVu-filer muligheten til "rask gjengivelse". Takk til henne i minnet lasting bare den delen av DjVu-siden som skal vises på skjermen.

Dette gjør det også mulig å se "ikke-nedlastede" filer, det vil si individuelle sider i et flersidig DjVu-dokument. I dette tilfellet brukes progressiv tegning av bildedetaljer når komponentene ser ut til å "vises" når filen lastes ned (som i JPEG).

For 20 år siden, da dette formatet ble introdusert, ble siden lastet inn i tre trinn: først ble tekstkomponenten lastet inn, etter et par sekunder ble de første versjonene av bildene og bakgrunnen lastet. Etterpå "dukket hele siden av boken opp".

Tilstedeværelsen av en struktur på tre nivåer lar deg også søke gjennom skannede bøker (ettersom det er et spesielt tekstlag). Dette viste seg å være praktisk når man jobbet med teknisk litteratur og oppslagsverk, så DjVu ble grunnlaget for flere bibliotek med vitenskapelige bøker. For eksempel ble han valgt i 2002 Internett-arkiv som et av formatene (sammen med TIFF og PDF) for et prosjekt for å bevare skannede bøker fra åpne kilder.

Ulemper med formatet

Men som alle teknologier har DjVu sine ulemper. For eksempel, når du koder skanninger av bøker til DjVu-formatet, kan noen tegn i dokumentet erstattes av andre som ligner i utseende. Dette skjer oftest med bokstavene "i" og "n", som er grunnen til dette problemet jeg fikk navn "yin-problem". Det er ikke avhengig av tekstens språk og påvirker blant annet tall og andre små repeterende tegn.

Årsaken er tegnklassifiseringsfeil i JB2-koderen. Den "deler" skanner i grupper på 10–20 stykker og danner en ordbok med vanlige symboler for hver gruppe. Ordboken inneholder eksempler på vanlige bokstaver og tall med sider og koordinater for deres utseende. Når du ser på en DjVu-bok, blir tegn fra ordboken satt inn på de riktige stedene.

Dette lar deg redusere størrelsen på DjVu-filen, men hvis visningene av to bokstaver er visuelt like, kan koderen enten forvirre dem eller forveksle dem med det samme. Noen ganger fører dette til skade på formler i et teknisk dokument. For å løse dette problemet kan du forlate komprimeringsalgoritmer, men dette vil øke størrelsen på den digitale kopien av boken.

En annen ulempe med formatet er at det ikke støttes som standard i mange moderne operativsystemer (inkludert mobile). Derfor, for å jobbe med det, må du installere en tredjepart programmer, slik som DjVuReader, WinDjView, Evince, etc. Her vil jeg imidlertid merke meg at noen elektroniske lesere (for eksempel ONYX BOOX) støtter DjVu-formatet "out of the box" - siden de nødvendige applikasjonene allerede er installert der.

Vi snakket forresten om hva annet applikasjoner for Android-baserte lesere kan gjøre i en av de forrige materialer.

E-bøker og deres formater: DjVu - dens historie, fordeler, ulemper og funksjoner
Leser ONYX BOOX Chronos

Et annet formatproblem dukker opp når du arbeider med DjVu-dokumenter på små skjermer på mobile enheter - smarttelefoner, nettbrett, lesere. Noen ganger presenteres DjVu-filer i form av en skanning av et bokoppslag, og faglitteratur og arbeidsdokumenter er ofte i A4-format, så du må "flytte" bildet på jakt etter informasjon.

Vi bemerker imidlertid at dette problemet også kan løses. Den enkleste måten er selvfølgelig å se etter et dokument i et annet format - men hvis dette alternativet ikke er mulig (du må for eksempel jobbe med en stor mengde teknisk litteratur i DjVu), så kan du bruke elektroniske lesere med en stor diagonal fra 9,7 til 13,3 tommer, som er spesielt "skreddersydd" for å jobbe med slike dokumenter.

For eksempel, i ONYX BOOX-linjen er slike enheter Chronos и MAX 2 (Vi har forresten utarbeidet en anmeldelse av denne lesermodellen, og vil snart publisere den på bloggen vår), og også Merknader, som har en E Ink Mobius Carta-skjerm med en diagonal på 10,3 tommer og økt oppløsning. Slike enheter lar deg rolig undersøke alle detaljene i illustrasjonene i sin opprinnelige størrelse og er egnet for de som ofte må lese pedagogisk eller teknisk litteratur. For å vise DjVu- og PDF-filer brukes NEO Reader, som lar deg justere kontrasten og tykkelsen på digitaliserte fonter.

Til tross for formatets mangler, er DjVu i dag fortsatt et av de mest populære formatene for å "bevare" litterære verk. Dette skyldes i stor grad at han er åpen, og noen teknologiske begrensninger i dag lar moderne teknologier og utviklinger omgå det.

I de følgende materialene vil vi fortsette historien om historien til fremveksten av e-bokformater og funksjonene i arbeidet deres.

PS Flere sett med ONYX BOOX-lesere:



Kilde: www.habr.com

Legg til en kommentar