E-bøger og deres formater: DjVu - dens historie, fordele, ulemper og funktioner

I begyndelsen af ​​70'erne klarede den amerikanske forfatter Michael Hart ubegrænset adgang til en Xerox Sigma 5-computer installeret på University of Illinois. For at gøre god brug af maskinens ressourcer besluttede han at skabe den første elektroniske bog, der genoptrykte den amerikanske uafhængighedserklæring.

I dag er digital litteratur blevet udbredt, i høj grad takket være udviklingen af ​​bærbare enheder (smartphones, e-læsere, bærbare computere). Dette har ført til fremkomsten af ​​en lang række e-bogsformater. Lad os prøve at forstå deres funktioner og fortælle historien om de mest populære af dem - lad os starte med DjVu-formatet.

E-bøger og deres formater: DjVu - dens historie, fordele, ulemper og funktioner
/flickr/ Lane Pearman / CC

Fremkomsten af ​​formatet

DjVu blev udviklet i 1996 af AT&T Labs med ét formål - at give webudviklere et værktøj til at distribuere billeder i høj opløsning over internettet.

Faktum er, at på det tidspunkt er 90% af al information stadig blev opbevaret på papir, og mange af de vigtige dokumenter havde farvebilleder og fotografier. For at bevare tekstens læsbarhed og kvaliteten af ​​billederne var det nødvendigt at lave højopløselige scanninger.

Klassiske webformater - JPEG, GIF og PNG - gjorde det muligt at arbejde med sådanne billeder, men på bekostning af volumen. I tilfælde af JPEG, således at teksten blev læst på monitorskærmen skulle jeg scanne dokumentet med en opløsning på 300 dpi. En farveside i bladet optog omkring 500 KB. At downloade filer af denne størrelse fra internettet var en ret arbejdskrævende proces på det tidspunkt.

Alternativet var at digitalisere papirdokumenter ved hjælp af OCR-teknologier, men for 20 år siden var deres nøjagtighed langt fra ideel – efter bearbejdning skulle det endelige resultat for alvor redigeres i hånden. Samtidig forblev grafik og billeder "overbord". Og selvom det var muligt at indlejre et scannet billede i et tekstdokument, gik nogle visuelle detaljer tabt, for eksempel papirets farve, dets tekstur, og disse er vigtige komponenter i historiske dokumenter.

For at løse disse problemer udviklede AT&T DjVu. Det gjorde det muligt at komprimere scannede farvedokumenter med en opløsning på 300 dpi til 40–60 KB, med en originalstørrelse på 25 MB. DjVu reducerede størrelsen af ​​sort/hvide sider til 10–30 KB.

Hvordan DjVu komprimerer dokumenter

DjVu kan arbejde med både scannede papirdokumenter og andre digitale formater, såsom PDF. Sådan fungerer DjVu er teknologi, der opdeler billedet i tre komponenter: forgrund, baggrund og sort/hvid (bit) maske.

Masken gemmes ved opløsningen af ​​den originale fil og indeholder billede af tekst og andre tydelige detaljer - fine linjer og diagrammer - samt kontrasterende billeder.

Den har en opløsning på 300 dpi for at holde fine linjer og bogstavkonturer skarpe, og den er komprimeret ved hjælp af JB2-algoritmen, som er en variation af AT&T's JBIG2-algoritme til fax. Funktion af JB2 er det, det gør, er, at det leder efter duplikerede tegn på siden og gemmer kun deres billede én gang. I flersidede dokumenter deler hvert par på hinanden følgende sider en fælles "ordbog".

Baggrunden indeholder teksturen af ​​siden og illustrationerne, og dens opløsning er lavere end maskens. Den tabsfrie baggrund gemmes ved 100 dpi.

forgrunden butikker farveoplysninger om masken, og dens opløsning reduceres normalt endnu mere, da tekstfarven i de fleste tilfælde er sort og den samme for et udskrevet tegn. Bruges til at komprimere forgrunden og baggrunden wavelet kompression.

Den sidste fase af oprettelsen af ​​et DjVu-dokument er entropi-kodning, når en adaptiv aritmetisk encoder omdanner sekvenser af identiske tegn til en binær værdi.

Fordele ved formatet

DjVus opgave var сохранить "egenskaber" for et papirdokument i digital form, hvilket gør det muligt for selv svage computere at arbejde med sådanne dokumenter. Derfor har software til visning af DjVu-filer evnen til at "hurtig gengivelse". Tak til hende i minde Indlæser kun det stykke af DjVu-siden, der skal vises på skærmen.

Dette gør det også muligt at se "ikke-downloadede" filer, det vil sige individuelle sider af et flersidet DjVu-dokument. I dette tilfælde bruges progressiv tegning af billeddetaljer, når komponenterne ser ud til at "vises", når filen downloades (som i JPEG).

For 20 år siden, da dette format blev introduceret, blev siden indlæst i tre trin: Først blev tekstkomponenten indlæst, efter et par sekunder blev de første versioner af billederne og baggrunden indlæst. Bagefter "dukkede hele siden af ​​bogen op".

Tilstedeværelsen af ​​en struktur på tre niveauer giver dig også mulighed for at søge gennem scannede bøger (da der er et særligt tekstlag). Dette viste sig at være praktisk, når man arbejdede med teknisk litteratur og opslagsbøger, så DjVu blev grundlaget for flere biblioteker med videnskabelige bøger. For eksempel blev han i 2002 valgt Internetarkiv som et af formaterne (sammen med TIFF og PDF) for et projekt, der skal bevare scannede bøger fra åbne kilder.

Ulemper ved formatet

Men som alle teknologier har DjVu sine ulemper. Når du f.eks. koder scanninger af bøger til DjVu-formatet, kan nogle tegn i dokumentet erstattes af andre, der ligner hinanden i udseende. Dette sker oftest med bogstaverne "i" og "n", hvilket er grunden til dette problem jeg har modtaget navn "yin problem". Det afhænger ikke af tekstens sprog og påvirker blandt andet tal og andre små gentagende tegn.

Årsagen er karakterklassificeringsfejl i JB2-encoderen. Den "opdeler" scanninger i grupper på 10-20 stykker og danner en ordbog med fælles symboler for hver gruppe. Ordbogen indeholder eksempler på almindelige bogstaver og tal med sider og koordinater for deres udseende. Når du ser en DjVu-bog, indsættes tegn fra ordbogen de rigtige steder.

Dette giver dig mulighed for at reducere størrelsen af ​​DjVu-filen, men hvis visningerne af to bogstaver visuelt ligner hinanden, kan indkoderen enten forvirre dem eller forveksle dem med det samme. Nogle gange fører dette til skader på formler i et teknisk dokument. For at løse dette problem kan du opgive komprimeringsalgoritmer, men dette vil øge størrelsen på den digitale kopi af bogen.

En anden ulempe ved formatet er, at det ikke understøttes som standard i mange moderne operativsystemer (inklusive mobile). Derfor skal du installere tredjepart for at arbejde med det programmer, såsom DjVuReader, WinDjView, Evince osv. Her vil jeg dog gerne bemærke, at nogle elektroniske læsere (f.eks. ONYX BOOX) understøtter DjVu-formatet "out of the box" - da de nødvendige applikationer allerede er installeret der.

Forresten talte vi om, hvad applikationer til Android-baserede læsere ellers kan gøre i en af ​​de foregående materialer.

E-bøger og deres formater: DjVu - dens historie, fordele, ulemper og funktioner
Læser ONYX BOOX Chronos

Et andet formatproblem opstår, når du arbejder med DjVu-dokumenter på små skærme på mobile enheder - smartphones, tablets, læsere. Nogle gange præsenteres DjVu-filer i form af en scanning af et bogopslag, og faglitteratur og arbejdsdokumenter er ofte i A4-format, så du er nødt til at "flytte" billedet i søgen efter information.

Vi bemærker dog, at dette problem også kan løses. Den nemmeste måde er selvfølgelig at lede efter et dokument i et andet format – men hvis denne mulighed ikke er mulig (du skal f.eks. arbejde med en stor mængde teknisk litteratur i DjVu), så kan du bruge elektroniske læsere med en stor diagonal fra 9,7 til 13,3 tommer, som er specielt "skræddersyet" til at arbejde med sådanne dokumenter.

For eksempel er sådanne enheder i ONYX BOOX-linjen Chronos и MAX 2 (vi har i øvrigt udarbejdet en anmeldelse af denne læsermodel og vil snart offentliggøre den på vores blog), og også Bemærk, som har en E Ink Mobius Carta-skærm med en diagonal på 10,3 tommer og øget opløsning. Sådanne enheder giver dig mulighed for roligt at undersøge alle detaljerne i illustrationer i deres originale størrelse og er velegnede til dem, der ofte skal læse pædagogisk eller teknisk litteratur. For at se DjVu- og PDF-filer brugt NEO Reader, som giver dig mulighed for at justere kontrasten og tykkelsen af ​​digitaliserede skrifttyper.

På trods af formatets mangler er DjVu i dag stadig et af de mest populære formater til at "bevare" litterære værker. Det skyldes i høj grad, at han er åben, og nogle teknologiske begrænsninger i dag tillader moderne teknologier og udviklinger at omgå det.

I de følgende materialer vil vi fortsætte historien om historien om fremkomsten af ​​e-bogsformater og funktionerne i deres arbejde.

PS Flere sæt ONYX BOOX læsere:



Kilde: www.habr.com

Tilføj en kommentar