Libros electrónicos e os seus formatos: DjVu: a súa historia, pros, contras e características

A principios dos anos 70, o escritor estadounidense Michael Hart conseguiu obter acceso ilimitado a un ordenador Xerox Sigma 5 instalado na Universidade de Illinois. Para facer un bo uso dos recursos da máquina, decidiu crear o primeiro libro electrónico, reimprimindo a Declaración de Independencia dos EUA.

Hoxe, a literatura dixital xeneralizouse, en gran parte grazas ao desenvolvemento de dispositivos portátiles (smartphones, lectores electrónicos, portátiles). Isto provocou a aparición dun gran número de formatos de libros electrónicos. Tentemos comprender as súas características e contar a historia dos máis populares deles: comecemos co formato DjVu.

Libros electrónicos e os seus formatos: DjVu: a súa historia, pros, contras e características
/flickr/ Lane Pearman / CC

A aparición do formato

DjVu foi desenvolvido en 1996 por AT&T Labs cun único propósito: ofrecer aos desenvolvedores web unha ferramenta para distribuír imaxes de alta resolución por Internet.

O caso é que nese momento o 90% de toda a información está aínda foi almacenado en papel, e moitos dos documentos importantes tiñan imaxes e fotografías en cor. Para manter a lexibilidade do texto e a calidade das imaxes, foi necesario realizar escaneos de alta resolución.

Os formatos web clásicos - JPEG, GIF e PNG - fixeron posible traballar con tales imaxes, pero a custa do volume. No caso de JPEG, para que o texto foi lido na pantalla do monitor, tiven que dixitalizar o documento cunha resolución de 300 dpi. Unha páxina en cor da revista ocupaba uns 500 KB. A descarga de ficheiros deste tamaño de Internet era un proceso bastante laborioso naquel momento.

A alternativa era dixitalizar documentos en papel utilizando tecnoloxías OCR, pero hai 20 anos a súa precisión distaba de ser a ideal: despois do procesamento, o resultado final tivo que editarse seriamente a man. Ao mesmo tempo, os gráficos e as imaxes permaneceron "por encima da borda". E aínda que fose posible incorporar unha imaxe dixitalizada nun documento de texto, perdéronse algúns detalles visuais, por exemplo, a cor do papel, a súa textura e estes son compoñentes importantes dos documentos históricos.

Para resolver estes problemas, AT&T desenvolveu DjVu. Permitiu comprimir documentos en cor dixitalizados cunha resolución de 300 dpi a 40–60 KB, cun tamaño orixinal de 25 MB. DjVu reduciu o tamaño das páxinas en branco e negro a 10–30 KB.

Como DjVu comprime documentos

DjVu pode traballar tanto con documentos en papel dixitalizados como con outros formatos dixitais, como PDF. Como funciona DjVu mentiras tecnoloxía que divide a imaxe en tres compoñentes: primeiro plano, fondo e máscara en branco e negro (bit).

A máscara gárdase coa resolución do ficheiro orixinal e contén imaxe de texto e outros detalles claros - liñas finas e diagramas - así como imaxes contrastantes.

Ten unha resolución de 300 ppp para manter nítidos as liñas finas e os contornos das letras, e comprímese mediante o algoritmo JB2, que é unha variación do algoritmo JBIG2 de AT&T para enviar faxes. Característica de JB2 é o que fai é que busca caracteres duplicados na páxina e garda a súa imaxe só unha vez. Así, nos documentos de varias páxinas, cada poucas páxinas consecutivas comparten un "dicionario" común.

O fondo contén a textura da páxina e as ilustracións, e a súa resolución é inferior á da máscara. O fondo sen perdas gárdase a 100 ppp.

Primeiro plano mantén información de cor sobre a máscara, e a súa resolución adoita reducirse aínda máis, xa que na maioría dos casos a cor do texto é negra e a mesma para un carácter impreso. Úsase para comprimir o primeiro plano e o fondo compresión wavelet.

A etapa final da creación dun documento DjVu é a codificación de entropía, cando un codificador aritmético adaptativo converte secuencias de caracteres idénticos nun valor binario.

Vantaxes do formato

A tarefa de DjVu era gardar "propiedades" dun documento en papel en formato dixital, permitindo que incluso ordenadores débiles traballen con tales documentos. Polo tanto, o software para ver ficheiros DjVu ten a capacidade de "renderizarse rápido". Grazas a ela na memoria cargando só ese anaco da páxina DjVu que debería mostrarse na pantalla.

Isto tamén permite ver ficheiros "non descargados", é dicir, páxinas individuais dun documento DjVu de varias páxinas. Neste caso, utilízase o debuxo progresivo dos detalles da imaxe, cando os compoñentes parecen "aparecer" a medida que se descarga o ficheiro (como en JPEG).

Hai 20 anos, cando se introduciu este formato, a páxina cargábase en tres etapas: primeiro cargábase o compoñente de texto, despois dun par de segundos cargáronse as primeiras versións das imaxes e do fondo. Despois, toda a páxina do libro "apareceu".

A presenza dunha estrutura de tres niveis tamén permite buscar nos libros escaneados (xa que hai unha capa de texto especial). Isto resultou conveniente cando se traballa con literatura técnica e libros de referencia, polo que DjVu converteuse na base de varias bibliotecas de libros científicos. Por exemplo, en 2002 foi elixido Arquivo de Internet como un dos formatos (xunto con TIFF e PDF) para un proxecto para preservar libros escaneados de fontes abertas.

Desvantaxes do formato

Non obstante, como todas as tecnoloxías, DjVu ten os seus inconvenientes. Por exemplo, ao codificar escaneos de libros no formato DjVu, algúns caracteres do documento poden ser substituídos por outros de aparencia semellante. Isto ocorre a maioría das veces coas letras "i" e "n", polo que este problema recibido nome "problema de yin". Non depende da lingua do texto e afecta, entre outras cousas, aos números e outros pequenos caracteres repetitivos.

A súa causa son erros de clasificación de caracteres no codificador JB2. "Divide" os escaneos en grupos de 10 a 20 pezas e forma un dicionario de símbolos comúns para cada grupo. O dicionario contén exemplos de letras e números comúns con páxinas e coordenadas do seu aspecto. Cando ves un libro de DjVu, os personaxes do dicionario insírense nos lugares correctos.

Isto permítelle reducir o tamaño do ficheiro DjVu, non obstante, se as pantallas de dúas letras son visualmente similares, o codificador pode confundilos ou confundilos co mesmo. Ás veces, isto leva a danos ás fórmulas nun documento técnico. Para resolver este problema, pode abandonar os algoritmos de compresión, pero isto aumentará o tamaño da copia dixital do libro.

Outra desvantaxe do formato é que non é compatible por defecto en moitos sistemas operativos modernos (incluídos os móbiles). Polo tanto, para traballar con el, cómpre instalar terceiros programas, como DjVuReader, WinDjView, Evince, etc. Non obstante, aquí gustaríame sinalar que algúns lectores electrónicos (por exemplo, ONYX BOOX) admiten o formato DjVu "fóra da caixa", xa que alí xa están instaladas as aplicacións necesarias.

Por certo, falamos de que máis aplicacións para lectores baseados en Android poden facer nunha das anteriores materiais.

Libros electrónicos e os seus formatos: DjVu: a súa historia, pros, contras e características
Lector ONYX BOOX Chronos

Outro problema de formato aparece cando se traballa con documentos DjVu en pequenas pantallas de dispositivos móbiles: teléfonos intelixentes, tabletas, lectores. Ás veces, os ficheiros DjVu preséntanse en forma de dixitalización dun libro espallado, e a literatura profesional e os documentos de traballo adoitan estar en formato A4, polo que tes que "mover" a imaxe en busca de información.

Non obstante, observamos que este problema tamén se pode resolver. O xeito máis sinxelo, por suposto, é buscar un documento nun formato diferente, pero se esta opción non é posible (por exemplo, cómpre traballar cunha gran cantidade de literatura técnica en DjVu), entón podes usar lectores electrónicos. cunha gran diagonal de 9,7 a 13,3 polgadas, especialmente "adaptada" para traballar con tales documentos.

Por exemplo, na liña ONYX BOOX tales dispositivos son Cronos и MAX 2 (por certo, preparamos unha reseña deste modelo de lector, e en breve o publicaremos no noso blog), e tamén Nota, que conta cunha pantalla E Ink Mobius Carta cunha diagonal de 10,3 polgadas e resolución aumentada. Estes dispositivos permítenche examinar con calma todos os detalles das ilustracións no seu tamaño orixinal e son axeitados para aqueles que moitas veces teñen que ler literatura educativa ou técnica. Para ver ficheiros DjVu e PDF se usa NEO Reader, que permite axustar o contraste e o grosor das fontes dixitalizadas.

Malia as carencias do formato, hoxe DjVu segue sendo un dos formatos máis populares para “preservar” obras literarias. Isto débese en gran parte ao feito de que el é aberta, e algunhas limitacións tecnolóxicas hoxe permiten que as tecnoloxías e os desenvolvementos modernos o eviten.

Nos seguintes materiais continuaremos a historia sobre a historia da aparición dos formatos de libros electrónicos e as características do seu traballo.

PS Varios conxuntos de lectores ONYX BOOX:



Fonte: www.habr.com

Engadir un comentario