Libros electrónicos y sus formatos: DjVu: su historia, pros, contras y características

A principios de los años 70, el escritor estadounidense Michael Hart logró obtener acceso ilimitado a una computadora Xerox Sigma 5 instalada en la Universidad de Illinois. Para aprovechar bien los recursos de la máquina, decidió crear el primer libro electrónico, reimprimiendo la Declaración de Independencia de Estados Unidos.

Hoy en día, la literatura digital se ha generalizado, en gran parte gracias al desarrollo de dispositivos portátiles (teléfonos inteligentes, lectores electrónicos, portátiles). Esto ha llevado a la aparición de una gran cantidad de formatos de libros electrónicos. Intentemos comprender sus características y contar la historia de los más populares; comencemos con el formato DjVu.

Libros electrónicos y sus formatos: DjVu: su historia, pros, contras y características
/flickr/ Lane Pearman / CC

La aparición del formato.

DjVu fue desarrollado en 1996 por AT&T Labs con un propósito: brindar a los desarrolladores web una herramienta para distribuir imágenes de alta resolución a través de Internet.

El hecho es que en ese momento el 90% de toda la información todavía está fue almacenado en papel, y muchos de los documentos importantes tenían imágenes y fotografías en color. Para mantener la legibilidad del texto y la calidad de las imágenes, fue necesario realizar escaneos de alta resolución.

Los formatos web clásicos (JPEG, GIF y PNG) permitieron trabajar con este tipo de imágenes, pero a costa del volumen. En el caso de JPEG, para que el texto fue leído En la pantalla del monitor tuve que escanear el documento con una resolución de 300 ppp. Una página en color de la revista ocupaba unos 500 KB. Descargar archivos de este tamaño de Internet era un proceso bastante laborioso en ese momento.

La alternativa era digitalizar documentos en papel utilizando tecnologías OCR, pero hace 20 años su precisión estaba lejos de ser ideal: después del procesamiento, el resultado final tenía que editarse seriamente a mano. Al mismo tiempo, los gráficos y las imágenes quedaron "por la borda". E incluso si fuera posible incrustar una imagen escaneada en un documento de texto, se perdieron algunos detalles visuales, por ejemplo, el color del papel, su textura, y estos son componentes importantes de los documentos históricos.

Para solucionar estos problemas, AT&T desarrolló DjVu. Permitió comprimir documentos en color escaneados con una resolución de 300 ppp a 40-60 KB, con un tamaño original de 25 MB. DjVu redujo el tamaño de las páginas en blanco y negro a entre 10 y 30 KB.

Cómo DjVu comprime documentos

DjVu puede trabajar tanto con documentos en papel escaneados como con otros formatos digitales, como PDF. Cómo funciona DjVu es tecnología que divide la imagen en tres componentes: primer plano, fondo y máscara de blanco y negro (bits).

La máscara se guarda con la resolución del archivo original y contiene imagen de texto y otros detalles claros (líneas finas y diagramas), así como imágenes contrastantes.

Tiene una resolución de 300 ppp para mantener nítidos las líneas finas y los contornos de las letras, y está comprimido mediante el algoritmo JB2, que es una variación del algoritmo JBIG2 de AT&T para envío de faxes. Característica de JB2 es lo que hace es buscar caracteres duplicados en la página y guardar su imagen solo una vez. Así, en documentos de varias páginas, cada pocas páginas consecutivas comparten un “diccionario” común.

El fondo contiene la textura de la página y las ilustraciones, y su resolución es inferior a la de la máscara. El fondo sin pérdidas se guarda a 100 ppp.

Primer plano tiendas información de color sobre la máscara, y su resolución suele reducirse aún más, ya que en la mayoría de los casos el color del texto es negro y el mismo para un carácter impreso. Se utiliza para comprimir el primer plano y el fondo. compresión de ondas.

La etapa final de la creación de un documento DjVu es la codificación de entropía, cuando un codificador aritmético adaptativo convierte secuencias de caracteres idénticos en un valor binario.

Ventajas del formato

La tarea de DjVu era сохранить "propiedades" de un documento en papel en formato digital, lo que permite que incluso computadoras débiles trabajen con dichos documentos. Por lo tanto, el software para ver archivos DjVu tiene la capacidad de "renderizar rápidamente". Gracias a ella en la memoria. cargando solo esa parte de la página de DjVu que debe mostrarse en la pantalla.

Esto también permite ver archivos "no descargados", es decir, páginas individuales de un documento DjVu de varias páginas. En este caso, se utiliza el dibujo progresivo de los detalles de la imagen, cuando los componentes parecen "aparecer" a medida que se descarga el archivo (como en JPEG).

Hace 20 años, cuando se introdujo este formato, la página se cargaba en tres etapas: primero se cargaba el componente de texto, después de un par de segundos se cargaban las primeras versiones de las imágenes y el fondo. Después “apareció” la página entera del libro.

La presencia de una estructura de tres niveles también le permite buscar en libros escaneados (ya que hay una capa de texto especial). Esto resultó conveniente cuando se trabaja con literatura técnica y libros de referencia, por lo que DjVu se convirtió en la base de varias bibliotecas de libros científicos. Por ejemplo, en 2002 fue elegido Archivo de Internet como uno de los formatos (junto con TIFF y PDF) para un proyecto para preservar libros escaneados de fuentes abiertas.

Desventajas del formato

Sin embargo, como todas las tecnologías, DjVu tiene sus inconvenientes. Por ejemplo, al codificar escaneos de libros en formato DjVu, algunos caracteres del documento pueden ser reemplazados por otros de apariencia similar. Esto sucede con mayor frecuencia con las letras “i” y “n”, razón por la cual este problema recibido nombre "problema yin". No depende del idioma del texto y afecta, entre otras cosas, a números y otros pequeños caracteres repetidos.

Su causa son errores de clasificación de caracteres en el codificador JB2. "Divide" escaneos en grupos de 10 a 20 piezas y forma un diccionario de símbolos comunes para cada grupo. El diccionario contiene ejemplos de letras y números comunes con páginas y coordenadas de su aparición. Cuando ves un libro de DjVu, los caracteres del diccionario se insertan en los lugares correctos.

Esto le permite reducir el tamaño del archivo DjVu; sin embargo, si las visualizaciones de dos letras son visualmente similares, el codificador puede confundirlas o confundirlas con la misma. A veces esto provoca daños en las fórmulas de un documento técnico. Para resolver este problema, puede abandonar los algoritmos de compresión, pero esto aumentará el tamaño de la copia digital del libro.

Otra desventaja del formato es que no es compatible de forma predeterminada con muchos sistemas operativos modernos (incluidos los móviles). Por lo tanto, para trabajar con él es necesario instalar software de terceros. programa, como DjVuReader, WinDjView, Evince, etc. Sin embargo, aquí me gustaría señalar que algunos lectores electrónicos (por ejemplo, ONYX BOOX) admiten el formato DjVu "listo para usar", ya que las aplicaciones necesarias ya están instaladas allí.

Por cierto, hablamos sobre qué más pueden hacer las aplicaciones para lectores basados ​​en Android en uno de los anteriores materiales.

Libros electrónicos y sus formatos: DjVu: su historia, pros, contras y características
Lector ONYX BOOX Cronos

Otro problema de formato aparece cuando se trabaja con documentos DjVu en pantallas pequeñas de dispositivos móviles: teléfonos inteligentes, tabletas, lectores. A veces, los archivos DjVu se presentan en forma de un escaneo de un libro, y la literatura profesional y los documentos de trabajo suelen estar en formato A4, por lo que hay que "mover" la imagen en busca de información.

Sin embargo, observamos que este problema también se puede solucionar. La forma más sencilla, por supuesto, es buscar un documento en otro formato, pero si esta opción no es posible (por ejemplo, necesita trabajar con una gran cantidad de literatura técnica en DjVu), puede utilizar lectores electrónicos. con una gran diagonal de 9,7 a 13,3 pulgadas, que está especialmente "adaptada" para trabajar con este tipo de documentos.

Por ejemplo, en la línea ONYX BOOX tales dispositivos son Cronos и MAX 2 (por cierto, hemos preparado una reseña de este modelo de lector y pronto la publicaremos en nuestro blog), y también Note, que cuenta con una pantalla E Ink Mobius Carta con una diagonal de 10,3 pulgadas y mayor resolución. Estos dispositivos le permiten examinar tranquilamente todos los detalles de las ilustraciones en su tamaño original y son adecuados para quienes tienen que leer con frecuencia literatura educativa o técnica. Para ver archivos DjVu y PDF utilizado NEO Reader, que permite ajustar el contraste y el grosor de las fuentes digitalizadas.

A pesar de las deficiencias del formato, hoy DjVu sigue siendo uno de los formatos más populares para "preservar" obras literarias. Esto se debe en gran medida al hecho de que él es abierto, y algunas limitaciones tecnológicas hoy permiten que las tecnologías y desarrollos modernos lo eludan.

En los siguientes materiales continuaremos la historia de la aparición de los formatos de libros electrónicos y las características de su trabajo.

PD: Varios juegos de lectores ONYX BOOX:



Fuente: habr.com

Añadir un comentario