Les livres électroniques et leurs formats : DjVu - son histoire, ses avantages, ses inconvénients et ses fonctionnalités

Au début des années 70, l'écrivain américain Michael Hart réussit obtenir accès illimité à un ordinateur Xerox Sigma 5 installé à l'Université de l'Illinois. Pour tirer le meilleur parti des ressources de la machine, il décide de créer le premier livre électronique, réimprimant la Déclaration d'indépendance des États-Unis.

Aujourd’hui, la littérature numérique s’est largement répandue, en grande partie grâce au développement des appareils portables (smartphones, liseuses, ordinateurs portables). Cela a conduit à l’émergence d’un grand nombre de formats de livres électroniques. Essayons de comprendre leurs fonctionnalités et de raconter l'histoire des plus populaires d'entre eux - commençons par le format DjVu.

Les livres électroniques et leurs formats : DjVu - son histoire, ses avantages, ses inconvénients et ses fonctionnalités
/flickr/ Lane Pearman / CC

L'émergence du format

DjVu a été développé en 1996 par AT&T Labs dans un seul objectif : fournir aux développeurs Web un outil permettant de distribuer des images haute résolution sur Internet.

Le fait est qu'à cette époque, 90 % de toutes les informations sont encore disponibles. a été stocké sur papier, et bon nombre des documents importants contenaient des images et des photographies en couleur. Pour maintenir la lisibilité du texte et la qualité des images, il était nécessaire de réaliser des scans haute résolution.

Les formats Web classiques - JPEG, GIF et PNG - ont permis de travailler avec de telles images, mais au détriment du volume. Dans le cas du JPEG, pour que le texte a été lu sur l'écran du moniteur, j'ai dû numériser le document avec une résolution de 300 dpi. Une page couleur du magazine occupait environ 500 Ko. À l’époque, le téléchargement de fichiers de cette taille à partir d’Internet était un processus assez laborieux.

L'alternative était de numériser les documents papier à l'aide des technologies OCR, mais il y a 20 ans, leur précision était loin d'être idéale : après traitement, le résultat final devait être sérieusement édité à la main. Dans le même temps, les graphiques et les images sont restés « à la mer ». Et même s'il était possible d'intégrer une image numérisée dans un document texte, certains détails visuels étaient perdus, par exemple la couleur du papier, sa texture, et ce sont des éléments importants des documents historiques.

Afin de résoudre ces problèmes, AT&T a développé DjVu. Il a permis de compresser des documents couleur numérisés avec une résolution de 300 dpi à 40-60 Ko, avec une taille originale de 25 Mo. DjVu a réduit la taille des pages en noir et blanc à 10-30 Ko.

Comment DjVu compresse les documents

DjVu peut fonctionner à la fois avec des documents papier numérisés et d'autres formats numériques, tels que PDF. Comment fonctionne DjVu est technologie qui divise l’image en trois composants : premier plan, arrière-plan et masque noir et blanc (bits).

Le masque est enregistré à la résolution du fichier original et contient image de texte et d'autres détails clairs - lignes fines et diagrammes - ainsi que des images contrastées.

Il a une résolution de 300 dpi pour conserver des lignes fines et des contours de lettres nets, et est compressé à l'aide de l'algorithme JB2, qui est une variante de l'algorithme JBIG2 d'AT&T pour la télécopie. Caractéristique de JB2 il est ce qu'il fait, c'est qu'il recherche les caractères en double sur la page et enregistre leur image une seule fois. Ainsi, dans les documents de plusieurs pages, toutes les quelques pages consécutives partagent un « dictionnaire » commun.

Le fond contient la texture de la page et des illustrations, et sa résolution est inférieure à celle du masque. L'arrière-plan sans perte est enregistré à 100 dpi.

Premier plan magasins informations de couleur sur le masque, et sa résolution est généralement encore réduite, car dans la plupart des cas, la couleur du texte est noire et la même pour un caractère imprimé. Utilisé pour compresser le premier plan et l'arrière-plan compression d'ondelettes.

La dernière étape de la création d'un document DjVu est le codage entropique, lorsqu'un encodeur arithmétique adaptatif transforme des séquences de caractères identiques en une valeur binaire.

Avantages du format

La tâche de DjVu était sauvegarder « propriétés » d'un document papier sous forme numérique, permettant même aux ordinateurs les plus faibles de travailler avec de tels documents. Par conséquent, le logiciel de visualisation des fichiers DjVu a la capacité d'effectuer un « rendu rapide ». Merci à elle en mémoire chargement uniquement la partie de la page DjVu qui doit être affichée à l'écran.

Cela permet également de visualiser les fichiers « non téléchargés », c'est-à-dire les pages individuelles d'un document DjVu de plusieurs pages. Dans ce cas, un dessin progressif des détails de l'image est utilisé, lorsque les composants semblent « apparaître » au fur et à mesure du téléchargement du fichier (comme en JPEG).

Il y a 20 ans, lorsque ce format a été introduit, la page était chargée en trois étapes : d'abord le composant texte était chargé, après quelques secondes les premières versions des images et de l'arrière-plan étaient chargées. Ensuite, la page entière du livre « est apparue ».

La présence d'une structure à trois niveaux vous permet également d'effectuer une recherche dans les livres numérisés (car il existe une couche de texte spéciale). Cela s'est avéré pratique lorsque l'on travaille avec de la littérature technique et des ouvrages de référence, DjVu est donc devenu la base de plusieurs bibliothèques de livres scientifiques. Par exemple, en 2002, il a été choisi Archives Internet comme l'un des formats (avec TIFF et PDF) pour un projet visant à préserver les livres numérisés à partir de sources ouvertes.

Inconvénients du format

Cependant, comme toutes les technologies, DjVu a ses inconvénients. Par exemple, lors de l'encodage de numérisations de livres au format DjVu, certains caractères du document peuvent être remplacés par d'autres d'apparence similaire. Cela arrive le plus souvent avec les lettres « i » et « n », c'est pourquoi ce problème reçu nommez « problème yin ». Cela ne dépend pas de la langue du texte et affecte, entre autres, les chiffres et autres petits caractères répétitifs.

Cela est dû à des erreurs de classification des caractères dans l'encodeur JB2. Il « divise » les numérisations en groupes de 10 à 20 pièces et forme un dictionnaire de symboles communs pour chaque groupe. Le dictionnaire contient des exemples de lettres et de chiffres courants avec des pages et les coordonnées de leur apparition. Lorsque vous visualisez un livre DjVu, les caractères du dictionnaire sont insérés aux bons endroits.

Cela vous permet de réduire la taille du fichier DjVu, cependant, si les affichages de deux lettres sont visuellement similaires, l'encodeur peut soit les confondre, soit les confondre avec les mêmes. Parfois, cela entraîne des dommages aux formules d'un document technique. Pour résoudre ce problème, vous pouvez abandonner les algorithmes de compression, mais cela augmentera la taille de la copie numérique du livre.

Un autre inconvénient du format est qu'il n'est pas pris en charge par défaut dans de nombreux systèmes d'exploitation modernes (y compris les mobiles). Par conséquent, pour travailler avec, vous devez installer un logiciel tiers programme, tels que DjVuReader, WinDjView, Evince, etc. Cependant, je voudrais ici noter que certains lecteurs électroniques (par exemple, ONYX BOOX) prennent en charge le format DjVu « prêt à l'emploi » - puisque les applications nécessaires y sont déjà installées.

À propos, nous avons parlé de ce que les applications pour lecteurs basés sur Android peuvent faire d'autre dans l'un des précédents matériels.

Les livres électroniques et leurs formats : DjVu - son histoire, ses avantages, ses inconvénients et ses fonctionnalités
Lecteur ONYX BOOX Chronos

Un autre problème de format apparaît lorsque vous travaillez avec des documents DjVu sur de petits écrans d'appareils mobiles - smartphones, tablettes, lecteurs. Parfois, les fichiers DjVu se présentent sous la forme d'un scan d'un livre, et la littérature professionnelle et les documents de travail sont souvent au format A4, il faut donc « déplacer » l'image à la recherche d'informations.

Cependant, nous notons que ce problème peut également être résolu. Le moyen le plus simple, bien sûr, est de rechercher un document dans un format différent - mais si cette option n'est pas possible (par exemple, vous devez travailler avec une grande quantité de littérature technique dans DjVu), vous pouvez alors utiliser des lecteurs électroniques. avec une grande diagonale de 9,7 à 13,3 pouces, spécialement « adaptée » pour travailler avec de tels documents.

Par exemple, dans la gamme ONYX BOOX, ces appareils sont Chronos и MAX 2 (d'ailleurs, nous avons préparé une revue de ce modèle de lecteur, et la publierons bientôt sur notre blog), et aussi Notes, qui dispose d'un écran E Ink Mobius Carta avec une diagonale de 10,3 pouces et une résolution accrue. De tels appareils permettent d'examiner sereinement tous les détails des illustrations dans leur taille originale et conviennent à ceux qui doivent souvent lire de la littérature pédagogique ou technique. Pour afficher les fichiers DjVu et PDF d'occasion NEO Reader, qui vous permet d'ajuster le contraste et l'épaisseur des polices numérisées.

Malgré les défauts du format, DjVu reste aujourd'hui l'un des formats les plus populaires pour « conserver » les œuvres littéraires. Cela est dû en grande partie au fait qu'il il est ouvert, et certaines limitations technologiques permettent aujourd’hui aux technologies et développements modernes de le contourner.

Dans les documents suivants, nous continuerons l'histoire de l'histoire de l'émergence des formats de livres électroniques et des caractéristiques de leur travail.

PS Plusieurs jeux de lecteurs ONYX BOOX :



Source: habr.com

Ajouter un commentaire