E-Books und ihre Formate: DjVu – seine Geschichte, Vor- und Nachteile und Funktionen

In den frühen 70er Jahren gelang es dem amerikanischen Schriftsteller Michael Hart bekommen Unbegrenzter Zugriff auf einen an der University of Illinois installierten Xerox Sigma 5-Computer. Um die Ressourcen der Maschine optimal zu nutzen, beschloss er, das erste elektronische Buch zu erstellen und die Unabhängigkeitserklärung der USA nachzudrucken.

Heutzutage ist digitale Literatur weit verbreitet, vor allem dank der Entwicklung tragbarer Geräte (Smartphones, E-Reader, Laptops). Dies hat zur Entstehung einer Vielzahl von E-Book-Formaten geführt. Versuchen wir, ihre Funktionen zu verstehen und die Geschichte der beliebtesten davon zu erzählen – beginnen wir mit dem DjVu-Format.

E-Books und ihre Formate: DjVu – seine Geschichte, Vor- und Nachteile und Funktionen
/flickr/ Lane Pearman / CC

Die Entstehung des Formats

DjVu wurde 1996 von AT&T Labs mit dem Ziel entwickelt, Webentwicklern ein Tool zur Verbreitung hochauflösender Bilder über das Internet an die Hand zu geben.

Tatsache ist, dass zu diesem Zeitpunkt 90 % aller Informationen noch vorhanden sind gespeichert wurde auf Papier, und viele der wichtigen Dokumente enthielten Farbbilder und Fotografien. Um die Lesbarkeit des Textes und die Qualität der Bilder zu gewährleisten, war es notwendig, hochauflösende Scans anzufertigen.

Klassische Webformate – JPEG, GIF und PNG – ermöglichten die Arbeit mit solchen Bildern, allerdings auf Kosten des Volumens. Im Falle von JPEG, damit der Text wurde gelesen Auf dem Monitorbildschirm musste ich das Dokument mit einer Auflösung von 300 dpi scannen. Eine Farbseite des Magazins belegte etwa 500 KB. Das Herunterladen von Dateien dieser Größe aus dem Internet war damals ein recht arbeitsintensiver Prozess.

Die Alternative bestand darin, Papierdokumente mithilfe von OCR-Technologien zu digitalisieren, doch vor 20 Jahren war deren Genauigkeit alles andere als ideal – nach der Verarbeitung musste das Endergebnis ernsthaft von Hand bearbeitet werden. Gleichzeitig blieben Grafiken und Bilder „übertrieben“. Und selbst wenn es möglich wäre, ein gescanntes Bild in ein Textdokument einzubetten, gingen einige visuelle Details verloren, zum Beispiel die Farbe des Papiers, seine Textur, und das sind wichtige Bestandteile historischer Dokumente.

Um diese Probleme zu lösen, hat AT&T DjVu entwickelt. Es ermöglichte die Komprimierung gescannter Farbdokumente mit einer Auflösung von 300 dpi auf 40–60 KB bei einer Originalgröße von 25 MB. DjVu hat die Größe von Schwarzweißseiten auf 10–30 KB reduziert.

Wie DjVu Dokumente komprimiert

DjVu kann sowohl mit gescannten Papierdokumenten als auch mit anderen digitalen Formaten wie PDF arbeiten. So funktioniert DjVu ist Technologie, die das Bild in drei Komponenten aufteilt: Vordergrund, Hintergrund und Schwarz-Weiß-(Bit-)Maske.

Die Maske wird mit der Auflösung der Originaldatei gespeichert und enthält Bild von Text und anderen klaren Details – feine Linien und Diagramme – sowie kontrastierende Bilder.

Es hat eine Auflösung von 300 dpi, um feine Linien und Buchstabenkonturen scharf zu halten, und wird mit dem JB2-Algorithmus komprimiert, einer Variante des JBIG2-Algorithmus von AT&T zum Faxen. Merkmal von JB2 ist Es sucht nach doppelten Zeichen auf der Seite und speichert deren Bild nur einmal. Daher teilen sich in mehrseitigen Dokumenten alle paar aufeinanderfolgenden Seiten ein gemeinsames „Wörterbuch“.

Der Hintergrund enthält die Textur der Seite und der Abbildungen und seine Auflösung ist geringer als die der Maske. Der verlustfreie Hintergrund wird mit 100 dpi gespeichert.

Vordergrund Geschäfte Farbinformationen über die Maske, und ihre Auflösung wird normalerweise noch weiter reduziert, da in den meisten Fällen die Textfarbe schwarz und für ein gedrucktes Zeichen gleich ist. Wird verwendet, um den Vordergrund und Hintergrund zu komprimieren Wavelet-Komprimierung.

Der letzte Schritt beim Erstellen eines DjVu-Dokuments ist die Entropiekodierung, bei der ein adaptiver arithmetischer Kodierer Sequenzen identischer Zeichen in einen Binärwert umwandelt.

Vorteile des Formats

DjVus Aufgabe war sparen „Eigenschaften“ eines Papierdokuments in digitaler Form, sodass auch schwache Computer mit solchen Dokumenten arbeiten können. Daher verfügt Software zum Anzeigen von DjVu-Dateien über die Fähigkeit zum „schnellen Rendern“. Vielen Dank an sie in Erinnerung Wird geladen nur der Teil der DjVu-Seite, der auf dem Bildschirm angezeigt werden soll.

Dadurch ist es auch möglich, „nicht heruntergeladene“ Dateien, also einzelne Seiten eines mehrseitigen DjVu-Dokuments, anzuzeigen. In diesem Fall wird das progressive Zeichnen von Bilddetails verwendet, wenn die Komponenten beim Herunterladen der Datei „erscheinen“ (wie in JPEG).

Vor 20 Jahren, als dieses Format eingeführt wurde, wurde die Seite in drei Schritten geladen: Zuerst wurde die Textkomponente geladen, nach ein paar Sekunden wurden die ersten Versionen der Bilder und des Hintergrunds geladen. Danach „erschien“ die gesamte Seite des Buches.

Das Vorhandensein einer dreistufigen Struktur ermöglicht Ihnen auch die Suche in gescannten Büchern (da es eine spezielle Textebene gibt). Dies erwies sich bei der Arbeit mit Fachliteratur und Nachschlagewerken als praktisch, sodass DjVu zur Grundlage für mehrere Bibliotheken mit wissenschaftlichen Büchern wurde. Beispielsweise wurde er 2002 ausgewählt Internetarchiv als eines der Formate (zusammen mit TIFF und PDF) für ein Projekt zur Aufbewahrung gescannter Bücher aus offenen Quellen.

Nachteile des Formats

Allerdings hat DjVu, wie alle Technologien, seine Nachteile. Wenn Sie beispielsweise gescannte Bücher in das DjVu-Format kodieren, werden möglicherweise einige Zeichen im Dokument durch andere ersetzt, die ein ähnliches Aussehen haben. Dies geschieht am häufigsten bei den Buchstaben „i“ und „n“, weshalb dieses Problem auftritt erhalten Nennen Sie „Yin-Problem“. Sie ist unabhängig von der Sprache des Textes und betrifft unter anderem Zahlen und andere kleine sich wiederholende Zeichen.

Die Ursache sind Zeichenklassifizierungsfehler im JB2-Encoder. Es „teilt“ Scans in Gruppen von 10–20 Teilen auf und erstellt ein Wörterbuch mit gemeinsamen Symbolen für jede Gruppe. Das Wörterbuch enthält Beispiele für gebräuchliche Buchstaben und Zahlen mit Seiten und Koordinaten ihres Aussehens. Wenn Sie ein DjVu-Buch ansehen, werden Zeichen aus dem Wörterbuch an den richtigen Stellen eingefügt.

Dadurch können Sie die Größe der DjVu-Datei reduzieren. Wenn jedoch die Darstellungen zweier Buchstaben optisch ähnlich sind, kann der Encoder sie entweder verwechseln oder mit denselben Buchstaben verwechseln. Manchmal führt dies zu Schäden an Formeln in einem technischen Dokument. Um dieses Problem zu lösen, können Sie auf Komprimierungsalgorithmen verzichten, dies führt jedoch zu einer Vergrößerung der digitalen Kopie des Buches.

Ein weiterer Nachteil des Formats besteht darin, dass es in vielen modernen Betriebssystemen (auch mobilen) nicht standardmäßig unterstützt wird. Um damit arbeiten zu können, müssen Sie daher Drittanbieter installieren Programm, wie DjVuReader, WinDjView, Evince usw. An dieser Stelle möchte ich jedoch darauf hinweisen, dass einige elektronische Lesegeräte (z. B. ONYX BOOX) das DjVu-Format „out of the box“ unterstützen – da die erforderlichen Anwendungen dort bereits installiert sind.

Übrigens haben wir in einem der vorherigen Artikel darüber gesprochen, was Apps für Android-basierte Lesegeräte sonst noch alles können Materialien.

E-Books und ihre Formate: DjVu – seine Geschichte, Vor- und Nachteile und Funktionen
Leser ONYX BOOX Chronos

Ein weiteres Formatproblem tritt bei der Arbeit mit DjVu-Dokumenten auf kleinen Bildschirmen mobiler Geräte – Smartphones, Tablets, Lesegeräte – auf. Manchmal werden DjVu-Dateien in Form eines Scans einer Buchseite präsentiert, und Fachliteratur und Arbeitsdokumente liegen häufig im A4-Format vor, sodass Sie das Bild auf der Suche nach Informationen „bewegen“ müssen.

Wir stellen jedoch fest, dass dieses Problem auch gelöst werden kann. Am einfachsten ist es natürlich, nach einem Dokument in einem anderen Format zu suchen – wenn diese Option jedoch nicht möglich ist (Sie müssen beispielsweise mit einer großen Menge an Fachliteratur in DjVu arbeiten), können Sie elektronische Lesegeräte verwenden mit einer großen Diagonale von 9,7 bis 13,3 Zoll, die speziell auf die Arbeit mit solchen Dokumenten „zugeschnitten“ ist.

Solche Geräte gibt es beispielsweise in der ONYX BOOX-Reihe Chronos и MAX 2 (Übrigens haben wir einen Testbericht zu diesem Lesermodell vorbereitet und werden ihn bald auf unserem Blog veröffentlichen) und auch Note, das über einen E Ink Mobius Carta-Bildschirm mit einer Diagonale von 10,3 Zoll und erhöhter Auflösung verfügt. Mit solchen Geräten können Sie alle Details von Abbildungen in Ruhe in Originalgröße betrachten und sind für diejenigen geeignet, die häufig Lehr- oder Fachliteratur lesen müssen. Zum Anzeigen von DjVu- und PDF-Dateien benutzt NEO Reader, mit dem Sie den Kontrast und die Dicke digitalisierter Schriftarten anpassen können.

Trotz der Mängel des Formats ist DjVu auch heute noch eines der beliebtesten Formate zur „Bewahrung“ literarischer Werke. Dies liegt vor allem daran, dass er ist offen, und einige technologische Einschränkungen erlauben es heute modernen Technologien und Entwicklungen, es zu umgehen.

In den folgenden Materialien werden wir die Geschichte der Entstehungsgeschichte von E-Book-Formaten und den Merkmalen ihrer Arbeit fortsetzen.

PS: Mehrere Sätze von ONYX BOOX-Lesegeräten:



Source: habr.com

Kommentar hinzufügen