E-booki i ich formaty: DjVu – jego historia, zalety, wady i cechy

Na początku lat 70. udało się to amerykańskiemu pisarzowi Michaelowi Hartowi dostać nieograniczony dostęp do komputera Xerox Sigma 5 zainstalowanego na Uniwersytecie Illinois. Aby dobrze wykorzystać zasoby maszyny, postanowił stworzyć pierwszą książkę elektroniczną, przedrukowując Deklarację Niepodległości Stanów Zjednoczonych.

Współcześnie literatura cyfrowa stała się powszechna, w dużej mierze dzięki rozwojowi urządzeń przenośnych (smartfony, e-czytniki, laptopy). Doprowadziło to do pojawienia się dużej liczby formatów e-booków. Spróbujmy zrozumieć ich funkcje i opowiedzieć historię najpopularniejszego z nich – zacznijmy od formatu DjVu.

E-booki i ich formaty: DjVu – jego historia, zalety, wady i cechy
/flickr/ Lane’a Pearmana / CC

Pojawienie się formatu

DjVu zostało opracowane w 1996 roku przez AT&T Labs w jednym celu – aby dać twórcom stron internetowych narzędzie do dystrybucji obrazów o wysokiej rozdzielczości w Internecie.

Faktem jest, że w tym czasie 90% wszystkich informacji jest nieruchomych był przechowywany na papierze, a wiele ważnych dokumentów zawierało kolorowe obrazy i fotografie. Aby zachować czytelność tekstu i jakość zdjęć, konieczne było wykonanie skanów o wysokiej rozdzielczości.

Klasyczne formaty internetowe - JPEG, GIF i PNG - umożliwiły pracę z takimi obrazami, ale kosztem objętości. W przypadku JPEG, tak aby tekst zostało przeczytane na ekranie monitora musiałem zeskanować dokument w rozdzielczości 300 dpi. Kolorowa strona magazynu zajmowała około 500 KB. Pobieranie plików tej wielkości z Internetu było wówczas dość pracochłonnym procesem.

Alternatywą była digitalizacja dokumentów papierowych za pomocą technologii OCR, jednak 20 lat temu ich dokładność była daleka od ideału – po przetworzeniu efekt końcowy musiał zostać poważnie zredagowany ręcznie. Jednocześnie grafika i obrazy pozostały „za burtą”. A nawet jeśli udało się osadzić zeskanowany obraz w dokumencie tekstowym, to utracone zostały pewne szczegóły wizualne, np. kolor papieru, jego faktura, a to ważne elementy dokumentów historycznych.

Aby rozwiązać te problemy, firma AT&T opracowała DjVu. Umożliwiło to kompresję zeskanowanych dokumentów kolorowych z rozdzielczością 300 dpi do 40–60 KB, przy rozmiarze oryginału 25 MB. DjVu zmniejszyło rozmiar stron czarno-białych do 10–30 KB.

Jak DjVu kompresuje dokumenty

DjVu może pracować zarówno ze zeskanowanymi dokumentami papierowymi, jak i innymi formatami cyfrowymi, takimi jak PDF. Jak działa DjVu kłamstwa technologia, która dzieli obraz na trzy części: pierwszy plan, tło i czarno-białą (bitową) maskę.

Maska jest zapisywana w rozdzielczości oryginalnego pliku i zawiera obraz tekstu i innych wyraźnych szczegółów – cienkich linii i diagramów – a także kontrastujących obrazów.

Ma rozdzielczość 300 dpi, co pozwala zachować ostrość cienkich linii i konturów liter, i jest kompresowany przy użyciu algorytmu JB2, który jest odmianą algorytmu JBIG2 firmy AT&T do faksowania. Cecha JB2 jest to, co robi, to szuka zduplikowanych znaków na stronie i zapisuje ich obraz tylko raz. Zatem w dokumentach wielostronicowych co kilka kolejnych stron ma wspólny „słownik”.

Tło zawiera teksturę strony i ilustracji, a jego rozdzielczość jest niższa niż w przypadku maski. Bezstratne tło jest zapisywane w rozdzielczości 100 dpi.

Pierwszy plan trzyma informacja o kolorze maski, a jej rozdzielczość jest zwykle jeszcze bardziej zmniejszona, ponieważ w większości przypadków kolor tekstu jest czarny i taki sam dla jednego drukowanego znaku. Służy do kompresji pierwszego planu i tła kompresja falkowa.

Ostatnim etapem tworzenia dokumentu DjVu jest kodowanie entropijne, kiedy adaptacyjny koder arytmetyczny zamienia sekwencje identycznych znaków na wartość binarną.

Zalety formatu

Zadaniem DjVu było uratować „właściwości” dokumentu papierowego w formie cyfrowej, umożliwiające pracę z takimi dokumentami nawet słabym komputerom. Dlatego oprogramowanie do przeglądania plików DjVu ma możliwość „szybkiego renderowania”. Dzięki jej pamięci Ładowanie tylko ten fragment strony DjVu, który powinien wyświetlić się na ekranie.

Umożliwia to również przeglądanie „niepobranych” plików, czyli poszczególnych stron wielostronicowego dokumentu DjVu. W tym przypadku stosuje się progresywne rysowanie szczegółów obrazu, gdy elementy wydają się „pojawiać się” w miarę pobierania pliku (jak w formacie JPEG).

20 lat temu, kiedy wprowadzono ten format, strona ładowała się w trzech etapach: najpierw ładowany był komponent tekstowy, po kilku sekundach ładowały się pierwsze wersje obrazów i tła. Następnie „pojawiła się” cała strona księgi.

Obecność trzypoziomowej struktury umożliwia także przeszukiwanie zeskanowanych książek (ponieważ istnieje specjalna warstwa tekstowa). Okazało się to wygodne podczas pracy z literaturą techniczną i podręcznikami, dlatego DjVu stało się podstawą dla kilku bibliotek książek naukowych. Na przykład w 2002 roku został wybrany Archiwum internetowe jako jeden z formatów (obok TIFF i PDF) dla projektu zachowania zeskanowanych książek z otwartych źródeł.

Wady formatu

Jednakże, jak każda technologia, DjVu ma swoje wady. Na przykład podczas kodowania skanów książek do formatu DjVu niektóre znaki w dokumencie mogą zostać zastąpione innymi o podobnym wyglądzie. Dzieje się tak najczęściej w przypadku liter „i” i „n” i stąd ten problem otrzymane nazwij „problem yin”. Nie zależy to od języka tekstu i wpływa między innymi na cyfry i inne małe, powtarzające się znaki.

Jego przyczyną są błędy klasyfikacji znaków w koderze JB2. „Dzieli” skany na grupy po 10–20 fragmentów i tworzy słownik wspólnych symboli dla każdej grupy. Słownik zawiera przykłady popularnych liter i cyfr wraz ze stronami i współrzędnymi ich wyglądu. Kiedy przeglądasz książkę DjVu, znaki ze słownika są wstawiane w odpowiednich miejscach.

Pozwala to zmniejszyć rozmiar pliku DjVu, jednak jeśli wyświetlanie dwóch liter jest wizualnie podobne, koder może je pomylić lub pomylić z tym samym. Czasami prowadzi to do uszkodzenia formuł w dokumencie technicznym. Aby rozwiązać ten problem, możesz zrezygnować z algorytmów kompresji, ale zwiększy to rozmiar cyfrowej kopii książki.

Kolejną wadą formatu jest to, że nie jest on domyślnie obsługiwany w wielu nowoczesnych systemach operacyjnych (w tym mobilnych). Dlatego, aby z nim pracować, musisz zainstalować stronę trzecią программы, takie jak DjVuReader, WinDjView, Evince itp. Chciałbym jednak zauważyć, że niektóre czytniki elektroniczne (na przykład ONYX BOOX) obsługują format DjVu „od razu po wyjęciu z pudełka” - ponieważ niezbędne aplikacje są już tam zainstalowane.

Przy okazji rozmawialiśmy o tym, co jeszcze potrafią aplikacje dla czytników z systemem Android w jednym z poprzednich Materiały.

E-booki i ich formaty: DjVu – jego historia, zalety, wady i cechy
Czytelnik ONYX BOOX Chronos

Kolejny problem z formatem pojawia się podczas pracy z dokumentami DjVu na małych ekranach urządzeń mobilnych - smartfonów, tabletów, czytników. Czasami pliki DjVu prezentowane są w formie skanu rozkładówki książki, a literatura fachowa i dokumenty robocze często mają format A4, więc w poszukiwaniu informacji trzeba „przesunąć” obraz.

Zauważamy jednak, że ten problem również można rozwiązać. Najłatwiej jest oczywiście poszukać dokumentu w innym formacie - jeśli jednak taka opcja nie jest możliwa (np. trzeba pracować z dużą ilością literatury technicznej w DjVu), wówczas można skorzystać z czytników elektronicznych o dużej przekątnej od 9,7 do 13,3 cala, która jest specjalnie „skrojona” do pracy z tego typu dokumentami.

Przykładowo w linii ONYX BOOX takimi urządzeniami są Chronos и MAX 2 (przy okazji przygotowaliśmy recenzję tego modelu czytnika, którą wkrótce opublikujemy na naszym blogu), a także Note, który posiada ekran E Ink Mobius Carta o przekątnej 10,3 cala i zwiększonej rozdzielczości. Takie urządzenia pozwalają spokojnie zbadać wszystkie szczegóły ilustracji w ich oryginalnym rozmiarze i są odpowiednie dla tych, którzy często muszą czytać literaturę edukacyjną lub techniczną. Aby przeglądać pliki DjVu i PDF używany NEO Reader, który pozwala dostosować kontrast i grubość zdigitalizowanych czcionek.

Pomimo wad formatu, dziś DjVu pozostaje jednym z najpopularniejszych formatów „konserwowania” dzieł literackich. Dzieje się tak głównie dlatego, że on jest jest otwarty, a pewne ograniczenia technologiczne pozwalają dziś na ominięcie go przez nowoczesne technologie i osiągnięcia.

W kolejnych materiałach będziemy kontynuować opowieść o historii powstania formatów e-booków i cechach ich działania.

PS Kilka zestawów czytników ONYX BOOX:



Źródło: www.habr.com

Dodaj komentarz