Электронныя кнігі і іх фарматы: DjVu - яго гісторыя, плюсы, мінусы і асаблівасці

У пачатку 70-х гадоў амерыканскі пісьменнік Майкл Харт (Michael Hart) здолеў атрымаць неабмежаваны доступ да кампутара Xerox Sigma 5, усталяванаму ва ўніверсітэце штата Ілінойс. Каб годна выкарыстоўваць рэсурсы машыны, ён вырашыў стварыць першую электронную кнігу, перадрукаваўшы Дэкларацыю незалежнасці ЗША.

Сёння лічбавая літаратура атрымала шырокі распаўсюд, шмат у чым дзякуючы развіццю партатыўных прылад (смартфонаў, рыдараў, наўтбукаў). Гэта прывяло да з'яўлення вялікай колькасці фарматаў электронных кніг. Паспрабуем разабрацца ў іх асаблівасцях і раскажам гісторыю найбольш папулярных з іх - пачнем з фармату DjVu.

Электронныя кнігі і іх фарматы: DjVu - яго гісторыя, плюсы, мінусы і асаблівасці
/Flickr/ Lane Pearman / CC

Узнікненне фармату

DjVu быў распрацаваны ў 1996 годзе кампаніяй AT&T Labs з адной мэтай – даць вэб-распрацоўнікам інструмент для распаўсюджвання малюнкаў у высокім дазволе праз інтэрнэт.

Справа ў тым, што ў той час 90% усёй інфармацыі ўсё яшчэ захоўвалася на паперы, а многія з важных дакументаў мелі каляровыя выявы і фатаграфіі. Каб захаваць чытальнасць тэксту і якасць карцінак, даводзілася рабіць сканы ў высокім дазволе.

Класічныя вэб-фарматы - JPEG, GIF і PNG - дазвалялі працаваць з такімі выявамі, але коштам аб'ёму. У выпадку JPEG, каб тэкст быў чытаем на экране манітора, даводзілася сканаваць дакумент з дазволам 300 dpi. Каляровая старонка часопіса пры гэтым займала каля 500 Кбайт. Запампоўванне файлаў такога аб'ёму з інтэрнэту ў той час было даволі працаёмкім працэсам.

Альтэрнатывай было аблічбоўванне папяровых дакументаў з дапамогай тэхналогій распазнання тэксту, аднак 20 гадоў таму іх дакладнасць была далёкая ад ідэальнай - пасля апрацоўкі фінальны вынік даводзілася сур'ёзна кіраваць уручную. Пры гэтым графікі і выявы заставаліся «за бортам». І нават калі ўдавалася ўбудаваць адсканаваную карцінку ў тэкставы дакумент, губляліся некаторыя візуальныя дэталі, напрыклад, колер паперы, яе тэкстура, а гэта важныя кампаненты гістарычных дакументаў.

З мэтай вырашыць гэтыя праблемы AT&T і распрацавалі DjVu. Ён дазволіў сціскаць адсканаваныя каляровыя дакументы з дазволам 300 dpi да 40-60 Кбайт, пры памеры арыгінала ў 25 Мбайт. Памеры чорна-белых старонак DjVu паменшыў да 10-30 Кбайт.

Як DjVu сціскае дакументы

DjVu можа працаваць як з папяровымі адсканаванымі дакументамі, так і з іншымі лічбавымі фарматамі, напрыклад PDF. У аснове працы DjVu ляжыць тэхналогія, якая разбівае малюнак на тры кампаненты: пярэдні план, задні план і чорна-белую (бітавую) маску.

Маска захоўваецца з дазволам зыходнага файла і змяшчае малюнак тэксту і іншыя выразныя дэталі - тонкія лініі і схемы - а таксама кантрасныя карцінкі.

Яна мае дазвол 300 dpi, каб тонкія лініі і контуры літар заставаліся выразнымі, і сціскаецца з дапамогай алгарытму JB2, які ўяўляе сабой варыяцыю алгарытму JBIG2, прапанаванага AT&T для працы факсаў. Асаблівасцю JB2 з'яўляецца тое, што ён шукае на старонцы паўтаральныя знакі і захоўвае іх выява толькі адзін раз. Такім чынам, у шматстаронкавых дакументах кожныя некалькі паслядоўных старонак карыстаюцца агульным "слоўнікам".

Задні план змяшчае тэкстуру старонкі і ілюстрацыі, а яго дазвол менш, чым у маскі. Фон без страт для ўспрымання захоўваецца з дазволам 100 dpi.

Пярэдні план захоўвае каляровую інфармацыю аб масцы, і яго дазвол звычайна паніжаецца яшчэ мацней, бо ў большасці выпадкаў колер тэксту чорны і аднолькавы для аднаго друкаванага знака. Для сціску пярэдняга і задняга планаў выкарыстоўваецца вэйвлетны сціск.

Заключным этапам стварэння DjVu-дакумента становіцца энтрапійнае кадаваньне, калі адаптыўны арыфметычны кадавальнік ператварае паслядоўнасці аднолькавых знакаў у бінарнае значэнне.

Добрыя якасці фармату

Задачай DjVu было захаваць "уласцівасці" папяровага дакумента ў лічбавым выглядзе, дазволіўшы працаваць з такімі дакументамі нават слабым кампутарам. Таму ПЗ для прагляду DjVu-файлаў валодае магчымасцю "хуткага рэндэрынгу". Дзякуючы ёй у памяць загружаецца толькі той кавалачак DjVu-старонкі, які павінен адлюстроўвацца на экране.

Гэта таксама дае магчымасць праглядаць "недапампаваныя" файлы, гэта значыць асобныя старонкі шматстаронкавага DjVu-дакумента. Пры гэтым выкарыстоўваецца прагрэсіўная прамалёўка дэталяў малюнка, калі кампаненты як бы "выяўляюцца" па меры запампоўкі файла (як у JPEG).

20 гадоў таму, калі быў прадстаўлены гэты фармат, загрузка старонкі адбывалася ў тры этапы: спачатку грузіўся тэкставы складнік, праз пару секунд падгружаліся першыя версіі малюнкаў і фон. Ужо пасля "праяўлялася" уся старонка кнігі.

Наяўнасць трохузроўневай структуры таксама дазваляе ажыццяўляць пошук па адсканаваных кнігах (бо ёсць спецыяльны тэкставы пласт). Гэта аказалася зручна пры працы з тэхнічнай літаратурай і даведнікамі, таму DjVu стаў асновай для некалькіх бібліятэк навуковых кніг. Напрыклад, у 2002 годзе ён быў абраны. Архівам Інтэрнэту у якасці аднаго з фарматаў (разам з TIFF і PDF) для праекта па захаванні адсканаваных кніг з адкрытых крыніц.

Недахопы фармату

Аднак, як і ўсе тэхналогіі, DjVu мае свае мінусы. Напрыклад, пры кадаванні сканаў кніг у фармат DjVu некаторыя знакі ў дакуменце могуць падмяняцца на іншыя, знешне падобныя. Найбольш часта гэта адбываецца з літарамі "і" і "н", з-за чаго гэтая праблема. атрымала назва "праблема інь". Яна не залежыць ад мовы тэксту і ўплывае, у тым ліку, на лічбы і іншыя дробныя знакі, якія паўтараюцца.

Яе прычына - памылкі класіфікацыі сімвалаў у кадавальнік JB2. Ён «дробніць» сканы на групы па 10–20 штук і фармуе для кожнай з груп слоўнік агульных сімвалаў. Слоўнік змяшчае ўзоры агульных літар і лічбаў са старонкамі і каардынатамі іх з'яўлення. Калі вы праглядаеце DjVu-кнігу, знакі са слоўніка падстаўляюцца ў патрэбныя месцы.

Гэта дазваляе паменшыць памеры DjVu-файла, аднак, калі адлюстраванні двух літар візуальна падобныя, кадавальнік можа іх ці пераблытаць, ці прыняць за аднолькавыя. Часам гэта прыводзіць да псуты формул у тэхнічным дакуменце. Для вырашэння гэтай праблемы можна адмовіцца ад алгарытмаў сціску, аднак гэта павялічыць памеры лічбавай копіі кнігі.

Іншым недахопам фармату з'яўляецца тое, што ён не падтрымліваецца па змаўчанні ў шматлікіх сучасных АС (у тым ліку мабільных). Таму для працы з ім трэба ставіць іншыя праграмы, такія як DjVuReader, WinDjView, Evince і інш. Аднак тут хацелася б адзначыць, што некаторыя электронныя чыталкі (напрыклад, ONYX BOOX) падтрымлівае фармат DjVu «са скрынкі» — бо неабходныя прыкладанні там ужо ўсталяваныя.

Дарэчы, аб тым, што яшчэ могуць прыкладанні для рыдараў на базе Android, мы распавядалі ў адным з папярэдніх матэрыялаў.

Электронныя кнігі і іх фарматы: DjVu - яго гісторыя, плюсы, мінусы і асаблівасці
Рыдэр ONYX BOOX Chronos

Яшчэ адна праблема фармату выяўляецца пры працы з DjVu-дакументамі на невялікіх экранах мабільных прылад - смартфонах, планшэтах, рыдэрах. Часам DjVu-файлы прадстаўлены ў выглядзе скана развароту кнігі, а прафесійная літаратура і працоўныя дакументы часта маюць фармат А4, таму даводзіцца "рухаць" малюнак у пошуках інфармацыі.

Аднак адзначым, што гэтая праблема таксама развязальная. Прасцей за ўсё, вядома, пашукаць дакумент у іншым фармаце - але калі такі варыянт немагчымы (напрыклад, вам трэба працаваць з вялікай колькасцю тэхнічнай літаратуры ў DjVu), то можна скарыстацца электроннымі чыталкамі з вялікай дыяганаллю ад 9,7 да 13,3 цалі, якія спецыяльна "заменчаны" пад працу з падобнымі дакументамі.

Напрыклад, у лінейцы ONYX BOOX такімі прыладамі з'яўляюцца Хронос и MAX 2 (дарэчы, мы падрыхтавалі агляд гэтай мадэлі рыдара, і ў хуткім часе апублікуем яго ў нашым блогу), а таксама Нататка, які мае экран E Ink Mobius Carta з дыяганаллю 10,3 цалі і падвышаным дазволам. Такія прылады дазваляюць спакойна разгледзець усе дэталі ілюстрацый у арыгінальным памеры і падыдуць тым, каму часта даводзіцца чытаць навучальную ці тэхнічную літаратуру. Для прагляду файлаў DjVu і PDF выкарыстоўваецца NEO Reader, які дае наладжваць кантраст і таўшчыню аблічбаваных шрыфтоў.

Нягледзячы на ​​наяўныя ў фармату недахопы, на сённяшні дзень DjVu застаецца адным з самых папулярных фарматаў для "захавання" літаратурных твораў. У многім гэта абумоўлена тым, што ён з'яўляецца адкрытым, а абысці яго некаторыя тэхналагічныя абмежаванні сёння дазваляюць сучасныя тэхналогіі і распрацоўкі.

У наступных матэрыялах мы працягнем аповед пра гісторыю з'яўлення фарматаў электронных кніг і асаблівасці іх працы.

PS Некалькі абораў рыдэраў ONYX BOOX:



Крыніца: habr.com

Дадаць каментар