Электрондық кітаптар және олардың форматтары: DjVu - оның тарихы, жақсы жақтары, кемшіліктері және мүмкіндіктері

70-жылдардың басында американдық жазушы Майкл Харт басқарды алу Иллинойс университетінде орнатылған Xerox Sigma 5 компьютеріне шексіз қол жеткізу. Машинаның ресурстарын тиімді пайдалану үшін ол АҚШ-тың тәуелсіздік декларациясын қайта басып шығаратын алғашқы электронды кітапты жасауды ұйғарды.

Бүгінгі таңда сандық әдебиеттер негізінен портативті құрылғылардың (смартфондар, электронды оқу құралдары, ноутбуктер) дамуының арқасында кең тарады. Бұл көптеген электрондық кітаптар форматтарының пайда болуына әкелді. Олардың ерекшеліктерін түсінуге тырысайық және олардың ең танымал тарихын айтып берейік - DjVu форматынан бастайық.

Электрондық кітаптар және олардың форматтары: DjVu - оның тарихы, жақсы жақтары, кемшіліктері және мүмкіндіктері
/flickr/ Лейн Пирман / CC

Форматтың пайда болуы

DjVu 1996 жылы AT&T Labs компаниясымен бір мақсатпен әзірленді - веб-әзірлеушілерге Интернет арқылы жоғары ажыратымдылықтағы кескіндерді тарату құралын беру.

Өйткені, сол кездегі барлық ақпараттың 90% әлі сақталады сақталды қағазда және көптеген маңызды құжаттарда түрлі-түсті суреттер мен фотосуреттер болды. Мәтіннің оқылуын және суреттердің сапасын сақтау үшін жоғары ажыратымдылықтағы сканерлеуді жасау қажет болды.

Классикалық веб пішімдері - JPEG, GIF және PNG - мұндай кескіндермен жұмыс істеуге мүмкіндік берді, бірақ көлемінің құны. JPEG жағдайында, сондықтан мәтін оқылды монитор экранында 300 dpi рұқсатымен құжатты сканерлеуге тура келді. Журналдың түрлі-түсті бетінің көлемі 500 КБ шамасында болды. Интернеттен мұндай көлемдегі файлдарды жүктеу ол кезде өте көп еңбекті қажет ететін процесс болды.

Балама нұсқасы OCR технологияларын қолдана отырып, қағаз құжаттарын цифрландыру болды, бірақ 20 жыл бұрын олардың дәлдігі идеалдан алыс болды - өңдеуден кейін түпкілікті нәтижені қолмен мұқият өңдеуге тура келді. Сонымен бірге графика мен кескіндер «шамадан тыс» болып қалды. Сканерленген кескінді мәтіндік құжатқа ендіру мүмкін болса да, кейбір көрнекі бөлшектер жоғалып кетті, мысалы, қағаздың түсі, оның текстурасы және бұл тарихи құжаттардың маңызды құрамдас бөліктері.

Осы мәселелерді шешу үшін AT&T DjVu әзірледі. Бұл сканерленген түсті құжаттарды 300 dpi-ден 40–60 Кбайт ажыратымдылығымен сығуға мүмкіндік берді, түпнұсқа өлшемі 25 МБ. DjVu ақ-қара беттердің өлшемін 10–30 КБ дейін азайтты.

DjVu құжаттарды қалай қысады

DjVu сканерленген қағаз құжаттарымен де, PDF сияқты басқа сандық форматтармен де жұмыс істей алады. DjVu қалай жұмыс істейді өтірік кескінді үш құрамдас бөлікке бөлетін технология: алдыңғы, фондық және қара-ақ (бит) маска.

Маска бастапқы файлдың рұқсатында сақталады және Ол бар мәтіннің және басқа да анық бөлшектердің кескіні - жұқа сызықтар мен диаграммалар - сонымен қатар қарама-қарсы суреттер.

Оның жұқа сызықтар мен әріп контурларын анық сақтау үшін 300 нүкте/дюйм ажыратымдылығы бар және факс жіберуге арналған AT&T JBIG2 алгоритмінің нұсқасы болып табылатын JB2 алгоритмі арқылы қысылады. JB2 мүмкіндігі Бұл ол бетте қайталанатын таңбаларды іздейді және олардың кескінін тек бір рет сақтайды. Осылайша, көп беттік құжаттарда әрбір бірнеше беттер ортақ «сөздікпен» бөліседі.

Фон беттің текстурасын және иллюстрацияларды қамтиды және оның ажыратымдылығы маскаға қарағанда төменірек. Жоғалмайтын фон 100 нүкте/дюймде сақталады.

Бастапқы сақтайды маска туралы түс ақпараты және оның ажыратымдылығы әдетте одан да азаяды, өйткені көп жағдайда мәтін түсі қара және бір басылған таңба үшін бірдей болады. Алдыңғы және өңді қысу үшін қолданылады толқындық қысу.

DjVu құжатын жасаудың соңғы кезеңі бейімделгіш арифметикалық кодтаушы бірдей таңбалар тізбегін екілік мәнге айналдыратын энтропияны кодтау болып табылады.

Форматтың артықшылығы

DjVu міндеті болды сақтау сандық түрдегі қағаз құжаттың «қасиеттері», тіпті әлсіз компьютерлерге мұндай құжаттармен жұмыс істеуге мүмкіндік береді. Сондықтан DjVu файлдарын қарауға арналған бағдарламалық жасақтамада «жылдам көрсету» мүмкіндігі бар. Есте оған рахмет жүктеу экранда көрсетілуі тиіс DjVu бетінің бір бөлігі ғана.

Бұл сонымен қатар «жүктелмеген» файлдарды, яғни көп бетті DjVu құжатының жеке беттерін көруге мүмкіндік береді. Бұл жағдайда, файлды жүктеп алу кезінде құрамдас бөліктер «пайда» болып көрінгенде (JPEG форматындағы сияқты) кескін бөлшектерінің прогрессивті сызбасы қолданылады.

20 жыл бұрын, бұл пішім енгізілген кезде, бет үш кезеңде жүктелді: алдымен мәтін құрамдас бөлігі жүктелді, бірнеше секундтан кейін суреттер мен фонның алғашқы нұсқалары жүктелді. Содан кейін кітаптың бүкіл беті «пайда болды».

Үш деңгейлі құрылымның болуы сканерленген кітаптар арқылы іздеуге де мүмкіндік береді (өйткені арнайы мәтіндік қабат бар). Бұл техникалық әдебиеттермен және анықтамалықтармен жұмыс істегенде ыңғайлы болды, сондықтан DjVu бірнеше ғылыми кітаптар кітапханасының негізі болды. Мысалы, 2002 жылы ол сайланды Интернет мұрағаты ашық көздерден сканерленген кітаптарды сақтауға арналған жобаға арналған пішімдердің бірі ретінде (TIFF және PDF-пен бірге).

Форматтың кемшіліктері

Дегенмен, барлық технологиялар сияқты, DjVu-ның да кемшіліктері бар. Мысалы, кітаптарды сканерлеуді DjVu пішіміне кодтау кезінде құжаттағы кейбір таңбалар сыртқы түрі ұқсас басқалармен ауыстырылуы мүмкін. Бұл көбінесе «i» және «n» әріптерімен кездеседі, сондықтан бұл мәселе алды «Ин проблемасы» деп атаңыз. Ол мәтіннің тіліне тәуелді емес және басқа нәрселермен қатар сандар мен басқа да қайталанатын шағын таңбаларға әсер етеді.

Оның себебі JB2 кодеріндегі таңбаларды жіктеу қателері. Ол сканерлеуді 10-20 бөліктен тұратын топтарға «бөледі» және әр топ үшін ортақ белгілердің сөздігін құрайды. Сөздікте жалпы әріптер мен сандар мысалдары бар беттері және олардың пайда болу координаттары бар. DjVu кітабын көргенде, сөздіктегі таңбалар дұрыс орындарға енгізіледі.

Бұл DjVu файлының өлшемін азайтуға мүмкіндік береді, дегенмен, егер екі әріптің дисплейлері визуалды түрде ұқсас болса, кодтаушы оларды шатастыруы немесе қателесуі мүмкін. Кейде бұл техникалық құжаттағы формулалардың бұзылуына әкеледі. Бұл мәселені шешу үшін қысу алгоритмдерінен бас тартуға болады, бірақ бұл кітаптың сандық көшірмесінің көлемін арттырады.

Пішімнің тағы бір кемшілігі - көптеген заманауи операциялық жүйелерде (соның ішінде мобильді жүйелерде) әдепкі бойынша оған қолдау көрсетілмейді. Сондықтан онымен жұмыс істеу үшін үшінші тарапты орнату керек бағдарламалар, мысалы, DjVuReader, WinDjView, Evince және т.б. Дегенмен, бұл жерде кейбір электрондық оқырмандар (мысалы, ONYX BOOX) DjVu пішімін «қораптан тыс» қолдайтынын атап өткім келеді, өйткені ол жерде қажетті қолданбалар орнатылған.

Айтпақшы, біз алдыңғылардың бірінде Android негізіндегі оқырмандарға арналған қосымшалардың тағы не істей алатыны туралы сөйлестік материалдар.

Электрондық кітаптар және олардың форматтары: DjVu - оның тарихы, жақсы жақтары, кемшіліктері және мүмкіндіктері
Оқырман ONYX BOOX Chronos

Мобильді құрылғылардың - смартфондардың, планшеттердің, оқырмандардың шағын экрандарында DjVu құжаттарымен жұмыс істеу кезінде тағы бір формат мәселесі пайда болады. Кейде DjVu файлдары кітап тарауының сканерлеуі түрінде ұсынылады, ал кәсіби әдебиеттер мен жұмыс құжаттары көбінесе А4 форматында болады, сондықтан ақпаратты іздеуде суретті «жылжытуға» тура келеді.

Дегенмен, бұл мәселені де шешуге болатынын атап өтеміз. Ең оңай жолы, әрине, құжатты басқа форматта іздеу - бірақ бұл опция мүмкін болмаса (мысалы, DjVu-де техникалық әдебиеттердің үлкен көлемімен жұмыс істеу керек), онда сіз электронды оқырмандарды пайдалана аласыз. үлкен диагоналы 9,7-ден 13,3 дюймге дейін, мұндай құжаттармен жұмыс істеу үшін арнайы «бейімделді».

Мысалы, ONYX BOOX желісінде мұндай құрылғылар бар Хронос и MAX 2 (айтпақшы, біз осы оқырман үлгісіне шолуды дайындадық және оны жақын арада блогымызда жариялаймыз), сонымен қатар Ескерту, оның диагоналы 10,3 дюйм және жоғары ажыратымдылығы бар E Ink Mobius Carta экраны бар. Мұндай құрылғылар иллюстрациялардың барлық егжей-тегжейлерін бастапқы өлшемдерінде сабырлы түрде тексеруге мүмкіндік береді және оқу немесе техникалық әдебиеттерді жиі оқуға тура келетіндерге қолайлы. DjVu және PDF файлдарын көру үшін пайдаланылады Цифрланған қаріптердің контрастын және қалыңдығын реттеуге мүмкіндік беретін NEO Reader.

Форматтың кемшіліктеріне қарамастан, бүгінгі күні DjVu әдеби шығармаларды «сақтау» үшін ең танымал форматтардың бірі болып қала береді. Бұл көп жағдайда оған байланысты Бұл ашық, ал кейбір технологиялық шектеулер бүгінгі таңда заманауи технологиялар мен әзірлемелер оны айналып өтуге мүмкіндік береді.

Келесі материалдарда электронды кітап форматтарының пайда болу тарихы және олардың жұмыс істеу ерекшеліктері туралы әңгімені жалғастырамыз.

PS ONYX BOOX оқырмандарының бірнеше жиынтығы:



Ақпарат көзі: www.habr.com

пікір қалдыру