Elektron kitoblar va ularning formatlari: DjVu - uning tarixi, afzalliklari, kamchiliklari va xususiyatlari

70-yillarning boshlarida amerikalik yozuvchi Maykl Xart boshqargan olish Illinoys universitetida o'rnatilgan Xerox Sigma 5 kompyuteriga cheksiz kirish. Mashinaning resurslaridan unumli foydalanish uchun u AQSH Mustaqillik Deklaratsiyasini qayta nashr qilib, birinchi elektron kitobni yaratishga qaror qildi.

Bugungi kunda raqamli adabiyotlar ko'p jihatdan portativ qurilmalar (smartfonlar, elektron o'quvchilar, noutbuklar) rivojlanishi tufayli keng tarqaldi. Bu juda ko'p sonli elektron kitob formatlarining paydo bo'lishiga olib keldi. Keling, ularning xususiyatlarini tushunishga harakat qilaylik va ulardan eng mashhurlari tarixini aytib beraylik - keling, DjVu formatidan boshlaylik.

Elektron kitoblar va ularning formatlari: DjVu - uning tarixi, afzalliklari, kamchiliklari va xususiyatlari
/Flickr/ Leyn Pearman / CC

Formatning paydo bo'lishi

DjVu 1996 yilda AT&T Labs tomonidan bitta maqsadda ishlab chiqilgan - veb-ishlab chiquvchilarga Internet orqali yuqori aniqlikdagi tasvirlarni tarqatish vositasini berish.

Gap shundaki, o'sha paytda barcha ma'lumotlarning 90% hali ham mavjud saqlangan edi qog'ozda va ko'plab muhim hujjatlarda rangli tasvirlar va fotosuratlar mavjud edi. Matnning o'qilishi va rasmlarning sifatini saqlab qolish uchun yuqori aniqlikdagi skanerlashni amalga oshirish kerak edi.

Klassik veb-formatlari - JPEG, GIF va PNG - bunday tasvirlar bilan ishlashga imkon berdi, ammo hajm xarajati. JPEG holatda, shunday qilib, matn o'qildi monitor ekranida men hujjatni 300 dpi ruxsatda skanerlashim kerak edi. Jurnalning rangli sahifasi taxminan 500 KB ni egallagan. Internetdan bunday hajmdagi fayllarni yuklab olish o'sha paytda juda ko'p mehnat talab qiladigan jarayon edi.

Muqobil variant OCR texnologiyalaridan foydalangan holda qogβ€˜oz hujjatlarini raqamlashtirish edi, biroq 20 yil avval ularning aniqligi idealdan uzoq edi – ishlov berilgandan soβ€˜ng yakuniy natijani qoβ€˜lda jiddiy tahrir qilish kerak edi. Shu bilan birga, grafikalar va tasvirlar "chetdan tashqari" bo'lib qoldi. Skanerlangan tasvirni matn hujjatiga joylashtirish mumkin bo'lsa ham, ba'zi vizual tafsilotlar yo'qolgan, masalan, qog'ozning rangi, uning teksturasi va bu tarixiy hujjatlarning muhim tarkibiy qismlari.

Ushbu muammolarni hal qilish uchun AT&T DjVu-ni ishlab chiqdi. Bu skanerlangan rangli hujjatlarni 300 dpi dan 40–60 KB gacha, asl o'lchami 25 MB bo'lgan siqish imkonini berdi. DjVu qora va oq sahifalar hajmini 10–30 KBgacha qisqartirdi.

DjVu hujjatlarni qanday siqadi

DjVu skanerlangan qog'oz hujjatlar va PDF kabi boshqa raqamli formatlar bilan ishlashi mumkin. DjVu qanday ishlaydi yolg'on tasvirni uchta komponentga ajratadigan texnologiya: old fon, fon va qora va oq (bit) niqob.

Niqob asl faylning ruxsatida saqlanadi va o'z ichiga oladi matn tasviri va boshqa aniq tafsilotlar - nozik chiziqlar va diagrammalar - shuningdek, kontrastli rasmlar.

U nozik chiziqlar va harf konturlarini aniq saqlash uchun 300 dpi ruxsatga ega va AT&Tning faks uchun JBIG2 algoritmining o'zgarishi bo'lgan JB2 algoritmi yordamida siqiladi. JB2 xususiyati u u nima qiladi, u sahifadagi takroriy belgilarni qidiradi va ularning tasvirini faqat bir marta saqlaydi. Shunday qilib, ko'p sahifali hujjatlarda har bir necha ketma-ket sahifalar umumiy "lug'at" ga ega.

Fon sahifaning teksturasi va rasmlarini o'z ichiga oladi va uning o'lchamlari niqobnikidan pastroqdir. Yo'qotmaydigan fon 100 dpi da saqlanadi.

Oldindan saqlaydi niqob haqidagi rang ma'lumotlari va uning o'lchamlari odatda yanada kamayadi, chunki aksariyat hollarda matn rangi qora va bitta bosilgan belgi uchun bir xil bo'ladi. Old va fonni siqish uchun ishlatiladi to'lqinli siqilish.

DjVu hujjatini yaratishning yakuniy bosqichi entropiyani kodlash bo'lib, adaptiv arifmetik kodlovchi bir xil belgilar ketma-ketligini ikkilik qiymatga aylantiradi.

Formatning afzalliklari

DjVu ning vazifasi edi saqlash raqamli shakldagi qog'oz hujjatning "xususiyatlari", hatto zaif kompyuterlarga ham bunday hujjatlar bilan ishlash imkonini beradi. Shuning uchun, DjVu fayllarini ko'rish uchun dastur "tezkor ko'rsatish" qobiliyatiga ega. Xotirada unga rahmat yuklanmoqda faqat DjVu sahifasining ekranda ko'rsatilishi kerak bo'lgan qismi.

Bu, shuningdek, "yuklanmagan" fayllarni, ya'ni ko'p sahifali DjVu hujjatining alohida sahifalarini ko'rish imkonini beradi. Bunday holda, fayl yuklanganda komponentlar "paydo bo'ladigan" bo'lsa (JPEG formatidagi kabi) tasvir tafsilotlarining progressiv chizmasi qo'llaniladi.

20 yil oldin, ushbu format joriy etilganda, sahifa uch bosqichda yuklangan: birinchi navbatda matn komponenti yuklangan, bir necha soniyadan so'ng tasvirlarning birinchi versiyalari va fon yuklangan. Shundan so'ng, kitobning butun sahifasi "paydo bo'ldi".

Uch darajali tuzilmaning mavjudligi, shuningdek, skanerlangan kitoblar bo'ylab qidirish imkonini beradi (chunki maxsus matn qatlami mavjud). Bu texnik adabiyotlar va ma'lumotnomalar bilan ishlashda qulay bo'lib chiqdi, shuning uchun DjVu bir nechta ilmiy kitoblar kutubxonalari uchun asos bo'ldi. Masalan, 2002 yilda u saylangan Internet arxivi ochiq manbalardan skanerlangan kitoblarni saqlash loyihasi uchun formatlardan biri sifatida (TIFF va PDF bilan birga).

Formatning kamchiliklari

Biroq, barcha texnologiyalar singari, DjVu ham o'zining kamchiliklariga ega. Masalan, kitoblarning skanerlashini DjVu formatiga kodlashda hujjatdagi ba'zi belgilar tashqi ko'rinishiga o'xshash boshqa belgilar bilan almashtirilishi mumkin. Bu ko'pincha "i" va "n" harflari bilan sodir bo'ladi, shuning uchun bu muammo qabul qilindi "yin muammosi" deb nomlang. Bu matn tiliga bog'liq emas va boshqa narsalar qatorida raqamlar va boshqa kichik takrorlanuvchi belgilarga ta'sir qiladi.

Uning sababi JB2 enkoderidagi belgilar tasnifidagi xatolardir. U skanerlashni 10-20 bo'lakdan iborat guruhlarga "bo'ladi" va har bir guruh uchun umumiy belgilar lug'atini hosil qiladi. Lug'atda sahifalar va ularning ko'rinishi koordinatalari bilan umumiy harflar va raqamlarga misollar mavjud. DjVu kitobini ko'rsangiz, lug'atdagi belgilar kerakli joylarga kiritiladi.

Bu sizga DjVu faylining hajmini kamaytirishga imkon beradi, ammo agar ikkita harfning ko'rinishi vizual ravishda o'xshash bo'lsa, kodlovchi ularni chalkashtirib yuborishi yoki ularni bir xil deb xato qilishi mumkin. Ba'zan bu texnik hujjatdagi formulalarning shikastlanishiga olib keladi. Ushbu muammoni hal qilish uchun siz siqishni algoritmlaridan voz kechishingiz mumkin, ammo bu kitobning raqamli nusxasi hajmini oshiradi.

Formatning yana bir kamchiligi shundaki, u ko'plab zamonaviy operatsion tizimlarda (jumladan, mobil qurilmalarda) sukut bo'yicha qo'llab-quvvatlanmaydi. Shuning uchun, u bilan ishlash uchun siz uchinchi tomonni o'rnatishingiz kerak dasturlari, masalan, DjVuReader, WinDjView, Evince va boshqalar. Biroq, shuni ta'kidlashni istardimki, ba'zi elektron o'quvchilar (masalan, ONYX BOOX) DjVu formatini "qutidan tashqarida" qo'llab-quvvatlaydi - chunki u erda kerakli ilovalar allaqachon o'rnatilgan.

Aytgancha, biz avvalgilaridan birida Android-ga asoslangan o'quvchilar uchun yana nima qilishlari mumkinligi haqida gaplashdik materiallar.

Elektron kitoblar va ularning formatlari: DjVu - uning tarixi, afzalliklari, kamchiliklari va xususiyatlari
O'quvchi ONYX BOOX Chronos

Mobil qurilmalar - smartfonlar, planshetlar, o'quvchilarning kichik ekranlarida DjVu hujjatlari bilan ishlashda yana bir format muammosi paydo bo'ladi. Ba'zan DjVu fayllari kitob yoyilgan skanerlash ko'rinishida taqdim etiladi va professional adabiyotlar va ishchi hujjatlar ko'pincha A4 formatida bo'ladi, shuning uchun ma'lumot qidirishda tasvirni "ko'chirish" kerak.

Biroq, biz bu muammoni ham hal qilish mumkinligini ta'kidlaymiz. Eng oson yo'li, albatta, boshqa formatdagi hujjatni izlashdir - lekin bu imkoniyat bo'lmasa (masalan, siz DjVu-da katta hajmdagi texnik adabiyotlar bilan ishlashingiz kerak), u holda siz elektron o'quvchilardan foydalanishingiz mumkin. katta diagonali 9,7 dan 13,3 dyuymgacha bo'lgan, bunday hujjatlar bilan ishlash uchun maxsus "moslangan".

Masalan, ONYX BOOX liniyasida bunday qurilmalar mavjud Xronlar ΠΈ Maks 2 (Aytgancha, biz ushbu o'quvchi modelining sharhini tayyorladik va uni tez orada blogimizda e'lon qilamiz), shuningdek Eslatma, diagonali 10,3 dyuymli va o'lchamlari ortgan E Ink Mobius Carta ekraniga ega. Bunday qurilmalar rasmlarning barcha tafsilotlarini o'zlarining asl o'lchamlarida xotirjamlik bilan tekshirishga imkon beradi va ko'pincha o'quv yoki texnik adabiyotlarni o'qishga majbur bo'lganlar uchun javob beradi. DjVu va PDF fayllarni ko'rish uchun ishlatiladi Raqamlangan shriftlarning kontrasti va qalinligini sozlash imkonini beruvchi NEO Reader.

Formatning kamchiliklariga qaramay, bugungi kunda DjVu adabiy asarlarni "saqlash" uchun eng mashhur formatlardan biri bo'lib qolmoqda. Bu, asosan, u bilan bog'liq u ochiq va bugungi kunda ba'zi texnologik cheklovlar zamonaviy texnologiyalar va ishlanmalar uni chetlab o'tishga imkon beradi.

Quyidagi materiallarda biz elektron kitob formatlarining paydo bo'lish tarixi va ularning ish xususiyatlari haqida hikoyani davom ettiramiz.

PS ONYX BOOX o'quvchilarining bir nechta to'plami:



Manba: www.habr.com

a Izoh qo'shish