Elektron kitablar və onların formatları: DjVu - onun tarixi, müsbət, mənfi və xüsusiyyətləri

70-ci illərin əvvəllərində amerikalı yazıçı Maykl Hart idarə edirdi almaq İllinoys Universitetində quraşdırılmış Xerox Sigma 5 kompüterinə məhdudiyyətsiz giriş. Maşının resurslarından səmərəli istifadə etmək üçün o, ABŞ-ın Müstəqillik Bəyannaməsini yenidən çap etdirərək ilk elektron kitabı yaratmağa qərar verdi.

Bu gün rəqəmsal ədəbiyyat, əsasən, portativ cihazların (smartfonlar, elektron oxucular, noutbuklar) inkişafı sayəsində geniş yayılmışdır. Bu, çoxlu sayda elektron kitab formatlarının yaranmasına səbəb oldu. Onların xüsusiyyətlərini anlamağa çalışaq və onlardan ən populyarlarının tarixini danışaq - gəlin DjVu formatından başlayaq.

Elektron kitablar və onların formatları: DjVu - onun tarixi, müsbət, mənfi və xüsusiyyətləri
/flickr/ Leyn Pearman / CC

Formatın yaranması

DjVu 1996-cı ildə AT&T Labs tərəfindən bir məqsədlə hazırlanmışdır - veb tərtibatçılarına İnternet üzərindən yüksək keyfiyyətli şəkillərin yayılması üçün alət vermək.

Fakt budur ki, o dövrdə bütün məlumatların 90% -i hələ də qalır saxlanılırdı kağız üzərində və bir çox mühüm sənədlərdə rəngli şəkillər və fotoşəkillər var idi. Mətnin oxunaqlılığını və şəkillərin keyfiyyətini qorumaq üçün yüksək keyfiyyətli skan etmək lazım idi.

Klassik veb formatları - JPEG, GIF və PNG - bu cür şəkillərlə işləməyi mümkün etdi, lakin həcm bahasına. JPEG halda, belə ki, mətn oxunurdu monitor ekranında mən 300 dpi qətnamə ilə sənədi skan etməli oldum. Jurnalın rəngli səhifəsi təxminən 500 KB tutdu. İnternetdən bu ölçüdə faylları yükləmək o dövrdə kifayət qədər əmək tələb edən proses idi.

Alternativ olaraq kağız sənədləri OCR texnologiyalarından istifadə edərək rəqəmsallaşdırmaq idi, lakin 20 il əvvəl onların dəqiqliyi idealdan çox uzaq idi - emal edildikdən sonra yekun nəticə əl ilə ciddi şəkildə redaktə edilməli idi. Eyni zamanda, qrafika və şəkillər "yüksək" olaraq qaldı. Skan edilmiş şəkli mətn sənədinə yerləşdirmək mümkün olsa belə, bəzi vizual detallar, məsələn, kağızın rəngi, onun fakturaları itirildi və bunlar tarixi sənədlərin vacib komponentləridir.

Bu problemləri həll etmək üçün AT&T DjVu-nu inkişaf etdirdi. Bu, skan edilmiş rəngli sənədləri 300 dpi-dən 40-60 KB-a qədər, orijinal ölçüsü 25 MB-a qədər sıxışdırmağa imkan verdi. DjVu qara və ağ səhifələrin ölçüsünü 10-30 KB-a qədər azaldıb.

DjVu sənədləri necə sıxır

DjVu həm skan edilmiş kağız sənədlərlə, həm də PDF kimi digər rəqəmsal formatlarla işləyə bilər. DjVu necə işləyir edir təsviri üç komponentə ayıran texnologiya: ön plan, fon və qara-ağ (bit) maska.

Maska orijinal faylın qətnaməsində saxlanılır və ehtiva edir mətnin təsviri və digər aydın detallar - incə xətlər və diaqramlar - eləcə də ziddiyyətli şəkillər.

İncə xətləri və hərf konturlarını kəskin saxlamaq üçün 300 dpi təsvir ölçüsünə malikdir və AT&T-nin faks üçün JBIG2 alqoritminin bir variantı olan JB2 alqoritmi ilə sıxılır. JB2 xüsusiyyəti edir o, səhifədə dublikat simvolları axtarır və onların şəklini yalnız bir dəfə saxlayır. Beləliklə, çox səhifəli sənədlərdə hər bir neçə ardıcıl səhifə ümumi “lüğət”i paylaşır.

Arxa fonda səhifənin teksturası və illüstrasiyalar var və onun həlli maskadan daha aşağıdır. İtkisiz fon 100 dpi-də saxlanılır.

Ön plan saxlayır maska ​​haqqında rəng məlumatı və onun həlli adətən daha da azaldılır, çünki əksər hallarda mətn rəngi qara olur və bir çap simvolu üçün eyni olur. Ön planı və arxa planı sıxmaq üçün istifadə olunur dalğaların sıxılması.

DjVu sənədinin yaradılmasının son mərhələsi adaptiv arifmetik kodlayıcı eyni simvolların ardıcıllığını ikili dəyərə çevirdiyi zaman entropiyanın kodlaşdırılmasıdır.

Formatın üstünlükləri

DjVu-nun vəzifəsi idi saxlamaq rəqəmsal formada kağız sənədin "xüsusiyyətləri" belə sənədlərlə hətta zəif kompüterlərə də işləməyə imkan verir. Buna görə də, DjVu fayllarına baxmaq üçün proqram "sürətli göstərmə" qabiliyyətinə malikdir. Yaddaşda ona təşəkkür edirəm yüklənir yalnız ekranda göstərilməli olan DjVu səhifəsinin həmin hissəsi.

Bu, həm də “endirilməmiş” fayllara, yəni çox səhifəli DjVu sənədinin fərdi səhifələrinə baxmaq imkanı verir. Bu halda, fayl endirilən zaman komponentlər "görünür" kimi göründükdə (JPEG-də olduğu kimi) şəkil təfərrüatlarının mütərəqqi rəsmiləşdirilməsi istifadə olunur.

20 il əvvəl bu format tətbiq olunanda səhifə üç mərhələdə yükləndi: əvvəlcə mətn komponenti yükləndi, bir neçə saniyədən sonra şəkillərin və fonun ilk versiyaları yükləndi. Daha sonra kitabın bütün səhifəsi “göründü”.

Üç səviyyəli strukturun olması da skan edilmiş kitablar arasında axtarış aparmağa imkan verir (xüsusi mətn təbəqəsi olduğu üçün). Bu, texniki ədəbiyyat və arayış kitabları ilə işləyərkən əlverişli oldu, buna görə də DjVu bir neçə elmi kitab kitabxanası üçün əsas oldu. Məsələn, 2002-ci ildə seçilib İnternet arxivi açıq mənbələrdən skan edilmiş kitabları qorumaq üçün layihə üçün formatlardan biri kimi (TIFF və PDF ilə birlikdə).

Formatın mənfi cəhətləri

Bununla belə, bütün texnologiyalar kimi, DjVu-nun da çatışmazlıqları var. Məsələn, kitabların skanlarını DjVu formatına kodlaşdırarkən, sənəddəki bəzi simvollar xarici görünüşcə oxşar olan başqaları ilə əvəz edilə bilər. Bu, ən çox "i" və "n" hərfləri ilə baş verir, buna görə də bu problem qəbul edildi "yin problemi" adlandırın. Bu, mətnin dilindən asılı deyil və digər şeylər arasında rəqəmlərə və digər kiçik təkrarlanan simvollara təsir göstərir.

Bunun səbəbi JB2 kodlayıcıda xarakter təsnifatı səhvləridir. O, skanları 10-20 ədəddən ibarət qruplara "parçalayır" və hər qrup üçün ümumi simvollar lüğətini təşkil edir. Lüğətdə səhifələr və onların görünüşünün koordinatları ilə ümumi hərf və rəqəmlərin nümunələri var. DjVu kitabına baxdığınız zaman lüğətdəki simvollar lazımi yerlərə daxil edilir.

Bu, DjVu faylının ölçüsünü azaltmağa imkan verir, lakin iki hərfin ekranları vizual olaraq oxşardırsa, kodlayıcı ya onları çaşdıra bilər, ya da səhv edə bilər. Bəzən bu, texniki sənəddəki formulların zədələnməsinə səbəb olur. Bu problemi həll etmək üçün sıxılma alqoritmlərindən imtina edə bilərsiniz, lakin bu, kitabın rəqəmsal nüsxəsinin ölçüsünü artıracaq.

Formatın başqa bir çatışmazlığı, bir çox müasir əməliyyat sistemlərində (mobil sistemlər də daxil olmaqla) standart olaraq dəstəklənməməsidir. Buna görə də, onunla işləmək üçün üçüncü tərəfi quraşdırmalısınız proqramları, məsələn, DjVuReader, WinDjView, Evince və s. Lakin burada qeyd etmək istərdim ki, bəzi elektron oxucular (məsələn, ONYX BOOX) DjVu formatını “qutudan kənarda” dəstəkləyir – çünki orada lazımi proqramlar artıq quraşdırılıb.

Yeri gəlmişkən, əvvəlkilərdən birində Android əsaslı oxucular üçün başqa nə edə biləcəyini danışdıq materiallar.

Elektron kitablar və onların formatları: DjVu - onun tarixi, müsbət, mənfi və xüsusiyyətləri
Oxucu ONYX BOOX Xronos

Mobil cihazların - smartfonların, planşetlərin, oxucuların kiçik ekranlarında DjVu sənədləri ilə işləyərkən başqa bir format problemi ortaya çıxır. Bəzən DjVu faylları kitab yayılmasının skanı şəklində təqdim olunur və peşəkar ədəbiyyat və iş sənədləri çox vaxt A4 formatında olur, buna görə də məlumat axtarışında şəkli "hərəkət etməlisən".

Bununla belə, qeyd edirik ki, bu problem də həll edilə bilər. Ən asan yol, əlbəttə ki, fərqli formatda sənəd axtarmaqdır - lakin bu seçim mümkün deyilsə (məsələn, DjVu-da çoxlu texniki ədəbiyyatla işləmək lazımdır), onda siz elektron oxuculardan istifadə edə bilərsiniz. böyük diaqonalı 9,7 ilə 13,3 düym arasında olan, bu cür sənədlərlə işləmək üçün xüsusi olaraq "uyğunlaşdırılmış".

Məsələn, ONYX BOOX xəttində belə cihazlar var Xronos и MAX 2 (yeri gəlmişkən, biz bu oxucu modelinin icmalını hazırlamışıq və tezliklə onu bloqumuzda dərc edəcəyik) və həmçinin Qeyd, diaqonalı 10,3 düym olan E Ink Mobius Carta ekranına və artırılmış təsvir ölçüsünə malikdir. Bu cür cihazlar orijinal ölçüsündə illüstrasiyaların bütün detallarını sakitcə araşdırmağa imkan verir və tez-tez tədris və ya texniki ədəbiyyat oxumalı olanlar üçün uyğundur. DjVu və PDF fayllarına baxmaq üçün işlənmiş Rəqəmləşdirilmiş şriftlərin kontrastını və qalınlığını tənzimləməyə imkan verən NEO Reader.

Formatın çatışmazlıqlarına baxmayaraq, bu gün DjVu ədəbi əsərlərin "qorunması" üçün ən populyar formatlardan biri olaraq qalır. Bu, daha çox onunla bağlıdır edir açıqdır və bəzi texnoloji məhdudiyyətlər bu gün müasir texnologiyaların və inkişafların ondan yan keçməsinə imkan verir.

Aşağıdakı materiallarda elektron kitab formatlarının yaranma tarixi və onların işinin xüsusiyyətləri haqqında hekayəni davam etdirəcəyik.

PS ONYX BOOX oxuyucularının bir neçə dəsti:



Mənbə: www.habr.com

Добавить комментарий