Электрондук китептер жана алардын форматтары: DjVu - анын тарыхы, жакшы жактары, кемчиликтери жана өзгөчөлүктөрү

70-жылдардын башында америкалык жазуучу Майкл Харт башкарган алуу Иллинойс университетинде орнотулган Xerox Sigma 5 компьютерине чексиз жетүү. Машинанын ресурстарын туура пайдалануу үчүн ал АКШнын көз карандысыздык декларациясын кайра басып чыгарган биринчи электрондук китепти түзүүнү чечти.

Бүгүнкү күндө санариптик адабияттар көбүнчө портативдик түзүлүштөрдүн (смартфондор, электрондук окурмандар, ноутбуктар) өнүгүшүнүн аркасында кеңири тарады. Бул көп сандагы электрондук китеп форматтарынын пайда болушуна алып келди. Келгиле, алардын өзгөчөлүктөрүн түшүнүүгө аракет кылалы жана алардын эң популярдуу тарыхын айтып берели - келгиле, DjVu форматынан баштайлы.

Электрондук китептер жана алардын форматтары: DjVu - анын тарыхы, жакшы жактары, кемчиликтери жана өзгөчөлүктөрү
/flickr/ Лейн Пирман / CC

Форматтын пайда болушу

DjVu 1996-жылы AT&T Labs тарабынан бир максат менен иштелип чыккан - веб-иштеп чыгуучуларга интернет аркылуу жогорку чечилиштеги сүрөттөрдү таратуу үчүн курал берүү.

Чындыгында, ошол учурда бардык маалыматтын 90% дагы эле сакталган кагазда, жана көптөгөн маанилүү документтердин түстүү сүрөттөрү жана сүрөттөрү болгон. Тексттин окууга жөндөмдүүлүгүн жана сүрөттөрдүн сапатын сактоо үчүн жогорку резолюцияда сканерлөө зарыл болгон.

Классикалык веб форматтары - JPEG, GIF жана PNG - мындай сүрөттөр менен иштөөгө мүмкүндүк берди, бирок көлөмүнүн баасы. JPEG учурда, ошондуктан текст окулду монитор экранында мен 300 dpi токтому менен документти сканерлешим керек болчу. Журналдын түстүү барагы 500 КБга жакынды ээлеген. Мындай өлчөмдөгү файлдарды Интернеттен жүктөө ал кезде абдан көп эмгекти талап кылган процесс болчу.

Альтернатива OCR технологияларын колдонуу менен кагаз документтерин санариптештирүү болгон, бирок 20 жыл мурун алардын тактыгы идеалдуу эмес болчу - иштетилгенден кийин акыркы натыйжаны кол менен олуттуу түрдө түзөтүү керек болчу. Ошол эле учурда, графика жана сүрөттөр "ашыкча" бойдон калууда. Жана сканерленген сүрөттү тексттик документке киргизүү мүмкүн болсо дагы, кээ бир визуалдык деталдар, мисалы, кагаздын түсү, анын текстурасы жоголуп кеткен жана булар тарыхый документтердин маанилүү компоненттери.

Бул көйгөйлөрдү чечүү үчүн AT&T DjVu иштеп чыкты. Бул сканерленген түстүү документтерди 300 dpi дан 40–60 КБ чейин, оригиналдуу көлөмү 25 МБ чейин кысууга мүмкүндүк берди. DjVu ак жана кара беттердин көлөмүн 10–30 КБ чейин кыскартты.

DjVu документтерди кантип кысып коёт

DjVu сканерленген кагаз документтери жана PDF сыяктуу башка санарип форматтары менен да иштей алат. DjVu кантип иштейт болуп саналат сүрөттү үч компонентке бөлгөн технология: алдыңкы план, фон жана ак-кара (бит) маска.

Маска баштапкы файлдын чечими менен сакталат жана Бул камтылган тексттин жана башка ачык-айкын деталдардын сүрөтү - майда сызыктар жана диаграммалар - ошондой эле карама-каршы сүрөттөр.

Ал майда сызыктарды жана тамгалардын контурларын так сактоо үчүн 300 dpi резолюциясына ээ жана AT&Tдин факс үчүн JBIG2 алгоритминин вариациясы болгон JB2 алгоритминин жардамы менен кысылган. JB2 өзгөчөлүгү Ал ал эмне кылат, ал беттеги кайталанган символдорду издеп, алардын сүрөтүн бир гана жолу сактайт. Ошентип, көп барактуу документтерде ар бир ырааттуу барак жалпы “сөздүктү” бөлүшөт.

Фон беттин текстурасын жана иллюстрацияларды камтыйт жана анын резолюциясы маскага караганда төмөн. Жоготуусуз фон 100 dpi сакталат.

Алдыңкы план сактайт маска жөнүндө түстүү маалымат жана анын резолюциясы адатта андан да төмөндөйт, анткени көпчүлүк учурларда тексттин түсү кара жана бир басылган символ үчүн бирдей. Алдыңкы планды жана фонду кысуу үчүн колдонулат толкун кысуу.

DjVu документин түзүүнүн акыркы этабы - энтропия коддоосу, адаптацияланган арифметикалык коддоочу окшош символдордун ырааттуулугун экилик мааниге айландырганда.

Форматтын артыкчылыктары

DjVu милдети болгон кармоо санарип түрүндөгү кагаз документтин "касиеттери", ал тургай алсыз компьютерлерге да ушундай документтер менен иштөөгө мүмкүндүк берет. Ошондуктан, DjVu файлдарын көрүү үчүн программалык камсыздоо "тез көрсөтүү" мүмкүнчүлүгүнө ээ. Анын эсинде рахмат жүктөө экранда көрсөтүлүшү керек болгон DjVu барагынын ошол бөлүгү гана.

Бул ошондой эле "жүктөлбөгөн" файлдарды, башкача айтканда, көп барактуу DjVu документинин жеке баракчаларын көрүүгө мүмкүндүк берет. Бул учурда, файлды жүктөөдө компоненттер "пайда" көрүнгөндө, сүрөттүн деталдарынын прогрессивдүү чиймелери колдонулат (JPEG форматындагыдай).

20 жыл мурун, бул формат киргизилгенде, барак үч этапта жүктөлгөн: алгач тексттик компонент жүктөлгөн, бир нече секунддан кийин сүрөттөрдүн жана фондун биринчи версиялары жүктөлгөн. Андан кийин китептин бүт бети «пайда болду».

Үч деңгээлдүү структуранын болушу сканерленген китептерди издөөгө да мүмкүндүк берет (атайын текст катмары бар). Бул техникалык адабияттар жана маалымдамалар менен иштөөдө ыңгайлуу болуп чыкты, ошондуктан DjVu илимий китептердин бир нече китепканалары үчүн негиз болуп калды. Мисалы, 2002-жылы ал шайланган Интернет архив ачык булактардан сканерленген китептерди сактоо долбоору үчүн форматтардын бири катары (TIFF жана PDF менен бирге).

Форматтын кемчиликтери

Бирок, бардык технологиялар сыяктуу, DjVu өзүнүн кемчиликтери бар. Мисалы, китептердин сканерлерин DjVu форматына коддогондо, документтеги кээ бир символдор сырткы көрүнүшү окшош башкалар менен алмаштырылышы мүмкүн. Бул көбүнчө "i" жана "n" тамгалары менен болот, ошондуктан бул көйгөй Мен алган "Ин проблемасы" деп атагыла. Бул тексттин тилине көз каранды эмес жана башка нерселер менен катар сандарга жана башка майда кайталануучу белгилерге таасир этет.

Анын себеби JB2 коддогуч мүнөздөгү классификация каталары. Ал сканерлерди 10–20 даанадан турган топторго «бөлүп», ар бир топ үчүн жалпы символдордун сөздүгүн түзөт. Сөздүк барактары жана алардын тышкы көрүнүшүнүн координаттары менен жалпы тамгалардын жана сандардын мисалдарын камтыйт. Сиз DjVu китебин көргөндө, сөздүктөгү символдор керектүү жерлерге киргизилет.

Бул сизге DjVu файлынын өлчөмүн азайтууга мүмкүндүк берет, бирок, эки тамганын дисплейлери визуалдык жактан окшош болсо, коддоочу аларды чаташтырышы же жаңылыштык кетириши мүмкүн. Кээде бул техникалык документтеги формулалардын бузулушуна алып келет. Бул көйгөйдү чечүү үчүн сиз кысуу алгоритмдеринен баш тартсаңыз болот, бирок бул китептин санарип көчүрмөсүнүн көлөмүн көбөйтөт.

Форматтын дагы бир кемчилиги - бул көптөгөн заманбап операциялык системаларда (анын ичинде мобилдик системаларда) демейки боюнча колдоого алынбайт. Ошондуктан, аны менен иштөө үчүн үчүнчү жакты орнотуу керек эмес програмдардын тили, мисалы, DjVuReader, WinDjView, Evince, ж.б.. Бирок, бул жерде мен кээ бир электрондук окурмандар (мисалы, ONYX BOOX) DjVu форматын "кутудан тышкары" колдой турганын белгилегим келет - анткени ал жерде керектүү тиркемелер орнотулган.

Баса, биз мурункулардын биринде Android негизиндеги окурмандар үчүн дагы эмне кыла ала тургандыгы жөнүндө сүйлөштүк материалдар.

Электрондук китептер жана алардын форматтары: DjVu - анын тарыхы, жакшы жактары, кемчиликтери жана өзгөчөлүктөрү
Окурман ONYX BOOX Chronos

Дагы бир формат көйгөйү DjVu документтери менен мобилдик түзүлүштөрдүн кичинекей экрандарында - смартфондордо, планшеттерде, окурмандарда иштөөдө пайда болот. Кээде DjVu файлдары китептин сканирлөө түрүндө берилет, ал эми кесипкөй адабияттар жана жумушчу документтер көбүнчө А4 форматында болот, андыктан маалымат издөөдө сүрөттү "жылдырууга" туура келет.

Бирок бул көйгөйдү да чечсе болорун белгилейбиз. Эң оңой жолу, албетте, башка форматтагы документти издөө - бирок бул параметр мүмкүн болбосо (мисалы, сиз DjVuде көп сандагы техникалык адабияттар менен иштешиңиз керек), анда сиз электрондук окурмандарды колдонсоңуз болот. 9,7ден 13,3 дюймга чейин чоң диагоналы менен, алар атайын ушундай документтер менен иштөө үчүн "ыңгайлаштырылган".

Мисалы, ONYX BOOX линиясында мындай түзүлүштөр бар Chronos и MAX 2 (Айтмакчы, биз бул окурман моделине карап чыгууну даярдадык жана аны жакында биздин блогубузга жарыялайбыз), ошондой эле Эскертүү, анын диагоналы 10,3 дюйм жана жогорулатылган токтому менен E Ink Mobius Carta экраны бар. Мындай аппараттар иллюстрациялардын бардык деталдарын оригиналдуу өлчөмдө карап чыгууга мүмкүндүк берет жана көбүнчө окуу же техникалык адабияттарды окууга туура келгендер үчүн ылайыктуу. DjVu жана PDF файлдарын көрүү үчүн колдонулган NEO Reader, ал санариптештирилген шрифттердин контрастын жана калыңдыгын тууралоого мүмкүндүк берет.

Форматтын кемчиликтерине карабастан, бүгүнкү күндө DjVu адабий чыгармаларды "сактоо" үчүн эң популярдуу форматтардын бири бойдон калууда. Бул негизинен ал менен шартталган Ал ачык, жана кээ бир технологиялык чектөөлөр бүгүнкү күндө заманбап технологиялар жана иштеп чыгуулар аны айланып өтүүгө мүмкүндүк берет.

Кийинки материалдарда электрондук китеп форматтарынын пайда болуу тарыхы жана алардын ишинин өзгөчөлүктөрү тууралуу баянды улантабыз.

PS ONYX BOOX окурмандарынын бир нече топтому:



Source: www.habr.com

Комментарий кошуу