Цахим ном ба тэдгээрийн формат: DjVu - түүний түүх, давуу, сул тал, онцлог

70-аад оны эхээр Америкийн зохиолч Майкл Харт удирдаж байжээ авах Иллинойсын их сургуульд суурилуулсан Xerox Sigma 5 компьютерт хязгааргүй нэвтрэх. Машины нөөцийг сайн ашиглахын тулд тэрээр АНУ-ын Тусгаар тогтнолын тунхаглалыг дахин хэвлэн анхны цахим ном бүтээхээр шийджээ.

Өнөөдөр дижитал уран зохиол нь зөөврийн төхөөрөмж (ухаалаг утас, цахим уншигч, зөөврийн компьютер) хөгжсөний ачаар өргөн тархсан байна. Энэ нь олон тооны цахим номын форматыг бий болгоход хүргэсэн. Тэдний онцлогийг ойлгохыг хичээцгээе, тэдгээрийн хамгийн алдартай түүхийг яръя - DjVu форматаас эхэлье.

Цахим ном ба тэдгээрийн формат: DjVu - түүний түүх, давуу, сул тал, онцлог
/flickr/ Лэйн Пирман / CC

Формат үүсэх

DjVu-г 1996 онд AT&T Labs нэг зорилготойгоор бүтээсэн бөгөөд энэ нь вэб хөгжүүлэгчдэд интернетээр өндөр нарийвчлалтай зураг түгээх хэрэгсэл өгөх зорилготой юм.

Тэр үед бүх мэдээллийн 90% нь хэвээр байгаа нь баримт юм хадгалагдаж байсан цаасан дээр байсан бөгөөд олон чухал баримт бичиг нь өнгөт зураг, гэрэл зурагтай байв. Текстийн уншигдах чадвар, зургийн чанарыг хадгалахын тулд өндөр нарийвчлалтай сканнердах шаардлагатай байв.

Сонгодог вэб форматууд - JPEG, GIF, PNG нь ийм зурагтай ажиллах боломжтой болсон боловч эзлэхүүнтэй холбоотой. JPEG тохиолдолд, ингэснээр текст уншсан мониторын дэлгэц дээр би 300 dpi нарийвчлалтай баримтыг сканнердах шаардлагатай болсон. Сэтгүүлийн өнгөт хуудас 500 орчим КБ багтаамжтай байв. Тухайн үед интернэтээс ийм хэмжээний файл татаж авах нь нэлээд хөдөлмөр их шаардсан ажил байсан.

Өөр нэг хувилбар бол OCR технологийг ашиглан цаасан баримт бичгийг дижитал хэлбэрт оруулах явдал байсан боловч 20 жилийн өмнө тэдгээрийн нарийвчлал нь тийм ч тохиромжтой биш байсан - боловсруулсны дараа эцсийн үр дүнг гараар нухацтай засах шаардлагатай байв. Үүний зэрэгцээ график, зураг нь "хэт" хэвээр байв. Сканнердсан зургийг текст баримт бичигт оруулах боломжтой байсан ч зарим харааны нарийн ширийн зүйлс, тухайлбал цаасны өнгө, түүний бүтэц алдагдсан бөгөөд эдгээр нь түүхэн баримт бичгийн чухал бүрэлдэхүүн хэсэг юм.

Эдгээр асуудлыг шийдэхийн тулд AT&T DjVu-г бүтээсэн. Энэ нь 300 dpi-ээс 40-60 KB хүртэлх нягтралтай сканнердсан өнгөт баримт бичгүүдийг 25 MB хэмжээтэй эх хэмжээтэй шахах боломжтой болгосон. DjVu нь хар цагаан хуудасны хэмжээг 10-30 KB болгон багасгасан.

DjVu баримт бичгийг хэрхэн шахдаг

DjVu нь сканнердсан цаасан баримт болон PDF гэх мэт бусад дижитал форматтай ажиллах боломжтой. DjVu хэрхэн ажилладаг худлаа дүрсийг урд, дэвсгэр, хар цагаан (бит) маск гэсэн гурван хэсэгт хуваах технологи.

Маск нь анхны файлын нягтралаар хадгалагддаг ба агуулж байна текстийн дүрс болон бусад тодорхой нарийн ширийн зүйлс - нарийн зураас, диаграммууд, түүнчлэн ялгаатай зургууд.

Энэ нь 300 dpi-ийн нарийвчлалтай бөгөөд нарийн зураас, үсгийн тоймыг тод байлгахын тулд AT&T-ийн JBIG2 факс алгоритмын хувилбар болох JB2 алгоритмыг ашиглан шахдаг. JB2-ийн онцлог Энэ нь Энэ нь хуудсан дээрх давхардсан тэмдэгтүүдийг хайж, зургийг нь зөвхөн нэг удаа хадгалдаг. Тиймээс олон хуудастай баримт бичигт дараалсан хэдэн хуудас бүр нийтлэг "толь бичиг"-ийг хуваалцдаг.

Арын дэвсгэр нь хуудасны бүтэц, дүрслэлийг агуулсан бөгөөд нягтрал нь маскныхаас бага байна. Алдагдалгүй дэвсгэр нь 100 dpi-д хадгалагдана.

Урд талын зураг дэлгүүрүүд маскын тухай өнгөт мэдээлэл, түүний нягтрал нь ихэвчлэн улам бүр багасдаг, учир нь ихэнх тохиолдолд текстийн өнгө нь хар, нэг хэвлэсэн тэмдэгтийн хувьд ижил байдаг. Урд болон дэвсгэрийг шахахад ашигладаг долгионы шахалт.

DjVu баримт бичгийг үүсгэх эцсийн шат бол дасан зохицох арифметик кодлогч нь ижил тэмдэгтүүдийн дарааллыг хоёртын утга болгон хувиргах үед энтропи кодчилол юм.

Форматын давуу тал

DjVu-ийн даалгавар байсан аврах Дижитал хэлбэрээр цаасан баримт бичгийн "шинж чанар" нь сул компьютерт ч гэсэн ийм баримт бичигтэй ажиллах боломжийг олгодог. Тиймээс DjVu файлуудыг үзэх програм хангамж нь "хурдан буулгах" чадвартай байдаг. Түүний дурсамжинд баярлалаа ачаалж байна Зөвхөн дэлгэцэн дээр гарч ирэх DjVu хуудасны хэсэг.

Энэ нь мөн "татаж аваагүй" файлуудыг, өөрөөр хэлбэл олон хуудас DjVu баримт бичгийн бие даасан хуудсыг үзэх боломжтой болгодог. Энэ тохиолдолд файлыг татаж авах явцад бүрэлдэхүүн хэсгүүд нь "харагдах" мэт санагдах үед зургийн дэлгэрэнгүй зургийг ашигладаг (JPEG шиг).

20 жилийн өмнө энэ форматыг нэвтрүүлэхэд хуудсыг гурван үе шаттайгаар ачаалж байсан: эхлээд текстийн бүрэлдэхүүн хэсэг ачаалагдсан, хэдхэн секундын дараа зураг болон дэвсгэрийн эхний хувилбарууд ачаалагдсан. Дараа нь номын бүх хуудас "гарч ирлээ".

Гурван түвшний бүтэц байгаа нь сканнердсан номыг хайх боломжийг олгодог (тусгай текст давхарга байдаг). Энэ нь техникийн ном зохиол, лавлах номтой ажиллахад тохиромжтой байсан тул DjVu нь шинжлэх ухааны номын хэд хэдэн номын сангийн үндэс суурь болсон. Тухайлбал, 2002 онд түүнийг сонгосон Интернет архив нээлттэй эх сурвалжаас сканнердсан номыг хадгалах төслийн форматуудын нэг (TIFF болон PDF-ийн хамт).

Форматын сул тал

Гэсэн хэдий ч бүх технологийн нэгэн адил DjVu нь сул талуудтай. Жишээлбэл, номын сканнерыг DjVu формат руу кодлох үед баримтын зарим тэмдэгтүүдийг гадаад төрхөөрөө ижил төстэй тэмдэгтүүдээр сольж болно. Энэ нь ихэвчлэн "i" ба "n" үсгүүдэд тохиолддог тул ийм асуудал гардаг хүлээн авсан "Инь асуудал" гэж нэрлэ. Энэ нь текстийн хэлээс хамаардаггүй бөгөөд бусад зүйлсээс гадна тоо болон бусад жижиг давтагдах тэмдэгтүүдэд нөлөөлдөг.

Үүний шалтгаан нь JB2 кодлогч дахь тэмдэгтийн ангиллын алдаа юм. Энэ нь сканнеруудыг 10-20 ширхэг бүлгүүдэд "хувааж", бүлэг бүрийн нийтлэг тэмдэгтүүдийн толь бичгийг бүрдүүлдэг. Энэхүү толь бичигт нийтлэг үсэг, тоонуудын жишээг хуудас, тэдгээрийн гадаад төрх байдлын координат агуулсан болно. Таныг DjVu ном үзэх үед толь бичгийн тэмдэгтүүдийг зөв газарт нь оруулна.

Энэ нь DjVu файлын хэмжээг багасгах боломжийг олгодог боловч хэрэв хоёр үсгийн харагдах байдал нь ижил төстэй байвал кодлогч тэдгээрийг төөрөлдүүлж эсвэл андуурч болно. Заримдаа энэ нь техникийн баримт бичигт томъёог гэмтээхэд хүргэдэг. Энэ асуудлыг шийдэхийн тулд та шахалтын алгоритмаас татгалзаж болно, гэхдээ энэ нь номын дижитал хуулбарын хэмжээг нэмэгдүүлэх болно.

Форматын өөр нэг сул тал нь орчин үеийн олон үйлдлийн системүүдэд (гар утасны системд) анхдагчаар дэмжигддэггүй явдал юм. Тиймээс түүнтэй ажиллахын тулд та гуравдагч этгээдийг суулгах хэрэгтэй хөтөлбөр, DjVuReader, WinDjView, Evince гэх мэт. Гэсэн хэдий ч зарим цахим уншигчид (жишээ нь, ONYX BOOX) DjVu форматыг "хайрцагнаас гадуур" дэмждэгийг энд тэмдэглэхийг хүсч байна - шаардлагатай програмууд тэнд суулгагдсан байдаг.

Дашрамд хэлэхэд, бид өмнөх програмуудын аль нэгэнд Android дээр суурилсан уншигчдад өөр юу хийж болох талаар ярилцсан материалууд.

Цахим ном ба тэдгээрийн формат: DjVu - түүний түүх, давуу, сул тал, онцлог
Уншигч ONYX BOOX Chronos

Ухаалаг утас, таблет, уншигч зэрэг гар утасны жижиг дэлгэц дээр DjVu баримт бичигтэй ажиллахад форматын өөр нэг асуудал гарч ирдэг. Заримдаа DjVu файлуудыг номны сканнер хэлбэрээр танилцуулдаг бөгөөд мэргэжлийн уран зохиол, ажлын баримт бичиг нь ихэвчлэн А4 форматтай байдаг тул мэдээлэл хайхдаа зургийг "зөөх" хэрэгтэй болдог.

Гэсэн хэдий ч энэ асуудлыг шийдэж болно гэдгийг бид тэмдэглэж байна. Мэдээжийн хэрэг, хамгийн хялбар арга бол өөр форматтай баримт бичгийг хайх явдал юм, гэхдээ хэрэв энэ сонголт боломжгүй бол (жишээлбэл, та DjVu-д их хэмжээний техникийн ном зохиолтой ажиллах хэрэгтэй) цахим уншигч ашиглаж болно. 9,7-аас 13,3 инч хүртэлх том диагональтай, ийм баримт бичигтэй ажиллахад тусгайлан "зассан".

Жишээлбэл, ONYX BOOX шугамд ийм төхөөрөмжүүд байдаг Хронос и МАКС 2 (Дашрамд хэлэхэд бид энэ уншигчийн загварын тоймыг бэлтгэсэн бөгөөд удахгүй блог дээрээ нийтлэх болно), мөн түүнчлэн Тайлбар, диагональ нь 10,3 инч, нягтрал нь нэмэгдсэн E Ink Mobius Carta дэлгэцтэй. Ийм төхөөрөмжүүд нь зургийн бүх нарийн ширийн зүйлийг анхны хэмжээгээр нь тайвнаар шалгах боломжийг олгодог бөгөөд боловсролын болон техникийн ном зохиол унших шаардлагатай хүмүүст тохиромжтой. DjVu болон PDF файлуудыг үзэхийн тулд ашиглаж байна NEO Reader нь дижитал фонтуудын тодосгогч, зузааныг тохируулах боломжийг олгодог.

Форматын дутагдалтай хэдий ч өнөөдөр DjVu нь утга зохиолын бүтээлүүдийг "хадгалах" хамгийн алдартай форматуудын нэг хэвээр байна. Энэ нь түүний гол шалтгаан юм Энэ нь нээлттэй, зарим технологийн хязгаарлалт нь орчин үеийн технологи, хөгжлийг тойрч гарах боломжийг олгодог.

Дараах материалд бид цахим номын формат үүссэн түүх, тэдгээрийн ажлын онцлогуудын тухай түүхийг үргэлжлүүлэх болно.

Жич ONYX BOOX уншигчдын хэд хэдэн багц:



Эх сурвалж: www.habr.com

сэтгэгдэл нэмэх