E-liv ak fòma yo: DjVu - istwa li yo, avantaj, dezavantaj ak karakteristik li yo

Nan kòmansman ane 70 yo, ekriven Ameriken an Michael Hart jere jwenn aksè san limit nan yon òdinatè Xerox Sigma 5 ki enstale nan University of Illinois. Pou fè byen sèvi ak resous machin nan, li deside kreye premye liv elektwonik la, reimprime Deklarasyon Endepandans Ameriken an.

Jodi a, literati dijital vin gaye toupatou, sitou grasa devlopman aparèy pòtab (smartphones, e-readers, laptops). Sa a te mennen nan Aparisyon nan yon gwo kantite fòma e-liv. Ann eseye konprann karakteristik yo epi rakonte istwa ki pi popilè nan yo - ann kòmanse ak fòma DjVu a.

E-liv ak fòma yo: DjVu - istwa li yo, avantaj, dezavantaj ak karakteristik li yo
/flickr/ Lane Pearman / CC

Aparisyon fòma a

DjVu te devlope an 1996 pa AT&T Labs ak yon sèl objektif - bay devlopè entènèt yon zouti pou distribye imaj segondè rezolisyon sou entènèt la.

Reyalite a se ke nan moman sa a 90% nan tout enfòmasyon se toujou te estoke sou papye, ak anpil nan dokiman enpòtan yo te gen imaj koulè ak foto. Pou kenbe lizibilite tèks la ak bon jan kalite a nan foto yo, li te nesesè yo fè analiz segondè rezolisyon.

Fòma entènèt klasik - JPEG, GIF ak PNG - te fè li posib pou travay ak imaj sa yo, men nan pri a nan volim. Nan ka JPEG, se konsa ke tèks la te li sou ekran ki monitè kè bebe a, mwen te oblije eskane dokiman an ak yon rezolisyon 300 dpi. Yon paj koulè nan magazin an te okipe apeprè 500 KB. Telechaje fichye gwosè sa a soti nan entènèt la se te yon pwosesis ki te travay anpil nan moman sa a.

Altènativ la se te nimerik dokiman papye yo lè l sèvi avèk teknoloji OCR, men 20 ane de sa presizyon yo te lwen soti nan ideyal - apre yo fin trete, rezilta final la te dwe seryezman edite alamen. An menm tan an, grafik ak imaj yo rete "anwo dlo". E menm si li te posib entegre yon imaj analize nan yon dokiman tèks, kèk detay vizyèl yo te pèdi, pou egzanp, koulè papye a, teksti li yo, ak sa yo se eleman enpòtan nan dokiman istorik.

Pou rezoud pwoblèm sa yo, AT&T devlope DjVu. Li te rann li posib pou konprese dokiman koulè analize ak yon rezolisyon 300 dpi a 40-60 KB, ak yon gwosè orijinal 25 MB. DjVu redwi gwosè paj nwa ak blan a 10-30 KB.

Ki jan DjVu konprese dokiman yo

DjVu ka travay ak tou de dokiman papye tcheke ak lòt fòma dijital, tankou PDF. Ki jan DjVu travay manti teknoloji ki divize imaj la an twa eleman: premye plan, background ak nwa e blan (bit) mask.

Se mask la sove nan rezolisyon an nan dosye orijinal la ak gen ladan imaj tèks ak lòt detay klè - liy amann ak dyagram - osi byen ke foto kontras.

Li gen yon rezolisyon 300 dpi pou kenbe liy amann ak deskripsyon lèt yo byen file, epi li konprese lè l sèvi avèk algorithm JB2, ki se yon varyasyon algorithm JBIG2 AT&T pou faks. Karakteristik nan JB2 se sa li fè se li gade pou karaktè kopi sou paj la epi sove imaj yo yon sèl fwa. Kidonk, nan dokiman ki gen plizyè paj, chak kèk paj youn apre lòt pataje yon "diksyonè" komen.

Background nan gen teksti paj la ak ilistrasyon, ak rezolisyon li pi ba pase sa ki nan mask la. Se background nan lossless sove nan 100 dpi.

Premye plan kenbe enfòmasyon koulè sou mask la, ak rezolisyon li yo anjeneral redwi menm pi lwen, depi nan pifò ka yo koulè tèks la se nwa ak menm bagay la tou pou yon karaktè enprime. Itilize pou konprese premye plan ak background konpresyon wavelet.

Etap final la nan kreye yon dokiman DjVu se kodaj entropi, lè yon ankode aritmetik adaptasyon vire sekans karaktè idantik nan yon valè binè.

Avantaj nan fòma a

Travay DjVu a te sove "pwopriyete" yon dokiman papye nan fòm dijital, ki pèmèt menm òdinatè fèb yo travay ak dokiman sa yo. Se poutèt sa, lojisyèl pou gade dosye DjVu gen kapasite nan "rann vit". Mèsi a li nan memwa chaje se sèlman moso sa a nan paj DjVu a ki ta dwe parèt sou ekran an.

Sa fè li posib tou pou wè fichye "ki pa telechaje", sa vle di paj endividyèl nan yon dokiman DjVu ki gen plizyè paj. Nan ka sa a, yo itilize desen pwogresif nan detay imaj, lè eleman yo sanble yo "parèt" pandan y ap telechaje dosye a (tankou nan JPEG).

20 ane de sa, lè fòma sa a te prezante, paj la te chaje nan twa etap: premye eleman tèks la te chaje, apre yon koup de segonn premye vèsyon yo nan imaj yo ak background nan te chaje. Apre sa, tout paj liv la te “parèt”.

Prezans nan yon estrikti twa-nivo tou pèmèt ou rechèch nan liv tcheke (kòm gen yon kouch tèks espesyal). Sa a te tounen pratik lè w ap travay ak literati teknik ak liv referans, kidonk DjVu te vin baz pou plizyè bibliyotèk liv syantifik. Pou egzanp, an 2002 li te chwazi Achiv Entènèt kòm youn nan fòma yo (ansanm ak TIFF ak PDF) pou yon pwojè pou konsève liv eskanè ki soti nan sous louvri.

Dezavantaj fòma yo

Sepandan, tankou tout teknoloji, DjVu gen dezavantaj li yo. Pa egzanp, lè kode eskanè liv yo nan fòma DjVu a, kèk karaktè nan dokiman an ka ranplase pa lòt ki sanble nan aparans. Sa a pi souvan rive ak lèt ​​"i" ak "n", ki se poukisa pwoblèm sa a te resevwa non "yin pwoblèm". Li pa depann de lang tèks la epi li afekte, pami lòt bagay, nimewo ak lòt ti karaktè ki repete.

Kòz li se erè klasifikasyon karaktè nan ankode JB2 la. Li "divize" analiz yo an gwoup 10-20 moso epi fòme yon diksyonè senbòl komen pou chak gwoup. Diksyonè a gen egzanp lèt ak nimewo komen ak paj ak kowòdone aparans yo. Lè ou gade yon liv DjVu, karaktè ki soti nan diksyonè a yo antre nan kote ki dwat.

Sa a pèmèt ou diminye gwosè a nan dosye a DjVu, sepandan, si ekspozisyon yo nan de lèt yo vizyèlman sanble, ankode a ka swa konfonn yo oswa erè yo pou menm bagay la. Pafwa sa a mennen nan domaj nan fòmil nan yon dokiman teknik. Pou rezoud pwoblèm sa a, ou ka abandone algoritm konpresyon, men sa a ap ogmante gwosè kopi dijital liv la.

Yon lòt dezavantaj nan fòma a se ke li pa sipòte pa default nan anpil sistèm opere modèn (ki gen ladan yo mobil). Se poutèt sa, pou travay avèk li ou bezwen enstale twazyèm pati pwogram, tankou DjVuReader, WinDjView, Evince, elatriye Sepandan, isit la mwen ta renmen sonje ke kèk lektè elektwonik (pa egzanp, ONYX BOOX) sipòte fòma DjVu "soti nan bwat la" - depi aplikasyon ki nesesè yo deja enstale la.

By wout la, nou te pale sou ki lòt aplikasyon pou lektè ki baze sou android ka fè nan youn nan anvan an materyèl yo.

E-liv ak fòma yo: DjVu - istwa li yo, avantaj, dezavantaj ak karakteristik li yo
Lektè ONYX BOX Chronos

Yon lòt pwoblèm fòma parèt lè w ap travay ak dokiman DjVu sou ti ekran aparèy mobil - smartphones, tablèt, lektè. Pafwa dosye DjVu yo prezante nan fòm yon eskanè nan yon liv gaye, ak literati pwofesyonèl ak dokiman k ap travay yo souvan nan fòma A4, kidonk ou dwe "deplase" imaj la pou chèche enfòmasyon.

Sepandan, nou sonje ke pwoblèm sa a ka rezoud tou. Fason ki pi fasil, nan kou, se chèche yon dokiman nan yon fòma diferan - men si opsyon sa a pa posib (pou egzanp, ou bezwen travay ak yon gwo kantite literati teknik nan DjVu), Lè sa a, ou ka itilize lektè elektwonik. ak yon dyagonal gwo soti nan 9,7 a 13,3 pous, ki espesyalman "prepare" pou travay ak dokiman sa yo.

Pou egzanp, nan liy lan ONYX BOOX aparèy sa yo se Chronos и MAX 2 (nan chemen an, nou te prepare yon revizyon nan modèl lektè sa a, epi byento pral pibliye li sou blog nou an), epi tou nòt, ki gen yon ekran E Ink Mobius Carta ak yon dyagonal 10,3 pous ak rezolisyon ogmante. Aparèy sa yo pèmèt ou ak kalm egzamine tout detay yo nan ilistrasyon nan gwosè orijinal yo epi yo apwopriye pou moun ki souvan gen li literati edikasyon oswa teknik. Pou wè DjVu ak dosye PDF se itilize NEO Reader, ki pèmèt ou ajiste kontras ak epesè polis nimerik.

Malgre enpèfeksyon fòma a, jodi a DjVu rete youn nan fòma ki pi popilè pou "konsève" zèv literè yo. Sa a se lajman akòz lefèt ke li se louvri, ak kèk limit teknolojik jodi a pèmèt teknoloji modèn ak devlopman yo kontoune li.

Nan materyèl sa yo nou pral kontinye istwa a sou istwa a nan fòma e-liv ak karakteristik travay yo.

PS Plizyè seri lektè ONYX BOOX:



Sous: www.habr.com

Add nouvo kòmantè