E-libro ug ang ilang mga format: DjVu - ang kasaysayan niini, mga bentaha, disbentaha ug mga bahin

Sa sayong bahin sa 70s, ang Amerikanong magsusulat nga si Michael Hart nagdumala aron makuha walay kutub nga pag-access sa usa ka Xerox Sigma 5 nga kompyuter nga na-install sa Unibersidad sa Illinois. Aron magamit pag-ayo ang mga kahinguhaan sa makina, nakahukom siya sa paghimo sa una nga elektronik nga libro, nga nag-imprinta pag-usab sa US Declaration of Independence.

Karon, ang digital nga literatura nahimong kaylap, kadaghanan salamat sa pag-uswag sa mga portable nga aparato (smartphone, e-reader, laptop). Kini misangpot sa pagtumaw sa daghang gidaghanon sa mga format sa e-libro. Atong sulayan nga masabtan ang ilang mga bahin ug isulti ang kasaysayan sa labing inila kanila - magsugod kita sa format nga DjVu.

E-libro ug ang ilang mga format: DjVu - ang kasaysayan niini, mga bentaha, disbentaha ug mga bahin
/flickr/ Lane Pearman / CC

Ang pagtunga sa porma

Ang DjVu gimugna niadtong 1996 sa AT&T Labs nga adunay usa ka katuyoan - aron mahatagan ang mga web developer og himan alang sa pag-apod-apod sa mga hulagway nga adunay taas nga resolusyon sa Internet.

Ang kamatuoran mao nga nianang panahona 90% sa tanang impormasyon anaa pa gitipigan sa papel, ug daghan sa mga importanteng dokumento adunay dekolor nga mga hulagway ug mga litrato. Aron mapadayon ang pagkabasa sa teksto ug ang kalidad sa mga litrato, kinahanglan nga maghimo ug taas nga resolusyon nga mga pag-scan.

Ang klasiko nga mga format sa web - JPEG, GIF ug PNG - nagpaposible sa pagtrabaho sa ingon nga mga imahe, apan sa kantidad sa gidaghanon. Sa kaso sa JPEG, aron ang teksto gibasa sa screen sa monitor, kinahanglan nako nga i-scan ang dokumento nga adunay resolusyon nga 300 dpi. Usa ka kolor nga panid sa magasin nag-okupar sa mga 500 KB. Ang pag-download sa mga file nga ingon niini ang gidak-on gikan sa Internet usa ka lisud nga proseso sa pagtrabaho niadtong panahona.

Ang alternatibo mao ang pag-digitize sa mga dokumento sa papel gamit ang mga teknolohiya sa OCR, apan 20 ka tuig na ang milabay ang ilang katukma layo sa sulundon - pagkahuman sa pagproseso, ang katapusan nga resulta kinahanglan nga seryoso nga i-edit pinaagi sa kamot. Sa samang higayon, ang mga graphic ug mga hulagway nagpabilin nga "overboard". Ug bisan kung posible nga i-embed ang usa ka na-scan nga imahe sa usa ka dokumento sa teksto, nawala ang pipila nga mga detalye sa biswal, pananglitan, ang kolor sa papel, ang texture niini, ug kini ang hinungdanon nga mga sangkap sa mga dokumento sa kasaysayan.

Aron masulbad kini nga mga problema, gihimo sa AT&T ang DjVu. Naghimo kini nga posible nga ma-compress ang mga gi-scan nga mga dokumento sa kolor nga adunay resolusyon nga 300 dpi hangtod sa 40-60 KB, nga adunay orihinal nga gidak-on nga 25 MB. Gipakunhod sa DjVu ang gidak-on sa itom ug puti nga mga panid ngadto sa 10–30 KB.

Giunsa ang pag-compress sa DjVu sa mga dokumento

Ang DjVu makahimo sa pagtrabaho uban sa mga scan nga papel nga mga dokumento ug uban pang digital nga mga format, sama sa PDF. Giunsa ang pagtrabaho sa DjVu bakak usa ka teknolohiya nga nagbahin sa usa ka imahe ngadto sa tulo ka sangkap: foreground, background ug black-and-white (bit) mask.

Ang maskara gitipigan sa resolusyon sa orihinal nga file ug pagsinabtanay hulagway sa teksto ug uban pang tin-aw nga mga detalye - maayong mga linya ug mga diagram - ingon man usab sa nagkalahi nga mga hulagway.

Kini adunay resolusyon nga 300 dpi aron magpabiling hait nga mga linya ug mga outline sa letra, ug gi-compress gamit ang JB2 algorithm, nga usa ka variation sa AT&T's JBIG2 algorithm para sa faxing. Feature sa JB2 Kini mao ang ang gibuhat niini mao ang pagpangita sa mga doble nga karakter sa panid ug gitipigan ang ilang imahe kausa ra. Sa ingon, sa daghang mga panid nga mga dokumento, ang matag pipila nga sunud-sunod nga mga panid adunay usa ka sagad nga "diksyonaryo".

Ang background naglangkob sa texture sa panid ug mga ilustrasyon, ug ang resolusyon niini mas ubos kaysa sa maskara. Ang walay pagkawala nga background gitipigan sa 100 dpi.

Atubangan mga tindahan impormasyon sa kolor bahin sa maskara, ug ang resolusyon niini kasagarang mokunhod bisan pa, tungod kay sa kadaghanang kaso ang kolor sa teksto itom ug parehas sa usa ka naimprinta nga karakter. Gigamit sa pag-compress sa foreground ug background wavelet compression.

Ang katapusan nga yugto sa paghimo sa usa ka dokumento sa DjVu mao ang entropy encoding, kung ang usa ka adaptive nga arithmetic encoder nagbag-o sa mga han-ay sa parehas nga mga karakter sa usa ka binary nga kantidad.

Mga bentaha sa porma

Ang buluhaton ni DjVu mao ang pagluwas "Properties" sa usa ka papel nga dokumento sa digital nga porma, nga nagtugot bisan sa huyang nga mga kompyuter sa pagtrabaho uban sa maong mga dokumento. Busa, ang software alang sa pagtan-aw sa mga file sa DjVu adunay katakus sa "paspas nga paghubad". Salamat sa iya sa memorya loading kana lang nga piraso sa DjVu page nga kinahanglan ipakita sa screen.

Kini usab nagpaposible sa pagtan-aw sa "wala ma-download" nga mga file, nga mao, ang indibidwal nga mga panid sa usa ka multi-panid nga dokumento sa DjVu. Sa kini nga kaso, gigamit ang progresibong pagdrowing sa mga detalye sa imahe, kung ang mga sangkap daw "mopakita" samtang gi-download ang file (sama sa JPEG).

20 ka tuig na ang milabay, sa dihang kini nga format gipaila, ang panid gikarga sa tulo ka yugto: una ang bahin sa teksto gikarga, human sa pipila ka segundo ang unang mga bersyon sa mga hulagway ug ang background gikarga. Pagkahuman, ang tibuok panid sa libro β€œmipakita.”

Ang presensya sa usa ka tulo ka lebel nga istruktura nagtugot usab kanimo sa pagpangita pinaagi sa mga gi-scan nga mga libro (tungod kay adunay espesyal nga layer sa teksto). Kini nahimo nga sayon ​​​​sa pagtrabaho uban sa teknikal nga literatura ug mga reperensiya nga mga libro, mao nga ang DjVu nahimong basehan sa daghang mga librarya sa siyentipikong mga libro. Pananglitan, sa 2002 siya napili Internet Archive isip usa sa mga format (uban sa TIFF ug PDF) alang sa usa ka proyekto sa pagpreserbar sa mga scan nga libro gikan sa bukas nga mga tinubdan.

Mga disbentaha sa pormat

Bisan pa, sama sa tanan nga mga teknolohiya, ang DjVu adunay mga kakulangan. Pananglitan, kung ang pag-encode sa mga scan sa mga libro sa format nga DjVu, ang pipila ka mga karakter sa dokumento mahimong pulihan sa uban nga parehas sa hitsura. Kasagaran kini mahitabo sa mga letra nga "i" ug "n", mao nga kini nga problema nadawat ngalan "yin problema". Wala kini magdepende sa pinulongan sa teksto ug makaapekto, lakip sa ubang mga butang, mga numero ug uban pang gagmay nga nagbalikbalik nga mga karakter.

Ang hinungdan niini mao ang mga sayup sa klasipikasyon sa karakter sa JB2 encoder. Kini "gibahin" sa pag-scan ngadto sa mga grupo sa 10-20 ka piraso ug nagporma og diksyonaryo sa komon nga mga simbolo alang sa matag grupo. Ang diksyonaryo adunay mga pananglitan sa kasagarang mga letra ug numero nga adunay mga panid ug mga koordinasyon sa ilang hitsura. Kung imong tan-awon ang usa ka libro sa DjVu, ang mga karakter gikan sa diksyonaryo gisal-ut sa husto nga mga lugar.

Gitugotan ka niini nga pakunhuran ang gidak-on sa DjVu file, bisan pa, kung ang mga pagpakita sa duha nga mga letra parehas nga tan-awon, ang encoder mahimo’g makalibog kanila o masayup sila sa parehas. Usahay kini mosangpot sa kadaot sa mga pormula sa usa ka teknikal nga dokumento. Aron masulbad kini nga problema, mahimo nimong biyaan ang mga algorithm sa compression, apan kini makadugang sa gidak-on sa digital nga kopya sa libro.

Ang laing disbentaha sa format mao nga wala kini gisuportahan sa default sa daghang modernong mga operating system (lakip ang mga mobile). Busa, aron magtrabaho uban niini kinahanglan nimo nga i-install ang ikatulo nga partido mga programa, sama sa DjVuReader, WinDjView, Evince, ug uban pa. Apan, dinhi gusto nakong timan-an nga ang pipila ka mga electronic reader (pananglitan, ONYX BOOX) nagsuporta sa format sa DjVu "gikan sa kahon" - tungod kay ang gikinahanglan nga mga aplikasyon na-install na didto.

Pinaagi sa dalan, naghisgot kami bahin sa kung unsa pa ang mahimo sa mga aplikasyon alang sa mga magbabasa nga nakabase sa Android sa usa sa nauna mga materyales.

E-libro ug ang ilang mga format: DjVu - ang kasaysayan niini, mga bentaha, disbentaha ug mga bahin
Magbabasa ONYX BOOX Chronos

Ang lain nga problema sa format makita kung nagtrabaho kauban ang mga dokumento sa DjVu sa gagmay nga mga screen sa mga mobile device - mga smartphone, tablet, mga magbabasa. Usahay ang mga file sa DjVu gipresentar sa porma sa usa ka pag-scan sa usa ka libro nga mikaylap, ug ang propesyonal nga literatura ug mga dokumento nga nagtrabaho kanunay sa format nga A4, mao nga kinahanglan nimo nga "ibalhin" ang imahe sa pagpangita sa kasayuran.

Bisan pa, among namatikdan nga kini nga problema mahimo usab nga masulbad. Ang labing kadali nga paagi, siyempre, mao ang pagpangita alang sa usa ka dokumento sa usa ka lahi nga format - apan kung kini nga kapilian dili mahimo (pananglitan, kinahanglan nimo nga magtrabaho uban ang daghang teknikal nga literatura sa DjVu), nan mahimo nimong gamiton ang mga elektronik nga magbabasa nga adunay dako nga diagonal gikan sa 9,7 ngadto sa 13,3 ka pulgada, nga ilabi na nga "gipahaum" alang sa pagtrabaho sa maong mga dokumento.

Pananglitan, sa linya sa ONYX BOOX ang ingon nga mga aparato Mga Cronicas ΠΈ MAX 2 (sa dalan, nag-andam kami usa ka pagrepaso sa kini nga modelo sa magbabasa, ug sa dili madugay imantala kini sa among blog), ug usab Mubo nga sulat, nga adunay E Ink Mobius Carta screen nga adunay diagonal nga 10,3 ka pulgada ug dugang nga resolusyon. Gitugotan ka sa ingon nga mga aparato nga kalmado nga susihon ang tanan nga mga detalye sa mga ilustrasyon sa ilang orihinal nga gidak-on ug angay alang sa mga kanunay nga kinahanglan magbasa sa edukasyon o teknikal nga literatura. Sa pagtan-aw sa DjVu ug PDF files gigamit NEO Reader, nga nagtugot kanimo sa pag-adjust sa kalainan ug gibag-on sa mga digitized nga mga font.

Bisan pa sa mga kakulangan sa format, karon ang DjVu nagpabilin nga usa sa labing inila nga mga format alang sa "pagpreserbar" sa mga buhat sa literatura. Kini sa kadaghanan tungod sa kamatuoran nga siya Kini mao ang bukas, ug ang pipila ka mga limitasyon sa teknolohiya karon nagtugot sa modernong mga teknolohiya ug mga kalamboan sa paglatas niini.

Sa mosunod nga mga materyales atong ipadayon ang istorya mahitungod sa kasaysayan sa pagtunga sa mga format sa e-libro ug ang mga bahin sa ilang trabaho.

PS Daghang set sa ONYX BOOX readers:



Source: www.habr.com

Idugang sa usa ka comment