E-grāmatas un to formāti: DjVu - tās vēsture, plusi, mīnusi un iespējas

70. gadu sākumā paspēja amerikāņu rakstnieks Maikls Hārts saņemt neierobežota piekļuve datoram Xerox Sigma 5, kas uzstādÄ«ts Ilinoisas Universitātē. Lai lietderÄ«gi izmantotu iekārtas resursus, viņŔ nolēma izveidot pirmo elektronisko grāmatu, pārpublicējot ASV NeatkarÄ«bas deklarāciju.

MÅ«sdienās digitālā literatÅ«ra ir kļuvusi plaÅ”i izplatÄ«ta, galvenokārt pateicoties portatÄ«vo ierīču (viedtālruņu, e-lasÄ«tāju, klēpjdatoru) attÄ«stÄ«bai. Tas ir novedis pie liela skaita e-grāmatu formātu raÅ”anās. Mēģināsim izprast to Ä«paŔības un pastāstÄ«t populārāko no tiem vēsturi ā€“ sāksim ar DjVu formātu.

E-grāmatas un to formāti: DjVu - tās vēsture, plusi, mīnusi un iespējas
/flickr/ Leins PÄ«rmens / CC

Formāta raŔanās

DjVu 1996. gadā izstrādāja AT&T Labs ar vienu mērÄ·i - nodroÅ”ināt tÄ«mekļa izstrādātājiem rÄ«ku augstas izŔķirtspējas attēlu izplatÄ«Å”anai internetā.

Fakts ir tāds, ka tajā laikā 90% visas informācijas ir nekustÄ«ga tika uzglabāts uz papÄ«ra, un daudziem svarÄ«gajiem dokumentiem bija krāsaini attēli un fotogrāfijas. Lai saglabātu teksta lasāmÄ«bu un attēlu kvalitāti, bija nepiecieÅ”ams veikt augstas izŔķirtspējas skenÄ“Å”anu.

Klasiskie tÄ«mekļa formāti - JPEG, GIF un PNG - ļāva strādāt ar Ŕādiem attēliem, taču tas maksāja apjomu. JPEG gadÄ«jumā, lai teksts tika lasÄ«ts monitora ekrānā man bija jāskenē dokuments ar izŔķirtspēju 300 dpi. Viena žurnāla krāsaina lapa aizņēma aptuveni 500 KB. Šāda izmēra failu lejupielāde no interneta tolaik bija diezgan darbietilpÄ«gs process.

AlternatÄ«va bija papÄ«ra dokumentu digitalizācija, izmantojot OCR tehnoloÄ£ijas, taču pirms 20 gadiem to precizitāte bija tālu no ideālas - pēc apstrādes gala rezultāts bija nopietni jārediģē ar roku. Tajā paŔā laikā grafika un attēli palika ā€œaiz bortaā€. Un pat tad, ja skenētu attēlu bija iespējams iegult teksta dokumentā, tika zaudētas dažas vizuālas detaļas, piemēram, papÄ«ra krāsa, faktÅ«ra, un tās ir svarÄ«gas vēsturisko dokumentu sastāvdaļas.

Lai atrisinātu Ŕīs problēmas, AT&T izstrādāja DjVu. Tas ļāva saspiest skenētus krāsu dokumentus ar izŔķirtspēju no 300 dpi lÄ«dz 40ā€“60 KB ar oriÄ£inālo izmēru 25 MB. DjVu samazināja melnbalto lapu izmēru lÄ«dz 10ā€“30 KB.

Kā DjVu saspiež dokumentus

DjVu var strādāt gan ar skenētiem papÄ«ra dokumentiem, gan citiem digitāliem formātiem, piemēram, PDF. Kā darbojas DjVu ir tehnoloÄ£ija, kas sadala attēlu trÄ«s komponentos: priekÅ”plānā, fonā un melnbaltā (bitu) maskā.

Maska tiek saglabāta sākotnējā faila izŔķirtspējā un satur teksta attēls un citas skaidras detaļas - smalkas lÄ«nijas un diagrammas -, kā arÄ« kontrastējoÅ”i attēli.

Tam ir 300 dpi izŔķirtspēja, lai smalkās lÄ«nijas un burtu kontÅ«ras bÅ«tu asas, un tas tiek saspiests, izmantojot JB2 algoritmu, kas ir AT&T JBIG2 algoritma variants faksu sÅ«tÄ«Å”anai. JB2 iezÄ«me ir tas meklē dublētās rakstzÄ«mes lapā un saglabā to attēlu tikai vienu reizi. Tādējādi vairāku lappuÅ”u dokumentos ik pēc dažām lappusēm ir kopÄ«ga ā€œvārdnÄ«caā€.

Fons satur lapas faktÅ«ru un ilustrācijas, un tā izŔķirtspēja ir zemāka nekā maskas izŔķirtspēja. Bezzudumu fons tiek saglabāts 100 dpi.

PriekÅ”plānā saglabā krāsu informāciju par masku, un tās izŔķirtspēja parasti tiek samazināta vēl vairāk, jo vairumā gadÄ«jumu teksta krāsa ir melna un vienāda vienai drukātajai rakstzÄ«mei. Izmanto, lai saspiestu priekÅ”plānu un fonu viļņu saspieÅ”ana.

Pēdējais DjVu dokumenta izveides posms ir entropijas kodÄ“Å”ana, kad adaptÄ«vais aritmētiskais kodētājs pārvērÅ” identisku rakstzÄ«mju secÄ«bas binārā vērtÄ«bā.

Formāta priekŔrocības

DjVu uzdevums bija glābt papÄ«ra dokumenta ā€œÄ«paŔībasā€ digitālā formā, ļaujot ar Ŕādiem dokumentiem strādāt pat vājiem datoriem. Tāpēc programmatÅ«rai DjVu failu skatÄ«Å”anai ir iespēja ā€œÄtri renderētā€. Paldies viņai par piemiņu iekrauÅ”ana tikai tā DjVu lapas daļa, kas jāparāda ekrānā.

Tas arÄ« ļauj skatÄ«t ā€œnelejupielādētosā€ failus, tas ir, atseviŔķas vairāku lappuÅ”u DjVu dokumenta lapas. Å ajā gadÄ«jumā tiek izmantota progresÄ«va attēla detaļu rasÄ“Å”ana, kad Ŕķiet, ka komponenti ā€œparādāsā€ faila lejupielādes laikā (kā JPEG).

Pirms 20 gadiem, kad Å”is formāts tika ieviests, lapa tika ielādēta trÄ«s posmos: vispirms tika ielādēta teksta komponente, pēc pāris sekundēm tika ielādētas pirmās attēlu versijas un fons. Pēc tam "parādÄ«jās" visa grāmatas lapa.

TrÄ«s lÄ«meņu struktÅ«ras klātbÅ«tne ļauj arÄ« meklēt skenētās grāmatās (jo ir Ä«paÅ”s teksta slānis). Tas izrādÄ«jās ērti, strādājot ar tehnisko literatÅ«ru un uzziņu grāmatām, tāpēc DjVu kļuva par pamatu vairākām zinātnisko grāmatu bibliotēkām. Piemēram, 2002. gadā viņŔ tika izvēlēts Interneta arhÄ«vs kā vienu no formātiem (kopā ar TIFF un PDF) projektam, lai saglabātu skenētas grāmatas no atvērtiem avotiem.

Formāta trūkumi

Tomēr, tāpat kā visām tehnoloÄ£ijām, arÄ« DjVu ir savi trÅ«kumi. Piemēram, kodējot grāmatu skenētos failus DjVu formātā, dažas rakstzÄ«mes dokumentā var tikt aizstātas ar citām, kas pēc izskata ir lÄ«dzÄ«gas. Visbiežāk tas notiek ar burtiem ā€œiā€ un ā€œnā€, tāpēc Ŕī problēma rodas saņemts nosaukums "iņ problēma". Tas nav atkarÄ«gs no teksta valodas un cita starpā ietekmē ciparus un citas mazas atkārtojoÅ”as rakstzÄ«mes.

Tās iemesls ir rakstzÄ«mju klasifikācijas kļūdas JB2 kodētājā. Tas ā€œsadalaā€ skenējumus grupās pa 10ā€“20 gabaliem un veido katrai grupai kopÄ«gu simbolu vārdnÄ«cu. VārdnÄ«cā ir izplatÄ«ti burtu un ciparu piemēri ar lapām un to izskata koordinātām. Kad skatāties DjVu grāmatu, vārdnÄ«cas rakstzÄ«mes tiek ievietotas pareizajās vietās.

Tas ļauj samazināt DjVu faila lielumu, taču, ja divu burtu displeji ir vizuāli lÄ«dzÄ«gi, kodētājs var tos sajaukt vai sajaukt ar vienādiem burtiem. Dažreiz tas noved pie tehniskā dokumenta formulu bojājumiem. Lai atrisinātu Å”o problēmu, varat atteikties no saspieÅ”anas algoritmiem, taču tas palielinās grāmatas digitālās kopijas izmēru.

Vēl viens formāta trÅ«kums ir tas, ka tas pēc noklusējuma netiek atbalstÄ«ts daudzās mÅ«sdienu operētājsistēmās (tostarp mobilajās). Tāpēc, lai strādātu ar to, jums jāinstalē treŔās puses programma programmas, piemēram, DjVuReader, WinDjView, Evince u.c. Tomēr Å”eit vēlos atzÄ«mēt, ka daži elektroniskie lasÄ«tāji (piemēram, ONYX BOOX) atbalsta DjVu formātu ā€œno kastesā€ - jo tur jau ir instalētas nepiecieÅ”amās lietojumprogrammas.

Starp citu, mēs runājām par to, ko vēl var darÄ«t Android balstÄ«tu lasÄ«tāju lietojumprogrammas vienā no iepriekŔējām materiāli.

E-grāmatas un to formāti: DjVu - tās vēsture, plusi, mīnusi un iespējas
Lasītājs ONYX BOOX Chronos

Vēl viena formāta problēma parādās, strādājot ar DjVu dokumentiem mazos mobilo ierīču ekrānos - viedtālruņos, planÅ”etdatoros, lasÄ«tājos. Dažkārt DjVu faili tiek attēloti kā skenēta grāmata, un profesionālā literatÅ«ra un darba dokumenti bieži ir A4 formātā, tāpēc, meklējot informāciju, attēls ir ā€œjāpārvietoā€.

Tomēr mēs atzÄ«mējam, ka Å”o problēmu var arÄ« atrisināt. VienkārŔākais veids, protams, ir meklēt dokumentu citā formātā ā€“ bet, ja Ŕī iespēja nav iespējama (piemēram, jāstrādā ar lielu daudzumu tehniskās literatÅ«ras DjVu), tad var izmantot elektroniskos lasÄ«tājus. ar lielu diagonāli no 9,7 lÄ«dz 13,3 collām, kas Ä«paÅ”i ā€œpielāgotiā€ darbam ar Ŕādiem dokumentiem.

Piemēram, ONYX BOOX lÄ«nijā Ŕādas ierÄ«ces ir Chronos Šø MAX 2 (starp citu, mēs esam sagatavojuÅ”i apskatu par Å”o lasÄ«tāju modeli, un drÄ«zumā to publicēsim mÅ«su emuārā), un arÄ« PiezÄ«mes, kuram ir E Ink Mobius Carta ekrāns ar 10,3 collu diagonāli un palielinātu izŔķirtspēju. Šādas ierÄ«ces ļauj mierÄ«gi izpētÄ«t visas ilustrāciju detaļas to oriÄ£inālajā izmērā un ir piemērotas tiem, kam bieži nākas lasÄ«t izglÄ«tojoÅ”u vai tehnisko literatÅ«ru. Lai skatÄ«tu DjVu un PDF failus lietots NEO Reader, kas ļauj pielāgot digitalizēto fontu kontrastu un biezumu.

Neskatoties uz formāta trÅ«kumiem, Å”odien DjVu joprojām ir viens no populārākajiem literāro darbu ā€œsaglabāŔanasā€ formātiem. Tas lielā mērā ir saistÄ«ts ar to, ka viņŔ ir atvērts, un daži tehnoloÄ£iskie ierobežojumi mÅ«sdienās ļauj mÅ«sdienu tehnoloÄ£ijām un attÄ«stÄ«bai to apiet.

Turpmākajos materiālos turpināsim stāstu par e-grāmatu formātu raÅ”anās vēsturi un to darbÄ«bas iezÄ«mēm.

PS Vairāki ONYX BOOX lasītāju komplekti:



Avots: www.habr.com

Pievieno komentāru