E-grÄmatas un to formÄti: DjVu - tÄs vÄsture, plusi, mÄ«nusi un iespÄjas
70. gadu sÄkumÄ paspÄja amerikÄÅu rakstnieks Maikls HÄrts saÅemt neierobežota piekļuve datoram Xerox Sigma 5, kas uzstÄdÄ«ts Ilinoisas UniversitÄtÄ. Lai lietderÄ«gi izmantotu iekÄrtas resursus, viÅÅ” nolÄma izveidot pirmo elektronisko grÄmatu, pÄrpublicÄjot ASV NeatkarÄ«bas deklarÄciju.
MÅ«sdienÄs digitÄlÄ literatÅ«ra ir kļuvusi plaÅ”i izplatÄ«ta, galvenokÄrt pateicoties portatÄ«vo ierÄ«Äu (viedtÄlruÅu, e-lasÄ«tÄju, klÄpjdatoru) attÄ«stÄ«bai. Tas ir novedis pie liela skaita e-grÄmatu formÄtu raÅ”anÄs. MÄÄ£inÄsim izprast to Ä«paŔības un pastÄstÄ«t populÄrÄko no tiem vÄsturi ā sÄksim ar DjVu formÄtu.
DjVu 1996. gadÄ izstrÄdÄja AT&T Labs ar vienu mÄrÄ·i - nodroÅ”inÄt tÄ«mekļa izstrÄdÄtÄjiem rÄ«ku augstas izŔķirtspÄjas attÄlu izplatÄ«Å”anai internetÄ.
Fakts ir tÄds, ka tajÄ laikÄ 90% visas informÄcijas ir nekustÄ«ga tika uzglabÄts uz papÄ«ra, un daudziem svarÄ«gajiem dokumentiem bija krÄsaini attÄli un fotogrÄfijas. Lai saglabÄtu teksta lasÄmÄ«bu un attÄlu kvalitÄti, bija nepiecieÅ”ams veikt augstas izŔķirtspÄjas skenÄÅ”anu.
Klasiskie tÄ«mekļa formÄti - JPEG, GIF un PNG - ļÄva strÄdÄt ar Å”Ädiem attÄliem, taÄu tas maksÄja apjomu. JPEG gadÄ«jumÄ, lai teksts tika lasÄ«ts monitora ekrÄnÄ man bija jÄskenÄ dokuments ar izŔķirtspÄju 300 dpi. Viena žurnÄla krÄsaina lapa aizÅÄma aptuveni 500 KB. Å Äda izmÄra failu lejupielÄde no interneta tolaik bija diezgan darbietilpÄ«gs process.
AlternatÄ«va bija papÄ«ra dokumentu digitalizÄcija, izmantojot OCR tehnoloÄ£ijas, taÄu pirms 20 gadiem to precizitÄte bija tÄlu no ideÄlas - pÄc apstrÄdes gala rezultÄts bija nopietni jÄrediÄ£Ä ar roku. TajÄ paÅ”Ä laikÄ grafika un attÄli palika āaiz bortaā. Un pat tad, ja skenÄtu attÄlu bija iespÄjams iegult teksta dokumentÄ, tika zaudÄtas dažas vizuÄlas detaļas, piemÄram, papÄ«ra krÄsa, faktÅ«ra, un tÄs ir svarÄ«gas vÄsturisko dokumentu sastÄvdaļas.
Lai atrisinÄtu Ŕīs problÄmas, AT&T izstrÄdÄja DjVu. Tas ļÄva saspiest skenÄtus krÄsu dokumentus ar izŔķirtspÄju no 300 dpi lÄ«dz 40ā60 KB ar oriÄ£inÄlo izmÄru 25 MB. DjVu samazinÄja melnbalto lapu izmÄru lÄ«dz 10ā30 KB.
KÄ DjVu saspiež dokumentus
DjVu var strÄdÄt gan ar skenÄtiem papÄ«ra dokumentiem, gan citiem digitÄliem formÄtiem, piemÄram, PDF. KÄ darbojas DjVu ir tehnoloÄ£ija, kas sadala attÄlu trÄ«s komponentos: priekÅ”plÄnÄ, fonÄ un melnbaltÄ (bitu) maskÄ.
Maska tiek saglabÄta sÄkotnÄjÄ faila izŔķirtspÄjÄ un satur teksta attÄls un citas skaidras detaļas - smalkas lÄ«nijas un diagrammas -, kÄ arÄ« kontrastÄjoÅ”i attÄli.
Tam ir 300 dpi izŔķirtspÄja, lai smalkÄs lÄ«nijas un burtu kontÅ«ras bÅ«tu asas, un tas tiek saspiests, izmantojot JB2 algoritmu, kas ir AT&T JBIG2 algoritma variants faksu sÅ«tÄ«Å”anai. JB2 iezÄ«me ir tas meklÄ dublÄtÄs rakstzÄ«mes lapÄ un saglabÄ to attÄlu tikai vienu reizi. TÄdÄjÄdi vairÄku lappuÅ”u dokumentos ik pÄc dažÄm lappusÄm ir kopÄ«ga āvÄrdnÄ«caā.
Fons satur lapas faktÅ«ru un ilustrÄcijas, un tÄ izŔķirtspÄja ir zemÄka nekÄ maskas izŔķirtspÄja. Bezzudumu fons tiek saglabÄts 100 dpi.
PriekÅ”plÄnÄ saglabÄ krÄsu informÄciju par masku, un tÄs izŔķirtspÄja parasti tiek samazinÄta vÄl vairÄk, jo vairumÄ gadÄ«jumu teksta krÄsa ir melna un vienÄda vienai drukÄtajai rakstzÄ«mei. Izmanto, lai saspiestu priekÅ”plÄnu un fonu viļÅu saspieÅ”ana.
PÄdÄjais DjVu dokumenta izveides posms ir entropijas kodÄÅ”ana, kad adaptÄ«vais aritmÄtiskais kodÄtÄjs pÄrvÄrÅ” identisku rakstzÄ«mju secÄ«bas binÄrÄ vÄrtÄ«bÄ.
FormÄta priekÅ”rocÄ«bas
DjVu uzdevums bija glÄbt papÄ«ra dokumenta āÄ«paŔībasā digitÄlÄ formÄ, ļaujot ar Å”Ädiem dokumentiem strÄdÄt pat vÄjiem datoriem. TÄpÄc programmatÅ«rai DjVu failu skatÄ«Å”anai ir iespÄja āÄtri renderÄtā. Paldies viÅai par piemiÅu iekrauÅ”ana tikai tÄ DjVu lapas daļa, kas jÄparÄda ekrÄnÄ.
Tas arÄ« ļauj skatÄ«t ānelejupielÄdÄtosā failus, tas ir, atseviŔķas vairÄku lappuÅ”u DjVu dokumenta lapas. Å ajÄ gadÄ«jumÄ tiek izmantota progresÄ«va attÄla detaļu rasÄÅ”ana, kad Ŕķiet, ka komponenti āparÄdÄsā faila lejupielÄdes laikÄ (kÄ JPEG).
Pirms 20 gadiem, kad Å”is formÄts tika ieviests, lapa tika ielÄdÄta trÄ«s posmos: vispirms tika ielÄdÄta teksta komponente, pÄc pÄris sekundÄm tika ielÄdÄtas pirmÄs attÄlu versijas un fons. PÄc tam "parÄdÄ«jÄs" visa grÄmatas lapa.
TrÄ«s lÄ«meÅu struktÅ«ras klÄtbÅ«tne ļauj arÄ« meklÄt skenÄtÄs grÄmatÄs (jo ir Ä«paÅ”s teksta slÄnis). Tas izrÄdÄ«jÄs Ärti, strÄdÄjot ar tehnisko literatÅ«ru un uzziÅu grÄmatÄm, tÄpÄc DjVu kļuva par pamatu vairÄkÄm zinÄtnisko grÄmatu bibliotÄkÄm. PiemÄram, 2002. gadÄ viÅÅ” tika izvÄlÄts Interneta arhÄ«vs kÄ vienu no formÄtiem (kopÄ ar TIFF un PDF) projektam, lai saglabÄtu skenÄtas grÄmatas no atvÄrtiem avotiem.
FormÄta trÅ«kumi
TomÄr, tÄpat kÄ visÄm tehnoloÄ£ijÄm, arÄ« DjVu ir savi trÅ«kumi. PiemÄram, kodÄjot grÄmatu skenÄtos failus DjVu formÄtÄ, dažas rakstzÄ«mes dokumentÄ var tikt aizstÄtas ar citÄm, kas pÄc izskata ir lÄ«dzÄ«gas. VisbiežÄk tas notiek ar burtiem āiā un ānā, tÄpÄc Ŕī problÄma rodas saÅemts nosaukums "iÅ problÄma". Tas nav atkarÄ«gs no teksta valodas un cita starpÄ ietekmÄ ciparus un citas mazas atkÄrtojoÅ”as rakstzÄ«mes.
TÄs iemesls ir rakstzÄ«mju klasifikÄcijas kļūdas JB2 kodÄtÄjÄ. Tas āsadalaā skenÄjumus grupÄs pa 10ā20 gabaliem un veido katrai grupai kopÄ«gu simbolu vÄrdnÄ«cu. VÄrdnÄ«cÄ ir izplatÄ«ti burtu un ciparu piemÄri ar lapÄm un to izskata koordinÄtÄm. Kad skatÄties DjVu grÄmatu, vÄrdnÄ«cas rakstzÄ«mes tiek ievietotas pareizajÄs vietÄs.
Tas ļauj samazinÄt DjVu faila lielumu, taÄu, ja divu burtu displeji ir vizuÄli lÄ«dzÄ«gi, kodÄtÄjs var tos sajaukt vai sajaukt ar vienÄdiem burtiem. Dažreiz tas noved pie tehniskÄ dokumenta formulu bojÄjumiem. Lai atrisinÄtu Å”o problÄmu, varat atteikties no saspieÅ”anas algoritmiem, taÄu tas palielinÄs grÄmatas digitÄlÄs kopijas izmÄru.
VÄl viens formÄta trÅ«kums ir tas, ka tas pÄc noklusÄjuma netiek atbalstÄ«ts daudzÄs mÅ«sdienu operÄtÄjsistÄmÄs (tostarp mobilajÄs). TÄpÄc, lai strÄdÄtu ar to, jums jÄinstalÄ treÅ”Äs puses programma programmas, piemÄram, DjVuReader, WinDjView, Evince u.c. TomÄr Å”eit vÄlos atzÄ«mÄt, ka daži elektroniskie lasÄ«tÄji (piemÄram, ONYX BOOX) atbalsta DjVu formÄtu āno kastesā - jo tur jau ir instalÄtas nepiecieÅ”amÄs lietojumprogrammas.
Starp citu, mÄs runÄjÄm par to, ko vÄl var darÄ«t Android balstÄ«tu lasÄ«tÄju lietojumprogrammas vienÄ no iepriekÅ”ÄjÄm materiÄli.
VÄl viena formÄta problÄma parÄdÄs, strÄdÄjot ar DjVu dokumentiem mazos mobilo ierÄ«Äu ekrÄnos - viedtÄlruÅos, planÅ”etdatoros, lasÄ«tÄjos. DažkÄrt DjVu faili tiek attÄloti kÄ skenÄta grÄmata, un profesionÄlÄ literatÅ«ra un darba dokumenti bieži ir A4 formÄtÄ, tÄpÄc, meklÄjot informÄciju, attÄls ir ājÄpÄrvietoā.
TomÄr mÄs atzÄ«mÄjam, ka Å”o problÄmu var arÄ« atrisinÄt. VienkÄrÅ”Äkais veids, protams, ir meklÄt dokumentu citÄ formÄtÄ ā bet, ja Ŕī iespÄja nav iespÄjama (piemÄram, jÄstrÄdÄ ar lielu daudzumu tehniskÄs literatÅ«ras DjVu), tad var izmantot elektroniskos lasÄ«tÄjus. ar lielu diagonÄli no 9,7 lÄ«dz 13,3 collÄm, kas Ä«paÅ”i āpielÄgotiā darbam ar Å”Ädiem dokumentiem.
PiemÄram, ONYX BOOX lÄ«nijÄ Å”Ädas ierÄ«ces ir Chronos Šø MAX 2 (starp citu, mÄs esam sagatavojuÅ”i apskatu par Å”o lasÄ«tÄju modeli, un drÄ«zumÄ to publicÄsim mÅ«su emuÄrÄ), un arÄ« PiezÄ«mes, kuram ir E Ink Mobius Carta ekrÄns ar 10,3 collu diagonÄli un palielinÄtu izŔķirtspÄju. Å Ädas ierÄ«ces ļauj mierÄ«gi izpÄtÄ«t visas ilustrÄciju detaļas to oriÄ£inÄlajÄ izmÄrÄ un ir piemÄrotas tiem, kam bieži nÄkas lasÄ«t izglÄ«tojoÅ”u vai tehnisko literatÅ«ru. Lai skatÄ«tu DjVu un PDF failus lietots NEO Reader, kas ļauj pielÄgot digitalizÄto fontu kontrastu un biezumu.
Neskatoties uz formÄta trÅ«kumiem, Å”odien DjVu joprojÄm ir viens no populÄrÄkajiem literÄro darbu āsaglabÄÅ”anasā formÄtiem. Tas lielÄ mÄrÄ ir saistÄ«ts ar to, ka viÅÅ” ir atvÄrts, un daži tehnoloÄ£iskie ierobežojumi mÅ«sdienÄs ļauj mÅ«sdienu tehnoloÄ£ijÄm un attÄ«stÄ«bai to apiet.
TurpmÄkajos materiÄlos turpinÄsim stÄstu par e-grÄmatu formÄtu raÅ”anÄs vÄsturi un to darbÄ«bas iezÄ«mÄm.