E-buku sareng formatna: DjVu - sajarahna, pro, kontra sareng fitur

Dina awal 70s junun panulis Amérika Michael Hart meunangkeun aksés taya ka komputer Xerox sigma 5 dipasang di Universitas Illionis. Pikeun ngamangpaatkeun sumber daya mesin, anjeunna mutuskeun pikeun nyiptakeun buku éléktronik anu munggaran, nyitak deui Déklarasi Kamerdikaan AS.

Kiwari, literatur digital geus jadi nyebar, utamana berkat ngembangkeun alat portabel (smartphone, e-pamiarsa, laptop). Ieu nyababkeun mecenghulna sajumlah ageung format e-buku. Hayu urang coba ngartos fitur maranéhanana sarta ngabejaan sajarah nu pang populerna di antarana - hayu urang mimitian ku format DjVu.

E-buku sareng formatna: DjVu - sajarahna, pro, kontra sareng fitur
/flickr/ Lane Pearman / CC

Munculna format

DjVu dikembangkeun dina taun 1996 ku AT&T Labs sareng hiji tujuan - pikeun masihan pamekar wéb alat pikeun nyebarkeun gambar resolusi luhur dina Internét.

Kanyataan yén dina waktos éta 90% sadaya inpormasi masih ieu disimpen dina kertas, sarta loba dokumén penting boga gambar warna jeung foto. Pikeun ngajaga kabacaan téks sareng kualitas gambar, éta kedah dilakukeun scan resolusi luhur.

Format wéb klasik - JPEG, GIF sareng PNG - ngamungkinkeun pikeun damel sareng gambar sapertos kitu, tapi kalayan biaya volume. Dina kasus JPEG, supados téks ieu dibaca dina layar monitor, kuring kungsi nyeken dokumén kalawan resolusi 300 dpi. Kaca warna majalah nempatan kira-kira 500 KB. Ngundeur file saukuran ieu tina Internét mangrupikeun prosés anu padat karya dina waktos éta.

Alternatipna nyaéta ngadigitalkeun dokumén kertas nganggo téknologi OCR, tapi 20 taun ka pengker akurasina jauh tina idéal - saatos ngolah, hasil ahir kedah diédit sacara serius ku tangan. Dina waktos anu sami, grafik sareng gambar tetep "overboard". Komo lamun mungkin pikeun embed gambar discan kana dokumén téks, sababaraha rinci visual leungit, contona, warna kertas, tékstur na, sarta ieu téh komponén penting tina dokumén sajarah.

Pikeun ngajawab masalah ieu, AT&T ngembangkeun DjVu. Ieu ngamungkinkeun pikeun niiskeun dokumén warna anu diseken kalayan résolusi 300 dpi dugi ka 40-60 KB, kalayan ukuran asli 25 MB. DjVu ngurangan ukuran kaca hideung bodas jadi 10–30 KB.

Kumaha DjVu compresses dokumén

DjVu tiasa dianggo sareng dokumén kertas anu diseken sareng format digital sanés, sapertos PDF. Kumaha DjVu jalan bohong téhnologi nu splits hiji gambar kana tilu komponén: foreground, tukang jeung hideung-bodas (bit) topeng.

Topeng disimpen dina resolusi file asli sareng ngandung gambar téks sareng detil anu jelas - garis halus sareng diagram - ogé gambar kontras.

Mibanda resolusi 300 dpi pikeun tetep garis rupa jeung hurup outlines seukeut, sarta dikomprés ngagunakeun algoritma JB2, nu mangrupakeun variasi tina AT & T urang algoritma JBIG2 pikeun faxing. Keunggulan JB2 éta naon anu dilakukeun nyaéta milarian duplikat karakter dina halaman sareng nyimpen gambarna ngan sakali. Ku kituna, dina dokumén multi-kaca, unggal sababaraha kaca padeukeut babagi hiji "kamus" umum.

Latarna ngandung tékstur halaman sareng ilustrasi, sareng résolusina langkung handap tina topéng. Latar tukang anu henteu rugi disimpen dina 100 dpi.

latar hareup toko Inpormasi warna ngeunaan topéng, sareng résolusina biasana dikirangan langkung jauh, sabab dina kalolobaan kasus warna téks hideung sareng sami pikeun hiji karakter anu dicitak. Dipaké pikeun niiskeun foreground jeung latar tukang komprési wavelet.

Tahap ahir nyieun dokumén DjVu nyaéta encoding éntropi, nalika encoder arithmetic adaptif ngarobah runtuyan karakter idéntik kana nilai binér.

Kaunggulan tina format

tugas DjVu urang éta nahan "Pasipatan" tina dokumén kertas dina bentuk digital, ngamungkinkeun komputer malah lemah pikeun digawe sareng dokumén sapertos. Ku alatan éta, software pikeun nempo payil DjVu boga kamampuhan pikeun "gancang rendering". Hatur nuhun ka dirina dina ingetan ngamuat ngan éta sapotong kaca DjVu nu kudu dipintonkeun dina layar.

Ieu ogé ngamungkinkeun pikeun ningali file "undownload", nyaéta, halaman individu tina dokumén DjVu multi-halaman. Dina hal ieu, gambar kutang tina detil gambar dipaké, nalika komponén sigana "nembongan" salaku file diundeur (sakumaha dina JPEG).

20 taun ka tukang, nalika format ieu diwanohkeun, kaca ieu dimuat dina tilu tahapan: kahiji komponén téks dimuat, sanggeus sababaraha detik versi mimiti gambar jeung tukang dimuat. Sanggeus éta, sakabéh kaca buku "muncul".

Ayana struktur tilu tingkat ogé ngamungkinkeun anjeun milarian buku anu diseken (sabab aya lapisan téks khusus). Ieu tétéla merenah nalika gawé bareng literatur teknis jeung buku rujukan, jadi DjVu jadi dadasar pikeun sababaraha perpustakaan buku ilmiah. Contona, dina 2002 anjeunna dipilih Arsip Internét salaku salah sahiji format (sareng TIFF sareng PDF) pikeun proyék pikeun ngawétkeun buku anu discan tina sumber terbuka.

Kalemahan format

Nanging, sapertos sadaya téknologi, DjVu ngagaduhan kalemahanana. Contona, nalika encoding scan buku kana format DjVu, sababaraha karakter dina dokumén bisa diganti ku batur nu sarupa dina penampilan. Ieu paling sering kajadian ku hurup "i" jeung "n", nu naha masalah ieu ditampi ngaranna "masalah yin". Teu gumantung kana basa téks jeung mangaruhan, antara séjén, angka jeung karakter repeating leutik lianna.

Panyababna nyaéta kasalahan klasifikasi karakter dina encoder JB2. Ieu "beulah" scan kana grup 10-20 lembar sarta ngabentuk kamus lambang umum pikeun tiap grup. Kamus ngandung conto hurup sareng nomer umum sareng halaman sareng koordinat penampilanna. Nalika anjeun ningali buku DjVu, karakter tina kamus diselapkeun kana tempat anu leres.

Hal ieu ngamungkinkeun anjeun pikeun ngirangan ukuran file DjVu, kumaha ogé, upami tampilan dua hurup sacara visual sami, encoder tiasa ngalieurkeun aranjeunna atanapi ngasalahkeun aranjeunna sami. Kadang-kadang ieu ngabalukarkeun karuksakan kana rumus dina dokumen teknis. Pikeun ngajawab masalah ieu, anjeun tiasa abandon algoritma komprési, tapi ieu bakal ngaronjatkeun ukuran salinan digital buku.

Karugian sanésna tina format éta henteu dirojong sacara standar dina seueur sistem operasi modéren (kalebet sélulér). Ku alatan éta, pikeun digawe sareng eta anjeun kudu masang pihak-katilu program, sapertos DjVuReader, WinDjView, Evince, jsb. Tapi, di dieu kuring hoyong dicatet yén sababaraha pamiarsa éléktronik (contona, ONYX BOOX) ngadukung format DjVu "out of the box" - sabab aplikasi anu diperyogikeun parantos dipasang di dinya.

Ku jalan kitu, urang ngobrol ngeunaan naon deui aplikasi pikeun pamiarsa basis Android tiasa ngalakukeun dina salah sahiji saméméhna bahan.

E-buku sareng formatna: DjVu - sajarahna, pro, kontra sareng fitur
Pamaca ONYX BOOX Chronos

Masalah format sanésna muncul nalika damel sareng dokumén DjVu dina layar leutik alat sélulér - smartphone, tablet, pamiarsa. Kadang-kadang file DjVu dibere dina bentuk scan tina sumebarna buku, sarta literatur profésional sarta dokumén gawé mindeng dina format A4, jadi Anjeun kudu "mindahkeun" gambar dina pilarian inpormasi.

Nanging, urang dicatet yén masalah ieu ogé tiasa direngsekeun. Cara panggampangna, tangtosna, nyaéta milarian dokumén dina format anu béda - tapi upami pilihan ieu henteu mungkin (contona, anjeun kedah damel sareng seueur literatur téknis dina DjVu), teras anjeun tiasa nganggo pamiarsa éléktronik. kalawan diagonal badag tina 9,7 nepi ka 13,3 inci, nu husus "disesuaikeun" pikeun gawé bareng dokumén misalna.

Contona, dina garis ONYX BOOX alat sapertos anu Chronos и MAX 2 (Ku jalan kitu, kami geus disiapkeun review model maca ieu, sarta baris geura-giru nyebarkeun eta dina blog urang), sarta ogé Catetan, nu boga layar E Ink Mobius Carta kalawan diagonal 10,3 inci sarta ngaronjat resolusi. Alat-alat sapertos kitu ngidinan Anjeun pikeun tenang nalungtik sagala rinci ilustrasi dina ukuran aslina tur cocog pikeun jalma anu mindeng kudu maca literatur atikan atawa teknis. Pikeun ningali file DjVu sareng PDF digunakeun NEO Reader, anu ngamungkinkeun anjeun nyaluyukeun kontras sareng ketebalan font anu didigitalkeun.

Sanaos kakurangan formatna, ayeuna DjVu tetep salah sahiji format anu paling populér pikeun "ngawétkeun" karya sastra. Ieu sakitu legana alatan kanyataan yén anjeunna éta kabuka, sarta sababaraha watesan téhnologis kiwari ngidinan téknologi modern jeung kamajuan pikeun bypass eta.

Dina bahan di handap ieu kami bakal neruskeun carita ngeunaan sajarah mecenghulna format e-buku sarta fitur karya maranéhanana.

PS Sababaraha sét pamaca ONYX BOOX:



sumber: www.habr.com

Tambahkeun komentar