E-buku lan formate: DjVu - sejarah, pro, kontra lan fitur

Ing awal 70s, penulis AmΓ©rika Michael Hart ngatur entuk akses Unlimited menyang Xerox Sigma 5 komputer diinstal ing Universitas Illinois. Kanggo nggunakake sumber daya mesin kanthi apik, dheweke mutusake nggawe buku elektronik pisanan, nyetak ulang Deklarasi Kamardikan AS.

Saiki, sastra digital wis nyebar, utamane amarga pangembangan piranti portabel (smartphone, e-readers, laptop). Iki wis mimpin kanggo emergence saka nomer akeh format e-buku. Ayo nyoba mangertos fitur-fitur kasebut lan nyritakake sejarah sing paling populer - ayo miwiti karo format DjVu.

E-buku lan formate: DjVu - sejarah, pro, kontra lan fitur
/flickr/ Lane Pearman / CC

MunculΓ© format

DjVu dikembangake ing taun 1996 dening AT&T Labs kanthi tujuan siji - kanggo menehi alat pangembang web kanggo nyebarake gambar kanthi resolusi dhuwur liwat Internet.

Kasunyatan iku ing wektu iku 90% kabeh informasi isih disimpen ing kertas, lan akeh dokumen penting duwe gambar warna lan foto. Kanggo njaga keterbacaan teks lan kualitas gambar, sampeyan kudu nggawe scan resolusi dhuwur.

Format web klasik - JPEG, GIF lan PNG - bisa digarap gambar kasebut, nanging kanthi biaya volume. Ing cilik saka JPEG, supaya teks diwaca ing layar monitor, aku kudu mindhai dokumen kanthi resolusi 300 dpi. Sawijining kaca warna majalah kasebut ngemot udakara 500 KB. Ngundhuh file kanthi ukuran iki saka Internet minangka proses sing mbutuhake tenaga kerja ing wektu kasebut.

Alternatif kasebut yaiku digitalisasi dokumen kertas kanthi nggunakake teknologi OCR, nanging 20 taun kepungkur akurasie ora cocog - sawise diproses, asil pungkasan kudu diowahi kanthi tangan. Ing wektu sing padha, grafis lan gambar tetep "overboard". Lan sanajan sampeyan bisa nyelehake gambar sing dipindai menyang dokumen teks, sawetara rincian visual ilang, contone, warna kertas, teksture, lan iki minangka komponen penting saka dokumen sejarah.

Kanggo ngatasi masalah kasebut, AT&T ngembangake DjVu. Iki ngidini kanggo ngompres dokumen warna sing dipindai kanthi resolusi 300 dpi dadi 40-60 KB, kanthi ukuran asli 25 MB. DjVu nyuda ukuran kaca ireng lan putih dadi 10–30 KB.

Carane DjVu compresses dokumen

DjVu bisa nggarap dokumen kertas sing dipindai lan format digital liyane, kayata PDF. Cara kerja DjVu goroh teknologi sing pamisah gambar dadi telung komponen: latar ngarep, latar mburi lan ireng lan putih (dicokot) topeng.

Topeng disimpen ing resolusi file asli lan ngemot gambar teks lan rincian liyane sing cetha - garis lan diagram sing apik - uga gambar sing kontras.

Nduweni resolusi 300 dpi kanggo njaga garis-garis apik lan garis-garis huruf sing cetha, lan dikompres nggunakake algoritma JB2, yaiku variasi saka algoritma JBIG2 AT&T kanggo fax. Fitur saka JB2 Iku apa sing ditindakake yaiku nggoleki karakter duplikat ing kaca lan nyimpen gambare mung sapisan. Mangkono, ing dokumen multi-halaman, saben sawetara kaca berturut-turut nuduhake "kamus" umum.

Latar mburi ngemot tekstur kaca lan ilustrasi, lan resolusi luwih murah tinimbang topeng. Latar mburi lossless disimpen ing 100 dpi.

latar ngarep toko informasi werna bab topeng, lan resolusi biasane suda malah luwih, wiwit ing paling kasus werna teks ireng lan padha kanggo siji karakter dicithak. Digunakake kanggo ngompres latar ngarep lan latar mburi kompresi wavelet.

Tahap pungkasan nggawe dokumen DjVu yaiku encoding entropi, nalika encoder aritmetika adaptif ngowahi urutan karakter sing padha dadi nilai binar.

Kaluwihan saka format

Tugas DjVu yaiku simpen "properti" saka dokumen kertas ing wangun digital, saΓ©ngga malah komputer sing ringkih bisa nggarap dokumen kasebut. Mulane, piranti lunak kanggo ndeleng file DjVu nduweni kemampuan kanggo "rendering cepet". Thanks kanggo dheweke ing memori loading mung bagean saka kaca DjVu sing kudu ditampilake ing layar.

Iki uga ndadekake bisa ndeleng file "ora diundhuh", yaiku, kaca individu saka dokumen DjVu multi-kaca. Ing kasus iki, gambar progresif rincian gambar digunakake, nalika komponen katon "katon" minangka file diundhuh (kaya ing JPEG).

20 taun kepungkur, nalika format iki dikenalake, kaca kasebut dimuat ing telung tahap: pisanan komponen teks dimuat, sawise sawetara detik, versi pisanan saka gambar lan latar mburi dimuat. Sakwise, kabeh kaca buku kasebut "muncul".

Anane struktur telung tingkat uga ngidini sampeyan nelusuri buku sing dipindai (amarga ana lapisan teks khusus). Iki dadi trep nalika nggarap literatur teknis lan buku referensi, mula DjVu dadi basis kanggo sawetara perpustakaan buku ilmiah. Contone, ing 2002 dheweke dipilih Arsip Internet minangka salah sawijining format (bebarengan karo TIFF lan PDF) kanggo proyek kanggo ngreksa buku sing dipindai saka sumber terbuka.

Cacat saka format

Nanging, kaya kabeh teknologi, DjVu duwe kekurangan. Contone, nalika ngodhe scan buku menyang format DjVu, sawetara karakter ing dokumen bisa diganti dening liyane sing katon padha. Iki paling kerep kedadeyan karo huruf "i" lan "n", mulane masalah iki ditampa jeneng "masalah yin". Ora gumantung ing basa teks lan mengaruhi, antarane liyane, nomer lan karakter mbaleni cilik liyane.

Penyebabe yaiku kesalahan klasifikasi karakter ing encoder JB2. Iku "dibagi" mindai menyang klompok 10-20 bΓͺsik lan mbentuk kamus simbol umum kanggo saben grup. Kamus kasebut ngemot conto huruf lan angka umum kanthi kaca lan koordinat tampilane. Nalika ndeleng buku DjVu, karakter saka kamus dilebokake ing panggonan sing bener.

Iki ngidini sampeyan nyuda ukuran file DjVu, nanging yen tampilan saka rong huruf katon padha, encoder bisa mbingungake utawa kesalahane padha. Kadhangkala iki nyebabake karusakan rumus ing dokumen teknis. Kanggo ngatasi masalah iki, sampeyan bisa ninggalake algoritma komprèsi, nanging iki bakal nambah ukuran salinan digital saka buku.

Kerugian liyane saka format kasebut yaiku ora didhukung kanthi standar ing akeh sistem operasi modern (kalebu seluler). Mulane, kanggo nggarap sampeyan kudu nginstal pihak katelu program, kayata DjVuReader, WinDjView, Evince, lan liya-liyane Nanging, ing kene aku pengin dicathet yen sawetara pembaca elektronik (contone, ONYX BOOX) ndhukung format DjVu "metu saka kothak" - amarga aplikasi sing dibutuhake wis diinstal ing kana.

Ngomong-ngomong, kita ngomong babagan aplikasi apa wae sing bisa ditindakake kanggo para pamaca adhedhasar Android ing salah sawijining sadurunge bahan.

E-buku lan formate: DjVu - sejarah, pro, kontra lan fitur
Pembaca ONYX BOOX Chronos

Masalah format liyane katon nalika nggarap dokumen DjVu ing layar cilik piranti seluler - smartphone, tablet, pembaca. Kadhangkala file DjVu ditampilake ing bentuk scan panyebaran buku, lan literatur profesional lan dokumen kerja asring ana ing format A4, dadi sampeyan kudu "mindhah" gambar kanggo nggoleki informasi.

Nanging, kita nyathet yen masalah iki uga bisa ditanggulangi. Cara paling gampang, mesthi, goleki dokumen ing format sing beda - nanging yen pilihan iki ora bisa (contone, sampeyan kudu nggarap akeh literatur teknis ing DjVu), mula sampeyan bisa nggunakake pembaca elektronik. kanthi diagonal gedhe saka 9,7 nganti 13,3 inci, sing khusus "disesuaikan" kanggo nggarap dokumen kasebut.

Contone, ing baris ONYX BOOX piranti kuwi Kronos ΠΈ MAX 2 (kanthi cara, kita wis nyiapake review model maca iki, lan bakal enggal nerbitake ing blog kita), lan uga cathetan, sing nduweni layar E Ink Mobius Carta kanthi diagonal 10,3 inci lan resolusi tambah. Piranti kasebut ngidini sampeyan kanthi tenang nliti kabeh rincian ilustrasi ing ukuran asline lan cocog kanggo wong sing asring maca literatur pendidikan utawa teknis. Kanggo ndeleng file DjVu lan PDF digunakake dening NEO Reader, sing ngidini sampeyan nyetel kontras lan kekandelan font digital.

Sanajan kekurangan format kasebut, saiki DjVu tetep dadi salah sawijining format sing paling populer kanggo "ngreksa" karya sastra. Iki umume amarga dheweke Iku mbukak, lan sawetara watesan teknologi saiki ngidini teknologi modern lan pembangunan kanggo lulus.

Ing materi ing ngisor iki kita bakal nerusake crita babagan sejarah muncule format e-book lan fitur karyane.

PS Sawetara set pembaca ONYX BOOX:



Source: www.habr.com

Add a comment