E-libri è i so furmati: DjVu - a so storia, i vantaghji, i contra è e funziunalità

In u principiu di l'anni 70, u scrittore americanu Michael Hart hà sappiutu vene accessu illimitatu à un computer Xerox Sigma 5 installatu à l'Università di Illinois. Per fà un bonu usu di i risorsi di a macchina, hà decisu di creà u primu libru elettronicu, reprinting a Dichjarazione di l'Indipendenza di i Stati Uniti.

Oghje, a literatura digitale s’hè diffusa, soprattuttu grazia à u sviluppu di i dispositi portatili (smartphones, e-readers, laptops). Questu hà purtatu à l'emergenza di un gran numaru di formati di e-book. Pruvemu di capiscenu e so caratteristiche è dite a storia di i più populari di elli - cuminciamu cù u furmatu DjVu.

E-libri è i so furmati: DjVu - a so storia, i vantaghji, i contra è e funziunalità
/flickr/ Lane Pearman / CC

L'emergenza di u furmatu

DjVu hè statu sviluppatu in u 1996 da AT&T Labs cun un scopu - per dà à i sviluppatori web un strumentu per a distribuzione di l'imaghjini in alta risoluzione in Internet.

U fattu hè chì à quellu tempu u 90% di tutte l'infurmazioni hè sempre era almacenatu nantu à carta, è parechji di i ducumenti impurtanti avianu imaghjini di culore è ritratti. Per mantene a leghjibilità di u testu è a qualità di l'imaghjini, era necessariu di fà scans d'alta risoluzione.

I formati web classici - JPEG, GIF è PNG - hà permessu di travaglià cù tali imagine, ma à u costu di u voluminu. In u casu di JPEG, cusì chì u testu hè statu lettu nantu à a pantalla di u monitor, aghju avutu à scansà u documentu cù una risoluzione di 300 dpi. Una pagina di culore di a rivista occupava circa 500 KB. Scaricamentu di fugliali di questa dimensione da Internet era un prucessu assai intensivu di travagliu in quellu tempu.

L'alternativa era di digitalizà i documenti di carta cù e tecnulugia OCR, ma 20 anni fà a so precisione era luntanu da l'ideale - dopu a trasfurmazioni, u risultatu finali deve esse editatu seriamente a manu. À u listessu tempu, i grafici è l'imaghjini sò stati "overboard". E ancu s'ellu era pussibile incrustà una maghjina scansata in un documentu di testu, alcuni dettagli visuali sò stati persi, per esempiu, u culore di a carta, a so texture, è questi sò cumpunenti impurtanti di documenti storichi.

Per risolve questi prublemi, AT&T hà sviluppatu DjVu. Hè permessu di cumpressà i documenti di culore scansati cù una risoluzione di 300 dpi à 40-60 KB, cù una dimensione originale di 25 MB. DjVu hà riduciutu a dimensione di e pagine in biancu è neru à 10-30 KB.

Cumu DjVu comprime i documenti

DjVu pò travaglià cù documenti di carta scansati è altri formati digitale, cum'è PDF. Cumu funziona DjVu bugie Tecnulugia chì divide l'imaghjini in trè cumpunenti: u primu pianu, u fondu è a maschera bianca è negra (bit).

A mascara hè salvatu à a risuluzione di u schedariu uriginale è cuntene maghjine di testu è altri dettagli chjaru - linee fini è diagrammi - è ancu stampi cuntrastanti.

Havi una risoluzione di 300 dpi per mantene e linee fini è i contorni di lettere nitide, è hè cumpressu cù l'algoritmu JB2, chì hè una variazione di l'algoritmu JBIG2 di AT&T per fax. Caratteristica di JB2 ciò chì face hè chì cerca caratteri duplicati in a pagina è salva a so maghjina solu una volta. Cusì, in i ducumenti multi-pagina, ogni pochi di pagine consecutivi sparte un "dizziunariu".

U sfondate cuntene a trama di a pagina è illustrazioni, è a so risuluzione hè più bassa di quella di a maschera. U fondo senza perdita hè salvatu à 100 dpi.

Primo piano mantene infurmazione di culore nantu à a maschera, è a so risuluzione hè di solitu ridutta ancu più, postu chì in a maiò parte di i casi u culore di testu hè neru è u listessu per un caratteru stampatu. Adupratu per cumpressà u primu pianu è u fondu compressione wavelet.

L'ultima tappa di a creazione di un documentu DjVu hè a codificazione di l'entropia, quandu un codificatore aritmeticu adattativu trasforma sequenze di caratteri identici in un valore binariu.

Vantaghji di u furmatu

U compitu di DjVu era salvà "proprietà" di un documentu di carta in forma digitale, chì permettenu ancu i computer debbuli di travaglià cù tali documenti. Per quessa, u software per vede i schedari DjVu hà a capacità di "rendering veloce". Grazie à ella in memoria carica solu quellu pezzu di a pagina DjVu chì deve esse affissatu nantu à u screnu.

Questu permette ancu di vede i fugliali "senza scaricati", vale à dì, pagine individuali di un documentu DjVu multi-pagina. In questu casu, u disegnu progressiu di i dettagli di l'imaghjini hè utilizatu, quandu i cumpunenti parenu "apparisce" mentre u schedariu hè scaricatu (cum'è in JPEG).

20 anni fà, quandu stu formatu hè statu introduttu, a pagina hè stata caricata in trè tappe: prima u cumpunente di testu hè stata caricata, dopu un paru di sicondi i primi versioni di l'imaghjini è u fondu sò stati caricati. Dopu, tutta a pagina di u libru "apparisce".

A prisenza di una struttura di trè livelli permette ancu di circà à traversu libri scannati (cum'è ci hè una capa di testu speciale). Questu hè stata cunvene quandu u travagliu cù a literatura tecnica è i libri di riferimentu, cusì DjVu divintò a basa per parechje biblioteche di libri scientifichi. Per esempiu, in u 2002 hè statu sceltu Archive Internet cum'è unu di i formati (inseme cù TIFF è PDF) per un prughjettu per priservà i libri scanati da fonti aperti.

Disvantages di u furmatu

Tuttavia, cum'è tutte e tecnulugia, DjVu hà i so inconvenienti. Per esempiu, quandu codificanu scans di libri in u formatu DjVu, certi caratteri in u documentu pò esse rimpiazzati da altri chì sò simili in l'apparenza. Questu succedi più spessu cù e lettere "i" è "n", chì hè per quessa stu prublema ricevutu nomu "prublemu yin". Ùn dipende micca di a lingua di u testu è affetta, frà altri cose, numeri è altri caratteri ripetuti.

A so causa hè errore di classificazione di caratteri in u codificatore JB2. "Split" scans in gruppi di 10-20 pezzi è forma un dizziunariu di simboli cumuni per ogni gruppu. U dizziunariu cuntene esempi di lettere è numeri cumuni cù pagine è coordenate di a so apparenza. Quandu vede un libru DjVu, i caratteri di u dizziunariu sò inseriti in i lochi ghjusti.

Questu permette di riduce a dimensione di u schedariu DjVu, in ogni modu, se l'indicazione di duie lettere sò visualmente simili, l'encoder pò esse cunfundite o sbagliate per u listessu. Calchì volta chistu porta à danni à formule in un documentu tecnicu. Per risolve stu prublema, pudete abbandunà l'algoritmi di cumpressione, ma questu aumentarà a dimensione di a copia digitale di u libru.

Un altru svantaghju di u formatu hè chì ùn hè micca supportatu per difettu in parechji sistemi operativi muderni (inclusi i mobili). Per quessa, à travaglià cun ellu vi tuccherà à stallà terzu-party programmi, cum'è DjVuReader, WinDjView, Evince, etc. Tuttavia, quì vogliu nutà chì certi lettori elettronichi (per esempiu, ONYX BOOX) supportanu u formatu DjVu "fora di scatula" - postu chì l'applicazioni necessarii sò digià stallati quì.

A propositu, avemu parlatu di ciò chì altre app per i lettori basati in Android ponu fà in unu di i precedenti materiali.

E-libri è i so furmati: DjVu - a so storia, i vantaghji, i contra è e funziunalità
Lettore ONYX BOOX Chronos

Un altru prublema di furmatu si prisenta quandu u travagliu cù documenti DjVu in picculi schermi di i dispositi mobili - smartphones, tablette, lettori. Calchì volta i schedarii DjVu sò presentati in a forma di una scansione di un libru spargugliatu, è a literatura prufessiunale è i ducumenti di travagliu sò spessu in formatu A4, cusì avete da "sposta" l'imaghjini in cerca di informazioni.

Tuttavia, avemu nutatu chì stu prublema pò ancu esse risolta. A manera più faciule, sicuru, hè di circà un documentu in un formatu diversu - ma se sta opzione ùn hè micca pussibule (per esempiu, avete bisognu di travaglià cù una grande quantità di letteratura tecnica in DjVu), pudete aduprà lettori elettronichi. cù una grande diagonale da 9,7 à 13,3 inch, chì hè apposta "adatta" per travaglià cù tali documenti.

Per esempiu, in a linea ONYX BOOX tali dispusitivi sò CHROOS и MAX 2 (A propositu, avemu preparatu una rivista di stu mudellu di lettore, è prestu a publicà nantu à u nostru blog), è ancu Ppi, chì hà una schermu E Ink Mobius Carta cù una diagonale di 10,3 inch è risuluzione aumentata. Tali dispusitivi permettenu di esaminà tranquillamente tutti i ditagli di l'illustrazioni in a so dimensione uriginale è sò adattati per quelli chì spessu anu da leghje a literatura educativa o tecnica. Per vede i file DjVu è PDF si usa NEO Reader, chì permette di aghjustà u cuntrastu è u grossu di i fonti digitalizzati.

Malgradu i difetti di u formatu, oghje DjVu ferma unu di i formati più populari per "priservà" l'opere literarie. Questu hè largamente duvuta à u fattu chì ellu aperti, è alcune limitazioni tecnologiche oghje permettenu à e tecnulugii muderni è i sviluppi di aggirallu.

In i seguenti materiali cuntinuemu a storia di a storia di l'emergenza di furmati di e-book è e caratteristiche di u so travagliu.

PS Diversi gruppi di lettori ONYX BOOX:



Source: www.habr.com

Add a comment