E-kirjat ja niiden muodot: DjVu - sen historia, edut, haitat ja ominaisuudet

70-luvun alussa amerikkalainen kirjailija Michael Hart onnistui päästä rajoittamaton pääsy Illinoisin yliopistoon asennettuun Xerox Sigma 5 -tietokoneeseen. Hyödyntääkseen koneen resursseja hän päätti luoda ensimmäisen sähköisen kirjan, joka painotti uudelleen Yhdysvaltain itsenäisyysjulistuksen.

Nykyään digitaalinen kirjallisuus on yleistynyt suurelta osin kannettavien laitteiden (älypuhelimet, e-lukijat, kannettavat tietokoneet) kehityksen ansiosta. Tämä on johtanut suuren määrän e-kirjamuotojen syntymiseen. Yritetään ymmärtää niiden ominaisuuksia ja kertoa niistä suosituimpien historia - aloitetaan DjVu-muodosta.

E-kirjat ja niiden muodot: DjVu - sen historia, edut, haitat ja ominaisuudet
/flickr/ Lane Pearman / CC

Muodin syntyminen

AT&T Labs kehitti DjVun vuonna 1996 yhdellä tarkoituksella - antaa web-kehittäjille työkalu korkearesoluutioisten kuvien jakamiseen Internetissä.

Tosiasia on, että tuolloin 90% kaikesta tiedosta on edelleen oli tallennettu paperille, ja monissa tärkeissä asiakirjoissa oli värikuvia ja valokuvia. Tekstin luettavuuden ja kuvien laadun säilyttämiseksi oli tarpeen tehdä korkearesoluutioisia skannauksia.

Klassiset verkkomuodot - JPEG, GIF ja PNG - mahdollistivat työskentelyn tällaisten kuvien kanssa, mutta äänenvoimakkuuden kustannuksella. Jos kyseessä on JPEG, niin että teksti oli luettu näytön näytöllä minun piti skannata asiakirja 300 dpi:n resoluutiolla. Lehden värisivu vei noin 500 kt. Tämän kokoisten tiedostojen lataaminen Internetistä oli tuolloin melko työläs prosessi.

Vaihtoehtona oli digitoida paperiasiakirjat OCR-tekniikoilla, mutta 20 vuotta sitten niiden tarkkuus oli kaukana ihanteellisesta - käsittelyn jälkeen lopputulos jouduttiin tosissaan muokkaamaan käsin. Samaan aikaan grafiikka ja kuvat jäivät "yli laidan". Ja vaikka skannattu kuva olisi mahdollista upottaa tekstidokumenttiin, niin joitain visuaalisia yksityiskohtia hävisi, esimerkiksi paperin väri, rakenne, ja nämä ovat tärkeitä historiallisten asiakirjojen osia.

Näiden ongelmien ratkaisemiseksi AT&T kehitti DjVu:n. Sen avulla oli mahdollista pakata 300 dpi:n tarkkuudella skannatut väriasiakirjat 40–60 kilotavuun alkuperäisen koon ollessa 25 megatavua. DjVu pienensi mustavalkoisten sivujen koon 10–30 kilotavuun.

Kuinka DjVu pakkaa asiakirjoja

DjVu voi käsitellä sekä skannattuja paperiasiakirjoja että muita digitaalisia muotoja, kuten PDF. Miten DjVu toimii on tekniikka, joka jakaa kuvan kolmeen osaan: etuala, tausta ja mustavalkoinen (bittinen) maski.

Maski tallennetaan alkuperäisen tiedoston tarkkuudella ja se sisältää kuva tekstistä ja muista selkeistä yksityiskohdista - hienoja viivoja ja kaavioita - sekä kontrastisia kuvia.

Sen resoluutio on 300 dpi, jotta hienot viivat ja kirjainten ääriviivat pysyvät terävinä, ja se on pakattu JB2-algoritmilla, joka on muunnelma AT&T:n JBIG2-algoritmista faksaukseen. JB2:n ominaisuus on Se etsii sivulta päällekkäisiä merkkejä ja tallentaa niiden kuvan vain kerran. Näin ollen monisivuisissa asiakirjoissa joka muutamalla peräkkäisellä sivulla on yhteinen "sanakirja".

Tausta sisältää sivun tekstuurin ja kuvitukset, ja sen resoluutio on pienempi kuin maskin. Häviötön tausta tallennetaan 100 dpi:n tarkkuudella.

etuala pitää maskin väritietoa ja sen resoluutiota yleensä pienennetään entisestään, koska useimmissa tapauksissa tekstin väri on musta ja sama yhdellä painetulla merkillä. Käytetään etualan ja taustan pakkaamiseen wavelet-pakkaus.

DjVu-dokumentin luomisen viimeinen vaihe on entropiakoodaus, kun adaptiivinen aritmeettinen kooderi muuttaa identtisten merkkien sekvenssit binääriarvoiksi.

Muodin edut

DjVun tehtävänä oli сохранить digitaalisessa muodossa olevan paperiasiakirjan "ominaisuudet", jotka mahdollistavat heikkojenkin tietokoneiden työskentelyn tällaisten asiakirjojen kanssa. Siksi DjVu-tiedostojen katseluohjelmistolla on kyky "nopeaa renderöintiä". Kiitos hänelle muistoksi Ladataan vain se osa DjVu-sivusta, jonka pitäisi näkyä näytöllä.

Tämä mahdollistaa myös "lataamattomien" tiedostojen eli monisivuisen DjVu-asiakirjan yksittäisten sivujen katselun. Tässä tapauksessa käytetään progressiivista kuvan yksityiskohtien piirtämistä, kun komponentit näyttävät "näkyvän" tiedostoa ladattaessa (kuten JPEG-muodossa).

20 vuotta sitten, kun tämä muoto otettiin käyttöön, sivu latautui kolmessa vaiheessa: ensin ladattiin tekstikomponentti, parin sekunnin kuluttua ensimmäiset versiot kuvista ja tausta. Myöhemmin koko kirjan sivu "näkyi".

Kolmitasoisen rakenteen ansiosta voit myös etsiä skannattuja kirjoja (koska siellä on erityinen tekstikerros). Tämä osoittautui käteväksi työskennellessä teknisen kirjallisuuden ja hakuteosten kanssa, joten DjVu:sta tuli perusta useille tieteellisten kirjojen kirjastoille. Esimerkiksi vuonna 2002 hänet valittiin Internet-arkisto yhtenä muodoista (TIFF:n ja PDF:n ohella) projektille, jolla säilytetään avoimista lähteistä peräisin olevia skannattuja kirjoja.

Muodin haitat

Kuten kaikilla teknologioilla, DjVulla on kuitenkin haittapuolensa. Esimerkiksi koodattaessa kirjojen skannauksia DjVu-muotoon, jotkut asiakirjan merkit voidaan korvata muilla, jotka ovat ulkonäöltään samanlaisia. Tämä tapahtuu useimmiten kirjainten "i" ja "n" kanssa, minkä vuoksi tämä ongelma sain nimi "yin-ongelma". Se ei riipu tekstin kielestä ja vaikuttaa mm. numeroihin ja muihin pieniin toistuviin merkkeihin.

Syynä ovat merkkien luokitteluvirheet JB2-kooderissa. Se "jakaa" skannaukset 10–20 kappaleen ryhmiin ja muodostaa kullekin ryhmälle yhteisten symbolien sanakirjan. Sanakirja sisältää esimerkkejä yleisistä kirjaimista ja numeroista sekä sivut ja niiden ulkoasun koordinaatit. Kun katsot DjVu-kirjaa, sanakirjan merkit lisätään oikeisiin paikkoihin.

Tämän avulla voit pienentää DjVu-tiedoston kokoa, mutta jos kahden kirjaimen näytöt ovat visuaalisesti samankaltaisia, kooderi voi joko sekoittaa ne tai erehtyä pitämään ne samanlaisina. Joskus tämä johtaa teknisen asiakirjan kaavojen vaurioitumiseen. Tämän ongelman ratkaisemiseksi voit luopua pakkausalgoritmeista, mutta tämä kasvattaa kirjan digitaalisen kopion kokoa.

Toinen muodon haittapuoli on, että se ei ole oletuksena tuettu monissa nykyaikaisissa käyttöjärjestelmissä (mukaan lukien mobiilikäyttöjärjestelmät). Siksi, jotta voit työskennellä sen kanssa, sinun on asennettava kolmannen osapuolen ohjelmat, kuten DjVuReader, WinDjView, Evince jne. Haluaisin kuitenkin tässä huomauttaa, että jotkut elektroniset lukijat (esimerkiksi ONYX BOOX) tukevat DjVu-muotoa "pakkauksesta" - koska tarvittavat sovellukset on jo asennettu sinne.

Muuten, puhuimme siitä, mitä muuta Android-lukijoiden sovellukset voivat tehdä yhdessä edellisistä tarvikkeet.

E-kirjat ja niiden muodot: DjVu - sen historia, edut, haitat ja ominaisuudet
Lukija ONYX BOOX Chronos

Toinen muotoongelma ilmenee työskenneltäessä DjVu-asiakirjojen kanssa mobiililaitteiden pienillä näytöillä - älypuhelimissa, tableteissa, lukijoissa. Joskus DjVu-tiedostot esitetään skannauksena kirjalevityksestä, ja ammattikirjallisuus ja työasiakirjat ovat usein A4-kokoisia, joten kuvaa joutuu "liikuttamaan" tiedon etsimiseksi.

Huomaa kuitenkin, että tämä ongelma voidaan myös ratkaista. Helpoin tapa on tietysti etsiä dokumenttia eri muodossa - mutta jos tämä vaihtoehto ei ole mahdollista (esimerkiksi sinun on työskenneltävä suuren määrän teknistä kirjallisuutta DjVu:ssa), voit käyttää sähköisiä lukulaitteita. suurella lävistäjällä 9,7 - 13,3 tuumaa, joka on erityisesti "räätälöity" tällaisten asiakirjojen kanssa työskentelemiseen.

Esimerkiksi ONYX BOOX -sarjassa tällaisia ​​laitteita ovat Chronos и MAX 2 (Olemme muuten laatineet arvion tästä lukijamallista ja julkaisemme sen pian blogissamme), ja myös Huomautuksia, jossa on E Ink Mobius Carta -näyttö, jonka lävistäjä on 10,3 tuumaa ja suurempi tarkkuus. Tällaisten laitteiden avulla voit rauhallisesti tutkia kuvien kaikkia yksityiskohtia niiden alkuperäisessä koossa ja ne sopivat niille, jotka joutuvat usein lukemaan opetus- tai teknistä kirjallisuutta. DjVu- ja PDF-tiedostojen katselu käytetty NEO Reader, jonka avulla voit säätää digitoitujen fonttien kontrastia ja paksuutta.

Formaatin puutteista huolimatta DjVu on edelleen yksi suosituimmista kirjallisten teosten "säilyttämisen" muodoista. Tämä johtuu suurelta osin siitä, että hän on avoin, ja jotkin teknologiset rajoitukset sallivat nykyaikaisen tekniikan ja kehityksen ohittaa sen.

Seuraavissa materiaaleissa jatkamme tarinaa e-kirjamuotojen syntyhistoriasta ja niiden työn piirteistä.

PS Useita ONYX BOOX -lukijoita:



Lähde: will.com

Lisää kommentti