Liburu elektronikoak eta haien formatuak: DjVu - bere historia, alde onak, txarrak eta ezaugarriak

70eko hamarkadaren hasieran, Michael Hart idazle estatubatuarrak kudeatu zuen lortu Illinoiseko Unibertsitatean instalatutako Xerox Sigma 5 ordenagailurako sarbide mugagabea. Makinaren baliabideak ondo erabiltzeko, lehen liburu elektronikoa sortzea erabaki zuen, AEBetako Independentzia Adierazpena berriro inprimatuz.

Gaur egun, literatura digitala hedatu egin da, neurri handi batean gailu eramangarrien garapenari esker (smartphone, irakurgailu elektronikoak, ordenagailu eramangarriak). Honek liburu elektronikoen formatu ugari agertzea ekarri du. Saia gaitezen haien ezaugarriak ulertzen eta haietako ezagunenen historia kontatzen - has gaitezen DjVu formatuarekin.

Liburu elektronikoak eta haien formatuak: DjVu - bere historia, alde onak, txarrak eta ezaugarriak
/flickr/ Lane Pearman / CC

Formatuaren agerpena

DjVu 1996an garatu zen AT&T Labs-ek helburu batekin: web garatzaileei bereizmen handiko irudiak Interneten banatzeko tresna bat eskaintzea.

Kontua da garai hartan informazio guztiaren %90 oraindik dagoela gordeta zegoen paperean, eta dokumentu garrantzitsu askok koloretako irudiak eta argazkiak zituzten. Testuaren irakurgarritasuna eta irudien kalitatea mantentzeko, bereizmen handiko eskaneatzea beharrezkoa zen.

Web formatu klasikoek - JPEG, GIF eta PNG - horrelako irudiekin lan egitea posible egin zuten, baina bolumenaren kostuarekin. JPEG kasuan, testua izan dadin irakurri zen monitorearen pantailan, dokumentua 300 ppp-ko bereizmenarekin eskaneatu behar izan nuen. Aldizkariaren koloretako orrialde batek 500 KB inguru hartzen zuen. Tamaina horretako fitxategiak Internetetik deskargatzea nahiko lan-prozesua zen garai hartan.

Alternatiba paperezko dokumentuak OCR teknologiak erabiliz digitalizatzea zen, baina duela 20 urte haien zehaztasuna oso urrun zegoen: prozesatu ondoren, azken emaitza eskuz serio editatu behar zen. Aldi berean, grafikoak eta irudiak "bordean" geratu ziren. Eta eskaneatutako irudi bat testu-dokumentu batean txertatzea posible bazen ere, ikusizko xehetasun batzuk galdu ziren, adibidez, paperaren kolorea, bere ehundura, eta dokumentu historikoen osagai garrantzitsuak dira.

Arazo hauek konpontzeko, AT&T-k DjVu garatu zuen. Eskaneatutako koloretako dokumentuak 300 ppp bereizmenarekin 40-60 KB-ra konprimitzea ahalbidetu zuen, 25 MB-ko jatorrizko tamainarekin. DjVuk zuri-beltzeko orrialdeen tamaina 10-30 KBra murriztu zuen.

DjVuk dokumentuak nola konprimitzen dituen

DjVuk eskaneatutako paperezko dokumentuekin eta beste formatu digital batzuekin lan egin dezake, hala nola PDFarekin. DjVu-k nola funtzionatzen duen dago irudia hiru osagaitan banatzen duen teknologia: lehen planoa, atzeko planoa eta zuri-beltzeko (bit) maskara.

Maskara jatorrizko fitxategiaren bereizmenean gordetzen da eta dauka testuaren eta beste xehetasun argien irudia (lerro finak eta diagramak) eta baita irudi kontrastatuak ere.

300 ppp-ko bereizmena du marra finak eta letren eskema zorrotzak mantentzeko, eta JB2 algoritmoa erabiliz konprimitzen da, hau da, faxak bidaltzeko AT&T-ren JBIG2 algoritmoaren aldaera bat da. JB2ren ezaugarria da egiten duena da orrialdean karaktere bikoiztuak bilatzen ditu eta haien irudia behin bakarrik gordetzen du. Hortaz, orrialde anitzeko dokumentuetan, jarraian orrialde gutxi bakoitzean "hiztegi" komun bat partekatzen da.

Atzeko planoak orriaren eta ilustrazioen ehundura ditu, eta bere bereizmena maskararena baino txikiagoa da. Galerarik gabeko atzeko planoa 100 ppp-tan gordetzen da.

lehen planoan mantentzen du maskarari buruzko kolore-informazioa, eta bere bereizmena are gehiago murrizten da normalean, kasu gehienetan testuaren kolorea beltza eta berdina baita inprimatutako karaktere baterako. Lehen planoa eta atzeko planoa konprimitzeko erabiltzen da uhin-konpresioa.

DjVu dokumentu bat sortzeko azken etapa entropia kodetzea da, kodetzaile aritmetiko moldagarri batek karaktere berdinen sekuentziak balio bitar bihurtzen dituenean.

Formatuaren abantailak

DjVuren zeregina zen atxikitzen Paperezko dokumentu baten "propietateak" forma digitalean, ordenagailu ahulei ere dokumentu horiekin lan egiteko aukera emanez. Hori dela eta, DjVu fitxategiak ikusteko softwareak "bizkorra errendatzeko" gaitasuna du. Eskerrak bere oroimenean kargatzen pantailan agertu behar den DjVu orriaren zati hori bakarrik.

Honek, gainera, "deskargatu gabeko" fitxategiak ikusteko aukera ematen du, hau da, orrialde anitzeko DjVu dokumentu baten orrialde indibidualak. Kasu honetan, irudien xehetasunen marrazketa progresiboa erabiltzen da, osagaiak fitxategia deskargatu ahala "agertzen" direla dirudienean (JPEG-n bezala).

Duela 20 urte, formatu hau sartu zenean, orria hiru fasetan kargatu zen: lehenik testu osagaia kargatu zen, segundo pare baten ondoren irudien lehen bertsioak eta atzeko planoa kargatu ziren. Ondoren, liburuaren orrialde osoa "agertu zen".

Hiru mailatako egitura egoteak, halaber, eskaneatutako liburuetan bilaketak egiteko aukera ematen du (testu geruza berezi bat baitago). Hau erosoa izan zen literatura teknikoarekin eta erreferentzia-liburuekin lan egitean, beraz, DjVu liburu zientifikoen hainbat liburutegiren oinarri bihurtu zen. Esaterako, 2002an aukeratu zuten Interneteko artxiboa Eskaneatutako liburuak iturri irekietatik gordetzeko proiektu baten formatuetako bat bezala (TIFF eta PDFekin batera).

Formatuaren desabantailak

Hala ere, teknologia guztiek bezala, DjVuk bere eragozpenak ditu. Esate baterako, liburuen eskaneatzea DjVu formatuan kodetzean, dokumentuko karaktere batzuk itxuraz antzekoak diren beste batzuekin ordezkatu daitezke. Hau gehienetan β€œi” eta β€œn” letrekin gertatzen da, horregatik arazo hau jaso izena "yin arazoa". Ez da testuaren hizkuntzaren araberakoa eta, besteak beste, zenbakiei eta errepikatzen diren beste karaktere txikiei eragiten die.

Bere kausa JB2 kodetzailean karaktereen sailkapen akatsak dira. 10-20 piezako taldeetan "banatzen" da eta talde bakoitzerako ikur komunen hiztegia osatzen du. Hiztegiak letra eta zenbaki arrunten adibideak ditu, haien itxuraren orrialdeak eta koordenatuak dituztenak. DjVu liburu bat ikusten duzunean, hiztegiko karaktereak leku egokietan sartzen dira.

Horrek DjVu fitxategiaren tamaina murrizteko aukera ematen du, hala ere, bi letren pantailak bisualki antzekoak badira, kodetzaileak nahas ditzake edo berdin nahas ditzake. Batzuetan, dokumentu tekniko bateko formulen kalteak eragiten ditu. Arazo hau konpontzeko, konpresio algoritmoak alde batera utzi ditzakezu, baina honek liburuaren kopia digitalaren tamaina handituko du.

Formatuaren beste desabantaila bat da sistema eragile moderno askotan (mugikorretarako barne) lehenespenez onartzen ez dela. Hori dela eta, berarekin lan egiteko hirugarrenen instalatu behar duzu programak, hala nola, DjVuReader, WinDjView, Evince, etab. Hala ere, hemen ohartu nahi dut irakurle elektroniko batzuek (adibidez, ONYX BOOX) DjVu formatua onartzen dutela "kutxatik kanpo" - beharrezkoak diren aplikazioak dagoeneko instalatuta daudelako.

Bide batez, Android-en oinarritutako irakurleentzako aplikazioek zer gehiago egin dezaketen hitz egin dugu aurreko batean material.

Liburu elektronikoak eta haien formatuak: DjVu - bere historia, alde onak, txarrak eta ezaugarriak
Irakurlea ONYX BOOX Chronos

Beste formatu-arazo bat agertzen da DjVu dokumentuekin lan egiten denean gailu mugikorren pantaila txikietan - smartphone, tabletak, irakurgailuak. Batzuetan, DjVu fitxategiak liburu zabal baten eskaneatu moduan aurkezten dira, eta literatura profesionala eta laneko dokumentuak A4 formatuan izaten dira, beraz, irudia "mugitu" behar duzu informazioa bilatzeko.

Hala ere, ohartzen gara arazo hau ere konpondu daitekeela. Modurik errazena, noski, dokumentu bat beste formatu batean bilatzea da, baina aukera hori posible ez bada (adibidez, literatura tekniko ugari lan egin behar duzu DjVu-n), irakurgailu elektronikoak erabil ditzakezu. 9,7 eta 13,3 hazbete arteko diagonal handi batekin, dokumentu horiekin lan egiteko bereziki "neurri" dena.

Adibidez, ONYX BOOX linean horrelako gailuak daude Kronos ΠΈ MAX 2 (bide batez, irakurle eredu honen berrikuspena prestatu dugu, eta laster argitaratuko dugu gure blogean), eta gainera Ohar, 10,3 hazbeteko diagonala eta bereizmen handitua duen E Ink Mobius Carta pantaila duena. Horrelako gailuek jatorrizko tamainan ilustrazioen xehetasun guztiak lasai aztertzeko aukera ematen dute eta maiz hezkuntza edo literatura teknikoa irakurri behar dutenentzat egokiak dira. DjVu eta PDF fitxategiak ikusteko Erabilitako NEO Reader, letra-tipo digitalizatuen kontrastea eta lodiera doitzeko aukera ematen duena.

Formatuaren gabeziak izan arren, gaur egun DjVu literatura lanak β€œkontserbatzeko” formatu ezagunenetakoa izaten jarraitzen du. Hau da, neurri handi batean, izan ere da irekita, eta gaur egungo muga teknologiko batzuek teknologia eta garapen modernoek hura gainditzea ahalbidetzen dute.

Hurrengo materialetan liburu elektronikoko formatuen agerpenaren historiari eta haien lanaren ezaugarriei buruzko istorioa jarraituko dugu.

PS ONYX BOOX irakurgailuen hainbat multzo:



Iturria: www.habr.com

Gehitu iruzkin berria