E-lyfrau a'u fformatau: DjVu - ei hanes, manteision, anfanteision a nodweddion

Yn y 70au cynnar, roedd yr awdur Americanaidd Michael Hart yn rheoli ewch mynediad diderfyn i gyfrifiadur Xerox Sigma 5 sydd wedi'i osod ym Mhrifysgol Illinois. Er mwyn gwneud defnydd da o adnoddau'r peiriant, penderfynodd greu'r llyfr electronig cyntaf, gan ailargraffu Datganiad Annibyniaeth yr Unol Daleithiau.

Heddiw, mae llenyddiaeth ddigidol wedi dod yn eang, yn bennaf diolch i ddatblygiad dyfeisiau cludadwy (ffonau clyfar, e-ddarllenwyr, gliniaduron). Mae hyn wedi arwain at ymddangosiad nifer fawr o fformatau e-lyfrau. Gadewch i ni geisio deall eu nodweddion a dweud hanes y mwyaf poblogaidd ohonyn nhw - gadewch i ni ddechrau gyda'r fformat DjVu.

E-lyfrau a'u fformatau: DjVu - ei hanes, manteision, anfanteision a nodweddion
/Flickr/ Lane Pearman / CC

Ymddangosiad y fformat

Datblygwyd DjVu ym 1996 gan AT&T Labs gydag un pwrpas - i roi offeryn i ddatblygwyr gwe ddosbarthu delweddau cydraniad uchel dros y Rhyngrwyd.

Y ffaith yw bod ar y pryd 90% o'r holl wybodaeth yn dal i fod ei storio ar bapur, ac roedd gan lawer o'r dogfennau pwysig ddelweddau lliw a ffotograffau. Er mwyn cynnal darllenadwyedd y testun ac ansawdd y lluniau, roedd angen gwneud sganiau cydraniad uchel.

Roedd fformatau gwe clasurol - JPEG, GIF a PNG - yn ei gwneud hi'n bosibl gweithio gyda delweddau o'r fath, ond ar gost cyfaint. Yn achos JPEG, fel bod y testun ei ddarllen ar sgrin y monitor, roedd yn rhaid i mi sganio'r ddogfen gyda phenderfyniad o 300 dpi. Roedd tudalen liw o'r cylchgrawn yn cynnwys tua 500 KB. Roedd lawrlwytho ffeiliau o'r maint hwn o'r Rhyngrwyd yn broses eithaf llafurddwys bryd hynny.

Y dewis arall oedd digideiddio dogfennau papur gan ddefnyddio technolegau OCR, ond 20 mlynedd yn ôl roedd eu cywirdeb ymhell o fod yn ddelfrydol - ar ôl prosesu, roedd yn rhaid golygu'r canlyniad terfynol â llaw o ddifrif. Ar yr un pryd, arhosodd graffeg a delweddau “dros ben llestri”. A hyd yn oed pe bai'n bosibl ymgorffori delwedd wedi'i sganio mewn dogfen destun, collwyd rhai manylion gweledol, er enghraifft, lliw y papur, ei wead, ac mae'r rhain yn gydrannau pwysig o ddogfennau hanesyddol.

Er mwyn datrys y problemau hyn, datblygodd AT&T DjVu. Gwnaeth hi'n bosibl cywasgu dogfennau lliw wedi'u sganio gyda chydraniad o 300 dpi i 40-60 KB, gyda maint gwreiddiol o 25 MB. Fe wnaeth DjVu leihau maint tudalennau du a gwyn i 10–30 KB.

Sut mae DjVu yn cywasgu dogfennau

Gall DjVu weithio gyda dogfennau papur wedi'u sganio a fformatau digidol eraill, fel PDF. Sut mae DjVu yn gweithio yn technoleg sy'n rhannu'r ddelwedd yn dair cydran: blaendir, cefndir a mwgwd du a gwyn (did).

Mae'r mwgwd yn cael ei gadw ar gydraniad y ffeil wreiddiol a yn cynnwys delwedd testun a manylion clir eraill - llinellau mân a diagramau - yn ogystal â lluniau cyferbyniol.

Mae ganddo gydraniad o 300 dpi i gadw llinellau mân ac amlinelliadau llythyrau yn sydyn, ac mae wedi'i gywasgu gan ddefnyddio algorithm JB2, sy'n amrywiad o algorithm JBIG2 AT&T ar gyfer ffacsio. Nodwedd JB2 yn yr hyn y mae'n ei wneud yw ei fod yn edrych am nodau dyblyg ar y dudalen ac yn arbed eu delwedd unwaith yn unig. Felly, mewn dogfennau aml-dudalen, mae pob ychydig dudalennau olynol yn rhannu “geiriadur” cyffredin.

Mae'r cefndir yn cynnwys gwead y dudalen a'r darluniau, ac mae ei gydraniad yn is na'r mwgwd. Mae'r cefndir di-golled yn cael ei arbed ar 100 dpi.

blaendir yn cadw gwybodaeth lliw am y mwgwd, ac mae ei benderfyniad fel arfer yn cael ei leihau hyd yn oed ymhellach, oherwydd yn y rhan fwyaf o achosion mae lliw'r testun yn ddu ac yr un peth ar gyfer un cymeriad printiedig. Fe'i defnyddir i gywasgu'r blaendir a'r cefndir cywasgu tonfedd.

Cam olaf creu dogfen DjVu yw amgodio entropi, pan fydd amgodiwr rhifyddeg addasol yn troi dilyniannau o nodau unfath yn werth deuaidd.

Manteision y fformat

Gorchwyl DjVu oedd arbed “eiddo” dogfen bapur ar ffurf ddigidol, gan ganiatáu hyd yn oed cyfrifiaduron gwan i weithio gyda dogfennau o'r fath. Felly, mae gan feddalwedd ar gyfer gwylio ffeiliau DjVu y gallu i “rendro cyflym”. Diolch iddi er cof llwytho dim ond y darn hwnnw o'r dudalen DjVu y dylid ei arddangos ar y sgrin.

Mae hyn hefyd yn ei gwneud hi'n bosibl gweld ffeiliau "heb eu lawrlwytho", hynny yw, tudalennau unigol dogfen DjVu aml-dudalen. Yn yr achos hwn, defnyddir lluniadu cynyddol o fanylion delwedd, pan ymddengys bod y cydrannau'n "ymddangos" wrth i'r ffeil gael ei lawrlwytho (fel yn JPEG).

20 mlynedd yn ôl, pan gyflwynwyd y fformat hwn, llwythwyd y dudalen mewn tri cham: yn gyntaf llwythwyd y gydran testun, ar ôl ychydig eiliadau llwythwyd fersiynau cyntaf y delweddau a'r cefndir. Wedi hynny, ymddangosodd tudalen gyfan y llyfr.

Mae presenoldeb strwythur tair lefel hefyd yn caniatáu ichi chwilio trwy lyfrau wedi'u sganio (gan fod haen destun arbennig). Trodd hyn allan i fod yn gyfleus wrth weithio gyda llenyddiaeth dechnegol a chyfeirlyfrau, felly daeth DjVu yn sail i sawl llyfrgell o lyfrau gwyddonol. Er enghraifft, yn 2002 fe'i dewiswyd Archif Rhyngrwyd fel un o'r fformatau (ynghyd â TIFF a PDF) ar gyfer prosiect i gadw llyfrau wedi'u sganio o ffynonellau agored.

Anfanteision y fformat

Fodd bynnag, fel pob technoleg, mae gan DjVu ei anfanteision. Er enghraifft, wrth amgodio sganiau o lyfrau i fformat DjVu, efallai y bydd rhai nodau yn y ddogfen yn cael eu disodli gan rai sy'n debyg o ran ymddangosiad. Mae hyn yn digwydd amlaf gyda'r llythrennau “i” ac “n”, a dyna pam y broblem hon a dderbyniwyd enw "problem yin". Nid yw'n dibynnu ar iaith y testun ac mae'n effeithio, ymhlith pethau eraill, ar rifau a chymeriadau bach eraill sy'n ailadrodd.

Ei achos yw gwallau dosbarthu nodau yn yr amgodiwr JB2. Mae’n “rhannu” sganiau yn grwpiau o 10–20 darn ac yn ffurfio geiriadur o symbolau cyffredin ar gyfer pob grŵp. Mae'r geiriadur yn cynnwys enghreifftiau o lythrennau a rhifau cyffredin gyda thudalennau a chyfesurynnau eu hymddangosiad. Pan fyddwch chi'n edrych ar lyfr DjVu, mae cymeriadau o'r geiriadur yn cael eu mewnosod yn y lleoedd cywir.

Mae hyn yn caniatáu ichi leihau maint y ffeil DjVu, fodd bynnag, os yw arddangosiadau dwy lythyren yn debyg yn weledol, gall yr amgodiwr naill ai eu drysu neu eu camgymryd am yr un peth. Weithiau mae hyn yn arwain at ddifrod i fformiwlâu mewn dogfen dechnegol. I ddatrys y broblem hon, gallwch chi roi'r gorau i algorithmau cywasgu, ond bydd hyn yn cynyddu maint y copi digidol o'r llyfr.

Anfantais arall y fformat yw nad yw'n cael ei gefnogi yn ddiofyn mewn llawer o systemau gweithredu modern (gan gynnwys rhai symudol). Felly, i weithio gydag ef mae angen i chi osod trydydd parti rhaglenni, megis DjVuReader, WinDjView, Evince, ac ati Fodd bynnag, yma hoffwn nodi bod rhai darllenwyr electronig (er enghraifft, ONYX BOOX) yn cefnogi fformat DjVu “allan o'r bocs” - gan fod y cymwysiadau angenrheidiol eisoes wedi'u gosod yno.

Gyda llaw, buom yn siarad am beth arall y gall cymwysiadau ar gyfer darllenwyr Android ei wneud yn un o'r rhai blaenorol deunyddiau.

E-lyfrau a'u fformatau: DjVu - ei hanes, manteision, anfanteision a nodweddion
Darllenydd ONYX BOOX Chronos

Mae problem fformat arall yn ymddangos wrth weithio gyda dogfennau DjVu ar sgriniau bach o ddyfeisiau symudol - ffonau smart, tabledi, darllenwyr. Weithiau cyflwynir ffeiliau DjVu ar ffurf sgan o ledaeniad llyfr, ac mae llenyddiaeth broffesiynol a dogfennau gwaith yn aml mewn fformat A4, felly mae'n rhaid i chi "symud" y ddelwedd i chwilio am wybodaeth.

Fodd bynnag, rydym yn nodi y gellir datrys y broblem hon hefyd. Y ffordd hawsaf, wrth gwrs, yw chwilio am ddogfen mewn fformat gwahanol - ond os nad yw'r opsiwn hwn yn bosibl (er enghraifft, mae angen i chi weithio gyda llawer iawn o lenyddiaeth dechnegol yn DjVu), yna gallwch chi ddefnyddio darllenwyr electronig gyda chroeslin fawr o 9,7 i 13,3 modfedd, a oedd yn “teilwra” yn arbennig ar gyfer gweithio gyda dogfennau o'r fath.

Er enghraifft, yn llinell ONYX BOOX mae dyfeisiau o'r fath Chronos и MAX 2 (gyda llaw, rydym wedi paratoi adolygiad o'r model darllenydd hwn, a byddwn yn ei gyhoeddi ar ein blog yn fuan), a hefyd Nodyn, sydd â sgrin E Ink Mobius Carta gyda chroeslin o 10,3 modfedd a datrysiad uwch. Mae dyfeisiau o'r fath yn caniatáu ichi archwilio'n dawel holl fanylion darluniau yn eu maint gwreiddiol ac maent yn addas ar gyfer y rhai sy'n aml yn gorfod darllen llenyddiaeth addysgol neu dechnegol. I weld ffeiliau DjVu a PDF yn cael ei ddefnyddio Darllenydd NEO, sy'n eich galluogi i addasu cyferbyniad a thrwch ffontiau digidol.

Er gwaethaf diffygion y fformat, heddiw DjVu yw un o'r fformatau mwyaf poblogaidd ar gyfer “cadw” gweithiau llenyddol. Mae hyn yn bennaf oherwydd y ffaith ei fod ef yn agored, ac mae rhai cyfyngiadau technolegol heddiw yn caniatáu i dechnolegau a datblygiadau modern ei osgoi.

Yn y deunyddiau canlynol byddwn yn parhau â'r stori am hanes ymddangosiad fformatau e-lyfrau a nodweddion eu gwaith.

PS Sawl set o ddarllenwyr ONYX BOOX:



Ffynhonnell: hab.com

Ychwanegu sylw