Rafbækur og snið þeirra: DjVu - saga þess, kostir, gallar og eiginleikar

Snemma á áttunda áratugnum stjórnaði bandaríski rithöfundurinn Michael Hart ótakmarkaðan aðgang að Xerox Sigma 5 tölvu sem er uppsett við háskólann í Illinois. Til að nýta auðlindir vélarinnar vel ákvað hann að búa til fyrstu rafbókina, endurprenta sjálfstæðisyfirlýsingu Bandaríkjanna.

Í dag hafa stafrænar bókmenntir orðið útbreiddar, að miklu leyti þökk sé þróun færanlegra tækja (snjallsíma, rafrænna lesenda, fartölva). Þetta hefur leitt til þess að fjöldi rafbóka hefur komið til sögunnar. Við skulum reyna að skilja eiginleika þeirra og segja sögu þeirra vinsælustu - við skulum byrja á DjVu sniðinu.

Rafbækur og snið þeirra: DjVu - saga þess, kostir, gallar og eiginleikar
/Flickr/ Lane Pearman / CC

Tilkoma sniðsins

DjVu var þróað árið 1996 af AT&T Labs með einum tilgangi - að gefa vefhönnuðum tæki til að dreifa myndum í hárri upplausn yfir netið.

Staðreyndin er sú að á þeim tíma eru 90% allra upplýsinga kyrr var geymt á pappír og mörg mikilvæg skjöl voru með litmyndum og ljósmyndum. Til að viðhalda læsileika textans og gæðum myndanna var nauðsynlegt að gera háupplausnarskannanir.

Klassísk vefsnið - JPEG, GIF og PNG - gerðu það að verkum að hægt var að vinna með slíkar myndir, en á kostnað magns. Þegar um er að ræða JPEG, þannig að textinn var lesið á skjánum þurfti ég að skanna skjalið með 300 dpi upplausn. Litasíða tímaritsins tók um 500 KB. Að hlaða niður skrám af þessari stærð af netinu var töluvert vinnufrekt ferli á þeim tíma.

Valkosturinn var að stafræna pappírsskjöl með OCR tækni, en fyrir 20 árum var nákvæmni þeirra langt frá því að vera ákjósanleg - eftir vinnslu þurfti að handfæra lokaniðurstöðuna alvarlega. Á sama tíma var grafík og myndir áfram „fyrir borð“. Og jafnvel þótt hægt væri að fella skannaða mynd inn í textaskjal töpuðust einhver sjónræn smáatriði, til dæmis litur pappírsins, áferð hans og þetta eru mikilvægir þættir í sögulegum skjölum.

Til að leysa þessi vandamál þróaði AT&T DjVu. Það gerði það mögulegt að þjappa skönnuðum litskjölum með upplausninni 300 dpi í 40–60 KB, með upprunalegri stærð 25 MB. DjVu minnkaði stærð svarthvíta síðna í 10–30 KB.

Hvernig DjVu þjappar skjölum

DjVu getur unnið með bæði skönnuð pappírsskjöl og önnur stafræn snið, svo sem PDF. Hvernig DjVu virkar er tækni sem skiptir myndinni í þrjá þætti: forgrunn, bakgrunn og svarthvíta (bita) grímu.

Gríman er vistuð í upplausn upprunalegu skráarinnar og inniheldur mynd af texta og öðrum skýrum smáatriðum - fínum línum og skýringarmyndum - sem og andstæðum myndum.

Það er með 300 dpi upplausn til að halda fínum línum og bókstafsútlínum skörpum og er þjappað með JB2 reikniritinu, sem er afbrigði af JBIG2 reikniritinu frá AT&T fyrir faxsendingar. Eiginleiki JB2 er það sem það gerir er að það leitar að tvíteknum stöfum á síðunni og vistar myndina þeirra aðeins einu sinni. Þannig, í margra blaðsíðna skjölum, deila nokkrar blaðsíður í röð sameiginlegri „orðabók“.

Bakgrunnurinn inniheldur áferð síðunnar og myndskreytinga og upplausn hans er lægri en grímunnar. Taplausi bakgrunnurinn er vistaður í 100 dpi.

Forgrunn heldur litaupplýsingar um grímuna og upplausn hennar minnkar yfirleitt enn frekar þar sem textaliturinn er í flestum tilfellum svartur og sá sami fyrir einn útprentaðan staf. Notað til að þjappa forgrunni og bakgrunni bylgjuþjöppun.

Lokastigið við að búa til DjVu skjal er óreiðukóðun, þegar aðlagandi reiknikóðari breytir röð af eins stöfum í tvöfalt gildi.

Kostir sniðsins

Verkefni DjVu var spara „eiginleikar“ pappírsskjals á stafrænu formi, sem gerir jafnvel veikum tölvum kleift að vinna með slík skjöl. Þess vegna hefur hugbúnaður til að skoða DjVu skrár getu til að „hraða flutning“. Þökk sé henni í minningu hleðsla aðeins það stykki af DjVu síðunni sem ætti að birtast á skjánum.

Þetta gerir það einnig mögulegt að skoða „óniðurhalaðar“ skrár, það er einstakar síður í margra blaðsíðna DjVu skjali. Í þessu tilviki er stigvaxandi teikning af myndupplýsingum notuð þegar íhlutirnir virðast „birtast“ þegar skránni er hlaðið niður (eins og í JPEG).

Fyrir 20 árum síðan, þegar þetta snið var kynnt, var síðan hlaðið upp í þremur áföngum: fyrst var textahlutinn hlaðinn, eftir nokkrar sekúndur voru fyrstu útgáfur myndanna og bakgrunnurinn hlaðinn. Síðan „birtist“ öll síða bókarinnar.

Tilvist þriggja stiga uppbyggingar gerir þér einnig kleift að leita í gegnum skannaðar bækur (þar sem það er sérstakt textalag). Þetta reyndist þægilegt þegar unnið var með tæknibókmenntir og uppflettirit, svo DjVu varð grunnur að nokkrum vísindabókasöfnum. Til dæmis var hann fyrir valinu árið 2002 Netskjalasafn sem eitt af sniðunum (ásamt TIFF og PDF) fyrir verkefni til að varðveita skannaðar bækur frá opnum heimildum.

Ókostir sniðsins

Hins vegar, eins og öll tækni, hefur DjVu sína galla. Til dæmis, þegar skannaðar bækur eru kóðaðar í DjVu sniðið, getur verið að sumum stöfum í skjalinu sé skipt út fyrir aðra sem eru svipuð í útliti. Þetta gerist oftast með bókstöfunum "i" og "n", sem er ástæðan fyrir þessu vandamáli fékk heiti "yin vandamál". Það fer ekki eftir tungumáli textans og hefur meðal annars áhrif á tölur og aðra litla endurtekna stafi.

Orsök þess er stafaflokkunarvillur í JB2 kóðara. Það „skiptir“ skannanum í hópa með 10–20 stykki og myndar orðabók með algengum táknum fyrir hvern hóp. Í orðabókinni eru dæmi um algenga bókstafi og tölustafi með síðum og hnitum um útlit þeirra. Þegar þú skoðar DjVu bók er stafi úr orðabókinni sett inn á rétta staði.

Þetta gerir þér kleift að minnka stærð DjVu skráarinnar, en ef birtingar tveggja stafa eru svipaðar sjónrænt getur kóðarinn annað hvort ruglað þá eða villt þá fyrir það sama. Stundum leiðir þetta til skemmda á formúlum í tækniskjali. Til að leysa þetta vandamál geturðu hætt við þjöppunaralgrím, en það mun auka stærð stafræna eintaksins af bókinni.

Annar ókostur við sniðið er að það er ekki sjálfgefið stutt í mörgum nútíma stýrikerfum (þar á meðal farsíma). Þess vegna þarftu að setja upp þriðja aðila til að vinna með það forrit, eins og DjVuReader, WinDjView, Evince, osfrv. Hins vegar vil ég taka það fram að sumir rafrænir lesendur (til dæmis ONYX BOOX) styðja DjVu sniðið „út úr kassanum“ - þar sem nauðsynleg forrit eru þegar uppsett þar.

Við the vegur, við ræddum um hvað annað forrit fyrir Android-undirstaða lesendur geta gert í einu af fyrri efni.

Rafbækur og snið þeirra: DjVu - saga þess, kostir, gallar og eiginleikar
Lesandi ONYX BOOX Chronos

Annað sniðvandamál kemur upp þegar unnið er með DjVu skjöl á litlum skjám farsíma - snjallsíma, spjaldtölva, lesenda. Stundum eru DjVu skrár settar fram í formi skönnunar á bókaútbreiðslu og fagrit og vinnuskjöl eru oft á A4 sniði, þannig að þú þarft að „færa“ myndina í leit að upplýsingum.

Hins vegar tökum við fram að þetta vandamál er einnig hægt að leysa. Auðveldasta leiðin er auðvitað að leita að skjali á öðru sniði - en ef þessi valmöguleiki er ekki mögulegur (þarf t.d. að vinna með mikið magn af tækniritum í DjVu) þá er hægt að nota rafræna lesendur með stórum ská frá 9,7 til 13,3 tommu, sem sérstaklega "sniðin" til að vinna með slík skjöl.

Til dæmis, í ONYX BOOX línunni eru slík tæki Krónur и MAX 2 (við the vegur, við höfum undirbúið umsögn um þetta lesendalíkan og munum brátt birta það á blogginu okkar), og einnig Athugaðu, sem er með E Ink Mobius Carta skjá með 10,3 tommu ská og aukinni upplausn. Slík tæki gera þér kleift að skoða í rólegheitum allar upplýsingar um myndir í upprunalegri stærð og henta þeim sem þurfa oft að lesa fræðslu- eða tæknirit. Til að skoða DjVu og PDF skrár notað NEO Reader, sem gerir þér kleift að stilla birtuskil og þykkt stafrænna leturgerða.

Þrátt fyrir annmarka sniðsins er DjVu í dag enn eitt vinsælasta sniðið til að „varðveita“ bókmenntaverk. Þetta er að miklu leyti vegna þess að hann er opinn, og sumar tæknilegar takmarkanir í dag gera nútímatækni og þróun kleift að komast framhjá henni.

Í eftirfarandi efni munum við halda áfram sögunni um sögu tilkomu rafbókaforma og eiginleika vinnu þeirra.

PS Nokkur sett af ONYX BOOX lesendum:



Heimild: www.habr.com

Bæta við athugasemd