Librat elektronikë dhe formatet e tyre: DjVu - historia, të mirat, të këqijat dhe veçoritë e tij

Në fillim të viteve 70, shkrimtari amerikan Michael Hart arriti shkoj akses të pakufizuar në një kompjuter Xerox Sigma 5 të instaluar në Universitetin e Illinois. Për të shfrytëzuar mirë burimet e makinës, ai vendosi të krijonte librin e parë elektronik, duke ribotuar Deklaratën e Pavarësisë së SHBA-së.

Sot, literatura dixhitale është bërë e përhapur, kryesisht falë zhvillimit të pajisjeve portative (telefonat e mençur, e-lexuesit, laptopët). Kjo ka çuar në shfaqjen e një numri të madh të formateve të librave elektronikë. Le të përpiqemi të kuptojmë tiparet e tyre dhe të tregojmë historinë e më të njohurve prej tyre - le të fillojmë me formatin DjVu.

Librat elektronikë dhe formatet e tyre: DjVu - historia, të mirat, të këqijat dhe veçoritë e tij
/flickr/ Lane Pearman / CC

Shfaqja e formatit

DjVu u zhvillua në 1996 nga AT&T Labs me një qëllim - t'u japë zhvilluesve të uebit një mjet për shpërndarjen e imazheve me rezolucion të lartë në internet.

Fakti është se në atë kohë 90% e të gjithë informacionit është ende ishte ruajtur në letër, dhe shumë nga dokumentet e rëndësishme kishin imazhe dhe fotografi me ngjyra. Për të ruajtur lexueshmërinë e tekstit dhe cilësinë e fotografive, ishte e nevojshme të bëheshin skanime me rezolucion të lartë.

Formatet klasike të uebit - JPEG, GIF dhe PNG - bënë të mundur punën me imazhe të tilla, por me koston e vëllimit. Në rastin e JPEG, në mënyrë që teksti u lexua në ekranin e monitorit, më duhej të skanoja dokumentin me një rezolucion prej 300 dpi. Një faqe me ngjyra e revistës zinte rreth 500 KB. Shkarkimi i skedarëve të kësaj madhësie nga Interneti ishte një proces mjaft i mundimshëm në atë kohë.

Alternativa ishte dixhitalizimi i dokumenteve në letër duke përdorur teknologjitë OCR, por 20 vjet më parë saktësia e tyre ishte larg idealit - pas përpunimit, rezultati përfundimtar duhej të redakohej seriozisht me dorë. Në të njëjtën kohë, grafika dhe imazhet mbetën "jashtë bord". Dhe edhe nëse do të ishte e mundur të futej një imazh i skanuar në një dokument teksti, disa detaje vizuale humbën, për shembull, ngjyra e letrës, tekstura e saj dhe këto janë përbërës të rëndësishëm të dokumenteve historike.

Për të zgjidhur këto probleme, AT&T zhvilloi DjVu. Ai bëri të mundur kompresimin e dokumenteve me ngjyra të skanuara me një rezolucion prej 300 dpi në 40–60 KB, me një madhësi origjinale prej 25 MB. DjVu zvogëloi madhësinë e faqeve bardh e zi në 10–30 KB.

Si i kompreson DjVu dokumentet

DjVu mund të punojë si me dokumente letre të skanuara ashtu edhe me formate të tjera dixhitale, si PDF. Si funksionon DjVu është teknologji që ndan imazhin në tre komponentë: në plan të parë, sfond dhe maskë bardh e zi (bit).

Maska ruhet në rezolucionin e skedarit origjinal dhe ai përmban imazhi i tekstit dhe detaje të tjera të qarta - vija të holla dhe diagrame - si dhe fotografi të kundërta.

Ka një rezolucion prej 300 dpi për të mbajtur të mprehta linjat e imta dhe skicat e shkronjave, dhe është i ngjeshur duke përdorur algoritmin JB2, i cili është një variant i algoritmit JBIG2 të AT&T për dërgimin e faksit. Veçori e JB2 është ajo që bën është që kërkon karaktere të kopjuara në faqe dhe ruan imazhin e tyre vetëm një herë. Kështu, në dokumentet me shumë faqe, çdo disa faqe të njëpasnjëshme ndajnë një "fjalor" të përbashkët.

Sfondi përmban teksturën e faqes dhe ilustrimet, dhe rezolucioni i tij është më i ulët se ai i maskës. Sfondi pa humbje ruhet në 100 dpi.

Plani i parë mban informacioni i ngjyrave për maskën dhe rezolucioni i saj zakonisht zvogëlohet edhe më tej, pasi në shumicën e rasteve ngjyra e tekstit është e zezë dhe e njëjtë për një karakter të printuar. Përdoret për të kompresuar planin e parë dhe sfondin ngjeshja e valëzimit.

Faza e fundit e krijimit të një dokumenti DjVu është kodimi i entropisë, kur një kodues aritmetik adaptiv i kthen sekuencat e karaktereve identike në një vlerë binare.

Përparësitë e formatit

Detyra e DjVu ishte mbaj "Vetitë" e një dokumenti letre në formë dixhitale, duke lejuar që edhe kompjuterët e dobët të punojnë me dokumente të tilla. Prandaj, softueri për shikimin e skedarëve DjVu ka aftësinë për "përkthim të shpejtë". Falë saj në kujtim ngarkim vetëm ajo pjesë e faqes DjVu që duhet të shfaqet në ekran.

Kjo gjithashtu bën të mundur shikimin e skedarëve "të shkarkuar", domethënë faqet individuale të një dokumenti DjVu me shumë faqe. Në këtë rast, përdoret vizatimi progresiv i detajeve të imazhit, kur përbërësit duket se "shfaqen" kur skedari shkarkohet (si në JPEG).

20 vjet më parë, kur u prezantua ky format, faqja u ngarkua në tre faza: fillimisht u ngarkua komponenti i tekstit, pas disa sekondash u ngarkuan versionet e para të imazheve dhe sfondi. Më pas, e gjithë faqja e librit "u shfaq".

Prania e një strukture me tre nivele ju lejon gjithashtu të kërkoni nëpër libra të skanuar (pasi ka një shtresë të veçantë teksti). Kjo doli të jetë e përshtatshme kur punoni me literaturë teknike dhe libra referencë, kështu që DjVu u bë baza për disa biblioteka të librave shkencorë. Për shembull, në vitin 2002 ai u zgjodh Arkivi i Internetit si një nga formatet (së bashku me TIFF dhe PDF) për një projekt për ruajtjen e librave të skanuar nga burime të hapura.

Disavantazhet e formatit

Sidoqoftë, si të gjitha teknologjitë, DjVu ka të metat e veta. Për shembull, kur kodoni skanimet e librave në formatin DjVu, disa karaktere në dokument mund të zëvendësohen nga të tjerë që janë të ngjashëm në pamje. Kjo ndodh më shpesh me shkronjat "i" dhe "n", prandaj ky problem pranuar emri "problemi yin". Nuk varet nga gjuha e tekstit dhe prek, ndër të tjera, numrat dhe karakteret e tjera të vogla përsëritëse.

Shkaku i tij janë gabimet e klasifikimit të karaktereve në koduesin JB2. Ai "ndan" skanimet në grupe prej 10-20 pjesësh dhe formon një fjalor të simboleve të përbashkëta për secilin grup. Fjalori përmban shembuj të shkronjave dhe numrave të zakonshëm me faqe dhe koordinata të pamjes së tyre. Kur shikoni një libër DjVu, karakteret nga fjalori futen në vendet e duhura.

Kjo ju lejon të zvogëloni madhësinë e skedarit DjVu, megjithatë, nëse shfaqjet e dy shkronjave janë vizualisht të ngjashme, koduesi mund t'i ngatërrojë ato ose t'i gabojë për të njëjtën gjë. Ndonjëherë kjo çon në dëmtimin e formulave në një dokument teknik. Për të zgjidhur këtë problem, mund të braktisni algoritmet e kompresimit, por kjo do të rrisë madhësinë e kopjes dixhitale të librit.

Një tjetër disavantazh i formatit është se ai nuk mbështetet si parazgjedhje në shumë sisteme operative moderne (përfshirë ato celulare). Prandaj, për të punuar me të, duhet të instaloni një palë të tretë programet, si DjVuReader, WinDjView, Evince, etj. Megjithatë, këtu dua të vërej se disa lexues elektronikë (për shembull, ONYX BOOX) mbështesin formatin DjVu "jashtë kutisë" - pasi aplikacionet e nevojshme janë instaluar tashmë atje.

Nga rruga, ne folëm se çfarë tjetër mund të bëjnë aplikacionet për lexuesit e bazuar në Android në një nga të mëparshmet materiale.

Librat elektronikë dhe formatet e tyre: DjVu - historia, të mirat, të këqijat dhe veçoritë e tij
Kalorës ONYX BOOX Chronos

Një problem tjetër i formatit shfaqet kur punoni me dokumente DjVu në ekranet e vogla të pajisjeve celulare - telefonat inteligjentë, tabletët, lexuesit. Ndonjëherë skedarët DjVu paraqiten në formën e një skanimi të një përhapje libri, dhe literatura profesionale dhe dokumentet e punës janë shpesh në format A4, kështu që ju duhet të "lëvizni" imazhin në kërkim të informacionit.

Sidoqoftë, vërejmë se ky problem gjithashtu mund të zgjidhet. Mënyra më e lehtë, natyrisht, është të kërkoni një dokument në një format tjetër - por nëse ky opsion nuk është i mundur (për shembull, duhet të punoni me një sasi të madhe të literaturës teknike në DjVu), atëherë mund të përdorni lexues elektronikë me një diagonale të madhe nga 9,7 në 13,3 inç, e cila është "e përshtatur" posaçërisht për të punuar me dokumente të tilla.

Për shembull, në linjën ONYX BOOX pajisje të tilla janë Kronot и MAX 2 (nga rruga, ne kemi përgatitur një përmbledhje të këtij modeli lexues, dhe së shpejti do ta publikojmë në blogun tonë), dhe gjithashtu shënim, e cila ka një ekran E Ink Mobius Carta me diagonale 10,3 inç dhe rezolucion të rritur. Pajisjet e tilla ju lejojnë të shqyrtoni me qetësi të gjitha detajet e ilustrimeve në madhësinë e tyre origjinale dhe janë të përshtatshme për ata që shpesh duhet të lexojnë literaturë arsimore ose teknike. Për të parë skedarët DjVu dhe PDF përdoret NEO Reader, i cili ju lejon të rregulloni kontrastin dhe trashësinë e shkronjave të dixhitalizuara.

Pavarësisht mangësive të formatit, sot DjVu mbetet një nga formatet më të njohura për “ruajtjen” e veprave letrare. Kjo kryesisht për faktin se ai është hapur, dhe disa kufizime teknologjike sot lejojnë teknologjitë dhe zhvillimet moderne ta anashkalojnë atë.

Në materialet e mëposhtme do të vazhdojmë tregimin për historinë e shfaqjes së formateve të librave elektronikë dhe veçoritë e punës së tyre.

PS Disa grupe lexuesish ONYX BOOX:



Burimi: www.habr.com

Shto një koment