Էլեկտրոնային գրքեր և դրանց ձևաչափերը. DjVu - դրա պատմությունը, առավելությունները, թերությունները և առանձնահատկությունները

70-ականների սկզբին ամերիկացի գրող Մայքլ Հարթը կարողացավ ստացեք անսահմանափակ մուտք դեպի Xerox Sigma 5 համակարգիչ, որը տեղադրված է Իլինոյսի համալսարանում: Մեքենայի ռեսուրսները լավ օգտագործելու համար նա որոշեց ստեղծել առաջին էլեկտրոնային գիրքը՝ վերատպելով ԱՄՆ Անկախության հռչակագիրը։

Այսօր թվային գրականությունը լայն տարածում է գտել՝ մեծ մասամբ շարժական սարքերի (սմարթֆոններ, էլեկտրոնային ընթերցողներ, դյուրակիր համակարգիչներ) մշակման շնորհիվ։ Սա հանգեցրել է էլեկտրոնային գրքերի մեծ թվով ձևաչափերի առաջացմանը: Փորձենք հասկանալ դրանց առանձնահատկությունները և պատմել դրանցից ամենահայտնիների պատմությունը՝ սկսենք DjVu ձևաչափից։

Էլեկտրոնային գրքեր և դրանց ձևաչափերը. DjVu - դրա պատմությունը, առավելությունները, թերությունները և առանձնահատկությունները
/flickr/ Լեյն Փիրման / CC

Ձևաչափի առաջացումը

DjVu-ն մշակվել է 1996 թվականին AT&T Labs-ի կողմից մեկ նպատակով՝ վեբ ծրագրավորողներին տրամադրել գործիք՝ բարձր լուծաչափով պատկերներ ինտերնետում տարածելու համար:

Փաստն այն է, որ այդ ժամանակ ողջ տեղեկատվության 90%-ը դեռևս է պահվում էր թղթի վրա, և շատ կարևոր փաստաթղթեր ունեին գունավոր պատկերներ և լուսանկարներ: Տեքստի ընթեռնելիությունը և նկարների որակը պահպանելու համար անհրաժեշտ էր կատարել բարձր լուծաչափով սկաներ։

Դասական վեբ ձևաչափերը՝ JPEG, GIF և PNG, հնարավորություն տվեցին աշխատել նման պատկերների հետ, բայց ծավալի գնով: JPEG-ի դեպքում, որպեսզի տեքստը կարդացվել է մոնիտորի էկրանին ես ստիպված էի սկանավորել փաստաթուղթը 300 dpi լուծաչափով: Ամսագրի գունավոր էջը զբաղեցնում էր մոտ 500 ԿԲ: Ինտերնետից այս չափի ֆայլերի ներբեռնումն այն ժամանակ բավականին աշխատատար գործընթաց էր։

Այլընտրանքը թղթային փաստաթղթերի թվայնացումն էր՝ օգտագործելով OCR տեխնոլոգիաները, սակայն 20 տարի առաջ դրանց ճշգրտությունը հեռու էր իդեալականից. մշակումից հետո վերջնական արդյունքը պետք է լրջորեն խմբագրվեր ձեռքով: Միևնույն ժամանակ, գրաֆիկան և պատկերները մնացին «նախկինում»: Եվ եթե անգամ հնարավոր լիներ սկանավորված պատկերը ներդնել տեքստային փաստաթղթի մեջ, որոշ տեսողական մանրամասներ կորչում էին, օրինակ՝ թղթի գույնը, նրա հյուսվածքը, և դրանք պատմական փաստաթղթերի կարևոր բաղադրիչներն են:

Այս խնդիրները լուծելու համար AT&T-ն մշակեց DjVu-ն: Այն հնարավորություն տվեց սեղմել սկանավորված գունավոր փաստաթղթերը 300 dpi լուծաչափով մինչև 40–60 ԿԲ, բնօրինակը 25 ՄԲ չափով։ DjVu-ն նվազեցրեց սև և սպիտակ էջերի չափը մինչև 10–30 ԿԲ:

Ինչպես է DjVu-ն սեղմում փաստաթղթերը

DjVu-ն կարող է աշխատել ինչպես սկանավորված թղթային փաստաթղթերի, այնպես էլ այլ թվային ձևաչափերի, օրինակ՝ PDF-ի հետ: Ինչպես է աշխատում DjVu-ն է տեխնոլոգիա, որը պատկերը բաժանում է երեք բաղադրիչի՝ առաջին պլան, ֆոն և սև ու սպիտակ (բիթ) դիմակ:

Դիմակը պահվում է սկզբնական ֆայլի լուծաչափով և պարունակում է տեքստի պատկեր և այլ հստակ մանրամասներ՝ նուրբ գծեր և դիագրամներ, ինչպես նաև հակապատկեր նկարներ:

Այն ունի 300 dpi թույլտվություն՝ նուրբ գծերն ու տառերի ուրվագծերը հստակ պահելու համար, և սեղմված է JB2 ալգորիթմի միջոցով, որը AT&T-ի JBIG2 ալգորիթմի տարբերակն է ֆաքսի համար: JB2-ի առանձնահատկությունը է Այն ինչ անում է, այն է, որ այն էջի վրա փնտրում է կրկնօրինակ նիշեր և պահպանում է նրանց պատկերը միայն մեկ անգամ: Այսպիսով, բազմաէջանոց փաստաթղթերում յուրաքանչյուր մի քանի հաջորդական էջ ունի ընդհանուր «բառարան»:

Ֆոնը պարունակում է էջի հյուսվածքը և նկարազարդումները, և դրա լուծումը ավելի ցածր է, քան դիմակինը: Անկորուստ ֆոնը պահվում է 100 dpi-ով:

Առաջին պլան պահում է գունային տեղեկատվությունը դիմակի մասին, և դրա լուծաչափը սովորաբար ավելի է նվազում, քանի որ շատ դեպքերում տեքստի գույնը սև է և նույնը մեկ տպագրված նիշի համար: Օգտագործվում է առաջին պլանը և հետին պլանը սեղմելու համար ալիքների սեղմում.

DjVu փաստաթղթի ստեղծման վերջին փուլը էնտրոպիայի կոդավորումն է, երբ հարմարվողական թվաբանական կոդավորիչը միանման նիշերի հաջորդականությունները վերածում է երկուական արժեքի:

Ձևաչափի առավելությունները

DjVu-ի խնդիրն էր փրկել Թղթային փաստաթղթի «հատկությունները» թվային ձևով, ինչը թույլ է տալիս նույնիսկ թույլ համակարգիչներին աշխատել նման փաստաթղթերի հետ: Հետևաբար, DjVu ֆայլերը դիտելու ծրագրակազմն ունի «արագ մատուցման» հնարավորություն: Նրա հիշատակի շնորհիվ բեռնում միայն DjVu էջի այն հատվածը, որը պետք է ցուցադրվի էկրանին:

Սա նաև հնարավորություն է տալիս դիտել «ներբեռնված» ֆայլերը, այսինքն՝ բազմաէջանոց DjVu փաստաթղթի առանձին էջերը: Այս դեպքում օգտագործվում է պատկերի մանրամասների պրոգրեսիվ գծագրում, երբ բաղադրիչները կարծես «հայտնվում են» ֆայլը ներբեռնելիս (ինչպես JPEG-ում):

20 տարի առաջ, երբ ներկայացվեց այս ձևաչափը, էջը բեռնվեց երեք փուլով. սկզբում բեռնվեց տեքստային բաղադրիչը, մի քանի վայրկյան անց բեռնվեցին պատկերների առաջին տարբերակները և ֆոնը։ Այնուհետև «հայտնվեց» գրքի ամբողջ էջը։

Երեք մակարդակի կառույցի առկայությունը թույլ է տալիս նաև որոնել սկանավորված գրքերում (քանի որ կա հատուկ տեքստային շերտ): Պարզվեց, որ սա հարմար է տեխնիկական գրականության և տեղեկատու գրքերի հետ աշխատելիս, ուստի DjVu-ն հիմք դարձավ գիտական ​​գրքերի մի քանի գրադարանների համար: Օրինակ՝ 2002թ Ինտերնետ արխիվ որպես ձևաչափերից մեկը (TIFF-ի և PDF-ի հետ միասին)՝ սկանավորված գրքերը բաց աղբյուրներից պահպանելու նախագծի համար:

Ձևաչափի թերությունները

Այնուամենայնիվ, ինչպես բոլոր տեխնոլոգիաները, DjVu-ն ունի իր թերությունները. Օրինակ՝ գրքերի սկանավորումները DjVu ձևաչափով կոդավորելիս փաստաթղթի որոշ նիշեր կարող են փոխարինվել արտաքին տեսքով նման այլ նիշերով: Ամենից հաճախ դա տեղի է ունենում «i» և «n» տառերի հետ, ինչի պատճառով էլ այս խնդիրը ստացել անունը «ին խնդիր»: Այն կախված չէ տեքստի լեզվից և ազդում է, ի թիվս այլ բաների, թվերի և այլ փոքր կրկնվող նիշերի վրա:

Դրա պատճառը JB2 կոդավորիչում նիշերի դասակարգման սխալներն են: Այն «բաժանում» է սկանավորումները 10–20 մասերից բաղկացած խմբերի և յուրաքանչյուր խմբի համար կազմում ընդհանուր նշանների բառարան: Բառարանը պարունակում է սովորական տառերի և թվերի օրինակներ՝ էջերով և դրանց արտաքին տեսքի կոորդինատներով: Երբ դիտում եք DjVu գիրքը, բառարանի նիշերը տեղադրվում են ճիշտ տեղերում:

Սա թույլ է տալիս նվազեցնել DjVu ֆայլի չափը, սակայն, եթե երկու տառերի ցուցադրումները տեսողականորեն նման են, կոդավորիչը կարող է կամ շփոթել դրանք, կամ շփոթել դրանք նույնի հետ: Երբեմն դա հանգեցնում է տեխնիկական փաստաթղթի բանաձևերի վնասմանը: Այս խնդիրը լուծելու համար դուք կարող եք հրաժարվել սեղմման ալգորիթմներից, բայց դա կմեծացնի գրքի թվային օրինակի չափը:

Ձևաչափի մեկ այլ թերությունն այն է, որ այն լռելյայն չի աջակցվում շատ ժամանակակից օպերացիոն համակարգերում (ներառյալ շարժականները): Հետևաբար, դրա հետ աշխատելու համար անհրաժեշտ է տեղադրել երրորդ կողմ ծրագրեր, ինչպիսիք են DjVuReader-ը, WinDjView-ը, Evince-ը և այլն: Այնուամենայնիվ, այստեղ կցանկանայի նշել, որ որոշ էլեկտրոնային ընթերցողներ (օրինակ՝ ONYX BOOX) աջակցում են DjVu ձևաչափին «դուրս տուփից», քանի որ այնտեղ արդեն տեղադրված են անհրաժեշտ հավելվածները:

Ի դեպ, մենք խոսեցինք այն մասին, թե էլ ինչ կարող են անել Android-ի վրա հիմնված ընթերցողների համար նախատեսված հավելվածները նախորդներից մեկում նյութեր.

Էլեկտրոնային գրքեր և դրանց ձևաչափերը. DjVu - դրա պատմությունը, առավելությունները, թերությունները և առանձնահատկությունները
Ընթերցող ONYX BOOX Chronos

Մեկ այլ ձևաչափի խնդիր է առաջանում DjVu փաստաթղթերի հետ աշխատելիս բջջային սարքերի փոքր էկրանների վրա՝ սմարթֆոններ, պլանշետներ, ընթերցողներ: Երբեմն DjVu ֆայլերը ներկայացվում են գրքի տարածման սկանավորման տեսքով, իսկ մասնագիտական ​​գրականությունը և աշխատանքային փաստաթղթերը հաճախ A4 ձևաչափով են, այնպես որ դուք պետք է «տեղափոխեք» պատկերը տեղեկատվություն փնտրելու համար:

Սակայն մենք նշում ենք, որ այս խնդիրը նույնպես կարող է լուծվել։ Ամենահեշտ ձևը, իհարկե, այլ ձևաչափով փաստաթուղթ փնտրելն է, բայց եթե այս տարբերակը հնարավոր չէ (օրինակ, դուք պետք է աշխատեք մեծ քանակությամբ տեխնիկական գրականության հետ DjVu-ում), ապա կարող եք օգտագործել էլեկտրոնային ընթերցողներ: 9,7-ից 13,3 դյույմ մեծ անկյունագծով, որը հատուկ «հարմարեցված» է նման փաստաթղթերի հետ աշխատելու համար։

Օրինակ, ONYX BOOX շարքում նման սարքեր են Քրոնոսը и MAX 2 (ի դեպ, մենք պատրաստել ենք այս ընթերցող մոդելի ակնարկը և շուտով կհրապարակենք մեր բլոգում), և նաև Նշում, որն ունի E Ink Mobius Carta էկրան՝ 10,3 դյույմ անկյունագծով և բարձրացված թողունակությամբ։ Նման սարքերը թույլ են տալիս հանգիստ ուսումնասիրել նկարազարդումների բոլոր մանրամասները իրենց սկզբնական չափերով և հարմար են նրանց համար, ովքեր հաճախ ստիպված են կարդալ ուսումնական կամ տեխնիկական գրականություն: DjVu և PDF ֆայլեր դիտելու համար օգտագործվում է NEO Reader, որը թույլ է տալիս կարգավորել թվայնացված տառատեսակների հակադրությունն ու հաստությունը:

Չնայած ձևաչափի թերություններին, այսօր DjVu-ն շարունակում է մնալ գրական ստեղծագործությունների «պահպանման» ամենատարածված ձևաչափերից մեկը։ Սա մեծապես պայմանավորված է նրանով, որ նա է բաց, և որոշ տեխնոլոգիական սահմանափակումներ այսօր թույլ են տալիս ժամանակակից տեխնոլոգիաներին և զարգացումներին շրջանցել այն:

Հետևյալ նյութերում կշարունակենք պատմությունը էլեկտրոնային գրքերի ձևաչափերի առաջացման պատմության և դրանց աշխատանքի առանձնահատկությունների մասին։

PS ONYX BOOX ընթերցողների մի քանի հավաքածու.



Source: www.habr.com

Добавить комментарий