الكتب الإلكترونية وتنسيقاتها: DjVu - تاريخها وإيجابياتها وسلبياتها وميزاتها

في أوائل السبعينيات، نجح الكاتب الأمريكي مايكل هارت الحصول على وصول غير محدود إلى كمبيوتر Xerox Sigma 5 المثبت في جامعة إلينوي. ومن أجل الاستفادة من موارد الآلة، قرر إنشاء أول كتاب إلكتروني، يعيد طباعة إعلان استقلال الولايات المتحدة.

اليوم، أصبح الأدب الرقمي واسع الانتشار، ويرجع الفضل في ذلك إلى حد كبير إلى تطور الأجهزة المحمولة (الهواتف الذكية، وأجهزة القراءة الإلكترونية، وأجهزة الكمبيوتر المحمولة). وقد أدى ذلك إلى ظهور عدد كبير من تنسيقات الكتب الإلكترونية. دعونا نحاول فهم ميزاتها وسرد تاريخ أشهرها - لنبدأ بتنسيق DjVu.

الكتب الإلكترونية وتنسيقاتها: DjVu - تاريخها وإيجابياتها وسلبياتها وميزاتها
/ فليكر / لين بيرمان / CC

ظهور الشكل

تم تطوير DjVu في عام 1996 بواسطة AT&T Labs لغرض واحد - وهو منح مطوري الويب أداة لتوزيع الصور عالية الدقة عبر الإنترنت.

والحقيقة هي أنه في ذلك الوقت 90٪ من جميع المعلومات لا تزال موجودة تم تخزينه على الورق، وكان العديد من الوثائق المهمة تحتوي على صور وصور فوتوغرافية ملونة. وللحفاظ على سهولة قراءة النص وجودة الصور، كان من الضروري إجراء عمليات مسح ضوئي عالية الدقة.

أتاحت تنسيقات الويب الكلاسيكية - JPEG وGIF وPNG - العمل مع مثل هذه الصور، ولكن على حساب الحجم. في حالة JPEG، بحيث يكون النص تمت قراءته على شاشة المراقبة، اضطررت إلى مسح المستند بدقة 300 نقطة في البوصة. احتلت الصفحة الملونة للمجلة حوالي 500 كيلو بايت. كان تنزيل ملفات بهذا الحجم من الإنترنت عملية كثيفة العمالة في ذلك الوقت.

كان البديل هو رقمنة المستندات الورقية باستخدام تقنيات التعرف الضوئي على الحروف، ولكن قبل 20 عامًا كانت دقتها بعيدة عن المثالية - بعد المعالجة، كان لا بد من تحرير النتيجة النهائية يدويًا بجدية. وفي الوقت نفسه، ظلت الرسومات والصور "في الخارج". وحتى لو كان من الممكن تضمين صورة ممسوحة ضوئيًا في مستند نصي، فقد تم فقدان بعض التفاصيل المرئية، على سبيل المثال، لون الورقة وملمسها، وهذه مكونات مهمة للوثائق التاريخية.

من أجل حل هذه المشاكل، قامت AT&T بتطوير DjVu. لقد جعل من الممكن ضغط المستندات الملونة الممسوحة ضوئيًا بدقة 300 نقطة في البوصة إلى 40-60 كيلو بايت، بحجم أصلي يبلغ 25 ميجابايت. قام DjVu بتقليل حجم الصفحات بالأبيض والأسود إلى 10-30 كيلو بايت.

كيف يقوم برنامج DjVu بضغط المستندات

يستطيع DjVu العمل مع المستندات الورقية الممسوحة ضوئيًا والتنسيقات الرقمية الأخرى، مثل PDF. كيف يعمل ديجيفو هو تقنية تقسم الصورة إلى ثلاثة مكونات: المقدمة والخلفية وقناع أبيض وأسود (بت).

يتم حفظ القناع بدقة الملف الأصلي و أنه يحتوي على صورة النص والتفاصيل الواضحة الأخرى - الخطوط الدقيقة والرسوم البيانية - بالإضافة إلى الصور المتناقضة.

تبلغ دقتها 300 نقطة في البوصة للحفاظ على الخطوط الدقيقة وخطوط الحروف واضحة، ويتم ضغطها باستخدام خوارزمية JB2، وهي عبارة عن اختلاف في خوارزمية JBIG2 الخاصة بشركة AT&T لإرسال الفاكس. مميزات JB2 هو ما يفعله هو أنه يبحث عن الأحرف المكررة في الصفحة ويحفظ صورتها مرة واحدة فقط. وهكذا، في المستندات متعددة الصفحات، تشترك كل بضع صفحات متتالية في "قاموس" مشترك.

تحتوي الخلفية على نسيج الصفحة والرسوم التوضيحية، وتكون دقتها أقل من دقة القناع. يتم حفظ الخلفية بدون فقدان بدقة 100 نقطة في البوصة.

المقدمة يحافظ معلومات اللون حول القناع، وعادةً ما يتم تقليل دقتها بشكل أكبر، نظرًا لأن لون النص في معظم الحالات يكون أسودًا وهو نفس اللون بالنسبة لشخصية مطبوعة واحدة. يستخدم لضغط المقدمة والخلفية ضغط المويجات.

المرحلة الأخيرة من إنشاء مستند DjVu هي تشفير الإنتروبيا، عندما يقوم برنامج التشفير الحسابي التكيفي بتحويل تسلسلات الأحرف المتماثلة إلى قيمة ثنائية.

مزايا التنسيق

وكانت مهمة ديجيفو حفظ "خصائص" المستند الورقي في شكل رقمي، مما يسمح حتى لأجهزة الكمبيوتر الضعيفة بالعمل مع مثل هذه المستندات. ولذلك، فإن برنامج عرض ملفات DjVu لديه القدرة على "العرض السريع". شكرا لها في الذاكرة جار التحميل فقط تلك القطعة من صفحة DjVu التي يجب عرضها على الشاشة.

وهذا يجعل من الممكن أيضًا عرض الملفات "التي لم يتم تنزيلها"، أي الصفحات الفردية لمستند DjVu متعدد الصفحات. في هذه الحالة، يتم استخدام الرسم التدريجي لتفاصيل الصورة، عندما تبدو المكونات "تظهر" أثناء تنزيل الملف (كما في JPEG).

قبل 20 عامًا، عندما تم تقديم هذا التنسيق، تم تحميل الصفحة على ثلاث مراحل: أولاً تم تحميل مكون النص، وبعد بضع ثوانٍ تم تحميل الإصدارات الأولى من الصور والخلفية. وبعد ذلك "ظهرت" صفحة الكتاب بأكملها.

يتيح لك وجود بنية ثلاثية المستويات أيضًا البحث في الكتب الممسوحة ضوئيًا (حيث توجد طبقة نصية خاصة). تبين أن هذا مناسب عند العمل مع الأدبيات الفنية والكتب المرجعية، لذلك أصبح DjVu الأساس للعديد من مكتبات الكتب العلمية. على سبيل المثال، في عام 2002 تم اختياره أرشيف الإنترنت كأحد التنسيقات (مع TIFF وPDF) لمشروع الحفاظ على الكتب الممسوحة ضوئيًا من المصادر المفتوحة.

عيوب التنسيق

ومع ذلك، مثل جميع التقنيات، فإن DjVu له عيوبه. على سبيل المثال، عند ترميز النسخ الممسوحة ضوئيًا من الكتب بتنسيق DjVu، قد يتم استبدال بعض الأحرف الموجودة في المستند بأحرف أخرى مشابهة في المظهر. يحدث هذا غالبًا مع الحرفين "i" و"n"، ولهذا السبب ظهرت هذه المشكلة وصلتني اسم "مشكلة يين". لا يعتمد على لغة النص ويؤثر، من بين أشياء أخرى، على الأرقام والأحرف الصغيرة المتكررة الأخرى.

السبب هو أخطاء تصنيف الأحرف في برنامج التشفير JB2. فهو "يقسم" عمليات المسح إلى مجموعات مكونة من 10 إلى 20 قطعة ويشكل قاموسًا للرموز المشتركة لكل مجموعة. يحتوي القاموس على أمثلة للحروف والأرقام الشائعة مع صفحات وإحداثيات مظهرها. عند عرض كتاب DjVu، يتم إدراج الأحرف من القاموس في الأماكن الصحيحة.

يسمح لك هذا بتقليل حجم ملف DjVu، ومع ذلك، إذا كان عرض حرفين متشابهين من الناحية المرئية، فيمكن أن يخلط برنامج التشفير بينهما أو يخطئ بينهما. يؤدي هذا في بعض الأحيان إلى إتلاف الصيغ الموجودة في المستند الفني. لحل هذه المشكلة، يمكنك التخلي عن خوارزميات الضغط، ولكن هذا سيزيد من حجم النسخة الرقمية من الكتاب.

عيب آخر للتنسيق هو أنه غير مدعوم افتراضيًا في العديد من أنظمة التشغيل الحديثة (بما في ذلك أنظمة التشغيل المحمولة). لذلك، للعمل معه تحتاج إلى تثبيت طرف ثالث برنامج، مثل DjVuReader، وWinDjView، وEvince، وما إلى ذلك. ومع ذلك، أود هنا أن أشير إلى أن بعض القراء الإلكترونيين (على سبيل المثال، ONYX BOOX) يدعمون تنسيق DjVu "خارج الصندوق" - نظرًا لأن التطبيقات الضرورية مثبتة بالفعل هناك.

بالمناسبة، تحدثنا عن ما يمكن أن تفعله تطبيقات القراء التي تعمل بنظام Android في أحد التطبيقات السابقة المواد.

الكتب الإلكترونية وتنسيقاتها: DjVu - تاريخها وإيجابياتها وسلبياتها وميزاتها
قارئ أونيكس بوكس ​​كرونوس

تظهر مشكلة تنسيق أخرى عند العمل مع مستندات DjVu على الشاشات الصغيرة للأجهزة المحمولة - الهواتف الذكية والأجهزة اللوحية وأجهزة القراءة. في بعض الأحيان يتم تقديم ملفات DjVu في شكل مسح ضوئي لأحد الكتب، وغالبًا ما تكون الأدبيات المهنية ومستندات العمل بتنسيق A4، لذلك يتعين عليك "تحريك" الصورة بحثًا عن المعلومات.

ومع ذلك، نلاحظ أن هذه المشكلة يمكن حلها أيضًا. أسهل طريقة، بالطبع، هي البحث عن مستند بتنسيق مختلف - ولكن إذا لم يكن هذا الخيار ممكنا (على سبيل المثال، تحتاج إلى العمل مع كمية كبيرة من الأدبيات التقنية في DjVu)، فيمكنك استخدام القراء الإلكترونيين بقطر كبير من 9,7 إلى 13,3 بوصة، وهو "مصمم" خصيصًا للعمل مع مثل هذه المستندات.

على سبيل المثال، في خط ONYX BOOX توجد مثل هذه الأجهزة كرونوس и MAX 2 (بالمناسبة، لقد أعددنا مراجعة لنموذج القارئ هذا، وسننشره قريبًا على مدونتنا)، وكذلك ملاحظات، والتي تحتوي على شاشة E Ink Mobius Carta بقطر 10,3 بوصة ودقة متزايدة. تتيح لك هذه الأجهزة فحص جميع تفاصيل الرسوم التوضيحية بحجمها الأصلي بهدوء وهي مناسبة لأولئك الذين يضطرون في كثير من الأحيان إلى قراءة الأدبيات التعليمية أو الفنية. لعرض ملفات DjVu وPDF تستخدم NEO Reader، والذي يسمح لك بضبط تباين وسمك الخطوط الرقمية.

على الرغم من أوجه القصور في التنسيق، يظل DjVu اليوم واحدًا من أكثر التنسيقات شيوعًا "للحفاظ" على الأعمال الأدبية. هذا يرجع إلى حد كبير إلى حقيقة أنه هو مفتوحة، وبعض القيود التكنولوجية اليوم تسمح للتقنيات والتطورات الحديثة بتجاوزها.

في المواد التالية سنواصل القصة حول تاريخ ظهور تنسيقات الكتب الإلكترونية ومميزات عملها.

ملاحظة: عدة مجموعات من قارئات ONYX BOOX:



المصدر: www.habr.com

إضافة تعليق