Ηλεκτρονικά βιβλία και οι μορφές τους: DjVu - η ιστορία, τα πλεονεκτήματα, τα μειονεκτήματα και τα χαρακτηριστικά του

Στις αρχές της δεκαετίας του '70, ο Αμερικανός συγγραφέας Μάικλ Χαρτ τα κατάφερε πάρετε απεριόριστη πρόσβαση σε υπολογιστή Xerox Sigma 5 εγκατεστημένο στο Πανεπιστήμιο του Ιλινόις. Για να αξιοποιήσει σωστά τους πόρους της μηχανής, αποφάσισε να δημιουργήσει το πρώτο ηλεκτρονικό βιβλίο, επανατυπώνοντας τη Διακήρυξη της Ανεξαρτησίας των ΗΠΑ.

Σήμερα, η ψηφιακή λογοτεχνία έχει γίνει ευρέως διαδεδομένη, κυρίως χάρη στην ανάπτυξη φορητών συσκευών (smartphones, e-readers, laptops). Αυτό οδήγησε στην εμφάνιση μεγάλου αριθμού μορφών ηλεκτρονικών βιβλίων. Ας προσπαθήσουμε να κατανοήσουμε τα χαρακτηριστικά τους και να πούμε την ιστορία των πιο δημοφιλών από αυτά - ας ξεκινήσουμε με τη μορφή DjVu.

Ηλεκτρονικά βιβλία και οι μορφές τους: DjVu - η ιστορία, τα πλεονεκτήματα, τα μειονεκτήματα και τα χαρακτηριστικά του
/flickr/ Λέιν Πίρμαν / CC

Η εμφάνιση της μορφής

Το DjVu αναπτύχθηκε το 1996 από την AT&T Labs με έναν σκοπό - να δώσει στους προγραμματιστές ιστού ένα εργαλείο για τη διανομή εικόνων υψηλής ανάλυσης μέσω του Διαδικτύου.

Το γεγονός είναι ότι εκείνη την εποχή το 90% όλων των πληροφοριών είναι ακόμα αποθηκεύτηκε σε χαρτί και πολλά από τα σημαντικά έγγραφα είχαν έγχρωμες εικόνες και φωτογραφίες. Για να διατηρηθεί η αναγνωσιμότητα του κειμένου και η ποιότητα των εικόνων, ήταν απαραίτητο να γίνουν σαρώσεις υψηλής ανάλυσης.

Οι κλασικές μορφές ιστού - JPEG, GIF και PNG - κατέστησαν δυνατή την εργασία με τέτοιες εικόνες, αλλά με κόστος τον όγκο. Στην περίπτωση του JPEG, έτσι ώστε το κείμενο διαβάστηκε στην οθόνη της οθόνης, έπρεπε να σαρώσω το έγγραφο με ανάλυση 300 dpi. Μια έγχρωμη σελίδα του περιοδικού καταλάμβανε περίπου 500 KB. Η λήψη αρχείων αυτού του μεγέθους από το Διαδίκτυο ήταν μια αρκετά απαιτητική διαδικασία εκείνη την εποχή.

Η εναλλακτική ήταν η ψηφιοποίηση εγγράφων σε χαρτί χρησιμοποιώντας τεχνολογίες OCR, αλλά πριν από 20 χρόνια η ακρίβειά τους απείχε πολύ από την ιδανική - μετά την επεξεργασία, το τελικό αποτέλεσμα έπρεπε να επεξεργαστεί σοβαρά με το χέρι. Ταυτόχρονα, τα γραφικά και οι εικόνες παρέμειναν «στη θάλασσα». Και ακόμη κι αν ήταν δυνατή η ενσωμάτωση μιας σαρωμένης εικόνας σε ένα έγγραφο κειμένου, ορισμένες οπτικές λεπτομέρειες χάθηκαν, για παράδειγμα, το χρώμα του χαρτιού, η υφή του και αυτά είναι σημαντικά στοιχεία ιστορικών εγγράφων.

Για να λύσει αυτά τα προβλήματα, η AT&T ανέπτυξε το DjVu. Κατέστησε δυνατή τη συμπίεση σαρωμένων έγχρωμων εγγράφων με ανάλυση 300 dpi σε 40–60 KB, με αρχικό μέγεθος 25 MB. Το DjVu μείωσε το μέγεθος των ασπρόμαυρων σελίδων στα 10–30 KB.

Πώς το DjVu συμπιέζει έγγραφα

Το DjVu μπορεί να λειτουργήσει τόσο με σαρωμένα έγγραφα σε χαρτί όσο και με άλλες ψηφιακές μορφές, όπως το PDF. Πώς λειτουργεί το DjVu είναι τεχνολογία που χωρίζει την εικόνα σε τρία στοιχεία: προσκήνιο, φόντο και ασπρόμαυρη (bit) μάσκα.

Η μάσκα αποθηκεύεται στην ανάλυση του αρχικού αρχείου και περιέχει εικόνα κειμένου και άλλες σαφείς λεπτομέρειες - λεπτές γραμμές και διαγράμματα - καθώς και εικόνες με αντίθεση.

Έχει ανάλυση 300 dpi για να διατηρεί ευκρινείς τις λεπτές γραμμές και τα περιγράμματα των γραμμάτων και συμπιέζεται χρησιμοποιώντας τον αλγόριθμο JB2, ο οποίος είναι μια παραλλαγή του αλγόριθμου JBIG2 της AT&T για αποστολή φαξ. Χαρακτηριστικό του JB2 είναι Αυτό που κάνει είναι ότι αναζητά διπλούς χαρακτήρες στη σελίδα και αποθηκεύει την εικόνα τους μόνο μία φορά. Έτσι, στα πολυσέλιδα έγγραφα, κάθε λίγες διαδοχικές σελίδες μοιράζονται ένα κοινό «λεξικό».

Το φόντο περιέχει την υφή της σελίδας και τις εικόνες και η ανάλυσή του είναι χαμηλότερη από αυτή της μάσκας. Το φόντο χωρίς απώλειες αποθηκεύεται στα 100 dpi.

Σε πρώτο πλάνο προμήθεια χρωματικές πληροφορίες για τη μάσκα και η ανάλυσή της συνήθως μειώνεται ακόμη περισσότερο, καθώς στις περισσότερες περιπτώσεις το χρώμα του κειμένου είναι μαύρο και το ίδιο για έναν εκτυπωμένο χαρακτήρα. Χρησιμοποιείται για τη συμπίεση του προσκηνίου και του φόντου συμπίεση κυματιδίων.

Το τελικό στάδιο δημιουργίας ενός εγγράφου DjVu είναι η κωδικοποίηση εντροπίας, όταν ένας προσαρμοστικός αριθμητικός κωδικοποιητής μετατρέπει ακολουθίες πανομοιότυπων χαρακτήρων σε δυαδική τιμή.

Πλεονεκτήματα της μορφής

Το καθήκον του DjVu ήταν αποθηκεύσετε «Ιδιότητες» ενός έντυπου εγγράφου σε ψηφιακή μορφή, που επιτρέπουν ακόμη και σε αδύναμους υπολογιστές να λειτουργούν με τέτοια έγγραφα. Επομένως, το λογισμικό για την προβολή αρχείων DjVu έχει τη δυνατότητα "γρήγορης απόδοσης". Χάρη σε αυτήν στη μνήμη φόρτωση μόνο εκείνο το κομμάτι της σελίδας DjVu που πρέπει να εμφανίζεται στην οθόνη.

Αυτό καθιστά επίσης δυνατή την προβολή "μη ληφθέντων" αρχείων, δηλαδή μεμονωμένων σελίδων ενός πολυσέλιδου εγγράφου DjVu. Σε αυτήν την περίπτωση, χρησιμοποιείται προοδευτική σχεδίαση λεπτομερειών εικόνας, όταν τα στοιχεία φαίνεται να «εμφανίζονται» καθώς γίνεται λήψη του αρχείου (όπως στο JPEG).

Πριν από 20 χρόνια, όταν εισήχθη αυτή η μορφή, η σελίδα φορτώθηκε σε τρία στάδια: πρώτα φορτώθηκε το στοιχείο κειμένου, μετά από μερικά δευτερόλεπτα φορτώθηκαν οι πρώτες εκδόσεις των εικόνων και το φόντο. Στη συνέχεια «εμφανίστηκε» ολόκληρη η σελίδα του βιβλίου.

Η παρουσία μιας δομής τριών επιπέδων σας επιτρέπει επίσης να κάνετε αναζήτηση σε σαρωμένα βιβλία (καθώς υπάρχει ένα ειδικό επίπεδο κειμένου). Αυτό αποδείχθηκε ότι ήταν βολικό όταν εργάζεστε με τεχνική βιβλιογραφία και βιβλία αναφοράς, έτσι το DjVu έγινε η βάση για πολλές βιβλιοθήκες επιστημονικών βιβλίων. Για παράδειγμα, το 2002 επιλέχθηκε Αρχείο Διαδικτύου ως μία από τις μορφές (μαζί με το TIFF και το PDF) για ένα έργο διατήρησης σαρωμένων βιβλίων από ανοιχτές πηγές.

Μειονεκτήματα μορφής

Ωστόσο, όπως όλες οι τεχνολογίες, το DjVu έχει τα μειονεκτήματά του. Για παράδειγμα, κατά την κωδικοποίηση σαρώσεων βιβλίων σε μορφή DjVu, ορισμένοι χαρακτήρες στο έγγραφο ενδέχεται να αντικατασταθούν από άλλους παρόμοιους στην εμφάνιση. Αυτό συμβαίνει συχνότερα με τα γράμματα "i" και "n", γι 'αυτό αυτό το πρόβλημα έλαβε όνομα "πρόβλημα yin". Δεν εξαρτάται από τη γλώσσα του κειμένου και επηρεάζει, μεταξύ άλλων, αριθμούς και άλλους μικρούς επαναλαμβανόμενους χαρακτήρες.

Η αιτία του είναι τα σφάλματα ταξινόμησης χαρακτήρων στον κωδικοποιητή JB2. «Χωρίζει» τις σαρώσεις σε ομάδες των 10–20 τεμαχίων και σχηματίζει ένα λεξικό κοινών συμβόλων για κάθε ομάδα. Το λεξικό περιέχει παραδείγματα κοινών γραμμάτων και αριθμών με σελίδες και συντεταγμένες της εμφάνισής τους. Όταν προβάλλετε ένα βιβλίο DjVu, οι χαρακτήρες από το λεξικό εισάγονται στα σωστά σημεία.

Αυτό σας επιτρέπει να μειώσετε το μέγεθος του αρχείου DjVu, ωστόσο, εάν οι εμφανίσεις δύο γραμμάτων είναι οπτικά παρόμοιες, ο κωδικοποιητής μπορεί είτε να τις μπερδέψει είτε να τις μπερδέψει με το ίδιο. Μερικές φορές αυτό οδηγεί σε ζημιά σε τύπους σε ένα τεχνικό έγγραφο. Για να λύσετε αυτό το πρόβλημα, μπορείτε να εγκαταλείψετε τους αλγόριθμους συμπίεσης, αλλά αυτό θα αυξήσει το μέγεθος του ψηφιακού αντιγράφου του βιβλίου.

Ένα άλλο μειονέκτημα της μορφής είναι ότι δεν υποστηρίζεται από προεπιλογή σε πολλά σύγχρονα λειτουργικά συστήματα (συμπεριλαμβανομένων των κινητών). Επομένως, για να εργαστείτε με αυτό, πρέπει να εγκαταστήσετε τρίτους προγράμματα, όπως DjVuReader, WinDjView, Evince κ.λπ. Ωστόσο, εδώ θα ήθελα να σημειώσω ότι ορισμένοι ηλεκτρονικοί αναγνώστες (για παράδειγμα, ONYX BOOX) υποστηρίζουν τη μορφή DjVu "out of the box" - αφού οι απαραίτητες εφαρμογές είναι ήδη εγκατεστημένες εκεί.

Παρεμπιπτόντως, μιλήσαμε για το τι άλλο μπορούν να κάνουν οι εφαρμογές για αναγνώστες που βασίζονται σε Android σε ένα από τα προηγούμενα υλικά.

Ηλεκτρονικά βιβλία και οι μορφές τους: DjVu - η ιστορία, τα πλεονεκτήματα, τα μειονεκτήματα και τα χαρακτηριστικά του
Αναγνώστης ONYX BOOX Chronos

Ένα άλλο πρόβλημα μορφής εμφανίζεται όταν εργάζεστε με έγγραφα DjVu σε μικρές οθόνες κινητών συσκευών - smartphone, tablet, αναγνώστες. Μερικές φορές τα αρχεία DjVu παρουσιάζονται με τη μορφή σάρωσης ενός βιβλίου και η επαγγελματική βιβλιογραφία και τα έγγραφα εργασίας είναι συχνά σε μορφή A4, επομένως πρέπει να "μετακινήσετε" την εικόνα αναζητώντας πληροφορίες.

Ωστόσο, σημειώνουμε ότι αυτό το πρόβλημα μπορεί επίσης να λυθεί. Ο ευκολότερος τρόπος, φυσικά, είναι να αναζητήσετε ένα έγγραφο σε διαφορετική μορφή - αλλά εάν αυτή η επιλογή δεν είναι δυνατή (για παράδειγμα, πρέπει να εργαστείτε με μεγάλη ποσότητα τεχνικής βιβλιογραφίας στο DjVu), τότε μπορείτε να χρησιμοποιήσετε ηλεκτρονικούς αναγνώστες με μεγάλη διαγώνιο από 9,7 έως 13,3 ίντσες, η οποία είναι ειδικά «προσαρμοσμένη» για εργασία με τέτοια έγγραφα.

Για παράδειγμα, στη σειρά ONYX BOOX υπάρχουν τέτοιες συσκευές Chronos и MAX 2 (παρεμπιπτόντως, έχουμε ετοιμάσει μια κριτική για αυτό το μοντέλο αναγνώστη και θα τη δημοσιεύσουμε σύντομα στο ιστολόγιό μας), καθώς και Note, που διαθέτει οθόνη E Ink Mobius Carta με διαγώνιο 10,3 ιντσών και αυξημένη ανάλυση. Τέτοιες συσκευές σάς επιτρέπουν να εξετάζετε ήρεμα όλες τις λεπτομέρειες των εικονογραφήσεων στο αρχικό τους μέγεθος και είναι κατάλληλες για όσους συχνά πρέπει να διαβάσουν εκπαιδευτική ή τεχνική βιβλιογραφία. Για προβολή αρχείων DjVu και PDF χρησιμοποιούνται NEO Reader, το οποίο σας επιτρέπει να προσαρμόσετε την αντίθεση και το πάχος των ψηφιοποιημένων γραμματοσειρών.

Παρά τις ελλείψεις του φορμά, σήμερα το DjVu παραμένει ένα από τα πιο δημοφιλή φορμά για «διατήρηση» λογοτεχνικών έργων. Αυτό οφείλεται σε μεγάλο βαθμό στο γεγονός ότι αυτός είναι ανοιχτό και ορισμένοι τεχνολογικοί περιορισμοί σήμερα επιτρέπουν στις σύγχρονες τεχνολογίες και εξελίξεις να το παρακάμψουν.

Στα ακόλουθα υλικά θα συνεχίσουμε την ιστορία για την ιστορία της εμφάνισης των μορφών ηλεκτρονικών βιβλίων και τα χαρακτηριστικά της δουλειάς τους.

Υ.Γ. Αρκετά σετ αναγνώστες ONYX BOOX:



Πηγή: www.habr.com

Προσθέστε ένα σχόλιο