70年代初,美國作家麥可哈特(Michael Hart)
如今,數位文學已經變得普遍,這在很大程度上要歸功於便攜式設備(智慧型手機、電子閱讀器、筆記型電腦)的發展。 這導致了大量電子書格式的出現。 讓我們嘗試了解它們的功能並講述其中最受歡迎的它們的歷史 - 讓我們從 DjVu 格式開始。
格式的出現
DjVu 由 AT&T 實驗室於 1996 年開發,其目的只有一個 - 為 Web 開發人員提供一種透過 Internet 分發高解析度影像的工具。
事實是,當時90%的信息仍然是
經典的網路格式 - JPEG、GIF 和 PNG - 使得處理此類影像成為可能,但代價是體積。 在 JPEG 的情況下,文本
另一種方法是使用 OCR 技術將紙本文件數位化,但在 20 年前,其準確性還很不理想——處理後,最終結果必須經過手工認真編輯。 同時,圖形和圖像仍然「過分」。 即使可以將掃描圖像嵌入到文字文件中,一些視覺細節也會遺失,例如紙張的顏色、紋理,而這些都是歷史文件的重要組成部分。
為了解決這些問題,AT&T開發了DjVu。 它可以將解析度為 300 dpi 的掃描彩色文件壓縮至 40-60 KB,原始大小為 25 MB。 DjVu 將黑白頁面的大小減少到 10-30 KB。
DjVu 如何壓縮文檔
DjVu 可以處理掃描的紙本文件和其他數位格式,例如 PDF。 DjVu 的工作原理
掩碼以原始文件的分辨率保存,並且
它的解析度為 300 dpi,可保持細線和字母輪廓清晰,並使用 JB2 演算法進行壓縮,JB2 演算法是 AT&T 用於傳真的 JBIG2 演算法的變體。 JBXNUMX特點
背景包含頁面的紋理和插圖,其解析度低於蒙版。 無損背景以 100 dpi 保存。
前景
建立 DjVu 文件的最後階段是熵編碼,此時自適應算術編碼器將相同字元的序列轉換為二進位值。
格式的優點
DjVu 的任務是
這也使得檢視「未下載」檔案成為可能,即多頁 DjVu 文件的各個頁面。 在這種情況下,當元件看起來像下載檔案時「出現」時(如 JPEG 中),使用影像細節的漸進式繪製。
20 年前,當引入這種格式時,頁面載入分三個階段:首先載入文字元件,幾秒鐘後載入圖像和背景的第一個版本。 隨後,整本書的一頁都「出現」了。
三層結構的存在還允許您搜尋掃描的書籍(因為有一個特殊的文字層)。 事實證明,這在處理技術文獻和參考書時非常方便,因此 DjVu 成為多個科學書籍圖書館的基礎。 例如,2002年他被選為
格式的缺點
然而,與所有技術一樣,DjVu 也有其缺點。 例如,當書籍掃描件編碼為 DjVu 格式時,文件中的某些字元可能會被外觀相似的其他字元取代。 這種情況最常發生在字母“i”和“n”上,這就是這個問題的原因
原因是JB2編碼器中的字元分類錯誤。 它將掃描「拆分」成 10-20 個片段的群組,並為每個群組形成一個常用符號字典。 該字典包含常見字母和數字的範例以及其外觀的頁數和座標。 當您查看 DjVu 書籍時,字典中的字元會插入到正確的位置。
這允許您減小 DjVu 檔案的大小,但是,如果兩個字母的顯示在視覺上相似,編碼器可能會混淆它們或將它們誤認為相同。 有時這會導致技術文件中的公式損壞。 要解決這個問題,您可以放棄壓縮演算法,但這會增加書籍數位副本的大小。
該格式的另一個缺點是許多現代作業系統(包括行動作業系統)預設不支援它。 因此,要使用它,您需要安裝第三方
順便說一句,我們在之前的一篇文章中討論了基於 Android 的讀者應用程式還可以做些什麼
在行動裝置(智慧型手機、平板電腦、閱讀器)的小螢幕上處理 DjVu 文件時,會出現另一個格式問題。 有時,DjVu 檔案以書本掃描件的形式呈現,而專業文獻和工作文件通常採用 A4 格式,因此您必須「移動」圖像來尋找資訊。
不過,我們注意到這個問題也是可以解決的。 當然,最簡單的方法是尋找不同格式的文件 - 但如果此選項不可行(例如,您需要使用 DjVu 中的大量技術文獻),那麼您可以使用電子閱讀器具有9,7 至13,3 英寸的大對角線,專為處理此類文件而「客製化」。
例如,在 ONYX BOOX 系列中,此類設備是
儘管該格式有缺陷,但如今 DjVu 仍然是「保存」文學作品最受歡迎的格式之一。 這很大程度是由於他
在接下來的資料中,我們將繼續講述電子書格式出現的歷史及其作品的特點。
PS 幾套ONYX BOOX讀卡機:
科技與「古代」:ONYX BOOX Chronos 閱讀器回顧 女王屈尊閱讀:ONYX BOOX Cleopatra 3 電子書評論 ONYX BOOX Darwin 4 評論:關於電子墨水的最佳電子書
來源: www.habr.com