電子書及其格式:DjVu - 它的歷史、優點、缺點和特點

70年代初,美國作家麥可哈特(Michael Hart) 得到 無限制地存取安裝在伊利諾大學的 Xerox Sigma 5 電腦。 為了充分利用機器的資源,他決定製作第一本電子書,重印美國《獨立宣言》。

如今,數位文學已經變得普遍,這在很大程度上要歸功於便攜式設備(智慧型手機、電子閱讀器、筆記型電腦)的發展。 這導致了大量電子書格式的出現。 讓我們嘗試了解它們的功能並講述其中最受歡迎的它們的歷史 - 讓我們從 DjVu 格式開始。

電子書及其格式:DjVu - 它的歷史、優點、缺點和特點
/flickr/ 萊恩·皮爾曼 / CC

格式的出現

DjVu 由 AT&T 實驗室於 1996 年開發,其目的只有一個 - 為 Web 開發人員提供一種透過 Internet 分發高解析度影像的工具。

事實是,當時90%的信息仍然是 已儲存 紙本文件,許多重要文件都有彩色圖像和照片。 為了保持文字的可讀性和圖片的質量,有必要進行高解析度掃描。

經典的網路格式 - JPEG、GIF 和 PNG - 使得處理此類影像成為可能,但代價是體積。 在 JPEG 的情況下,文本 被讀過 在顯示器螢幕上,我必須以 300 dpi 的解析度掃描文件。 該雜誌彩頁約佔500 KB。 當時從網路下載這種大小的檔案是一個相當耗費人力的過程。

另一種方法是使用 OCR 技術將紙本文件數位化,但在 20 年前,其準確性還很不理想——處理後,最終結果必須經過手工認真編輯。 同時,圖形和圖像仍然「過分」。 即使可以將掃描圖像嵌入到文字文件中,一些視覺細節也會遺失,例如紙張的顏色、紋理,而這些都是歷史文件的重要組成部分。

為了解決這些問題,AT&T開發了DjVu。 它可以將解析度為 300 dpi 的掃描彩色文件壓縮至 40-60 KB,原始大小為 25 MB。 DjVu 將黑白頁面的大小減少到 10-30 KB。

DjVu 如何壓縮文檔

DjVu 可以處理掃描的紙本文件和其他數位格式,例如 PDF。 DjVu 的工作原理 將影像分為三個部分的技術:前景、背景和黑白(位元)遮罩。

掩碼以原始文件的分辨率保存,並且 它包含 文字和其他清晰細節的圖像 - 細線和圖表 - 以及對比圖片。

它的解析度為 300 dpi,可保持細線和字母輪廓清晰,並使用 JB2 演算法進行壓縮,JB2 演算法是 AT&T 用於傳真的 JBIG2 演算法的變體。 JBXNUMX特點 它的作用是查找頁面上的重複字元並僅保存其圖像一次。 因此,在多頁文件中,每隔幾個連續頁面共享一個公共「字典」。

背景包含頁面的紋理和插圖,其解析度低於蒙版。 無損背景以 100 dpi 保存。

前景 商店 有關掩模的顏色訊息,其解析度通常會進一步降低,因為在大多數情況下,文字顏色為黑色,並且與一個列印字元相同。 用於壓縮前景和背景 小波壓縮.

建立 DjVu 文件的最後階段是熵編碼,此時自適應算術編碼器將相同字元的序列轉換為二進位值。

格式的優點

DjVu 的任務是 保留 數位形式的紙本文件的“屬性”,即使是較弱的計算機也可以處理此類文件。 因此,用於查看DjVu檔案的軟體具有「快速渲染」的能力。 感謝記憶中的她 加載 僅應在螢幕上顯示的 DjVu 頁面部分。

這也使得檢視「未下載」檔案成為可能,即多頁 DjVu 文件的各個頁面。 在這種情況下,當元件看起來像下載檔案時「出現」時(如 JPEG 中),使用影像細節的漸進式繪製。

20 年前,當引入這種格式時,頁面載入分三個階段:首先載入文字元件,幾秒鐘後載入圖像和背景的第一個版本。 隨後,整本書的一頁都「出現」了。

三層結構的存在還允許您搜尋掃描的書籍(因為有一個特殊的文字層)。 事實證明,這在處理技術文獻和參考書時非常方便,因此 DjVu 成為多個科學書籍圖書館的基礎。 例如,2002年他被選為 互聯網檔案館 作為保存開源掃描書籍項目的格式之一(與 TIFF 和 PDF 一起)。

格式的缺點

然而,與所有技術一樣,DjVu 也有其缺點。 例如,當書籍掃描件編碼為 DjVu 格式時,文件中的某些字元可能會被外觀相似的其他字元取代。 這種情況最常發生在字母“i”和“n”上,這就是這個問題的原因 我收到 名為「陰問題」。 它不依賴文字的語言,並且會影響數字和其他小的重複字元等。

原因是JB2編碼器中的字元分類錯誤。 它將掃描「拆分」成 10-20 個片段的群組,並為每個群組形成一個常用符號字典。 該字典包​​含常見字母和數字的範例以及其外觀的頁數和座標。 當您查看 DjVu 書籍時,字典中的字元會插入到正確的位置。

這允許您減小 DjVu 檔案的大小,但是,如果兩個字母的顯示在視覺上相似,編碼器可能會混淆它們或將它們誤認為相同。 有時這會導致技術文件中的公式損壞。 要解決這個問題,您可以放棄壓縮演算法,但這會增加書籍數位副本的大小。

該格式的另一個缺點是許多現代作業系統(包括行動作業系統)預設不支援它。 因此,要使用它,您需要安裝第三方 節目,例如 DjVuReader、WinDjView、Evince 等。不過,這裡我想指出的是,一些電子閱讀器(例如 ONYX BOOX)「開箱即用」支援 DjVu 格式 - 因為那裡已經安裝了必要的應用程式。

順便說一句,我們在之前的一篇文章中討論了基於 Android 的讀者應用程式還可以做些什麼 物料.

電子書及其格式:DjVu - 它的歷史、優點、缺點和特點
讀者 ONYX BOOX 計時碼表

在行動裝置(智慧型手機、平板電腦、閱讀器)的小螢幕上處理 DjVu 文件時,會出現另一個格式問題。 有時,DjVu 檔案以書本掃描件的形式呈現,而專業文獻和工作文件通常採用 A4 格式,因此您必須「移動」圖像來尋找資訊。

不過,我們注意到這個問題也是可以解決的。 當然,最簡單的方法是尋找不同格式的文件 - 但如果此選項不可行(例如,您需要使用 DjVu 中的大量技術文獻),那麼您可以使用電子閱讀器具有9,7 至13,3 英寸的大對角線,專為處理此類文件而「客製化」。

例如,在 ONYX BOOX 系列中,此類設備是 柯羅諾斯 и MAX 2 (順便說一句,我們已經準備了對此閱讀器模型的評論,並將很快發佈在我們的部落格上),並且 備註其擁有 E Ink Mobius Carta 螢幕,對角線尺寸為 10,3 英寸,解析度有所提高。 此類設備可讓您以原始尺寸平靜地檢查插圖的所有細節,並且適合經常需要閱讀教育或技術文獻的人。 查看 DjVu 和 PDF 文件 使用 NEO Reader,讓您調整數位化字體的對比和粗細。

儘管該格式有缺陷,但如今 DjVu 仍然是「保存」文學作品最受歡迎的格式之一。 這很大程度是由於他 開放,並且當今的一些技術限制允許現代技術和發展繞過它。

在接下來的資料中,我們將繼續講述電子書格式出現的歷史及其作品的特點。

PS 幾套ONYX BOOX讀卡機:



來源: www.habr.com

添加評論