電子曞籍ずその圢匏: DjVu - その歎史、長所、短所、および特城

70幎代初頭、アメリカの䜜家マむケル・ハヌトは、 埗たす むリノむ倧孊に蚭眮された Xerox Sigma 5 コンピュヌタヌぞの無制限のアクセス。 マシンのリ゜ヌスを有効に掻甚するために、圌は米囜独立宣蚀を再版する最初の電子曞籍を䜜成するこずにしたした。

今日、䞻に携垯機噚 (スマヌトフォン、電子曞籍リヌダヌ、ラップトップ) の開発のおかげで、デゞタル文孊が普及したした。 これにより、倚数の電子曞籍フォヌマットが登堎したした。 それらの機胜を理解し、その䞭で最も人気のあるものの歎史を語っおみたしょう。DjVu 圢匏から始めたしょう。

電子曞籍ずその圢匏: DjVu - その歎史、長所、短所、および特城
/フリッカヌ/ レヌン・ピアマン / CC

フォヌマットの登堎

DjVu は、Web 開発者にむンタヌネット䞊で高解像床の画像を配垃するツヌルを提䟛するずいう 1996 ぀の目的を持っお、XNUMX 幎に AT&T Labs によっお開発されたした。

実際のずころ、その時点ではすべおの情報の 90% がただ残っおいたす。 保管されおいたした 玙で曞かれおおり、重芁な文曞の倚くにはカラヌ画像や写真が含たれおいたした。 テキストの読みやすさず画像の品質を維持するには、高解像床のスキャンを行う必芁がありたした。

叀兞的な Web 圢匏 (JPEG、GIF、PNG) では、このような画像を扱うこずができたしたが、その代わりに容量が犠牲になりたした。 JPEGの堎合は、テキストが 読たれたした モニタヌ画面では、300 dpi の解像床でドキュメントをスキャンする必芁がありたした。 雑誌のカラヌペヌゞは玄 500 KB を占めたした。 圓時、このサむズのファむルをむンタヌネットからダりンロヌドするのはかなりの劎力を芁するプロセスでした。

代替手段は OCR 技術を䜿甚しお玙の文曞をデゞタル化するこずでしたが、20 幎前はその粟床が理想ずは皋遠く、凊理埌に最終結果を手䜜業で倧幅に線集する必芁がありたした。 同時に、グラフィックスず画像は「行き過ぎた」たたでした。 たた、スキャンした画像をテキスト文曞に埋め蟌むこずができたずしおも、玙の色や質感など、歎史的文曞の重芁な芁玠である芖芚的な詳现の䞀郚が倱われたす。

これらの問題を解決するために、AT&T は DjVu を開発したした。 これにより、解像床 300 dpi でスキャンしたカラヌ文曞を元のサむズ 40 MB で 60  25 KB に圧瞮するこずが可胜になりたした。 DjVu では、癜黒ペヌゞのサむズが 10  30 KB に削枛されたした。

DjVu がドキュメントを圧瞮する方法

DjVu は、スキャンした玙文曞ず PDF などの他のデゞタル圢匏の䞡方で動䜜したす。 DjVu の仕組み です 画像を前景、背景、癜黒 (ビット) マスクの XNUMX ぀のコンポヌネントに分割するテクノロゞヌ。

マスクは元のファむルの解像床で保存され、 含たれおいたす テキストやその他の明確な詳现现い線や図、および察照的な画像の画像。

解像床は 300 dpi で、现い線や文字の茪郭を鮮明に保ち、AT&T の FAX 甹 JBIG2 アルゎリズムのバリ゚ヌションである JB2 アルゎリズムを䜿甚しお圧瞮されたす。 JB2の特城 です ペヌゞ䞊で重耇する文字を怜玢し、その画像を XNUMX 回だけ保存したす。 したがっお、耇数ペヌゞの文曞では、連続する数ペヌゞごずに共通の「蟞曞」が共有されたす。

背景にはペヌゞやむラストのテクスチャが含たれおおり、マスクよりも解像床が䜎くなりたす。 ロスレス背景は 100 dpi で保存されたす。

フォアグラりンド 店 ほずんどの堎合、テキストの色は黒で、印刷される XNUMX ぀の文字ず同じであるため、その解像床は通垞さらに䜎䞋したす。 前景ず背景を圧瞮するために䜿甚されたす りェヌブレット圧瞮.

DjVu ドキュメント䜜成の最終段階ぱントロピヌ ゚ンコヌディングです。この゚ントロピヌ ゚ンコヌディングでは、適応算術゚ンコヌダヌが同䞀文字のシヌケンスをバむナリ倀に倉換したす。

フォヌマットの利点

DjVu のタスクは сПхраМОть 玙文曞の「プロパティ」をデゞタル圢匏で保存できるため、非力なコンピュヌタでもそのような文曞を操䜜できるようになりたす。 したがっお、DjVu ファむルを衚瀺する゜フトりェアには「高速レンダリング」機胜が備わっおいたす。 蚘憶に残る圌女に感謝したす 読み蟌み䞭 DjVu ペヌゞのうち、画面に衚瀺される必芁がある郚分のみ。

これにより、「未ダりンロヌド」ファむル、぀たり耇数ペヌゞの DjVu ドキュメントの個々のペヌゞを衚瀺するこずも可胜になりたす。 この堎合、(JPEG のように) ファむルがダりンロヌドされるずきにコンポヌネントが「衚瀺される」ように芋える堎合、画像の詳现のプログレッシブ描画が䜿甚されたす。

20 幎前、この圢匏が導入されたずき、ペヌゞは XNUMX 段階で読み蟌たれたした。最初にテキスト コンポヌネントが読み蟌たれ、数秒埌に画像ず背景の最初のバヌゞョンが読み蟌たれたした。 その埌、本のペヌゞ党䜓が「出珟」したした。

2002 レベル構造の存圚により、スキャンした曞籍を怜玢するこずもできたす (特別なテキスト レむダヌがあるため)。 これは技術文献や参考曞を扱うずきに䟿利であるこずが刀明したため、DjVu はいく぀かの科孊曞籍ラむブラリの基瀎ずなりたした。 たずえば、XNUMX 幎に圌は むンタヌネットアヌカむブ オヌプン ゜ヌスからスキャンされた曞籍を保存するプロゞェクトの圢匏の XNUMX ぀ (TIFF および PDF ず䞊んで) ずしお䜿甚されたす。

フォヌマットのデメリット

ただし、他のテクノロゞヌず同様に、DjVu にも欠点がありたす。 たずえば、本のスキャンを DjVu 圢匏に゚ンコヌドする堎合、ドキュメント内の䞀郚の文字が、倖芳が䌌おいる他の文字に眮き換えられる堎合がありたす。 これは文字「i」ず「n」で最も頻繁に発生するため、この問題が発生したす。 受け取った 名前は「陰問題」。 これはテキストの蚀語には䟝存せず、特に数字やその他の小さな繰り返し文字に圱響したす。

その原因は、JB2 ゚ンコヌダでの文字分類゚ラヌです。 スキャンを 10  20 個のグルヌプに「分割」し、各グルヌプの共通蚘号の蟞曞を圢成したす。 この蟞曞には、䞀般的な文字ず数字の䟋が、ペヌゞずその出珟座暙ずずもに含たれおいたす。 DjVu ブックを衚瀺するず、蟞曞の文字が適切な堎所に挿入されたす。

これにより、DjVu ファむルのサむズを枛らすこずができたすが、XNUMX ぀の文字の衚瀺が芖芚的に䌌おいる堎合、゚ンコヌダはそれらを混同したり、同じものず誀認したりする可胜性がありたす。 これにより、技術文曞内の数匏が砎損する堎合がありたす。 この問題を解決するには、圧瞮アルゎリズムを攟棄するこずができたすが、これにより曞籍のデゞタル コピヌのサむズが増加したす。

この圢匏のもう XNUMX ぀の欠点は、倚くの最新のオペレヌティング システム (モバむル オペレヌティング システムを含む) でデフォルトでサポヌトされおいないこずです。 したがっお、これを䜿甚するには、サヌドパヌティ補の゜フトりェアをむンストヌルする必芁がありたす。 プログラムただし、䞀郚の電子リヌダヌ (ONYX BOOX など) は、必芁なアプリケヌションがすでにむンストヌルされおいるため、「すぐに䜿える」DjVu 圢匏をサポヌトしおいるこずに泚意しおください。

ずころで、Android ベヌスのリヌダヌ向けアプリケヌションで他に䜕ができるかに぀いおは、以前の蚘事の XNUMX ぀で説明したした。 材料.

電子曞籍ずその圢匏: DjVu - その歎史、長所、短所、および特城
リヌダヌ オニキス ボックス クロノス

スマヌトフォン、タブレット、リヌダヌなどのモバむル デバむスの小さな画面で DjVu ドキュメントを操䜜するずきに、別の圢匏の問題が発生したす。 DjVu ファむルは本の芋開きをスキャンした圢匏で衚瀺される堎合があり、専門的な文献や䜜業文曞は A4 圢匏であるこずが倚いため、情報を探すには画像を「移動」する必芁がありたす。

ただし、この問題も解決できるこずに泚意しおください。 もちろん、最も簡単な方法は、別の圢匏のドキュメントを探すこずです。ただし、このオプションが䞍可胜な堎合 (たずえば、DjVu で倧量の技術文献を扱う必芁がある堎合)、電子リヌダヌを䜿甚できたす。察角線が 9,7  13,3 むンチの倧きなもので、このような文曞を扱うために特別に「調敎」されおいたす。

たずえば、ONYX BOOX シリヌズでは、このようなデバむスは次のずおりです。 クロノス О MAX 2 (ちなみに、この読者モデルのレビュヌを準備したしたので、近々ブログで公開する予定です) Note、察角10,3むンチで解像床が向䞊したE Ink Mobius Cartaスクリヌンを備えおいたす。 このようなデバむスを䜿甚するず、むラストのすべおの詳现を元のサむズで冷静に調べるこずができ、教育的たたは技術的な文献を頻繁に読む必芁がある人に適しおいたす。 DjVu および PDF ファむルを衚瀺するには 䞭叀 デゞタル化されたフォントのコントラストや倪さを調敎できるNEO Reader。

この圢匏には欠点があるにもかかわらず、DjVu は珟圚でも文孊䜜品を「保存」するための最も人気のある圢匏の XNUMX ぀です。 これは䞻に圌が です オヌプンであり、今日のいく぀かの技術的制限により、最新のテクノロゞヌず開発がそれを回避できたす。

次の資料では、電子曞籍フォヌマットの出珟の歎史ずその䜜品の特城に぀いおの話を続けたす。

PS いく぀かの ONYX BOOX リヌダヌのセット:



出所 habr.com

コメントを远加したす