DjVuをPDF形状の重複排除を維持する）に変換する方法

Question

スキャンしたページをDjVuで圧縮することの（多くの）利点の1つは、文字の重複を排除することです。

…ページ上でほぼ同じ形状（文字など）の繰り返しを利用してテキスト画像を効率的に圧縮する二次画像圧縮。

残念ながら、DjViewのPDFエクスポート機能（およびそのコマンドラインの対応物ddvju）は、その利点を捨てて、ページごとに1つの画像をレンダリングします。その結果、= PDFは通常、DjVuファイルの2倍の大きさです。

PDF形式は、画像を1回保存してページに何度も表示できる以上のものであるため、DjVuを圧縮したまま、最適化されたPDFを生成するツールがあるかどうか疑問に思いました。構造。

Richard · Accepted Answer

Linuxを使用する方法はわかりませんが、Windowsを使用すると、DjVuToyプログラムが正確に実行します。レイヤーを分離し、DjVuから個別にPDF同等に変換します。ファイルサイズはほぼ同じままで、ほとんどのPDF読者。

David · Answer

私があなたの問題を正しく理解していて、それが少し曖昧であるならば、あなたがPDFに変換したいDjVuファイルがたくさんあるということです。変換するDjVuはスキャナーから生成されているため、基になるデータ形式はビットマップ/ラスター/画像グラフィックタイプ形式です。

PDF形式（ Adobe Spec ）（ Wikipedia Article ）の機能を誤って想定しています。PDF formatは基本的に、ページ上でテキストと画像をフォーマットして配置する方法、基本的なベクトル描画を行う方法を説明する単純なマークアップ言語であり、画像データをエンコードする機能もあります。テキストとページの説明マークアップ言語は通常、LZWまたはFlate圧縮アルゴリズムのいずれかでエンコードされます。画像データは、JPEG（39ページ）、TIFF（71ページ）、またはGIF（842ページ）のいずれかとして保存されます。

PDF形式はDjVu形式のような新しいテクノロジーを使用していません（ DjVu Spec ）（ Wikipedia Article ）。基本的にDjVuはスキャンしますドキュメント全体を調べて、組み合わせることができるものを探し、各オブジェクトが表示される場所への参照を残します。DjVu形式は、この点でPDFよりもはるかに賢いです。ある意味で、DjVu複数ページのドキュメント全体でアルゴリズムがどのように動作するかを見ると、フォーマットはPDFよりもJPEGに似ています。

PDFスキャナーによって作成されたドキュメントは、特定のサイズに定義された一連のページであり、各ページにJPEGが貼り付けられています。PDF = OCR（光学式文字認識）プロセスによるデータ、およびテキスト形式でドキュメントを再作成します。これにより、PDFドキュメントのサイズが大幅に削減されます。 PDFドキュメントにはフォーマットにOCRが組み込まれていませんが、Adobe Readerなどの一部のリーダーには、JPEGタイプ内で検索できるOCRが組み込まれていますPDFドキュメント。

Adobe Acrobat にはOCR処理機能があることも理解しています。他にもプログラムがあります OmniPage が頭に浮かぶだけでなく、オープンソースOCR システムもたくさんあります。