web-dev-qa-db-ja.com

OCRを使用してPDF内のテキストの画像をフォーマットされたテキストに置き換える方法

スキャンした古いドキュメントで構成されるPDFを他の人からたくさん受け取ります。残念ながら、スキャンのテキストは、読みやすいものの、ざらざらしていて読みにくい場合があります。

これまで私ができたことは、OCRを使用してテキストをWord文書に抽出することです。ただし、これらの古いドキュメントにはイラストや複雑なフォーマットが含まれていることが多いため、私が本当にやりたいのは、古い粒子の粗いテキストを削除して、コンピューターで生成されたフォントに置き換えることです。言い換えれば、PDFとそのページのフォーマットを可能な限り維持しながら、テキストをたとえばTimes NewRomanに置き換えることで「クリーンアップ」したいと思います。

私はこのようなクリーンアップを実行するための簡単で自動化可能な方法を数日間オンラインで探していましたが、今のところ何も見つかりませんでした。これを行う方法があるはずだと確信しています。それほど複雑ではないようですが、現在OCRで実行できる範囲外にあるこの問題のいくつかの側面を見落としているのかもしれません。

助言がありますか?

4
tel

アドビ自身のソフトウェアでさえ、これを行うことやそれを行うことを明確にすることは得意ではありませんhow

Adobe Acrobat Xでは、メニュー([表示]、[ツール]、[テキストの認識])を使用するか、ツールバーの[ツール]をクリックして、[ツール]ペインの[テキストの認識]をクリックしてテキストレイヤーを作成できます。

次に、ドキュメントに対してOCRを実行するか、「容疑者」を見つけるオプションがあります。 「容疑者」は、正しく見えない可能性のあるOCR結果です(スペルチェックしないでください)。容疑者を通過した後は、OCRをやり直す以外に、テキストレイヤーに再度アクセスしたり編集したりする方法はないようです。

ページ範囲を選択してOCRを制限することはできますが(多言語ドキュメントがある場合など)、選択範囲に制限することはできません。

これが非常に便利な機能であることを考えると、Adobeがそれをあまりユーザーフレンドリーにしないのは残念です。

編集:他の2つの可能な解決策。

ClearScanを使用したAdobe Acrobat

Adobe AcrobatでOCRを実行する場合、PDF出力スタイルをデフォルトの検索可能な画像形式からClearScanに変更できます。この形式では、実際には画像も変更され、文字がOCRから派生したアウトラインに置き換えられます。 。これにより、PDFが読みやすくなり、テキストレイヤーが追加されますが、元の画像は変更されます。

中置PDF編集者

このプログラムはテキストレイヤーを表示できるように見えますが、AdobeのOCRがうまくいかない場所を修正するのは難しいようです(たとえば、独自の位置にあるパラの単語だけ)。

残念ながら、これらのオプションはどれも自由に利用できません。

2
Moilleadóir

正確な状況(使用するフォント、図、必要なクリーンアップの量など)によって異なりますが、FineReader Professional Editionで良好な結果が得られました...最も一般的な画像形式(スキャン、tiff、jpgなど)をスキャンし、とりわけhtmlまたはWordに変換できます...

それは無料ではありませんが、あなたはそれを探しているとは言いませんでした。しばらく前にやっていたOCRの作業がたくさんあり、低いエラー率で見事なOCRジョブを実行しました。 <<< ---今日はわかりませんが、これを最初に入手した5年前に、他のいくつかのOCRパッケージを試しましたが、テキスト認識の精度は一般に「異常」でした...宣伝されていましたが(正しく)90-95-98%として。問題は、99%でも、テキストの修正/ページ化のために複数の単語を見ていることです。それは私の許容レベルには高すぎました。

私は生の小売価格が少し高価だったと思います(しかし、私は通常無料が好きで、購入したソフトウェアの方が価値があります;私は「gninux-ese」に堪能です)が、アップグレードのオファーがあります(または購入したときにしました)他のソフトウェアからの小売価格の約50%で、これもアップグレード価格です。私はそれを購入しましたが、バージョン6または7の頃、同様のことが必要な新しいプロジェクトがあったときに、現在のバージョンへのアップグレードを購入しました。最後に購入したのは9.0でした。

私の唯一の[obscure]牛肉は、Unicodeを認識せず、Unicodeファイルを生成しませんでした。現在サポートされている186(Webサイトからの読み取り)言語があります(AFAIK、すべての言語はProf. Ver。に含まれています)が、領域エンコードされた文字セットまたは「コードページ」(ibm-cp850、ms-cp1250、 UTF-8の代わりにiso-8859-1など...)これが私の好みでした。最終的にUTF-8で編集する混合アルファベットファイルをスキャンしていました。

彼らのソフトウェアはトレーニングなしで素晴らしい仕事をします。ユーザー固有の文字を認識するようにトレーニングすることはできますが、そのプロセスが思ったほど便利であるとは思いませんでした(ただし、私が行った(または行った)ほとんどの作業には実際には必要ありませんでした。

私が持っているバージョン(9)では、スクリーンキャプチャから物事を読み取る機能もあります。これは、コピー/貼り付けを有効にしないプログラムに便利な場合があります。

現在も、購入前に試すオプションがあるようです。ウェブサイト:finereader.abbyy.com(professional prod @ http://finereader.abbyy.com/professional )。

0
Astara