web-dev-qa-db-ja.com

スキャンした画像をPDFを検索可能なPDFファイルに変換するにはどうすればよいですか?

スキャンした本のPDFがあります。

OCRを実行し、それをPDFまたはドキュメントとして再度保存するオプションを提供する無料のソフトウェアを探しています。

ありますか?

19
yuval

Adobe Acrobat Pro の30日間の試用版をダウンロードし、「OCRテキスト認識」機能を使用できます(「ドキュメント> OCRテキスト認識> OCRを使用してテキストを認識...」)。設定ダイアログで、出力スタイルとして「検索可能な画像」を選択します。これにより、ページ画像は保持されますが、OCRされたテキストが埋め込まれるため、ドキュメントが検索可能になり、テキストの選択、コピー、貼り付けが可能になります。

OCRを実行した後、「OCR名寄せ候補の検索」機能の使用についてOCRが不確かな単語を確認または修正する必要があります。

5
pelms

Googleアカウントをお持ちの場合、GoogleドキュメントにPDFファイルをアップロードしてOCRを実行する機能が含まれるようになりました。

私は自分で試してみましたが、確かに適切にフォーマットされたPDFをかなり試しました。

フォーマットはかなり破壊されていますが、テキストは存続しているようです。

4
Richard Lucas

次の製品はインターネットに掲載されていましたが、使用していません。

オンラインOCR

OCRターミナル

OCRターミナルは、スキャンした画像とPDFファイルに対して光学式文字認識(OCR)を実行し、それらを編集可能なテキスト検索可能なドキュメントにレンダリングするオンラインOCRサービスです。

無料のOCR

Free-OCR.comは無料のオンラインOCR(光学式文字認識)ツールです。これを使用して、提供する任意の画像に対してOCRを実行できます。
このサービスは無料で、登録は必要ありません。また、メールアドレスも必要ありません。
画像ファイルをアップロードするだけです。 Free-OCRはJPG、GIF、TIFFのいずれかを受け取りますBMPまたはPDF(最初のページのみ)唯一の制限は、画像が2MB以下、5000ピクセル以下、または1時間あたり10枚の画像アップロードという制限があることです。

Maestro Recognition Server は商用ですが、オンラインのtry-itデモがあります。

無料ソフトウェア

FreeOCR -画像のみ。

FreeOCRは、Tesseract GUIとしても知られるTesseractフリーocrエンジンを含むスキャン&OCRプログラムです。これにはWindowsインストーラーが含まれており、使用方法は非常に簡単で、複数ページのTIFF、FAX文書、およびTesseractエンジン自体では読み取ることができない圧縮TIFFを含むほとんどの画像タイプをサポートしています。Twainスキャンが追加されました。

pdfsandwich -pdf-> pdfコンバーター。

pdfsandwichは、OCRでスキャンされた本またはジャーナル用のコマンドラインツールです。複数列のテキストでもページレイアウトを認識できます。

基本的に、pdfsandwichは、convert、cuneiform、gs、およびhocr2pdfのバイナリを呼び出すラッパースクリプトです。 Unixシステムで動作することが知られており、LinuxとMacOS Xでテストされています。マルチプロセッサシステムでの並列処理をサポートしています。

4
harrymc

Cuneiform + hocr2pdf + Ghostscript:DIYオープンソースソリューション。

私は投稿しました answer 現在オープンソースの a version を含むソリューションの概要 Cuneiform OCRシステムと hocr2pdf = Ghostscript とともにPDFページをまとめるため。

これは特にLinux用でしたが、Windows用のCuneiformとGhostscriptも入手できます。しかし、hocr2pdfまたは同等のものについてはわかりません。

2

ここにあります 非常に奇妙な方法で、WebサイトでGoogleにインデックスを作成してOCRを実行させてから取得します。

1
jtbandes

あなたのリクエストは問題の複雑な解決策のようですが、私は問題を正しく理解していない可能性があります。とにかく:

PDF pdfのページに直接データを入力できるライターを手に入れませんか?

0
Xavierjazz

試してみてください PDFCubed.com インストールするものは何もありません。すべてオンラインで行われます。処理するドキュメントをウェブ、メール、ドロップボックスから送信できます。スキャンしたPDFとTIFは検索可能なテキストPDFに変換され、Web、電子メール、またはドロップボックスを介して取得できます。

0
rlangner

インストール Imagemagick 。コマンドウィンドウまたはターミナルを開きます。

convert myfile.pdf myfile-%02d.jpg

出力は、pdf、myfile-00.jpg、myfile-01.jpgなどの各ページに1つのjpgファイルになります。

各画像をocrプログラムに渡します。私はこれについてあまり経験がありませんが、選択肢はたくさんあるようです。

テキストの各ページをPDFに変換します。 imagemagickでもこれを行うことができますが、他の方法もあります。

convert page-%02d.txt -density 300x300 -compress jpeg final.pdf
0
DaveParillo