web-dev-qa-db-ja.com

PDFファイルをOCRしてPDF内に保存されているテキストを取得する方法は?

最初に、これが以前に尋ねられた場合はお詫びします-私は既存の投稿をしばらく検索しましたが、サポートを見つけることができませんでした。

Fedoraが複数ページの検索不可能なPDFをOCRし、このPDFをテキストレイヤーを含む新しいPDFファイルに変換するソリューションに興味があります。画像の上部。 Mac OSXまたはWindowsではAdobe Acrobatを使用できますが、Linux、特にFedoraにソリューションはありますか?

これ は解決策を説明しているようです-しかし、残念ながら、exact-imageを取得すると、すでに失われています。

26
ingli

Tesseractが検索可能なPDFも生成できるようになったことを知った後、次のスクリプトサンドイッチを見つけました。 http://www.tobias-elze.de/pdfsandwich/

依存関係をインストールした後(これは完全なリストではない可能性があります)

Sudo dnf install svn ocaml unpaper tesseract

ソースからコンパイルするためのスクリプトのガイドに従いました

ソースからコンパイル

pdfsandwichはオープンソースソフトウェア(ライセンス:GPL)です。ソースは、プロジェクトのWebサイトのダウンロードエリアから.tar.bz2パッケージとしてダウンロードするか、Subversionでチェックアウトできます。

svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich

システムにOCamlがインストールされている場合は、次のようにコンパイルしてインストールできます。

cd pdfsandwich
./configure
make
Sudo make install

これで実行できます

sandwich multipaged-non-searchable.pdf

検索可能なPDFになります。

10
ingli

PDFを変更しないため、pypdfocrを使用するのが最善で最も簡単な方法です。 pypdfocrはpythonここにモジュールリンクです。

pypdfocr your_document.pdf

最後に別のyour_document_ocr.pdf検索可能なテキストを使用して、希望する方法で。アプリは画像の品質を変更しません。オーバーレイテキストを追加して、ファイルのサイズを少し大きくします。

コマンドはGUIを必要としないのでかなり簡単だと思います。多分pypdfocrのインストールはもう少し冗長です:

Sudo dnf -y install tesseract 
pip install pypdfocr 

2018年11月3日更新:

pypdfocrは2016年以降サポートされなくなり、メンテナンスされていないためにいくつかの問題に気づきました。 ocrmypdfmodule )は同様のジョブを実行し、次のように使用できます。

ocrmypdf in.pdf out.pdf

インストールするには:

pip install ocrmypdf

または

Sudo apt install ocrmypdf #ubuntu
Sudo dnf -y install ocrmypdf #Fedora
28

Ubuntuで利用できる簡単なツールは「ocrfeeder」で、元のドキュメントにOCRテキストをオーバーレイしたPDFを生成できます。 Tesseractと他のOCRエンジン(どちらかわからない)を利用し、画像の回転や「アンペーパー」なども提供します。

5
jdpipe

私も同じ問題を抱えていたので、週末にこれを書きました。試してみます;それはうまくいきます! tesseractの単純なラッパーです。 pdftoppmを使用してPDFを一連のTIFFファイルに変換し、次にtesseractを使用してOCR(光学式文字認識)を実行し、 searchable PDF出力として。スクリプトが完了すると、すべての中間一時ファイルが自動的に削除されます。

ソースコード: https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF

インストールと使用方法pdf2searchablepdf

2019年11月11日にUbuntu 18.04でテスト済み。

インストール:

git clone https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF.git
./PDF2SearchablePDF/install.sh

Sudo apt update
Sudo apt install tesseract-ocr

使用する:

pdf2searchablepdf mypdf.pdf

これで、検索可能なテキストを含むmypdf_searchable.pdfというPDFが作成されます。

できました。現在は完全にbashで記述されているため、python依存関係はありません。

参照または関連リソース:

  1. PDF2SearchablePDFhttps://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF
  2. https://askubuntu.com/questions/473843/how-to-turn-a-pdf-into-a-text-searchable-pdf/1187881#1187881
  3. https://askubuntu.com/questions/16268/whats-the-best-simplest-ocr-solution
  4. https://askubuntu.com/questions/150100/extracting-embedded-images-from-a-pdf/1187844#1187844
  5. pdfsandwich:私が見つけた代替のソフトウェアラッパーです。これもチェックする価値があります! http://www.tobias-elze.de/pdfsandwich/
2
Gabriel Staples