web-dev-qa-db-ja.com

PDF to text -converter)のようなものはありますか?

PDFファイルをテキストに変換してコマンドラインから一括で検索できるようにする必要があります。Ubuntu、OBSD、または類似のディストリビューション用のコンバーターはありますか?

おそらく関連する投稿、ubuntuによるOCR ここ

21
otto

あなたにはたくさんのオプションがあります!

pdftotext from poppler はすでに言及されています。

pdf2line と呼ばれるHaskellプログラムがあり、うまく動作します。

calibreebook-convertコマンドラインプログラム(または口径自体)も別のオプションです。 PDFをプレーンテキストまたは他の電子ブック形式(RTF、ePub)に変換できます)、かなり遅いですが、私の意見では、pdftotextよりも優れた結果を生成します。

ebook-convert file.pdf file.txt

AbiWord はコマンドラインから認識できる任意のフォーマット間で変換でき、少なくともオプションでPDFインポートプラグイン:

abiword --to=txt file.pdf

さらに別のオプションはpodofotextextractpodofo PDF tools library。]からです。 私は実際には試していません。

2つのGhostscriptツールpdf2psps2asciiを組み合わせると、さらに別のオプションが利用できます。

実際にはさらにいくつかの方法を考えることができますが、今のところはそのままにしておきます。 ;)

22
frabjous

コマンドラインで pdftotext を使用してPDFをテキストに変換できます(Ubuntu: poppler-utils ; OpenBSD:xpdf-utilsパッケージ)。

Recoll (Ubuntu: recoll ; OpenBSD:ポートがありませんが、 FreeBSD 。のポートが1つあります)を使用して、さまざまな形式のテキストドキュメントタイプ内を検索できます、PDFを含む。 GUIがあり、内部で自動的にインデックスを作成します。 pdftotextを使用してPDFをテキストに変換します。

Acrobat Reader(Linuxでは少なくともバージョン9)には、複数ファイルの検索機能が制限されています(ディレクトリ内のすべてのファイルを検索できます)。

pdftotextはあなたが探しているものである可能性があります: http://en.wikipedia.org/wiki/Pdftotext 抽出したいテキストが実際にはpdfで一般的ではないグラフィック形式の下にない限りドキュメント。

4
jlliagre