LinuxのスクリプトでPDFからテキストを抽出する方法

Question

Linuxの場合-スキャンされた画像ではなく、実際にテキストである.pdfからテキストを抽出する方法対話式ではなく、コマンドライン/スクリプトで使用できるものが欲しいのですが。（.tifに変換してOCRを使用したくありません。テキストは.pdfファイルですでに利用可能になっているので、なぜ不完全なOCRによる不正確さを導入するのですか？）

Ignacio Vazquez-Abrams · Answer

popplerに付属するpdftotextは、PDFで見つかったテキストを抽出しようとします。

frabjous · Answer

イグナシオの答えは結構です。実際、それは私のリストの最初のものです。まあ、それはおそらく、テキストを段落などに再構成したい場合、popplerに付属するpdftohtmlツールを pdfreflow と組み合わせて提案することです（もちろん、これはHTML出力が得られますが、HTMLからプレーンテキストへの変換はさまざまな方法で行うことができます。

他にもいくつかのオプションがあります。

ebook-convert Calibre のコマンドラインツール。PDFをプレーンテキストに変換できます（またはRTFまたはePubなどの電子ブック形式など）。

pdftxtextract from Podofo

Abiword は、コマンドラインから呼び出して、入力/エクスポートできる任意のフォーマット間で変換できます。適切なインポートプラグインを使用すると、PDFが含まれます。

abiword --to=txt file.pdf

（公平に言えば、AbiWordと口径の両方がpopplerライブラリーを使用していると思いますが、私は前向きではありません。）