web-dev-qa-db-ja.com

LinuxのスクリプトでPDFからテキストを抽出する方法

Linuxの場合-スキャンされた画像ではなく、実際にテキストである.pdfからテキストを抽出する方法対話式ではなく、コマンドライン/スクリプトで使用できるものが欲しいのですが。 (.tifに変換してOCRを使用したくありません。テキストは.pdfファイルですでに利用可能になっているので、なぜ不完全なOCRによる不正確さを導入するのですか?)

24
RobM

popplerに付属するpdftotextは、PDFで見つかったテキストを抽出しようとします。

イグナシオの答えは結構です。実際、それは私のリストの最初のものです。まあ、それはおそらく、テキストを段落などに再構成したい場合、popplerに付属するpdftohtmlツールを pdfreflow と組み合わせて提案することです(もちろん、これはHTML出力が得られますが、HTMLからプレーンテキストへの変換はさまざまな方法で行うことができます。

他にもいくつかのオプションがあります。

ebook-convertCalibre のコマンドラインツール。PDFをプレーンテキストに変換できます(またはRTFまたはePubなどの電子ブック形式など)。

pdftxtextract from Podofo

Abiword は、コマンドラインから呼び出して、入力/エクスポートできる任意のフォーマット間で変換できます。適切なインポートプラグインを使用すると、PDFが含まれます。

abiword --to=txt file.pdf

(公平に言えば、AbiWordと口径の両方がpopplerライブラリーを使用していると思いますが、私は前向きではありません。)

10
frabjous