コマンドラインからPDFファイルを検索するにはどうすればよいですか？

Question

論文の参照をチェックしており、（参照リスト内の）いくつかの論文が参照されている本文内の位置を検索したい。 bashを介した検索をサポートし、ポジションのコンテキストを抽出するPDFエディターはありますか？ PDFをテキストに変換しようとしましたが、良い結果が得られませんでした。

Joe · Accepted Answer

上記の答えに追加するために、特に、pdftotextと呼ばれるxpdf-utilsのコマンドラインツールを使用し、このツールで作成されたテキストドキュメントをgrepで検索できます。

これは次のようになります。

pdftotext document.pdf - | grep -C5 -n -i "search term"

マニュアルに詳細があります。 pdftotextの唯一の欠点は、複数のファイルを同時に変換することができないことです。この問題は、小さなbashスクリプトで克服できます。

for f in pdf_directory; do echo $f; pdftotext $f - | grep -i "search_term"; done

たとえば、互換性のないpdfファイルが原因で、pdfからテキストドキュメントを作成する際に問題がある場合は、別の問題です。

一般に、pdfエディターはグラフィカルであるため、コマンドラインは含まれていないと思います。 bash（またはzsh！）を使用する場合は、ターミナルシェルを使用する必要があります。

幸運を！

Mitch · Answer

poppler-utils

注：xpdf-utils 移行パッケージです poppler-utilsの場合。

Poppler-utilsを使用できます。 poppler-utilsは、PDF（Portable Document Format）ファイル用のツールスイートです。

それをインストールするには、Ubuntu Software Centerを使用するか、以下をクリックしてください。

pdfgrep

pdfgrepは、ディレクトリツリーでPDFファイル内の文字列またはパターンを再帰的に検索し、一致をカウントするか、一致ごとにコンテキストを出力できます。たとえば、/some directoryでkeywordを再帰的に検索するには、大文字と小文字を区別しません。

pdfgrep -Ri keyword /some/directory

Pdfgrepは、PDFファイル内のテキストを検索するツールです。これは「grep」と同様に機能します。

特徴：

正規表現を検索します。

以下を含むいくつかの重要なgrepオプションのサポート：+ファイル名出力。 +ページ番号の出力。 +大文字と小文字を区別しないオプション。 +カウント
発生。

そして最も重要な機能：カラー出力！

^{¹ソース： buntu Apps Directory}

ignite · Answer

Pdfgrepを使用して複数のpdfファイルで正規表現を検索するには：

find /path -iname '*.pdf' -exec pdfgrep -H 'pattern' {} \;

pathはPDFファイルの場所です。