web-dev-qa-db-ja.com

PDFからテキストコンバーターへ

PDFを取得し、プレーンテキストに変換する「ワンクリック」の方法を探しています。理想的にはOSXまたはLinuxで。

理想的には、ソリューションにOCR機能が含まれますが、必ずしもそうする必要はありません。

最優先事項は、構成なしで任意のファイルを取得できるものを持つことです。

9
themirror

xpdf があり、これにはpdftotextバイナリが含まれています。

Pdftotextは、Portable Document Format(PDF)ファイルをプレーンテキストに変換します。

Linuxでは、インストーラーを利用できます。 poppler-utilsパッケージにも含まれているようです。 OS Xでは、 Homebrew (最初にインストール)を使用してインストールしてから、

brew install homebrew/x11/xpdf

ソースファイルをダウンロードしてOSX用にコンパイルします。その後、次のように使用します。

pdftotext your_pdf_file.pdf

プレーンテキストファイルを生成します。いくつかのオプションもあります。詳細については、man pdftotextを確認してください。

別の方法は、OSXでは poppler です。

brew install poppler

debianとその仲間たち

apt-get install poppler-utils
23
slhck

Windows用の優れたツールは A-PDF Text Extractor

0
Michael S.