web-dev-qa-db-ja.com

PDFファイルをスプレッドシートに変換する方法

私は一日中、いくつかを変換しようとしています。 MS Office ExcelやUbuntuのLibreOffice Calcなどのスプレッドシートへのサンパウロのトラフィックフローを含むPDFファイル。 LibreOffice Calcで.pdfファイルを開くと、LibreOffice Drawが開き、スプレッドシートを取得できません。

私が見つけた最も有望な方法は、pdftotextを使用した here でした。それは正常に動作し、LibreOffice Calcでテーブルを取得できますが、手動で列を調整します。

私の問題は、たくさんの.pdfファイルがあり、時間がかかることです。

誰かがより良い方法を知っていますか?

14
Sergio

別のオプションはOkular( http://okular.kde.org )を使用することです。テーブル選択ツール(Ctrl + 5)があります。テーブルを選択し、行と列の行を追加して、結果のテーブルをクリップボードにコピーできます。それは私にとってはうまくいきます。

21
Dmitry Somov

Tabula は非常にうまく機能します。 PDFは、構造化された情報を簡単に抽出できる形式ではないため、常に可能であるとは限りません。

13
scruss

多分-layoutが役に立ちます。このオプションを設定すると、pdftotextは結果のテキストファイルに列のレイアウトを保持しようとします。

これで、適切なインポート設定でテキストファイルをLibreOffice Calcにインポートできます。 Calcでtxtファイルを開くと、ファイルの内容を解析する方法を尋ねられます(下のスクリーンショットを参照)。下 Separator Options、両方のオプションを選択[separated by] SpaceおよびMerge Delimiters。このようにして、Calcは列構造を復元できます(セルデータにスペースが含まれていない場合)。

text import into calc

11
tohuwawohu

Able2Extract と呼ばれるツールは、最小限のエラーで正確に実行できるオプションです

4
Ruyonga Dan