web-dev-qa-db-ja.com

LinuxでMS Officeドキュメントからテキストを抽出する方法

LinuxですべてのMS Officeドキュメントタイプ(Word、Excel、PowerPoint)からテキストを抽出する方法が必要です。これを実現するには、BashやPythonスクリプト、またはPDFに変換してから、 pdftotextなどのツール。

これは、ありふれた要件である可能性があるようです。これを簡単に達成するための確立された手順またはツールはありますか?

18
Phyo Arkar Lwin

私はようやく、ドキュメント解析のスクリプトを作成するのに最適なツールを見つけました。これはApache-tikaであり、膨大な数の非テキスト形式をテキストに解析して非常に優れたテキストにすることができます。

ここでApache Tikaを入手してください:

http://tika.Apache.org/

(Mac Homebrewユーザー:brew install tika

コマンドラインインターフェイスは次のように機能します。

tika --text something.docx > something.txt

8
Phyo Arkar Lwin

Catdoc は、doc、xls、pptをテキストに変換できます。 2番目のオプションは wvWare です。

その他のutilsのチェックをチェック http://www.linux.com/archive/articles/52385 Wordからテキストへの変換と

16
nahar

Abiword は、コマンドラインから既知の任意のファイル形式に変換できます。

Wordからプレーンテキストに変換します。

abiword --to=txt myfile.doc

WordファイルからPDFを作成します。

abiword --to=pdf myfile.doc

等々。これらの場合の結果は、myfile.txtまたはmyfile.pdfになります。出力名を指定したい場合は、次のようにすることもできます。

abiword --to=txt --to-name=output.txt myfile.doc

ODTをWordに変換します。

abiword --to=doc myfile.odt

WordをODTに変換します。

abiword --to=odt myfile.doc

他の回答との公平を期して、AbiWordはwvWareを使用してWord文書を処理することに注意してください。ただし、 wvWareホームページ でも、ほとんどの変換ではAbiWordを使用することを推奨しています。

ワープロは嫌いです。これが、AbiWordがインストールされている主な理由です。

unoconv にも興味があるかもしれません。これは、OpenOfficeが知っているフォーマット(スプレッドシートなどが含まれます)をサポートする類似のツールですが、私は個人的には経験がありません。

7
frabjous

LibreOfficeでできること:

libreoffice --invisible --convert-to pdf file1.ppt file2.ppt
3
Dorian

1.doc変換するdocファイルのcatdocまたはantiword次のコマンドを使用できますcatdoc file.doc> fileまたはantiword file.doc> file

  1. docx docx2txt

  2. pdf emacsファイル.pdf ctrl-x ctrl-sファイル

0
Linuxant

[〜#〜] cups [〜#〜] (仮想プリンター)とldを使用できます。

0
ukanth

wv は1つのオプションであり、コマンドラインからIIRC OpenOfficeにPDFとしてエクスポートして終了するように指示できます。

0
ptman

PythonプロジェクトでApache Tikaを使用する場合は、チェックアウトしてください このブログ投稿

0
qris