web-dev-qa-db-ja.com

変換PDF to DOC(Python / Bash)

PdfToWord のように、ユーザーがPDFをアップロードしてDOCファイルを返すことができるページをいくつか見ました。

Pythonまたは任意のUnixコマンドを使用してPDFファイルを_DOC/DOCX_ファイルに変換する方法はありますか?

前もって感謝します

8
AlvaroAV

LibreOfficeがインストールされている場合

lowriter --invisible --convert-to doc '/your/file.pdf'

Python for this this:

import os
import subprocess

for top, dirs, files in os.walk('/my/pdf/folder'):
    for filename in files:
        if filename.endswith('.pdf'):
            abspath = os.path.join(top, filename)
            subprocess.call('lowriter --invisible --convert-to doc "{}"'
                            .format(abspath), Shell=True)
7
user3058846

PDFはプレゼンテーション指向であり、Word文書はコンテンツ指向であるため、これは困難です。私は両方をテストしており、以下のプロジェクトを推奨できます。

  1. PyPDF2
  2. PDFMiner

ただし、変換ではプレゼンテーションの側面が失われることになります。

7
ham-sandwich