web-dev-qa-db-ja.com

PDFをHTMLに変換するにはどうすればよいですか?

PDFをHTMLに変換するために、一般的な言語でどのような優れたライブラリがありますか?

27
user178644

ApacheのPDFBoxにはhtml抽出機能があります。 http://pdfbox.Apache.org/

5
John Thorhauer

Windowsボックスで作業している場合、 Amyuni にもこのためのライブラリがあると思います。それらのPDF Document ConverterはDLLとしてアクセス可能であり、Visual Studioでサポートされている言語間で広く使用でき、RTF、TML、Excel、JPEG、およびTIFFに変換できます。

3
William Daniel

Linuxの場合インストール pdftohtml -フォルダ内のすべてのファイルをバッチ変換するには、次を使用します。

ls *.pdf | xargs -I{} pdftohtml {}

これにより、元のドキュメントからのすべての参照と画像を含むhtmlサイトが作成されます。個別のhtmlファイル内のすべてのページ。一般的なシステムファイル検索を使用して、プロジェクトのドキュメントをフレーズごとに検索するように変換するのに非常に便利です。

1
Zon

http://www.lowagie.com/iText/両方のオープンソースライブラリJava =およびC#

1
AZ_

pdftohtml プログラムは、pdfをhtmlおよびxmlに変換し、テーブルのスクレイピングに役立つテキストの位置情報を保持します。

これはxpdfライブラリに基づいているようで、Windowsバイナリもあります。

1
Karsten W.

元の質問のあいまいさを考慮して、先に進み、コマンドラインアプリを実行できるすべての言語で機能するソリューションを提供します。セットアップを行うのは少し難しいかもしれませんが、 OpenOffice はサーバー上でヘッドレスモードで実行でき、 jodconverter の助けを借りて、任意のファイル形式をに変換できます。その他のファイル形式(つまり、openofficeが処理できる形式変換)。

セットアップに役立つリンクをいくつか示します。

0
Karim

Perlでは、 SWISH :: Filter プラグイン SWISH :: Filters :: Pdf2HTML を使用できます。 ( xpdfパッケージ が必要です。)

逆(HTMLからPDF)については、 この質問 を参照してください。

0
Ether

PDFをHTMLに1回または2回変換する方法を探しているなら、私はお勧めします Adobe Online Conversion

それがあなたが求めているAPIの場合、 http://www.pdfonline.com/ には、ニーズに合ったSDKがあります。

探しているライブラリの場合は、どのサーバーサイド言語を使用するかをお知らせください。

0
Russ Bradberry