web-dev-qa-db-ja.com

PDF内の画像の形式を識別する方法は?

画像が入ったPDFファイルをたくさん受け取りました。元の画像が失われているので、それらを抽出する必要があります。私はAdobeAcrobat Proを持っているので、Advanced > Document Processing > Export All Imagesを使用して抽出しました(jpeg、png、tiff、jpeg2000の4つのオプションがあります)。しかし、私はそれらを元の形式で抽出したいと思います、そしてこれは明らかにjpegではありません:私もテストしました ここに概説されているようにxpdfからpdfimages.exe 、そしてこれはjpegではなく.ppmファイルを与えました。

だから私はImageMagickの識別を試しました、それが私に与えたのはこれでした:

identify images-000.ppm
images-000.ppm PPM 870x1181 870x1181+0+0 8-bit sRGB 3.082MB 0.000u 0:00.000

これは、埋め込まれた.bmpであったことを示していますか?見分ける方法は?実際、Acrobatの関数が画像の形式を識別することを期待していましたが、見つかりませんでした。

では、PDF内の画像の画像形式を識別するための最良の方法は何ですか?

(バッチ機能のため、Acrobatを介した抽出を好みます)。

6
arjan

AFAIK、PDF内に埋め込まれた画像XObjectは、元の画像形式に関する情報を保存しません。せいぜい埋め込みJPEGの場合はそのまま抽出できますが、それ以外の場合はすべて、変換する必要のあるPxM画像になります。

4
Karan

写真はポータブルピックスマップファイル形式です。 (詳細については、 Wikipedia:Netpbm形式 を参照してください)。

は、netbmpツールを使用して、これらをより最新のbmpに変換できます。
その構文は次のとおりです:ppmtobmp images-000.ppm > images-000.bmp

http://netpbm.sourceforge.net/ はnetpbmのホームページです。

ドキュメントに複数の画像がありますか?または、PDFでidentify images-000.ppmの行を検索し、その場所からファイルを切り取ってppmtobmpにフィードすることはできますか?それを自動化するのは難しいことではありません。

2
Hennes