web-dev-qa-db-ja.com

Objective CでPDFテキストを抽出する

この時点まで、私はiPhoneで使用するためにObjective CでPDFファイルからテキストを抽出するためにうまく機能するソリューションを見つけていませんでした。私はいくつかの標準Cコードを見つけて動作するように変更し、ここまでは提供するつもりだと思っていました。あなたはここでそれを得ることができます: https://bitbucket.org/zachron/pdfiphone/overview

入力としてpdfファイルのパスを取り、pdf内のテキストのnsstringを返します。私はこれの大部分を書きませんでしたが、iPhoneとObjective Cで動作するように変更しました。誰かがこれを受け取って作成した場合は、プロジェクトにZlibライブラリ(iPhoneのlibz.dylib)を含める必要があります。それはもっと素晴らしい、それは良い時代です。

53
zachron

これは、PDFに保存されているテキストを抽出する場合にのみ機能することに注意してください。 OCRスキャンされたPDFには対応していません。これを行う場合は、Googleの堅牢でFOSSのOCRエンジンである Tesseract を使用するオプションがあります。 iPhoneでコンパイル :実用的な例については、Nolan Brownの Tesseract-iPhone-Demo を参照してください。イメージングライブラリ ImageMagicはiPhoneでもコンパイルされます 、およびTesseractが入力として受け入れるPDFをTIFFに変換できます。

5
Ori