非標準の文字エンコードでPDFを検索

Question

一部のPDFファイルは、テキストをコピーするとガベージ（ " mojibake "）を生成します（レンダリングはOKですが）。これにより、ファイルを検索できなくなります（検索対象が何であれ）。ゴミと一致しません）。

誰かが簡単な回避策を持っていますか？

例：

TEAC TVマニュアルEU2816STF （WindowsとMacの両方のAdobe Readerで上記の問題が発生しますが、Macのプレビューでは正常に動作します）
Leadtek Winfast PVR2マニュアル（FTPリンク; Macでのプレビューにも問題があります）
Swann TVチューナーカードのマニュアル（FTPリンク。Macのプレビューでも問題があります）
Phonediscライセンス契約（現在は廃止されています [〜＃〜] dtms [〜＃〜] ）
マッコーリーIFP四半期ファンドレビュー
BAN-TACS Small Business Booklet （アーカイブ版）
Easterfest 2004チラシ（これもアーカイブから）

Windows用のAdobeReader（最新バージョン）を使用しています-おそらく別のビューアが役立つかもしれませんか？ Windows用の無料のソリューションを探しています。オープンソースはさらに良いでしょう。

編集：多価のドキュメントテキストの抽出ツール問題が発生する理由の概要が記載されています：（2006年1月に最終更新された引用ドキュメント）

テキストにUnicodeマッピングがない場合があります。 PDFタイプ3フォントにはないことが多く、TeXDVIにはUnicodeに相当する文字がありません。

Unicodeエンコーディングにはバグがある可能性があります。 Open Officeは、いくつかの文字を同じUnicodeにマップするため、見かけ上の文字が削除され、2倍になります。

これらの場合の最終的な解決策は、フォント内の各グリフをOCRして、それが実際にどの文字であるかを把握することだと思います。グリフの正確な形状が利用できるため、これはノイズの多いスキャンされたドキュメントをOCRするよりも簡単であることに注意してください（「ベクトル」画像であるため、無限の解像度で）。

acatalept · Answer

これを回避する最も簡単な方法は、ファイルを最近のバージョンのGoogle Chrome組み込みのPDF読み取りプラグイン 。次に、Chromeの検索機能を使用してテキストを検索すると、コピーと貼り付けが正しく機能します。

Alex · Answer

Foxit Reader 、おそらく？

価値があるかどうかについては、Mac OS X10.6.2でSafari4.0.4にリンクしたPDFと、そこにissome Engrish 、PDF画面上の「ゴミ」なしで完璧にレンダリングされます。おそらくUnicodeの問題が発生しています（Windowsではより一般的です）マックOS）？

Arjan · Answer

TVマニュアルの例：MacのAdobe Reader 8.1.2でも同じ問題ですが、no Macのプレビューを使用してテキストをコピーまたは検索する際の問題。また、Gmailアカウントに送信し、[表示]、[プレーンHTML]の順に選択すると、テキストが表示されます。しかし、AdobeReaderはそれが好きではありません。

そのドキュメントプロパティには、フォントの「エンコーディング：カスタム」が表示されます。 Another ドキュメントには「Encoding：Ansi」や「Roman」などが表示され、MacのプレビューでもAdobeReaderでも問題はありません。

enter image description here

ただし、 Leadtek と Swann の両方の例では、MacのプレビューとGmailで問題が発生し、どちらも「エンコーディング：ID-H」と表示されます。 Phonedisc テストも「エンコーディング：カスタム」で失敗します。

紛らわしく、一貫性はありませんが、一部のAdobeフォーラムでさらに別の「エンコーディング：カスタム」（私の強調）を示す例について次の説明を見つけました：

PDFの内部を調べた後、使用可能なエンコーディング情報が存在しないことがわかりました（PDFにも埋め込みフォントデータにも））の意味を導き出すためにドキュメントのページに表示される文字/グリフ。

フォントは実際にはすべて埋め込まれていますが、すべてのエンコーディング情報が削除されています。これは、PDFの典型的な例であり、構文的にPDF仕様に完全に準拠していますが、に関する重要な情報です。その中のテキストの意味はPDFを作成する過程で捨てられました。私が知る限り、エンコーディング情報を回復することは非常に難しいでしょう。

これは、「エンコーディング：カスタム」を使用しても、Adobe Readerが失敗したときにMacのプレビュー（および明らかに Infixも）がいくつかの例を処理できる理由を説明していません。正確なフォントがコンピュータ自体に存在する場合、プレビューに問題がないのではないでしょうか。あるいは、エンコーディングを推測しているだけなのかもしれません。これは、すべてではなく一部のドキュメントで機能しますか？

これを引き起こすものは何でも：GoogleドキュメントまたはGmailを通過することが機能しない場合、おそらく最も簡単な（しかし簡単にはほど遠い）回避策は、TIFFとして保存してから [〜＃〜] ocr [〜＃〜 ] 。 Evernote のようなサービスはその場でそれを行うかもしれません（それは画像でOCRを行います;私はそれがPDFでOCRを行うとは思えません）。