web-dev-qa-db-ja.com

非標準の文字エンコードでPDFを検索

一部のPDFファイルは、テキストをコピーするとガベージ( " mojibake ")を生成します(レンダリングはOKですが)。これにより、ファイルを検索できなくなります(検索対象が何であれ)。ゴミと一致しません)。

誰かが簡単な回避策を持っていますか?

例:

  1. TEAC TVマニュアルEU2816STF (WindowsとMacの両方のAdobe Readerで上記の問題が発生しますが、Macのプレビューでは正常に動作します)
  2. Leadtek Winfast PVR2マニュアル (FTPリンク; Macでのプレビューにも問題があります)
  3. Swann TVチューナーカードのマニュアル (FTPリンク。Macのプレビューでも問題があります)
  4. Phonediscライセンス契約 (現在は廃止されています [〜#〜] dtms [〜#〜]
  5. マッコーリーIFP四半期ファンドレビュー
  6. BAN-TACS Small Business Booklet (アーカイブ版)
  7. Easterfest 2004チラシ (これもアーカイブから)

Windows用のAdobeReader(最新バージョン)を使用しています-おそらく別のビューアが役立つかもしれませんか? Windows用の無料のソリューションを探しています。オープンソースはさらに良いでしょう。

編集:多価のドキュメント テキストの抽出ツール 問題が発生する理由の概要が記載されています:(2006年1月に最終更新された引用ドキュメント)

  • テキストにUnicodeマッピングがない場合があります。 PDFタイプ3フォントにはないことが多く、TeXDVIにはUnicodeに相当する文字がありません。
  • Unicodeエンコーディングにはバグがある可能性があります。 Open Officeは、いくつかの文字を同じUnicodeにマップするため、見かけ上の文字が削除され、2倍になります。

これらの場合の最終的な解決策は、フォント内の各グリフをOCRして、それが実際にどの文字であるかを把握することだと思います。グリフの正確な形状が利用できるため、これはノイズの多いスキャンされたドキュメントをOCRするよりも簡単であることに注意してください(「ベクトル」画像であるため、無限の解像度で)。

19
Hugh Allen

これを回避する最も簡単な方法は、ファイルを最近のバージョンのGoogle Chrome組み込みのPDF読み取りプラグイン 。次に、Chromeの検索機能を使用してテキストを検索すると、コピーと貼り付けが正しく機能します。

3
acatalept

Foxit Reader 、おそらく?

価値があるかどうかについては、Mac OS X10.6.2でSafari4.0.4にリンクしたPDFと、そこにissome Engrish 、PDF画面上の「ゴミ」なしで完璧にレンダリングされます。おそらくUnicodeの問題が発生しています(Windowsではより一般的です)マックOS)?

3
Alex

TVマニュアルの例 :MacのAdobe Reader 8.1.2でも同じ問題ですが、no Macのプレビューを使用してテキストをコピーまたは検索する際の問題。また、Gmailアカウントに送信し、[表示]、[プレーンHTML]の順に選択すると、テキストが表示されます。しかし、AdobeReaderはそれが好きではありません。

そのドキュメントプロパティには、フォントの「エンコーディング:カスタム」が表示されます。 Another ドキュメントには「Encoding:Ansi」や「Roman」などが表示され、MacのプレビューでもAdobeReaderでも問題はありません。

enter image description here

enter image description here

ただし、 LeadtekSwann の両方の例では、MacのプレビューとGmailで問題が発生し、どちらも「エンコーディング:ID-H」と表示されます。 Phonedisc テストも「エンコーディング:カスタム」で失敗します。

紛らわしく、一貫性はありませんが、 一部のAdobeフォーラムさらに別の 「エンコーディング:カスタム」(私の強調)を示す例について次の説明を見つけました:

PDFの内部を調べた後、使用可能なエンコーディング情報が存在しないことがわかりました(PDFにも埋め込みフォントデータにも))の意味を導き出すためにドキュメントのページに表示される文字/グリフ。

フォントは実際にはすべて埋め込まれていますが、すべてのエンコーディング情報が削除されています。これは、PDFの典型的な例であり、構文的にPDF仕様に完全に準拠していますが、に関する重要な情報です。その中のテキストの意味はPDFを作成する過程で捨てられました。私が知る限り、エンコーディング情報を回復することは非常に難しいでしょう。

これは、「エンコーディング:カスタム」を使用しても、Adobe Readerが失敗したときにMacのプレビュー(および 明らかに Infixも)がいくつかの例を処理できる理由を説明していません。正確なフォントがコンピュータ自体に存在する場合、プレビューに問題がないのではないでしょうか。あるいは、エンコーディングを推測しているだけなのかもしれません。これは、すべてではなく一部のドキュメントで機能しますか?

これを引き起こすものは何でも:GoogleドキュメントまたはGmailを通過することが機能しない場合、おそらく最も簡単な(しかし簡単にはほど遠い)回避策は、TIFFとして保存してから [〜#〜] ocr [〜#〜 ]Evernote のようなサービスはその場でそれを行うかもしれません(それは画像でOCRを行います;私はそれがPDFでOCRを行うとは思えません)。

2
Arjan