一部のPDFファイルは、テキストをコピーするとガベージ( " mojibake ")を生成します(レンダリングはOKですが)。これにより、ファイルを検索できなくなります(検索対象が何であれ)。ゴミと一致しません)。
誰かが簡単な回避策を持っていますか?
例:
Windows用のAdobeReader(最新バージョン)を使用しています-おそらく別のビューアが役立つかもしれませんか? Windows用の無料のソリューションを探しています。オープンソースはさらに良いでしょう。
編集:多価のドキュメント テキストの抽出ツール 問題が発生する理由の概要が記載されています:(2006年1月に最終更新された引用ドキュメント)
- テキストにUnicodeマッピングがない場合があります。 PDFタイプ3フォントにはないことが多く、TeXDVIにはUnicodeに相当する文字がありません。
- Unicodeエンコーディングにはバグがある可能性があります。 Open Officeは、いくつかの文字を同じUnicodeにマップするため、見かけ上の文字が削除され、2倍になります。
これらの場合の最終的な解決策は、フォント内の各グリフをOCRして、それが実際にどの文字であるかを把握することだと思います。グリフの正確な形状が利用できるため、これはノイズの多いスキャンされたドキュメントをOCRするよりも簡単であることに注意してください(「ベクトル」画像であるため、無限の解像度で)。
これを回避する最も簡単な方法は、ファイルを最近のバージョンのGoogle Chrome組み込みのPDF読み取りプラグイン 。次に、Chromeの検索機能を使用してテキストを検索すると、コピーと貼り付けが正しく機能します。
Foxit Reader 、おそらく?
価値があるかどうかについては、Mac OS X10.6.2でSafari4.0.4にリンクしたPDFと、そこにissome Engrish 、PDF画面上の「ゴミ」なしで完璧にレンダリングされます。おそらくUnicodeの問題が発生しています(Windowsではより一般的です)マックOS)?
TVマニュアルの例 :MacのAdobe Reader 8.1.2でも同じ問題ですが、no Macのプレビューを使用してテキストをコピーまたは検索する際の問題。また、Gmailアカウントに送信し、[表示]、[プレーンHTML]の順に選択すると、テキストが表示されます。しかし、AdobeReaderはそれが好きではありません。
そのドキュメントプロパティには、フォントの「エンコーディング:カスタム」が表示されます。 Another ドキュメントには「Encoding:Ansi」や「Roman」などが表示され、MacのプレビューでもAdobeReaderでも問題はありません。
ただし、 Leadtek と Swann の両方の例では、MacのプレビューとGmailで問題が発生し、どちらも「エンコーディング:ID-H」と表示されます。 Phonedisc テストも「エンコーディング:カスタム」で失敗します。
紛らわしく、一貫性はありませんが、 一部のAdobeフォーラム で さらに別の 「エンコーディング:カスタム」(私の強調)を示す例について次の説明を見つけました:
PDFの内部を調べた後、使用可能なエンコーディング情報が存在しないことがわかりました(PDFにも埋め込みフォントデータにも))の意味を導き出すためにドキュメントのページに表示される文字/グリフ。
フォントは実際にはすべて埋め込まれていますが、すべてのエンコーディング情報が削除されています。これは、PDFの典型的な例であり、構文的にPDF仕様に完全に準拠していますが、に関する重要な情報です。その中のテキストの意味はPDFを作成する過程で捨てられました。私が知る限り、エンコーディング情報を回復することは非常に難しいでしょう。
これは、「エンコーディング:カスタム」を使用しても、Adobe Readerが失敗したときにMacのプレビュー(および 明らかに Infixも)がいくつかの例を処理できる理由を説明していません。正確なフォントがコンピュータ自体に存在する場合、プレビューに問題がないのではないでしょうか。あるいは、エンコーディングを推測しているだけなのかもしれません。これは、すべてではなく一部のドキュメントで機能しますか?
これを引き起こすものは何でも:GoogleドキュメントまたはGmailを通過することが機能しない場合、おそらく最も簡単な(しかし簡単にはほど遠い)回避策は、TIFFとして保存してから [〜#〜] ocr [〜#〜 ] 。 Evernote のようなサービスはその場でそれを行うかもしれません(それは画像でOCRを行います;私はそれがPDFでOCRを行うとは思えません)。