web-dev-qa-db-ja.com

PDF(および検索可能にする)でテキストが検索できない理由を見つける方法

PDF記事(私が作成したものではありません)を持っています。しかし、PDF内のテキストを検索できません。すべてのPDFビューアを試してみました明らかにそこにある単語の結果はゼロです。AdobeAcrobatProfessional8、SumatraPDF、およびGoogleChromeで試しました。

どうすればわかりますかなぜドキュメントが検索できないのですか?

私がチェックしたこと:

  • PDFプロデューサーは「pdftopdf」として報告され、PDfバージョンは1.3として報告されます。ただし、MSWordやOpenOffice(* TEXではない)などで作成されたようです
  • フォントはすべてのズームレベルで鮮明でクリアであり、テキストは選択可能であるため、スキャンされたドキュメントではありません。
  • セキュリティ設定を見れば(ctrl-D Adobe Acrobatでは)すべてが許可されています(印刷、コピーなど)。
  • 検索オプションで「マッチケース」がオンになっていない
  • このページにはレンダリング可能なテキスト」が含まれているため、Acrobatの「OCRを使用してテキストを認識」を使用して検索可能なドキュメントに変換できません。

では、DPFが検索できない理由は他に何でしょうか?そしてそれをテキスト検索可能にする方法は?

4
Rabarberski
  • ASCIIまたはUTF-8/Unicodeなどの確立されたエンコーディングと互換性のない方法で、コードポイントを文字に割り当てるカスタムフォントエンコーディングが含まれている場合があります。

  • 文字を個別に順番どおりにレンダリングしない場合があります

  • 文字がパスにフラット化されている可能性があります

https://stackoverflow.com/questions/12703387/pdf-font-encoding を参照してください。
および https://stackoverflow.com/questions/4523283/how-do-you-debug-pdf-files

テキストを検索可能にするには、元のソース(Word文書など)に戻り、別のプロセスを使用してPDFを作成するのが最善の方法です。あるいは、現在のPDFをビットマップとしてレンダリングしてからOCRを使用することもできます。

7
RedGrittyBrick

私はこの問題を回避する方法を見つけました。ツール->ドキュメントのテキストを編集してから、各ページでControl-A(すべて選択)を押し、右クリックしてプロパティに移動し、フォントを別のフォントに変更しました。これを行った後、テキストは検索可能になり、テキストをコピーできました。

1
Don

それで、うまくいかなかった多くのことを試した後。これが私が実際にこれを成し遂げた方法です:

  1. PDF to Wordコンバーターか何か。(私はお勧めします https://www.online-convert.com/

  2. その前に変換するために必要なすべての手順に従ってください-

  3. 「光学式文字認識」のようなボタンを見つけてクリック

  4. ファイルを変換すると、黄金色になります。

0
Alex

私も同じ問題を抱えていましたが、欲求不満でググって答えを見つけました。私にとって問題は、iMacでプレビューを使用してPDFを表示および検索していたことでした。ほとんどの場合、検索はプレビューで機能します。しかし、Googleブックスからダウンロードした大きな本の場合、そうではありませんでした。

うまくいったのは、単にAdobe ReaderでPDF)を開くことでした(ええと、なんとその概念だと思います)。誰かを助けるかもしれません。

0
Susan

[編集]-[設定]に移動します-設定画面の左側から[検索]を選択し、次に[キャッシュの内容を削除]を選択します-[OK]を選択してドキュメントを閉じて再度開きます

0
hope this helps