web-dev-qa-db-ja.com

検索エンジンはPDFをクロールしますか?

私が取り組んでいるWebサイトには、数百のPDFがあります。私は彼らが検索で戻ってくるのを見たことがないと思いますが、外部サイトから直接リンクされています。また、製品ドキュメントであるため、キーワードでいっぱいです。

Googleや他の検索エンジンでクロールするために必要な特別なことはありますか?

GoogleがPDFをより気に入ってくれるようにPDFを作成するための厳格なルールはありますか?例えば、生成中にアドビが作成した壊れたPDFタグをクリーンアップするために、それらをghostscriptで実行する必要がありますか?

22
Ben Hoffman

Google 間違いなくPDFファイルにインデックスを付けます 検索クエリにfiletype:pdfを追加することで、PDFファイルだけを検索できます( )。

PDFを最適化するために行うべき主なことは、インデックスを簡単に作成できるようにすることです。

  • 意味のあるファイル名を付けてください
  • すべてのドキュメントメタデータプロパティ(タイトル、作成者、キーワードなど)を完成させる
  • PDFがスキャンされた画像ではなく、実際のテキストで構成されていることを確認してください
  • HTMLドキュメントと同じように、見出しを正しく使用して適切なコンテンツを確保します

その他のヒントについては、 Optimizing PDF Documents および Search EnginesのPDFを最適化する11のヒント を参照してください。

17
Dan Diplo

他の検索エンジンについてはわかりませんが、Googleに関する限り、主なルールはrobots.txtを介してそれらを除外しないことです。

これ は、PDF検索をサポートする最初の発表でした。

1
intlect

ウェブサイトをSEOに準拠させることはSEOに害を与えないように、PDFにアクセスできるようにすることは害になりません。アドビのビルトインアクセシビリティチェッカーは完璧とはほど遠いですが、少なくともこれらの領域を修正することで始めることができます。

私は、おそらく4〜5枚ごとに5分を費やしますが、ほとんどはオンラインで作成したテキストPDFです。ページ数、およびそれらのページの複雑さに応じて、時間が均等に長くなります。

編集を行うAdobe Acrobat Proがあると仮定します。

  • アクセシビリティ完全チェックを実行します。 (クイックチェックは私にはかなり無意味です)
  • ドキュメントプロパティ(キーワード、件名、言語など)のメタ情報を更新します。
  • タグが追加されていることを確認してください
  • テキストがテキストとして、画像が画像として、背景が背景としてタグ付けされていることを確認してください
  • 役に立たない綿毛(装飾やデザインなど)を背景としてタグ付けする
  • 画像に適切な代替テキストを追加する
  • 読み上げ順序で、テキストが適切に並べられていることを確認してください
  • コンテンツツールバーで、テキストが重複していないか、著しく翻訳されていないことを確認します
  • スキャンしたページでOCRスキャナーを使用する

テーブルのようなより高度な編集や、本当に奇妙なAdobeエラーのために、CommonLookと呼ばれるプラグインを使用します。 CommonLookは仕事を終わらせますが、私はAdobeツールが嫌いであるのと同じくらい嫌いです。

Touch Up Reading Orderツール、Tagsツールバー、Reading Orderツールバー、およびContentツールバーに慣れます。私の仕事は、ウェブに出かける前に完全に準拠したドキュメントを必要としますが、誰でもいくつかの簡単なタグ付けとドキュメントプロパティの恩恵を受けることができます。

1
MrChrister