web-dev-qa-db-ja.com

Googleでインデックス付けされたCDN画像を取得する

メインホスト(exampledomain.com)とは別に、Cloudfront CDNでホストされているユーザーアップロード画像が500,000近くあります。この時点まで、それらのほとんどはデフォルトの配布URLで索引付けされていませんでした。例:

https://d7oxxxxxxx.cloudfront.net/images/example_directory/subdirectory/LG_example_filename.jpg

そこで、CNAME(代替ドメイン名)を追加して、URLがhttp://media.exampledomain.com/images/example_directory/subdirectory/LG_example_filename.jpgになるようにしました。

そして、Google Search Consoleで確認済みドメインとして「media.exampledomain.com」を追加しました。

また、exampledomain.comでホストされている動的なサイトマップを使用します。このサイトマップには、インデックスを作成するすべての画像が一覧表示されます。例:

<url>
<loc>http://www.exampledomain.com/directory/pagename</loc>
<changefreq>daily</changefreq>
<image:image>
<image:loc>
http://media.exampledomain.com/images/exampledirectory/subdirectory/LG_filname.jpg
</image:loc>
<image:title>Example Image Title</image:title>
<image:caption>Example Image Caption</image:caption>
</image:image>
</url>

私が読んだことによると、これにより、Googleはすべての画像のインデックス作成を開始できます。ただし、1週間も待たずに、他に何かしなかったことや、他の何かが画像のインデックス登録をブロックしている可能性があることを知りたくありません。私が知る限り、Cloudfront URLはすべて完全に公開されており、CDNにはrobots.txtの制限はありません。現在アクティブなCloudfrontディストリビューションは1つしかありませんので、コンテンツの重複に関する問題はないと考えています。私が考慮する必要があるかもしれない何か、またはそれがうまくいくかどうかを事前に見ることができる何らかの方法がありますか?

あなたが提供できる助けをありがとう。

UPDATE:

これを数日追跡しています。 Googleのボットは、サイトのすべてのページをニースSwiftレート(1日で50,000ページ以上!)でクロールし、インデックスを作成しています。ただし、画像にはまだ問題があります。サイトマップに送信された画像は160,000を超えており、Googleがそれらの約15,000をクロールしましたが、実際にインデックス化されたのは50のみです。 Googleがこれらの問題を抱えている理由は誰にもありますか?

URLの1つの形式の例を次に示します。すべてのファイルの末尾に12〜14桁のタイムスタンプが追加されます。

http://media.exampledomain.com/images/category/id/LG_keywords_1442182082.5437.jpg

4
Ian Spangler

それはほとんど私がやったことです。

  • CNAMEレコードを含むCDNの画像。
  • Google WebmastersでCDNドメインを確認しました。
  • サイトマップでCDN URLを使用します。
  • robots.txtおよびGoogle Webmastersにサイトマップリストを追加しました。
  • CDNドメインにロボットの制限はありません。

また、Googleは画像のインデックスを作成しています。 Googleでsite:mysitedomain.comを検索した場合; CDNからのすべての画像も表示されます:)

更新:

私のウェブサイトのrobots.txtファイルには次のものがあります。

User-agent: *
Disallow: /harming/humans
Sitemap: http://www.website.net/sitemap.xml

これにより、(Googleではなく)他の検索エンジンでもサイトマップが確実に検出されます。詳細はこちら: http://www.sitemaps.org/protocol.html#submit_robots

CDNドメインのrobots.txtは、単にクロールを許可し、次のようになります。

User-agent: *
Disallow:
2
Thomas Jensen