web-dev-qa-db-ja.com

Googleウェブマスターツールから、ロボットがサイトマップへのアクセスをブロックしていることがわかります

これは私のrobots.txtです:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Sitemap: http://www.example.org/sitemap.xml.gz

しかし、Google Webmaster Toolsは、ロボットがサイトマップへのアクセスをブロックしていると言っています。

サイトマップへのアクセス中にエラーが発生しました。サイトマップがガイドラインに従っており、指定した場所からアクセスできることを確認してから、再送信してください:RLはrobots.txtによって制限されています。

Googleウェブマスターツールのキャッシュrobots.txtを読みましたが、ファイルは36時間以上前に更新されています。

更新:

TESTサイトマップを押しても、Googleは新しいサイトマップを取得しません。 SUBMITサイトマップのみがそれを行うことができました。 (ところで、現在のサイトマップを貼り付けない限り、「テストサイトマップ」のポイントはわかりません-テストの前に入力するよう求められたアドレスからサイトマップの新しいコピーを取得しませんが、それは別の日の質問。)

(テストの代わりに)新しいサイトマップを送信した後、状況が変わりました。 「robots.txtによってブロックされたURL。サイトマップには、robots.txtによってブロックされたURLが含まれています。」 44のURL。サイトマップには正確に44個のURLがあります。これはGoogleが新しいサイトマップを使用しているが、それでも古いロボットルール(すべてが立ち入り禁止になっている)を使用していることを意味します 44個のURLのいずれも/wp-admin/または/wp-includes/にありません(これは不可能です)とにかく、robots.txtは、サイトマップを作成する同じプラグインによってオンザフライで構築されるため)。

更新2:

さらに悪化:Google検索の結果ページで、ホームページの説明に「このサイトのrobots.txtが原因でこの結果の説明を利用できません-詳細」 。他のすべてのページには詳細な説明があります。ホームページのインデックス作成をブロックするrobots.txtOR robotsメタはありません。

立ち往生しています。

11
Gaia

Googleは、おそらくrobots.txtファイルのキャッシュをまだ更新していないようです。現在のrobots.txtファイル(上記)は、サイトマップURLをブロックしているようには見えません。

グーグルはキャッシュを更新していないと思います。

推測する必要はありません。 Google Webmaster Tools(GWT)の[Health]> [Blocked URLs]で、robots.txtが最後にダウンロードされた日時と成功したかどうかを確認できます。また、robots.txtファイルによってブロックされたURLの数も通知します。

robots.txt reference in Google Webmaster Tools

私のコメントで述べたように、GWTにはrobots.txtチェッカーツールがあります( "Health"> "Blocked URLs")。そのため、robots.txtへの変更を(実際のファイルを変更せずに)すぐにテストできます。 robots.txtファイルを上部のテキストエリアに指定し、テストするURLを下部のテキストエリアに指定すると、ブロックされるかどうかがわかります。


Robots.txtのキャッシュ

通常、robots.txtリクエストは最大1日間キャッシュされますが、キャッシュされたバージョンの更新が不可能な場合(たとえば、タイムアウトや5xxエラーなど)、より長くキャッシュされる場合があります。キャッシュされた応答は、異なるクローラーによって共有される場合があります。 Googleは、max-age Cache-Control HTTPヘッダーに基づいてキャッシュの有効期間を増減する場合があります。

ソース: Google Developers-Robots.txt Specifications

8
MrWhite

インストール中にWPを選択すると、検索エンジンまたは同じオプションで追跡しないことを選択したため、サイトで同じ問題が発生しました。

この問題を解決するには:

  1. ウェブマスターツールのクロールに移動してURLを削除し、www.example.com/robots.txtをこのオプションで送信します->コンテンツを変更するためにキャッシュから削除するか...
  2. ちょっと待って
  3. サイトマップURLを再送信します
  4. 終わり
2
Mohammad