web-dev-qa-db-ja.com

Googleにサイトマップ内のURLのみをクロールさせてインデックスを作成させることにより、ハッキングされたサイトをクリーンアップします

それで最近、私たちのウェブサイトがハッキングされ、今すべてをきれいにしようとしています。ただし、「site:」検索を実行すると、キャッシュされた日本のWebサイトが引き続き表示されます。

robots.txtつまり:

User-agent: *

Disallow: 

Sitemap: http://www.example.com/sitemap.xml

しかし、robots.txtテスターに​​不正なURLを入力すると、望まないURLが許可されます。

GoogleがDisallowのすべての不良リンクを手動で入力せずにrobots.txtのサイトマップのみをクロールする方法はありますか?

2
Shan Xue

Googleは、サイトマップにあるURLのみをクロールおよびインデックス登録することに限定したことはありません。そのような機能は存在せず、今後もそうなるとは思わない。

サイトマップはほとんど役に立たない。彼らはランキングの助けにはなりません。 Googleがインデックスを作成することはめったにありません。 Googleは実際にそれらを使用して優先URLを選択し、代替言語URLを指定し、検索コンソールで追加データを提供します。 サイトマップパラドックス をご覧ください。

おそらく、robots.txtを使用してURLを禁止することも望まないでしょう。 robots.txtはクロールをブロックしますが、インデックスは作成しません。 GoogleにURLを再クロールしてもらい、URLがなくなったことを確認する必要があります。 GooglebotはそのためのURLにアクセスできる必要があります。

ハッキングされたURLをクリーンアップするには、それらが404ステータスを返すことを確認してください。 Googleは、次回のクロールから24時間以内にそれらを削除します。 Googleが一部のURLをすぐに再クロールできないため、すべてのURLを削除するには数か月かかる場合があります。 サイトがハッキングされました。Googleから+で始まるすべてのURLを削除する必要があります。robots.txtを使用しますか?

URLが多すぎない場合は、 Google Search ConsoleのURL削除ツール を使用して個別に送信できます。これにより、Googleは再クロールを待機するよりもはるかに速くそれらを削除できますが、一括削除機能はありません。

1