web-dev-qa-db-ja.com

Googleがサイトをクロールしない(robots.txtエラー)

現在、クライアントのプロジェクトのSEOを行っています。私はこれにちょっと慣れていないので、我慢してください。

Robots.txtのインクルードに関する多くの複雑なレビューを読みました(ブロックするURLがなくてもインクルードするのが良いと言う人もいれば、持ってはいけないという人もいます)。

また、多くのオンラインツールでは、クライアントのサイトにrobots.txtが含まれていなかったため、robots.txtをサイトに含めることにしました。

ただし、私の開発者は次のアイテムを含むrobots.txtを展開しました。

User-agent: *
Disallow: /

不許可のためにバックスラッシュを追加すると、サイト上のすべてをクロールしないようGoogleに指示することを理解しています

1月31日:間違ったrobots.txtが展開されました

2月6日:SERPでウェブサイトが見つからないことに気付き、robots.txtエラーを見つけました。すぐに変更するように開発者に伝えました。

2月14日:正しいrobots.txtが展開されました

User-agent: *
Disallow: 

3月9日:日付まで、すべてのページ(homepgeを除く)がGoogleで見つかりません

私は問題が何であるかを理解することができないようです。私の唯一の最良の推測は、バックスラッシュが許可されていないため、GoogleはすべてのWebページを「ブラックリストに登録」したということです。 robots.txtを正しいものに変更した後、Googleはまだサイトをクロールしていないため、ウェブページはまだ「ブラックリスト」にあります。

私は今どうすればいい?

================================================== ==

編集された情報:

Googleウェブマスターツールはhttpとhttpsを別々のサイトと見なしているため、HTTPからHTTPSへの移行が原因であると考えました。私はここから読みました (https://webmasters.stackexchange.com/questions/68435/moving-from-http-to-https-google-search-console) 持っている必要があると述べるGWTの古いサイトマップと新しいサイトマップの両方。

GWTにはhttpしかなかったので、最近httpsを含めました。ただし、httpコンソールとhttpsコンソールの両方のsitemap.xmlは同じものにリンクしています。それが問題になりますか?

2

ブロックするURLがなくても含めるのが良いと言う人もいます

これは、ボットがとにかくそれを要求するため、多くの不要な404でログが汚染されるのを防ぐだけです。ただし、これは問題ではありません。統計ソフトウェアがどのように報告するかによって異なります。 (リクエストは、存在するかどうかに関係なく記録されます-存在する場合は「200 OK」で、存在しない場合は「404 Not Found」で記録されます。)

robots.txtファイルを指定し、ボットにすべてのページをクロールさせる場合は、空にするか、最小限のファイルを含める必要があります。

User-agent: *
Disallow:

DisallowディレクティブのURLパスにはスラッシュがないことに注意してください。)

Google Search Console(以前のGoogle Webmaster Tools)でサイトをまだ確認していない場合は、[クロール]> [robots.txtテスター]および[Fetch as Google]ツールで確認して、robots.txt Googleは、いつアクセスされ、ページにアクセスできるかを確認しています。

  • サーバーログを確認してください-Googlebotはサイトにアクセスしましたか?

  • site:検索は、SERPで何を返しますか?

バックスラッシュが許可されていないため、Googleはすべてのウェブページを「ブラックリストに登録」しました。

Googleはこの方法でページを「ブラックリスト」に登録しません。 robots.txtファイルを単に「修正」するだけで十分です。ところで、これはbackslashではなく、(フォワード)スラッシュです。

実際、サイトが開発中にrobots.txtでブロックされることは珍しくなく、このブロックはサイトが公開されたときにのみ削除されます。

サイトがまだSERPに表示されない理由はたくさんあります。一つのことは、あなたのサイトは新しくて時間がかかるということです-あなたはそれを十分な時間を与えていないかもしれません。また、blockingrobots.txtファイルをデプロイすると、処理が遅くなるだけです。

詳細については:

2
MrWhite

Disallow:/は、Googleボットがドメイン全体のインデックスを作成できないようにします。

  • 禁止:[ブロックするURLパス]

  • 許可:[ブロックされた親内のサブディレクトリ内のURLパス
    ブロックを解除するディレクトリ]

Robots.txtテスターを試しましたか?: https://support.google.com/webmasters/answer/6062598

0
Enrico

最初
これで:

User-agent: *
Disallow: /

サイトをインデックスに登録しないと言っています。つまり、サイト全体が検索結果に表示されません。たとえば、ディレクトリコール 'test'があり、内部にテスト用のページがある場合、次のようなことができます。

User-agent: *
Disallow: /test/

robots.txtは、このファイルを解釈できるすべての検索エンジンに適用されます。これは、Googleだけでなく、YahooやBing(およびおそらくもっと小さな検索エンジン)を意味します


「http」と「https」の両方がある場合、コンテンツが重複しています。ディレクトリの1つは、他のサイト(HTTPからHTTPS、HTTPSからHTTP)にリダイレクトするhtaccessファイルを除いて空でなければなりません。
ドメインレジストラーの設定で、リダイレクトが設定されていないことを確認します。リダイレクトを制御するのは、htaccessファイルのみです。

3番目
そのサイトのGoogle Search Consoleアカウントを設定します。サイトを検証したら(高速なAnalyticsを設定している場合)、次のことをすべて確認するためのオプションが表示されます。

  • クロールエラー。
  • クロールの統計。
  • robots.txtテスター。
  • sitemaps.xmlテスター(これについては説明しませんでしたが、非常に重要です)。
  • インデックスのステータス。
  • ブロックされたリソース。
  • はるかに。
0
viktta