web-dev-qa-db-ja.com

HTTPからリダイレクトされた場合のHTTPSでのGooglebot robots.txtアクセスエラー

これはばかげた質問かもしれませんが、私はこれまでこの問題に出くわしたことがなく、ウェブ上でこれに対する明確な答えを見つけることができませんでした:

クライアントは、数か月前にHTTPSサイトに沿ってHTTPサイトを使用してHTTPSに移行しました。 HTTPサイトを対応するHTTPSサイトに301リダイレクトするように指示しました。これまでのところ、すべてがうまくいきました...

https://www.example.com/robots.txtのGoogleウェブマスターツールでエラーメッセージが表示されるまで:

Googlebotは、robots.txtへのアクセスを試行中に5429エラーを検出しました。そのファイルにリストされているページがクロールされないように、クロールを延期しました。サイトのrobots.txt全体のエラー率は12.9%です。

.htaccessファイルに301リダイレクトを設定することで何らかの間違いを犯したと仮定して、ITサービスプロバイダーに問題を調査するよう依頼しました。ただし、robots.txtのリダイレクトは一般的にGoogleによって推奨されない可能性があると述べており、 here を参照してください。これが問題になる可能性があります。 HTTP robots.txtを200にしておくことをお勧めします。

これまでのところ、この問題に実際に出会ったことはありません。 問題の原因は何であるか考えていますか?

HTTP robots.txtファイルをリダイレクトしない場合、GooglebotはWebサイトのHTTPバージョンをクロールしようとする可能性があります。すべてのHTTPバージョンがHTTPSバージョンに適切にリダイレクトされる場合、これは実際には問題になりません。 feel right;)issueを修正することに興味があります。

4
tentakellady

Googleがページにアクセスできない理由(robots.txtを含む)を判断する最良の方法は、 fetch as Google を使用することです= Googleウェブマスターツールの機能。

  1. Googleウェブマスターツールにログインします
  2. サイトを選択します(https://に登録済みであることを確認してください)
  3. [クロール]-> [Fetch as Google]に移動します
  4. テキストボックスに/robots.txtと入力します
  5. [取得]ボタンをクリックします

Googleは、robots.txtファイルを取得できない理由に関する詳細情報を提供します。

3

まず、GWTで優先サイトをHTTPSモードに設定してください。これには、新しいプロパティを作成して再確認する必要がある場合があります。

SSLモードを探したら、サイドバーを押して「クロール> robots.txtテスター」に移動します。下部にhttps://yoursite.comで始まり、テキストボックスと赤い「TEST」ボタンが続くフィールドが表示されます。

ロボットのディレクティブがロードされているのが見えるはずです。許可されたページと許可されていないページの両方でテストを実行し、その内容を確認します。それでもアクセスできない場合、まだアクセスできる場合は、ヘッダーテストを行う必要があります。 Chromeインスペクターを開き、[ネットワーク]タブを開きます。ページを更新し、最初または2番目のエントリをクリックしてヘッダーを表示します。怪しげな反応や200以外のコードを探しています... Gが入力できない理由についてのヒントがあるかもしれません。

リダイレクトの問題を見つけた場合、そのすべてが「ITサービスプロバイダー」の肩にかかっています。 HTTPSモードに正しくルーティングできる必要があります。できない場合は、転送に関して物事がどのように機能するかを理解できる新しい「ITサービスプロバイダー」を見つけることをクライアントに提案します。

ボーナスとして、HSTSヘッダーも設定する必要があります。 HSTSはクライアント側の307リダイレクトを使用し、301スタイルのリダイレクトよりも厳密/ステートフルです。また、安全でない要素を軽減する[ブロック]機能が向上しています。

3
dhaupin

5429エラーに関する私の仮説は、GoogleがHTMLドキュメントを解析しようとしているということです(つまり、リダイレクトは機能しているが、間違った場所で終わる)。 404ページ、エラーページ、またはホームページです。

昨日、http://example.com/robots.txt/index.phpにリダイレクトされ、その後、危険な。htaccessのために再びホームページにリダイレクトされるという、この非常に問題がありました。

その場合、Googleはdoesでリダイレクトを追跡する可能性が高いことを意味しますrobots.txt

1
misteraidan