web-dev-qa-db-ja.com

ウェブサイトをクロールするには、監査にCookieが必要ですか?

状況:クライアントのWebサイトにアクセスするにはCookieが必要です。ユーザーは、Webサイトにアクセスするために(言語と国)を選択する必要があります。

問題は:ソフトウェア(DeepCrawlまたはScreaming Frog)を使用してWebサイトをクロールしようとするたびに、クローラーは各URLの言語と国を求める同じページを取得し続けます。

質問:クローラーがバイパスすることを許可する方法、または言語と国を選択してWebサイトにアクセスする方法は?

1
Mostafa

Googlebotなどの検索エンジンボットはCookieを使用せず、コンテンツがCookieでのみ表示される場合、コンテンツはクロールできません。 WebサイトがCookieなしでクロール可能であることを確認する必要があります。

簡単な解決策は、「言語オプションを選択」を提供する前に cookie check を実行することです。Cookieのテスト結果が陰性である場合、Webサイトで最も人気のあるバージョンを提供し、次に使用する他の言語で- rel = "alternate" hreflang = "en-XXX" は、Googleがすべてのバージョンのインデックスを作成するようにします。

1
Simon Hayter

クローラーとcookie jarを使用する必要があります。ログインしてサイトのCookieを保持できる、先ほど書いたものです。あなたは言語に言及しませんでした。これはPHOとMysqlまたはOracleです。

https://github.com/Pamblam/Crawler