web-dev-qa-db-ja.com

Googlebotクローラー:robots.txtによって制限されたURL-robots.txtのエントリを修正する方法

最近、Googleが私のウェブサイトのすべてのページをキャッシュしていないことに気付きました。 Googleウェブマスター診断ツールを使用すると、robots.txtファイルのエントリによって一部のページが制限されていることに気付きました。

一部の人々はワイルドカードなどの使用に眉をひそめるかもしれないことを知っていますが、私のウェブフレームワークは動的なURLを生成します。

Robots.txと無視されたURLのリストの両方をここに含めました。誰かがGooglebotのURLへのアクセスを制限しているルールを見つけることができれば幸いです。

まず、制限付きURLの(切り捨てられた)リストを次に示します。

URL Detail Detected
http://www.example.com/community/groups/cat-lovers-united.html?filter=events URL restricted by robots.txt 10/4/10
http://www.example.com/community/knowledge-center/questions/newbie/1/how-to-love-your-cat.html URL restricted by robots.txt 10/4/10
http://www.example.com/community/news/comments/1 URL restricted by robots.txt 10/4/10
http://www.example.com/feeds/blogposts?request_type=comments&id=2 URL restricted by robots.txt 10/4/10
http://www.example.com/news/106/related-headlines?page=1 URL restricted by robots.txt 10/2/10
http://www.example.com/news/search?category=agriculturals&keywords=argentina URL restricted by robots.txt 10/6/10
http://www.example.com/news/submissions/list?site=ibnlive.in.com URL restricted by robots.txt 9/30/10

Robots.txtファイルは次のとおりです。

User-Agent: *
Disallow: /api
Disallow: /api/
Disallow: /logout
Disallow: /logout/
Disallow: /login
Disallow: /login/
Disallow: /registration
Disallow: /registration/
Disallow: /admin/*
Disallow: /news/submit
Disallow: /*/new
Disallow: /*/createnew
Disallow: /*/edit
Disallow: /*/edit/*
Disallow: /*/editprofile
Disallow: /*/delete
Disallow: /*/delete/*
Disallow: /*/update
Disallow: /*/update/
Disallow: /*/submit
Disallow: /*/submit/
Disallow: /*/report
Disallow: /*/report/*
Disallow: /search
Disallow: /search/
Disallow: /controllers/*
Disallow: /community/members/*/joinNetwork
Disallow: /community/admin/*
Disallow: /lostpassword
Disallow: /lostpassword/
Disallow: /registrationComplete
Disallow: /registrationComplete/
Disallow: /accountActivate
Disallow: /accountActivate/
Disallow: /generate-token
Disallow: /create-widget
Disallow: /buttons
Disallow: /accountDeleted
Disallow: /accountSuspended
Disallow: /news/submit
Disallow: /news/process-submission
Disallow: /news/submit/success
Disallow: /news/errorpage
Disallow: /community/members/*/mailinglist/add
Disallow: /community/members/*/editprofile
Disallow: /community/members/*/joinNetwork
Disallow: /community/users/*/follow
Disallow: /community/users/*/unfollow
Disallow: /trustnetwork/createtoken
Disallow: /trustnetwork/applytoken
Disallow: /community/members/*/mail/*
Disallow: /community/mail/*
Disallow: /community/blogs/blogposts/unpublished/*
Disallow: /community/blogs/blogposts/reported/*
Disallow: /tools/pipeline/vote-submitted.html
Disallow: /community/classifieds/replies/*
Disallow: /report
Disallow: /thumbvote
Disallow: /like
Disallow: /dislike
Disallow: /voteRemove
Disallow: /flagAsInteresting
Disallow: /addFavorite
Disallow: /recommend/*
Disallow: /completed-recommendation.html
Disallow: /rate
Disallow: /notify
Disallow: /addTestimonial
Disallow: /comments/update/*
Disallow: /comments/great-comment
Disallow: /community/members/admin/*
Disallow: /community/blogs/blogposts/comments/moderated/*
Disallow: /community/blogs/blogposts/comments/reported/*
Disallow: /community/articles/reported/fetch/*
Disallow: /community/articles/reported/comments/moderated/*
Disallow: /community/articles/comments/reported/*
Disallow: /community/groups/*/requests
Disallow: /community/groups/*/moderation
Disallow: /community/groups/*/headlineMgmt
Disallow: /community/groups/*/pollMgmt
Disallow: /community/groups/*/join
Disallow: /community/groups/*/leave
Disallow: /community/groups/*/shout
Disallow: /community/groups/*/topics/reply/*
Disallow: /community/groups/*/banUser
Disallow: /countries/cities
Disallow: /country/schools
Disallow: /community/knowledge-center/answers/accept
Disallow: /community/knowledge-center/answers/unAccept
Disallow: /requestPassword
Disallow: /restorePassword
Disallow: /restoredPassword
Disallow: /changePassword
Disallow: /changedPassword
Disallow: /adverts/replies/mailbox
Disallow: /security/error403
Disallow: /home/error404
Disallow: /home/disabled-notification
Disallow: /home/error500
Disallow: /*?
Allow: /

Sitemap: http://www.example.com/sitemap-index.xml

私には良さそうに見えますが、明らかに、robots.txtにはかなりの数のページへのアクセスを制限している何かがあるはずです。誰かが私のrobots.txtファイルで問題のある行を見つけることができれば、私は非常に感謝します

3
morpheous

あなた自身の質問に答えましたが、あなたが指摘しているように、「許可しない:/*?」問題の原因です。 「*」は正規表現または正規表現パターンです。これは基本的に、任意の長さのテキストの任意の文字列を意味し、「* ?」は同じことを意味しますが、パターンをSHORTESTの可能な答えに制限します。robots.txtの場合、「*?」という方法は考えられません。式には意味があります。

ROBOTS.TXTの読み取り

    Disallow行には、ブロックするページがリストされます。
    User-Agent行には、ブロックするクローラーが一覧表示されます。

ERRORS_IN_YOUR_ROBOTS.TXT

    (1)「/ * /」での*の使用はすべて正しく使用される場合とされない場合があり、「Disallow:/ INSERT_XYZ/*」はすべて間違っています。必要なのは「Disallow:/ INSERT_XYZ /」のみです
    (2)「許可しない:/ *?」参照はエージェントではなくディレクトリであるため、「Disallow:/」にする必要があります。 「User-Agent:*」は正しく、「User-Agent:/」は間違っています。ただし、サイトの一部をクロールする必要があるため、削除してください。
    (3)すべての「Disallow:/ INSERT_XYZ」は、ディレクトリへの参照である場合、「Disallow:/ INSERT_XYZ /」である可能性が高いです。

Robots.txtのウェブマスター向けのGoogleのウェブページは こちら です。

注:これらのメタタグもGoogleで検索する必要があります: noindex 、nofollow、noarchive、nocache

2
blunders

これは、robots.txtによるクロールエラーの私の経験です。数か月前、「robots.txtによってURLが制限されています」などのメッセージが見つかりました。私のサイトはBlogger(* .blogspot.com)です。私の問題をGoogle Webmasterに尋ねると、あなたが読むことができるように私のロボットtxtに関する答えが送られてきます。

  • rayhanzhampiet.blogspot.com:

「Googleはrobots.txtの制限のためにURLをクロールできませんでした。robots.txtファイルはGooglebotを完全に禁止する場合があります。このURLがあるディレクトリへのアクセスを禁止する場合があります。 。多くの場合、これはエラーではありません。」robots.txtの制限を解除する方法を教えてください。

  • トップレベルユーザーのウェブマスターヘルプ:

こんにちはrayhanzhampiet、私たちはブロガー* com(blogspot * com)であなたのブログを扱っていると思いますか?その場合、robots.txtの制限について何もする必要はありません。

これはrobots.txtです:ユーザーエージェント:Mediapartners-Google禁止:

User-agent:* Disallow:/ search-siは、インデックスを作成したくない場合でもクールに保つ複​​製されたもののみを制限します。制限されているすべてのURLは、robots.txtで指定されたパスに/ search /がありますか?

これらは、投稿やホームページに既に表示されているものを複製するため、制限されています。たとえば、次のとおりです。

http://rayhanzhampiet.blogspot.com/search/label/Tips-Blogging このすべてを以前に見たことがあることを認識します->制限されていないため、インデックス付けされていない元の投稿で;-)

/ search /は、インデックスの重複を避けるために制限する必要があります。そして、私が言ったように、あなたもあなた自身のためにロボットのためにそれらを制限したいです。この制限はデフォルトでblogspot * com(およびもちろんあなたのようなブロガーを使用するドメイン)で行われ、何らかの方法で解決する必要はありません。エラーではありません(webmastertoolsのメッセージはここでのみ診断できます)。

私のようなrobots.txtに問題がある人(ブログ作成者)が、解決する必要がないことを知ってほしい。

Pro Webmastersのおかげで、

0