web-dev-qa-db-ja.com

良いrobots.txtは何ですか?

robots.txtの「最良の」設定は何ですか?
次のパーマリンク構造/%category%/%postname%/を使っています。

私のrobots.txtは現在このようになっています(昔からコピーされたものです):

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */comments
  1. 自分のコメントに索引を付けたい。だから私はこれを削除することができます
  2. パーマリンクの構造上、インデックスカテゴリを許可しないでください。
  3. 記事は複数のタグを持つことができ、複数のカテゴリに属する​​ことができます。これはGoogleのような検索プロバイダーで重複を引き起こすかもしれません。どうすればこれを回避できますか。

ここで他に何か変更しませんか。

7
Steven

ちなみに、トラックバックURLはリダイレクトを発行し、コンテンツがないため、インデックスが作成されません。

そして、質問に答えないという危険を冒して、あなたのポイント2と3を再確認してください。

http://googlewebmastercentral.blogspot.com/2008/09/demystifying-duplicate-content-penalty.html

別の言い方をすれば、私はあなたが重複コンテンツについて心配しているあなたの時間を浪費していると思います、そしてあなたのrobots.txtは以下に制限されるべきです:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-content/cache
3

この質問と回答が投稿されてからの長い時間です。それ以来、状況は大きく変わりました。 wp-content/themeswp-content/pluginswp-content/cachewp-includes、およびその他のサイトに必要なCSSまたはjsファイルを含むディレクトリへのアクセスをクローラに許可しないことに関する一般的な推奨事項は無効になりました。

たとえば、Googleについて話しましょう。 GooglebotはCSSとjsなしでウェブサイトをレンダリングしていましたが、実際にはそうではありませんでした。実際、Googlebotは文書全体を検索し、応答性、数、場所、スクリプトのサイズなどをチェックします。そのため、GooglebotがCSSやjsファイルにアクセスすることを許可しない場合、Googleは嫌いです。つまり、wp-content/themeswp-content/pluginswp-content/cache、およびwp-includesを許可しないでください。これらのフォルダーはすべてCSSファイルとjsファイルを処理できるからです。

私の立場からすると、実際には最高のrobots.txtファイルがデフォルトでWordPressによって作成されたものです( WP 4.0 から次のrobots.txtがデフォルトです)。

User-agent: *
Disallow: /wp-admin/

Cgi-binフォルダがある場合は、cgi-binフォルダを許可しないことをお勧めします。

User-agent: *
Disallow: /wp-admin/
Disallow: /cgi-bin/

また、サイトマップを使用する場合は、robots.txtにサイトマップ参照を含めることをお勧めします(それでも、サイトマップをGoogleおよびBing Webマスターツールに手動で送信する必要がありますが、参照は他のクローラにも役立ちます)。

User-agent: *
Disallow: /wp-admin/
Disallow: /cgi-bin/

Sitemap: http://example.com/sitemap.xml

それは一般的です。特定のWebサイトでは、各特定のケースで検討する必要がある他のフォルダやファイルを許可しないようにする必要があります。たとえば、特定のプラグインフォルダが必要な場合や許可しない場合があります。

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/plugins/plugin-folder/

Robots.txtを変更するには、robots_txtフィルタを使用します(実際のrobots.txtファイルを使用すると、WordPressはrobots.txtを処理できなくなります)。例えば:

add_filter( 'robots_txt', function( $output ) {

    $output .= "Disallow: /cgi-bin/\n";
    $output .= "Disallow: /wp-content/plugins/plugin-folder-i-want-to-block/\n";
    $output .= "\nSitemap: " . site_url( 'sitemap.xml' ) . "\n";

    return $output;

});
4
cybmeta

Yoastの WordPress SEOプラグイン を見ましたか?それは間違いなくrobots.txtの問題を処理します。

2
ZaMoose

ちょっとした助けを借りて、これは今や鉱山です(どうやら、他の人たちと大差ありません)。

User-agent: *
    Allow: /

Disallow: /wp-content/
    Disallow: /wp-admin/
    Disallow: /cat/
    Disallow: /key/
    Disallow: /*?
    Disallow: /*.js$
    Disallow: /*.inc$
    Disallow: /*.css$
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes

User-agent: Mediapartners-Google
    Allow: /

User-agent: Adsbot-Google
    Allow: /

User-agent: Googlebot-Image
    Allow: /

User-agent: Googlebot-Mobile
    Allow: /

#User-agent: ia_archiver-web.archive.org
    #Disallow: /

Sitemap: YOURSITENAME.HERE
2
Cardin

Joost de Valkの現在のアプローチ に従う必要がありますが、robots.txtではほとんどブロックされませんが、各サイトには独自の適切なポリシーがあることも理解してください時間をかけて見直し、変更する必要があります。

以前にここで与えられた回答の多くは日付が付けられており、Googleは現在「モバイルフレンドリー」をチェックしているため、SEOの自己破壊になります。今日、googlebotsは、/ wp-content、/ themes、/ pluginsなどからのフォント、画像、JavaScript、CSSアセットなど、通常のブラウザーが行うすべてをロードしようとします。(Morten Rand-Hendriksen 最近これについてブログに書きました 。)

Googleの「モバイルフレンドリー」サイトチェッカー を使用して、robots.txtファイルがサイトを妨害しているかどうかを確認できます。 Googleウェブマスターツールを使用している場合、大きな問題がある場合はアラートとメール通知を受信する必要があります。

許可されていないフォルダから主要なプレゼンテーションまたはインタラクティブなアセットがロードされないように注意しない限り、これはおそらくWordPressのインストールごとに最低限必要です:

User-agent: *
Disallow: /wp-admin

そして、サイトマップを追加することを忘れないでください:

Sitemap: http://yoursite.com/sitemap.xml

残念ながら、このよりオープンなポリシーは、[プラグインおよびテーマ開発者が自分のサイトへのリンクを含むインデックス可能なページを含む]など、以前は人々をrobots.txtで制限する他の問題の可能性を再現します。 4 細かい歯の櫛ですべてのサードパーティのコードを調べ、不要なものを移動または削除できない限り、これについては何もする必要はありません索引付けされます。

1
Dan Knauss

ちなみに、ALWYASはあなたのパーマリンクを数字で始めています。 WordPressはページと投稿をすばやく区別できるため、経験からするとページが高速化されます(他の場所でも読んだ後に試してみました。だからhttp:example.com/%month%/%post%...は大丈夫だろう

私はただ持っているものをコピーするつもりです。多くの研究がこれに入りました。おそらくやり過ぎです! Googleのウェブマスターツールに表示されるように、サイトの主なキーワードが何であるかをGoogleが認識するのに役立ちます。それが役に立てば幸い

User-agent: *
Allow: /
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /cgi-bin/
Sitemap: Url to sitemap1
Sitemap: Url to sitemap2

User-agent: Googlebot
# disallow all files ending with these extensions
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.cgi$
Disallow: /*.wmv$
Disallow: /*.ico$
Disallow: /*.opml$
Disallow: /*.shtml$
Disallow: /*.jpg$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /wp-*
Allow: /wp-content/uploads/ 

# allow google image bot to search all images
User-agent: Googlebot-Image
Allow: /*

User-agent:  *
Disallow: /about/
Disallow: /contact-us/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-

# disallow archiving site
User-agent: ia_archiver
Disallow: /

# disable duggmirror
User-agent: duggmirror
Disallow: /

User-agent: Googlebot
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$

# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
0
Tech Joe