web-dev-qa-db-ja.com

メタタグとrobots.txt

  1. メタタグ*またはrobots.txtファイルを使用して、スパイダー/クローラーにページを含めるか除外するかを通知する方がよいでしょうか。

  2. メタタグとrobots.txtの両方を使用することに問題はありますか?

*例:<#META name="robots" content="index, follow">

24
keruilin

Robots.txt私見。

メタタグオプションは、ボットに個々のファイルにインデックスを付けないように指示しますが、Robots.txtを使用してディレクトリ全体へのアクセスを制限できます。

確かに、スキップしたいインデックス付きフォルダーに奇数ページがある場合はメタタグを使用しますが、通常は、インデックスなしのコンテンツのほとんどを1つ以上のフォルダーに入れ、robots.txtを使用して多くをスキップすることをお勧めします。

いいえ、両方を使用しても問題はありません。衝突が発生した場合、一般的に、denyallowを無効にします。

3
CJM

1つの重要な違いがあります。 Googleによると ページが別のサイトを介してリンクされている場合、robots.txtDENYの背後にあるページのインデックスを作成します。

ただし、メタタグが表示された場合は表示されません。

Googleはrobots.txtによってブロックされたコンテンツをクロールまたはインデックスに登録しませんが、ウェブ上の他の場所から許可されていないURLを見つけてインデックスに登録する可能性があります。その結果、URLアドレスと、場合によっては、サイトへのリンクのアンカーテキストなど、他の公開されている情報が引き続きGoogleの検索結果に表示される可能性があります。サーバー上のファイルをパスワードで保護するなど、他のURLブロック方法を使用するか、noindexメタタグまたは応答ヘッダーを使用する

47
user2696762

どちらも、ウェブマスターの希望を尊重するすべてのクローラーによってサポートされています。すべてがそうするわけではありませんが、それらに対してどちらの技術も十分ではありません。

サイトのセクション全体を禁止するなど、一般的なことにはrobots.txtルールを使用できます。 Disallow: /familyと言うと、/familyで始まるすべてのリンクがクローラーによってインデックス付けされません。

メタタグを使用して、単一のページを禁止できます。メタタグで許可されていないページは、ページ階層のサブページには影響しません。 /workにメタ禁止タグがある場合、許可されたページにそのタグへのリンクがある場合、クローラーが/work/my-publicationsにアクセスするのを妨げることはありません。

4
jmz

Metarobotとrobots.txtには非常に大きな違いがあります。

Robots.txtでは、クロールする必要のあるページと除外する必要のあるページをクローラーに要求しますが、除外されたページをクロールからインデックスに登録しないようにクローラーに要求しません。

ただし、メタロボットタグを使用する場合は、検索エンジンのクローラーにこのページのインデックスを作成しないように依頼できます。これに使用されるタグは次のとおりです。

<#meta name = "robot name"、content = "noindex">(#を削除)

OR

<#meta name = "robot name"、content = "follow、noindex">(#を削除)

2番目のメタタグでは、ロボットにそのURLをたどるように依頼しましたが、検索エンジンでインデックスを作成しないように依頼しました。

1

これがそれらについての私の知識です。私は彼らの作業領域について話している。どちらもコンテンツのブロックに使用できます。

両者の違いは次のとおりです。

  • Meta Robotは、Webサイトのヘッダーにコードを貼り付けて1ページをブロックできます。メタロボットタグを使用することにより、メタタグを使用している機能を検索エンジンに通知します。
  • Robots.txtファイルでは、ウェブサイト全体をブロックできます。

メタロボットの例を次に示します。

<meta name="robots" content="index, follow"> 
<meta name="robots" CONTENT="all">
<meta name="robots" content="noindex, follow">
<meta name="robots" content="noindex, nofollow">
<meta name="robots" content="index, nofollow" />
<meta name="robots" content="noindex, nofollow" />

Robots.txtファイルの例を次に示します。

クローラーがすべてのWebサイトをクロールできるようにする

user-agent: *
Allow:
Disallow:

クローラーがすべてのWebサイトをクロールすることを禁止する

user-agent: *
Allow:
Disallow:/
1
Tripti Rajput

メタが優れています。

検索エンジンのインデックスから個々のページを除外するために、noindexメタタグは実際にはrobots.txtよりも優れています。

0
user2513846

ページを含めるか除外するかをスパイダー/クローラーに通知するためにメタタグ*またはrobots.txtファイルを使用する方が良いですか?

回答:どちらも使用することが重要であり、さまざまな目的で使用されます。 Robotsファイルは、スパイダーのインデックスからページまたはルートファイルを含めたり除外したりするために使用されます。一方、メタタグは、ページ内のニッチとコンテンツについて定義するWebサイトページを分析するために使用されます。

メタタグとrobots.txtの両方の使用に問題はありますか?

回答:検索エンジンのスパイダー/クローラーがサイトのURLのインデックスを作成したり、インデックスを解除したりできるように、両方をサイトに実装する必要があります。

検索エンジンスパイダーの動作について詳しくは、こちらをご覧ください>> https://www.playbuzz.com/alexhuber10/how-search-and-spider-engines-work

0
Alex Huber

robots.txtではなく robots meta tag で 'noindex、follow'を使用すると、リンクジュースが通過できるようになります。 SEOの観点からは優れています。

0

おそらくmetaタグの上にrobots.txtを使用します。 Robots.txtは以前から存在しており、より広くサポートされている可能性があります(ただし、100%確実ではありません)。

2番目の部分については、robots.txtとメタタグの間に不一致がある場合、ほとんどのスパイダーはページに対して最も制限的な設定を採用すると思います。

0
Mitch Dempsey

Robots.txtは、内部検索や無限の組み合わせのフィルターなど、クロールの予算を大量に消費するページに適しています。 Googleにインデックス作成を許可した場合yoursite.com/search=lalalalaそれはあなたのクロール予算を浪費します。

0
Mathilde Joly