web-dev-qa-db-ja.com

データが毎日更新されない場合、Googleはサイトマップ内の毎日更新される<lastmod>タグにペナルティを科しますか?

製品ページへの多くのリンクを含むサイトマップを毎日生成しています。これらの製品は、別のデータソースから毎日インポートされます。更新は現在のすべての製品情報を破棄し、それを新しいインポート情報で置き換えることで構成されるため、最終変更日は常に1日ジャンプします。これはサイトマップでも使用されます。変更されていない製品でも。すべての製品ページが更新されたふりをしています。

Googleは、変更されていない間にページが変更されたふりをしたことで、ウェブサイトを処罰しますか?

私の解決策は、新しくインポートされた製品データが以前のデータと異なる場合にのみエントリを変更することです。私はこれが役に立つアップグレードであることを確認したいだけでなく、他の改善に時間を費やすこともできます。

9
Elicit

これによるペナルティについて聞いたことはありません。最悪の場合、あなたはクモの時間を無駄にしていますが、それが私たちがそもそもコンピューターを持っている理由の一部です。それでも、should理想的には問題に対処しています。

この...

私の解決策は、新しくインポートされた製品データが以前のデータと異なる場合にのみエントリを変更することです。

...サイトマップなどの外部の考慮事項に関係なく、そもそも何をすべきかです。コンテンツに違いがなければ(そして、その説明に同じ情報を削除して置き換えることを含めます)、lastmod日付は変更しないでください。ここでは、自分のリソースを無駄にしています。関係する製品の数については説明していませんが、このプロセスが遅くなり、計算コストが高くなるポイントがあります。

5
Su'

<lastmod>を毎日更新するという考えは、単に間違っているだけでなく、誤解を招く検索エンジンであるため、私は決して好きではありません。

SOに投稿 で、GoogleのGary Illyesは次のように書いています。

Lastmodタグはシットマップではオプションです。ほとんどの場合、ウェブマスターはそれを正確に保つために恐ろしい仕事をしているため、検索エンジンでは無視されます。

私は通常、<lastmod>を正しく使用するか、まったく使用しないことを推奨しています。 (<changefreq><priority>と同様に)そのままにしておくと、ファイル自体が小さくなり、検索エンジンでも読みやすくなります。

3
Andrew Lott

私はグーグルで働いていませんし、彼らが実際に何をしているのかを確実に言うことはできませんが、彼らが<lastmod>タイムスタンプを扱うためのsensible方法はが変更されていないページを再クロールする時間を無駄にしないためのヒントとして。

したがって、すべてのページが毎日変更されたと報告した場合、Googlebotは変更されたページのみに焦点を当てるのではなく、すべてのページを好きな順序でクロールし続けます。実際には、最終変更のタイムスタンプをまったく報告しなかったかのようです。

正しい<lastmod>タイムスタンプを提供する主な理由は、サイトの変更をGoogleのインデックスにすばやく表示するためです。サイトに何百ものページがある場合、Googleがそれらすべてをクロールして変更を見つけるにはしばらく時間がかかります。ただし、最近変更されたページをGooglebotに伝えると、それらのページを最初にクロールでき、残りのページに時間を浪費することを回避できます。

もちろん、代わりにウェブマスターツールで Googlebotのクロールレートを上げる にして、最善の結果を期待することもできます。しかし、実際には、更新スクリプトにタイムスタンプを保持させるのはそれほど難しくないはずです。たとえば、現在次のようなことをしていると仮定します。

for each product do:
    write new page content into product page file;
end do;

その場合は、代わりに次のように変更します。

for each product do:
    read old page content from product page file into string A;
    write new page content into string B;
    if A is not equal to B then:
        write string B into product page file;
    end if;
end do;
2
Ilmari Karonen

いいえ、それは単に 情報を無視する 間違っているときに提供したものです。この場合、Webクローラーは自分でページをクロールする頻度を自分で判断します。

2

いいえ。Googleはlastmodをヒントとして使用します(すべてのサイトマップ値と同じ)が、コンテンツが毎日更新されていないと判断した場合、それを無視して独自のスケジュールでページを再表示します。

2
DisgruntledGoat

Googleはこれに対してあなたを罰しません。ペナルティを得るためには、Googleのお尻を真っ黒にする必要があるので、心配する必要はありません。 Googleは、コンテンツに変更がある場合(これが過去数年間取り組んできたものである場合)、lastmodプロパティをヒントとして使用するかどうかをすぐに判断します。

1

これを読むことをお勧めします XMLサイトマップとRSS/Atomフィードのベストプラクティス

最終変更時刻

XMLサイトマップおよびRSS/Atomフィードの各URLの最終変更時刻を指定します。最終変更時刻は、ページのコンテンツが有意に変更された最後の時刻でなければなりません。変更が検索結果に表示されることを意図している場合、最終変更時刻はこの変更の時刻でなければなりません。

XML sitemap uses  <lastmod>
RSS uses <pubDate>
Atom uses <updated>

最終変更時刻を正しく設定または更新してください。

Specify the time in the correct format: W3C Datetime for XML sitemaps, RFC3339 for Atom and RFC822 for RSS.
Only update modification time when the content changed meaningfully.
Don’t set the last modification time to the current time whenever the sitemap or feed is served.
1
John