web-dev-qa-db-ja.com

URLがGoogleによって最初にインデックス化された時期を確認するにはどうすればよいですか?

特定のURLがGoogleによって最初にインデックス化された時期を確認するにはどうすればよいですか?私が所有していない競合他社のURLでも機能するソリューションを希望します。

16
matcheek

URLの年齢を知るには、www.example.comを目的のURLに置き換えて、このリンクをたどることができます。

https://www.google.com/search?tbs=cdr%3A1%2Ccd_min%3A1%2F1%2F2000&q=site%3Ahttp%3A%2F%2Fwww.example.com&safe=active&gws_rd=ssl

たとえば、ここに Stack OverflowのメタサイトのGoogleからの結果 : enter image description here

それ以外の場合、 Wayback machine も良い解決策ですが、私の経験ではあまり正確ではありません。

14
Zistoloen

Zistoloen Googleがページのコンテンツを最初にインデックスしたときに日付を表​​示する方法を見つけました。私はそれをより明確に説明できると思うので、私もそれを答えに加えています。

  1. Googleで検索して、結果として目的のページを表示するものを探します
  2. 「検索ツール」を使用する
  3. 「いつでも」ドロップダウンから「カスタム範囲...」を選択します
  4. 1/1/1900から1/1/2020などの大きな日付範囲を入力します

次に、Googleは検索結果のページにあるコンテンツを発見した日付を表示します。

first indexed

ページが新しいコンテンツで更新されると、Googleもこの日付を更新します。したがって、「このURLを最初にインデックス付けした」日付ではなく、「このコンテンツを最初にインデックス付けした」日付になります。


ページのGoogleキャッシュは、ページが最後にインデックス化された日時を示します。 Stack Exchangeのホームページを参照 は本日最後にインデックス付けされました:

enter image description here


別のオプションは Internet ArchiveのWayback machine を使用することです。これは、過去のページの外観を示しています。ページが最初に公開された時期を把握できます。 Googleとインターネットアーカイブの両方が、最初に公開された直後にページをクロールして使用します。

8

任意のWebページが最初にGoogleによってインデックスに登録された時期を確認する方法はありませんbe。 Googleが単にその情報を保存しない可能性があります。なぜなら、彼らが必要とする本当の理由がないからです。その上、たとえ彼らがこの情報を保存したとしても、第三者に自由に利用可能にする特別な理由はありません。

(自分のページで、古いWebサーバーのアクセスログにアクセスできる場合は、簡単です。Googlebotからそのページへの最初のアクセスのログを検索するだけです。それ以外の場合、確実に伝える方法はありません。)


いずれにせよ、ZistoloenとStephen Ostermillerの回答で説明されている方法は、特定のURLがGoogleによって最初にインデックス付けされた日付を一般に明らかにしますnot。むしろ、GoogleがURLのコンテンツを公開または最後に更新したとGoogleが考える日付を示し、多くの場合、ページの日付を「スニッフィング」するGoogleの多少なりとも信頼できる試みに基づいています。コンテンツ自体。

このビデオ では、Googleのマットカッツがこれらの日付の選択方法について簡単に触れています。便宜上、以下のビデオの関連部分(およそ2:09から2:22)を書き起こしました。

「...私たちが推測したとき、または最初に見たとき、そのページをクロールしたとき、またはページのどこかでそれを見つけることができ、その日付を抽出できる場合、しばしば日付が表示されますスニペットの最初の部分で確認できます。」

ブログの投稿、Wikiページ、Stack Exchangeの質問など、ソフトウェア実行サイトがページ自体の正確な作成/変更日を自動的に報告するページの場合、Googleが報告する日付はそれと一致する可能性があります。ただし、他の種類のページの場合、Googleの日付スニファーはより熱心に機能する必要があり、常に正しくなるとは限りません(このコンテキストでは「正しい」とはどういう意味でもかまいません)。

特に、これらの日付は、次の2つの理由から、ページがインデックスに登録されてからどれくらい経過したかを判断するのに基本的に役に立ちません

  • ページが最近変更され、変更日がページ上に目立つように表示されている場合、変更が完全に些細なものであっても、Googleはそれをページの「日付」として選択する場合があります。

    たとえば、 このかなり古いwikiページ (これはarchive.org 2003年に最初にインデックス付けされた )は、現在Googleによって2014年11月10日からの日付としてスタンプされています。ページの下部に示すように、最後に編集されました。その日に起こった変化は?ページの下部から1つのリンクを削除するだけです。

  • 逆に、グーグルは、ページ上でそれらを見つけた場合、非常に古い「公開日」を受け入れて喜んでいるようだ-それ以前のものであっても World Wide Webの立ち上げ

    たとえば、 古いプログラミングコンテストのこのページ は、Googleによって1986年9月15日の日付が付けられています。実際には、ページに記載されているイベントの日付です。同様に、 1970年の学生のストライキを文書化したこのページ は、Googleによって1970年5月10日(ページ上のスキャンされた文書の1つの日付)に日付が付けられ、さらに不合理に このLinuxマニュアルページ は、Googleによって1989年11月4日(ページで使用されているランダムな例の日付)の日付です。

    StephenとZistoloenによって記述されたカスタムの日付範囲検索を使用して、そのような例をもっと見つけることができますが、範囲の上限をたとえば 1991年8月6日 に設定します。

4
Ilmari Karonen