web-dev-qa-db-ja.com

ページの古さを知る方法は?

Googleは、だれが最初にテキストを投稿し、誰がコピーしたかを判断するのに、多少なりとも正確だと思いました。ただし、「検索ツール:カスタマイズされた間隔」を使用すると、結果が非​​常に奇妙になります。私が数年しか持っていなかったウェブサイトの2002年にさかのぼるページを見つけました。

そのため、Googleは、誰がオリジナルをコピーし、誰が書いたのかを正確に知ることができません。なに?

enter image description here

stackexchange.comが2009年に作成された場合、これはどのように可能ですか? hermeneutics.seはStack Overflowよりも古いです!

15
Renan

この質問に対する答えをこの方法で調査しました。これは、私が持っている例であるGoogleを使用して、Googleが作成日と変更日を取得する方法、およびGoogleが認識する日付形式です。この情報はほんの数ページに存在するわけではないことを理解してください。直接適用されないように思える非常に多くのソースからデータを探し出さなければなりませんでした。場合によっては、情報は複数のソースから取得され、常に割り当てられるとは限りません。

Googleはこの順序でページの日付を探します。少なくともGoogle検索アプライアンスに関する限り、URL、タイトルタグ、本文(コンテンツ)、メタタグ、HTTP応答ヘッダー。他の文書の他の段落では、順序は文書化されていませんが、リストが議論され、リストを確認したようです。考えてみると、これは検索エンジンの順序を反映しています。 1つ-ページを発見する(リンク)、2つ-メタタグ(小さな詳細)とHTTP応答ヘッダーを除き、ページを上から下に読む(タイトル、本文、メタタグ)。アプライアンスに関する限り、リストは次のとおりです。https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule

注:開始日は、ページがGoogleによって最初にリクエストされた日付です。作成日がない場合は、開始日が使用されます。

1]すべての検索エンジンは、HTTP GETリクエストを介してリソースをリクエストできます。Webサーバーは、データパケット内のリソースを含むレスポンスヘッダー内の最終変更日を返します。

2]すべての検索エンジンは、HTTP HEAD要求を介してリソースのヘッダー情報を要求でき、Webサーバーは、データパケット内のリソースなしで、応答ヘッダー内に変更日を返します。

3]任意の検索エンジンは、if-modified-sinceが日付に設定されたHTTP GETでリソースを要求することにより、特定の日付以降にリソースが変更されたかどうかを要求できます。日付が設定されてからリソースが変更された場合、Webサーバーは200 Ok応答で応答し、リソースを返します。または、日付が設定されてからリソースが変更されていない場合、Webサーバーは304リソースを返さずに変更されません。

Googleは帯域幅を節約するために方法#3を使用して多くのリクエストを行います。これらはWebサーバーのログファイルに表示されます。

注:コンテンツ管理システム(CMS)または他のソフトウェアが、応答ヘッダー内で日付を適切に提供できない可能性があります。

これらの日付の例は、Googleアプライアンスのドキュメントに基づいていますが、一般的な検索に関する他の場所にも存在します。アプライアンスのドキュメントからこれらの詳細を取得したのは、他の場所ではそれほどきれいではないリストとして切り取って貼り付けることができるからです。

4] GoogleはURL内で日付を探します。次の形式を探します。 YYYMMDDHH-YYYY-YYYYMM。

5] Googleは、タイトルタグ内で日付を探します。次の形式を探します。 YYYMMDDHH-YYYY-YYYYMMですが、他の形式も認識できると思われます。下記参照。

6] Googleは、bodyタグ(コンテンツ)内で日付を探します。次の形式を探します。 YYYMMDDHH-YYYYMMDD-YYYYMM-YYYY-DDMMYYYY-YYMMMDD-MMDDYYYY-YYMMDD-DDMMYY-MMDDYY下記参照。

注:Googleは、最初のH1タグのすぐ下の日付を特に検索することが知られています。これは、ブログがこの場所に日付を入れることが多いためです。

7] Googleは、このようなメタタグを探します。 <meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />

Googleは、次の日付形式も認識すると言われています。

YYYY-MD-YYYY.MD-YYYY/M/D-MD-YYYY-MDYYYY-M/D/YYYY-YY-MM-DD-YY.MM.DD-YY/MM/DD-WK、D MON、 YR-WK、MON D、YR-D MON、YR-MON YYYY-MON D、YR-MON YY-YYYY -DM-YYYY.DM-YYYY/D/M-DM-YYYY-DMYYYY-D/M/YYYY-DD-MM-YY-MM-DD-YY-DD/MM/YY-MM/DD/YY- YYYYMMDDHH-YYYYMMDD-YYYYMM-YYYY-DDMMYYYY-MMDDYYYY-YYMMDD-DDMMYY-MMDDYY

私が見つけた研究は、時間の問題には答えませんでした。

引用された例の場合、ページは、無視される可能性のあるspanタグ内を除き、日付の手がかりを提供しません。 SEソフトウェア/ Webサーバーは、応答ヘッダー内で作成日と変更日を返すことができない可能性があります。

Googleがこれらの日付を導き出した理由と方法は、解決されないかもしれない良い質問です。しかし、私は探し続けます。

12
closetnoc