web-dev-qa-db-ja.com

「許可しない」だけでなく、インターネットアーカイブを制御しますか?

インターネットアーカイブがサイトでアーカイブする内容を制御するメカニズムはありますか?すべてのページを禁止することを知っています 追加できます

User-agent: ia_archiver
Disallow: /
  1. 月に一度、または年に一度、サイトをクロールするようにボットに伝えることはできますか?

  2. アセットが取得されないため、正しくアーカイブされない/されないサイトがあります。インターネットアーカイブボットがサイトを取得する場合に必要な資産をインターネットボットに伝える方法はありますか?

13
artlung

:この回答はますます時代遅れになっています。

Internet ArchiveのWebコレクションの最大の貢献者はAlexa Internetです。 Alexaがその目的のためにクロールする資料は、数か月後にIAに寄付されました。質問で言及されている不許可ルールを追加してもクロールには影響しませんが、ウェイバックはそれらを「再帰的に」尊重します(アクセスを拒否すると、素材はアーカイブに残ります-素材を本当に保持したい場合はAlexaのロボットを除外する必要がありますインターネットアーカイブの)。

Alexaのクロールに影響を与える方法はあるかもしれませんが、私はそれをよく知りません。

IAは独自のクローラー(Heritrix)を開発してから、独自のクロールを開始しましたが、それらはターゲットクロールになりがちです(議会図書館では選挙クロールを行い、フランスやオーストラリアなどでは全国クロールを行っています)。 GoogleやAlexaが実施するような世界規模の持続的なクロールには関与しません。 IAの最大のクロールは、20億ページをクロールする特別なプロジェクトでした。

これらのクロールはプロジェクト固有の要因から派生したスケジュールで実行されるため、サイトを訪問する頻度やifサイトを訪問する頻度に影響を与えることはできません。

IAがサイトをクロールする方法とタイミングに直接影響を与える唯一の方法は、 Archive-It サービスを使用することです。このサービスでは、カスタムクロールを指定できます。結果のデータは(最終的に)IAのWebコレクションに組み込まれます。ただし、これはpaidサブスクリプションサービスです。

8
Kris

ほとんどの検索エンジンは「クロール遅延」ディレクティブをサポートしていますが、IAがサポートしているかどうかはわかりません。あなたもそれを試すことができます:

User-agent: ia_archiver
Crawl-delay: 3600

これにより、リクエスト間の遅延が3600秒(つまり1時間)、または1か月あたり約700リクエストに制限されます。

#2は可能だとは思わない-IAボットは、適切と判断したときに資産を取得します。あまりにも多くのストレージを使用しないように、ファイルサイズに制限がある場合があります。

2
DisgruntledGoat