「許可しない」だけでなく、インターネットアーカイブを制御しますか？

Question

インターネットアーカイブがサイトでアーカイブする内容を制御するメカニズムはありますか？すべてのページを禁止することを知っています追加できます：

User-agent: ia_archiver Disallow: /

月に一度、または年に一度、サイトをクロールするようにボットに伝えることはできますか？
アセットが取得されないため、正しくアーカイブされない/されないサイトがあります。インターネットアーカイブボットがサイトを取得する場合に必要な資産をインターネットボットに伝える方法はありますか？

Kris · Accepted Answer

注：この回答はますます時代遅れになっています。

Internet ArchiveのWebコレクションの最大の貢献者はAlexa Internetです。 Alexaがその目的のためにクロールする資料は、数か月後にIAに寄付されました。質問で言及されている不許可ルールを追加してもクロールには影響しませんが、ウェイバックはそれらを「再帰的に」尊重します（アクセスを拒否すると、素材はアーカイブに残ります-素材を本当に保持したい場合はAlexaのロボットを除外する必要がありますインターネットアーカイブの）。

Alexaのクロールに影響を与える方法はあるかもしれませんが、私はそれをよく知りません。

IAは独自のクローラー（Heritrix）を開発してから、独自のクロールを開始しましたが、それらはターゲットクロールになりがちです（議会図書館では選挙クロールを行い、フランスやオーストラリアなどでは全国クロールを行っています）。 GoogleやAlexaが実施するような世界規模の持続的なクロールには関与しません。 IAの最大のクロールは、20億ページをクロールする特別なプロジェクトでした。

これらのクロールはプロジェクト固有の要因から派生したスケジュールで実行されるため、サイトを訪問する頻度やifサイトを訪問する頻度に影響を与えることはできません。

IAがサイトをクロールする方法とタイミングに直接影響を与える唯一の方法は、 Archive-It サービスを使用することです。このサービスでは、カスタムクロールを指定できます。結果のデータは（最終的に）IAのWebコレクションに組み込まれます。ただし、これはpaidサブスクリプションサービスです。

DisgruntledGoat · Answer

ほとんどの検索エンジンは「クロール遅延」ディレクティブをサポートしていますが、IAがサポートしているかどうかはわかりません。あなたもそれを試すことができます：

User-agent: ia_archiver Crawl-delay: 3600

これにより、リクエスト間の遅延が3600秒（つまり1時間）、または1か月あたり約700リクエストに制限されます。

＃2は可能だとは思わない-IAボットは、適切と判断したときに資産を取得します。あまりにも多くのストレージを使用しないように、ファイルサイズに制限がある場合があります。