web-dev-qa-db-ja.com

archive.orgボットを適切に(禁止)許可する方法は?もしそうなら、物事は変わりましたか?

私はほとんど検索エンジンでインデックスに登録したくないウェブサイトを持っていますが、archive.orgで永遠に保存したいです。したがって、私のrobots.txtはこれで始まります:

User-agent: *
Disallow: /

今日、 archive.org によれば、ボットを許可するにはrobots.txtに次を追加する必要があります。

User-agent: ia_archiver
Disallow:

しかし、私はすでに数年前に彼らが示したことをすでに行っていました、少なくとも、私は以下を追加しました:

User-agent: archive.org_bot
Disallow:

次に、 別のソース 上記の2つのDisallowsに加えて、もう1つを追加する必要があると主張しています。

User-agent: ia_archiver-web.archive.org 
Disallow:

ボットにサイトをアーカイブさせたくない場合は、Disallow: /を置く必要があることに注意してください。

IAボットに変更がありましたか?もしそうなら、いつ?

推奨される方法は何ですか?現時点では3つすべてを許可し、IAが今後ボット名を再び変更しないことを期待する必要がありますか?

9
guaka

更新:@KevinFeganがコメントで述べているように、ドキュメントが変更されました。以下の部分では、過去(少なくとも2014年)にインターネットアーカイブがどのように処理したかについて説明します。


彼らのFAQ Wayback Machineからサイトのページを除外するにはどうすればよいですか?ウェイバックマシンからのドキュメントの削除 、ボットがia_archiverと呼ばれるドキュメント。

したがって、このレコードにより、ボットがサイト全体をクロールできるようになります。

User-agent: ia_archiver
Disallow:
7
unor

2017年に更新

アーカイブボットは現在robots.txtを気にしません。

本当にブロックしたい場合は、メールを送信してください このページによる 、またはhtaccessでIPアドレスをブロックしてください。

3
Goyllo

Robots.txtのia_archiver Disallowエントリ(「/」を含む)は、説明する必要に応じて(「永久保存」するためですが、まだ公開されていません)必要があります。

少なくとも過去10年間は​​ia_archiver Disallowエントリが存在するサイトのエントリをコメントアウトして、簡単なテストを行いました。次に、archive.org/webでサイトを検索すると、2007、2008、2009、2011、2012、2013、2014、2015、2016、2017年に収集したグラブが表示されました!つまり、Archive.orgは、この数年間、他の人が「アーカイブしない」と考えていたものを厳密に尊重することはなく、単にアーカイブされたコピーを公開していませんでした。

3
mike
  1. 「ia_archiver」は現在、Alexaによって(ab)使用されており、一部の情報源は 12 と言います。
  2. Archive.org now(2018)は、「robots.txt」を一切尊重しません。 mil/govページだけでなく、すべてのページについて。 2012年以来iaを除くrobots.txtを所有していた私自身のプライベートWebサイトで経験したように、そして今、私は彼らが何年にもわたってクロールされ保存されていることを突然知り、今では全歴史が見えるようになりました。それは裏切られたという感覚です。 > :-(
2
Carl