web-dev-qa-db-ja.com

Github Wikiを検索エンジンでクロール可能にするにはどうすればよいですか? robots.txtはそれを禁止しているようです

W3Cリンクチェッカー を使用していると、Github Wikiをクロールできないことがわかりました。

https://github.com/aegif/CmisSync/wiki/Getting-started-with-CmisSync-development
ステータス:(N/A)robots.txtにより禁止されています

検索エンジンでこのWikiを簡単に見つけてもらいたいので、これは残念です。

質問:Github Wikiを検索エンジンでクロール可能にするにはどうすればよいですか?
それとも間違っているのか、Githubのrobots.txtは実際に問題ないのか?

9
nic

GitHub robots.txt は、Googlebotセクションなどで、Wikiページのクロールを明示的に禁止します。

User-agent: Googlebot
Allow: /*/*/tree/master
Allow: /*/*/blob/master
...
Disallow: /*/*/wiki/*/*

これはサイト全体のロボットファイルであるため、回避することはできません。

GitHub wikiの説明 は「プロジェクトに関する長い形式のコンテンツを共有する」場所として、これは興味深い選択です。デフォルトでは公開ウィキはすべてのユーザーが編集できるため、おそらくスパマーからの強力な保護です。

9
John C

GitHub wikiは、それをサポートするエンジンで検索できます。 https://github.com/robots.txt の最初の2行を参照してください:

# If you would like to crawl GitHub contact us at [email protected].
# We also provide an extensive API: https://developer.github.com/

これはおそらく、さまざまなWiki形式などを解析するためです。

たとえば、Googleで「openrefine broker protocol」を検索すると、最初のヒットはGithubプロジェクトwikiのページです。

0
Peter Kehl