web-dev-qa-db-ja.com

ボットとクローラーを別の人間にリダイレクトしますが、htaccessを介して人間ではありません

この図をhtaccess経由で適用したいのですが、たくさんのコードを試しましたが、毎回失敗しました

enter image description here

したがって、特に.htaccessを介してFacebookからボットとクローラーをリダイレクトする必要があります

1
Sergio santa

あなたがやろうとしていることは、技術的にはクローキングとして分類される可能性があり、これはGoogleの規約に違反しており、サイトがGoogleインデックスから削除される可能性があります。グーグルはクローキングとして分類するものに非常に厳格であり、基本的には、クローラーが見なければならないエンドユーザーが見るものは何でもルールです。悪意のあるボットをブロックしようとしている場合、最も簡単なのは.htaccessを使用してユーザーエージェント文字列をブロックすることですSERPランキングに深刻な影響を与える可能性があります。

Googleは既知のGooglebotユーザーエージェントを使用するだけでなく、ウェブサイト上でこれを検出する方法として、Googleと提携していないIPアドレス上の実際のブラウザーのユーザーエージェント文字列を持つ他のボットも使用します。これを行う。

その警告を与えました...

あなたは特にFacebookのクローラーに言及します。 Facebookには、クロール用の3つの異なるユーザーエージェントがあります。 facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)およびfacebookexternalhit/1.1は、ユーザーがWebサイトをウォールと共有するときに使用され、Facebotは広告のパフォーマンスを向上させるために使用されます。すべてのうち、Facebotはrobots.txtルールのみを尊重します。他のルールはユーザーアクションによってのみトリガーされ、Webブラウザーと同じように扱われます。 Facebookのクロールをブロックする場合は、.htaccessルールを追加してこれらのユーザーエージェント文字列を検出し、検出された場合はそれらをブロックするか、クローラーが許可されていないエラーページを返します。異なるコンテンツの代替サイトにそれらを転送しようとすると、問題が単純に複雑になり、ボットがアクセスできるページにコンテキストに適したコンテンツがないため、SERPランキングが低下する可能性があります。

3

OK、おそらく解決策があります、これを試してください(リストをカスタマイズできます):

    SetEnvIfNoCase User-Agent "Abonti|aggregator|AhrefsBot|asterias|BDCbot|BLEXBot|BuiltBotTough|Bullseye|BunnySlippers|ca\-crawler|CCBot|Cegbfeieh|CheeseBot|CherryPicker|CopyRightCheck|cosmos|Crescent|discobot|DittoSpyder|DotBot|Download Ninja|EasouSpider|EmailCollector|EmailSiphon|EmailWolf|EroCrawler|Exabot|ExtractorPro|Fasterfox|FeedBooster|Foobot|Genieo|grub\-client|Harvest|hloader|httplib|HTTrack|humanlinks|ieautodiscovery|InfoNaviRobot|IstellaBot|Java/1\.|JennyBot|k2spider|Kenjin Spider|Keyword Density/0\.9|larbin|LexiBot|libWeb|libwww|LinkextractorPro|linko|LinkScan/8\.1a Unix|LinkWalker|LNSpiderguy|lwp\-trivial|magpie|Mata Hari|MaxPointCrawler|MegaIndex|Microsoft URL Control|MIIxpc|Mippin|Missigua Locator|Mister PiX|MJ12bot|moget|MSIECrawler|NetAnts|NICErsPRO|Niki\-Bot|NPBot|Nutch|Offline Explorer|Openfind|panscient\.com|PHP/5\.\{|ProPowerBot/2\.14|ProWebWalker|Python\-urllib|QueryN Metasearch|RepoMonkey|RMA|SemrushBot|SeznamBot|SISTRIX|sitecheck\.Internetseer\.com|SiteSnagger|SnapPreviewBot|Sogou|SpankBot|spanner|spbot|Spinn3r|suzuran|Szukacz/1\.4|Teleport|Telesoft|The Intraformant|TheNomad|TightTwatBot|Titan|toCrawl/UrlDispatcher|True_Robot|turingos|TurnitinBot|UbiCrawler|UnisterBot|URLy Warning|VCI|WBSearchBot|Web Downloader/6\.9|Web Image Collector|WebAuto|WebBandit|WebCopier|WebEnhancer|WebmasterWorldForumBot|WebReaper|WebSauger|Website Quester|Webster Pro|WebStripper|WebZip|Wotbox|wsr\-agent|WWW\-Collector\-E|Xenu|Zao|Zeus|ZyBORG|coccoc|Incutio|lmspider|memoryBot|SemrushBot|serf|Unknown|uptime files" bad_bot
    RewriteEngine on
    RewriteCond %{HTTP_USER_AGENT} env=bad_bot
    RewriteRule (.*) http://www.exemple.com/custom_page
0
Arthur Guiot