スクレイピー、内部URLのみに従うが、見つかったすべてのリンクを抽出する

Question

Scrapyを使用して、特定のWebサイトからすべての外部リンクを取得したい。次のコードを使用して、スパイダーは外部リンクもクロールします。

from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors import LinkExtractor from myproject.items import someItem class someSpider(CrawlSpider): name = 'crawltest' allowed_domains = ['someurl.com'] start_urls = ['http://www.someurl.com/'] rules = (Rule (LinkExtractor(), callback="parse_obj", follow=True), ) def parse_obj(self,response): item = someItem() item['url'] = response.url return item

何が欠けていますか？「allowed_domains」は外部リンクのクロールを妨げませんか？ LinkExtractorに「allow_domains」を設定すると、外部リンクが抽出されません。明確にするために：内部リンクをクロールするのではなく、外部リンクを抽出します。どんな助けもappriciated！

12Ryan12 · Accepted Answer

各ページを解析したら、リンクエクストラクターを使用してすべてのリンクをプルすることもできます。

リンクエクストラクターはリンクをフィルターします。この例では、リンクエクストラクターは許可されたドメイン内のリンクを拒否するため、外部リンクのみを取得します。

from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors import LxmlLinkExtractor from myproject.items import someItem class someSpider(CrawlSpider): name = 'crawltest' allowed_domains = ['someurl.com'] start_urls = ['http://www.someurl.com/'] rules = (Rule(LxmlLinkExtractor(allow=()), callback='parse_obj', follow=True),) def parse_obj(self,response): for link in LxmlLinkExtractor(allow=(),deny = self.allowed_domains).extract_links(response): item = someItem() item['url'] = link.url

Ohad Zadok · Answer

12Ryan12の答えに基づいて更新されたコード、

from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors.lxmlhtml import LxmlLinkExtractor from scrapy.item import Item, Field class MyItem(Item): url= Field() class someSpider(CrawlSpider): name = 'crawltest' allowed_domains = ['someurl.com'] start_urls = ['http://www.someurl.com/'] rules = (Rule(LxmlLinkExtractor(allow=()), callback='parse_obj', follow=True),) def parse_obj(self,response): item = MyItem() item['url'] = [] for link in LxmlLinkExtractor(allow=(),deny = self.allowed_domains).extract_links(response): item['url'].append(link.url) return item

aberna · Answer

解決策は、ここでSgmlLinkExtractorドキュメントの使用法をprocess_link関数にすることです http://doc.scrapy.org/en/latest/topics/link-extractors.html

class testSpider(CrawlSpider): name = "test" bot_name = 'test' allowed_domains = ["news.google.com"] start_urls = ["https://news.google.com/"] rules = ( Rule(SgmlLinkExtractor(allow_domains=()), callback='parse_items',process_links="filter_links",follow= True) , ) def filter_links(self, links): for link in links: if self.allowed_domains[0] not in link.url: print link.url return links def parse_items(self, response): ### ...