web-dev-qa-db-ja.com

solrはWebクロールを行いますか?

Webクロールに興味があります。私はsolrを見ていました。

solrはWebクロールを実行しますか、それともWebクロールを実行する手順は何ですか?

17
murali

Solr 5+は実際にWebクロールを実行します! http://lucene.Apache.org/solr/

古いバージョンのSolrは、歴史的に全文検索機能を提供する検索サーバーであるため、Webクロールだけを実行しません。 Luceneの上に構築されます。

別のSolrプロジェクトを使用してWebページをクロールする必要がある場合は、次のようないくつかのオプションがあります。

LuceneまたはSOLRが提供する検索機能を利用する場合は、Webクロール結果からインデックスを作成する必要があります。

これも参照してください:

Luceneクローラー(Luceneインデックスを作成する必要があります)

20
Jon

Solr自体にはWebクロール機能はありません。

Nutch は、Solrの「事実上の」クローラー(および一部)です。

9
mjv

Solr 5は単純なWebクロールのサポートを開始しました( Java Doc )。検索が必要な場合はSolrがツールであり、クロールが必要な場合はNutch/Scrapyの方が適しています:)

起動して実行するには、 ここ を詳しく見てください。ただし、これを1行で起動して実行する方法は次のとおりです。

Java 
-classpath <pathtosolr>/dist/solr-core-5.4.1.jar 
-Dauto=yes 
-Dc=gettingstarted     -> collection: gettingstarted
-Ddata=web             -> web crawling and indexing
-Drecursive=3          -> go 3 levels deep
-Ddelay=0              -> for the impatient use 10+ for production
org.Apache.solr.util.SimplePostTool   -> SimplePostTool
http://datafireball.com/      -> a testing wordpress blog

ここのクローラーは非常に「ナイーブ」であり、 this ApacheSolrのgithubリポジトリからすべてのコードを見つけることができます。

応答は次のようになります。

SimplePostTool version 5.0.0
Posting web pages to Solr url http://localhost:8983/solr/gettingstarted/update/extract
Entering auto mode. Indexing pages with content-types corresponding to file endings xml,json,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log
SimplePostTool: WARNING: Never crawl an external web site faster than every 10 seconds, your IP will probably be blocked
Entering recursive mode, depth=3, delay=0s
Entering crawl at level 0 (1 links total, 1 new)
POSTed web resource http://datafireball.com (depth: 0)
Entering crawl at level 1 (52 links total, 51 new)
POSTed web resource http://datafireball.com/2015/06 (depth: 1)
...
Entering crawl at level 2 (266 links total, 215 new)
...
POSTed web resource http://datafireball.com/2015/08/18/a-few-functions-about-python-path (depth: 2)
...
Entering crawl at level 3 (846 links total, 656 new)
POSTed web resource http://datafireball.com/2014/09/06/node-js-web-scraping-using-cheerio (depth: 3)
SimplePostTool: WARNING: The URL http://datafireball.com/2014/09/06/r-lattice-trellis-another-framework-for-data-visualization/?share=Twitter returned a HTTP result status of 302
423 web pages indexed.
COMMITting Solr index changes to http://localhost:8983/solr/gettingstarted/update/extract...
Time spent: 0:05:55.059

最終的に、すべてのデータが適切にインデックス付けされていることがわかります。 enter image description here

4
B.Mr.W.

あなたも見てみたいかもしれません

http://www.crawl-anywhere.com/

Solrと互換性のある非常に強力なクローラー。

2
Okke Klein

私は最新のプロジェクトでNutchwith Solrを使用していますが、非常にうまく機能しているようです。

Windowsマシンを使用している場合は、JasonRiffelによる ' No cygwin 'の指示に従うことを強くお勧めします。

1

はい、ここの他の投稿に同意します。ApacheNutchを使用してください

bin/nutchクロールURL-solr http:// localhost:8983/solr / -depth 3 -topN 5

Solrのバージョンは正しいバージョンのNutchと一致しますが、古いバージョンのsolrはインデックスを異なる形式で格納するためです。

そのチュートリアル: http://wiki.Apache.org/nutch/NutchTutorial

1
Joyce

しばらく経ちましたが、他の誰かが私のようなSolrクローラーを探している場合に備えて、 Norconex HTTP Collector という新しいオープンソースのクローラーがあります。

1
Loransian

デフナッチ! Nutchには、検索結果を照会できる基本的なWebフロントエンドもあります。要件によっては、SOLRを気にする必要がない場合もあります。 Nutch/SOLRの組み合わせを実行すると、SOLRとNutchを統合するために行われた最近の作業を利用できるはずです... http://issues.Apache.org/jira/browse/NUTCH-442

0
wmitchell