web-dev-qa-db-ja.com

理想的な自己ホスト型検索エンジンとは何ですか?

私は、いくつかのブログとフォーラム、数百の静的ページ、多数のPDFファイル、および他のいくつかのドキュメントタイプで構成される内部(イントラネット)サイトを持っています。過去数年間にわたって緩やかに接着されていましたが、今ではそれを維持することが私の仕事です。

私は理想的に自分自身をホストできる検索エンジンを探しています:

  1. 検索するデータベース情報とテーブルが指定されている場合、ブログ/フォーラムデータベースを直接検索できます。

  2. ほとんどのテキスト文書を処理します(PDF/DOC/ODF)

  3. オープンソースであるか、購入後にソースコードにアクセスできます

どんな言語やプラットフォームで書かれているかは関係ありません。通常、Googleサイト検索を使用するだけですが、それはイントラネットのオプションではありません。

11
Tim Post

チェックアウトLucene

Java で記述されています 。NET framework でも利用可能

これがどのように機能し、どのように使用されるかを説明するCodeProjectの記事です。 http://www.codeproject.com/KB/library/IntroducingLucene.aspx

7
jessegavin

以前に Sphider を使用しましたが、非常に感銘を受けました。

2
Darryl Hein

SearchBlox Luceneに基づいて、ニーズを満たすことができる場合があります。それは無料で、クローラーが付属しています。

2
user5213

通常、私は単にGoogleサイト検索を使用しますが、それはイントラネットのオプションではありません。

実際には、イントラネットのGoogleサイト検索に相当するGoogle検索アプライアンスがあります。ただし、これはオープンソースではありません(気付いていない場合は、Googleサイト検索も同様ではありません)。

0
delete