web-dev-qa-db-ja.com

ApacheLuceneとGoogle検索アプライアンス

Apache Luceneの機能に出くわした人はいますか?私はそれがグーグル検索アプライアンス(GSA)に匹敵することさえ聞いた。可能であれば、2つの間の明確な比較を探していましたか?

オンラインで入手できるこれらの比較はかなりあいまいです。

20
Riju Mahna

ApacheLuceneとGoogleSearch Applianceは非常に異なるため、比較を見つけるのはおそらく難しいでしょう。 Luceneは、基本的な関連性の「ブースト」が組み込まれたドキュメントのインデックスを作成するためのソフトウェアコンポーネントですが、GSAは、検索結果を調整および最適化するための多くのすぐに使用できる機能を備えたエンタープライズ検索製品(アプライアンス/物理ハードウェア)です。 theGoogle検索アルゴリズムの。

したがって、これらは基本的に、実装シナリオが異なる2つの優れたツールです。しかしもちろん、平均的なWebサイトで検索を提供するために使用する場合は、特に重複します。

私の頭の上から、比較のために始めたいと思うかもしれないいくつかのトピック:

展開/アーキテクチャ

  • Luceneは、独自のソフトウェアに深く統合できるソフトウェアコンポーネントであり、コンテンツにすばやくインデックスを付けて取得するためのインデックス(通常はファイルベース、場合によってはメモリ内)を提供します。
  • Luceneプロジェクトは、さまざまな言語(西洋言語、アラビア語、アジア語など)の適切なインデックス付けを行うためのアナライザーの非常に大きなリストを提供しますが、アナライザーには改善の余地があります
  • Lucene for .Netは、Microsoft .NetPlattformsに統合される非常に人気のあるポートです。
  • GSAソフトウェアとハ​​ードウェアがバンドルされ、HTTP(s)インターフェイスを備えたアプライアンスとして販売され、HTML(独自のXSLTを介して)またはXML(Webサイトとの統合を改善するため)のいずれかで検索結果を提供します。
  • GSAには言語バンドルが付属しています(インストールおよびダウンロード可能)。いずれかのバンドルを選択する必要があります。より多くの言語のサポートが必要な場合は、インフラストラクチャに別のGSAを追加する必要があります(必要なすべての言語が単一のバンドルに含まれていない場合)
  • GSAは優れたパフォーマンスを発揮し、メンテナンスはほとんど必要ありません
  • GSAを使用すると、エンジニアリングの労力をほとんどかけずに拡張できます。グローバルに分散されますが、接続されたGSAはWebインターフェイスを介して設定できます
  • より安価なホットバックアップモジュールを購入することで、GSAをHAにすることができます

インデクシング

  • Luceneは、コンテンツにインデックスを付けるためのクローラー(およびクローラーAPI)を提供します。クローラーが実際にGoogleのようなWebサイトをクロールするのか、SQLステートメントに基づいてデータベースをクロールするのか、フラットファイルから読み取ったテキストストリームを提供するのかは関係ありません。ただし、提供されたものがニーズに合わない場合は、通常、クローラーを実装する必要があります。
  • GSAは、Googleが使用するクローラーテクノロジーを使用し、ロボットの指示(TXTまたはメタタグ内))を尊重し、クロールできない(つまり、それらの間のリンクがない)ソースのフィードAPIを提供します。データベースからデータを取得するために、すべての市長DBへのSQLクエリの設定をサポートします(クロールするURLまたはデータ自体)

検索/関連性の調整

  • Luceneは、関連性の調整を目的としておらず、適切なサポートも提供していません(インデックスのエントリのブーストを除く)。インデックスの結果を使用してチューニングを行うのはアプリケーション次第です
  • Luceneは、SOAが使用するインデックスであり、GSAに類似したチューニングとアーキテクチャを提供します(HTTP(s)経由の結果取得を含む)。
  • GSAでは、メタデータ、日付、URLパターンに基づいて結果セットにバイアスをかけることができます。最新バージョンでは、独自のエンティティを設定し、それらに基づいて結果にバイアスをかけることもできます
  • GSAは、メタデータの追加設定なしでファセットをサポートし、ドキュメントのプレビュー画像、自動提案などのインターフェース上でいくつかのより凝ったものをサポートします。

商業的なもの

  • Luceneはオープンソース(無料)製品ですが、ハードウェアを購入する必要があります
  • GSAは、50万のドキュメント/ URLで約2万ドルから始まります
  • Googleはいくつかのサポートレベルを提供しています
  • GSAライセンスは2年または3年ごとに更新する必要があります(新しいハードウェアを取得します)
  • GSAは追加のハードウェアを必要としません(アプライアンスが含まれています)

...追加するものはまだまだたくさんありますが、要点を理解していただければ幸いです。


2016年2月の更新:

Googleは、GSAが2019年頃に廃止されることをパートナーに通知しました。現時点でリンクするのに最適なサイトは http://fortune.com/2016/02/04/google-ends-search-appliance /

38
Reto Hugi