web-dev-qa-db-ja.com

現状監視と故障予測システムのデメリット

オンライン障害予測のために、どの優れたソリューション(ソフトウェア/ハードウェア)が企業で開発および適用されているかという質問があります。 Zabbix、Openstb、Cactiおよび同様の代替品?もう少し挙げていただけますか?特に故障予測の面で、それらが持つ長所と短所を説明できますか?

それらの欠点を知り、model\algorithmsによっていくつかの改善を行いたいと思います。オンライン障害予測の概念についてよく知らない場合は、以下の説明を参照してください。すでに知っている場合は、スキップしてください。

Online failure prediction -- It is an approach to evaluate whether an incoming failure will occur in the near future, and when the failure will occur, and in which component (maybe software or hardware) the failure will occur. It's a short-term prediction by tracking failure, detected error reporting, undetected errors' symptoms, faults's auditing (actively searching the faults, for example, search inodes' inconsistency in Linux filesystems).

より詳細な紹介と関連するアプローチは、論文に記載されています https://s3-us-west-2.amazonaws.com/mlsurveys/88.pdf

どうもありがとうございました !

1
zhangjie

監視システムの比較: https://en.wikipedia.org/wiki/Comparison_of_network_monitoring_systems

一部の監視システムには、障害予測がそのまま備わっているとは思いません。提供された論文は学術的すぎます。いくつかの監視システムの上に構築することもできます。これにより、障害アルゴリズムの予測にデータ/イベント/障害が提供されます。

一部の監視システムには次のものがあります。

  • メトリック予測(トレンド予測)。故障予測ではありません。素敵なセミアカデミックペーパーには、Zabbixがあります Zabbix予測

  • 異常検出-これも予測ではなく、検出です。異常検出で最も有名なOSSは Skyline です。 RRDベースのシステム(Cacti)はRRD Holt Winterアルゴリズム を使用します。また、Graphiteにはいくつかの 数学関数 があり、異常検出に使用できます。

障害検出を実装/改善したい場合は、それを汎用にします。

  • 入力レイヤー-プラグインの概念があるため、ユーザーは独自のプラグインを使用/作成できる必要があります。これにより、プラグイン固有の監視システムからデータが取得されます。
  • 障害検出レイヤー-多くのアルゴリズムがあるため、それぞれを構成可能にする必要があります
  • 出力層-入力層と同様であるため、予測される障害に関するイベントは、監視システムまたは別のアラートシステムに戻ることができます

ユーザーフレンドリー(アカデミックではない)にして、Githubを使用してください。あなたがそれをテストする必要があるとき、私にpingしてください。 :-)

1
Jan Garaj