私の部門では、Windows Server2003とUbuntuServerの両方を実行する6台のサーバーを管理しています。
稼働時間を報告して追跡する必要があります。 95%の稼働率が必要であり、このデータを追跡して報告する実際の方法はないと思います。現在、テキストファイルとダウンタイムの見積もりを使用して手動でこれを行っています。
このタスクを支援するためにどのようなツールがありますか、または現在サーバーの稼働時間をどのように報告および追跡していますか?
ああ、私のお気に入りのトピックの1つ。
まず、「稼働時間」を定義する必要があります。
サーバーが稼働しているということですか? (この場合、スクリプトで定期的にpingを実行するだけです)。
それとも、アプリケーションが実行されているということですか? (Webアプリであると仮定して、アプリケーションの「ホームページ」に定期的に接続します)
それとも、アプリケーションが想定されているビジネスサービスを提供しているということですか? (この場合、ある種の 合成トランザクション。 を実行する必要があります。
私は最後のものだけが何らかの意味で正しいと思います。他の方法は技術的には簡単ですが、「このサーバーはビジネスに価値を提供しているか」とは実際には相関していません。
私が追加したリンクをクリックするとわかるように、これを行うソリューションを販売している企業はたくさんありますが、独自にロールすることもできます。私はNetIQの製品とMicrosoftMOM(2つは歴史を共有しています)の経験がありますが、他の製品も同様に機能すると確信しています。
ツールを選択するときは、計画されたアップグレードとメンテナンス期間をどのように考慮するかを検討してください。単純なアプローチでは、これらをダウンタイムとして記録します。
また、95%は非常に要求が厳しくありません。これは、毎日72分のダウンタイム、つまり1週間に8時間以上のダウンタイムに相当します。たとえば、毎週木曜日のすべての営業日にサーバーを停止してみてください。そうすれば、SLAは実際にはそれよりも少し厳しいことがわかると思います...
私は http://mon.itor.us/ を使用します(ただし、現時点ではダウンしています)。
nagios はダウンタイムレポートを提供し、標準のubuntuリポジトリで利用できます。