web-dev-qa-db-ja.com

すべてが爆発したときのチェックリストは何ですか?

ユーザーは自分の電子メールにアクセスできず、CEOは会社のホームページにアクセスできず、ポケットベルは「911」コードを送信しただけです。すべてが爆破されたらどうしますか?

40
Jon Galloway

最初の答えは落ち着いてください!私はパニックに陥る困難な方法はしばしば事態を悪化させるだけであることを学びました。それが達成されたら、次は、問題が何であるかを実際に確認することです。ユーザーやマネージャーからの苦情は、あらゆる角度からあなたに向かって来て、彼らが何ができないかではなく、何が問題であるかをあなたに伝えます。

問題がわかったら、それを修正する計画を開始し、怒っているユーザーにタイムスケールを与え始めることができます!

35
Sam Cogan

落ち着く

慌てる必要はありません。息をして! (横隔膜から、それは役立ちます。)瞑想を研究したことがあるなら、それも役立ちます。

極度のストレスに直面すると、あなたの体はそれが生死の状況にあると考えているため、あなたの体は飛行または戦闘モードに入ります。このとき、あなたの体は実際には脳の一部に送られる血液が少なくなり、推論などの機能が低下します。これは、合理性ではなく本能が脳機能を支配し始めると、効果的にIQを低下させます。あなたがこれまでに激しい議論に遭遇したり、目撃したりしたことがある場合、人々の感情が燃え上がり、合理性が失われるにつれて、これらの症状を認識することがあります。その後、人々がクールダウンする機会があるとき、彼らは過ちを犯したか間違っていたことを受け入れる可能性が高くなり、反対側を見ることができるようになりますが、今の猛暑では、そうではありません。

あなたの落ち着きを保ち、あなたについてのあなたの知恵を保つことはあなたの脳が全能力で機能し続けるようにし、あなたが感情や恐怖ではなく証拠や理由に基づいて合理的な決定をすることを確実にします。

トリアージ

限られたリソースを効率的に適用して、最小のコストで最大の利益を達成することは、ここで非常に重要です。今すぐ修正する必要があるもの、少し(数時間、数日)待機できるもの、無期限に待機できるものを、できるだけ早く決定します。また、何かが復旧できず、保存する価値がない場合(たとえば、ルーターの半分が溶けて、それが1つだけであっても、保存できず、新しいものを購入して、サイトで急いで入手したり、何かできるものを見つけたりすることを理解する一時的にギャップを埋めます)。

状況認識を保持

いくつかの興味深い問題や、まだ理解していないことによって、あなたの注意が閉じ込められないようにしてください。全体像と最も重要なものを機能させることに集中してください。

科学的方法を使用

仮説を立てる。この仮説をどのようにテストするかを決定します。仮説を検証するためのデータを収集します。不確定なデータも探します。仮説に磨きをかけ、仮説に十分な自信がつくまで、必要な回数だけサイクルを繰り返します。

実用的であること

今は教義の時ではありません。災害からの復旧時に、あちこちにいくつかのショートカットを用意しても問題ありません。これは基本的に技術的負債を発生させています。多くの企業では、破局的な失敗は破局的な収益の損失を意味します。状況が不安定であっても、物事を実行する方が、会社の生計を危険にさらしてリスクを冒すよりも優れています。いつものように、ここでは判断が非常に重要です。場合によっては、サーバーラックに向けられたボックスファンを支えることが理にかなっていますが、そうでない場合もあります。

自分の面倒を見る

この緊急事態にどのくらい取り組んできましたか?最後に水を飲んだのはいつですか?あなたが最後に食べたのはいつですか?起きて何年ですか?緊急事態が発生したからといって体を燃やさないでください。時間をかけて、水分を補給し、栄養を与え、休息させてください(それが数日にわたる長い場合に備えて)。

募集ヘルプ

あなたの会社には、やる気があり、助けを貸すことができる才能のある人がたくさんいます。ただし、あまりにも多くの人が走り回ったり、お互いにトラブルを引き起こしたりすることには注意してください。また、人々を「ファイアドリル」に通すことによって、迷惑な人々に注意してください。すでに手助けをしたい人を見つけ、ターゲットを絞ったタスクに取り組み、人がお互いにコミュニケーションしていることを確認します。

通信

コミュニケーションは重要です。未知のものほど恐ろしいものはありません。人々が何かが壊れていること以外に何も知らない場合、X時間後にバックアップされるという空のステートメントは、穏やかな安心感しかありません(X時間経過しても物事がまだ壊れているため、安心感はさらに低くなります)。プレーのプレッシャーは、過度に楽観的なWAG時間の見積もりを与えるようにあなたを導く可能性がありますが、これは間違ったコースです。あなたがそれに取り組んでいると言うだけでなく、X timeで修正されると言ってはいけません。オープンになり、プロセスを示し、進捗状況と後退を詳しく説明します。問題への洞察、問題を追跡するプロセス、および問題を修正するための計画を提供します(ただし、特徴点で人々を溺れさせないでください)。問題が難攻不落ではないことを示し、最終的に物事が正しく行われることを示し、問題に有能な人々がいることを示し、これらのことは根拠のないタイムスケジュールの約束よりも安心です。

59
Wedge

パニックにならないでください。

24
Jauder Ho

ステップ0。障害が発生しているのが監視システムではないことを確認する

22
Dave Cheney

serverfaultにログイン

12
Phil Nash

非楽天国へのフライトをすぐに予約する

11
Glenn Slaven

まず基本を確認してください、ばかげているようですが、

  1. サーバー設備の電源は入っていますか? (オフサイトでホストする場合)
  2. ホスティングプロバイダーはダウンしていますか?

問題が上流にある場合、解決策を探すのに多くの時間が無駄になる可能性があることを知っています

8
Glenn Slaven

申し訳ありませんが、この質問はすでに完全に回答されています お気に入りのシステム管理者の漫画

Disaster recovery plan of Dilbert

6
Rene Saarsoo

私はものをpingします。その後の処理は、pingの結果によって大きく異なります。

6
Dylan Beattie

ネットワークのせいにします。

(それは冗談だ!)

4
Guy

RTFLF-Frakkin 'ログファイルの読み取り

(私はこれを信用することはできません、それはすべて Scott Hanselman に行きます)

3
Dillie-O

まだ何も修正しようとしないでください。

実際の根本的な問題が何であるかを正確に理解していることを確認してください。物事の修正を始めます。修正する必要があるものが複数ある場合は、遅延する可能性のあるもの(少なくとも次の営業日まで)を慎重に検討し、絶対に今すぐ修正する必要があります。

しかし、最も重要なのは、すべてがうまくいったら、「すべてが爆発した」理由を尋ねてください。これを再び防ぐために何をしますか? doesが再度発生した場合にソリューションを簡単にする手順はありますか?

2
Stewart

あなたがそれに取り組んでいることを人々に知らせて、可能であれば、物事がいつ正常に戻るかについての見積もりを与えてください。

明らかに何が悪いのかに依存する実際のトラブルシューティングについては。私は通常、さまざまなサービスの「ステータスの確認」スクリプトのコレクションを保持しています。

1
Brian Rasmussen

ケーブルを確認してください!単純なEth0ケーブルの交換で問題が解決するはずだったとき、私は何時間も他のものをチェックしていました...

私はこのトラブルシューティングリストが好きです シンプルなトラブルシューティングアプリケーションですべてが修正されました =)

0
Artur Carvalho

ステートメントから特定のアクションセットを提供することは困難です。最初の移動は以下に基づいています。

  • どこにいる
  • あなたに連絡した人からどれだけの情報を搾り出すことができるか
  • トラブルシューティング(または情報検索)のためにすぐに使用できるツールはありますか
  • ネットワークの物理パスと論理パスに関する知識
  • あなたはどのくらい助けてくれますか(チームの一部ですか、それとも孤独な忍者ですか?)

明らかに、あなたは冷静を保ち、目前の問題について警戒する必要があります。ネットワークのトラブルシューティングの経験から、これは次のような簡単なことであることがわかります。

  • 切断されたケーブル
  • 非通知メンテナンス(別の技術による「修正」)
  • CEOがチーズピザを電子レンジで振っていたために彼のラップトップのワイヤレス接続が失われた後、会社が完全に破滅することについて過剰に反応するCEO。

そうは言っても、それは次のカテゴリーでも深刻なものになる可能性があります。

  • 物理的輸送(接続性)
  • ハードウェア(ルーター\スイッチ\サーバー)
  • ストレージ(アクセス不可\妥協\削除)
  • ソフトウェア(Service> Misconfigured\Attacked\offline)

重要な要素は、問題についてどれだけ知っているかです。あなたの基準点は何ですか? (「システムダウン」とはどのような観点からですか?).

0
l0c0b0x

あなたは危機管理計画を立てるべきです。

重要なシステムは、自動フェイルオーバーまたは文書化され、テストされたリカバリ計画のいずれかを使用して設計する必要があります。

システムの重要性が高ければ高いほど、組み込みが必要な回復力が高まり、システムの自動化が促進されます。

持っていない場合、それは重要ではありませんでした!

0
Guy

単純なものから始め、不条理に向けて取り組みます。

力?

イーサネット?

プログラムは実行中ですか?

...

エイリアン?

0
Robert

DNSを確認します。

0
Cawflands

履歴書のバックアップが安全であることを確認してください:)次に、

共通点を見つけてください。影響を受けるすべてのシステムに共通するもの。

変更点を見つけます。組織では、正式な変更管理を行う必要があります。

新しい男はどこにいますか...ボスはどこにありますか...?それらの1つは近道を取りましたか? (それはただの迅速なサーバーの再起動であり、それが何を害する可能性があるか)

0
BIBD