2009年12月17日木曜日

備えあれば

2009年12月16日20時頃、NTTBフレッツとau one netのあたりで回線障害がありました。

当社でSaaS提供しているWEB入稿・自動組版のお客さまがその影響を受けてしまうことになりました。

回線については、なんともしようがないんですが、こういう時のためにも複数の回線が用意してあるので、入り口を変えて接続してもらうという緊急時の対策を施しました。
他にも考えられる障害への対応策は、数年の歳月をかけてかなり施してあります。

お客さまからすると、えっそんなのプロなんだからすぐ直せるでしょ、と考えると思います。
実際、簡単に終わることもあります。しかし、いろいろな可能性を探りながら慎重にやらないと二次三次の障害を起こす原因にもなってしまいます。そうなっては右往左往しながら余計な時間を要してしまうことにもなりかねません。
そういったことを全部含めて、最速で復旧できるように心がけています。

が、なかなか理解はしてもらえません。
おまえらちゃんとやってんのか!と。
見えないんだから仕方ないですね。
見えないから余計にイライラしてしまいますよね。

実際今回は、まず監視サーバから全員の携帯にメールが送信され、その後5人全員が携帯で招集されました。一人は帰宅中に途中下車して一番近い友人宅に陣取りしたようです。第一報から10〜15分ぐらいだったと思います。

その後は、全員オンラインで状況を確認、情報を収集しながら、これが原因だとしたら、どうする、それをしたらどうなる、他に影響は?などなど、こういう場合、一人の判断、知識では不十分なときがあります。いつもはのんびりしてそうな人たちがそれぞれの力を発揮しながら解決、そして対応まで持ち込みます。チームワークが試される時でもあります。

でも、見えないんです。悲しいことに。
今回の全員のやりとりチャットを公開したいぐらいです。

回線が復旧するかもしれない。それでも回線が大変なことになって復旧しなかった時を想定して職務を全うするために動きます。

。。。今回は、緊急対応が完了したとたんに、NTTの回線が復旧しました。

ネットワーク障害も、ハード障害もいつ起こるとは誰も教えてくれません。
逆にいつでも起こる可能性がある、ということです。
世の中が便利になる反面、気にしなくなった反面、見えないリスクも背負っています。

最後は、機械ではなく、人間がやるしかありません。

NTTの人たちもそうだと思います。そういう裏方さん達が、僕らが何気なく使っている物を必至になって守ろうとしているというのは、こういう障害が起こったときぐらいでいいので思い出して欲しいなと思います。
そうしないと、重要性が軽視されて、やがてそれは品質の低下を招くという結果にもなりかねないとちょっと危惧してしまうのです。

印刷・出版系システムは、印刷入稿日が決まっているので、もしデータが出来なかったら損害額が半端な物ではありません。
ボタン押して、自動組版されて出てくる、それだけのシステムなんですが、それを当たり前のようにできるように、相当なノウハウが詰まっています。

それでも障害は発生します。そういうときは、皆さんが思う以上に相当な緊張に包まれます。
ですが、過度の緊張は失敗に繋がります。ほとんどの復旧失敗は、急ぎ過ぎが原因です。
絶対に焦ってはいけない。これが鉄則だと思います。

とにかく下版できないとか、そういう大事故に発展しなくて良かった。。。

0 件のコメント: