先日 ANA のシステムに障害が発生して大変な騒ぎになりましたね。どうやら原因が特定できたようですが、IT 系の仕事をしている私としては「確かに分かりにくい障害だな」という印象を受けました。いったい何が問題だったんでしょうか?
ネットワーク機器の障害だったようです
今やありとあらゆるものがコンピューターと密接に関係していますが、特にネットワークの重要性は高まっていますね。クラウド化も進んでいるので、ネットワークに不具合があると途端に何もできなくなるから怖いです。
どんな機器に障害が発生したのか?
障害が発生したのは、HUB(ハブ)だったようです。
ハブは、有線接続の際になくてはならない存在です。ケーブルを分岐したりまとめたりする『集線装置』とよばれるもので、これの口数によって物理的な接続台数が決まります。また、データが集中するので性能や信頼性がそのままネットワークシステムに反映されるんです。
最近は無線による接続いわゆる WiFi が普及しているので有線のイメージがわかない方もいるかもしれないですね。でも、正直言って無線接続はいつ切断されるか分からないので、重要なシステムには怖くて組み込めません。
だからこそ ANA のシステムもかなり高価なハブを使って有線接続にしているわけです。でも、そのハブが故障してしまったわけだから、大変な事態です。イメージするなら、都市で一番交通量の多い交差点が、事故でマヒしてしまったと考えれば分かりやすいと思いますよ。
防げなかったのか?
高価なシステムを導入しているので当然防げたはずです。ANA のシステムに使われているハブは障害が発生すると、自動的にシグナルを発して故障を知らせるそうです。そしてそのシグナルをキャッチするとやはり自動的に予備機に切り替える処置をするんだとか。
ではなぜそれができなかったのかというと、故障を知らせるシグナルが出なかったそうなんです。こういったことはコンピューターの世界では案外あることなんです。要するに、想定外のことが起これば検出はできないですからね。
コンピューターはあくまでプログラムによって制御されているので、想定されるすべてのことをプログラミングしておかないといけないんです。それに「漏れ」があると当然検出できない。だから発売前に徹底した検証作業を行うんですが、今回はやはり漏れがあったのかも。
人間が判断できる?
では、障害が発生した時に人間が気付けるのか? ということが気になると思います。私も、何度かハブが原因のトラブルに遭遇したことがあります。でも、それはすぐには気付けないものでしたよ。最初はどうしてもサーバーの障害を疑ってしまうんです。
自慢じゃないですけれど、私は先入観にとらわれることなく診断できる力があるほうなんですが、それでもすぐにはたどり着けないんですよハブの障害は。「知識」と「経験」と「カン」のレベルが相当高い技術者でないと難しいと思いますね。
対策はどうする?
対策はなかなか難しいと思うんですが、少しでも故障の確立を下げることはできます。それは、ハブの選択に気を付けることです。ANA のシステムで使われていたのはネットワーク機器で有名なシスコ社の製品です。値段は高いですが信頼性も抜群に高いです。
でも、普通はなかなか購入できる金額ではないので、一般的なもの(バッファローとか I-O DATA とか)を選ぶと思います。この時に注目してほしいのが、電源装置です。この電源の故障がかなり多いんですよ。
具体的には、『電源内蔵型』の製品を選ぶことです。つまり、ACアダプタを使うタイプはできるだけ避けるべきなんです。というのも、ACアダプタはやたらと壊れやすいんですよ。どういうわけかハブでは特にそれが顕著なんです。
だから、数百円とか千円程度をケチるようなことなく電源内蔵型のハブ選んでほしいんですよ。そうすればきっと後々安心できますから。後は気を付けることがあるとすれば、熱対策ですかね。放熱をうまくやっている製品がいいと思いますよ。
まとめ
ANA で障害を起こしたハブは、シスコが分析して今後の製品に活かすらしいです。あのシスコでさえトラブルが起こるのであれば、どこの製品でもいいんじゃないかと思ってしまいますね。とにかくシスコは高いですから。まあ、それでも今回は本当にまれな事例だと思います。
ネットワークの重要性と可用性を維持することの難しさを感じた事案でしたね。
以上、ANA の障害について感じたことを書きました。