ページの先頭です
IIJ.news Vol.172 October 2022
お客さま対応において、もっとも重要かつ真価が問われるのが「障害・災害対応」である。
ここではお客さまの要望やサービス利用方法の変化に応じて、IIJが障害・災害対応の中身をどう進化・充実させているのか解説する。
IIJ サービス統括本部 副本部長
藤井 直人
1995年、IIJメディアコミュニケーションズに入社。ストリーミングやIPマルチキャストの技術開発に従事。その後、サービス横断の導入支援、クロスサポートの体制を推進。また、大規模障害・災害発生時には対策本部長として指揮。
インターネットがビジネスの基盤インフラとして広く利用されるようになり、通信障害に対する見方も変化しています。最新のIIJのサービス設備では、障害が起こり得ると想定される箇所は、すでに二重化が進んでいます。故障時は無停止で切り替わるため、障害アナウンスが出ていない時でも、随時切り替わりながらサービスは継続しています。
ところが、まれに完全には壊れないような想定外の故障が起きると、設備監視では見つけられないので、お客さまからの申告により調査を開始せざるを得ず、被疑箇所の絞り込みや影響範囲の特定に時間がかかってしまいます。その結果、お客さまから見ると、障害発生時刻から障害アナウンスまでの時間が遅いと感じられることになります。
近年、お客さまの利用方法が、単純な社内OA利用だけでなく、自社の事業のDX基盤として活用が進み、社外にも利用者がいらっしゃる場面などにおいて、IIJのお客さまがそのまた先にいらっしゃるお客さまから迅速な回復や情報公開を求められるといったケースが出てきています。
これまでのIIJの障害アナウンスは、誤報があってはならないという観点から、正確な影響範囲の特定、障害起因の調査、発生時刻の確定など、ある程度の情報が揃った時点で発信されていました。ところが、上述のような利用方法の変化により、お客さま自身でも自社システムの調査を並行して行なっているため、自社起因なのかIIJ起因なのかを早急に切り分けるうえで、100パーセント確実でなくても障害が発生している可能性があれば、連絡がほしいというご要望が増えてきました。そうした声を受け、誤解を招かないよう十分注意しながら、障害発生が疑われる状況においては早期にアナウンスを実施するよう努めています。(図1)
IIJでは、大規模障害の基準を個々のサービスごとに設定し、それを超えた際には大規模障害対策本部長が、サービスサポート主管部署、サービス開発主管部署などの関係者を招集し、対策本部を設置して、情報の収集・整理・共有・発信を行なっています。(図2)
これまで対策本部は、本社の会議室に参集していたのですが、コロナ禍以降はリモートワークの割合が高まったため、Teams会議で実施しています。これにより深夜・休日の対応速度も上がり、複数のサービスにまたがる基盤の大規模障害でも、適切に関係者間で連携がとれるようになりました。
同時に大規模災害発生に対する準備も進めており、西日本に日常時から分散配置しているサテライトオフィスのメンバーとも定期的に訓練を実施し、有事への対応も万全を期しています。
ページの終わりです