深夜に大地震発生、その時運用センターSMACでは何が起きていたか?
更新日 : 2022年04月15日
想定外の事態にも止まることのなかったSMACの強さの秘密に迫る
2022年3月16日 23時36分頃、福島県沖でマグニチュード7.3の大きな地震が発生しました。
被災された皆様には、心より御見舞い申し上げます。
震源地から300km近く離れたJBサービスの東日本の運用センターSMAC(Solution Management and Access Center)でも、大きな揺れを感じ、その直後には停電に見舞われました。
もともとSMACは、東日本と名古屋で監視や受電設備などが二重化されているため、首都圏・ローカル地区のどちらで停電が発生しても、システムを切り替えて業務が継続できる設計になっています。更にコロナ対策として、セキュリティを強化したテレワーク環境を整備しているため、広域災害が発生しても在宅からの対応が可能です。これらが正しく機能するか確認するために、しっかり訓練も行っていました。これらのおかげで、今回の停電でも東日本・名古屋のSMACと在宅メンバーが連携し、お客様の業務に影響を与えることなく即座に復旧作業を行い、危機を乗り越えることができました。しかし実際には、事前の対策・訓練では想定していなかった事象も発生していたのです。
そこで、あの日、SMACでは何が起き、どのようにして復旧が進められてきたのかを時系列に振り返りながら、JBサービスおよびJBグループのBCP(事業継続計画)/災害対策に関する取り組みをご紹介します。
地震発生から停電復旧までの対応
2022年03月16日 23時36分頃の地震情報 |
地震直後の東京電力管内の停電状況 |
2022年3月16日の深夜、24時間体制でお客様のシステムの安定稼働をサポートするSMACには、当直のサービスデスクのオペレータと、セキュリティ・ネットワーク監視チームメンバー数名、マネージャー、グループリーダー2名が勤務していました。地震発生時には大きな揺れを感じたものの、機材が倒れたり、落ちたりといった被害はありませんでしたが、その直後に館内の照明が消灯し、UPSからは電源障害を感知したことを示す警告音がなり始めました。
揺れがおさまり、身の安全を確認したメンバーは、まずNHKニュースやインターネットの防災速報で地震発生の状況と、東京都内を含む1都8県(首都圏+山梨・静岡)で大規模な停電が発生していることを確認しました。その後すぐに各自持ち場につき、予めUPSに接続されていたPCで業務を継続しながら、非常用に準備していたランタンの灯りを頼りに、電源が落ちていたその他のPCをUPSに接続する作業を行いました。
セキュリティ・ネットワーク監視は、東北・関東地方のお客様の機器から地震、停電が原因と思われるアラートが多数上がっていたため、一旦それらの対応優先順位を下げ、名古屋SMACメンバーと協力して、通常の監視業務に支障が出ないよう体制を整えました。サービスデスクの方は、オペレータの受電に支障はなく、お客様から停電関連のお問い合わせが数件あったのみで、大きな混乱もなく通常業務を継続することができました。
以下が地震発生時から、復旧までの実際の対応内容を時系列にまとめたものです。
東日本SMACにいたメンバー、在宅メンバー、名古屋SMACメンバーがMicrosoft Teamsを活用して、素早く情報連携を行い、約2時間後にはすべての機器、業務の正常稼働を確認することができました。
時刻 | 対応内容 | |
23:36 | 地震発生 | |
23:41 | 監視員が管理責任者へ停電を報告 | |
23:45 |
管理責任者がグループリーダーに停電を報告、名古屋SMACにBCP対応発令、名古屋メンバーのSMAC出社を指示 |
|
↓ |
↓ | |
<セキュリティ・ネットワーク監視チーム> |
<サービスデスク> | |
00:09 | シフトメンバーの受電を確認、名古屋への転送(ボイスワープ)は不要と判断 | |
00:10 | 非常時運転(UPSバッテリ稼働PC、およびリモートからの監視)開始 | |
00:16 | 全監視端末のUPSへの接続完了 | 受電用PCのUPSへの接続完了 |
00:23 | 関係者による状況確認Mtg開催(リモート会議) | |
00:50 |
名古屋メンバーがSMACに到着、東日本との業務連携開始 |
|
01:50 | 東日本SMAC復電、全機器・全業務の正常稼働を確認 |
JBサービスのBCP/災害対策に関する取り組み
24時間365日止まることが許されないSMACならではの実地訓練
深夜に発生した災害にもかかわらず、SMACが迅速に非常時運転の体制をとり、一切業務を止めることなくお客様にサービスを提供し続けることができたことには理由があります。
その1つは、法廷点検の際に行っている実践的な災害対応訓練です。
一般的な運用センターでは、災害発生のシナリオを予め作成し、そのシナリオに対して計画どおりに対処できるかをシミュレーションする机上訓練が行われます。しかしSMACはそれだけではなく、実際に停電を伴う事業継続テストを毎年のように実施しているのです。法定点検によるビルの停電を利用して、東日本SMACから名古屋SMACへの切り替えテストを行い、設備や運用ルールが正しく機能するか、メンバーが正しいオペレーションを行うことができるかを入念に確認しています。
今回も現場にいたSMACのメンバーが、目の前で起きている事象の重要性や緊急性を冷静に判断した上で、責任者に的確にエスカレーションし、チーム一丸となって対応できたのは、この訓練によって培われたスキルとチームワーク、そしてサービスを絶対に止めないという高いモチベーションがあったからこそです。
これは、24時間365日体制で長年お客様のシステムの安定稼働を支えてきたSMACならではの強みです。
15年以上にわたり改善を繰り返してきたBCP/災害対策の体制と仕組み
もう1つの理由は、JBグループ全社から選出されたメンバーで構成されるBCP委員会による災害対策推進体制と初動対応の仕組みです。
JBグループでは、2005年に危機管理タスクを発足させて以来、継続的にBCP/災害対策の見直し、強化を図り、2017年には「CMT」(Crisis Management Team)と呼ぶ初動実働部隊と、その活動のベースとなる「ファーストプロトコル」を策定しました。
ファーストプロトコルは、災害発生から180分までの間の行動内容を定めたもので、災害発生場所などに応じて約60~70のステップで構成されており、安否確認班、社内情報収集班、社外情報収集班、社内連絡班、庶務班に分かれ、情報収集や整理、連絡・報告などを実行します。
下表は首都圏で大規模な地震災害が発生した場合を想定したファーストプロトコルの基本的活動項目です。(今回の地震による停電では名古屋CMTは発動せずに首都圏のみで対応)
今回の災害発生時にも、SMACでの復旧作業と並行して、BCP委員会のメンバーが23:43にはMicrosoft Teams上にCMT会議を立ち上げ、被災地域の従業員の安否確認や、各方面からの情報収集・報告に奔走していました。
想定外にいかに備えるか
災害対策においては、「想定外にいかに備えるか」がポイントと言われます。そのためには「想定外を極力減らすこと」とそれでも起こってしまった「想定外に柔軟に対応すること」の2つが求められます。
BCP委員会では想定外を減らすために、災害発生場所に対応したプロトコルの策定や、CMTや災害対策本部の即時開催が困難になった場合の対処など、さまざまな事象を想定した対策を講じています。またファーストプロトコルの訓練では、災害と被害を想定したシナリオ型ではなく、想定外を前提としたブラインド型の災害対策訓練を180分間通して行い、想定外に柔軟に対応しながら、定義したプロトコルを実行できるかを確認しています。
今回の災害も、実は想定外のケースでした。「ローカル地区で発生した地震により、首都圏で大規模な停電が発生した場合」のプロトコルは策定していなかったのです。しかし、ファーストプロトコルの訓練が活かされ、社外情報収集班からの停電情報をもとにCMT内で対処方法を話し合い、臨機応変な対応を行うことができました。
BCP/災害対策、はJBサービスにご相談ください
今後もJBサービスでは、災害発生時にもサービスを止めることなく、24時間365日お客様のシステムの安定稼働をご支援することができるように、災害発生時のファーストプロトコルや、事業継続のためのセカンドプロトコルの精度向上や基準の見直し、訓練の充実に努めてまいります。
自社でBCP・災害対策を策定したいが何から手をつければよいかわからない、災害対策を強化したいが、設備やリソースが足りない、JBサービスの取り組みをもっと詳しく知りたい、システム運用をSMACに任せたい、SMACを見学したいというお客様は、下記よりお気軽にご相談ください。
運用センターSMACについての詳細は、下記をご参照ください。