2022年9月4日に発生した通信障害について
2022年9月4日(日) 11時20分〜13時26分 にわたり弊社の通信サービスをご利用の全国のお客様に、多大なご不便とご迷惑をお掛けしましたことを、深くお詫び申し上げます。

社会インフラを支え安定したサービスを提供しなければならない通信事業者として、通信サービスの確実、安定的な提供の確保に向け、再発防止に全力をあげて取り組んでまいります。

通信障害の概要

項目 説明
影響時間 2022年9月4日 11時20分頃〜13時26分頃 (継続時間 約2時間6分)
  • (過去にご案内していた影響時間)2022年9月4日 10時58分頃から13時26分頃
影響範囲 全国エリアの一部お客様
影響を与えた利用者数 データ通信:約130万回線
音声通信:約11万回線

通信障害発生から復旧までの概要

ソフトウェア不具合を起因とし、約2時間6分にわたる長期化かつ大規模な障害となり、お客様ならびに関係各位にご迷惑をお掛けしましたことを改めて深くお詫び申し上げます。

9月4日 11時20分
  • 弊社西日本データセンターに設置しているデータセンタースイッチのソフトウェア不具合(図内①)により当該データセンタースイッチの再起動が発生。
  • それに伴い、パケット交換装置のシステム再起動が発生(図内②)。
  • パケット交換装置の再起動によって切断された端末からの再接続要求が集中し、西日本データセンターのポリシー制御装置に輻輳※1が発生。信号の再送が東日本データセンターのポリシー制御装置にも到達し輻輳が発生(図内③)。
9月4日 13時26分

予め規定しておいた障害時緊急モード※2への移行を実施することで、
東日本・西日本データセンターのポリシー制御装置が平常時トラヒック相当に回復し、輻輳の完全な解消を確認。

  • ※1 輻輳 = アクセスが集中してネットワークが混雑し、遅延したり繋がりにくい状態
  • ※2 障害時緊急モード = パケット交換装置からポリシー制御装置への接続を回避して、パケット交換装置の内部処理で代替しサービスを継続するために、予め規定した運用モード

本障害の原因と通信の流れ

発生原因の概要

大規模・長期化した障害発生の原因は、ソフトウェア不具合による全国的な輻輳※1とその対処となる障害時緊急モード※2作業手順の考慮不足によるものでした。

原因 内容
ソフトウェア不具合 不具合によるメモリーの枯渇 ソフトウェア不具合によりデータセンタースイッチ内のシステムログが自動的に削除されず、ログ保存用のメモリーが枯渇したことにより動作が不安定となり、データ転送が停止・不安定な状態を検知し、切り離すことができず再起動まで想定外に時間を要した。
長期化 障害時緊急モードにおける作業手順 西日本データセンター内の輻輳発生後、東日本データセンター内でも同様に発生したため、トラヒックを片側のデータセンターに寄せる対応ができなかった。
当該障害時緊急モードの実行は今回が初めてであり、また障害時緊急モードへの移行判断を属人的に行っていたため、実施可否に時間を要したため輻湊状態が長期化した。
お客様への周知 お客様への周知をウェブサイトへ掲出するまでに時間を要した 障害報初報に復旧見込み時間等を可能な限りの情報を含めておきたいと判断したため。
  • ※1 輻輳 = アクセスが集中してネットワークが混雑し、遅延したり繋がりにくい状態
  • ※2 障害時緊急モード = パケット交換装置からポリシー制御装置への接続を回避して、パケット交換装置の内部処理で代替しサービスを継続するために、予め規定した運用モード

再発防止策

再発防止策は、原因によって下記のように対応いたします。

原因 防止策実施内容 対処日
ソフトウェア不具合 不具合によるメモリーの枯渇 1)短期的措置として、自動削除されるべき不要ログを定期的に削除 2022年9月7日完了
2)恒久対策として、改修されたソフトウェアを適用 2023年3月末完了予定

さらなる改善策

改善内容
速やかなサービス復旧
  • 障害時緊急モードにおける作業手順の見直しにより実行の短縮化を図る。
お客様への周知
  • 初報に関しては詳細が認識できていなくても、サービス影響があることを利用者に伝える事を優先する。