KDDIの通話・通信障害メモ

この記事は7/3午前中に記載したもので、まだKDDI社長の会見内容を反映していません。

今回のKDDIの障害が具体的にどういうサービスに影響が出るのものか、モバイルネットワーク初心者としてLTE/EPC/IMS周りの挙動の勉強のためにまとめてみた。

はじめにまとめ

モバイルの通信には音声通話とデータ通信があり、今回主に長時間の障害を受けたのは音声通話(IMS)の方だった。

7/2(土)の日中帯はデータ通信はできるが音声通話やそれに付属するサービスが利用できない状態が継続していた。データ通信も不安定な状態になっていた。

端末の実装(主にAndroid端末)によっては音声通話ができないとデータ通信も止めてしまう挙動があった。これによりLTEを回線として使用しAndroidベースで構築された決済システムなどが利用不可能な状態が継続した。

音声通話(IMS)が利用できないと、通常の電話はもちろん、緊急通報、SMS、位置情報の送信などの機能が利用できなくなる。IMSに依存しているキッズ携帯の機能が全滅して防犯上の課題も生じていた。

サービスの状況

  • 7/2未明の障害発生時は音声通話とデータ通信の両方ができなかった
  • 7/2 7時ごろにデータ通信が一部回復
  • 7/2 午前中には圏外表示を繰り返すようになり不安定
  • 以降データ通信も時々不安定になる状態が
  • auの携帯電話に通話すると「現在使われておりません」となる

端末による挙動の違い

音声通話は使用できないがデータ通信は可能なので外出時もLINE等は利用可能かと思われたが AndroidiPhoneでIMS障害時のデータ通信の挙動が違うらしいことがわかった。

  • iPhone
    • アンテナピクトは立っていないがデータ通信は可能であった
      • ハンドオーバーしたときに時々データ通信もできなくなることがあった(4G表示が消える)ので完璧に通信可能というわけではなかった模様
  • Android
    • データ通信も利用不可能であった
      • IMS Registrationが通らないとデータ通信も実行しないような挙動になっているように見える
      • [追記] 実際にはメーカ端末・ファームウェア依存であり、すべてのAndroid端末がデータ通信不能だったわけではなく、OPPOの端末ではデータ通信可能だった報告がある
  • データカード
    • データ通信専用なので通常通り利用可能であったようだ

3Gへのフォールバックができない

VoLTEのIMS障害なのでVoLTEをオフにすれば3Gにフォールバックして使用可能になるかと思われたが、KDDIは3月末に3Gのサービスを終了していたので3Gにフォールバックできなかった。

5G SAは一部の法人ユーザに提供開始していたが、コンシュマー向けにはこの夏提供開始予定だった。

そのため3Gにも5Gにも切り替えることができず、ユーザ端末側からはどうしようもなかった。

www.kddi.com

追記

auLTEは3Gと完全に切り離されているのでほとんどの端末ではどのみちフォールバックできないとのこと。

障害箇所の推測

  • 端末の挙動を見る限りIMS Registrationに失敗している模様
    • P-CSCFから先のI-SCSF、S-CSCF、HSSあたりでなにかあったんじゃないかと思われる
  • [追記] 7/2日中帯ではIMSにつながるPGWとのセッション確立失敗が見えていたとのこと
    • これにより前述のIMS Registrationが失敗したり、データ通信も不安定になっていたのだと推測される
    • この事象を解決するタイミングで輻輳が開始した模様
  • KDDIからもVoLTEの交換機故障による輻輳とアナウンスがあったのでIMSの障害で確定
  • おそらく何かをトリガーにしてUEが一斉にVoLTEのIMS Registrationを一斉に送り始めて、CSCF以降のIMSでコントロールプレーンの輻輳(キャパシティを上回る要求)が発生した可能性が高い
  • 他社携帯から架電すると「現在使われておりません」となるので、単なるP-CSCFの輻輳ではなくHSSあたりまでR/W負荷が集中して加入者情報の一貫性の喪失のような異常が起こっているのではないかと思われる
  • 全国的に影響が出ていることからもP-CSCFのようなフロントエンドの輻輳ではなくHSSのようなバックエンド側で異常が起きてるように思われる

 

エンドユーザへの影響

IMSが落ちたときにエンドユーザに対してどのような形で影響が出たのかを整理してみる。社会的な影響はpiyokangoさんがまとめてくれているので、技術的観点から。

piyolog.hatenadiary.jp

緊急通報

緊急通報の発呼フローの中にIMS Registrationが含まれているため、IMSに接続できなくなると110や119への緊急通報も発呼できなくなる。

実際に登山中に転落された方がauだったために通報できない事例が発生した。

緊急通報を取り扱う音声伝送役務は1時間または3万人を超えたら総務省の障害報告基準に当たるので、一発アウトだったと思われる。

障害報告

SMS

SMSにはSMS over IMSとSMS over SGsがあるが、KDDIの一般的なスマートフォンでサポートしているのはSMS over IMSであったため、SMSもほぼ利用不可能になっていたと思われる。

SMSが利用不可能になったことにより、SMSログインやSMSによる二要素認証などのSMSに依存したシステムが使用不能になる。特に自社の公衆Wi-Fiの認証に自社のSMSを使ってしまうとこのような障害のときに困ることがわかった。

  • Yahoo!JapanのSMSログイン
  • au Wi-Fi SPOTのSMSログイン
  • Amazonの二要素認証
  • クレジットカード会社や銀行のSMS認証

位置情報

端末の位置情報もIMSで送信されるため、IMSによる位置情報の収集・利用ができなくなる。IMS経由の位置情報に依存しているシステムは後述するキッズ携帯がある。

一方でバスのロケーションシステムはGPSで得た情報をデータ通信で送信していることが多いため、IMSには関係がなく利用できるはずだが影響が出ていた。影響を受けたシステムはAndroidベースの端末になっていてIMS障害の影響でデータ通信もできていなかった可能性が高い。

ICカード決済やクレジットカード決済

バスなどの移動体や自動販売機や精算機でICカードやクレジットカードの決済ができなくなった模様。LTE回線を使用してデータ通信で実装されていることが多いので、これらのシステムはAndroidベースで実装されており、IMS障害にデータ通信も巻き込まれた可能性が高い。

https://twitter.com/clouded19/status/1543428565143658497?s=20&t=0TT7M_kzIFMfxaBLg28-4g

キッズ携帯

個人的にはこれが一番ヤバそう。キッズ携帯はデータ通信がなくてIMSのみを使用しているため機能が全滅する。

通話ができない、SMSが送れない、位置情報確認ができないことによって、防犯ブザーがなったときの自動通話や、写真・位置情報の送信ができなくなるなどの防犯機能がほぼ無効化されてしまう。

IMSが落ちている時は子供を一人で外出させないなどの対応が必要になりそうだが、子供が学校に行っているときなどの日中帯に障害が起きたときには防ぎようがない。

  • 通話できない
  • SMSできない
  • 位置情報確認(安心ナビ)できない
  • 防犯ブザー発動時の位置情報送信・SMS通知が機能しない

IMSがダウンしても大丈夫な機能

緊急地震速報

緊急地震速報はETWSなのでIMSがダウンしても大丈夫。 LTEなETWSではCBCからMME、eNB経由でUEに送信される。今回はMMEに障害はなかったのでセーフ。

 

仕様・プロトコル

LTEのIMS

SIP/VoIP Security Audit | Solutions & Services | NextGen, Inc.

IMS Registration

IMS Registrationができなくて通話・通信ができないという話をしてきたが、この手順のフローは1ページに書けないぐらい長い。ざっくりのステップが以下の5つであるが、端末であるUEの他にP-CSCF、I-CSCF、S-CSCF、HSSという4つのプロバイダ側の設備(ネットワークファンクション)が連携して動作する。

どの設備がどこにどれだけの数配置されていて、どれだけの性能・キャパシティを持っていて、といったことを考え始めると今回の「輻輳」といったものに対処することがいかに難しいのかは想像しやすいと思う。

(1) GPRS Attach: The terminal registers to the GPRS Network.
(2) PDP Context Activation: An IP address is assigned to the terminal.
(3) Unauthenticated IMS Registration Attempt: The terminal attempts an IMS registration but is challenged by the IMS network to authenticate itself.
(4) IPSec Security Association Establishment: The terminal establishes a protected session with the IMS network.
(5) Authenticated IMS Registration: Registration is reattempted. This time the terminal is successfully authenticated and accepted.

以下の画像はIMS Registration Flowの4ページ中の2ページ目だけ抜粋したものである。

https://www.eventhelix.com/ims/registration/ims_registration.pdf

ETWS

LTEにおけるETWSではCBEが要求を出してCBCからMME、eNB経由でUEに送信される。このためIMSの障害の影響を受けない。一方的に情報を送るだけのシステムなので簡素化できている。

https://www.docomo.ne.jp/binary/pdf/corporate/technology/rd/technical_journal/bn/vol17_3/vol17_3_021jp.pdf

 

その他情報が分かり次第&勉強でき次第随時追記・加筆修正します。

https://twitter.com/omusubi5g/status/1543205131239321600?s=20&t=P05NemvKgsih4NdvWEWWww

https://twitter.com/maganori/status/1543022606659768320?s=20&t=P05NemvKgsih4NdvWEWWww