Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[招待講演] 分散連合機械学習:基礎, 動向および無線設計から見た課題

[招待講演] 分散連合機械学習:基礎, 動向および無線設計から見た課題

発表日: 2022年5月18日(水)
発表場所: 岐阜大学 サテライトキャンパス

当日のプログラム:
https://www.ieice.org/ken/program/index.php?tgs_regid=e3fe4e4e507fe427114d46ad78260f19bd61c15f7e210ca2f5af1dc2f50bfb3b&tgid=IEICE-IT

Koya SATO

May 18, 2022
Tweet

More Decks by Koya SATO

Other Decks in Research

Transcript

  1. 本日の目的と講演内容 2 本講演の目的 「本分野の新規参入者を増やす」 講演内容 • 分散型の学習方式の概要 • 通信面での課題 •

    研究事例:伝送レート適応化による高速高精度なDecentralized FL • 研究事例:(web公開版未収録) • 研究動向 チュートリアル的な位置付けでの講演となります
  2. IEICE Fundamentals Review (公開予定) 3 主題 • 分散機械学習とは? • 無線設計からみた課題は?

    • 関連する研究動向は? • 本分野に興味を持った大学院生を想定 して書きました Ø本講演内容の多くも本論文がベース • 関係者各位に感謝します 佐藤, "無線設計の問題として見る分散連合機械学習," 2022年7月公開予定
  3. 主要テーマ1: (分散)連合機械学習の設計 (本講演, 2019-) ローカル学習と周辺端末との学習機の共有を繰り返す • 端末がデータを持ち寄り、狭いネットワーク上で事象を学習 • 特に、高速高精度な通信/学習設計に従事 関連発表

    • K. Sato+, IEEE Trans. Cogn. Commun. Netw., Dec. 2021. • K. Sato+, IEEE ICC 2020, June 2020. 5 G 5 G 5 G 5 G 5 G 5 G ローカル学習 モデル共有 単独学習 完全協調(通信遅延なし) 分散学習 4
  4. 主要テーマ2: 無線環境の可視化/効率化 (2013-) 端末が移動観測した結果を集約し受信電力を可視化 Ø応用例: 無線リソース最適化, UAVの経路設計, 位置指紋, … 関連発表

    • 佐藤光哉, 招待講演, IEICE 信号処理研究会, Aug. 2021. • K. Sato+, IEEE Trans. Veh. Technol., Jan. 2021. • K. Sato+, IEEE Trans. Cogn. Commun. Netw., March 2017. クラウド 送信局 位置: (xi , yi ) 受信電力: Pi 位置: (xk , yk ) 受信電力: Pk 位置: (xj , yj ) 受信電力: Pj 観測ノード 5G 5G 5G 内挿結果 観測結果 ・ガウス過程回帰 ・ニューラルネット 等により空間内挿 平均受信電力 電波マップ 5
  5. 連合機械学習 (FL: Federated Learning) 8 • AISTATS2017で提唱された学習コンセプト Ø [McMahan+, AISTATS2017]

    [Kairouz+, FTML2021] • 端末ローカルでのSGDとクラウド側でのモデル合成を繰り返す Ø端末からのデータ開示を避けることで前述の問題を対策 5 G 5 G 5 G 5 G クラウド:グローバル モデルの配布 クラウド:ローカル モデルの平均化 端末:ローカル モデルの更新 端末:更新済みモデル のアップロード グローバルモデル ローカルモデル …
  6. 学習形態の大別 (用語との対応付けは人によりけり) 9 分散機械学習 (Distributed ML) 連合機械学習 (FL) 分散連合機械学習 (Decentralized

    FL) • サーバからデータを配布 • 単独計算機上での複数GPUを利用 した学習もこれに該当 • データの開示なし • 集中制御サーバもなし
  7. 各形態を実現する関連アルゴリズムあれこれ 10 Distributed ML • Parallelized SGD: [Zinkevich+, NeurIPS2010] FL

    • FedAvg: [McMahan+, AISTATS2017] 本分野のブームの火付け役 • FedProx: [Li+, MLSys2020] Decentralized FL • Decentralized Parallel SGD: [Lian+, NeurIPS2018] • Asynchronous D-PSGD: [Lian+, ICML2018] 各種Centralized/Decentralizedアルゴリズムの統一フレームワーク • Cooperative SGD: [Wang+, ICML Workshop2019] • いずれも端末でのSGDとモデルの合成の繰り返しが基本
  8. Cooperative SGD(C-SGD)によるDecentralized FL 11 端末1 ・・・ 端末2 端末3 端末4 モデル共有&合成

    ローカル学習 (τ回) 経過時間 1ラウンド ラウンドごとのローカルSGDの回数 学習器のモデルサイズ[bits] 1ラウンドに要する通信時間 周辺端末から受信したモ デルベクトルを平均化
  9. Cooperative SGD(C-SGD)によるDecentralized FL 12 端末1 ・・・ 端末2 端末3 端末4 モデル共有&合成

    経過時間 時間 端末1 端末2 端末3 端末4 周波数 ラウンドごとのローカルSGDの回数 学習器のモデルサイズ[bits] 1ラウンドに要する通信時間 各端末が時分割に従い モデルをマルチキャスト する場合 ローカル学習 (τ回) 1ラウンド
  10. モデルパラメータの例 14 • 深層学習器の表現力は学習パラメータ数に依存 Model Name Input Shape Params(M) VGG16

    (224, 224) 138.4 VGG19 (224, 224) 143.7 ResNet50v2 (224, 224) 25.6 Resnet152v2 (224, 224) 60.4 InceptionV3 (299, 299) 23.9 InceptionResNetV2 (299, 299) 55.9 DenseNet201 (224, 224) 20.2 MobileNet (224, 224) 4.3 MobileNetV2 (224, 224) 3.5 EfficientNetB0 (224, 224) 5.3 EfficientNetB7 (600, 600) 66.7 参考:https://qiita.com/T-STAR/items/59527f2b5484b9c22d1e • これらを都度共有するのか?
  11. モデルサイズと学習時間の例 15 n台の端末が時分割に従うモデル共有によりC-SGDを行う場合の学習時間: 21 25 29 213 217 221 225

    229 Model Size M [bit] 10°1 100 101 102 Time [s/round] tcom = 0 tround ・モデルの表現力 :向上 ・通信時間 :増大 トレードオフ 1ラウンド内でのローカル学習回数 SGD1回に要する計算時間 [sec] モデルサイズ [bits] 伝送レート [bps]
  12. 伝送レート制御と通信距離の例 例: 無線LANベースでの適応変調に基づくマルチキャスト 16 100 101 102 103 Communication Distance

    [m] 10 20 30 40 50 Channel Capacity [Mbps] ・モデル共有:高速 ・通信距離 :短 ・モデル共有:低速 ・通信距離 :長 誤りなく受信可能な領域 • 距離減衰+AWGNを仮定 • 通信路容量が伝送レートを上回ればモデル共有成功と仮定 Ø端末間の協調効果-モデル共有時間にはトレードオフ
  13. ネットワーク密度と学習精度の関係 (a) 高速通信 (b) 低速通信 (a) 高速通信 (b) 低速通信 学習の繰り返し回数

    精度 (正解率) 実行時間 [min] 精度 (正解率) 軸の読み替え • 十分学習させた後の学習精度と実行時間特性の間にはトレードオフ 17 ここでの目的 本特性を踏まえて通信ボトルネックを解消する送信レート設計法の確立 (疎) (密) (疎) (密) • 端末数6台 • Fashion MNIST
  14. 通信路モデル • 各ノードは同サイズのi.i.d.データセットを持つ • 各ノードは同一構成の学習器を同一のシードで初期化 • 相互に位置関係を把握済み+時間同期済み+送信レートが互いに既知 (後述) モデル共有の成功条件 瞬時受信電力

    減衰係数 i.i.d.: independent and identically distributed 送信レート: 学習に先立ち最適化 帯域幅 AWGN 通信路容量 フェージング利得 (i.i.d. レイリー環境) 18 ※以下は固定&既知 • 送信電力 • 帯域幅 • 平均AWGN • 距離減衰係数 ※符号長 (=学習器の規模)は十分大きいものと仮定
  15. 平均化行列を用いた学習動作の表現 [Wang+, ICML Workshop2019] 19 端末A 端末B W = 1/2

    1/2 1/2 1/2 W= 1 0 0 1 k +1回目の学習でモデル共有を行う場合、ネットワーク全体の学習の動作: 各端末のモデルパラメータを 格納したベクトル 学習率 損失関数に対する 勾配ベクトル n×nの平均化行列
  16. 平均化行列を用いた学習動作の表現 [Wang+, ICML Workshop2019] 20 • 平均化行列の2番目に大きい固有値λ: Ø W の非ゼロ要素多:

    0に近づく Ø 非ゼロ要素少: 1に近づく • 学習精度の繰り返し回数特性:λの関数として表現可能 アイディア λを制約することで、学習結果を保ちつつ通信時間を短縮できないか? (直観的には)ネットワークのスパース度を表現 k +1回目の学習でモデル共有を行う場合、ネットワーク全体の学習の動作: 各端末のモデルパラメータを 格納したベクトル 学習率 損失関数に対する 勾配ベクトル n×nの平均化行列
  17. ネットワーク密度を制約とする伝送レート適応化 [Sato+, TCCN2021] ネットワークトポロジの密度と連結性を制約に通信時間を最小化する送信レート を選択: :送信レートベクトル :λのターゲット値 (ハイパーパラメータ) (topology is

    strongly connected) :“有向グラフにおいて全ノードが相互に行き来可” :アウテージ確率 (通信失敗起因) 21 1回のモデル共有における通信時間 ネットワークトポロジの密度に対する制約 成功確率 ※学習に先立ち各ノードで独立に本問題を解く。位置が共有済みの場合同一の解になる ため、自動的に送信レートを相互に共有できる (=分散環境でも時分割できる)
  18. 評価概要 評価概要 • データセット: FashionMNIST (右図) • ノード数6台 Ø 500m四方のエリアに分散配置

    Ø 60000枚の学習データをシャッフルの上重複 なく分配 (10000枚/ノード) • 各ノードの正解率の平均を評価 Ø 10回独立に試行し、その結果を最終的な評価 結果とした 使用モデル • 畳み込み層×2, 全結合層×3 • 活性化関数: ReLU • 損失関数: 交差エントロピー • 総パラメータ数: 1475338 Ø 47Mbits in 32-bit float 22
  19. テスト精度の例 (距離減衰係数4) • 疎にするほど十分な回数繰り返した後の精度は落ちる • 一方で「所望精度を達成する時間」の観点では疎のトポロジが有利なケース多数 23 帯域幅: 1.4[MHz] 送信電力:

    0[dBm] 学習回数τ: 1000 アウテージ確率: 0.50 計算時間: 0.01[s/loop] • 総学習回数200000回 Ø 5000回ごとに各端末所有のモデルの精度を評価→その平均を評価、というシミュ レーションを独立に10回試行した 平均テスト精度 実行時間 [min]
  20. λtarget の影響 評価指標: ”ある所望精度を達成する時間” 0.0 0.2 0.4 0.6 0.8 1.0

    0 20 40 60 80 λtarget z=0.86 z=0.88 z=0.89 z=0.90 Required Runtime [min] Minimum point 実行時間特性(減衰係数3) 0.0 0.2 0.4 0.6 0.8 1.0 0 100 200 300 400 500 Required Runtime [min] λtarget z=0.86 z=0.88 z=0.89 z=0.90 Minimum point 実行時間特性(減衰係数4) • 減衰係数大: 疎に取った方が有利 • 減衰係数小: 密に取った方が有利 (という傾向) • 通信路の特性に応じたネットワークの疎密の調整が有効 24
  21. 典型的な無線リソース割当てと何が違うのか? 25 Device-to-Device(D2D)環境における通信パラメータ設計を考える (Decentralized) FL×時分割 • 条件が悪いリンクにも一定数リ ソースを割り当てる必要 Øもしくはリンクを切る •

    学習結果が改善されればトポロジ や通信内容はなんでもよい 注水定理では足を 引っ張る端末が発生 典型的な無線リソース割当て • 注水定理に基づく好条件のリンク への優先的割り当てが基本 • 通信相手は固定 通信リンク数 • リソース最適化の知見は活用可 (例: max-min SINR) • ただし目的が「高速高精度な学習」であることを念頭に置くことが重要
  22. 高速・高精度化に向けた方策あれこれ 28 • FL/DFL双方を対象に関連する話題を紹介する 5 G 5 G 5 G

    5 G 共有情報の圧縮/削減 ストラグラの影響緩和 通信スロット削減 non-i.i.d.サンプリングの影響改善 トポロジの適応化 • 要素ごとに学習特性の劣化要因が存在。その数だけ方策あり Ø学習データ、共有情報、計算時間、トポロジなど
  23. ストラグラの緩和 29 ストラグラ:極端に通信/計算が遅い端末。確率的に発生する恐れ 5 G 5 G 5 G 5

    G クライアント選択の適応化 (FL) • [Nishio+, ICC2019] • [Yu+, IoTJ2022] 符号化計算 (FL) • [Prakash+, JSAC2021] 学習時間の極端な劣化 の要因
  24. トポロジの適応化 30 • 例:グラフ彩色の枠組みで、限られたスロットで密な通信を狙う 出典:[Wang+, IndianCC2019] Ø arXiv: https://arxiv.org/abs/1905.09435 Ø

    “MATCHA”フレームワークとしてよく比較対象となる • 先に紹介した伝送レート適応化もこの話題に関連
  25. Over-the-Air Computation (AirComp) 31 アナログ変調信号の合成結果からモデルを表現することで同時送信を実現 • 計算方法/変数の表記は[Shi+, ISIT2021]に準拠 Node i

    j番目の端末に接続されたノードの集合 時刻t における受信信号 チャネル利得 AWGN 送信信号 ※ DFL: [Shi+, ISIT2021] FL: [Yang+, TWC2020]
  26. Over-the-Air Computation (AirComp) 32 Node i 時刻t における受信信号 where アナログ変調信号の合成結果からモデルを表現することで同時送信を実現

    • 計算方法/変数の表記は[Shi+, ISIT2021]に準拠 プリコーディング DFL: [Shi+, ISIT2021] FL: [Yang+, TWC2020]
  27. Over-the-Air Computation (AirComp) 33 Node i 復調結果 合成済みモデル アナログ変調信号の合成結果からモデルを表現することで同時送信を実現 •

    計算方法/変数の表記は[Shi+, ISIT2021]に準拠 デコーディング DFL: [Shi+, ISIT2021] FL: [Yang+, TWC2020]
  28. non-i.i.d.サンプリングの対策/解析 34 • 端末6台でのC-SGDにおける平均精度 (Fashion MNIST) i.i.d. setting (10ラベルから抽出) non-i.i.d.

    (各端末3ラベルのみ) 単独学習 理想協調(全結合トポロジ) non-i.i.d.環境における学習収束性の解析 (FL) • [Li+, ICLR2020] 一部のデータの公開を許容したハイブリッド (FL) • [Yoshida+, ICC2020] 関連動向のサーベイ (FL) • [Zhu+, Neurocomputing2021]
  29. 共有情報の削減/圧縮 35 • 学習パラメータの量子化に基づく方式 Ø[Taheri+, ICML2020] (DFL) • Push-Sumアルゴリズムを用いた分散端末間の合意により量子化 前と同等の学習収束特性が得られるとの指摘

    • 蒸留に基づく方式 Ø[Jeong+, arXiv2018] • 端末-サーバ間の共有情報をモデルパラメータではなく学習器の出 力情報とすることで、通信オーバヘッドを26 倍改善可能であると の報告
  30. おわりに 36 • Decentralized FLを中心とした話題について述べた • 特に情報理論分野との結びつきが強い研究課題の例: Øネットワークトポロジの適応化 • 学習精度-通信時間にはトレードオフ。この関係を簡易な式で表現

    することは可能か? Ø学習モデルの圧縮/削減 • (モデルを共有する場合)符号長≒学習パラメータ数 ≒表現力 Ø通信パラメータ/学習器/共有アルゴリズムの一体設計は可能か? Øストラグラ対策 • 符号化計算で確実な計算 or 消失を許容して粗く高速に繰り返す? 以下の資料も閲覧いただければ幸いです: • 佐藤光哉, "無線設計の問題として見る分散連合機械学習," IEICE Fundamentals Review, 2022年7月公開予定
  31. 参考文献 37 • [McMahan+, AISTATS2017] B. McMahan, E. Moore, D.

    Ramage, S. Hampson, and B. A. y Arcas, “Communication-efficient learning of deep networks from decentralized data,” in Proc. AISTATS, Fort Lauderdale, Florida, USA, Apr. 2017. • [Kairouz+, FTML2021] P. Kairouz et al., "Advances and open problems in federated learning", Foundations and Trends in Machine Learning: Vol. 14: No. 1–2, pp 1-210, 2021. • [Zinkevich+, NeurIPS2010] M. Zinkevich, M. Weimer, L. Li, and A. Smola, “Parallelized stochastic gradient descent,” in Proc. NeurIPS, Vancouver, Canada, 2010, pp. 1–9. • [Li+, MLSys2020] T. Li, A. K. Sahu, M. Zaheer, M. Sanjabi, A. Talwalkar, and V. Smith, “Federated optimization in heterogeneous networks,” in Proc. MLSys 2020, virtual conference, 2020, pp. 429– 450. • [Lian+, NeurIPS2018] X. Lian, C. Zhang, H. Zhang, C.-J. Hsieh, W. Zhang, and J. Liu, “Can decentralized algorithms outperform centralized algorithms? a case study for decentralized parallel stochastic gradient descent,” in Proc. NeurIPS, Long Beach, CA, USA, Jan. 2018, pp. 5330– 5340. • [Lian+, ICML2018] X. Lian, W. Zhang, C. Zhang, and J. Liu, “Asynchronous decentralized parallel stochastic gradient descent,” in Proc. ICML, Stockholm, Sweden, 2018. • [Wang+, ICML Workshop2019] J. Wang and G. Joshi, “Cooperative SGD: A unified framework for the design and analysis of communication-efficient SGD algorithms,” in Proc. ICML Workshop, Long Beach, CA, USA, 2019. • [Sato+, TCCN2021] K. Sato and D. Sugimura, “Rate-adapted decentralized learning over wireless networks,” IEEE Trans. Cogn. Commun. Netw., vol. 7, no. 4, pp. 1412–1429, 2021. • [Nishio+, ICC2019] T. Nishio and R. Yonetani, “Client selection for federated learning with heterogeneous resources in mobile edge,” in Proc. IEEE ICC, Shanghai, China, May 2019, pp. 1–7. • [Yu+, IoTJ2022] L. Yu, R. Albelaihi, X. Sun, N. Ansari, and M. Devetsikiotis, “Jointly optimizing client selection and resource management in wireless federated learning for Internet of Things,” IEEE Internet Things J., vol. 9, no. 6, pp.4385-4395, March 2022.
  32. 参考文献 38 • [Prakash+, JSAC2021] S. Prakash et al., "Coded

    computing for low-latency federated learning over wireless edge networks," IEEE J. Sel. Areas Commun., vol. 39, no. 1, pp. 233-250, Jan. 2021. • [Wang+, IndianCC2019] J. Wang, A. K. Sahu, Z. Yang, G. Joshi, and S. Kar, “MATCHA: Speeding up decentralized SGD via matching decomposition sampling,” in Proc. 2019 Sixth Indian Control Conference (ICC), Telangana, India, 2019, pp. 299–300. • arXiv: https://arxiv.org/abs/1905.09435 • [Shi+, ISIT2021] Y. Shi, Y. Zhou and Y. Shi, "Over-the-air decentralized federated learning," IEEE ISIT, 2021, pp. 455-460. • [Yang+, TWC2020] K. Yang, T. Jiang, Y. Shi and Z. Ding, "Federated learning via over-the-air computation," IEEE Trans. Wireless Commun., vol. 19, no. 3, pp. 2022-2035, March 2020. • [Li+, ICLR2020] X. Li, K. Huang, W. Yang, S. Wang, and Z. Zhang, “On the convergence of FedAvg on non-IID data,” in Proc. ICLR, 2020, pp.1–26. • [Yoshida+, ICC2020] N. Yoshida, T. Nishio, M. Morikura, K. Yamamoto and R. Yonetani, "Hybrid-FL for wireless networks: Cooperative learning mechanism using non-IID data," in Proc. IEEE ICC, 2020, pp. 1-7. • [Zhu+, Neurocomputing2021] H. Zhu, J. Xu, S. Liu, and Y. Jin, “Federated learning on non-IID data: A survey,” Neurocomputing, vol. 465, pp. 371–390, 2021. • [Jeong+, arXiv2018] E. Jeong, S. Oh, H. Kim, J. Park, M. Bennis, and S.-L. Kim, “Communication- efficient on-device machine learning: Federated distillation and augmentation under non-iid private data,” arXiv, 2018. [Online] Available: https://arxiv.org/abs/1811.11479