My Research

Here are details about my research topic.


完全分散型Federated Learningとは

The flow of fully-decentralized federated learning

概要:

完全分散環境で、複数のノードで協調的に学習を行う手法の1つ。学習データ自体を共有せず、各ノードで局所的に学習を行ったあとのモデルを共有することで、プライバシーを保護しながら学習を行う。

前提:

複数のノードがあり、それぞれが固有のデータとモデルを持つ

学習手順:

  1. 自分のデータで事前学習
  2. 下記を繰り返す
    1. 別のノードとの間でP2P通信を行う
    2. 別のノードからモデルパラメータを受け取る
    3. モデル合成
    4. 自分のデータで再学習

対象タスク

VQA image
Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., & Parikh, D. (2015). "Vqa: Visual question answering". In Proceedings of the IEEE international conference on computer vision (pp. 2425-2433).
  1. 学部での研究: 写真からその撮影者の位置を分類するタスクに適用
  2. 修士課程での研究: LMMモデルを用いた画像質問応答に適用
  3. 画像質問応答
    • 入力: 画像 + テキスト (質問文)
    • 出力 : テキスト (回答文)

システム概要(画像質問応答の場合)

Proposed Architecture

研究背景

  • 学習データを共有しないプライバシーの懸念のない学習の需要が高まっており、そのようなケースでは従来の機械学習の手法が不適切な場合がある
    • e.g. 医療業界での患者の個人情報を含んだデータの利用
  • 学習データの保護により、評価データの学習データへの転用が可能となり、それにより入力データが時事刻々と変化するような場合でも自然な形でモデル追従を行うことができる
  • 完全分散環境に伴う安定したシステム設計が可能
    • 技術面 : 分散システムによる単一故障点の除去
    • 非技術面 : マルチベンダー下でも権力関係がない
  • エッジデバイスの活用

工夫点

The usage of previous model during model aggregation

転移学習の利用

  • P2P通信に伴い増大してしまう通信コストの削減
  • エッジデバイスの活用のための演算コストの削減
  • 高度なタスクに対応できるだけのモデルの表現力を担保

合成開始前の自己モデルを合成

  • 学習で得られる情報は以下の2種類のみ
    1. 自分自身の持っているデータ
    2. 今合成している相手のノードの持っているデータ
  • 同じノードとの連続してモデルを合成した場合に、それまでに通信によって得た今通信しているノード以外のノードの情報を喪失

効率的な学習

  • LoRAを用いたパラメータ削減
  • パラメータ合成のスケジューリング

結果

  • 写真から撮影者の位置を分類するタスクでは、1枚の写真からの推論で約90%程度3枚からの推論で約98%の精度を実現
  • 過去の自己パラメータを合成することで、予測困難なラベルの精度を改善する一定の効果がみられた
  • LMMという膨大なモデルに対しても、少なくとも画像情報に対する間接的な情報取得は可能で完全分散型FLが有用であることがわかった

得られたこと

  • データセットの作成から、DNNモデルを使った学習までの設計経験
  • マルチGPUでシミュレーションをする経験
  • 新規性が高く既存研究があまりない状態で手探りで進めていき、全体を見ながら要素を分解し、仮説のもと条件を限定して進める経験
  • 新規性が高く一般的でない内容を全く知らない方々に説明する経験

対外発表

口頭発表

  • International Conference on Knowledge and Smart Technology 2024, 2024年2月29日に口頭発表
  • WIDE 研究会, 2023年12月23日に口頭発表

発表論文