Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第64回CV・PRML勉強会 論文紹介:Linguistic Priors for Visua...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

第64回CV・PRML勉強会 論文紹介:Linguistic Priors for Visual Decoupling: Towards Symmetric Vision-Brain Alignment

第64回CV・PRML勉強会で紹介した論文:Linguistic Priors for Visual Decoupling: Towards Symmetric Vision-Brain Alignmentの説明用スライドです.
発表で話していないことはスライド後半のスライド置き場以降にあります.

Avatar for Soki Katayama

Soki Katayama

June 20, 2026

Other Decks in Research

Transcript

  1. 2026/06/20 第64回名古屋CV・PRML勉強会 CVPR 2026論文紹介:Linguistic Priors for Visual Decoupling: Towards Symmetric

    Vision-Brain Alignment 片山創己(中部大学・機械知覚&ロボティクス研究グループ M2) 1 http://mprg.jp
  2. 自己紹介 • 名前:片山創己 (Katayama Soki) • 所属:中部大学大学院工学研究科ロボット理工学専攻 藤吉研究室(MPRG) • 学年:M2

    • 趣味:3Dプリンタ,ゲーム,洗車(でかい車が好きです) • 研究テーマ:機械学習による正常・異常てんかんネットワークの分離 - 脳内の正常・異常(てんかん)ネットワークをTransformerとGCNを用いて分離 • 人手の診療を効率化,外科手術の精度を高精度化 • アトラスとか脳波とか色々やってます!脳の勉強中! 2
  3. 脳視覚デコーディングと代表的なタスク • 脳視覚デコーディング - 画像を見た時の脳活動から知覚した視覚情報を推定する技術 • 主なタスク - 画像分類 •

    見ていた物体の種類を推定 - 画像検索 • 候補画像群から見ていた画像を選択 - 画像再構成 • 脳信号から知覚した画像を生成 3 視覚 画像 (Cat) 脳活動 推定クラス:猫 分類 視覚 画像 (Cat) 脳活動 第1候補 第2候補 第3候補 視覚 画像 (Cat) 脳活動 再構成画像 再構成 検索 画像分類 画像検索 画像再構成 多くの手法は画像検索タスクで評価
  4. 従来手法:NICE [Song+,ICLR2024] • Natural Image Contrast EEG • 画像全体の特徴と脳信号全体の特徴を対照学習で直接対応付け -

    課題:画像の背景や脳信号に含まれるノイズを明示的に処理しない • 画像検索タスクで評価 4
  5. 従来手法:UBP [Wu+,CVPR2025] • Uncertainty-Aware Blur Prior • NICE [Song+,ICLR2024] で行う脳信号と画像の対応付けを改善

    - 脳信号と画像の対応の不確実性に応じて画像の細かな視覚情報を動的にぼかす • 課題:対象物の意味情報を用いず,画像全体に対して一様なぼかしを行いノイズを抑制 • 画像検索タスクで評価 5
  6. 前提手法:CLIP [Radford+, ICML2021] • Contrastive Language-Image Pre-training - (1)事前学習:画像とテキストのペアで特徴量が一致するように自己教師あり学習 -

    (2)クラス名からテキスト特徴を作成:クラスに関するテキストから特徴量を抽出 - (3)画像のクラス分類:画像とテキスト間の特徴量の類似度から画像のクラスを分類 • 画像とテキストの対応関係を学習 → 対応関係から追加の学習なく画像のクラス分類が可能 6
  7. Linguistic Priors for Visual Decoupling : Towards Symmetric Vision-Brain Alignment

    [Liu+,CVPR2026] • 物体を表すテキストを言語事前知識として用い,対象物を保持しながら背景情報を抑制 - 脳信号とテキストの類似度に応じて画像のぼかし方を動的に変更 - 分離後の画像と脳信号を対照学習で対応付け,推論時にはテキスト情報で画像検索を補正 7 Brain-Vision 脳信号 A photo of {an apple} Text Encoder ・・・ ⨂ ・・・ Brain Encoder 類似度行列 類似度スコア 対角成分 Brain Encoder ・・・ ⨂ ・・・ Image Encoder 脳信号 特徴 テキスト 特徴 脳信号 特徴 画像 特徴 言語事前知識 視覚情報の分離 対応 視覚画像の概念に関する テキスト記述 視覚画像 視覚画像に対応する 言語情報 ⨂:CLIPベースの対照学習 :エンコーダの学習 :エンコーダの凍結
  8. 言語事前知識による視覚情報の分離 [1/4] • 視覚画像に対応する物体概念からテキスト記述を作成 - 例:A photo of {an apple}

    • テキスト記述と脳信号をそれぞれエンコーダに入力し特徴を抽出 - 抽出した特徴を用いてCLIPベースの対照学習 8 Brain-Vision 脳信号 視覚画像に対応する 言語情報 A photo of {an apple} 視覚画像の概念に関する テキスト記述 Text Encoder ・・・ ⨂ ・・・ Brain Encoder 類似度行列 類似度スコア 対角成分 Brain Encoder ・・・ ⨂ ・・・ Image Encoder 脳信号 特徴 テキスト 特徴 脳信号 特徴 画像 特徴 言語事前知識 視覚情報の分離 ⨂:CLIPベースの対照学習 :エンコーダの学習 :エンコーダの凍結 対応 視覚画像
  9. 言語事前知識による視覚情報の分離 [2/4] • 脳信号とテキストの類似度に基づく分離画像の生成 - 1.対応する脳特徴とテキスト特徴の類似度を計算 - 2.類似度に基づいて中央領域の保持方法を3段階から選択 - 3.選択結果を空間重みに反映し,分離画像を生成

    9 Brain-Vision 脳信号 A photo of {an apple} Text Encoder ・・・ ⨂ ・・・ Brain Encoder 類似度行列 類似度スコア 対角成分 Brain Encoder ・・・ ⨂ ・・・ Image Encoder 脳信号 特徴 テキスト 特徴 脳信号 特徴 画像 特徴 言語事前知識 視覚情報の分離 対応 視覚画像の概念に関する テキスト記述 視覚画像 視覚画像に対応する 言語情報 ⨂:CLIPベースの対照学習 :エンコーダの学習 :エンコーダの凍結
  10. 言語事前知識による視覚情報の分離 [3/4] • 類似度行列から対角成分を抽出 - バッチ全体で,脳特徴とテキスト特徴の全組合せから類似度行列を作成 • 類似度ベクトル𝑠𝑏𝑡 から分布を作成 -

    類似度分布の平均と標準偏差から区間を設定 10 𝑀𝑏𝑡 = 𝐻𝑏 𝐻𝑡 ⊺ バッチ内の全組合わせ の類似度行列 バッチ内の 脳信号特徴 バッチ内の テキスト特徴 𝑠𝑏𝑡 = 𝑑𝑖𝑎𝑔(𝑀𝑏𝑡 ) バッチ内の全組合わせ の類似度行列 対角成分を 取り出す操作 バッチ内の対応ペアの 類似度を並べたベクトル 𝕀𝑖= 1, 𝑠 𝑏𝑡 (𝑖) < Ƹ 𝜇 − 𝑧𝛼/2 መ 𝛿 −1, 𝑠 𝑏𝑡 𝑖 > Ƹ 𝜇 + 𝑧𝛼/2 መ 𝛿 0, 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 ො 𝜇 መ 𝛿 𝑧𝛼/2 መ 𝛿 𝕀𝑖 𝛼 :対応ペアの類似度の平均 :類似度の標準偏差 :信頼区間の幅を決める値 :各データに割り当てる3段階の分離設定 :有意水準(ハイパラ,論文では0.1=10%) 区間 𝕀=1 𝕀=0 𝕀=-1
  11. 言語事前知識による視覚情報の分離 [4/4] • 元画像とぼかし画像を位置ごとの重み𝑊で合成 • 画像中央では元画像を強く保持し,周辺にぼかし画像を反映 • 𝕀に応じて中央の保持範囲を変更 11 ෤

    𝑣 = 𝑊⨀𝑣 + (1 − 𝑊)⨀𝐺(𝑣, 𝜎) 𝑊 𝑖, 𝑗 = 0.5 − 𝕀𝑐 exp (− 𝜆 ∙ 𝑖, 𝑗 − (𝑖0 , 𝑗0 ) 2 𝐷 ) 重み付き 合成 𝕀 = 1 類似度:低 𝕀 = 0 類似度:中 𝕀 = −1 類似度:高 中央を狭く保持 中程度に保持 中央を広く保持 分離画像෤ 𝑣の合成 元画像の割合 元画像 ぼかし画像の割合 ぼかし画像 重み𝑊の決め方 中央から離れるほど𝑊が小さくなり ぼかし画像の割合が大きくなる 元画像𝑣 + ぼかし画像 分離画像 ෤ 𝑣 分離画像の生成 𝕀 による3段階の保持範囲
  12. 分離画像と脳信号による対照学習 • ぼかし量が調整された分離画像と,脳信号を用いて対照学習 - 対応する画像と脳信号ペアの類似度を高め,非対応ペアの類似度を低下 - 画像エンコーダは固定し,脳信号エンコーダは学習 13 Brain-Vision 脳信号

    A photo of {an apple} Text Encoder ・・・ ⨂ ・・・ Brain Encoder 類似度行列 類似度スコア 対角成分 Brain Encoder ・・・ ⨂ ・・・ Image Encoder 脳信号 特徴 テキスト 特徴 脳信号 特徴 画像 特徴 言語事前知識 視覚情報の分離 対応 視覚画像の概念に関する テキスト記述 視覚画像 視覚画像に対応する 言語情報 ⨂:CLIPベースの対照学習 :エンコーダの学習 :エンコーダの凍結
  13. 推論時の言語情報による画像検索の補正 • 脳信号と候補画像間の類似度から,基本となる画像検索スコアを計算 • 脳信号とテキスト間の類似度から,意味情報の信頼性を判定 - 意味的に信頼できるサンプルでは,テキストとの整合性を用いて画像検索スコアを補強 14 Brain-Vision 脳信号

    視覚画像 Brain Encoder ・・・ 特徴量 ・・・ ・・・ ・・・ ・・・ ・・・ 候補画像の特徴量 候補画像 Image Encoder 類似度計算 Text Encoder A photo of an apple A photo of a warship A photo of a clock ・・・ A photo of a tire 候補画像のテキスト記述 ・・・ ・・・ ・・・ ・・・ ・・・ 候補画像の テキスト特徴量 類似度計算 信頼性判断 対応が信頼できる場合 検索スコアを補強 ⨂ Top 1 Top 2 Top 3 検索結果 区間 𝕀=1 𝕀=0 𝕀=-1 信頼可能 :元の画像検索得点+元の画像検索得点×テキスト類似度 ⨂
  14. 実験設定 • データセット - THINGS-EEG • 人が自然画像を見ているときの脳活動(脳波)を画像と対応付けて記録した公開データセット • 学習用データ :

    1,654概念,16,540画像 • テスト用データ : 200概念,200画像(1人の被験者あたり) 15 THINGS-EEGデータセットの概要
  15. 実験設定 • 評価タスク - 未学習クラスを含む脳信号から画像への検索 • 候補画像数 :200 • 評価指標

    :Top-1 正解率,Top-5 正解率 • 評価条件 - 同一被験者内:Intra-subject • 被験者ごとに個別のモデルを学習し,学習時とテスト時で同じ被験者の脳信号を使用 - 被験者間 :Inter-subject • 学習データから1人ずつテスト用として除外 • 学習環境 - NVIDIA GeForce RTX3080 GPU 16
  16. THINGS-EEGデータセットの結果 (1/2) • 従来手法との比較を行った実験 - BraVL [Du+, TPAMI2023] - NICE

    [Song+, ICLR2024] - ATM-S [Li+, NeurIPS2024] - VE-SDN [Chen+, arXiv2024] - UBP [Wu+,CVPR2025] 17 同一被験者内実験の結果 被験者間実験の結果 どちらの実験条件でも従来手法と比較して高い性能を達成
  17. THINGS-EEGデータセットの結果 (2/2) • アブレーション実験 - Vanilla :基本となる脳信号と画像の対照学習 - Decouple :Vanilla

    にテキスト情報を使った視覚情報分離を追加 - Dynamic :Decouple に脳信号と分離後画像の類似度を用いた動的な調整を追加 - Enhancement :すべての構成要素を使ったモデル 18 アブレーション実験の結果 提案手法のすべての要素が精度に寄与することを確認
  18. まとめ • Linguistic Priors for Visual Decoupling: Towards Symmetric Vision-Brain

    Alignment - 既存手法の問題:画像と脳信号を直接対応付けると情報の非対称性が生じ,考慮されていない - アプローチ :言語事前知識に基づく分離画像を生成し,脳信号との類似度に応じてぼかし量を追加調整 - 評価実験 :THINGS-EEGの200候補画像検索において,同一被験者内・被験者間の両条件で 従来手法を上回った • 考察: - テキストなんて使わなくても画像エンコーダのattentionを使う感じでぼかしを行えばいいのでは? • やってることや実装が複雑すぎるし,効果が見えにくい要素もある - 手法としては常に画像の中央に視線が行ってる前提 • 視線の時間変化を考慮したぼかしを入れてみる? 19
  19. THINGS-EEGデータセットの結果 (2/3) • 画像エンコーダを変更する実験 - ResNet-50 - ResNet-101 - ViT-B16

    - ViT-B32 21 Top-1, Top-5 共にResNet-50で最も高い性能を達成 画像エンコーダ・被験者別の精度 ViT/B32がB16より高いのは荒い特徴の方が脳波と合わせやすいから? → 細かすぎる特徴は逆にノイズになる可能性
  20. 脳信号エンコーダ • EEG Project - UBP [Wu+,CVPR2025] で使用されていた脳信号エンコーダ - GitHubの実装

    (https://github.com/TKQXX/BVSA) を見る限りこのモデルを使用? - 入力信号を平滑化→線形層→残差接続→層正規化 22 図を作る時間がなかったです… class ResidualAdd(nn.Module): def __init__(self, f): super().__init__() self.f = f def forward(self, x): return x + self.f(x) def _build_proj_block(in_dim, out_dim, drop_rate): return nn.Sequential( nn.Linear(in_dim, out_dim), ResidualAdd(nn.Sequential( nn.GELU(), nn.Linear(out_dim, out_dim), nn.Dropout(drop_rate), )), nn.LayerNorm(out_dim) ) class EEGProject(nn.Module): def __init__(self, z_dim, c_num, timesteps, drop_proj=0.3): super().__init__() self.input_dim = c_num * (timesteps[1] - timesteps[0]) self.model_txt = _build_proj_block(self.input_dim, z_dim, drop_proj) self.model_img = _build_proj_block(self.input_dim, z_dim, drop_proj) self.logit_scale = nn.Parameter(torch.ones([]) * np.log(1 / 0.07)) self.softplus = nn.Softplus() def forward(self, x, training): x = x.view(x.shape[0], -1) x_txt, x_img = self.model_txt(x), self.model_img(x) if training: return x_txt, x_img return x_txt.repeat(1, 3), x_img.repeat(1, 3)
  21. 脳視覚デコーディングタスク(の処理の詳細) • 画像を見た時の脳活動から知覚した視覚内容を推定する問題 • 主なタスク - 画像分類 • 見ていた物体の種類を推定 -

    画像検索 • 候補画像群から見ていた画像を選択 - 画像再構成 • 脳信号から知覚した画像を生成 24 Vision Image (Cat) Brain Signal Predict Class : “ Cat ” Classification 本日紹介する論文では主に画像検索タスクを実施 Input Encoder Vision Image (Cat) Brain Signal Input Signal Encoder Image Set Image Encoder Input ・・・ ・・・ ・・・ ・・・ ・・・ Image Features ・・・ Brain Feature similarity Top 1 Top 2 Top 3 Vision Image (Cat) Brain Signal Input Encoder Decoder Reconstruct Image Reconstruct Image Retrieval
  22. 実験設定 • データセット - THINGS-EEG • 人が自然画像を見ているときの脳活動(脳波)を画像と対応付けて記録した公開データセット • 学習用データ :

    1,654概念,16,540画像 • テスト用データ : 200概念,200画像 - THINGS-MEG • 人が自然画像を見ているときの脳活動(脳磁図)を画像と対応付けて記録した公開データセット • 学習用データ : 1,854概念,22,248画像 • テスト用データ : 200概念,200画像 25 THINGS-EEGデータセットの概要
  23. THINGS-MEGデータセットの結果 • 従来手法との比較 - NICE [Song+, ICLR2024] • NICE-SA :NICEにAttention機構を追加

    • NICE-GA :NICEにGraph - Attention機構を追加 - UBP [Wu+,CVPR2025] 26 手法別・被験者別の精度 MEGデータセットにおいても提案手法が最も高い精度を達成
  24. 言語事前知識による視覚情報の分離 [3/5] • 類似度行列から対角成分を抽出 - バッチ全体で,脳特徴とテキスト特徴の全組合せから類似度行列を作成 • 対応ペアの類似度スコア𝑠 𝑏𝑡 (𝑖)

    - コサイン類似度(対照学習と合わせる) 27 𝑠 𝑏𝑡 (𝑖) = ℎ𝑏𝑖 ⊺ ℎ𝑡𝑖 ℎ𝑏𝑖 2 ℎ𝑡𝑖 2 対応する脳信号・テキスト間 の類似度スコア 脳特徴 テキスト特徴 𝑀𝑏𝑡 = 𝐻𝑏 𝐻𝑡 ⊺ バッチ内の全組合わせ の類似度行列 バッチ内の 脳信号特徴 バッチ内の テキスト特徴 𝑠𝑏𝑡 = 𝑑𝑖𝑎𝑔(𝑀𝑏𝑡 ) バッチ内の全組合わせ の類似度行列 対角成分を 取り出す操作 バッチ内の対応ペアの 類似度を並べたベクトル ∙ :内積