第64回CV・PRML勉強会　論文紹介：Linguistic Priors for Visual Decoupling: Towards Symmetric Vision-Brain Alignment

2026/06/20 第64回名古屋CV・PRML勉強会 CVPR 2026論文紹介：Linguistic Priors for Visual Decoupling: Towards Symmetric
Vision-Brain Alignment 片山創己（中部大学・機械知覚&ロボティクス研究グループ M2） 1 http://mprg.jp

自己紹介 • 名前：片山創己 (Katayama Soki) • 所属：中部大学大学院工学研究科ロボット理工学専攻藤吉研究室(MPRG) • 学年：M2
• 趣味：3Dプリンタ，ゲーム，洗車（でかい車が好きです） • 研究テーマ：機械学習による正常・異常てんかんネットワークの分離 - 脳内の正常・異常（てんかん）ネットワークをTransformerとGCNを用いて分離 • 人手の診療を効率化，外科手術の精度を高精度化 • アトラスとか脳波とか色々やってます！脳の勉強中！ 2

脳視覚デコーディングと代表的なタスク • 脳視覚デコーディング - 画像を見た時の脳活動から知覚した視覚情報を推定する技術 • 主なタスク - 画像分類 •
見ていた物体の種類を推定 - 画像検索 • 候補画像群から見ていた画像を選択 - 画像再構成 • 脳信号から知覚した画像を生成 3 視覚画像 (Cat) 脳活動推定クラス：猫分類視覚画像 (Cat) 脳活動第1候補第2候補第3候補視覚画像 (Cat) 脳活動再構成画像再構成検索画像分類画像検索画像再構成多くの手法は画像検索タスクで評価

従来手法：NICE [Song+,ICLR2024] • Natural Image Contrast EEG • 画像全体の特徴と脳信号全体の特徴を対照学習で直接対応付け -
課題：画像の背景や脳信号に含まれるノイズを明示的に処理しない • 画像検索タスクで評価 4

従来手法：UBP [Wu+,CVPR2025] • Uncertainty-Aware Blur Prior • NICE [Song+,ICLR2024] で行う脳信号と画像の対応付けを改善
- 脳信号と画像の対応の不確実性に応じて画像の細かな視覚情報を動的にぼかす • 課題：対象物の意味情報を用いず，画像全体に対して一様なぼかしを行いノイズを抑制 • 画像検索タスクで評価 5

前提手法：CLIP [Radford+, ICML2021] • Contrastive Language-Image Pre-training - (1)事前学習：画像とテキストのペアで特徴量が一致するように自己教師あり学習 -
(2)クラス名からテキスト特徴を作成：クラスに関するテキストから特徴量を抽出 - (3)画像のクラス分類：画像とテキスト間の特徴量の類似度から画像のクラスを分類 • 画像とテキストの対応関係を学習 → 対応関係から追加の学習なく画像のクラス分類が可能 6

Linguistic Priors for Visual Decoupling : Towards Symmetric Vision-Brain Alignment
[Liu+,CVPR2026] • 物体を表すテキストを言語事前知識として用い，対象物を保持しながら背景情報を抑制 - 脳信号とテキストの類似度に応じて画像のぼかし方を動的に変更 - 分離後の画像と脳信号を対照学習で対応付け，推論時にはテキスト情報で画像検索を補正 7 Brain-Vision 脳信号 A photo of {an apple} Text Encoder ・・・ ⨂ ・・・ Brain Encoder 類似度行列類似度スコア対角成分 Brain Encoder ・・・ ⨂ ・・・ Image Encoder 脳信号特徴テキスト特徴脳信号特徴画像特徴言語事前知識視覚情報の分離対応視覚画像の概念に関するテキスト記述視覚画像視覚画像に対応する言語情報 ⨂：CLIPベースの対照学習：エンコーダの学習：エンコーダの凍結

言語事前知識による視覚情報の分離 [1/4] • 視覚画像に対応する物体概念からテキスト記述を作成 - 例：A photo of {an apple}
• テキスト記述と脳信号をそれぞれエンコーダに入力し特徴を抽出 - 抽出した特徴を用いてCLIPベースの対照学習 8 Brain-Vision 脳信号視覚画像に対応する言語情報 A photo of {an apple} 視覚画像の概念に関するテキスト記述 Text Encoder ・・・ ⨂ ・・・ Brain Encoder 類似度行列類似度スコア対角成分 Brain Encoder ・・・ ⨂ ・・・ Image Encoder 脳信号特徴テキスト特徴脳信号特徴画像特徴言語事前知識視覚情報の分離 ⨂：CLIPベースの対照学習：エンコーダの学習：エンコーダの凍結対応視覚画像

言語事前知識による視覚情報の分離 [2/4] • 脳信号とテキストの類似度に基づく分離画像の生成 - 1．対応する脳特徴とテキスト特徴の類似度を計算 - 2．類似度に基づいて中央領域の保持方法を3段階から選択 - 3．選択結果を空間重みに反映し，分離画像を生成
9 Brain-Vision 脳信号 A photo of {an apple} Text Encoder ・・・ ⨂ ・・・ Brain Encoder 類似度行列類似度スコア対角成分 Brain Encoder ・・・ ⨂ ・・・ Image Encoder 脳信号特徴テキスト特徴脳信号特徴画像特徴言語事前知識視覚情報の分離対応視覚画像の概念に関するテキスト記述視覚画像視覚画像に対応する言語情報 ⨂：CLIPベースの対照学習：エンコーダの学習：エンコーダの凍結

言語事前知識による視覚情報の分離 [3/4] • 類似度行列から対角成分を抽出 - バッチ全体で，脳特徴とテキスト特徴の全組合せから類似度行列を作成 • 類似度ベクトル𝑠𝑏𝑡 から分布を作成 -
類似度分布の平均と標準偏差から区間を設定 10 𝑀𝑏𝑡 = 𝐻𝑏 𝐻𝑡 ⊺ バッチ内の全組合わせの類似度行列バッチ内の脳信号特徴バッチ内のテキスト特徴 𝑠𝑏𝑡 = 𝑑𝑖𝑎𝑔(𝑀𝑏𝑡 ) バッチ内の全組合わせの類似度行列対角成分を取り出す操作バッチ内の対応ペアの類似度を並べたベクトル 𝕀𝑖= 1, 𝑠 𝑏𝑡 (𝑖) < Ƹ 𝜇 − 𝑧𝛼/2 መ 𝛿 −1, 𝑠 𝑏𝑡 𝑖 > Ƹ 𝜇 + 𝑧𝛼/2 መ 𝛿 0, 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 ො 𝜇 መ 𝛿 𝑧𝛼/2 መ 𝛿 𝕀𝑖 𝛼 ：対応ペアの類似度の平均：類似度の標準偏差：信頼区間の幅を決める値：各データに割り当てる3段階の分離設定：有意水準（ハイパラ，論文では0.1=10%）区間 𝕀=1 𝕀=0 𝕀=-1

言語事前知識による視覚情報の分離 [4/4] • 元画像とぼかし画像を位置ごとの重み𝑊で合成 • 画像中央では元画像を強く保持し，周辺にぼかし画像を反映 • 𝕀に応じて中央の保持範囲を変更 11 ෤
𝑣 = 𝑊⨀𝑣 + (1 − 𝑊)⨀𝐺(𝑣, 𝜎) 𝑊 𝑖, 𝑗 = 0.5 − 𝕀𝑐 exp (− 𝜆 ∙ 𝑖, 𝑗 − (𝑖0 , 𝑗0 ) 2 𝐷 ) 重み付き合成 𝕀 = 1 類似度：低 𝕀 = 0 類似度：中 𝕀 = −1 類似度：高中央を狭く保持中程度に保持中央を広く保持分離画像෤ 𝑣の合成元画像の割合元画像ぼかし画像の割合ぼかし画像重み𝑊の決め方中央から離れるほど𝑊が小さくなりぼかし画像の割合が大きくなる元画像𝑣 + ぼかし画像分離画像 ෤ 𝑣 分離画像の生成 𝕀 による3段階の保持範囲

分離画像と脳信号によるぼかし量の追加調整 • 生成した分離画像を画像エンコーダに入力し，画像特徴を抽出 - 対応する分離画像特徴と脳信号特徴の類似度を計算し類似度分布を作成 - バッチ内の類似度分布から信頼区間を算出 • 信頼区間外のサンプルでは，ぼかし量を増減して対応付けを調整 12
分離画像脳信号 Image Encoder Brain Encoder ・・・・・・類似度計算バッチ内の類似度分布信頼区間判定ぼかし量を増減エンコーダ特徴量

分離画像と脳信号による対照学習 • ぼかし量が調整された分離画像と，脳信号を用いて対照学習 - 対応する画像と脳信号ペアの類似度を高め，非対応ペアの類似度を低下 - 画像エンコーダは固定し，脳信号エンコーダは学習 13 Brain-Vision 脳信号
A photo of {an apple} Text Encoder ・・・ ⨂ ・・・ Brain Encoder 類似度行列類似度スコア対角成分 Brain Encoder ・・・ ⨂ ・・・ Image Encoder 脳信号特徴テキスト特徴脳信号特徴画像特徴言語事前知識視覚情報の分離対応視覚画像の概念に関するテキスト記述視覚画像視覚画像に対応する言語情報 ⨂：CLIPベースの対照学習：エンコーダの学習：エンコーダの凍結

推論時の言語情報による画像検索の補正 • 脳信号と候補画像間の類似度から，基本となる画像検索スコアを計算 • 脳信号とテキスト間の類似度から，意味情報の信頼性を判定 - 意味的に信頼できるサンプルでは，テキストとの整合性を用いて画像検索スコアを補強 14 Brain-Vision 脳信号
視覚画像 Brain Encoder ・・・特徴量・・・・・・・・・・・・・・・候補画像の特徴量候補画像 Image Encoder 類似度計算 Text Encoder A photo of an apple A photo of a warship A photo of a clock ・・・ A photo of a tire 候補画像のテキスト記述・・・・・・・・・・・・・・・候補画像のテキスト特徴量類似度計算信頼性判断対応が信頼できる場合検索スコアを補強 ⨂ Top 1 Top 2 Top 3 検索結果区間 𝕀=1 𝕀=0 𝕀=-1 信頼可能：元の画像検索得点+元の画像検索得点×テキスト類似度 ⨂

実験設定 • データセット - THINGS-EEG • 人が自然画像を見ているときの脳活動（脳波）を画像と対応付けて記録した公開データセット • 学習用データ：
1,654概念，16,540画像 • テスト用データ： 200概念，200画像（1人の被験者あたり） 15 THINGS-EEGデータセットの概要

実験設定 • 評価タスク - 未学習クラスを含む脳信号から画像への検索 • 候補画像数：200 • 評価指標
：Top-1 正解率，Top-5 正解率 • 評価条件 - 同一被験者内：Intra-subject • 被験者ごとに個別のモデルを学習し，学習時とテスト時で同じ被験者の脳信号を使用 - 被験者間：Inter-subject • 学習データから1人ずつテスト用として除外 • 学習環境 - NVIDIA GeForce RTX3080 GPU 16

THINGS-EEGデータセットの結果 (1/2) • 従来手法との比較を行った実験 - BraVL [Du+, TPAMI2023] - NICE
[Song+, ICLR2024] - ATM-S [Li+, NeurIPS2024] - VE-SDN [Chen+, arXiv2024] - UBP [Wu+,CVPR2025] 17 同一被験者内実験の結果被験者間実験の結果どちらの実験条件でも従来手法と比較して高い性能を達成

THINGS-EEGデータセットの結果 (2/2) • アブレーション実験 - Vanilla ：基本となる脳信号と画像の対照学習 - Decouple ：Vanilla
にテキスト情報を使った視覚情報分離を追加 - Dynamic ：Decouple に脳信号と分離後画像の類似度を用いた動的な調整を追加 - Enhancement ：すべての構成要素を使ったモデル 18 アブレーション実験の結果提案手法のすべての要素が精度に寄与することを確認

まとめ • Linguistic Priors for Visual Decoupling: Towards Symmetric Vision-Brain
Alignment - 既存手法の問題：画像と脳信号を直接対応付けると情報の非対称性が生じ，考慮されていない - アプローチ：言語事前知識に基づく分離画像を生成し，脳信号との類似度に応じてぼかし量を追加調整 - 評価実験：THINGS-EEGの200候補画像検索において，同一被験者内・被験者間の両条件で従来手法を上回った • 考察： - テキストなんて使わなくても画像エンコーダのattentionを使う感じでぼかしを行えばいいのでは？ • やってることや実装が複雑すぎるし，効果が見えにくい要素もある - 手法としては常に画像の中央に視線が行ってる前提 • 視線の時間変化を考慮したぼかしを入れてみる？ 19

スライド置き場 20

THINGS-EEGデータセットの結果 (2/3) • 画像エンコーダを変更する実験 - ResNet-50 - ResNet-101 - ViT-B16
- ViT-B32 21 Top-1, Top-5 共にResNet-50で最も高い性能を達成画像エンコーダ・被験者別の精度 ViT/B32がB16より高いのは荒い特徴の方が脳波と合わせやすいから？ → 細かすぎる特徴は逆にノイズになる可能性

脳信号エンコーダ • EEG Project - UBP [Wu+,CVPR2025] で使用されていた脳信号エンコーダ - GitHubの実装
(https://github.com/TKQXX/BVSA) を見る限りこのモデルを使用？ - 入力信号を平滑化→線形層→残差接続→層正規化 22 図を作る時間がなかったです… class ResidualAdd(nn.Module): def __init__(self, f): super().__init__() self.f = f def forward(self, x): return x + self.f(x) def _build_proj_block(in_dim, out_dim, drop_rate): return nn.Sequential( nn.Linear(in_dim, out_dim), ResidualAdd(nn.Sequential( nn.GELU(), nn.Linear(out_dim, out_dim), nn.Dropout(drop_rate), )), nn.LayerNorm(out_dim) ) class EEGProject(nn.Module): def __init__(self, z_dim, c_num, timesteps, drop_proj=0.3): super().__init__() self.input_dim = c_num * (timesteps[1] - timesteps[0]) self.model_txt = _build_proj_block(self.input_dim, z_dim, drop_proj) self.model_img = _build_proj_block(self.input_dim, z_dim, drop_proj) self.logit_scale = nn.Parameter(torch.ones([]) * np.log(1 / 0.07)) self.softplus = nn.Softplus() def forward(self, x, training): x = x.view(x.shape[0], -1) x_txt, x_img = self.model_txt(x), self.model_img(x) if training: return x_txt, x_img return x_txt.repeat(1, 3), x_img.repeat(1, 3)

THINGS-EEGの結果 • 従来手法との比較 - Intra-subject：同一被験者内実験 - Inter-subject：被験者間実験 23

脳視覚デコーディングタスク（の処理の詳細） • 画像を見た時の脳活動から知覚した視覚内容を推定する問題 • 主なタスク - 画像分類 • 見ていた物体の種類を推定 -
画像検索 • 候補画像群から見ていた画像を選択 - 画像再構成 • 脳信号から知覚した画像を生成 24 Vision Image (Cat) Brain Signal Predict Class : “ Cat ” Classification 本日紹介する論文では主に画像検索タスクを実施 Input Encoder Vision Image (Cat) Brain Signal Input Signal Encoder Image Set Image Encoder Input ・・・・・・・・・・・・・・・ Image Features ・・・ Brain Feature similarity Top 1 Top 2 Top 3 Vision Image (Cat) Brain Signal Input Encoder Decoder Reconstruct Image Reconstruct Image Retrieval

実験設定 • データセット - THINGS-EEG • 人が自然画像を見ているときの脳活動（脳波）を画像と対応付けて記録した公開データセット • 学習用データ：
1,654概念，16,540画像 • テスト用データ： 200概念，200画像 - THINGS-MEG • 人が自然画像を見ているときの脳活動（脳磁図）を画像と対応付けて記録した公開データセット • 学習用データ： 1,854概念，22,248画像 • テスト用データ： 200概念，200画像 25 THINGS-EEGデータセットの概要

THINGS-MEGデータセットの結果 • 従来手法との比較 - NICE [Song+, ICLR2024] • NICE-SA ：NICEにAttention機構を追加
• NICE-GA ：NICEにGraph - Attention機構を追加 - UBP [Wu+,CVPR2025] 26 手法別・被験者別の精度 MEGデータセットにおいても提案手法が最も高い精度を達成

言語事前知識による視覚情報の分離 [3/5] • 類似度行列から対角成分を抽出 - バッチ全体で，脳特徴とテキスト特徴の全組合せから類似度行列を作成 • 対応ペアの類似度スコア𝑠 𝑏𝑡 (𝑖)
- コサイン類似度（対照学習と合わせる） 27 𝑠 𝑏𝑡 (𝑖) = ℎ𝑏𝑖 ⊺ ℎ𝑡𝑖 ℎ𝑏𝑖 2 ℎ𝑡𝑖 2 対応する脳信号・テキスト間の類似度スコア脳特徴テキスト特徴 𝑀𝑏𝑡 = 𝐻𝑏 𝐻𝑡 ⊺ バッチ内の全組合わせの類似度行列バッチ内の脳信号特徴バッチ内のテキスト特徴 𝑠𝑏𝑡 = 𝑑𝑖𝑎𝑔(𝑀𝑏𝑡 ) バッチ内の全組合わせの類似度行列対角成分を取り出す操作バッチ内の対応ペアの類似度を並べたベクトル ∙ ：内積

第64回CV・PRML勉強会　論文紹介：Linguistic Priors for Visua...

第64回CV・PRML勉強会　論文紹介：Linguistic Priors for Visual Decoupling: Towards Symmetric Vision-Brain Alignment

Soki Katayama

Other Decks in Research

Featured

Transcript

2026/06/20 第64回名古屋CV・PRML勉強会 CVPR 2026論文紹介：Linguistic Priors for Visual Decoupling: Towards Symmetric

自己紹介 • 名前：片山創己 (Katayama Soki) • 所属：中部大学大学院工学研究科ロボット理工学専攻藤吉研究室(MPRG) • 学年：M2

脳視覚デコーディングと代表的なタスク • 脳視覚デコーディング - 画像を見た時の脳活動から知覚した視覚情報を推定する技術 • 主なタスク - 画像分類 •

従来手法：NICE [Song+,ICLR2024] • Natural Image Contrast EEG • 画像全体の特徴と脳信号全体の特徴を対照学習で直接対応付け -

従来手法：UBP [Wu+,CVPR2025] • Uncertainty-Aware Blur Prior • NICE [Song+,ICLR2024] で行う脳信号と画像の対応付けを改善

前提手法：CLIP [Radford+, ICML2021] • Contrastive Language-Image Pre-training - (1)事前学習：画像とテキストのペアで特徴量が一致するように自己教師あり学習 -

Linguistic Priors for Visual Decoupling : Towards Symmetric Vision-Brain Alignment

言語事前知識による視覚情報の分離 [1/4] • 視覚画像に対応する物体概念からテキスト記述を作成 - 例：A photo of {an apple}

言語事前知識による視覚情報の分離 [3/4] • 類似度行列から対角成分を抽出 - バッチ全体で，脳特徴とテキスト特徴の全組合せから類似度行列を作成 • 類似度ベクトル𝑠𝑏𝑡 から分布を作成 -

言語事前知識による視覚情報の分離 [4/4] • 元画像とぼかし画像を位置ごとの重み𝑊で合成 • 画像中央では元画像を強く保持し，周辺にぼかし画像を反映 • 𝕀に応じて中央の保持範囲を変更 11 ෤

実験設定 • データセット - THINGS-EEG • 人が自然画像を見ているときの脳活動（脳波）を画像と対応付けて記録した公開データセット • 学習用データ：

実験設定 • 評価タスク - 未学習クラスを含む脳信号から画像への検索 • 候補画像数：200 • 評価指標

THINGS-EEGデータセットの結果 (1/2) • 従来手法との比較を行った実験 - BraVL [Du+, TPAMI2023] - NICE

THINGS-EEGデータセットの結果 (2/2) • アブレーション実験 - Vanilla ：基本となる脳信号と画像の対照学習 - Decouple ：Vanilla

まとめ • Linguistic Priors for Visual Decoupling: Towards Symmetric Vision-Brain

スライド置き場 20

THINGS-EEGデータセットの結果 (2/3) • 画像エンコーダを変更する実験 - ResNet-50 - ResNet-101 - ViT-B16

脳信号エンコーダ • EEG Project - UBP [Wu+,CVPR2025] で使用されていた脳信号エンコーダ - GitHubの実装

THINGS-EEGの結果 • 従来手法との比較 - Intra-subject：同一被験者内実験 - Inter-subject：被験者間実験 23

脳視覚デコーディングタスク（の処理の詳細） • 画像を見た時の脳活動から知覚した視覚内容を推定する問題 • 主なタスク - 画像分類 • 見ていた物体の種類を推定 -

実験設定 • データセット - THINGS-EEG • 人が自然画像を見ているときの脳活動（脳波）を画像と対応付けて記録した公開データセット • 学習用データ：

THINGS-MEGデータセットの結果 • 従来手法との比較 - NICE [Song+, ICLR2024] • NICE-SA ：NICEにAttention機構を追加

言語事前知識による視覚情報の分離 [3/5] • 類似度行列から対角成分を抽出 - バッチ全体で，脳特徴とテキスト特徴の全組合せから類似度行列を作成 • 対応ペアの類似度スコア𝑠 𝑏𝑡 (𝑖)

第64回CV・PRML勉強会 論文紹介：Linguistic Priors for Visua...

第64回CV・PRML勉強会 論文紹介：Linguistic Priors for Visual Decoupling: Towards Symmetric Vision-Brain Alignment

Other Decks in Research

Featured

Transcript

第64回CV・PRML勉強会　論文紹介：Linguistic Priors for Visua...

第64回CV・PRML勉強会　論文紹介：Linguistic Priors for Visual Decoupling: Towards Symmetric Vision-Brain Alignment