Upgrade to Pro — share decks privately, control downloads, hide ads and more …

潜在空間の幾何的構造_JSAI発表

Avatar for Ikumi Akatsuka Ikumi Akatsuka
May 30, 2025
1.5k

 潜在空間の幾何的構造_JSAI発表

CNN や Transformer などのエンコーダは, 画像をはじめとした高次元オブジェクトをベクトル埋め込み(Object embedding)操作によって低次元ベクトルに埋め込むことができ, 多くの先行研究では埋め込みベクトルが作る潜在空間をユークリッド空間として扱っている. 本研究では, ユークリッド的な仮定のもとでは見落とされがちな潜在空間の幾何学構造を捉えることを目的として, エンコーダの中間表現を確率分布に対応づけることで情報幾何学的な多様体を定義し, 計量や曲率といった幾何学量を推定する手法を提案する. 画像データセットをエンコーダに入力して得られる分布の集合は, α-ダイバージェンスを距離とする情報幾何的な多様体を構成し, その期待値座標は埋め込みベクトルと一致する. CNN を用いて学習した MNIST データセットの計量と曲率を推定する実験では, 多くの点で正の曲率を持つという結果を得ることができ, 潜在空間が必ずしも平坦ではないことを示した.

Avatar for Ikumi Akatsuka

Ikumi Akatsuka

May 30, 2025
Tweet

Transcript

  1. 1. 研究背景: 大規模基盤モデルの発達 エンコーダはベクトル埋め込みによってオブジェクトを埋め込みベクトルに変換し, 画像や文章の意味やパターンを捉えることができる(ex: Transformer, CNN) 画像データ 埋め込みベクトル 同じ意味の画像がクラスタを形成している

    CNNによるMNIST画像のベクトル埋め込み 複数の先行研究では, 画像の類似度を埋め込みベクトルのユークリッド距離で測っている →潜在空間をユークリッド空間として扱っている ユークリッド距離で 類似度を測れる ベクトル埋め込み エンコーダ
  2. 2. 研究背景: 潜在空間は平らな空間か? 画像の類似度を埋め込みベクトルのユークリッド距離で測ると一部は不都合な結果となる. Arvanitidis, et al. "Latent space oddity:

    on the curvature of deep generative models." arXiv preprint arXiv:1710.11379 , 2017 潜在空間は非ユークリッドな多様体だと考えた方が都合がいい. → 潜在空間を多様体として定義したい → 多様体の幾何学量(特に計量と曲率)を推定したい ユークリッド距離で測ると, A とB の距離よりも, B とC の距離のほうが小さい. これは意味的な直感に反している. ユークリッド的な捉え方 非ユークリッド的な捉え方 計量が定義された曲がった空間上に 埋め込まれたと考えたほうが自然. この場合最短距離は緑の測地線となる.
  3. 3. 研究背景: なぜ幾何学量が知れると嬉しいのか? データセットをうまく学習するために潜在空間の作り方を工夫する研究は多数ある. 例えば階層構造の学習は曲率が負の双曲空間と相性が良いことが知られている. Nickel M and Kiela D.

    Poincaré Embeddings for Learning Hierarchical Representations. NIPS, 2017 Cetin, Edoardo, et al. "Hyperbolic deep reinforcement learning." 2022 ex: ポアンカレ埋め込み (Poincaré Embedding) 計量とスカラー曲率は以下のように定義される. n 次元Poincaré Ball ( 単位開球) にデータを埋め込む. 右図はPoincaré Ball に埋め込まれたTree を2 次元へ射影したPoincaré disk. 技の長さは全て同じで, 円の外側に行くほど無限遠点に近づく. 破線は2 点の最短距離を表している. 本手法は階層構造や単語の意味などを学習することに長けている. 基盤モデルでは, データをうまく学習するために最適化された計量や曲率を後天的に 獲得している可能性がある→ 幾何学量推定はモデルの理解につながる.
  4. 4. 研究方針: 情報幾何の応用 埋め込みベクトルの集合をどのようにして多様体と捉えるか? →情報幾何が活用できそう 情報幾何学(Infomation Geometry) ・Fisher計量 情報幾何学とは, 確率分布族を多様体のように扱い,その上に計量や接続などの幾何学的構造を導入し

    て解析する枠組み. 多様体上の1点が1つの分布に対応する. ある種の統計的な不変性の要請のもとでは, 計量と接続は次に限られることが知られている. ・α-接続 とおいた. エンコーダの性質をうまく使って, オブジェクトを分布に対応させれば データセットは分布族に対応するので, 情報幾何の枠組みで統計多様体を定義できる. ただし 統計多様体の曲率も定義することができ, 座標系によらない幾何学量は空間を特徴づけるのに役立つ. 例えばガウス分布族のスカラー曲率は一定でR=-0.5であることが知られている. Amari, S.: Differential-Geometrical Methods in Statistics, Vol. 28 of Lecture Notes in Statistics, Springer, New York, NY ,1985
  5. 6. 考察するベクトル埋め込み操作 これはTransformerに限った話ではなく, CNNにおけるGlobal Average Poolingは 重みが全て等しい荷重平均操作と捉えられる. Transformerなどのエンコーダは, オブジェクトをn個の中間表現ベクトル  

    とその 重み  に変換し, それらの荷重平均を埋め込みベクトル として出力している. エンコーダの典型的なベクトル埋め込み操作 LeCun, Y., et.al . “Gradient-based learning applied to document recognition.” 1998
  6. 7. メインアイデア:オブジェクトと分布の対応付け 重み付き中間表現データ  が分布   から独立にサンプリングされたものと仮定する. ある程度サンプリングが多い場合, 分布   の期待値は標本平均で近似できる.

    埋め込みベクトル     はオブジェクトの情報を十分に持っているので, を十分統計量だと仮定. これにより十分統計量から分布を一意に定めることができ, オブジェクトと分布が 1 対1 で対応する.
  7. このままでは分布に対して制約が全くないので幾何学量を推定できない. → 分布が指数型分布だと仮定して議論を続ける. 9. メインアイデア: 分布に関する仮定 指数型分布族はガウス分布やガンマ分布などを含む性質の良い分布族 幾何学量を標本平均から推定できる 分布の普遍近似性を持つ データから分布の具体的な形は求められないが,

    指数型分布族の性質により, 計量, 接続係数, 曲率などの幾何学量を標本平均から推定できる. 埋め込みベクトル 計量 接続係数 リーマン曲率テンソル 同様に推定可能だが余白が足りない Sriperumbudur, B.et,al.: Density Estimation in Infinite Dimensional Exponential Families, 2017
  8. 14. 参考文献 1.Dombrowski, Ann-Kathrin, et al. "Diffeomorphic counterfactuals with generative

    models." IEEE Transactions on Pattern Analysis and Machine Intelligence (2023). 2.Amari Shunichi (2024) 情報幾何の新展開 3.Amari, Shun-ichi (1985). Differential-Geometrical Methods in Statistics. Red. By J. Berger et al. Vol. 28. Lecture Notes in Statistics. New York, NY: Springer. 4.Sharir, Gilad, Asaf Noy, and Lihi Zelnik-Manor. "An image is worth 16x16 words, what is a video worth?." arXiv preprint arXiv:2103.13915 (2021). 5.Khemakhem, Ilyes, et al. "Variational autoencoders and nonlinear ica: A unifying framework." International conference on artificial intelligence and statistics. PMLR, 2020. 6.LeCun, Yann, et al. "Gradient-based learning applied to document recognition." Proceedings of the IEEE 86.11 (1998): 2278-2324.