Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ゲノム解析における射影: 特徴選択ツールとしてのテンソル分解と主成分分析を合理化する理論的根拠
Search
Y-h. Taguchi
June 22, 2025
Science
0
2
ゲノム解析における射影: 特徴選択ツールとしてのテンソル分解と主成分分析を合理化する理論的根拠
Presentation at SOGBIO82
https://www.ipsj.or.jp/kenkyukai/event/mps153bio82.html
Y-h. Taguchi
June 22, 2025
Tweet
Share
More Decks by Y-h. Taguchi
See All by Y-h. Taguchi
知能とはなにかーヒトとAIのあいだー
tagtag
0
47
学術講演会中央大学学員会府中支部
tagtag
0
260
テンソル分解による糖尿病の組織特異的遺伝子発現の統合解析を用いた関連疾患の予測
tagtag
2
180
マウス肝炎ウイルス感染の遺伝子発現へのテンソル分解の適用によるSARS-CoV-2感染関連重要ヒト遺伝子と有効な薬剤の同定
tagtag
0
110
大学のアウトリーチ活動(中央大学学員(OB)会主催学術講演で講演して)
tagtag
1
75
AI(人工知能)の過去・現在・未来 —AIは人間を超えるのか—
tagtag
0
120
マルチオミクスデータ解析のためのカーネルテンソル分解による新しい特徴選択法
tagtag
1
120
学術講演会中央大学学員会大分支部
tagtag
0
160
学術講演会中央大学学員会いわき支部
tagtag
0
160
Other Decks in Science
See All in Science
局所保存性・相似変換対称性を満たす機械学習モデルによる数値流体力学
yellowshippo
1
260
インフラだけではない MLOps の話 @事例でわかるMLOps 機械学習の成果をスケールさせる処方箋 発売記念
icoxfog417
PRO
2
830
データベース02: データベースの概念
trycycle
PRO
2
750
Iniciativas independentes de divulgação científica: o caso do Movimento #CiteMulheresNegras
taisso
0
1.5k
地質研究者が苦労しながら運用する情報公開システムの実例
naito2000
0
190
オンプレミス環境にKubernetesを構築する
koukimiura
0
250
データベース09: 実体関連モデル上の一貫性制約
trycycle
PRO
0
670
IWASAKI Hideo
genomethica
0
100
機械学習 - K-means & 階層的クラスタリング
trycycle
PRO
0
840
アナログ計算機『計算尺』を愛でる Midosuji Tech #4/Analog Computing Device Slide Rule now and then
quiver
1
170
生成検索エンジン最適化に関する研究の紹介
ynakano
2
1k
Transport information Geometry: Current and Future II
lwc2017
0
150
Featured
See All Featured
KATA
mclloyd
29
14k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
35
2.3k
4 Signs Your Business is Dying
shpigford
184
22k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
20
1.3k
Optimising Largest Contentful Paint
csswizardry
37
3.3k
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
Rails Girls Zürich Keynote
gr2m
94
14k
Gamification - CAS2011
davidbonilla
81
5.3k
Building Applications with DynamoDB
mza
95
6.4k
How to Think Like a Performance Engineer
csswizardry
24
1.7k
VelocityConf: Rendering Performance Case Studies
addyosmani
329
24k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
107
19k
Transcript
1/23: はじめに - ゲノムビッグデータの挑戦 現代の生命科学は、膨大なゲノムデータを扱います。 このデータから、生命現象や疾患の鍵となる少数の重要な遺伝子を見つけ出すことが、極めて重要です。 「特徴選択」における大きな壁 遺伝子の数 (N) がサンプル数
(M) を圧倒的に上回る ($N \gg M$) 例: 20,000遺伝子 vs 100サンプル これは「次元の呪い」とも呼ばれ、統計的な解析を著しく困難にします。 本日は、この課題に対する強力なアプローチとその理論的背景についてお話しします。
None
2/23: 従来手法とその限界 これまで、発現量が変動する遺伝子(DEG)の同定には、統計検定(t検定など)が広く用いられてきました。 従来手法の根本的な問題点 p値のサンプルサイズ依存性 生物学的な差が小さくても、サンプル数(M)を増やせば、p値はいくらでも小さくなり「統計的に有 意」という結果が出てしまいます。 これは、結果の信頼性を損なう大きな要因です。 この問題を補うため、Fold Change(発現変動幅)などの基準が併用されますが、場当たり的な解決策
に過ぎません。 より本質的で、頑健な手法が求められています。
3/23: 新しい潮流:教師なし特徴抽出 近年、統計検定に代わるアプローチとして、教師なし特徴抽出が注目を集めています。 主成分分析 (PCA) や テンソル分解 (TD) を利用します。 これらの手法は、サンプルに付随する「がん/正常」のようなラベル情報を一切
使わずに、データ自身の構造から本質的な情報を抽出します。 多くの研究で、従来法を上回る優れた性能を示すことが報告されています。 データ自身の声に耳を傾けるアプローチです。
4/23: 本研究の中心的な問い PCAやTDを用いた手法は非常に有効であることが経験的に知られていましたが、その背景には大きな謎が残さ れていました。 ゲノムデータ (N >> M) PCA /
TD (教師なし特徴抽出) ? なぜ有効なのか? 生物学的に 意味のある遺伝子 本研究の目的: この「なぜ」に答えるため、PCA/TDベース特徴抽出の有効性を理論的に解明し、その成功を合理化することで す。
5/23: 理論的枠組み(1) - 射影追跡 (Projection Pursuit) 本研究の理論的な基盤となるのが、射影追跡(Projection Pursuit, PP) という考え方です。
射影追跡とは? 高次元のデータを低次元(通常は1〜2次元)に射影し、その射影されたデータが「最も面白い」構造を 示す方向を見つけ出す手法。 「面白い」構造とは、例えば正規分布から最もかけ離れた分布や、クラスターが明確に分離するような 構造を指します。 高次元データ (2Dで表現) 射影 A (良い方向) クラスターが明確に分離 射影 B (悪い方向) クラスターが混在
6/23: 理論的枠組み(2) - PCAとK-meansクラスタリング 射影追跡の考え方を理解する上で、PCAとK-meansクラスタリングの関係が鍵となります。 K-meansクラスタリング データをK個のグループに分類し、各グループの 中心(セントロイド)を計算する手法。 主成分分析 (PCA)
データの分散が最大になる方向(主成分)を見 つける手法。 重要な理論的背景 (Ding & He, 2004) PCAによって得られる主成分ベクトルが張る空間は、K-meansで最適化されたクラスターのセントロイド が張る空間と一致することが知られています。
7/23: 理論の核心:PCAは「教師なし」でクラスターを見つける 「PCAが張る空間」と「セントロイドが張る空間」が一致するということは… ⇒ PCAは、我々が「がんと正常」といったラベルを教えなくても、データに 内在するクラスター構造を自動的に見つけ出し、その構造を最もよく表す方 向(主成分)を抽出している、と解釈できます。 1. 未知の構造を持つデータ ラベル情報なし
2a. K-means適用 セントロイド発見 2b. PCA適用 最大分散の方向(PC1)発見 3. 構造の一致 セントロイド方向 ≒ PC1方向
8/23: 本研究の仮説 以上の理論的背景から、本研究では以下の仮説を立てました。 仮説 PCA/TDベースの教師なし特徴抽出が成功する理由は、その手法が「がんと正常」のような生物学的に 意味のあるクラスターのセントロイド方向へデータを射影していることと等価だからである。 つまり、手法が見つけ出す「面白い射影方向」が、生物学的に重要な方向と一致している、という仮説 です。
9/23: 仮説の検証アプローチ この仮説を検証するため、2つの異なるアプローチの結果を比較します。 1. TDベース特徴抽出 (教師なし) TDを用いて、データ内在の構造(特異値ベクト ル)を純粋に抽出する。 2. 射影追跡
(PP) (教師あり) 意図的に「がん/正常」という正解ラベルの方向 にデータを射影する。 ⇒ もし仮説が正しければ、この2つの手法で選ばれた遺伝子は強く一致するはずです。
10/23: 使用データセット 検証には、過去にTDベース特徴抽出が有効性を示した3つの実際のデータセットを用いました。 データセット 1 & 2: 腎臓がん 腎臓がん組織と正常組織のmRNAおよびmiRNA発현 データ。
生物学的な違い:「がん vs 正常」 データセット 3: SARS-CoV-2 SARS-CoV-2ウイルスを感染させたヒト培養細胞の遺伝子発現データ。 生物学的な違い:「ウイルス感染 vs 非感染」
11/23: サンプルから遺伝子へ:特異値ベクトルの関係 これまでは、サンプルを区別する特異値ベクトル (v) に注目しました。では、遺伝子の重要度を示す特異値ベク トル (u) はどのように得られるのでしょうか? サンプルベクトル v
(サンプルを分類) × 遺伝子発現行列 X (N遺伝子 × Mサンプル) 遺伝子ベクトル u (遺伝子の寄与度) 元のデータ行列 X を介して、サンプルの特異値ベクトル v から遺伝子の特異値ベクトル u が計算されます。 (式: $u \propto Xv$ ) この関係により、サンプルを分類するパターンが、どの遺伝子によって駆動されているかを特定できます。
12/23: 遺伝子へのP値の割り当て方法 生物学的に意味のある遺伝子の特異値ベクトル (u) が得られた後、各遺伝子 (i) がそのパターンにどれだけ寄与 しているかを評価するためにP値を計算します。 遺伝子ベクトル u
(各遺伝子のスコア) P値計算 $P_i = P_{\chi^2}[ > (u i / \sigma)^2 ]$ (カイ二乗分布を仮定) 多重検定補正 (BH法) 1. 帰無仮説として、遺伝子ベクトル u の各成分 (u) が正規分布に従うと仮定します。 2. 各成分を標準偏差 (σ) で割り、2乗することで、カイ二乗 (χ²) 分布に従う値に変換します。 3. この値を用いて、カイ二乗検定から各遺伝子のP値を算出します。 4. 最後に、多重検定補正(本研究ではBH法)を行い、調整済みP値を得て、有意な遺伝子を選 択します。 i
13/23: Case Study 1:腎臓がんデータでの比較 まず、腎臓がんのデータセットで、TD(教師なし)とPP(教師あり)の結果を比較しました。 結果の概要 TDで「がんと正常」を最もよく区別する特異 値ベクトルを特定。 PPで「がん/正常」ラベルに射影。 両手法で選択された遺伝子・miRNAは、極め
て高い一致を示しました。 Fig. 4. QQプロットは、2つの手法で計算されたp値の分布が酷似して いることを示します。
14/23: 腎臓がんデータでの一致度(表) 選択された遺伝子の一致度をクロス集計表で見てみましょう。(論文 Table 1, 2) mRNA (19,536遺伝子中) (p<0.01) PP
(選択) PP (非選択) TD (選択) 61 11 TD (非選択) 17 19,447 Fisher's exact test, p = 1.90 x 10⁻ ¹⁴⁹ miRNA (825 miRNA中) (p<0.01) PP (選択) PP (非選択) TD (選択) 11 0 TD (非選択) 2 812 Fisher's exact test, p = 2.76 x 10⁻ ²³ ⇒ この驚異的な一致は、TDが「がん/正常」という生物学的意味を持つ方向を的確に捉えていること を強く示唆します。
15/23: Case Study 2:SARS-CoV-2 データでの比較 次に、SARS-CoV-2感染細胞のデータセットでも同様の比較を行いました。(論文 Table 5) 結果の概要 TDで「ウイルス感染の有無」を区別する特異値ベクトルを特定し、163遺伝子を選択。
PPで「感染/非感染」ラベルに射影し、155遺伝子を選択。 腎臓がんデータと同様、両手法で選択された遺伝子は非常によく一致しました。 遺伝子クロス集計表 (21,897遺伝子中) (p<0.01) PP (選択) PP (非選択) TD (選択) 103 60 TD (非選択) 52 21,582 Fisher's exact test, p = 1.40 x 10⁻ ²⁴¹
16/23: なぜTD(テンソル分解)を使うのか? 単純な行列データに適用するPCAに対し、なぜ多次元のテンソルを扱うTDが必要なのでしょうか? TDの利点 TDは、複数の要因(例:細胞株、薬剤処理、個 人差など)が絡む複雑なデータ構造を、それぞ れの要因に分解して捉えることができます。 ⇒ TDは、PCAよりもノイズに惑わされにくく、 より的確に生物学的なシグナルを分離・抽出でき
る強力なツールです。 サンプルの特性ベクトルと「感染/非感染」ラベルとの 相関(論文 Fig. 8) 左(PCA): ラベルとの相 関が低い 右(TD): ラベルとの相 関が非常に高い
17/23: 検証(1) - p値の閾値は妥当か? これまで経験的に「正規分布を仮定した調整済みp値 < 0.01」という基準が使われてきました。 しかし、この仮定と閾値は 本当に妥当なのでしょうか? この長年の疑問に答えるため、より信頼性の高いとされるシャッフリング法の結果と比較検証を行いました。
18/23: 検証(2) - シャッフリング法によるp値計算 シャッフリング法とは? 1. 各サンプル内で、遺伝子の発現データの並び順をランダムに入れ替える。 2. これにより、遺伝子と発現値の関連が破壊された「意味のない」データセットが 作られる。
3. このデータにTDを適用し、偶然得られるスコアの分布(帰無分布)を作成す る。 4. 実際のスコアが、この帰無分布の上位何%に位置するかを計算し、p値とする。 計算コストは非常に高いですが、データの分布に仮定を置かないため、頑健な方法とされています。
19/23: シャッフリング法によるp値分布の実例 シャッフリング法によって生成された帰無分布から計算されたp値の実際のヒストグラムです。 Fig.1: データセット1 (miRNA) Fig.2: データセット1 (mRNA) Fig.3:
データセット3 (遺伝子) パネル(A)ではp値が1付近に偏る傾向が見られますが、発現量の高い遺伝子に限定する(B)ことで、より一様な分布に近づきま す。
20/23: 検証(3) - 2つの基準の一致 結果 TDベース特徴抽出(調整済みp < 0.01)で選択された遺伝子群は、 シャッフリング法(調整済みp <
0.1)で選択された遺伝子群と、 全てのデータセットで非常によく一致しました。 ⇒ 経験的に使われてきた簡易な基準が、頑健な手法の結果とよく相関しており、実用上有効であるこ とが初めて裏付けられました。
21/23: 本研究のまとめ 理論的結合 TD/PCAによる特徴抽出は、K-meansによるクラ スタリングと等価であり、生物学的に意味のあ る方向への射影と解釈できる。 実用的妥当性 経験的なp値の基準(p<0.01)は、頑健なシャッフ リング法(p<0.1)と高い一致を示した。
22/23: 結論 本研究は、ゲノム解析における特徴選択ツールとして、PCAおよびTDベース教師なし特徴抽 出の有効性を、射影という観点から理論的に初めて合理化しました。 これらの手法は、サンプル数が少ない高次元データ($N \gg M$)から、生物学的に意味のあ る特徴量を抽出するための、強力かつ理論的に裏付けられたアプローチです。 研究者は、データに隠された本質的な生物学的パターンを発見するために、これらの手法を 自信を持って活用することができます。
23/23: 今後の展望と謝辞 今後の展望 理論の拡張: 3つ以上のクラスターが存在す る場合や、連続的な変化(時間経過など)を捉 える場合の理論拡張。 応用範囲の拡大: マルチオミクスデータの統 合解析へのより広範な応用。個別化医療に向け
たバイオマーカー探索の加速。 謝辞 共同研究者: Dr. Turki Turki 研究費支援: 日本学術振興会(JSPS)科研費 ご清聴ありがとうございました。