Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ゲノム解析における射影: 特徴選択ツールとしてのテンソル分解と主成分分析を合理化する理論的根拠

ゲノム解析における射影: 特徴選択ツールとしてのテンソル分解と主成分分析を合理化する理論的根拠

Avatar for Y-h. Taguchi

Y-h. Taguchi

June 22, 2025
Tweet

More Decks by Y-h. Taguchi

Other Decks in Science

Transcript

  1. 1/23: はじめに - ゲノムビッグデータの挑戦 現代の生命科学は、膨大なゲノムデータを扱います。 このデータから、生命現象や疾患の鍵となる少数の重要な遺伝子を見つけ出すことが、極めて重要です。 「特徴選択」における大きな壁 遺伝子の数 (N) がサンプル数

    (M) を圧倒的に上回る ($N \gg M$) 例: 20,000遺伝子 vs 100サンプル これは「次元の呪い」とも呼ばれ、統計的な解析を著しく困難にします。 本日は、この課題に対する強力なアプローチとその理論的背景についてお話しします。
  2. 3/23: 新しい潮流:教師なし特徴抽出 近年、統計検定に代わるアプローチとして、教師なし特徴抽出が注目を集めています。 主成分分析 (PCA) や テンソル分解 (TD) を利用します。 これらの手法は、サンプルに付随する「がん/正常」のようなラベル情報を一切

    使わずに、データ自身の構造から本質的な情報を抽出します。 多くの研究で、従来法を上回る優れた性能を示すことが報告されています。 データ自身の声に耳を傾けるアプローチです。
  3. 4/23: 本研究の中心的な問い PCAやTDを用いた手法は非常に有効であることが経験的に知られていましたが、その背景には大きな謎が残さ れていました。 ゲノムデータ (N >> M) PCA /

    TD (教師なし特徴抽出) ? なぜ有効なのか? 生物学的に 意味のある遺伝子 本研究の目的: この「なぜ」に答えるため、PCA/TDベース特徴抽出の有効性を理論的に解明し、その成功を合理化することで す。
  4. 5/23: 理論的枠組み(1) - 射影追跡 (Projection Pursuit) 本研究の理論的な基盤となるのが、射影追跡(Projection Pursuit, PP) という考え方です。

    射影追跡とは? 高次元のデータを低次元(通常は1〜2次元)に射影し、その射影されたデータが「最も面白い」構造を 示す方向を見つけ出す手法。 「面白い」構造とは、例えば正規分布から最もかけ離れた分布や、クラスターが明確に分離するような 構造を指します。 高次元データ (2Dで表現) 射影 A (良い方向) クラスターが明確に分離 射影 B (悪い方向) クラスターが混在
  5. 6/23: 理論的枠組み(2) - PCAとK-meansクラスタリング 射影追跡の考え方を理解する上で、PCAとK-meansクラスタリングの関係が鍵となります。 K-meansクラスタリング データをK個のグループに分類し、各グループの 中心(セントロイド)を計算する手法。 主成分分析 (PCA)

    データの分散が最大になる方向(主成分)を見 つける手法。 重要な理論的背景 (Ding & He, 2004) PCAによって得られる主成分ベクトルが張る空間は、K-meansで最適化されたクラスターのセントロイド が張る空間と一致することが知られています。
  6. 9/23: 仮説の検証アプローチ この仮説を検証するため、2つの異なるアプローチの結果を比較します。 1. TDベース特徴抽出 (教師なし) TDを用いて、データ内在の構造(特異値ベクト ル)を純粋に抽出する。 2. 射影追跡

    (PP) (教師あり) 意図的に「がん/正常」という正解ラベルの方向 にデータを射影する。 ⇒ もし仮説が正しければ、この2つの手法で選ばれた遺伝子は強く一致するはずです。
  7. 10/23: 使用データセット 検証には、過去にTDベース特徴抽出が有効性を示した3つの実際のデータセットを用いました。 データセット 1 & 2: 腎臓がん 腎臓がん組織と正常組織のmRNAおよびmiRNA発현 データ。

    生物学的な違い:「がん vs 正常」 データセット 3: SARS-CoV-2 SARS-CoV-2ウイルスを感染させたヒト培養細胞の遺伝子発現データ。 生物学的な違い:「ウイルス感染 vs 非感染」
  8. 11/23: サンプルから遺伝子へ:特異値ベクトルの関係 これまでは、サンプルを区別する特異値ベクトル (v) に注目しました。では、遺伝子の重要度を示す特異値ベク トル (u) はどのように得られるのでしょうか? サンプルベクトル v

    (サンプルを分類) × 遺伝子発現行列 X (N遺伝子 × Mサンプル) 遺伝子ベクトル u (遺伝子の寄与度) 元のデータ行列 X を介して、サンプルの特異値ベクトル v から遺伝子の特異値ベクトル u が計算されます。 (式: $u \propto Xv$ ) この関係により、サンプルを分類するパターンが、どの遺伝子によって駆動されているかを特定できます。
  9. 12/23: 遺伝子へのP値の割り当て方法 生物学的に意味のある遺伝子の特異値ベクトル (u) が得られた後、各遺伝子 (i) がそのパターンにどれだけ寄与 しているかを評価するためにP値を計算します。 遺伝子ベクトル u

    (各遺伝子のスコア) P値計算 $P_i = P_{\chi^2}[ > (u i / \sigma)^2 ]$ (カイ二乗分布を仮定) 多重検定補正 (BH法) 1. 帰無仮説として、遺伝子ベクトル u の各成分 (u) が正規分布に従うと仮定します。 2. 各成分を標準偏差 (σ) で割り、2乗することで、カイ二乗 (χ²) 分布に従う値に変換します。 3. この値を用いて、カイ二乗検定から各遺伝子のP値を算出します。 4. 最後に、多重検定補正(本研究ではBH法)を行い、調整済みP値を得て、有意な遺伝子を選 択します。 i
  10. 14/23: 腎臓がんデータでの一致度(表) 選択された遺伝子の一致度をクロス集計表で見てみましょう。(論文 Table 1, 2) mRNA (19,536遺伝子中) (p<0.01) PP

    (選択) PP (非選択) TD (選択) 61 11 TD (非選択) 17 19,447 Fisher's exact test, p = 1.90 x 10⁻ ¹⁴⁹ miRNA (825 miRNA中) (p<0.01) PP (選択) PP (非選択) TD (選択) 11 0 TD (非選択) 2 812 Fisher's exact test, p = 2.76 x 10⁻ ²³ ⇒ この驚異的な一致は、TDが「がん/正常」という生物学的意味を持つ方向を的確に捉えていること を強く示唆します。
  11. 15/23: Case Study 2:SARS-CoV-2 データでの比較 次に、SARS-CoV-2感染細胞のデータセットでも同様の比較を行いました。(論文 Table 5) 結果の概要 TDで「ウイルス感染の有無」を区別する特異値ベクトルを特定し、163遺伝子を選択。

    PPで「感染/非感染」ラベルに射影し、155遺伝子を選択。 腎臓がんデータと同様、両手法で選択された遺伝子は非常によく一致しました。 遺伝子クロス集計表 (21,897遺伝子中) (p<0.01) PP (選択) PP (非選択) TD (選択) 103 60 TD (非選択) 52 21,582 Fisher's exact test, p = 1.40 x 10⁻ ²⁴¹
  12. 18/23: 検証(2) - シャッフリング法によるp値計算 シャッフリング法とは? 1. 各サンプル内で、遺伝子の発現データの並び順をランダムに入れ替える。 2. これにより、遺伝子と発現値の関連が破壊された「意味のない」データセットが 作られる。

    3. このデータにTDを適用し、偶然得られるスコアの分布(帰無分布)を作成す る。 4. 実際のスコアが、この帰無分布の上位何%に位置するかを計算し、p値とする。 計算コストは非常に高いですが、データの分布に仮定を置かないため、頑健な方法とされています。
  13. 19/23: シャッフリング法によるp値分布の実例 シャッフリング法によって生成された帰無分布から計算されたp値の実際のヒストグラムです。 Fig.1: データセット1 (miRNA) Fig.2: データセット1 (mRNA) Fig.3:

    データセット3 (遺伝子) パネル(A)ではp値が1付近に偏る傾向が見られますが、発現量の高い遺伝子に限定する(B)ことで、より一様な分布に近づきま す。
  14. 20/23: 検証(3) - 2つの基準の一致 結果 TDベース特徴抽出(調整済みp < 0.01)で選択された遺伝子群は、 シャッフリング法(調整済みp <

    0.1)で選択された遺伝子群と、 全てのデータセットで非常によく一致しました。 ⇒ 経験的に使われてきた簡易な基準が、頑健な手法の結果とよく相関しており、実用上有効であるこ とが初めて裏付けられました。