Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
oku-slide-20221129
Search
Makito Oku
November 27, 2022
Science
0
160
oku-slide-20221129
対照群を用いない同期性揺らぎ遺伝子の抽出法
奥 牧人 (富山大学)
2022/11/29
第72回 バイオ情報学研究会
Makito Oku
November 27, 2022
Tweet
Share
More Decks by Makito Oku
See All by Makito Oku
oku-slide-20240802
okumakito
0
97
oku-slide-20231129
okumakito
0
120
oku-slide-20230827
okumakito
0
130
oku-slide-20230213
okumakito
0
230
oku-slide-20221212
okumakito
0
87
oku-slide-20221115
okumakito
0
310
oku-slide-20220820
okumakito
0
320
oku-slide-stat1-1
okumakito
0
270
oku-slide-stat1-2
okumakito
0
300
Other Decks in Science
See All in Science
How were Quaternion discovered
kinakomoti321
2
1.2k
眼科AIコンテスト2024_特別賞_6位Solution
pon0matsu
0
310
2024-06-16-pydata_london
sofievl
0
630
Symfony Console Facelift
chalasr
2
410
インフラだけではない MLOps の話 @事例でわかるMLOps 機械学習の成果をスケールさせる処方箋 発売記念
icoxfog417
PRO
2
750
小杉考司(専修大学)
kosugitti
2
630
白金鉱業Meetup Vol.15 DMLによる条件付処置効果の推定_sotaroIZUMI_20240919
brainpadpr
2
730
はじめてのバックドア基準:あるいは、重回帰分析の偏回帰係数を因果効果の推定値として解釈してよいのか問題
takehikoihayashi
2
1.5k
論文紹介: PEFA: Parameter-Free Adapters for Large-scale Embedding-based Retrieval Models (WSDM 2024)
ynakano
0
230
地質研究者が苦労しながら運用する情報公開システムの実例
naito2000
0
100
04_石井クンツ昌子_お茶の水女子大学理事_副学長_D_I社会実現へ向けて.pdf
sip3ristex
0
250
01_篠原弘道_SIPガバニングボード座長_ポスコロSIPへの期待.pdf
sip3ristex
0
260
Featured
See All Featured
Code Reviewing Like a Champion
maltzj
521
39k
Side Projects
sachag
452
42k
Measuring & Analyzing Core Web Vitals
bluesmoon
6
320
Building a Scalable Design System with Sketch
lauravandoore
462
33k
GraphQLとの向き合い方2022年版
quramy
45
14k
The Cost Of JavaScript in 2023
addyosmani
48
7.6k
Faster Mobile Websites
deanohume
306
31k
Building Applications with DynamoDB
mza
94
6.3k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
4
490
Statistics for Hackers
jakevdp
797
220k
4 Signs Your Business is Dying
shpigford
183
22k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
Transcript
対照群を用いない 同期性揺らぎ遺伝子の抽出法 奥 牧人 (富山大学) 2022/11/29 第72回 バイオ情報学研究会 1 /
32
Outline はじめに 既存の抽出法 提案手法 同期性揺らぎ遺伝子のスコア 人工データによる評価法 実データによる評価法 結果 まとめと考察 2
/ 32
Outline はじめに 既存の抽出法 提案手法 同期性揺らぎ遺伝子のスコア 人工データによる評価法 実データによる評価法 結果 まとめと考察 3
/ 32
同期性揺らぎ遺伝子 発現変動遺伝子 は、平均 が増加または減少した遺伝子 同期性揺らぎ遺伝子 は、分布幅 と 同期性 が増加した遺伝子 4
/ 32
本研究の目的 適切な対照群が存在しない場合もある。 サンプル数が少ない データの品質が悪い そこで本研究では、対照群を用いない 同期性揺らぎ遺伝子の抽出 法の開発を目的とした。 本当の経緯 対照群の候補が2つあるデータがあった。 ある先生より、対照群により結果は変わるか、尋ねられた。
試してみたら結構違った。 いっそ対照群なしで、と試してみたら意外とうまくいった。 5 / 32
Outline はじめに 既存の抽出法 提案手法 同期性揺らぎ遺伝子のスコア 人工データによる評価法 実データによる評価法 結果 まとめと考察 6
/ 32
既存の抽出法 第一段階 実験群の中央絶対偏差が対照群の中央絶対偏差の 倍より 大きい遺伝子を選択 閾値 の既定値は 第二段階 残った遺伝子に階層的クラスタリングを適用 類似度:
スピアマンの相関係数 連結法: 平均連結法 分割基準: 類似度に対する閾値 θ θ 2 ϕ = tanh (3/√N − 3) 7 / 32
既存の抽出法、続き 最大クラスタと、その半分より大きいクラスタを出力 ただし、突出した大きなクラスタがいない場合、同程度の大きさ の小規模なクラスタが多く生成され、非常に多くの遺伝子が出力 される問題がある。 今回は以下の制限を追加 最大クラスタ数: 3 最小クラスタサイズ: 10
8 / 32
外れ値に対する脆弱性 外れ値に弱い: 平均、標準偏差、ピアソンの相関係数 外れ値に強い: 中央値、中央絶対偏差、スピアマンの相関係数 9 / 32
二段階に分ける理由 実データの統計量の分布と、真の値が全ての遺伝子で同じと仮定 した場合の分布を比較 相関係数は、揺らぎの大きな遺伝子同士を除き、信頼性が低い。 10 / 32
Outline はじめに 既存の抽出法 提案手法 同期性揺らぎ遺伝子のスコア 人工データによる評価法 実データによる評価法 結果 まとめと考察 11
/ 32
提案手法 既存の二段階法と第一段階のみが異なる。 第一段階 実験群の中央絶対偏差がそれらの中央値の 倍より大きい 遺伝子を選択 (対照群は使わない) θ 12 /
32
Outline はじめに 既存の抽出法 提案手法 同期性揺らぎ遺伝子のスコア 人工データによる評価法 実データによる評価法 結果 まとめと考察 13
/ 32
同期性揺らぎ遺伝子のスコア 集団スコア 同期性揺らぎが最も強かった実験条件の同定などに使う。 標準偏差の平均 ピアソンの相関係数の絶対値の平均 標本共分散行列の最大固有値 個別スコア ノックダウン実験などの候補を絞るのに使う。 各遺伝子の標準偏差 標本共分散行列の支配的固有ベクトルの絶対値
制御理論の観点から最適、井村スコアとも呼ばれる。 14 / 32
Outline はじめに 既存の抽出法 提案手法 同期性揺らぎ遺伝子のスコア 人工データによる評価法 実データによる評価法 結果 まとめと考察 15
/ 32
人工データによる評価法 正解が分かっているデータを用意し、当てられるかを調べる。 の行列を つ用意し、乱数で値を埋める。 片方の 行に 共通ノイズ を加算し、揺らぎを 倍にする。 行毎に一様分布
に従う乱数を掛ける。 10 000⾏ N列 対照群データ 実験群データ 乱数 乱数 500⾏にだけ 共通ノイズを 加算 10 4 × N 2 500 5 [0.1, 1] 16 / 32
Outline はじめに 既存の抽出法 提案手法 同期性揺らぎ遺伝子のスコア 人工データによる評価法 実データによる評価法 結果 まとめと考察 17
/ 32
A B |A∩B| |A∪B| J = 実データによる評価法 てんかんマウスの実験データ (GSE77578) を使用
対照群 (溶媒のみ、 ) 実験群 (薬剤投与 3 mg/kg, ) 再現性の評価手順 1. 全データを使い同期性揺らぎ遺伝子を抽出 2. 実験群から1サンプル除外したとき結果が どれだけ異なるかをJaccard指数で評価し、 最悪ケースを除外 3. 以下同様に繰り返す N = 17 N = 18 18 / 32
実データの前処理 背景ノイズを多く含む平均発現量が7.5未満の遺伝子を除外 バッチ効果と思われるブロックパターンを示す遺伝子を除外 19 / 32
Outline はじめに 既存の抽出法 提案手法 同期性揺らぎ遺伝子のスコア 人工データによる評価法 実データによる評価法 結果 まとめと考察 20
/ 32
人工データの結果 提案手法 (対照群なし) はF1スコアが最大約 低下した。 適合率は対照群ありと同程度、再現率は最大約 低下した。 0.08 0.15 21
/ 32
実データの結果 (再現性) 提案手法は十分高い再現性を示した。 下図では対照群ありの場合より良いが、条件次第で逆転した。 22 / 32
実データの結果 (ヒートマップ) 提案手法の出力遺伝子は実験群で強い同期性揺らぎを示した。 集団スコアは対照群ありで2.5倍、対照群なしで2.1倍増えた。 23 / 32
順位 遺伝子記号 スコア 1 Clic6 0.345 2 Enpp2 0.311 3
1600023A02Rik 0.290 4 Folr1 0.277 5 1500015O10Rik 0.265 6 Kl 0.196 7 Sostdc1 0.190 8 Igf2 0.185 9 Aqp1 0.183 10 Slc13A4 0.180 順位 遺伝子記号 スコア 1 Clic6 0.299 2 Ttr 0.277 3 Enpp2 0.273 4 1600023A02Rik 0.255 5 Kcne2 0.245 6 Folr1 0.242 7 1500015O10Rik 0.235 8 Kl 0.167 9 Sostdc1 0.166 10 Igfbp2 0.165 実データの結果 (個別スコア) 対照群あり (左) となし (右) で上位10個中7個が共通していた。 24 / 32
実データの結果 (平均値の偏り) 対照群なしでは平均値の高い遺伝子がやや選ばれやすかった。 対照群ありでは特に平均値の偏りはほとんど無かった。 25 / 32
実データの結果 (対照群のMAD) 対照群なしでは対照群でMADの高い遺伝子が優先的に選ばれた。 対照群ありでは対照群でMADの低い遺伝子が優先的に選ばれた。 26 / 32
Outline はじめに 既存の抽出法 提案手法 同期性揺らぎ遺伝子のスコア 人工データによる評価法 実データによる評価法 結果 まとめと考察 27
/ 32
まとめと考察 対照群を用いない同期性揺らぎ遺伝子の抽出法を提案した。 提案手法は人工データと実データで実用的な性能を示した。 適切な対照群がない場合、提案手法の使用は妥当と考えられる。 ただし、以下の点に注意 発現量の高い遺伝子がやや選ばれやすい。 条件によらず同期性揺らぎを示す遺伝子も含まれる。 考察 人工データで適合率が下がらなかった理由 常に出てくる遺伝子の除外方法
28 / 32
ご清聴どうもありがとうございました! 29 / 32
エンリッチメント解析の手順 DAVID (https://david.ncifcrf.gov/) を使用 データが古く遺伝子記号のままでは使えなかったため、一旦 Entrez Gene IDに変換してから使用 GO BP
DIRECTを使用 カウント4以上、 の注釈を選択 q < 0.05 30 / 32
エンリッチメント解析 (対照群あり) List size 34, Population size 20136 GO annotation
Count/Pop hits p-value q-value lipid metabolic process 6/728 1.2E-03 1.9E-03 transmembrane transport 5/437 7.8E-04 1.9E-03 31 / 32
エンリッチメント解析 (対照群なし) List size 40, Population size 20136 GO annotation
Count /Pop hits p-value q-value aging 5/191 3.7E-05 1.8E-04 lipid metabolic process 5/728 1.4E-02 3.5E-02 negative regulation of transcription from RNA polymerase II promoter 5/975 4.3E-02 4.3E-02 ion transport 4/599 3.0E-02 4.3E-02 negative regulation of apoptotic process 4/659 4.1E-02 4.3E-02 32 / 32