Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計的学習の基礎 - 4章 / castella-book-chap4
Search
ysekky
May 16, 2017
Research
0
1.3k
統計的学習の基礎 - 4章 / castella-book-chap4
ysekky
May 16, 2017
Tweet
Share
More Decks by ysekky
See All by ysekky
スタートアップの開発サイクルに学ぶ 研究活動の進め方 / research practices inspired by startup business strategy
ysekky
0
1.9k
[論文紹介] A Method to Anonymize Business Metrics to Publishing Implicit Feedback Datasets (Recsys2020) / recsys20-reading-gunosy-datapub
ysekky
3
2.5k
JSAI2020 OS-12 広告とAI オープニング / JSAI2020-OS-12-ads-and-ai-opening
ysekky
0
1.9k
JSAI2020インダストリアルセッション - Gunosyにおける研究開発 / jsai2020-gunosy-rd-examples
ysekky
1
730
ウェブサービス事業者における研究開発インターン[株式会社Gunosy] - テキストアナリティクスシンポジウム2019 / research-intern-case-study-at-gunosy
ysekky
0
2.6k
Gunosyにおけるニュース記事推薦/ news-recommendation-in-gunosy-webdbf2019
ysekky
1
1.4k
DEIM2019技術報告セッション - Gunosyの研究開発 / deim-2019-sponsor-session-gunosy-research
ysekky
0
980
Analysis of Bias in Gathering Information Between User Attributes in News Application (ABCCS 2018)
ysekky
1
2.2k
世代による政治ニュース記事の閲覧傾向の違いの分析 - JSAI2018 / Analysis of differences in viewing behavior of politics news by age
ysekky
0
3.8k
Other Decks in Research
See All in Research
精度を無視しない推薦多様化の評価指標
kuri8ive
1
240
渋谷Well-beingアンケート調査結果
shibuyasmartcityassociation
0
260
熊本から日本の都市交通政策を立て直す~「車1割削減、渋滞半減、公共交通2倍」の実現へ~@公共交通マーケティング研究会リスタートセミナー
trafficbrain
0
140
大規模言語モデルを用いた日本語視覚言語モデルの評価方法とベースラインモデルの提案 【MIRU 2024】
kentosasaki
2
520
メールからの名刺情報抽出におけるLLM活用 / Use of LLM in extracting business card information from e-mails
sansan_randd
2
140
129 2 th
0325
0
240
さんかくのテスト.pdf
sankaku0724
0
340
最近のVisual Odometryと Depth Estimation
sgk
1
270
医療支援AI開発における臨床と情報学の連携を円滑に進めるために
moda0
0
110
Human-Informed Machine Learning Models and Interactions
hiromu1996
2
480
Weekly AI Agents News! 10月号 論文のアーカイブ
masatoto
1
250
The Fellowship of Trust in AI
tomzimmermann
0
130
Featured
See All Featured
Keith and Marios Guide to Fast Websites
keithpitt
409
22k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
16
2.1k
Why You Should Never Use an ORM
jnunemaker
PRO
54
9.1k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
191
16k
The Power of CSS Pseudo Elements
geoffreycrofte
73
5.3k
It's Worth the Effort
3n
183
27k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
131
33k
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
6
410
Agile that works and the tools we love
rasmusluckow
327
21k
A better future with KSS
kneath
238
17k
Embracing the Ebb and Flow
colly
84
4.5k
Transcript
統計的機械学習の基礎 4章 分類のための線形手法 Yoshifumi Seki@Gunosy Inc 第三回 統計的学習のエレメンツ読み会 2017.05.15
4.1 導入 • 線形手法: 線形な決定境界を持つ手法 クラスkを識別する線形モデル クラスlを識別する線形モデル 決定境界 決定境界は以下の点の集合である
事後確率をモデル化する場合 2クラスの場合 決定境界はlog1=0になる点の集合
境界を線形として明示的にモデル化する場合 • パーセプトロン ◦ 訓練データを分離する超平面が存在すれば、それを求めることができる • Vapnik(1996)の方法 ◦ 分離超平面が存在する場合 ▪
二クラスを分類する最適な超平面が得られる ◦ 分離超平面が存在しない場合 ▪ 訓練データの重なりの程度を表す尺度を最小にする超平面が得られる 本章では分離可能な場合のみを扱い 分離不可能な場合については 12章で扱う
4.2 指示行列の線形回帰 • 出力となるカテゴリは指示変数を介して符号化されるとする ◦ K個のクラスにわけられる ◦ G=kならY_k=1をとり、それ以外は0になる ◦ K次元のベクトルYとしてまとめられる
◦ N個の訓練データに対して作った Yをまとめると、N✕Kの行列が得られる。これを指示応答行列 Yと 呼ぶ。 Yの各列に対して線形モデルを当てはめると、予測値は以下のようになる
3.2の復習 P56参照
新しい観測値xに対して • 回帰を条件付き期待値の推定値と考えることができる ◦ 条件付き期待値の近似が線形回帰モデルでどの程度良いのか? ◦ 事後確率の妥当な推定値になっているのか? ◦ 実際にこれが問題になるのか?
マスキング • K≧3のときに回帰に基づく方法を用いると、あるクラスが他のクラスによってマスキ ングされてしまうという問題が生じる
多次元回帰モデルによる分類 • 一般にK個のクラスに分類するためにはK-1次の多項式が必要 ◦ 最悪の場合O(p^(K-1))の項が必要になる
4.3 線形判別分析 • クラス事後確率のモデル化 • 様々な手法でクラス密度が利用されている ◦ 線形及び2次の判別分析ではガウス密度 ◦ 混合ガウス分布を用いると非線形に決定境界が得られる(
6.8節) ◦ クラス密度に対するノンパラメトリック密度推定は適用性が高い (6.6.2項) ◦ ナイーブベイズはノンパラメトリック密度推定の変形であり、クラス密度が周辺密度の積で表される ことを仮定する(6.6.3項)
多変量ガウス分布によるモデル化 • 線形判別分析(liner discriminat analysis: LDA) ◦ 各クラスが共通の分散行列を持つと仮定する 決定境界がxに関して線形である
Liner Discriminant Function
パラメータの推定 • 多くの問題ではガウス分布のパラメータがわからないので、訓練データから推定す る必要がある
2次判別関数(quadratic discriminant function:QDA) • 共分散行列が等しいと仮定しない場合、2次の項が残る ◦ 共分散行列を推定しなくてはならないため、パラメータが増える • LDAとQDAは大きく、多用な分類タスクでうまく動作する ◦
単にデータが線形や 2次のような単純な決定境界を支持している ◦ ガウスモデルを用いた推定値が安定している
4.3.1 正規化判断分析 • フリードマンが提案しているLDAのとQDAの折衷案となる方法 • 今回は割愛 ◦ この後に影響しない ◦ 多分それが精度いいなら、めっちゃ使われてるはずだけど聞かないので
4.3.2 線形判別分析の計算 • 共分散行列を固有値分解により、対角化する
4.3.3 階数低減型線形判別分析 • K-1の次元のアフィン部分空間で表すことができる ◦ LDAは次元を削減することができる ◦ k=3の場合に2次元に可視化しても、必要な情報が捨てられることはない • クラス数がK>3のときに、L<K-1な部分空間H_Lが欲しいかもしれない
◦ フィッシャーが最適性を定義している ◦ 重心の主成分部分空間をみつけることに等しい
• 母音データ • 座標軸の数値が小さいほど重要 • 大きくなるほど、重心がちらばら なくなってくる
フィッシャーさんの強い話 • なんと!!!フィッシャーさんは!!!この分解を!!!ガウス分布を使わない で!!!求めたのです!!!! • 「クラス内分散とクラス間分散の比が最大化されるような線形結合Z=α^TXの探索」 ◦ クラス間分散はα^T B α
▪ クラス重心行列Mの共分散行列: B+W=T ▪ TはXの全分散行列 ◦ クラス内分散はα^T Q α • αはW^-1 Bの固有値
整理
3.4 ロジスティック回帰 • 値域が[0, 1]で総和が1になるようなxの線形関数を用いて、K個のクラス事後確率 をモデル化する
4.4.1 ロジスティック回帰モデルのあてはめ • Xが与えられたもとでのGの条件付き尤度を用い、最尤法によって当てはめる ◦ Pr(G|X)は条件付き分布なので、多項分布を用いるのが適当 2クラス分類でp1=p, p2=1-p, β=(β_10, β_1),
xには定数項が含まれているとする
スコア方程式 • 式4.20の微分を0としたものをスコア方程式という ◦ βに対して非線形なp+1個の方程式
ニュートン=ラフソンアルゴリズム • スコア方程式を解く ◦ 2次微分, もしくはヘッセ行列が必要 • 更新式は以下 • i番目の要素にpを持つベクトルを\vec{p}
• i番目の対角成分にp(1-p)を持つN✕N対角行列 をWとする
反復再重み付け最小二乗法 • ニュートン法の更新ステップはこのようにかける ◦ 更新ステップは重み付き最小二乗法として見ることができる ▪ この場合の応答を修正済み応答とよばれる ◦ 各反復で、重み付き最小二乗問題を解いている ◦
反復再重み付け最小二乗法とよばれる • 収束は保証されないが、多くの場合に収束する • K≧3の場合も可能だが、計算量が多く、 θを直接求めるほうがよい
4.4.2 例: 南アフリカの心臓疾患データ • 15~64歳の白人男性 • 応答変数は心筋梗塞の有無 ◦ 有病率5.1% •
160の症例, 302の対症例 •
• Zスコアの絶対値がおおよそ2より大きいものは5%水準で有意 • 収縮期血圧(sbp), 肥満(obesity)は有意ではない ◦ 予測変数の集合管に相関があるため ◦ 単体ではそれぞれ有意である •
• 最も有意でない係数を取り除き、もう一度当てはめることを取り除くものがなくなる まで繰り返す • よりよい方法は変数を1つ除外してモデルを当てはめるという操作をすべての変数 について行い、逸脱度分析によって取り除く変数を決定すること • Tabaccoについて ◦ 喫煙量が1kg増加すると、exp(0.081)=1.084により、8.4%疾患の確率が増加する
◦ 標準誤差を考慮すれば、 95%の信頼区間でexp(0.081±0.026)=(1.03, 1.14)が得られる
4.4.4 L1正則化付きロジスティック回帰 • 線形回帰モデルでL1罰則を用いることで、変数選択と縮小が可能であった • 凹関数であり、非線形計画法を用いて解を求めることができる ◦ ニュートン法と同様の 2次近似によって、重み付き Lassoアルゴリズムを繰り返し適用することによっ
ても求めることができる • 図はL1正則化の軌跡 • 予測子修正法を用いている
4.4.5 ロジスティック回帰か線形判別分析か • LDAもロジスティック回帰も、両方共線形モデルで表現できる ◦ 線形係数の推定方法が異なる ◦ ロジスティック回帰モデルはほとんどなにも仮定していないので汎用的
同時分布を考える 条件付き確率は以下のようにかける • ロジスティック回帰の場合は、条件付き尤度を最大化して得られる • 周辺密度が完全にノンパラメトリックでかつ制約なしの方法で推定されていると仮定 • 各観測値の密度が1/Nとなる経験的な分布関数で Pr(X)を置き換えることができる
LDAのパラメータにおける同時分布はこのようになる 周辺密度がこのように定義されてしまう これにもパラメータが存在するため、周辺密度 Pr(X)を無視できない ロジスティック回帰は LDAより少ない仮定しか用いないため、より安全でロバストな方策である
4.5 分離超平面 • データをそれぞれのクラスに最大限分離するような線形決定境界を求める手法 ◦ サポートベクタマシンの基礎 • パーセプトロン ◦ 入力特徴量の線形結合を計算して、その符号を返す分類器
◦ ニューラルネットワークモデルの基礎
アフィン集合 • f(x)=β_0+β^T xによって定義されるアフィン 集合 or 超平面
4.5.1 ローゼンブラットの パーセプトロン学習アルゴリズム • 誤分類した点から決定境界までの距離を最小化する ◦ Mは誤分類した点の集合 • 確率的勾配効果法を用いて、区分線形基準の最小化を行う ◦
観測値ごとに1ステップ進む方法であり、誤分類されるたびにパラメータを更新する
ローゼンブラットのアルゴリズムにおける問題 • 初期値への依存が大きい ◦ 追加の制約を加えることで解決可能 • データが分離可能な場合は分離超平面に収束するが、そのステップ数が多くなる 可能性がある • 分離不可能な場合は収束せず、それを検知するのは難しい
◦ 基底関数変換において、超平面を求めれば回避できる ◦ 完全な分離が得られるとは限らない ◦
4.5.2 最適分離超平面 • あるクラスからもう一方のクラスの最近傍点までの距離を最大化することで2つのク ラスを分離する方法である ◦ 唯一の解を与える ◦ よい分類性能が得られる