$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
共起の強さを測るJaccard係数とは
Search
HIGUCHI Koichi
May 03, 2024
0
1.2k
共起の強さを測るJaccard係数とは
HIGUCHI Koichi
May 03, 2024
Tweet
Share
More Decks by HIGUCHI Koichi
See All by HIGUCHI Koichi
KH Coderチュートリアル(スライド版)
koichih
1
55k
共起ネットワークの位置調整(KH Coder)
koichih
0
28k
KH Coder Tutorial
koichih
0
34k
Featured
See All Featured
How To Stay Up To Date on Web Technology
chriscoyier
791
250k
Ethics towards AI in product and experience design
skipperchong
1
140
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
57
37k
Visual Storytelling: How to be a Superhuman Communicator
reverentgeek
2
390
Typedesign – Prime Four
hannesfritz
42
2.9k
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
0
26
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
0
2.2k
KATA
mclloyd
PRO
33
15k
Building an army of robots
kneath
306
46k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Information Architects: The Missing Link in Design Systems
soysaucechin
0
710
Transcript
Jaccard係数の計算式(1) KH CoderではJaccard係数を多用しています。たと えば語Aと語Bの共起の程度をJaccard係数で測る計 算式は以下のようになります。 「語Aを含み」なおかつ「語Bを含む」文書の数 「語Aを含む」か「語Bを含む」か1方でも当てはまる文書の数 図解にするとより分かりやすく→
語Aを含む文書 語Bを含む文書
(a) 「語Aを含み」なおかつ「語Bを含む」文書 語Aを含む文書 語Bを含む文書
(b) 「語Aを含む」か「語Bを含む」か1方でも当てはまる文書 (a) 「語Aを含み」なおかつ「語Bを含む」文書 語Aを含む文書 語Bを含む文書
(b) 「語Aを含む」か「語Bを含む」か1方でも当てはまる文書 (a) 「語Aを含み」なおかつ「語Bを含む」文書 語Aを含む文書 語Bを含む文書 (b)の中での(a)の割合 = (a)÷(b) がJaccard係数!
もし単純に数をかぞえると? 語Cを含む文書 • 単純に共起する数をかぞえると、語Aの有無に関係 なくどこにでも多く出現する語Cが上位に。 • Jaccard係数では割合を見るので、語Cは下位になり、 語Aがある時に特によく出てくる共起語が上位に 語Aを含む文書
それでも、ある程度は数も必要 語Dを含む文書 • 語Dはほぼすべて語Aと共起しているが、数が少ない ので「語Aが出てくるときには語Dもよく出てくる」 とは言えない • Jaccard係数では割合を見るので語Dも下位に → 語CやDを取り除きつつ共起語を探すのがJaccard係数
語Aを含む文書
どちらも含まない文書は無視 • 一部の係数は、(c) 語Aも語Bも含まない文書がたく さんあると、語Aと語Bの類似度が高いと見なす • 計量テキスト分析では、(c)の文書は常に大量に存在 するので、(c)を無視するJaccard係数を採用 語Aを含む文書 語Bを含む文書
すべての文書 (c) 語Aも語Bも含まない文書
ところで「文書」ってなに? • 設定を変えなければ(デフォルトでは) – Excel・CSVデータの場合は、1つのセルが1つの「文書」 – テキストデータの場合は、1つの段落(改行で区切れられ た部分)が1つの「文書」 • 分析時に「集計単位」の設定を「文」に変更すれば、
1つの文を1つの「文書」と見なせる • KH CoderではH1からH5による見出しを加えることで、 節・章・部など様々な単位での分析が可能