Upgrade to Pro — share decks privately, control downloads, hide ads and more …

KH Coderチュートリアル(スライド版)

KH Coderチュートリアル(スライド版)

計量テキスト分析(テキストマイニング)のためのツール「KH Coder」の使用法をご紹介するチュートリアルです。

こちらはスライド版・簡易版です。より詳しくは『社会調査のための計量テキスト分析 第2版』をご参照ください。

また現在は公式入門書が刊行されており、初めての方はこちらから取り組んでいただく方がおすすめです。『動かして学ぶ! はじめてのテキストマイニング』

Avatar for HIGUCHI Koichi

HIGUCHI Koichi

June 24, 2025
Tweet

More Decks by HIGUCHI Koichi

Other Decks in Science

Transcript

  1. ຊνϡʔτϦΞϧͷ಺༰ 2 1. KH Coderの準備 2. プロジェクト作成と前処理 3. 頻出語と共起 4.

    それぞれの部(上・中・下)に特徴的な語 5. コーディングによるコンセプトの抽出
  2. ϓϩδΣΫτ࡞੒ʢ෼ੳ͢ΔϑΝΠϧΛࢦఆʣ 9 ᶃ ϝχϡʔ͔ΒňϓϩδΣΫτʼn ʮ৽نʯΛΫϦοΫ ᶄ ňࢀরʼn ΛΫϦοΫͯ͠ ňtutorial_jpʼnϑ Υ

    ϧ μ ಺ ͷ ňkokoro.xlsʼnʢ&YDFMΞΠί ϯʣΛ։͘ ᶆ ΫϦοΫ ࣍ճ,)$PEFSΛىಈͨ࣌͠͸ʮ৽نʯͰ͸ͳ͘ɺʮϓϩδ ΣΫτʼnʮ։͘ʯΛબ୒ͯ͠ɺطଘͷϓϩδΣΫτΛ։͘ ͜ͷ෦෼ΛʮϝχϡʔʯͱݺͿ ᶅʮςΩετʼn ྻͱň೔ຊޠʼn ͕બ୒͞Ε͍ͯΔ͜ͱΛ֬ೝ
  3. ڧ੍நग़͢Δޠͷࢦఆ 10 ᶃ ϝχϡʔ͔Βʮલॲཧʯʮޠͷऔࣺબ୒ʯΛબ୒ ᶄ ʮҰਓʯʮೋਓʯͱೖྗ ᶅ ΫϦοΫ ॏཁͳݴ༿ͳͷʹɺ ޠͱͯ͠நग़͞Εͳ

    ͍࣌͸ʮڧ੍நग़ʯ ňҰʼnͱňਓʼnʹ ෼ ͔ Ε ͯ͠·͏Α͏ͳŊ෼ׂ ͕ࡉ͔͗͢Δ৔߹ʹ ΋༗ޮ ࡉ͔͗͢Δ෼ׂΛચ ͍ ग़ ͢ ʹ ͸ňલ ॲ ཧʼn ňෳ ߹ ޠ ͷ ݕ ग़ʼnίϚ ϯυ͕ศར
  4. ʮ,8*$ίϯίʔμϯεʯ 14 ෼ੳ݁ՌதͷޠΛΫ ϦοΫ͢Ε͹͜ͷը ໘͕։͘ ਺஋͚ͩͰͳ͘ޠͷ લޙͷจ຺ DPOUFYU ΛݟΔͷ ͕େ੾

    ,8*$,FZ8PSE *O$POUFYU ᶃ μϒϧΫϦοΫͰ͞Βʹ ޿͍ൣғͷจ຺ΛදࣔՄೳ ᶄ ňूܭʼnΛΫϦοΫ͢Δ ͱňίϩέʔγϣϯ౷ܭʼn΁
  5. ʲղઆʳಛ௃ޠ͔ΒΈΔ෺ޠͷྲྀΕ 20 ্Ͱ͸ओਓެͱʮઌੜʯ ͕ަྲྀΛਂΊ͍ͯ͘ɻ͔͠ ͠ʮઌੜʯͷ࿩͸Α͘ʮղ Βʯͳ͍͜ͱ΋ଟ͍ɻ &Y ʮઌੜͷ࿩ͷ͏ͪͰͨͩҰͭఈ·Ͱฉ͖͔ͨͬͨͷ͸ɼਓ͕͍ؒ͟ͱ ͍͏ؒࡍʹɺ୭Ͱ΋ѱਓʹͳΔͱ͍͏ݴ༿ͷҙຯͰ͋ͬͨɻ୯ͳΔݴ༿ͱ ͯ͠͸ɺ͜Ε͚ͩͰ΋ࢲʹղΒͳ͍ࣄ͸ͳ͔ͬͨɻ͔͠͠ʜʯ

    ্ೋ۝ தͰ͸ओਓެ͕࣮Ոʹ໭ Γʮ෕ʯʮ฼ʯͱͷձ࿩ ͕ଟ͘ͳΔɻʮઌੜʯͱ ΋ʮखࢴʯΛ΍ΓͱΓɻ Լ͸ʮઌੜʯ͕ओਓެ ʹૹͬͨ௕͍Ҩॻɻ਌ ༑ʮ,ʯͱʮ͓৖͞Μʯ ͱͷࡾ֯ؔ܎ͳͲΛ௨ ͯ͡ɺ্Ͱ͸ओਓެʹ ΋ಡऀʹ΋ʮղΒʯͳ ͔ͬͨࣄฑ͕໌Β͔ʹɻ
  6. ʲղઆʳňରԠ෼ੳʼnͷݟํ 22 ݪ఺   ᶃ ݪ఺   ෇ۙʹ

    ͸͜Εͱ͍ͬͯಛ௃ ͷͳ͍ޠ͕ू·Δ ᶄ ݪ఺   ͔Βݟͯɺ ʮ্@ઌੜͱࢲʯͷํ޲ ʹ͋Δޠɺͦͯ͠ݪ఺ ͔Β཭Ε͍ͯΔޠ΄Ͳɺ ্ʹಛ௃తʂ ˞ಛ௃ޠͷҰཡ͔ΒಡΈ औΕ্ͨɾதɾԼͷಛ௃ ͱɺ΄΅ಉ͡ಛ௃ΛରԠ ෼ੳ͔Β΋ಡΈऔΕΔɻ ᶅ ಉ༷ʹɺݪ఺   ͔Βݟͯʮத@྆਌ͱ ࢲʯͷํʹ཭Ε͍ͯΔ ޠ΄Ͳɺதʹಛ௃తʂ Լ΋ಉ͡ɻ
  7. 24 ˎਓͷࢮ ࢮ͵ PS ࡴ͢ PS ๢͘ͳΔ 語ではなくコンセプトを数えたい場合もある 例えば「人の死」というコンセプトは、「死ぬ」だけ でなく「殺す」という語でも表現される

    コンセプトを数えるためのコーディングルール ʲղઆʳ ίʔσΟϯάͱ͸ ίʔυʢίϯηϓτʣͷ໊લ ίʔυΛ෇༩͢Δ৚݅ɻʮࢮ͵ʯ ʮࡴ͢ʯʮ๢͘ͳΔʯͷͲΕ͔͕ग़ ݱ͍ͯ͠Δจॻ͸ɺʮˎਓͷࢮʯʹ ݴٴ͍ͯͨ͠ͱݟͳ͞ΕΔɻ νϡʔτϦΞϧͰ࢖༻ ͢ΔʮUIFNFUYUʯ
  8. ίʔσΟϯάϧʔϧʹΑΔݕࡧ 25 ᶃ ϝχϡʔ͔Βʮπʔϧʯʮจॻʯʮจॻݕࡧʯ ᶄ ʮࢀরʯΛΫϦοΫͯ͠ʢtutorial_jp ϑΥϧμ಺ͷʣʮtheme.txtʯΛ։͘ ᶆ μϒϧΫϦοΫ ᶇ

    μϒϧΫϦοΫͰηϧશମΛදࣔ ίʔσΟϯάϧʔϧ࡞੒࣌ʹ͸ɺͲͷΑ͏ͳจॻʹίʔυ ͕෇༩͞Ε͍ͯΔ͔Λݕࡧɾ֬ೝ͢Δ͜ͱ͕େ੾ ᶅ )Λબ୒ &YDFMͷͭͭͷη ϧ Λ ,) $PEFS ͸ ň)ʼn ͱೝࣝɻ)Λ બ୒͢Δͱηϧ୯Ґ ͷݕࡧʹɻ
  9. ʲղઆʳ෦͝ͱͷूܭ͔ΒݟΔ෺ޠͷྲྀΕ 27 ᶃ ԼͰ͸֯ؔ܎ͷ ͍͖͔ͭ͞Β਌༑͕ ࣗࡴɻͦͷͨΊʮ࿀ Ѫ ʯ ʮ ༑

    ৘ ʯ ʮ ৴ ༻ɾෆ৴ʯ͕ଟ͍ɻ ᶄ தͰ͸පؾͰࢮʹṫ͢Δ ʮ෕ʯͷ༷ࢠ͕ඳ͔ΕΔɻ ᶅ தɾԼͷΑ ͏ͳਓ෺ͷࢮ͸ ඳ͔Ε͍ͯͳ͍ ͷ ʹ ɺ ্ Ͱ ΋ ʮਓͷࢮʯ͕Ұ ఆ਺ग़ݱɻ ͳͥʁ ࣍ͷ෼ੳͰ֬ೝʂ
  10. ʲղઆʳʮਓͷࢮʯͷਪҠ͔Β  29 ᶃ ࣗࡴͷ௚લ͚ͩΛݟ Δͱɺʮઌੜʯ͸͔ͳ ΓٸܹʹܾҙΛݻΊͯ ͍ΔΑ͏ʹ΋ݟ͑Δɻ ᶄ ͔͠͠෺ޠશମʹࢹ

    ໺Λ޿͛Δͱɺʮઌੜʯ ͕ࢮ͵͜ͱʹࣥண͍ͯ͠ Δ༷ࢠ͕ɺ্Ͱ΋ৄࡉʹ ඳ͔Ε͍ͯΔɻ &Y ʮʜઌੜͷ࿩͸ɼ༰ қʹࣗ෼ͷࢮͱ͍͏ԕ͍ ໰୊Λ཭Εͳ͔ͬͨɻͦ ͏ͯͦ͠ͷࢮ͸ඞͣԞ͞ ΜͷલʹىΔ΋ͷͱԾఆ ʜ ʯ ্ࡾޒ ্ࡾޒ ্ೋ࢛
  11. ʲղઆʳʮਓͷࢮʯͷਪҠ͔Β  30 ্ࡾޒ ্ೋ࢛ ᶅ ࣗࡴͷཧ༝ͷҰ෦ʹ͸ɺ͓ ۚ΍࿀ʹ੾Ӌ٧·Ε͹୭Ͱ΋ѱ ਓʹͳΔɺਓؒҰൠ΁ͷࣦ๬ &Y

    ʮʜࣗ෼΋͋ͷ॑෕ͱಉ͡ਓؒͩͱҙࣝ ͨ࣌͠ʜɻଞʹѪ૝Λਚ͔ͨ͠ࢲ͸ɺࣗ෼ʹ ΋Ѫ૝Λਚ͔ͯ͠ಈ͚ͳ͘ͳͬͨͷͰ͢ʯ Լޒೋ
  12. ʲղઆʳʮਓͷࢮʯͷਪҠ͔Β  31 ্ࡾޒ ্ೋ࢛ ᶆ ࣗࡴ͕ಥવͰ ෆࣗવͱ͍͏൷൑ ͸ͪΐͬͱᕸੴʹ ରͯ͠ࠅͰ͸ʁ

    ܭྔςΩετ෼ੳ ͷར఺ͱͯ͠ɿ σʔλશମΛݟ ౉͢ࢹ఺͕ಘΒ ΕΔ ໨ͰಡΉ΂͖ಛ ௃తͳ෦෼͸Ͳ ͔͜୳ࡧͰ͖Δ
  13. ʲղઆʳߦͳ͖ͬͯͨ෼ੳͷ·ͱΊ 32 抽出語の分析(段階1) 多く出現していた語: [抽出語リスト]p. 13 共起する語からトピックを探る:[共起ネットワーク]p. 16 部分ごとの特徴を探る: [特徴語リスト]p.

    19 [対応分析]p. 21 語の実際の使われ方を見る: [KWIC]p. 14 コーディング(段階2) ルール作成と検索: [文書検索]p. 24 部分ごとの集計: [クロス集計]p. 26