Upgrade to Pro — share decks privately, control downloads, hide ads and more …

単語埋め込みを用いた日本語オノマトペにおける有声・無声子音の対立による音象徴の分析

 単語埋め込みを用いた日本語オノマトペにおける有声・無声子音の対立による音象徴の分析

Shunnosuke Motomura

June 03, 2024
Tweet

Other Decks in Research

Transcript

  1. [先⾏研究] ⽇本語オノマトペの有声・無声⼦⾳の対⽴ 語頭における/b, g, d, z/などの阻害⾳の有声⼦⾳(例:ギラギラ)と /p, k, t, s/などの無声⼦⾳(例:キラキラ)の対⽴関係がアンケートや実験

    を元に知られている。 有声-無声 重い-軽い ⼤きい-⼩さい 粗い-細かい 暗い-明るい 強い-弱い ⼒強い-繊細 かたい-やわらかい 乱れた調⼦-同じ調⼦ 男性的-⼥性的 悪い-良い インフォーマル-フォーマル うるさい-静か 鈍い-鋭い 汚い-美しい 濁った-澄んだ [浜野 14] ⽇本語のオノマトペ: ⾳象徴と構造 [篠原 13a] オノマトペ研究の射程: 近づく⾳と意味 [針⽣ 07] 有声⾳と無声⾳を⼤⼩に対応づける感覚の起源 擬⾳語理解の⽇中⽐較 [⾬宮 06] ⽇本語オノマトペの基本感情次元と⽇本語⾳感素の基本レベルについて [Pantcheva 06] ⽇本語の擬声語・擬態語における形態と意味の相関についての研究 [平⽥ 13] バッと動かし, ギュッと押す!˜ 有声⼦⾳・無声⼦⾳と動作強度および⼤きさとの刺激反応適合性 [Iwasaki 07] What do English speakers know about gera-gera and yota-yota?: A cross-linguistic investigation of mimetic words for laughing and walking 5
  2. [先⾏研究] 埋め込み空間の意味表現獲得 6 © Kansei AI Co.,Ltd. 埋め込み 対象の語彙 意味的対⽴関係

    ⽅法 GloVe [Grand 22] 動物(bird, dog, monkey)や天候 (breeze, cloud, wind)など ⼤きさ(large, small) や気温(hot, cold) など ⼈間の主観評価との ⼀貫性を確認 FastText, BERT [Nagatomo 21] ⽇本語の触覚を表す オノマトペ 硬さやなめらかさを 表す単語 ⼈間の主観評価との ⼀貫性を確認 GloVe [Caliskan 17] 職業(executive, management)や家庭 (home, parents)など 性別のバイアス(男 性名と⼥性名)など バイアスを定量的に 評価 [Grand 22] Semantic projection recovers rich human knowledge of multiple object features from word embeddings [Nagatomo 21] Unsupervised learning enables extraction of tactile information from text database [Caliskan 17] Semantics derived automatically from language corpora contain human-like biases
  3. [実験] 使⽤したオノマトペ 対象オノマトペリスト NINJAL-LWP for BCCWJのオノマトペ検索機能を利⽤して作成 オノマトペの形態 「キラキラ」のようなCVCV-CVCV型(C は⼦⾳、V は⺟⾳)に限定

    ⽂字種 ひらがな・カタカナ ⇒合計692個×2の1384個のオノマトペ さらに、有声⼦⾳と無声⼦⾳の対⽴関係が成⽴している対 (例:ギラギラ-キラキラ)で絞り込む⇒544個のオノマトペ 7 © Kansei AI Co.,Ltd.
  4. 本稿での呼称 ⼿法 次元数 提供元 wikientvec_300d skip-gram 300 東北⼤学 wikientvec_100d skip-gram

    100 東北⼤学 shiroyagi - 50 ⽩ヤギコーポレーション chive skip-gram 300 ワークスアプリケーショ ンズ・国語研 fasttext fastText 300 Meta Research wikipedia2vec skip-gram 300 Studio Ousia asahi_skipgram skip-gram 300 朝⽇新聞社・レトリバ asahi_cbow CBOW 300 朝⽇新聞社・レトリバ asahi_glove GloVe 300 朝⽇新聞社・レトリバ hotto_sns CBOW 200 ホットリンク hotto_wiki CBOW 100 ホットリンク [実験] 学習済み単語埋め込みモデル 8 © Kansei AI Co.,Ltd. ≒500 *fastText, GloVe以外はWord2Vec ≒50 対象オノマトペ 語彙数
  5. [リサーチクエスチョンと⽅法] 実験1 >実験1 • リサーチクエスチョン 単語埋め込みが有声・無声⼦⾳の⾳象徴性の差異の情報を 有しているのかどうか • ⽅法 単語埋め込みベクトルによって、有声・無声⼦⾳の分類が

    可能であるかを検証 実験2 • リサーチクエスチョン 実験1において単語埋め込みが有声・無声⼦⾳の⾳象徴性の差異の 情報を有している場合、それはどのようなものなのか • ⽅法 形容詞対の単語埋め込みとの⽐較による分析 9 © Kansei AI Co.,Ltd.
  6. [実験1] 設定 分類対象 各単語埋め込みモデルごとに、単語ベクトルを特徴量にして オノマトペが有声⼦⾳か無声⼦⾳かを予測 精度検証 オノマトペ1語をテストにする leave-one-out交差検証を⾏い、 その検証数のうち分類に正解した数を分類精度とした 分類器

    線形判別分析 (LDA), ロジスティック回帰 (Logistic), 線形回帰 (Linear), リッジ回帰 (Ridge) の4つ 10 サクサク ザクザク ピカピカ ビカビカ キラキラ ... ギラギラ テスト 訓練 © Kansei AI Co.,Ltd.
  7. 埋め込みモデル LDA Logistic Linear Ridge wikientvec_300d .591** .682** .591** .625**

    wikientvec_100d .634** .701** .634** .649** shiroyagi .360 .460 .600 .480 chive .641** .746** .537 .743** fasttext .589** .829** .589** .841** wikipedia2vec .656** .715** .573 .671** asahi_skipgram .518 .688** .518 .638** asahi_cbow .540 .707** .540 .575** asahi_glove .528 .641** .528 .616** hotto_sns .774** .793** .774** .783** hotto_wiki .688** .675** .688** .720** [実験1] 結果 11 (⼆項検定による統計検定, **: p < .01) l 最良で0.64~0.84の精度 で分類された l [shiroyagi]では有意な 分類がされなかった © Kansei AI Co.,Ltd.
  8. 埋め込みモデル LDA Logistic Linear Ridge wikientvec_300d .591** .682** .591** .625**

    wikientvec_100d .634** .701** .634** .649** shiroyagi .360 .460 .600 .480 chive .641** .746** .537 .743** fasttext .589** .829** .589** .841** wikipedia2vec .656** .715** .573 .671** asahi_skipgram .518 .688** .518 .638** asahi_cbow .540 .707** .540 .575** asahi_glove .528 .641** .528 .616** hotto_sns .774** .793** .774** .783** hotto_wiki .688** .675** .688** .720** [実験1] 議論 12 (⼆項検定による統計検定, **: p < .01) l 最良で0.64~0.84の精度 で分類された ⇒ 有声・無声の⾳象徴性が 反映された次元が 存在している可能性 l [shiroyagi]では有意な 分類がされなかった ⇒ 語彙数が50程度と 少量だったから? © Kansei AI Co.,Ltd.
  9. [リサーチクエスチョンと⽅法] 実験2 実験1 • リサーチクエスチョン 単語埋め込みが有声・無声⼦⾳の⾳象徴性の差異の情報を 有しているのかどうか • ⽅法 単語埋め込みベクトルによって、有声・無声⼦⾳の分類が

    可能であるかを検証 >実験2 • リサーチクエスチョン 実験1において単語埋め込みが有声・無声⼦⾳の⾳象徴性の差異の 情報を有している場合、それはどのようなものなのか • ⽅法 形容詞対の単語埋め込みとの⽐較による分析 13 © Kansei AI Co.,Ltd.
  10. [実験2] 設定 ⽐較対象 SD(Semantic Differential)法でよく使⽤される形容詞対尺度を37 対 「明るい-暗い」「⼤きい-⼩さい」「軽い-重い」 etc. [井上 85]

    ⽇本における SD 法による 研究分野とその形容詞対尺度構成の概観 分析⼿法 単語埋め込みが持つバイアスを評価する⼿法として考案された Word Embedding Association Test (WEAT)を利⽤した [Caliskan 17] Semantics derived automatically from language corpora contain human-like biases 例: 無声⼦⾳オノマトペ(サクサク、キラキラ)と 有声⼦⾳オノマトペ(ザクザク、ギラギラ)に対して 「軽い-重い」という観点でバイアスが存在しているのか 14 © Kansei AI Co.,Ltd.
  11. [実験2] Word Embedding Association Test (WEAT) 15 例 ! =

    サクサク, キラキラ, … % = ザクザク, ギラギラ, … A = 軽い B = 重い ( サクサク, 軽い , 重い = )*+,-∈/ cos サクサク, 軽い − )*+,4∈5 cos(サクサク, 重い) ( ザクザク, 軽い , 重い = )*+,-∈/ cos ザクザク, 軽い − )*+,4∈5 cos(ザクザク, 重い) ⼤ ⼤ ⼩ ⼩ ⇒正の値 ⇒負の値 89:; !, %, :, < = = >∈? ((サクサク, 軽い , 重い ) − = @∈A ( ザクザク, 軽い , 重い ⇒正の値 89:; !, %, :, < = = >∈? ((B, :, <) − = @∈A ( C, :, < ( D, :, < = )*+,-∈/ cos D, ⃗ + − )*+,4∈5 cos(D, F) 無声オノマトペが軽い、有声オノマトペが重い場合、WEAT値は正の値
  12. [実験2] 結果 16 © Kansei AI Co.,Ltd. l 埋め込みモデルを 通して⼤⼩関係が⼀致

    [縦] 形容詞対 [横] 埋め込みモデル (permutation test, ∗ : p < .05, ∗∗ : p < .01)
  13. [実験2] 議論 17 © Kansei AI Co.,Ltd. この図⽰では左の形容詞と無声オノマトペ、右の形容詞と有声オノマトペ の関連が強いほど正の⽅向に値が⼤きくなる 「楽しい-苦しい」「優しい-怖い」「穏やか-激しい」「明るい-暗い」...

    ⇒主観評価の先⾏研究と⼀致 「鋭い-鈍い」「強い-弱い」などは強い⼀貫した対⽴関係が⾒られなかった ⇒より細かい分析(例:複数の類義語を含めた WEAT値)や原因究明要
  14. まとめ ⽬的 ⽇本語オノマトペの語頭の有性⼦⾳・無声⼦⾳の対⽴を対象とした 単語埋め込みの分析 結果 • 実験1:⼦⾳の対⽴関係を分離できる情報が単語埋め込み空間に存在 • 実験2:それが特定の形容詞対の対⽴関係と⼀致している可能性 展望

    ⾝体性との関連を中⼼に、コーパス分析によるオノマトペ研究をより 参照しながら、分析を深めていきたい • 『清⾳・濁⾳は、動作の軽微性、抽象的な変化』 廉沢奇. "「⽇本語⽇常会話コーパス」 に⾒る ABAB 型基本オノマトペの⾳韻パタン: ⽇本語教育の視点ら." 18 © Kansei AI Co.,Ltd.