Upgrade to Pro — share decks privately, control downloads, hide ads and more …

日本語・韓国語オノマトペにおける意味的・音韻的類似ペア抽出のための言語埋め込みを用いた分析

 日本語・韓国語オノマトペにおける意味的・音韻的類似ペア抽出のための言語埋め込みを用いた分析

Avatar for Shunnosuke Motomura

Shunnosuke Motomura

May 29, 2025
Tweet

More Decks by Shunnosuke Motomura

Other Decks in Research

Transcript

  1. [背景] ⽇本語・韓国語におけるオノマトペ 両⾔語ともオノマトペ(擬⾳語・擬態語等)を多く持つ • 学習者にとって習得の難しさ • 各⾔語の⾳象徴についての分析・解明は重要な問題 • ⾳象徴:語の⾳と意味の間にある関連性 ⇒⾳と意味の2つの⽅向からの分析が不可⽋

    • 研究者の各⾔語の知識や主観的な判断に影響 ⇒データ駆動的な⼿法の検討が待たれる [⽂慶 14] ⽂慶喆:⽇本語と韓国語における擬態語・擬⾳語について (2014) [Ramachandran & Hubbard 01] Ramachandran, Vilayanur S., and Edward M. Hubbard. "Synaesthesia--a window into perception, thought and language." (2001) 2 !‍ 1000~4500語 #‍ 3000~8000語 [⽂慶 14] ブーバ キキ [Ramachandran & Hubbard 01]
  2. [補⾜] ハングルの構造 字⺟という単位を初声、中声、終声として組み合わせて1⽂字(≒1⾳節) • ⺟⾳(V): ㅏ, ㅑ, ㅓ, ㅕ, ㅗ,

    ㅛ, ㅜ, ㅠ, ㅡ, ㅣ, (⼆重) ㅐ, ㅔ, ㅘ, ㅙ, ㅚ, ㅝ, ㅞ, ㅟ, ㅢ, ㅒ, ㅖ • ⼦⾳(C): ㄱ, ㄷ, ㅂ, ㅈ, ㅅ, ㄴ, ㄹ, ㅁ, ㅎ, ㄲ, ㄸ, ㅃ, ㅉ, ㅆ, ㅋ, ㅌ, ㅍ, ㅊ (ㅇ: 初声では⼦⾳無し) (C)Vパターン (C)VCパターン 4 © Kansei AI Co.,Ltd. 고 가 과 관 간 곤 긁 [ko] [ka] [kwa] 와 [wa] [kan] [kon] [kwan] [kɯk] ⇒オノマトペ抽出に 形態情報を利⽤
  3. [準備] オノマトペの収集 !‍ ⽇本語:約870語 NINJAL-LWP for BCCWJのオノマトペ検索機能を利⽤して収集 • CVN-CVN型 (eg.

    ガンガン [gan-gan]) • CVCV-CVCV型 (eg. ガタガタ [gata-gata]) #‍ 韓国語:約5000語 韓国国⽴国語院の標準国語⼤辞典編纂⽤擬声擬態語⽬録から収集 • CV-CVC型 (eg. 부엉 [bue-ong]) • CVC-CVC型 (eg. 털컥 [teol-keok]) • CV-CVC-CV-CVC型 (eg. 꼬박꼬박 [kko-bak-kko-bak]) • CVC-CVC-CVC-CVC型 (eg. 꿀꺽꿀꺽 [kkul-kkeok-kkul-kkeok]) 対訳ペア:(約10000組) 2冊の書籍*と辞書サイトKpedia(副詞)から収集 *『絵でわかる韓国語のオノマトペ 表現が広がる擬声語・擬態語』『⾳で覚える韓国語の擬声語・擬態語』 5 ⇒畳語型 ⇒畳語型
  4. [実験1: 意味的類似度の分析] 設定 仮説 対訳単語ペアの類似度>ランダムペアの類似度 ⇒よりその傾向が強い埋め込みモデルが良い ⼿順 2つのコサイン類似度分布を⽐較 *1 https://huggingface.co/intfloat/multilingual-e5-large,

    *2 https://huggingface.co/google-bert/bert-base-multilingual-cased [Grave 18] Grave, E., et al: Learning Word Vectors for 157 Languages (2018) [Smith 17] Smith, S. L., et al: Offline bilingual word vectors, orthogonal transformations and the inverted softmax (2017) [Conneau 17] Conneau, A., et al: Word Translation Without Parallel Data (2017) 7 本発表での呼称 埋め込みモデル 多⾔語拡張 fastText_LIN fastText [Grave 18] 特異値分解 [Smith 17] fastText_MUSE 敵対的学習 [Conneau 17] e5 Multilingual-E5-large *1 - mbert BERT multilingual base model (cased) *2 - 対象単語リスト !‍ 1240語 (平+⽚仮名) #‍ 1224語 対訳ペア 1066組
  5. 結果 • fastText+敵対的学習の多⾔語対応モデルが最良 議論 • e5/mbert:ほとんどのオノマトペがサブワード分割される問題 e5: ふわふわ⇒['▁', 'ふ', 'わ',

    'ふ', ʻわʼ] • ランダムペアの類似度の平均がゼロより⼤きい問題 [実験1: 意味的類似度の分析] 結果・議論 埋め込みモデル t値 Cohenのd fastText_LIN 20.7** 0.897 fastText_MUSE 24.0** 1.04 e5 5.03** 0.218 mbert 1.50 0.0065 8 © Kansei AI Co.,Ltd. (対応なし⽚側t検定,**: p値<.01)
  6. [実験2: ⾳韻的類似度の分析] 設定 ⽬的 ⽇韓単語の発⾳がどの程度似て聞こえるのかをモデル化する 評価⽤データ [松島 15] • 単語リスト

    : 2字漢字単語 435語(⽇本語) • 評価者 :⽇本語未習の韓国語話者23名 • 評価内容 :⽇本語発⾳⾳声とハングル表記との⾳韻的類似性 • 評定値 :7段階評価の平均値 ⼿順 1. 提案する類似度算出⼿法で、単語リストの両⾔語の類似度を予測 2. 予測した類似度と評定値との相関係数を調べる [松島 15] 松島弘枝:⽇本語 2 字漢字単語における韓国語漢字との形態・⾳韻類似性調査 (2015) 10 無料 무료
  7. [実験2: ⾳韻的類似度の分析] ⼿法 以下の⼿法で得られた⽂字/ベクトル列の正規化編集距離を測る • ⼿法1:ローマ字表記(!‍ 独⾃変換込み) !‍ ⽂化観光部 2000

    年式ベース / #‍ ヘボン式 • 1) ⽇本語にない⺟⾳の統⼀(eg. eu→u) • 2) 終声のㅇ(イウン:軟⼝蓋⿐⾳)の表記をng→n に変更 eg.) 킁킁 : keungkeung → 1) kungkung → 2) kunkun • ⼿法2:国際⾳声字⺟(IPA)表記を⾳韻特徴量ベクトル*に変換 #‍クンクン→ kʰɯŋkʰɯŋ → [[+1, -1, 0, ...], ...] !‍킁킁 → kɯŋkɯɴ → [[+1, -1, 0, ...], ...] *弁別的素性(12種類、{-, 0, +})を-1, -, +1に変換 11
  8. [実験3: 意味的・⾳韻的類似度の組み合わせ] 結果・議論 意味順位\⾳韻最⼤距離 0.1 0.2 0.3 0.4 @10 2

    2 2 4 @20 3 3 2 4 @50 7 4 3 9 @100 7 8 5 14 @200 7 9 10 18 15 © Kansei AI Co.,Ltd. 対訳ペアにある例(@200\0.2のとき) • トボトボ /とぼとぼ-터벅터벅 [teobeokteobeok] • ポンポン/ぽんぽん-펑펑 [peongpeong] • パンパン/ぱんぱん-팡팡 [pangpang] • どんどん/ドンドン-동동 [dongdong] • クンクン-킁킁 [keungkeung] 条件に該当する対訳ペア単語数 対訳ペアにはないが意味が似ている例 • オンオン-엉엉 [eongeong] • ボンボン-봉봉 [bongbong] • ブンブン-붕붕 [bungbung] • コンコン-콩콩 [kongkong] • ポンポン-뻥뻥 [ppeongppeong] • ちゃかちゃか-척척 [cheokcheok] • むくむく-뭉클뭉클 [mungkeulmungkeul] • プルプル-푸들푸들 [pudeulpudeul] • パサパサ-바삭바삭 [basakbasak] 議論 類似ペア探索に寄与する 可能性が⽰された