n 構文解析 :係り受けなどの構文を解析する n 文章要約 :長い文章から重要そうなものを取り出す n 機械翻訳 :ある文章を他言語等に自動翻訳する n 情報検索 :情報を検索する… n 質問応答 :質問文に対応する答えを検索等して返す n 文章生成 :任意の単語等に関連する文章を生成する n 音声認識 :発話内容を文字に書き起こす などなど… 4
おなじ「核」だが,座標値は一つで良いか? u 同じ語でも文脈に応じて,座標(意味)が異なるはず n 同じ単語でも,文脈によって異なる座標 u 文脈(コンテキスト)も考慮した,頭の良い表現に 20 具体的な手法は,Word2Vec や fastText 具体的な手法は,GloVe や BERT 将来補足
1,000 なら 1,000^2 の規模,10,000 だったら… n 分散表現を活用するとこの問題も対処できる u そもそも,似たものは空間上で近くにある p 類似度計算なしに,クラスタリング手法が適用可能 u 類似度計算をショートカットもできる p 高次元ベクトル近傍探索 という技術との組み合わせ • あらかじめ,空間的に近くにありそうなものを探す技術 p 100件なら100件全部見ずに,近くの数件と比較でOK 22
u 政治のニュース記事では政治用語が多用される u 野球ニュースで急に政治関連の単語が出てくることは少ない u ひとつのニュース記事で野球と政治の両方を記述することは少ない n 似た単語が出てくる文章 = おそらく同じトピックを扱っている n 同じトピックっぽい章に出てくる単語 = そのトピックに関連するっぽい単語 25 代表的ツール;LDA (Latent Dirichlet Allocation)