「会社名」の抽出@lamrongol
View Slide
「~社」などの表現から会社名を判断する方法には限界がある切れ目の判断が難しい(「・」は切れ目か否か、など)「オラクル」のように「~社」の形になってないものは社名と判断できない「東電」などの略称もあるあらかじめどのような会社名があるか登録しておけばよい
Wikipedia の利用Wikipediaの特徴各項目には多くの場合「千葉県の会社」などカテゴリが付与されている一定の規則に基づいた文書が大量にある人手による更新・訂正が行われるので正確性がある程度保証されている大量の「会社名」データを手に入れることができる(Wikipediaのデータベース・ダンプを利用)
略称の取得略称と正式名称の関連も取得できる例)「日立」というリンクから「日立製作所」につながっている場合「日立」=「日立製作所」と関連付けられる
Wikipedia以外からの取得Web上にはWikipedia以外の文書も大量にあるしかし、それらはWikipediaのように「企業」であることが明記されてるわけではないだが、量は圧倒的に多いのでなんとか活用したい周りの文章から「会社名」であることを判断できないか?「〇〇は東証一部に上場した~」「〇〇は1997年に創業した~」
構造化されてない文章からの会社名の取得まず、Wikipediaなど構造化されているデータを「訓練データ」として用いる前後の単語から、会社名を判断する確率モデルを作る構造化されてないデータ(ブログの文章等)に対してこれを適用し、会社名を取り出すP(会社名|創業)=N(会社名∧創業)N(創業)
関連研究の応用Support Vector Machineを用いた日本語固有表現抽出[山田 et al]前後の単語の素性(単語自体だけでなく、品詞の種類なども含む)ベクトルの集合に対してSVMを行い、学習させる