テキストメディア特論「会社名」の抽出

「会社名」の抽出 @lamrongol

 「～社」などの表現から会社名を判断する方法には限界がある  切れ目の判断が難しい（「・」は切れ目か否か、など）  「オラクル」のように「～社」の形になってないものは社名と判断できない  「東電」などの略称もある
 あらかじめどのような会社名があるか登録しておけばよい

Wikipedia の利用  Wikipediaの特徴  各項目には多くの場合「千葉県の会社」などカテゴリが付与されている  一定の規則に基づいた文書が大量にある 
人手による更新・訂正が行われるので正確性がある程度保証されている  大量の「会社名」データを手に入れることができる (Wikipediaのデータベース・ダンプを利用)

略称の取得  略称と正式名称の関連も取得できる  例）「日立」というリンクから「日立製作所」につながっている場合  「日立」＝「日立製作所」と関連付けられる

Wikipedia以外からの取得  Web上にはWikipedia以外の文書も大量にある  しかし、それらはWikipediaのように「企業」であることが明記されてるわけではない  だが、量は圧倒的に多いのでなんとか活用したい  周りの文章から「会社名」であることを判断できな
いか？  「〇〇は東証一部に上場した～」  「〇〇は1997年に創業した～」

構造化されてない文章からの会社名の取得  まず、Wikipediaなど構造化されているデータを「訓練データ」として用いる  前後の単語から、会社名を判断する確率モデルを作る  構造化されてないデータ（ブログの文章等）に対してこれを適用し、会社名を取り出す
P(会社名|創業）= N(会社名∧創業） N(創業）

関連研究の応用  Support Vector Machineを用いた日本語固有表現抽出[山田 et al]  前後の単語の素性（単語自体だけでなく、品詞の
種類なども含む）ベクトルの集合に対してSVMを行い、学習させる

テキストメディア特論「会社名」の抽出

テキストメディア特論「会社名」の抽出

Lamron

More Decks by Lamron

Other Decks in Research

Featured

Transcript

「会社名」の抽出 @lamrongol

Wikipedia の利用  Wikipediaの特徴  各項目には多くの場合「千葉県の会社」などカテゴリが付与されている  一定の規則に基づいた文書が大量にある 

略称の取得  略称と正式名称の関連も取得できる  例）「日立」というリンクから「日立製作所」につながっている場合  「日立」＝「日立製作所」と関連付けられる

関連研究の応用  Support Vector Machineを用いた日本語固有表現抽出[山田 et al]  前後の単語の素性（単語自体だけでなく、品詞の

テキストメディア特論 「会社名」の抽出

テキストメディア特論 「会社名」の抽出

More Decks by Lamron

Other Decks in Research

Featured

Transcript

テキストメディア特論「会社名」の抽出

テキストメディア特論「会社名」の抽出