Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
テキストメディア特論 「会社名」の抽出
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Lamron
October 01, 2023
Research
130
0
Share
テキストメディア特論 「会社名」の抽出
Lamron
October 01, 2023
More Decks by Lamron
See All by Lamron
テキストメディア特論 類似した「名前」の同一性の判定
lamrongol
0
89
Blueskyでは何が話し合われているか。「情報技術は民主主義を生み、今は殺そうとしている」
lamrongol
0
7.6k
要約: Formal Approaches in Categorization: Chapter.5 Semantics without categorization
lamrongol
0
4.5k
Blueskyの「今」がわかる!Bot
lamrongol
0
1.9k
Other Decks in Research
See All in Research
2026.01ウェビナー資料
elith
0
380
Harness Engineering and Al Agent
kzinmr
3
1.6k
「行ける・行けない表」による地域公共交通の性能評価
bansousha
0
160
[チュートリアル] 電波マップ構築入門 :研究動向と課題設定の勘所
k_sato
0
460
正規分布と最適化について
koide3
1
230
AGI4OPT:自然言語から数理最適化を導くエ ージェントスキル Translating Human Intent into Mathematical Optimization
mickey_kubo
0
130
東京大学工学部計数工学科、計数工学特別講義の説明資料
kikuzo
0
450
AIエージェント時代のLLM-jpモデルのあるべき姿
k141303
0
430
ローテーション別のサイドアウト戦略 ~なぜあのローテは回らないのか?~
vball_panda
0
340
第12回人と環境にやさしい交通をめざす全国大会/熊本都市圏「車1割削減、渋滞半減、公共交通2倍」をめざして
trafficbrain
0
110
ブレグマン距離最小化に基づくリース表現量推定:バイアス除去学習の統一理論
masakat0
0
270
Sequences of Logits Reveal the Low Rank Structure of Language Models
sansantech
PRO
1
260
Featured
See All Featured
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.9k
Documentation Writing (for coders)
carmenintech
77
5.4k
Exploring the relationship between traditional SERPs and Gen AI search
raygrieselhuber
PRO
2
4k
The Cost Of JavaScript in 2023
addyosmani
55
10k
Designing Experiences People Love
moore
143
24k
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
350
Color Theory Basics | Prateek | Gurzu
gurzu
0
320
KATA
mclloyd
PRO
35
15k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
122
22k
Side Projects
sachag
455
43k
For a Future-Friendly Web
brad_frost
183
10k
New Earth Scene 8
popppiees
3
2.3k
Transcript
「会社名」の抽出 @lamrongol
「~社」などの表現から会社名を判断する方法には限界 がある 切れ目の判断が難しい(「・」は切れ目か否か、など) 「オラクル」のように「~社」の形になってないものは社名と判 断できない 「東電」などの略称もある
あらかじめどのような会社名があるか登録しておけばよ い
Wikipedia の利用 Wikipediaの特徴 各項目には多くの場合「千葉県の会社」などカテゴリが 付与されている 一定の規則に基づいた文書が大量にある
人手による更新・訂正が行われるので正確性がある程 度保証されている 大量の「会社名」データを手に入れることができる (Wikipediaのデータベース・ダンプを利用)
略称の取得 略称と正式名称の関連も取得できる 例)「日立」というリンクから「日立製作所」につな がっている場合 「日立」=「日立製作所」と関連付けられる
Wikipedia以外からの取得 Web上にはWikipedia以外の文書も大量にある しかし、それらはWikipediaのように「企業」であることが 明記されてるわけではない だが、量は圧倒的に多いのでなんとか活用したい 周りの文章から「会社名」であることを判断できな
いか? 「〇〇は東証一部に上場した~」 「〇〇は1997年に創業した~」
構造化されてない文章からの会社名の取得 まず、Wikipediaなど構造化されているデータを「訓 練データ」として用いる 前後の単語から、会社名を判断する確率モデルを作 る 構造化されてないデータ(ブログの文章等)に対して これを適用し、会社名を取り出す
P(会社名|創業)= N(会社名∧創業) N(創業)
関連研究の応用 Support Vector Machineを用いた日本語固有表 現抽出[山田 et al] 前後の単語の素性(単語自体だけでなく、品詞の
種類なども含む)ベクトルの集合に対してSVMを行 い、学習させる