Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
テキストメディア特論 「会社名」の抽出
Search
Lamron
October 01, 2023
Research
0
110
テキストメディア特論 「会社名」の抽出
Lamron
October 01, 2023
Tweet
Share
More Decks by Lamron
See All by Lamron
テキストメディア特論 類似した「名前」の同一性の判定
lamrongol
0
76
Blueskyでは何が話し合われているか。「情報技術は民主主義を生み、今は殺そうとしている」
lamrongol
0
7.1k
要約: Formal Approaches in Categorization: Chapter.5 Semantics without categorization
lamrongol
0
3.3k
Blueskyの「今」がわかる!Bot
lamrongol
0
1.8k
Other Decks in Research
See All in Research
Integrating Static Optimization and Dynamic Nature in JavaScript (GPCE 2025)
tadd
0
110
Unsupervised Domain Adaptation Architecture Search with Self-Training for Land Cover Mapping
satai
3
240
Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation
satai
3
270
Submeter-level land cover mapping of Japan
satai
3
450
AIスパコン「さくらONE」のLLM学習ベンチマークによる性能評価 / SAKURAONE LLM Training Benchmarking
yuukit
2
760
問いを起点に、社会と共鳴する知を育む場へ
matsumoto_r
PRO
0
670
説明可能な機械学習と数理最適化
kelicht
0
270
令和最新技術で伝統掲示板を再構築: HonoX で作る型安全なスレッドフロート型掲示板 / かろっく@calloc134 - Hono Conference 2025
calloc134
0
380
不確実性下における目的と手段の統合的探索に向けた連続腕バンディットの応用 / iot70_gp_rff_mab
monochromegane
2
200
日本語新聞記事を用いた大規模言語モデルの暗記定量化 / LLMC2025
upura
0
280
情報技術の社会実装に向けた応用と課題:ニュースメディアの事例から / appmech-jsce 2025
upura
0
240
心理言語学の視点から再考する言語モデルの学習過程
chemical_tree
2
650
Featured
See All Featured
Facilitating Awesome Meetings
lara
57
6.6k
Keith and Marios Guide to Fast Websites
keithpitt
411
23k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
Optimizing for Happiness
mojombo
379
70k
Visualization
eitanlees
150
16k
[RailsConf 2023] Rails as a piece of cake
palkan
57
5.9k
Speed Design
sergeychernyshev
32
1.2k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
285
14k
Gamification - CAS2011
davidbonilla
81
5.5k
Code Review Best Practice
trishagee
72
19k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
2.9k
How To Stay Up To Date on Web Technology
chriscoyier
791
250k
Transcript
「会社名」の抽出 @lamrongol
 「~社」などの表現から会社名を判断する方法には限界 がある  切れ目の判断が難しい(「・」は切れ目か否か、など)  「オラクル」のように「~社」の形になってないものは社名と判 断できない  「東電」などの略称もある
 あらかじめどのような会社名があるか登録しておけばよ い
Wikipedia の利用  Wikipediaの特徴  各項目には多くの場合「千葉県の会社」などカテゴリが 付与されている  一定の規則に基づいた文書が大量にある 
人手による更新・訂正が行われるので正確性がある程 度保証されている  大量の「会社名」データを手に入れることができる (Wikipediaのデータベース・ダンプを利用)
略称の取得  略称と正式名称の関連も取得できる  例)「日立」というリンクから「日立製作所」につな がっている場合  「日立」=「日立製作所」と関連付けられる
Wikipedia以外からの取得  Web上にはWikipedia以外の文書も大量にある  しかし、それらはWikipediaのように「企業」であることが 明記されてるわけではない  だが、量は圧倒的に多いのでなんとか活用したい  周りの文章から「会社名」であることを判断できな
いか?  「〇〇は東証一部に上場した~」  「〇〇は1997年に創業した~」
構造化されてない文章からの会社名の取得  まず、Wikipediaなど構造化されているデータを「訓 練データ」として用いる  前後の単語から、会社名を判断する確率モデルを作 る  構造化されてないデータ(ブログの文章等)に対して これを適用し、会社名を取り出す
P(会社名|創業)= N(会社名∧創業) N(創業)
関連研究の応用  Support Vector Machineを用いた日本語固有表 現抽出[山田 et al]  前後の単語の素性(単語自体だけでなく、品詞の
種類なども含む)ベクトルの集合に対してSVMを行 い、学習させる