Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
企業・業界動向抽出のための経済情報ラベルの定義とタグ付きコーパスの構築 / yans2023-...
Search
Taro Masuda
May 24, 2024
Research
0
190
企業・業界動向抽出のための経済情報ラベルの定義とタグ付きコーパスの構築 / yans2023-poster-s3-p21
NLP若手の会 (YANS) 第18回シンポジウム (2023) にてポスター発表
Taro Masuda
May 24, 2024
Tweet
Share
More Decks by Taro Masuda
See All by Taro Masuda
Rist_Meetup_Kaggleは業務の役にたつ - ビジネスコンテンツ情報を活用する BtoB 事業編 - / rist-meetup-20241012
taro_masuda
1
1k
白金鉱業Meetup_経験値ゼロから始める A_B テスト布教活動と意思決定に活かしやすいA_Bテスト設計の一案 / brainpad-meetup-20240919
taro_masuda
4
950
NLP2024 参加報告LT ~RAGの生成評価と懇親戦略~ / nlp2024_attendee_presentation_LT_masuda
taro_masuda
1
540
BtoBプロダクト改善のためのデータドリブン活動と組織の概要/b2b_data_driven_team
taro_masuda
0
1.2k
企業の業界分類予測における共変量シフト問題の抑制
taro_masuda
3
1.5k
ディジタル信号処理の入り口に立つ
taro_masuda
3
350
歌声の特徴に基づいて曲を探そう!
taro_masuda
1
1.7k
NGBoost論文読んでみた
taro_masuda
2
4.1k
Other Decks in Research
See All in Research
さまざまなAgent FrameworkとAIエージェントの評価
ymd65536
1
330
GPUを利用したStein Particle Filterによる点群6自由度モンテカルロSLAM
takuminakao
0
610
令和最新技術で伝統掲示板を再構築: HonoX で作る型安全なスレッドフロート型掲示板 / かろっく@calloc134 - Hono Conference 2025
calloc134
0
440
When Learned Data Structures Meet Computer Vision
matsui_528
1
930
論文読み会 SNLP2025 Learning Dynamics of LLM Finetuning. In: ICLR 2025
s_mizuki_nlp
0
340
論文紹介:Safety Alignment Should be Made More Than Just a Few Tokens Deep
kazutoshishinoda
0
140
生成AI による論文執筆サポート・ワークショップ ─ サーベイ/リサーチクエスチョン編 / Workshop on AI-Assisted Paper Writing Support: Survey/Research Question Edition
ks91
PRO
0
120
言語モデルの地図:確率分布と情報幾何による類似性の可視化
shimosan
8
2.2k
AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data
satai
3
500
Unsupervised Domain Adaptation Architecture Search with Self-Training for Land Cover Mapping
satai
3
350
Adaptive Experimental Design for Efficient Average Treatment Effect Estimation and Treatment Choice
masakat0
0
140
Combining Deep Learning and Street View Imagery to Map Smallholder Crop Types
satai
3
240
Featured
See All Featured
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.6k
Building Applications with DynamoDB
mza
96
6.8k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.3k
The World Runs on Bad Software
bkeepers
PRO
72
12k
Build The Right Thing And Hit Your Dates
maggiecrowley
38
3k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
253
22k
Navigating Team Friction
lara
191
16k
Learning to Love Humans: Emotional Interface Design
aarron
274
41k
Practical Orchestrator
shlominoach
190
11k
Six Lessons from altMBA
skipperchong
29
4.1k
Producing Creativity
orderedlist
PRO
348
40k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3k
Transcript
企業・業界動向抽出のための 経済情報ラベルの定義とタグ付きコーパスの構築 増田太郎*1, 櫻井亮佑*1, 桐井智弘*1, 渡邊英介*2, 石原祥太郎*1 *1: 日経新聞, *2:
東京大学 研究の背景 • 記事データなどの自然言語文書中から企業動向 や業界動向など重要な記述を効率的に抽出する 手法が重要 • 自動抽出のために教師あり学習に向けた訓練 データ構築が必要になるが,経済情報の記述は ミクロ・マクロ両視点の表現が混在しており, 画一的なラベル定義が困難 今後の展望 • 本定義が幅広く経済情報抽出に活用可能とす るための社内外への継続的ヒアリング • 公開可能なタグ付きコーパス構築の検討 種 別 ラベル名 定義・含む例 ミ ク ロ 事業概要 - 継続的に取り組んでいる事業 - シェア1位,などの事実 - A社・B社〜が出資する事業会社,という説 明 - 具体的な会社の設立目的 提携 - 資本関係が発生しない協力関係 - 共同研究・開発 出資・投資 - 資本関係が生じる協力関係の発生/解消 - 工場・発電所の設備投資 - 新会社・JVの設立 - 資金調達 (する側/される側両方) 事業現況 - 突発的に取り組んだ事業 - 新商品・サービス - 参入,販売増,活用の拡大など 買収 - 合併,事業譲渡,第三者株式取得 背景・狙い - 特定の会社が直面している(主観的に見 た)特定の市場環境,自社のポジショニング - 特定の会社から見た市場の動向・予測 - 特定の企業の将来像を語っているところ, 展望,狙い,目的,ゴールなど サービス 説明 - サービスの名称とサービスの概要を端的に 示したもの マ ク ロ 市況 - 特定の会社に限定しない市場環境全体 - 需給・法整備・政策など - リサーチ会社・記者が語る解説 技術 動向 個別の会社の技術ではなく,普遍的に注目さ れている技術の強み 競合 情報 - 競合などキープレーヤーの情報 - 市場シェア(競争動向)への言及,複数社 の列挙 提案 • 部分的な階層関係を含む経済情報ラベルの定義 (右表2)とそのラベルを含む タグ付きコーパスを新たに構築 • ①アノテーション作成→②モデル学習・評価→ ③ラベル統廃合というHuman-in-the-Loopを 3度回した結果,右表2の定義に落ち着いた ①新規ラベル定義で学習データ用の アノテーション追加 • 3名のアノテーター間で担当範囲を等分し, 認識を合わせながら進行 • 少しでも判断に迷ったものは定例会議や コメント機能で議論 • ピアレビューによる等質性の確保 ②モデル学習・評価 • センテンス単位でラベル付けを行い ,ku-nlp/deberta-v2-large-japaneseを用いた マルチラベル分類問題としてFine-tuning • ラベル定義確定前のアノテーションで学習させ た場合よりも,確定後のアノテーションの方が 性能が向上した 独自のテキストデータに対して体系立てた ラベル定義でのアノテーションおよび 教師ありモデルを構築 ②モデル学習・評価 図1 ラベリングとモデル学習を反復更新する Human-in-the-Loop ③ラベル統廃合の検討 新商品 開発 事業 現況 ①新規ラベル定義で 学習データ用のアノテーション作成 学習データ 評価データ Precision Recall macro-F1 ラベル定義 確定前 ラベル定義 確定前 0.612 0.583 0.594 ラベル定義 確定前 ラベル定義 確定後 0.612 0.556 0.571 ラベル定義 確定後 ラベル定義 確定後 0.636 0.585 0.598 表2 部分的な階層関係を含む経済情報ラベルの定義 ③ラベル統廃合の検討 例1)「新商品」ラベルと「開発」ラベルを 統合して「事業現況」ラベルとした 理由:両者の区別が困難なケースも多く, ユースケース上同一視して問題ない 例2)「競合情報」「技術動向」といった 情報の重要さに途中で気づいたため, 新規ラベルを作成 表1 ラベル定義確定前後のアノテーションの差異が性能に与える影響