Upgrade to Pro — share decks privately, control downloads, hide ads and more …

NLP2025参加報告会 LT資料

NLP2025参加報告会 LT資料

NLP2025 参加報告会 presented by Money Forward Lab (https://moneyforward.connpass.com/event/344276/)にて発表した資料です

Hayahide Yamagishi

April 11, 2025
Tweet

More Decks by Hayahide Yamagishi

Other Decks in Research

Transcript

  1. About me • 山岸駿秀 ◦ https://hargon24.github.io/ ◦ Twitter: @hargon24 •

    Job: NLPのリサーチャー ◦ - 2019 : 首都大(現: 都立大)小町研 修士 ◦ 2019 - 2022: 複合機メーカーやカメラメーカーの研究所 ◦ 2022 - : Money Forward Lab • 学会活動 ◦ YANS実行委員 ◦ 言語処理学会 NLP技術セミナー企画委員(New!) ◦ 人工知能学会 企画委員(2025-03まで) 2
  2. 自分の発表内容 1/2 大規模言語モデルを用いた生成による企業の業種体系の拡張 • 企業情報の分析を行うにあたり、業種情報がほしい • 既存の業種体系に当てはまりが悪い業種がある & 数が多い →

    分類しにくい ◦ 1470業種のうち、製造業系は600あるが情報通信系は45しかない ◦ 「ホームページ制作代行」は「受託開発ソフトウェア業」なのか? ◦ 保育園は「医療福祉」、幼稚園は「教育」の下位区分(監督省庁の違い?) 日本標準産業分類より抜粋 3
  3. NLP2025を聞いていた所感 (特に計測してないので感覚ベース) LLMを… • 作る ◦ 順当に増加。マルチモーダル系が増えてた? • 観察する ◦

    異常に増加した印象 なぜ? • 使う ◦ 伝統的な生成タスク(翻訳、対話、要約 etc.)はこれまでどおり? ▪ これらが全然受賞してなかったのが個人的には驚き ◦ PDFやCSVをパースしてうんぬん ▪ 地味に増えていた印象。ある種のマルチモーダル ※ ポスターばかり見てたのでバイアスかかってると思います 6
  4. NLP2025を聞いていた所感 (特に計測してないので感覚ベース) LLMを… • 作る ◦ 順当に増加。マルチモーダル系が増えてた? • 観察する ◦

    異常に増加した印象 なぜ? • 使う ◦ 伝統的な生成タスク(翻訳、対話、要約 etc.)はこれまでどおり? ▪ これらが全然受賞してなかったのが個人的には驚き ◦ PDFやCSVをパースしてうんぬん ▪ 地味に増えていた印象。ある種のマルチモーダル ※ ポスターばかり見てたのでバイアスかかってると思います ←ここの話をする 7
  5. 時系列データの CSVをLLMに入れる 移動軌跡に関する質問応答データセット [浅野+] • 位置情報から「昨日の昼はどこにいましたか?」と いった質問に回答させる ◦ (時刻, 緯度,

    経度)の列をプロンプトに与える • 座標のコピーで解決できる質問は得意 ◦ 12:00にどこにいましたか? など • 計算が必要な質問は難しい ◦ ここに何時間いましたか? など • 一週間分のデータを与えるタスクも難しい ◦ 長距離の文脈を見切れない ※ 図は論文より抽出したもの 9
  6. 画像が大量に入った文書を対象とした RAG VDocRAG: 視覚的文書に対する検索拡張生成 [田中+] • Document VQAは与えられた文書を元に回答 → 文書を探すところから自動化したい

    • 既存のDocument VQAデータセットをRAG用に整 理し、新しいデータセットを作成 ◦ “これは何ページにある?”のような、文書が与えられ る前提な質問を除去 • VLMと統合させて学習させる ◦ 画像が多い文書が必要な質問に回答しやすい ◦ テキストが多い文書が必要な質問は苦戦 ※ 図は論文より抽出したもの 10
  7. 有報とかプレスとか • 沿革情報を用いた企業名変遷の構造化 [澤田+] ◦ 有価証券報告書の沿革欄から企業の名称変更の前後関係を抽出 ◦ 現れる名称が1つのイベント(設立・清算)は比較的簡単 ◦ 前後関係が必要なイベント(合併・分社化・名称変更)は難しい

    • 不動産情報抽出業務の効率化に向けた大規模言語モデルを用いたアンサンブ ル手法 [齊藤+] ◦ 新規物件のプレスリリースなどから物件情報を抽出 ▪ J-REITの物件、新しいマンションの情報など ◦ 注釈が文書の巻末についていたりすると面倒 11
  8. 統一見解っぽいもの • LLMは「文書・図表から企業名抽出」くらいなら概ねできる ◦ …という前提でされている研究が多い感覚 ◦ 関係抽出・エンティティリンキングなどの性質を帯びてくると、ひと工夫いる • 数値が含まれる場合は、コピーはできるが計算はまだ少し苦手 ◦

    コピー: 値を取ってくる。最大値・最小値なども引っ張ってこれる ◦ 計算: 合計、平均値の計算など ◦ プロンプトの言語による数値時系列解釈能力の変化 [新井+] でも調査されてた ◦ 弊社でも同様の知見がある(YANS2023で発表) 12