Upgrade to Pro — share decks privately, control downloads, hide ads and more …

NLP2025 参加報告会 / NLP2025

NLP2025 参加報告会 / NLP2025

■ イベント
NLP2025 参加報告会 presented by Money Forward Lab
https://moneyforward.connpass.com/event/344276/

■ 発表者
技術本部 研究開発部 Data Analysisグループ
齋藤 慎一朗

■ 研究開発部 採用情報
https://media.sansan-engineering.com/randd

■ Sansan Tech Blog
https://buildersbox.corp-sansan.com/

Sansan R&D

April 10, 2025
Tweet

More Decks by Sansan R&D

Other Decks in Technology

Transcript

  1. 齋藤 慎⼀朗 Sansan株式会社 技術本部 研究開発部 - 請求書、契約書のデータ化エンジン、 ニュース配信エンジン開発 - Kaggle

    Competitions Expert 🥈4 🥉4 - Kaggle Notebooks Expert 🥇2 🥈6 🥉7 - 著書: Polarsとpandasで学ぶ データ処理アイデアレシピ55 X(旧Twitter) @sinchir0
  2. 会社概要 3 本社 神山ラボ Sansan Innovation Lab 社 名 Sansan株式会社

    所在地 本社 東京都渋⾕区桜丘町1-1 渋⾕サクラステージ 28F グループ 会社 Sansan Global Pte. Ltd.(シンガポール) Sansan Global Development Center, Inc.(フィリピン) Sansan Global (Thailand) Co., Ltd.(タイ) ログミー株式会社 株式会社ダイヤモンド企業情報編集社 クリエイティブサーベイ株式会社 株式会社⾔語理解研究所 従業員数 1,789名(2024年11⽉30⽇時点) 2007年6⽉11⽇ 設 ⽴ ⽀店:関⻄⽀店、福岡⽀店、中部⽀店 サテライトオフィス:Sansan神⼭ラボ、Sansan Innovation Lab、 Sansan⻑岡ラボ 拠 点 寺⽥ 親弘 代表者
  3. 4 © Sansan, Inc. - 全体の所感 - ⾃⾝の発表「ニュース記事中の企業名のEntity LinkingにおけるQuestion Answeringを⽤いた曖昧性解消」の紹介

    - ⾯⽩かった発表 - モデル拡張によるパラメータ効率的な LLM の事前学習 - ⾃⼰修正に基づく固有表現抽出モデルの指⽰学習 - ⽇本語⼤規模⾔語モデルの事前訓練過程における下流タスク性能の網羅 的な分析 - ⽂脈内学習におけるデモの親和性と多様性の提案 アジェンダ
  4. 6 © Sansan, Inc. - ニューステキスト中に登場する組織名に ついて、同名別企業が存在する場合に⼀ 意に特定できない問題が存在する。 - 同名別企業に対し、正しい法⼈番号を紐

    づけるタスクを扱う。 - 従来のベクトルによるcosine類似度最⼤の 候補ではなく、GPTによるQuestion Answeringを⾏うことで65%pt性能改善し た。 ⾃⾝の発表「ニュース記事中の企業名のEntity Linkingにおける Question Answeringを⽤いた曖昧性解消」 引⽤元: https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/Q10-25.pdf 齋藤 慎⼀朗, 髙橋 寛治 (Sansan)
  5. 7 © Sansan, Inc. - 事前学習を2段階に分ける。まず⼩規模なモデルでの事前学習後、新た な層を追加、元の層にLoRAを付与し、継続事前学習を⾏う。 - 最⼤で53.9%の最⼤メモリ要求量を削減した。下流タスクに対しての同 等の性能を達成した。

    モデル拡張によるパラメータ効率的な LLM の事前学習 ⽮野 ⼀樹 (東北⼤), 伊藤 拓海 (東北⼤/Langsmith), 鈴⽊ 潤 (東北⼤/理研/NII) 引⽤元: https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/Q4-10.pdf
  6. 8 © Sansan, Inc. - 固有表現抽出において、LLM が⾃らの誤りを検証 (SelfVerification) し, 検証結果に基づき⾃らの誤りを修正することで回答を洗練

    (Self- Refinement) する⽅法を提案する。 ⾃⼰修正に基づく固有表現抽出モデルの指⽰学習 ⾼橋 拓誠, ⾕⼝ 友紀, ⼤熊 智⼦ (旭化成) 引⽤元: https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/P6-14.pdf
  7. 9 © Sansan, Inc. - LLM の学習過程の下流タスクのスコ アの軌跡は,タスクの種類によっ ていくつかのパターンに分類できることが⽰唆された。 ⽇本語⼤規模⾔語モデルの事前訓練過程における下流タスク性能

    の網羅的な分析 引⽤元: https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/P7-13.pdf 漸進型 漸進型 二段階型 漸進型 漸進型 漸進型 二段階型 二段階型 後発型 漸進型: 学習初期から後期にかけて徐々 にスコアが向上するもの ⼆段階型: 学習初期に急激にスコアが上 昇し,停滞を経たのちに学習後期に再 びスコアが徐々に向上し始めるもの 後発型: 学習初期は全くタスクが解けず, 学習後期から徐々にスコアが向上し始 めるもの ⻄⽥ 悠⼈, ⼩⽥ 悠介 (NAIST/NII), Namgi Han (東⼤), ⾼⽊ 優 (NII), 宮尾 祐介 (東⼤/NII)
  8. 10 © Sansan, Inc. ⽂脈内学習におけるデモの親和性と多様性の提案 加藤 万理⼦, 趙 ⽻⾵, 坂井

    吉弘 (JAIST), 井之上 直也 (JAIST/理研) 引⽤元: https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/Q8-17.pdf 親和性 ランダムな デモ選択 BGE M3での デモ選択 多様性 BGE M3は多様性 が収束する 親和性はタスク 性能と相関あり - ICLの例⽰テキスト(デモ)がタスク性能に与える影響を、デモとクエリの 親和性(cos類似度)、デモ同⼠の多様性(共分散)の2観点で調査した。 - 結果、デモとクエリの親和性はタスク性能と相関があり、多様性はタス ク性能とと相関がないことが確認された。 - 既存⼿法のBGE M3によるデモ選択は、多様性を収束させる。