Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ドメイン知識がない領域での自然言語処理の始め方
Search
Hayahide Yamagishi
November 13, 2025
Research
1
100
ドメイン知識がない領域での自然言語処理の始め方
IVRyさん主催の「三田データ vol.1」での登壇資料です。
https://mita-data.connpass.com/event/370980/
Hayahide Yamagishi
November 13, 2025
Tweet
Share
More Decks by Hayahide Yamagishi
See All by Hayahide Yamagishi
NLP2025参加報告会 LT資料
hargon24
1
370
LLM時代にLabは何をすべきか聞いて回った1年間
hargon24
1
860
Other Decks in Research
See All in Research
Unsupervised Domain Adaptation Architecture Search with Self-Training for Land Cover Mapping
satai
3
270
IMC の細かすぎる話 2025
smly
2
730
なめらかなシステムと運用維持の終わらぬ未来 / dicomo2025_coherently_fittable_system
monochromegane
0
4.7k
言語モデルの地図:確率分布と情報幾何による類似性の可視化
shimosan
8
2.1k
大規模言語モデルにおけるData-Centric AIと合成データの活用 / Data-Centric AI and Synthetic Data in Large Language Models
tsurubee
1
230
ロボット学習における大規模検索技術の展開と応用
denkiwakame
1
140
Mamba-in-Mamba: Centralized Mamba-Cross-Scan in Tokenized Mamba Model for Hyperspectral Image Classification
satai
3
170
情報技術の社会実装に向けた応用と課題:ニュースメディアの事例から / appmech-jsce 2025
upura
0
250
とあるSREの博士「過程」 / A Certain SRE’s Ph.D. Journey
yuukit
11
4.8k
Galileo: Learning Global & Local Features of Many Remote Sensing Modalities
satai
3
420
2025/7/5 応用音響研究会招待講演@北海道大学
takuma_okamoto
1
230
国際論文を出そう!ICRA / IROS / RA-L への論文投稿の心構えとノウハウ / RSJ2025 Luncheon Seminar
koide3
10
5.9k
Featured
See All Featured
The Invisible Side of Design
smashingmag
302
51k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
127
54k
Six Lessons from altMBA
skipperchong
29
4.1k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
4 Signs Your Business is Dying
shpigford
186
22k
Leading Effective Engineering Teams in the AI Era
addyosmani
9
1.1k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Imperfection Machines: The Place of Print at Facebook
scottboms
269
13k
Principles of Awesome APIs and How to Build Them.
keavy
127
17k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Embracing the Ebb and Flow
colly
88
4.9k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.6k
Transcript
Money Forward, Inc. ドメイン知識がない領域での 自然言語処理の始め方 Money Forward Lab 山岸駿秀
Money Forward, Inc. Money Forward, Inc. 山岸駿秀 • 所属: Money
Forward ◦ 2019 - 2022 : 複合機メーカーの研究所 ◦ 2022 - : Money Forward Lab • Job: NLPのリサーチャー ◦ 研究活動 ◦ 社内でのNLP関連の技術紹介 ◦ timesの賑やかし • 学会活動もしています ◦ NLP若手の会(YANS)実行委員 ◦ 言語処理学会(NLP)セミナー企画委員 Twitter: @hargon24 https://hargon24.github.io/ 2
Money Forward, Inc. Money Forward Labは全プロダクト横断のR&D組織 MFLabでは、プロダクト改善などに貢献する研究を行っている いい研究テーマを立てるために実施していること • 実際のデータを見て仮説を立てる
• 現場の話を聞いてペインを見つける 3
Money Forward, Inc. Money Forward, Inc. データの分析対象となる、MFの代表的なSaaS 個人向けの家計簿アプリ 法人向けの会計SaaS 4
Money Forward, Inc. Money Forward MEが扱う家計簿データは単式簿記 単式簿記: 収支を全て1つの帳簿で管理する → 一般的な家計簿は全てこれなので、親しみがある
カテゴリ 金額 摘要 収入 + 1,000,000 キユウヨ)カ)マネーフオワード 10ガツ 食費 - 10,000 ランチ代 @ CoCo壱番屋 食費 - 1,000 物販 交通費 - 8,000 東京→浜松 JR東 こだま 5
Money Forward, Inc. Money Forward MEが扱う家計簿データは単式簿記 「食費の合計」が知りたいならカテゴリが食費のものを足せばよい →ドメイン知識がなくてもすぐにデータを見られる カテゴリ 金額
摘要 収入 + 1,000,000 キユウヨ)カ)マネーフオワード 10ガツ 食費 - 10,000 ランチ代 @ CoCo壱番屋 食費 - 1,000 物販 交通費 - 8,000 東京→浜松 JR東 こだま 6
Money Forward, Inc. Money Forward MEが扱う家計簿データは単式簿記 「食費の合計」が知りたいならカテゴリが食費のものを足せばよい →ドメイン知識がなくてもすぐにデータを見られる カテゴリ 金額
摘要 収入 + 1,000,000 キユウヨ)カ)マネーフオワード 10ガツ 食費 - 10,000 ランチ代 @ CoCo壱番屋 食費 - 1,000 物販 交通費 - 8,000 東京→浜松 JR東 こだま 弊社で扱うテキストデータは主にこれ 7
Money Forward, Inc. MEのデータは わかりやすい 8
Money Forward, Inc. Money Forward, Inc. 主力は法人向けSaaSなので、法人向けのデータを解析したい 個人向けの家計簿アプリ 法人向けの会計SaaS <<
9
Money Forward, Inc. MFクラウド会計が扱う仕訳データは複式簿記 複式簿記: 取引を原因と結果に分け、仕訳という単位で書く いわゆる簿記はこれのこと 借方勘定科目 金額 貸方勘定科目
金額 摘要 売掛金 10,000 売上 10,000 A社にネジ100本 売上 1,000 売掛金 1,000 A社からネジ10本返品 現金 9,000 売掛金 9,000 A社から支払 弊社で扱うテキストデータは主にこれ 10
Money Forward, Inc. 複式簿記がわからなくて何もできない 例えば勘定科目別の集計をしたいとき、 • 左がプラスで右がマイナス…でもないのか…? • そもそも左右の違いは何? 左と右の売上は同じ売上?
みたいな疑問があり、「売上の合計」を取ることすら不安があった 借方勘定科目 金額 貸方勘定科目 金額 摘要 売掛金 10,000 売上 10,000 A社にネジ100本 売上 1,000 売掛金 1,000 A社からネジ10本返品 現金 9,000 売掛金 9,000 A社から支払 11
Money Forward, Inc. NLPを始めるためにはドメイン知識が必要そう 借方勘定科目 金額 貸方勘定科目 金額 摘要 売掛金
10,000 売上 10,000 A社にネジ100本 売上 1,000 売掛金 1,000 A社からネジ10本返品 現金 9,000 売掛金 9,000 A社から支払 12 弊社で扱うテキストデータは主にこれ こっちのデータがわからないと 始まらない
Money Forward, Inc. どうしたか 13
Money Forward, Inc. その1 14
Money Forward, Inc. 解決策1: 簿記3級をとった 取った理由 1. シンプルだけどこれが一番速いと思った 2. 勉強しやすい環境があったから
◦ 過去に勉強した人の社内記事がある ◦ 3級は基礎 ▪ ものを買って売る会社の帳簿の付け方 ▪ ものを作って売る会社の帳簿は2級 ◦ たまたま勉強しやすい分野であるのに、 勉強しないのは損 15
Money Forward, Inc. 取ってよかったこと 1. 詳しい人に質問できる状態になった ◦ 最低限の用語を知っているだけでも、専門家に質問しやすい 2. 自分で調べられるようになった
◦ DBの仕様などを自分で見て判断できる ◦ テキストの分析に専念できる 3. 研究のタネが見つかった ◦ 分析する過程で不足しているデータが見つかり、 そこから研究が生まれた 4. 久しぶりの資格だったので純粋に嬉しい 16
Money Forward, Inc. 業種情報の信頼性が低かった 勉強したことで、売上合計などは出せるようになっ た → 次はユーザさんの平均売上などを分析したい 新たな問題: ユーザ企業の属性情報が不足
• 任意入力なので空欄になっている • 特に業種の情報が使いにくく、業種単位での 分析がしにくかった 企業名 abc.AI 本店所在地 東京都 電話番号 03-xxxx-yyyy webサイト 業種 17
Money Forward, Inc. 業種情報が扱いにくかった • 理由1: 入力が任意なのでほぼ業種情報が付いてない ◦ 付いていたとして、 “その他”や
“サービス業”が選択されがち • 理由2: 政府の業種体系とマネフォの業種体系が違う ◦ 日本標準産業分類では、大分類 20種・細分類1473種が定義 ◦ MFC会計にも業種欄はあるが、独自分類 14種から選択する方式 • 理由3: MFユーザの事業内容が新しく、対応するものが既存の体系にない ◦ 「ホームページ制作代行」は「受託開発ソフトウェア業」なのか? ◦ 「YouTuberの事務所」は「芸能事務所」か「テレビ番組制作業」か? 18
Money Forward, Inc. 大規模言語モデルを用いた生成による企業の業種体系の拡張 [山岸+, NLP25] 解決策: • 基本的には日本標準産業分類のどれかに対応させる •
どれも該当しない事業には、新規の業種名称を生成 ◦ 企業のWebサイトのテキストをもとにGPTで新業種名を生成 ◦ 後処理で既存業種に似た名称や、生成された名称間で似た業種を名寄せ 19
Money Forward, Inc. ここまでのまとめ • 簿記の勉強をしたことで、データ分析のための最低限の知識がついた ◦ ちなみに売上は+9000円でよい ▪ 各勘定科目のデフォルトの位置(借方・貸方)が決まっていて、そこに書いてあ
ればプラス、逆に書いてあればマイナスとして計算 • データ分析ができるとデータの特徴や不足情報などがわかるようになる → 研究のタネが見えてくる 借方勘定科目 金額 貸方勘定科目 金額 摘要 売掛金 10,000 売上 10,000 A社にネジ100本 売上 1,000 売掛金 1,000 A社からネジ10本返品 現金 9,000 売掛金 9,000 A社から支払 20
Money Forward, Inc. その2 21
Money Forward, Inc. 解決策2: カスタマーサポート(CS)との協業機会 入社した2022年、たまたまカスタマーサポートと協業の機会があった CSには以下2つの課題があった • チャットボットのメンテナンスコストが高い ◦
入社後1つ目のPJとして、こちらをお手伝い • サポートサイトの検索精度が低い ◦ こちらは他の人が担当したので今回は省略 22
Money Forward, Inc. チャットボットのメンテコストが高い問題 • 検索型のチャットボット ◦ ユーザ質問と、事前に準備した質問例の類似度を測る ◦ 一番類似した質問例に対応する回答例を出力する
◦ ユーザ質問を質問例として追加することで学習相当の挙動 をさせる • 何をどうメンテすると改善されるか担当にもわからなかった ◦ 長年継ぎ足した結果、質問例を追加しすぎて何でも引っかかる ◦ 回答例は最新版なのかわからない ◦ 何でも回答例を追加すればいいわけではない ◦ etc. 23
Money Forward, Inc. FAQ チャットボットの誤りタイプの類型化と自動分類の検討 [山岸+, NLP2023] • 誤答だった応対の、ユーザの質問とシステムの回答文を見て、 「botのこの間違いは直すべきなのか」をBERTで推定
• どう直すべきなのかも合わせて推薦 ◦ 質問例が悪いのか、回答例が悪いのかを分類 電車代の勘定科目 は? 旅費交通費です 具体例はwebに… 新規科目の追加は… 正しく回答 → 何もしない 違う回答文を選択 → 正解が選ばれるように質問例を 追加 Webページに回答がある → 回答文を追加できる 24
Money Forward, Inc. CSとの協業案件に携わってよかったこと • 現場の話を聞ける貴重な機会 ◦ 社内: CSさん、エンジニア、プロダクトのPdMなど →
交流のきっかけ ◦ 社外: ユーザの悩みがダイレクトにわかる • 自社のプロダクトがわかるようになる ◦ 細かくみると60以上のプロダクトがあり、座学だけだと覚えられなかった ◦ プロダクト自体の機能を把握できた → プロダクトを出している企業の人にはシンプルにおすすめ 25
Money Forward, Inc. 最近どうなったか: Labの新人研修っぽくなってきた Labに新しい人がJOINしたときの王道ルートになりつつある • 簿記の勉強 • CSのデータ(または何らかのプロダクトデータ)を触る
→ 少なくともMF内では再現性のある学習法っぽい • 直近のYANSでもCS関係の発表をしました ◦ Understanding the Limits of RAG in Real-World Customer Support: A Data-Driven Perspective [Zhang&Liang, YANS2025] 26
Money Forward, Inc. まとめ • ドメイン知識がない状況に放り込まれたら、結局勉強するしかない ◦ NLP関連の勉強ではなく、ドメイン知識の勉強もおもしろい ◦ 今だったら都度LLMに聞けば解決するかもしれないが
…限界ありそう • やったこと ◦ 社内の専門家に質問できるくらいの最低限の知識をつける ◦ プロダクトのことが最低限わかる状態にする • これらを経て、初めてNLPの提案ができるようになる ◦ いろいろ知った上でデータを見ると楽しい!! • みなさんの事例も教えてほしい リサーチャー募集中! 27