Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ドメイン知識がない領域での自然言語処理の始め方

 ドメイン知識がない領域での自然言語処理の始め方

IVRyさん主催の「三田データ vol.1」での登壇資料です。

https://mita-data.connpass.com/event/370980/

Avatar for Hayahide Yamagishi

Hayahide Yamagishi

November 13, 2025
Tweet

More Decks by Hayahide Yamagishi

Other Decks in Research

Transcript

  1. Money Forward, Inc. Money Forward, Inc. 山岸駿秀 • 所属: Money

    Forward ◦ 2019 - 2022 : 複合機メーカーの研究所 ◦ 2022 - : Money Forward Lab • Job: NLPのリサーチャー ◦ 研究活動 ◦ 社内でのNLP関連の技術紹介 ◦ timesの賑やかし • 学会活動もしています ◦ NLP若手の会(YANS)実行委員 ◦ 言語処理学会(NLP)セミナー企画委員 Twitter: @hargon24 https://hargon24.github.io/ 2
  2. Money Forward, Inc. Money Forward MEが扱う家計簿データは単式簿記 単式簿記: 収支を全て1つの帳簿で管理する → 一般的な家計簿は全てこれなので、親しみがある

    カテゴリ 金額 摘要 収入 + 1,000,000 キユウヨ)カ)マネーフオワード 10ガツ 食費 - 10,000 ランチ代 @ CoCo壱番屋 食費 - 1,000 物販 交通費 - 8,000 東京→浜松 JR東 こだま 5
  3. Money Forward, Inc. Money Forward MEが扱う家計簿データは単式簿記 「食費の合計」が知りたいならカテゴリが食費のものを足せばよい →ドメイン知識がなくてもすぐにデータを見られる カテゴリ 金額

    摘要 収入 + 1,000,000 キユウヨ)カ)マネーフオワード 10ガツ 食費 - 10,000 ランチ代 @ CoCo壱番屋 食費 - 1,000 物販 交通費 - 8,000 東京→浜松 JR東 こだま 6
  4. Money Forward, Inc. Money Forward MEが扱う家計簿データは単式簿記 「食費の合計」が知りたいならカテゴリが食費のものを足せばよい →ドメイン知識がなくてもすぐにデータを見られる カテゴリ 金額

    摘要 収入 + 1,000,000 キユウヨ)カ)マネーフオワード 10ガツ 食費 - 10,000 ランチ代 @ CoCo壱番屋 食費 - 1,000 物販 交通費 - 8,000 東京→浜松 JR東 こだま 弊社で扱うテキストデータは主にこれ 7
  5. Money Forward, Inc. MFクラウド会計が扱う仕訳データは複式簿記 複式簿記: 取引を原因と結果に分け、仕訳という単位で書く いわゆる簿記はこれのこと 借方勘定科目 金額 貸方勘定科目

    金額 摘要 売掛金 10,000 売上 10,000 A社にネジ100本 売上 1,000 売掛金 1,000 A社からネジ10本返品 現金 9,000 売掛金 9,000 A社から支払 弊社で扱うテキストデータは主にこれ 10
  6. Money Forward, Inc. 複式簿記がわからなくて何もできない 例えば勘定科目別の集計をしたいとき、 • 左がプラスで右がマイナス…でもないのか…? • そもそも左右の違いは何? 左と右の売上は同じ売上?

    みたいな疑問があり、「売上の合計」を取ることすら不安があった 借方勘定科目 金額 貸方勘定科目 金額 摘要 売掛金 10,000 売上 10,000 A社にネジ100本 売上 1,000 売掛金 1,000 A社からネジ10本返品 現金 9,000 売掛金 9,000 A社から支払 11
  7. Money Forward, Inc. NLPを始めるためにはドメイン知識が必要そう 借方勘定科目 金額 貸方勘定科目 金額 摘要 売掛金

    10,000 売上 10,000 A社にネジ100本 売上 1,000 売掛金 1,000 A社からネジ10本返品 現金 9,000 売掛金 9,000 A社から支払 12 弊社で扱うテキストデータは主にこれ こっちのデータがわからないと 始まらない
  8. Money Forward, Inc. 解決策1: 簿記3級をとった 取った理由 1. シンプルだけどこれが一番速いと思った 2. 勉強しやすい環境があったから

    ◦ 過去に勉強した人の社内記事がある ◦ 3級は基礎 ▪ ものを買って売る会社の帳簿の付け方 ▪ ものを作って売る会社の帳簿は2級 ◦ たまたま勉強しやすい分野であるのに、 勉強しないのは損 15
  9. Money Forward, Inc. 取ってよかったこと 1. 詳しい人に質問できる状態になった ◦ 最低限の用語を知っているだけでも、専門家に質問しやすい 2. 自分で調べられるようになった

    ◦ DBの仕様などを自分で見て判断できる ◦ テキストの分析に専念できる 3. 研究のタネが見つかった ◦ 分析する過程で不足しているデータが見つかり、 そこから研究が生まれた 4. 久しぶりの資格だったので純粋に嬉しい 16
  10. Money Forward, Inc. 業種情報の信頼性が低かった 勉強したことで、売上合計などは出せるようになっ た → 次はユーザさんの平均売上などを分析したい 新たな問題: ユーザ企業の属性情報が不足

    • 任意入力なので空欄になっている • 特に業種の情報が使いにくく、業種単位での 分析がしにくかった 企業名 abc.AI 本店所在地 東京都 電話番号 03-xxxx-yyyy webサイト 業種 17
  11. Money Forward, Inc. 業種情報が扱いにくかった • 理由1: 入力が任意なのでほぼ業種情報が付いてない ◦ 付いていたとして、 “その他”や

    “サービス業”が選択されがち • 理由2: 政府の業種体系とマネフォの業種体系が違う ◦ 日本標準産業分類では、大分類 20種・細分類1473種が定義 ◦ MFC会計にも業種欄はあるが、独自分類 14種から選択する方式 • 理由3: MFユーザの事業内容が新しく、対応するものが既存の体系にない ◦ 「ホームページ制作代行」は「受託開発ソフトウェア業」なのか? ◦ 「YouTuberの事務所」は「芸能事務所」か「テレビ番組制作業」か? 18
  12. Money Forward, Inc. 大規模言語モデルを用いた生成による企業の業種体系の拡張 [山岸+, NLP25] 解決策: • 基本的には日本標準産業分類のどれかに対応させる •

    どれも該当しない事業には、新規の業種名称を生成 ◦ 企業のWebサイトのテキストをもとにGPTで新業種名を生成 ◦ 後処理で既存業種に似た名称や、生成された名称間で似た業種を名寄せ 19
  13. Money Forward, Inc. ここまでのまとめ • 簿記の勉強をしたことで、データ分析のための最低限の知識がついた ◦ ちなみに売上は+9000円でよい ▪ 各勘定科目のデフォルトの位置(借方・貸方)が決まっていて、そこに書いてあ

    ればプラス、逆に書いてあればマイナスとして計算 • データ分析ができるとデータの特徴や不足情報などがわかるようになる → 研究のタネが見えてくる 借方勘定科目 金額 貸方勘定科目 金額 摘要 売掛金 10,000 売上 10,000 A社にネジ100本 売上 1,000 売掛金 1,000 A社からネジ10本返品 現金 9,000 売掛金 9,000 A社から支払 20
  14. Money Forward, Inc. チャットボットのメンテコストが高い問題 • 検索型のチャットボット ◦ ユーザ質問と、事前に準備した質問例の類似度を測る ◦ 一番類似した質問例に対応する回答例を出力する

    ◦ ユーザ質問を質問例として追加することで学習相当の挙動 をさせる • 何をどうメンテすると改善されるか担当にもわからなかった ◦ 長年継ぎ足した結果、質問例を追加しすぎて何でも引っかかる ◦ 回答例は最新版なのかわからない ◦ 何でも回答例を追加すればいいわけではない ◦ etc. 23
  15. Money Forward, Inc. FAQ チャットボットの誤りタイプの類型化と自動分類の検討 [山岸+, NLP2023] • 誤答だった応対の、ユーザの質問とシステムの回答文を見て、 「botのこの間違いは直すべきなのか」をBERTで推定

    • どう直すべきなのかも合わせて推薦 ◦ 質問例が悪いのか、回答例が悪いのかを分類 電車代の勘定科目 は? 旅費交通費です 具体例はwebに… 新規科目の追加は… 正しく回答 → 何もしない 違う回答文を選択 → 正解が選ばれるように質問例を 追加 Webページに回答がある → 回答文を追加できる 24
  16. Money Forward, Inc. CSとの協業案件に携わってよかったこと • 現場の話を聞ける貴重な機会 ◦ 社内: CSさん、エンジニア、プロダクトのPdMなど →

    交流のきっかけ ◦ 社外: ユーザの悩みがダイレクトにわかる • 自社のプロダクトがわかるようになる ◦ 細かくみると60以上のプロダクトがあり、座学だけだと覚えられなかった ◦ プロダクト自体の機能を把握できた → プロダクトを出している企業の人にはシンプルにおすすめ 25
  17. Money Forward, Inc. 最近どうなったか: Labの新人研修っぽくなってきた Labに新しい人がJOINしたときの王道ルートになりつつある • 簿記の勉強 • CSのデータ(または何らかのプロダクトデータ)を触る

    → 少なくともMF内では再現性のある学習法っぽい • 直近のYANSでもCS関係の発表をしました ◦ Understanding the Limits of RAG in Real-World Customer Support: A Data-Driven Perspective [Zhang&Liang, YANS2025] 26
  18. Money Forward, Inc. まとめ • ドメイン知識がない状況に放り込まれたら、結局勉強するしかない ◦ NLP関連の勉強ではなく、ドメイン知識の勉強もおもしろい ◦ 今だったら都度LLMに聞けば解決するかもしれないが

    …限界ありそう • やったこと ◦ 社内の専門家に質問できるくらいの最低限の知識をつける ◦ プロダクトのことが最低限わかる状態にする • これらを経て、初めてNLPの提案ができるようになる ◦ いろいろ知った上でデータを見ると楽しい!! • みなさんの事例も教えてほしい リサーチャー募集中! 27