メールからの名刺情報抽出におけるLLM活用 / Use of LLM in extracting business card information from e-mails

メールからの名刺情報抽出におけるLLM活用研究開発部 Data Analysis グループ大田尾匠 1

大田尾匠 Sansan株式会社技術本部研究開発部 Data Analysisグループ研究員京都大学大学院情報学研究科修士課程修了。在学中は、最適輸送を自然言語処理に応用した手法の研
究に取り組む。 2024年に新卒としてSansan株式会社に入社し、メール署名取り込みにおける名刺情報抽出の研究開発に従事。 2

今日話すこと - 営業DXサービス「Sansan」は、名刺交換だけでなくメールのやり取りも接点情報として蓄積・集約している - メールから名刺相当の情報を抽出するタスクに、LLMを適用した - GPT-4oと、ファインチューニングしたLLMの性能を比較した 3

営業DXサービスとしてのSansan 4

営業DXサービスとしてのSansan 5

- メールから送信者の情報を自動抽出し、名刺データと同じく接点情報として Sansan上に蓄積できる機能 - オンライン上で築いた人脈を、社内で共有・活用できるメール署名取り込み 6

- 入力: メール全文 - 出力: 送信者の名刺相当の情報 - 氏名・会社名・部署など - 送信者以外の人物の情報は含めない
取り組んでいるタスク氏名: 山田太郎会社名: Yonyon株式会社部署: 研究開発部役職: 部長電話番号: 012-3456-7890 メール全文送信者の名刺相当の情報 Sansan株式会社田中花子様 Yonyon株式会社研究開発部山田太郎です。先週の会議はありがとうございました。課長の佐藤様にもよろしくお伝えください。 ------------------- Yonyon株式会社研究開発部部長山田太郎 TEL: 012-3456-7890 ------------------- 送信者の情報のみを抽出するアルゴリズム 7

- メール本文が長い - 過去スレッドも含めると、文章量が膨大 - 複数人の情報が含まれている - 送信者の情報のみを抽出する必要があるメールから送信者の情報のみを抽出することの難しさ差出人:
山田太郎日付: 2024年10月15日件名: 先週の会議について … > 差出人: 田中花子 > 日付: 2024年10月8日 > 件名: 会議について > … Sansan株式会社田中花子様 Yonyon株式会社山田太郎です。先週の会議はありがとうございました。課長の佐藤様にもよろしくお伝えください。氏名会社名送信者山田太郎 Yonyon株式会社受信者田中花子 Sansan株式会社第三者佐藤 8

- LLMは複雑な文脈を理解でき、情報抽出の精度も高いことが知られている - メールから送信者の情報を抽出するタスクに対して、LLMの質問応答形式の性能を確認した - closed LLM・open LLMの両方で、性能を確認した
- closed LLM: 内部仕様にはアクセスできず、APIで使える - ChatGPT・Claude・Geminiなど - open LLM: 内部仕様にアクセスでき、ユーザーのデータでファインチューニングができる - 複数のモデルサイズの日本語モデルが公開されているメールからの抽出タスクにおいてLLMの使用を検討した 9

- 使用したLLM - closed LLM: GPT-4o - AzureのAPIを使用し、学習に利用されないプランを選定 - open
LLM: sbintuitions/sarashina2-7b - ファインチューニング (指示チューニング) に使用したコード - LLM-jpが公開しているllm-jp-sftリポジトリ - 学習・評価データ - Sansan社員宛に送信されたメール - 学習データ: 6000件・評価データ500件 - 抽出する項目 - 氏名・会社名実験設定 10

### 指示: メール本文を以下のJSONスキーマに従って変換し、JSONだけを出力してください。メール本文の中に含まれる、送信者の情報のみを応答のJSONに含めてください。 {'properties': {'person': {'default': '',
'description': 'person', 'title': 'Person', 'type': 'string'}, 'organization': {'default': '', 'description': 'organization', 'title': 'Organization', 'type': 'string'}}, 'title': 'Items', 'type': 'object'} ### メール本文: {email_text} ### 応答: {answer} プロンプト例 Sansan株式会社田中花子様 Yonyon株式会社山田太郎です。先週の会議はありがとうございました。課長の佐藤様にもよろしくお伝えください。 Yonyon株式会社山田太郎 { “person”: “山田太郎”, “organization”: “Yonyon株式会社” } 11

- LLMの検証値であり、実サービスで稼働しているエンジンとは無関係 - 氏名 - GPT-4oも比較的性能が高いが、open LLMの方が高性能 - 会社名 -
氏名よりも、GPT-4oとopen LLMの性能差が大きい指示チューニングしたopen LLMの方がGPT-4oより高性能 12 precision (%) recall (%) closed LLM (GPT-4o) 97.3 98.1 指示チューニング済みopen LLM (sarashina2-7b) 97.7 (+0.4) 98.7 (+0.6) precision (%) recall (%) closed LLM (GPT-4o) 90.2 91.6 指示チューニング済みopen LLM (sarashina2-7b) 94.1 (+3.9) 94.1 (+2.5)

- GPT-4oと、指示チューニングしたopen LLMのそれぞれで実際の出力を見て、2つのケースを確認 - GPT-4o → 指示チューニングしたopen LLM で改善したケース
- 指示チューニングしたopen LLM でも誤抽出してしまうケース実際の出力を確認 13

- 他人の会社名を誤抽出するケース - 送信者の会社名が存在しない場合に起こりやすい GPT-4o → open LLM で改善したケース Sansan株式会社
田中花子様先週の会議はありがとうございました。課長の佐藤様にもよろしくお伝えください。山田太郎メール本文 GPT-4o (誤) 14 { “person”: “山田太郎”, “organization”: “Sansan株式会社” } { “person”: “山田太郎”, “organization”: “” } 指示チューニング済み open LLM (正)

- 部署名を会社名に含めてしまう - 自己紹介文には、部署が含まれる場合も多い - このように具体的なミスケースが分かっている場合は、RLHFなどの選好チューニングで「より望ましい出力」を学習させることができそう GPT-4o・open LLM の両方で失敗するケース
Sansan株式会社田中花子様 Yonyon株式会社経理部山田太郎です。先週の会議はありがとうございました。課長の佐藤様にもよろしくお伝えください。山田太郎 15 { “person”: “山田太郎”, “organization”: “Yonyon株式会社経理部” } メール本文 GPT-4o (誤) { “person”: “山田太郎”, “organization”: “Yonyon株式会社経理部” } 指示チューニング済み open LLM (誤)

- 営業DXサービス「Sansan」は、名刺交換だけでなくメールのやり取りも接点情報として蓄積・集約している - メールから名刺相当の情報を抽出するタスクに、LLMを適用した - GPT-4oと、ファインチューニングしたLLMの性能を比較した - 指示チューニングをしたopen LLMの方が、GPT-4oよりも高性能
- 指示チューニングをしても正しく抽出できないケースがある今日のまとめ 16

- メールから送信者の情報のみを抽出するタスク特有の難しさがあり、指示チューニングしたopen LLMでも誤抽出するケースがある - 選好チューニングなどを使って、open LLMの抽出性能をさらに改善できないかを検討する - ファインチューニングしたLLMを実際のエンジンへ組み込むには、抽出
性能だけでなく、推論速度やモデルサイズを考慮する必要がある - LLM以外の軽量なモデル（事前学習済みEncoderを用いた質問応答など）でも抽出タスクに適用はできるので、複数のモデルを比較検討する - ファインチューニングしたLLMをエンジンに組み込む結論になった場合は、社内初の取り組みなので、様々な観点で知見を貯めていきたい今後の展望 17

Sansan 技術本部募集ポジション紹介 https://media.sansan-engineering.com/

メールからの名刺情報抽出におけるLLM活用 / Use of LLM in extractin...

メールからの名刺情報抽出におけるLLM活用 / Use of LLM in extracting business card information from e-mails

Sansan R&D

More Decks by Sansan R&D

Other Decks in Research

Featured

Transcript

メールからの名刺情報抽出におけるLLM活用研究開発部 Data Analysis グループ大田尾匠 1

大田尾匠 Sansan株式会社技術本部研究開発部 Data Analysisグループ研究員京都大学大学院情報学研究科修士課程修了。在学中は、最適輸送を自然言語処理に応用した手法の研

営業DXサービスとしてのSansan 4

営業DXサービスとしてのSansan 5

- メールから送信者の情報を自動抽出し、名刺データと同じく接点情報として Sansan上に蓄積できる機能 - オンライン上で築いた人脈を、社内で共有・活用できるメール署名取り込み 6

- 入力: メール全文 - 出力: 送信者の名刺相当の情報 - 氏名・会社名・部署など - 送信者以外の人物の情報は含めない

- メール本文が長い - 過去スレッドも含めると、文章量が膨大 - 複数人の情報が含まれている - 送信者の情報のみを抽出する必要があるメールから送信者の情報のみを抽出することの難しさ差出人:

- LLMは複雑な文脈を理解でき、情報抽出の精度も高いことが知られている - メールから送信者の情報を抽出するタスクに対して、LLMの質問応答形式の性能を確認した - closed LLM・open LLMの両方で、性能を確認した

- 使用したLLM - closed LLM: GPT-4o - AzureのAPIを使用し、学習に利用されないプランを選定 - open

### 指示: メール本文を以下のJSONスキーマに従って変換し、JSONだけを出力してください。メール本文の中に含まれる、送信者の情報のみを応答のJSONに含めてください。 {'properties': {'person': {'default': '',

- LLMの検証値であり、実サービスで稼働しているエンジンとは無関係 - 氏名 - GPT-4oも比較的性能が高いが、open LLMの方が高性能 - 会社名 -

- GPT-4oと、指示チューニングしたopen LLMのそれぞれで実際の出力を見て、2つのケースを確認 - GPT-4o → 指示チューニングしたopen LLM で改善したケース

- 他人の会社名を誤抽出するケース - 送信者の会社名が存在しない場合に起こりやすい GPT-4o → open LLM で改善したケース Sansan株式会社

Sansan 技術本部募集ポジション紹介 https://media.sansan-engineering.com/