Upgrade to Pro — share decks privately, control downloads, hide ads and more …

社内のデータ分析・抽出依頼への対応時間を80%削減した話 / 250325_ci_data

社内のデータ分析・抽出依頼への対応時間を80%削減した話 / 250325_ci_data

■ イベント
コミュニケーションデータを扱う SaaS 企業が切り拓く、新たなビジネス機会
https://ivry.connpass.com/event/346397/

■ 発表者
技術本部 研究開発部 SocSciグループ
金髙 右京

■ 研究開発部 採用情報
https://media.sansan-engineering.com/randd

■ Sansan Tech Blog
https://buildersbox.corp-sansan.com/

Sansan R&D

March 24, 2025
Tweet

More Decks by Sansan R&D

Other Decks in Technology

Transcript

  1. ⾦髙 右京 ukanetaka Sansan株式会社 技術本部 研究開発部 研究員 早稲⽥⼤学政治学研究科修⼠課程修了。在学中は、国際政治学や 政治学⽅法論(ベイズ統計モデリング・因果推論)の研究に取り 組む。

    2024年にSansan株式会社に新卒として⼊社し、データアナリス ト/アナリティクスエンジニアとして社内データ利活⽤推進に従 事。データ整備から効果検証までデータに関することなら何でも やってます。 最近はトレランにどハマり中。奥武蔵にほぼ毎週います。
  2. 会社概要 2 本社 神山ラボ Sansan Innovation Lab 社 名 Sansan株式会社

    所在地 渋⾕サクラステージ本社 東京都渋⾕区桜丘町1-1 渋⾕サクラステージ 28F グループ 会社 Sansan Global Pte. Ltd.(シンガポール) Sansan Global Development Center, Inc.(フィリピン) Sansan Global (Thailand) Co., Ltd.(タイ) ログミー株式会社 株式会社ダイヤモンド企業情報編集社 クリエイティブサーベイ株式会社 株式会社⾔語理解研究所 従業員数 1,789名(2024年11⽉30⽇時点) 2007年6⽉11⽇ 設 ⽴ ⽀店名:関⻄⽀店、福岡⽀店、中部⽀店 サテライトオフィス:Sansan神⼭ラボ(徳島)、 Sansan Innovation Lab(京都)、Sansan⻑岡ラボ(新潟) 拠 点 寺⽥ 親弘 代表者
  3. 請求 ⼈や企業との出会いをビジネスチャンスにつなげる「働き⽅を変えるDXサービス」を提供 ビジネスフローにおけるさまざまな分野でサービスを展開 名刺管理 名刺DX 営業 営業DX 契約 契約DX 経理DX

    個⼈向けDX 法⼈向けDX 必要な情報を すぐに⾒つけられる 情報の管理がしやすく すぐに共有できる 情報を分析・活⽤しやすく データに基づいた判断ができる SansanのDXサービスの活⽤で変わる働き⽅ 働き⽅を変えるDXサービス
  4. 各R&Dテーマの事業領域における位置付け 画像処理・画像認識 ⾃然⾔語処理 機械学習 データサイエンス ・因果推論 データ可視化 プロダクトマネジメント 新規事業 営業/CS

    (社内課題) 解約阻⽌・利⽤促進(CS) 営業効率化(営業) テキスト抽出/認識 VQA ⼊⼒の⾃動化 OCR/項⽬分割など 画像補正 特徴語判定 会社 キーワード 固有表現抽出 メール署名 取り込み 固有表現抽出 ニュース 配信 ⽂書分類 ResNet 企業ロゴ 抽出 Graph Embeding レコメンデ ーション ラベル 予測 名寄せ RCT ABテスト ・効果検証 パネルデータ 分析 Sansan Labs (新機能開発) Sansan BI (BI提供) キーバリュー抽出 帳票のデータ化 Graph Neural Network
  5. 各R&Dテーマの事業領域における位置付け 画像処理・画像認識 ⾃然⾔語処理 機械学習 データサイエンス ・因果推論 データ可視化 プロダクトマネジメント 新規事業 営業/CS

    (社内課題) 解約阻⽌・利⽤促進(CS) 営業効率化(営業) テキスト抽出/認識 VQA ⼊⼒の⾃動化 OCR/項⽬分割など 画像補正 特徴語判定 会社 キーワード 固有表現抽出 メール署名 取り込み 固有表現抽出 ニュース 配信 ⽂書分類 ResNet 企業ロゴ 抽出 Graph Embeding レコメンデ ーション ラベル 予測 名寄せ RCT ABテスト ・効果検証 パネルデータ 分析 Sansan Labs (新機能開発) Sansan BI (BI提供) キーバリュー抽出 帳票のデータ化 Graph Neural Network
  6. データから、営業の⾏動変容を⽣み出す あらゆるデータを統合 Sansanで営業戦略の意思決定を⾏い、実⾏するための基盤がSansan BIです。 個社の意思決定と実⾏に必要なデータやインターフェースで、営業の⾏動変容にコミットします。 Sansan Data Hubの ⾼度な名寄せ技術を活⽤し、 意思決定に必要なSansan内外のデータを

    統合・構造化できる。 UIをカスタマイズ 固定のUIではなく、 利⽤者にとって最適なUIで データを活⽤することができ、 ⾏動変容につなげられる。 ⽣成AIでの気付き 情報の要約やインサイトの提供が ⽣成AIを⽤いて⾏え、 特に営業マネジメント層の ⽣産性を向上できる。
  7. Cloud Storage Amazon S3 Amazon Aurora Storage Transfer Service Cloud

    SQL Logging Cloud Composer Project データ基盤 Data lake BigQuery Project データ分析A BigQuery DWH BigQuery Data mart BigQuery Project データ分析B BigQuery Group A Group B データ基盤エンジニア その他 AWSリソース Azure Blob Storage Salesforce データ基盤アーキテクチャ
  8. Time-to-insight削減への取り組み - データ基盤チームとして、依頼からデータ提供までにかかる時間 (Time- to-insight; TTI) の削減へ取り組んでいる - 依頼量の⼤幅増加に伴い、⼀件あたりの捌くスピードが落ちてしまっている -

    データ基盤側がデータ利活⽤推進のボトルネックとなりかねない逆説的な 状況に - データ提供までのスピードを上げ、よりデータドリブンなカルチャーを醸成 していく
  9. - 全社横断データ基盤にプロダクトDB側にあるデータの連携を強化 1. 全社横断基盤へのデータ連携 Cloud Storage Amazon S3 Amazon Aurora

    Storage Transfer Service Cloud SQL Logging Cloud Composer Project データ基盤 Data lake BigQuery Project データ分析A BigQuery DWH BigQuery Data mart BigQuery Project データ分析B BigQuery Group A Group B データ基盤エンジニア その他 AWSリソース Azure Blob Storage Salesforce
  10. 3. 徹底したdimensional modeling - dbt を⽤いたdimensional modeling - 全社基盤へのデータ連携によりアナリスト側でのtransformが可能に -

    秘伝のクエリ解読によるロジック把握および事業部側との協⼒から Dim/Factを特定し、徹底的なデータモデリングを⾏った - Ex.) ユーザー/企業Dim, 名刺交換Fact, etc. - 効率的にデータ分析および抽出作業が可能となり、依頼対応時間削減に ⼤きく貢献
  11. - ユーザー・企業属性を網羅した巨⼤な分析特化Dimensionを作成 - 利⽤状況、職種、業界といった属性を各ソースからモデリング - CTEsやサブクエリを使うことなくselect / from / join

    / where のみの単純なクエ リでデータ分析・抽出が可能に - データ抽出⽤のアプリケーションを作り、事業部側ユーザーだけで 抽出プロセスが完結するようにした - 属性情報を選択するだけで必要なデータが取れる世界 *賛否あるかも 「デカい」dimensionは全てを制す* I
  12. Concluding remarks - データ連携やモデリングを通して80%の依頼対応時間削減を実現した - データ利活⽤の⼤幅推進とデータドリブンなカルチャーの醸成につながる - セルフサービス化も達成しつつある - 「デカい」dimensionは全てを制す

    - 属性を広く網羅したテーブルで⽚づける、分析は10秒で終わらせる - 副産物として、並⾏して⾏っている効果検証やEDAの速度も向上した - ただし、現状だとただのパワープレーに過ぎず、もっとやれる - LLM君がもっと⼤胆に解決してくれるかも?模索中...