Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介(CHI2025):Data Formulator 2: Iterative Crea...

論文紹介(CHI2025):Data Formulator 2: Iterative Creation of Data Visualizations, with AI Transforming Data Along theWay

Avatar for negi111111

negi111111

May 16, 2025
Tweet

More Decks by negi111111

Other Decks in Technology

Transcript

  1. © NTT Communications Corporation All Rights Reserved. 論文紹介: CHI2025 


    
 丹野 良介
 NTTコミュニケーションズ株式会社
 イノベーションセンター
 2025年05月16日
 Engineer Cafe@福岡

  2. © NTT Communications Corporation All Rights Reserved. 2 普段のお仕事 


    岩手大学とNTT Com、農学分野のAI人材育成を目的に「データサイエンス実践講義」を開始 - ZDNET Japan 
 NTT Comと住吉工業、ノーコード AIツール「Node-AI」を活用した自律的な DX推進の取り組みを実施 - クラウド Watch 

  3. © NTT Communications Corporation All Rights Reserved. 3 最近の登壇資料は公開しています 


    
• 気になる資料がありましたら、Speaker Deck/Githubでググって下さい(※直近のみ公開)
 • https://speakerdeck.com/negi111111
 • https://github.com/negi111111
 

  4. © NTT Communications Corporation All Rights Reserved. 4 一言でいうと? 


    マルチモーダルインタラクションとデータスレッドという新しいアプローチにより、AIを活用したデータ可視化の反復的 オーサリングにおける表現力と効率を大幅に向上させ、より直感的で柔軟なデータ探索体験を提供した(論文 :https://arxiv.org/abs/2408.16119、CHI2025)
 
 OSSで公開されており、
 OpenAI等のAPIが
 使えるなら直ぐ試せる
 以下のコマンドで
 立ち上げられる
 コード:https://github.com/microsoft/data-formulator?tab=readme-ov-file # install pip install data_formulator # start data_formulator
  5. © NTT Communications Corporation All Rights Reserved. 5 研究課題①:データ変換の複雑さ /

    ライブラリへの習熟 
 
 
 分析の目的に応じて、フィルタリング、集計、ランキング、リシェイプ(ピボットなど)…
 新規フィールドの計算など、様々なデータ変換が必要となり、目的の可視化結果を得るためには多くの試行錯誤が必 要→(例:データ処理として Pandas/Matplot/Seaborn/(Plotly)/(Numpy) は必ず利用する)
 
 内部でMatplotlib の機能を使用して散布図、棒グラフ、 箱ひげ図,...などを .plot() だけで実現
 特定の行や列を選択またはフィルタリングなども抽出は 直感的に記述可能
 age_sex = titanic[["Age", "Sex"]]
 
 出典:https://pandas.pydata.org/docs/getting_started/index.html#getting-started
  6. © NTT Communications Corporation All Rights Reserved. 6 研究課題②:既存のAI搭載可視化ツールの限界 


    
 
 
 単一ターン・テキストのみの指示の非現実 性 
 • 複雑な可視化の記述が難しい 
 複雑なチャートデザインを、テキストのみ のプロンプトで完全に、かつ正確に記述 することはユーザーにとってもAIモデルに とっても非常に困難
 
 • 意図の誤解 
 テキストプロンプトは自由度が高い反面、 曖昧さが生じやすい。AIがユーザーの意 図を誤解して望まない可視化を生成する リスクがある
 
 • 高品質なプロンプト作成の難易度 
 効果的なプロンプトを作成するには、スキ ルと試行錯誤が必要であり、特に経験の 浅いユーザーにとっては大きな障壁とな る
 

  7. © NTT Communications Corporation All Rights Reserved. 7 研究課題②:既存のAI搭載可視化ツールの限界 


    
 
 
 反復的操作のサポート不足 
 • 分岐・後戻りの困難さ 
 データ探索では一般的な、試行錯誤の 過程での「分岐」(異なる分析パスを試 す)や「後戻り」(前の状態に戻って修正 する)といった操作を既存のAIツールはう まくサポートしていない
 
 • コンテキスト管理の負担 
 わずかな変更でも毎回ゼロから指示を再 記述する必要が生じ、非効率。例えば、 ChatGPTは複数ターンの対話が可能だ が、会話が長くなるとAIが過去のどのコ ンテキストを参照すべきかを正しく理解す ることが難しくなる。ユーザーが明示的に 関連情報を再指示するなどの手間が発 生
 
 

  8. © NTT Communications Corporation All Rights Reserved. 8 提案手法: 


    マルチモーダルなインターフェース(GUIと自然言語の融合)と、反復履歴を効果的に管理しAIとの協調を促進する データスレッドという新しいアプローチを提案 
 →ユーザーはデータ変換の詳細な実装から解放され、より分析的な思考や試行錯誤に集中できるようになることを目 指す
 →①データスレッドからチャートを選択、②チャートビルダーで自然言語とGUIを組合せて入力を行い、
   新しいデザインを指定することで、データ変換とチャート更新のためのコードを生成しグラフ更新。
 

  9. © NTT Communications Corporation All Rights Reserved. 9 自然言語を用いた対話的データ分析の何が嬉しいのか 


    
 課題1:
 DBにアクセスしてデータ探索 するためには、SQL等のスキ ルが必要
 課題2:
 データから必要な結果を導き 出す為の加工するスキルが 必要(データ分析)
 出典:https://mindfulgeek.substack.com/p/enable-safe-chat-with-your-databases 課題3:
 結果を解釈するスキルが必 要

  10. © NTT Communications Corporation All Rights Reserved. 10 自然言語を用いた対話的データ分析の何が嬉しいのか 


    出典:文科省, 小学校プログラミング教育の手引(第二版), https://www.mext.go.jp/content/20200218-mxt_jogai02-100003171_002.pdf 課題:初学者は自分が実施したい分析をツール(プログラミングも含めて)を用いて上手く表現(実装・分析)するこ とができない 

  11. © NTT Communications Corporation All Rights Reserved. 11 ユーザビリティテスト 


    経験豊富なデータサイエンティストが行った2つのデータ探索を再現するテスト
 ※(目的)参加者がその場で探索目的を思いつくことを要求することなく、Df2を使って反復的にチャートを作成できる かどうかを確認するため。
 ここでは例として、「(2) データセット2:最高の投資利益率を持つ映画ジャンルとトップ映画を探索する。」に関する探索 チャートを示す。分岐方向は説明のために加えたもの。
 

  12. © NTT Communications Corporation All Rights Reserved. 12 個人的に面白かったポイント①:アプローチ方法の差異 


    参加者において深さ優先探索 / 幅優先探索の探索アプローチに違いが見られた
 (P1、P3、P5、P7、P8)は、(P2、P4、P6)よりも短いデータスレッドでより頻繁に分岐するのを好む
 P1はシステムメモリ使用量を最小限にするために簡潔に、短いスレッドを好む。P2は逆に思考整理のために長いス レッドを使用することを望む。
 学習タスクに対する参加者のワークフロー。各ノードはデータテーブルのバージョンを表し、青は初期データセット、 黄色はターゲットとなる可視化をインスタンス化したデータテーブル(ノード内の数字は、与えられたデータセットに 対するN番目のターゲットビジュアライゼーションを示す)、
 灰色はその他を示す。自己ループ矢印は、プロンプトのリビジョンとデータテーブルの更新を示す

  13. © NTT Communications Corporation All Rights Reserved. 13 個人的に面白かったポイント②:有効性の検証 


    有効性の実証(ユーザー評価)
 • 8名の参加者によるユーザー評価を実施
 • 参加者はDF2を迅速に習得し、12の非自明なデータ変換を含む計16の複雑な可視化タスクを完了
 • 提案したマルチモーダル入力とデータスレッドは、従来のテキストのみのAIアプローチと比較して、反復的なタスク における有効性とユーザー満足度が高い
 • ユーザーが独自の反復スタイルを開発し、自信を持って探索を進められることを観察
 提案しているシステムのユーザビリティ調査に参加したボランティアおよび8人の大企業からの参加者はきっと世界的 にも非常に優秀なデータサイエンティスト・開発者の結果になっているはず(著者がMSR)
 その中でも、自分でレベル4を付けた人物は異次元レベルに強いはずだから、バイアスすごそう
 
 

  14. © NTT Communications Corporation All Rights Reserved. 14 まとめ
 マルチモーダルインタラクションとデータスレッドという新しいアプローチにより、AIを活用したデータ可視化の反復的

    オーサリングにおける表現力と効率を大幅に向上させ、より直感的で柔軟なデータ探索体験を提供した(論文 :https://arxiv.org/abs/2408.16119、CHI2025)
 
 OSSで公開されており、OpenAI等の
 APIが使えるなら直ぐ試せる
 以下のコマンドで立ち上げられる
 コード:https://github.com/microsoft/data-formulator?tab=readme-ov-file # install pip install data_formulator # start data_formulator