Upgrade to Pro — share decks privately, control downloads, hide ads and more …

GUI操作LLMの最新動向: UI-TARSと関連論文紹介

GUI操作LLMの最新動向: UI-TARSと関連論文紹介

GUI操作LLMエージェントについて、ベンチマーク・GUI操作特化LLMの研究動向を紹介するスライドです。

Avatar for Kazuki Fujikawa

Kazuki Fujikawa

August 07, 2025
Tweet

More Decks by Kazuki Fujikawa

Other Decks in Programming

Transcript

  1. © DeNA Co., Ltd. 2 自己紹介 • 藤川 和樹 /

    Kazuki Fujikawa ◦ AI技術開発部 副部長 ◦ AIによる全社生産性向上(LLM/VLMによるQA効率化)を中心に、 既存事業・新規事業含め全社へのAI技術提供を統括しています • 趣味 ◦ Kaggle: 1xGrandmaster ◦ フットサル: Kagglerフットサル部所属 https://www.kaggle.com/kfujikawa
  2. © DeNA Co., Ltd. 3 目次 GUI操作LLMエージェントとは? GUI操作LLMエージェントの研究分野: ① ベンチマーク

    GUI操作LLMエージェントの研究分野: ② GUI操作特化モデル 1 2 3 まとめ 4
  3. © DeNA Co., Ltd. 4 目次 GUI操作LLMエージェントとは? GUI操作LLMエージェントの研究分野: ① ベンチマーク

    GUI操作LLMエージェントの研究分野: ② GUI操作特化モデル 1 2 3 まとめ 4
  4. © DeNA Co., Ltd. 5 GUI操作LLMエージェントとは? • ブラウザ・PC・スマートフォンなどを指示に従って操作するLLMエージェント ◦ 入力:

    タスクゴール・スクリーンショット画像・DOM、出力: クリックなどの行動 ◦ タスク: 買い物・プログラミング・ゲームプレイなど多岐に渡る(例: UI-TARS Showcase) • 人間レベルにはまだ遠い、難易度の高いタスク ◦ ChatGPT Agent [OpenAI, 25/07/17] で、WebArena [Zhou+, ICLR24] の タスク遂行率65.4%(人間: 78.2%) https://openai.com/ja-JP/index/introducing-chatgpt -agent/ OS Agents [Hu+, ACL25] 1
  5. © DeNA Co., Ltd. 6 なぜGUI操作はLLMにとって難易度が高いのか? • 曖昧な指示から行動計画を立てられる必要がある ◦ 例)「SEA→NYCの往復航空券を安い順で」

    → まず出発地の選択のために “From” をクリックしよう • 画面操作を正確に実行できる必要がある ◦ 例)“From” をクリック → click(0.247, 0.236) • 画面の状態を正確に理解できる必要がある ◦ 例)出発・到着地は正しく入力済み(SEA→NYC)、 Departがclickableで日付入力が要求されている状態 • エラーなど予想外の状況から復帰できる必要がある ◦ 例)SEARCHをクリックしたが「復路の指定が必要」と エラーが出たので “Return” から復路を指定しよう UI-TARS [Qin+, 25] 1
  6. © DeNA Co., Ltd. 7 QAテスト自動化 多事業を抱えるDeNAでは、プロダクトが仕様通り 実装されているかを確認する品質管理(QA)の 工程に年間数十億円規模のコストが発生。 QAテスト自動化はそのコストを下げる1つの有望な

    要素技術。 GUI操作LLMエージェントは何に活用できるのか? • QAテスト自動化・ツール連携業務自動化など、様々なシーンでの業務効率化が 期待できる 1 ツール連携業務自動化 経費精算、リサーチ結果のExcel転記、航空機・ 宿泊予約など、APIが提供されていないアプリや ツール連携の自動化が期待できる。 AIが都度ブラウザを操作して思考するため、多少の UI変更などにも対応可能なことが強み。
  7. © DeNA Co., Ltd. 8 目次 GUI操作LLMエージェントとは? GUI操作LLMエージェントの研究分野: ① ベンチマーク

    GUI操作LLMエージェントの研究分野: ② GUI操作特化モデル 1 2 3 まとめ 4
  8. © DeNA Co., Ltd. 9 GUI操作LLMエージェントの研究分野 • ① LLMの性能評価のためのベンチマーク ◦

    プラットフォーム × タスク × 評価方法 で様々な研究が存在 • ② GUI操作に特化したモデル学習 ◦ 継続事前学習(GUI特化の知識学習)→ 教師あり学習(行動計画の学習) → 強化学習(エラー回避/復帰の学習) OS Agents [Hu+, ACL25] 2
  9. © DeNA Co., Ltd. 10 GUI操作LLMエージェントの研究分野: ① ベンチマーク • OSWorld

    [Xie+, NeurIPS24 (arxiv2404)] ◦ 369件の実世界コンピュータタスクのベンチマーク ◦ Office操作, プログラミング, 画像編集など8種の代表的アプリを利用 ◦ 複数アプリに跨るワークフロータスクを含む タスク例:与えられた領収書の写真から帳簿を更新 タスク定義ファイルにセットアップ・指示・評価方法などを記述 セットアップ: ・VM Snapshot (libreoffice_calc) を利用 ・GoogleDriveから xlsx/jpg を取得 評価: ・GoogleDriveから GT を取得し、編集すべき でない箇所の完全一致を確認 ・編集箇所は、Case Insensitive, 少数第一位 までなどの条件で確認 主要なAIによるベンチマーク(25/07) Rank Model Score 1 GTA1 w/ o3 (100 steps) Salesforce & The Australian National University & The University of Hong Kong 45.2 2 OpenAI CUA o3 (200 steps) OpenAI 42.9 3 UI-TARS-1.5 (100 steps) ByteDance Seed & Tsinghua University 42.5 - (Human Performance) 73.36 ベースラインモデルの失敗事例 GIMPの明るさ調節を探してランダムに クリックを繰り返して失敗 Cookie同意を閉じれずに背後の ページを操作しようとして失敗 2
  10. © DeNA Co., Ltd. 11 テキスト先頭にテキストを 追記しようとしたものの、 座標がズレて末尾に追記し てしまって失敗 •

    AndroidWorld [Rawles+, ICLR25] ◦ 116件のモバイル(app/web)特化したタスクベンチマーク ◦ ブラウザ、カレンダー、メッセンジャーなど20種のアプリを利用 GUI操作LLMエージェントの研究分野: ① ベンチマーク 概要図 タスク/評価方法例 主要なAIによるベンチマーク(25/07) Rank Model Score 1 JT-GUIAgent-V2 67.2 2 DroidRun 63.0 3 Seed1.5-VL 62.1 - (Human Performance) 80.0 ベースラインモデルの失敗事例 プレースホルダを 勘違いして「ノー ト名は入力済み」 と判断し、ノート 名を入力せず失敗 2
  11. © DeNA Co., Ltd. 12 GUI操作LLMエージェントの研究分野: ① ベンチマーク • AndroidControl

    [Li+, NeurIPS24] ◦ 15,283件のクラウドソーシングで作成したAndroid操作データセット ◦ 高レベルな説明(ゴールのみ)、低レベルな説明(具体操作)をアノテーション ◦ 20人のアノテータ、833種類のアプリ、平均5.5ステップ/タスク タスク例:Amazonでバスマティライスを購入 評価:Step Accuracy 一般的なアプリで収集した行動ログであるため、 ゴール達成状態を確認するスクリプトを組むのが 難しい → 各ステップ毎の行動がアノテーションと一致 しているかどうかのみを評価する 2
  12. © DeNA Co., Ltd. 13 目次 GUI操作LLMエージェントとは? GUI操作LLMエージェントの研究分野: ① ベンチマーク

    GUI操作LLMエージェントの研究分野: ② GUI操作特化モデル 1 2 3 まとめ 4
  13. © DeNA Co., Ltd. 14 • UI-TARS [Qin+, arxiv2501] ◦

    ByteDanceから公開されたGUI操作エージェント(Github) ◦ Qwen2-VLをベースに3フェーズの学習を実施 ▪ Phase1(継続事前学習):GUIに特化した「認識」「行動」「推論」の基礎学習 ▪ Phase2(Annealing):高品質データとエラー修正軌跡による方策の洗練学習 ▪ Phase3(DPO):正負の行動ペアを用いた報酬モデルの直接最適化 GUI操作LLMエージェントの研究分野: ② GUI操作特化モデル 3
  14. © DeNA Co., Ltd. 15 • UI-TARS [Qin+, arxiv2501] ◦

    Qwen2-VLをベースに3フェーズの学習を実施 ▪ Phase1(継続事前学習):GUIに特化した「認識」「行動」「推論」の基礎学習 GUI操作LLMエージェントの研究分野: ② GUI操作特化モデル 3 認識: GUIに特化した基礎タスク クローリング+人手で収集したweb/アプリ画像 に対して、VLMで各種タスクのGTを作成 Dense Caption [Input] 要素、レイアウト、スタイ リング全てについて詳細な 説明をしてください [Output] TSB Bankのwebsiteで、 .... 行動: アクションとページ遷移の学習 OSSデータセット(e.g. AITW)+独自収集で、 次の行動とページ状態を推定するタスクを作成 推論: 状態→行動に至る思考の学習 「行動」データセットに対して思考過程を言語化 し、訓練データに加える AITW [Rawles+, NeurIPS23] など行動軌 跡データを利用 & ActionをPyAutoGUIで 実行可能な関数に集約 ActRe(低コスト低品質)     を所与のものとして、 をVLMで出力 Thought Bootstrapping(高コスト高品質)   を所与のものとして、  を初期のUI-TARSで出力
  15. © DeNA Co., Ltd. 16 • UI-TARS [Qin+, arxiv2501] ◦

    Qwen2-VLをベースに3フェーズの学習を実施 ▪ Phase2(Annealing):高品質データとエラー修正軌跡による方策の洗練学習 GUI操作LLMエージェントの研究分野: ② GUI操作特化モデル 3 Online Trace Bootstrapping より広範なタスクへ対応できるようにするため、人間・モデル でタスクを新規作成し、モデルによる行動・推論履歴の 生成を実施 Reflection Tuning エージェントがタスク実行中の失敗から復帰する能力を 高めるため、失敗後に人間が代わって正しい行動で タスク遂行するログを訓練データに追加 Error correction trace pair エージェントの誤りを置換して正しい行動列にしたデータ Post-reflection trace pair エージェントが誤りを犯した後に復帰する行動を含めたデータ
  16. © DeNA Co., Ltd. 17 • UI-TARS [Qin+, arxiv2501] ◦

    Qwen2-VLをベースに3フェーズの学習を実施 ▪ Phase3(DPO):正負の行動ペアを用いた報酬モデルの直接最適化 • SFTは「正しい軌跡」しか利用しないため、「誤った軌跡」に負の報酬を定義できない • Reflection Tuningで得た正負の行動ペアデータを利用し、DPOの損失関数最小化を行う GUI操作LLMエージェントの研究分野: ② GUI操作特化モデル 3 : 最適化対象モデルの方策 : SFTで作成したモデルの方策(破滅的忘却対策) : エージェントが生成した「好ましくない」行動 : 人間が修正した「好ましい」行動
  17. © DeNA Co., Ltd. 18 • UI-TARS [Qin+, arxiv2501] ◦

    実験:「Perception」「Grounding」「Agent」能力を評価 ▪ 使用モデル:UI-TARS 2B/7B/72B ▪ Perception:VisualWebBench, WebSRC, ScreenQA-shortで評価 ▪ Grounding:ScreenSpot-Pro, ScreenSpot-v2で評価 ▪ Agent (offline):Multimodal Mind2Web, Android Control, GUI Odysseyで評価 ▪ Agent (online):OSWorld, AndroidWorldで評価 GUI操作LLMエージェントの研究分野: ② GUI操作特化モデル 3
  18. © DeNA Co., Ltd. 19 目次 GUI操作LLMエージェントとは? GUI操作LLMエージェントの研究分野: ① ベンチマーク

    GUI操作LLMエージェントの研究分野: ② GUI操作特化モデル 1 2 3 まとめ 4
  19. © DeNA Co., Ltd. 20 まとめ • GUI操作LLMエージェントの研究動向を紹介 ◦ データセット・ベンチマーク

    ▪ より実用的なシナリオ、多様なデバイス、複数アプリ横断などタスクが複雑化 ▪ AI訓練に活用できるデータ件数の収集、思考に関連するサブゴール情報の付与 ▪ 現実世界の評価と近いタスク遂行評価方法の提案 ◦ モデル学習 ▪ 継続事前学習: GUIの意味理解の強化 ▪ SFT: 視覚情報 → GUIの座標へのマッピングに必要な思考能力の強化 ▪ RL: 失敗含めた多くの状況観測と失敗からの復帰行動の学習 4
  20. © DeNA Co., Ltd. 21 References • Zhou, Shuyan, et

    al. "Webarena: A realistic web environment for building autonomous agents." In ICLR 2025. • Xie, Tianbao, et al. "Osworld: Benchmarking multimodal agents for open-ended tasks in real computer environments." in NeurIPS 2024. • Rawles, Christopher, et al. "Androidworld: A dynamic benchmarking environment for autonomous agents." In ICLR 2025. • Li, Wei, et al. "On the effects of data scale on ui control agents." In NeurIPS 2024. • Qin, Yujia, et al. "Ui-tars: Pioneering automated gui interaction with native agents." arXiv preprint arXiv:2501.12326 (2025). 4