GUI操作LLMの最新動向: UI-TARSと関連論文紹介

© DeNA Co., Ltd. 1 GUI操作LLMの最新動向: UI-TARSと関連論文紹介 AI技術開発部藤川和樹
DeNA × AI Talk #1 2025/08/05

© DeNA Co., Ltd. 2 自己紹介 • 藤川和樹 /
Kazuki Fujikawa ◦ AI技術開発部副部長 ◦ AIによる全社生産性向上（LLM/VLMによるQA効率化）を中心に、既存事業・新規事業含め全社へのAI技術提供を統括しています • 趣味 ◦ Kaggle: 1xGrandmaster ◦ フットサル: Kagglerフットサル部所属 https://www.kaggle.com/kfujikawa

© DeNA Co., Ltd. 3 目次 GUI操作LLMエージェントとは？ GUI操作LLMエージェントの研究分野: ① ベンチマーク
GUI操作LLMエージェントの研究分野: ② GUI操作特化モデル 1 2 3 まとめ 4

© DeNA Co., Ltd. 5 GUI操作LLMエージェントとは？ • ブラウザ・PC・スマートフォンなどを指示に従って操作するLLMエージェント ◦ 入力:
タスクゴール・スクリーンショット画像・DOM、出力: クリックなどの行動 ◦ タスク: 買い物・プログラミング・ゲームプレイなど多岐に渡る（例: UI-TARS Showcase） • 人間レベルにはまだ遠い、難易度の高いタスク ◦ ChatGPT Agent [OpenAI, 25/07/17] で、WebArena [Zhou+, ICLR24] のタスク遂行率65.4％（人間: 78.2%） https://openai.com/ja-JP/index/introducing-chatgpt -agent/ OS Agents [Hu+, ACL25] 1

© DeNA Co., Ltd. 6 なぜGUI操作はLLMにとって難易度が高いのか？ • 曖昧な指示から行動計画を立てられる必要がある ◦ 例）「SEA→NYCの往復航空券を安い順で」
→ まず出発地の選択のために “From” をクリックしよう • 画面操作を正確に実行できる必要がある ◦ 例）“From” をクリック → click(0.247, 0.236) • 画面の状態を正確に理解できる必要がある ◦ 例）出発・到着地は正しく入力済み（SEA→NYC）、 Departがclickableで日付入力が要求されている状態 • エラーなど予想外の状況から復帰できる必要がある ◦ 例）SEARCHをクリックしたが「復路の指定が必要」とエラーが出たので “Return” から復路を指定しよう UI-TARS [Qin+, 25] 1

© DeNA Co., Ltd. 7 QAテスト自動化多事業を抱えるDeNAでは、プロダクトが仕様通り実装されているかを確認する品質管理（QA）の工程に年間数十億円規模のコストが発生。 QAテスト自動化はそのコストを下げる1つの有望な
要素技術。 GUI操作LLMエージェントは何に活用できるのか？ • QAテスト自動化・ツール連携業務自動化など、様々なシーンでの業務効率化が期待できる 1 ツール連携業務自動化経費精算、リサーチ結果のExcel転記、航空機・宿泊予約など、APIが提供されていないアプリやツール連携の自動化が期待できる。 AIが都度ブラウザを操作して思考するため、多少の UI変更などにも対応可能なことが強み。

© DeNA Co., Ltd. 9 GUI操作LLMエージェントの研究分野 • ① LLMの性能評価のためのベンチマーク ◦
プラットフォーム × タスク × 評価方法で様々な研究が存在 • ② GUI操作に特化したモデル学習 ◦ 継続事前学習（GUI特化の知識学習）→ 教師あり学習（行動計画の学習） → 強化学習（エラー回避/復帰の学習） OS Agents [Hu+, ACL25] 2

© DeNA Co., Ltd. 10 GUI操作LLMエージェントの研究分野: ① ベンチマーク • OSWorld
[Xie+, NeurIPS24 (arxiv2404)] ◦ 369件の実世界コンピュータタスクのベンチマーク ◦ Office操作, プログラミング, 画像編集など8種の代表的アプリを利用 ◦ 複数アプリに跨るワークフロータスクを含むタスク例：与えられた領収書の写真から帳簿を更新タスク定義ファイルにセットアップ・指示・評価方法などを記述セットアップ：・VM Snapshot (libreoﬃce_calc) を利用・GoogleDriveから xlsx/jpg を取得評価：・GoogleDriveから GT を取得し、編集すべきでない箇所の完全一致を確認・編集箇所は、Case Insensitive, 少数第一位までなどの条件で確認主要なAIによるベンチマーク（25/07） Rank Model Score 1 GTA1 w/ o3 (100 steps) Salesforce & The Australian National University & The University of Hong Kong 45.2 2 OpenAI CUA o3 (200 steps) OpenAI 42.9 3 UI-TARS-1.5 (100 steps) ByteDance Seed & Tsinghua University 42.5 - （Human Performance） 73.36 ベースラインモデルの失敗事例 GIMPの明るさ調節を探してランダムにクリックを繰り返して失敗 Cookie同意を閉じれずに背後のページを操作しようとして失敗 2

© DeNA Co., Ltd. 11 テキスト先頭にテキストを追記しようとしたものの、座標がズレて末尾に追記してしまって失敗 •
AndroidWorld [Rawles+, ICLR25] ◦ 116件のモバイル（app/web）特化したタスクベンチマーク ◦ ブラウザ、カレンダー、メッセンジャーなど20種のアプリを利用 GUI操作LLMエージェントの研究分野: ① ベンチマーク概要図タスク/評価方法例主要なAIによるベンチマーク（25/07） Rank Model Score 1 JT-GUIAgent-V2 67.2 2 DroidRun 63.0 3 Seed1.5-VL 62.1 - （Human Performance） 80.0 ベースラインモデルの失敗事例プレースホルダを勘違いして「ノート名は入力済み」と判断し、ノート名を入力せず失敗 2

© DeNA Co., Ltd. 12 GUI操作LLMエージェントの研究分野: ① ベンチマーク • AndroidControl
[Li+, NeurIPS24] ◦ 15,283件のクラウドソーシングで作成したAndroid操作データセット ◦ 高レベルな説明（ゴールのみ）、低レベルな説明（具体操作）をアノテーション ◦ 20人のアノテータ、833種類のアプリ、平均5.5ステップ/タスクタスク例：Amazonでバスマティライスを購入評価：Step Accuracy 一般的なアプリで収集した行動ログであるため、ゴール達成状態を確認するスクリプトを組むのが難しい → 各ステップ毎の行動がアノテーションと一致しているかどうかのみを評価する 2

© DeNA Co., Ltd. 14 • UI-TARS [Qin+, arxiv2501] ◦
ByteDanceから公開されたGUI操作エージェント（Github） ◦ Qwen2-VLをベースに3フェーズの学習を実施 ▪ Phase1（継続事前学習）：GUIに特化した「認識」「行動」「推論」の基礎学習 ▪ Phase2（Annealing）：高品質データとエラー修正軌跡による方策の洗練学習 ▪ Phase3（DPO）：正負の行動ペアを用いた報酬モデルの直接最適化 GUI操作LLMエージェントの研究分野: ② GUI操作特化モデル 3

Qwen2-VLをベースに3フェーズの学習を実施 ▪ Phase1（継続事前学習）：GUIに特化した「認識」「行動」「推論」の基礎学習 GUI操作LLMエージェントの研究分野: ② GUI操作特化モデル 3 認識: GUIに特化した基礎タスククローリング+人手で収集したweb/アプリ画像に対して、VLMで各種タスクのGTを作成 Dense Caption [Input] 要素、レイアウト、スタイリング全てについて詳細な説明をしてください [Output] TSB Bankのwebsiteで、 .... 行動: アクションとページ遷移の学習 OSSデータセット（e.g. AITW）+独自収集で、次の行動とページ状態を推定するタスクを作成推論: 状態→行動に至る思考の学習「行動」データセットに対して思考過程を言語化し、訓練データに加える AITW [Rawles+, NeurIPS23] など行動軌跡データを利用 & ActionをPyAutoGUIで実行可能な関数に集約 ActRe（低コスト低品質）　　　を所与のものとして、　をVLMで出力 Thought Bootstrapping（高コスト高品質）　を所与のものとして、　を初期のUI-TARSで出力

Qwen2-VLをベースに3フェーズの学習を実施 ▪ Phase2（Annealing）：高品質データとエラー修正軌跡による方策の洗練学習 GUI操作LLMエージェントの研究分野: ② GUI操作特化モデル 3 Online Trace Bootstrapping より広範なタスクへ対応できるようにするため、人間・モデルでタスクを新規作成し、モデルによる行動・推論履歴の生成を実施 Reflection Tuning エージェントがタスク実行中の失敗から復帰する能力を高めるため、失敗後に人間が代わって正しい行動でタスク遂行するログを訓練データに追加 Error correction trace pair エージェントの誤りを置換して正しい行動列にしたデータ Post-reflection trace pair エージェントが誤りを犯した後に復帰する行動を含めたデータ

Qwen2-VLをベースに3フェーズの学習を実施 ▪ Phase3（DPO）：正負の行動ペアを用いた報酬モデルの直接最適化 • SFTは「正しい軌跡」しか利用しないため、「誤った軌跡」に負の報酬を定義できない • Reflection Tuningで得た正負の行動ペアデータを利用し、DPOの損失関数最小化を行う GUI操作LLMエージェントの研究分野: ② GUI操作特化モデル 3 : 最適化対象モデルの方策 : SFTで作成したモデルの方策（破滅的忘却対策） : エージェントが生成した「好ましくない」行動 : 人間が修正した「好ましい」行動

実験：「Perception」「Grounding」「Agent」能力を評価 ▪ 使用モデル：UI-TARS 2B/7B/72B ▪ Perception：VisualWebBench, WebSRC, ScreenQA-shortで評価 ▪ Grounding：ScreenSpot-Pro, ScreenSpot-v2で評価 ▪ Agent (offline)：Multimodal Mind2Web, Android Control, GUI Odysseyで評価 ▪ Agent (online)：OSWorld, AndroidWorldで評価 GUI操作LLMエージェントの研究分野: ② GUI操作特化モデル 3

© DeNA Co., Ltd. 20 まとめ • GUI操作LLMエージェントの研究動向を紹介 ◦ データセット・ベンチマーク
▪ より実用的なシナリオ、多様なデバイス、複数アプリ横断などタスクが複雑化 ▪ AI訓練に活用できるデータ件数の収集、思考に関連するサブゴール情報の付与 ▪ 現実世界の評価と近いタスク遂行評価方法の提案 ◦ モデル学習 ▪ 継続事前学習: GUIの意味理解の強化 ▪ SFT: 視覚情報 → GUIの座標へのマッピングに必要な思考能力の強化 ▪ RL: 失敗含めた多くの状況観測と失敗からの復帰行動の学習 4

© DeNA Co., Ltd. 21 References • Zhou, Shuyan, et
al. "Webarena: A realistic web environment for building autonomous agents." In ICLR 2025. • Xie, Tianbao, et al. "Osworld: Benchmarking multimodal agents for open-ended tasks in real computer environments." in NeurIPS 2024. • Rawles, Christopher, et al. "Androidworld: A dynamic benchmarking environment for autonomous agents." In ICLR 2025. • Li, Wei, et al. "On the effects of data scale on ui control agents." In NeurIPS 2024. • Qin, Yujia, et al. "Ui-tars: Pioneering automated gui interaction with native agents." arXiv preprint arXiv:2501.12326 (2025). 4

GUI操作LLMの最新動向: UI-TARSと関連論文紹介

GUI操作LLMの最新動向: UI-TARSと関連論文紹介

Kazuki Fujikawa

More Decks by Kazuki Fujikawa

Other Decks in Programming

Featured

Transcript

© DeNA Co., Ltd. 1 GUI操作LLMの最新動向: UI-TARSと関連論文紹介 AI技術開発部藤川和樹

© DeNA Co., Ltd. 2 自己紹介 • 藤川和樹 /

© DeNA Co., Ltd. 3 目次 GUI操作LLMエージェントとは？ GUI操作LLMエージェントの研究分野: ① ベンチマーク

© DeNA Co., Ltd. 4 目次 GUI操作LLMエージェントとは？ GUI操作LLMエージェントの研究分野: ① ベンチマーク

© DeNA Co., Ltd. 5 GUI操作LLMエージェントとは？ • ブラウザ・PC・スマートフォンなどを指示に従って操作するLLMエージェント ◦ 入力:

© DeNA Co., Ltd. 6 なぜGUI操作はLLMにとって難易度が高いのか？ • 曖昧な指示から行動計画を立てられる必要がある ◦ 例）「SEA→NYCの往復航空券を安い順で」

© DeNA Co., Ltd. 7 QAテスト自動化多事業を抱えるDeNAでは、プロダクトが仕様通り実装されているかを確認する品質管理（QA）の工程に年間数十億円規模のコストが発生。 QAテスト自動化はそのコストを下げる1つの有望な

© DeNA Co., Ltd. 8 目次 GUI操作LLMエージェントとは？ GUI操作LLMエージェントの研究分野: ① ベンチマーク

© DeNA Co., Ltd. 9 GUI操作LLMエージェントの研究分野 • ① LLMの性能評価のためのベンチマーク ◦

© DeNA Co., Ltd. 10 GUI操作LLMエージェントの研究分野: ① ベンチマーク • OSWorld

© DeNA Co., Ltd. 11 テキスト先頭にテキストを追記しようとしたものの、座標がズレて末尾に追記してしまって失敗 •

© DeNA Co., Ltd. 12 GUI操作LLMエージェントの研究分野: ① ベンチマーク • AndroidControl

© DeNA Co., Ltd. 13 目次 GUI操作LLMエージェントとは？ GUI操作LLMエージェントの研究分野: ① ベンチマーク

© DeNA Co., Ltd. 14 • UI-TARS [Qin+, arxiv2501] ◦

© DeNA Co., Ltd. 15 • UI-TARS [Qin+, arxiv2501] ◦

© DeNA Co., Ltd. 16 • UI-TARS [Qin+, arxiv2501] ◦

© DeNA Co., Ltd. 17 • UI-TARS [Qin+, arxiv2501] ◦

© DeNA Co., Ltd. 18 • UI-TARS [Qin+, arxiv2501] ◦

© DeNA Co., Ltd. 19 目次 GUI操作LLMエージェントとは？ GUI操作LLMエージェントの研究分野: ① ベンチマーク

© DeNA Co., Ltd. 20 まとめ • GUI操作LLMエージェントの研究動向を紹介 ◦ データセット・ベンチマーク

© DeNA Co., Ltd. 21 References • Zhou, Shuyan, et