Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Claude code Orchestra

Claude code Orchestra

Avatar for Taisei Ozaki

Taisei Ozaki

June 03, 2026

More Decks by Taisei Ozaki

Other Decks in Technology

Transcript

  1. ©MATSUO INSTITUTE, INC. 2 所属  株式会社 松尾研究所 データサイエンティスト 東京大学 松尾岩澤研究室 学術専門職員 大阪公立大学大学院 博士後期2年 DynamicsDesign研究室 来歴 2023年:大阪公立大学工学研究科 修士課程 入学

    2025年:同大学 博士後期課程 入学 2025年:東京大学及び株式会社松尾研究所 入職 学会   EMNLP / NAACL / AAAI / JSAI (優秀賞*2) / NLP その他活動 NLP & JSAI 若手の会委員 / GENIAC / AKATSUKI etc…  研究領域 VLM・LLM Agent・LLMの開発・応用  自己紹介 Ozaki Taisei  (尾崎  大晟) 部活動でのスポーツコーチング AI Agentを研究
  2. ©MATSUO INSTITUTE, INC. 3 本日の元ネタ 2026年1月末にリポジトリを公開.同時投稿の Claude Code Orchestra 記事も多数の反響をいただきました.

    あれから半年で,中身はかなり変わりました. Claude code orchestraとは Claude codeをインターフェースとし, Codex CLIとGemini CLIをSubAgentとして扱うことを前提に設計した CLI Agents 変遷 公開半年で170star,25forkをいただき,その後も継続的に発展して来ました. 連携をSKILLS型へ移行 Agent teamに対応 Gemini CLI廃止 26/4- 26/5- 26/5- MCPベースで各Agentを使っていたところを CLIベースに変更 並列実装SKILLSに対応 Claudeの画像能力・コンテキスト量がGeminiと肉薄 してきたことからGeminiを廃止
  3. ©MATSUO INSTITUTE, INC. 4 CLI Agent (Agentic CLI)とは,ターミナル (コマンドライン )上で動作する

    AI Agentの総称. CLIを通して自然言語でやり取りを行い,環境内のファイルを読取・編集する Agent.Aiderから始まり, Claude codeなどが代表格. CLI Agentとは Claude code Github Copilot CLI Codex CLI Gemini CLI ←VScode上にextention版のClaude codeとCodex CLI  を展開するとこんなイメージ. 用例: 「{任意のファイルパス }の以下のエラー内容に対応する形で修正して」 「このjsonlファイルをいい感じに Excelファイルに変換して」 「このマージコンフリクトをなんとかして」 Antigravity CLIになりました.
  4. ©MATSUO INSTITUTE, INC. 5 Anthoropicが提供する CLI Agentの中でもフラッグシップ的な存在のツール. CLAUDE.mdによるシステムプロンプト制御, SKILLSやhooks,subagent,Agent teamなどの多様な機能を持つ.

    Claude codeについて SKILLS 作業過程でメインエージェントが必要に応じて 自動で特定のファイルを読み込む機能. SubAgent メインのインターフェースとなるエージェント とは別に独立したコンテスト動くエージェント Hooks ファイル編集などの特定のタイミングに 連動して何等かの動作を行う機能
  5. ©MATSUO INSTITUTE, INC. 6 (旧)得意領域に応じた使い分けを探る 厳密に各社が強みを主張しているわけではないが, SNSを中心に Claude code・Codex CLI・Gemini

    CLIにはそれぞれ別個の 強みが存在している可能性が高い.それらを独自に調査し,強みが活きる形で作業区分けを行った. • Visualが絡んだ推論を行う場合は Geminiが圧倒 マルチモーダル推論能力を問う著名ベンチである MMLU-pro でもいまだに Gemini3 proが圧倒 • GPQAシリーズなどの Generalな言語推論能力は GPT あとはなぜかムズイことを任せろという言説が... この中では一番コンテキストウインドウが小さい • 平均的なコーディング能力はやはり Claude codeに歩がある ただ丁寧なインストラクションをしてあげないと難しい と,言われていたが, 4.6以降でロングランできるようになり無双 モードに入りそう
  6. ©MATSUO INSTITUTE, INC. 7 得意領域に応じた使い分けを探る opus4.7,4.8の登場, gpt-5.5の登場以降,モデルの強みにやや違いが現れており, opus4.7以降で画像の認識能力が大きく向上, codexモデルがなくなり gpt-5.4以降はコード周りが強化されたことで

    2強の構図に. 引き続きコーディング能力は Claudeが強いように見えるが, ほぼ差はないレベルに感じる. (差があるように感じていたらハーネス作りやコンテキスト管理がミスっているかも ) 1Mクラスのコンテキストになると Claude強い ちなみにcodexのgpt-5.5は400k Visionの能力はGeminiが最強だが誤差か
  7. ©MATSUO INSTITUTE, INC. 8 「Main Agentのコンテキスト消費を最小化する形で進めること」と「インターフェースを一元化し認知負荷を下げること」 を中心的な設計思想に置きつつ, hooks,rules,docsディレクトリを活用し,自動化範囲を最大化する. Claude Code

    Orchestraの設計思想 公式のClaude code ベストプラクティス Everything Claude code 1. Claudeに作業を検証する方法を与える — テスト・スクリーンショッ ト・期待出力を提供し,自己チェックさせる.公式が「最も効果的」と 明言 2. 探索→計画→実装の分離 — 計画モードで調査と実装を分け,間 違った問題を解決するリスクを排除 3. 環境を設定する — CLAUDE.md・hooks・skills・サブエージェント で,セッション横断の永続的コンテキストを整備 1. 専門家チームのように使う — なんでも屋ではなく,各エージェント に最小限のツールだけ与えて専門特化させる 2. hooksで確実な自動化 — CLAUDE.mdの「助言」ではなく,イベン ト発火で例外なく毎回実行される仕組みにする 3. MCP・SKILLS管理でリソース節約 — 有効化しすぎると 200k→70kまでコンテキストが縮小するため,プロジェクトごとに 10 個以下に絞る
  8. 9 0. Claude code orchestraでCLI Agentを使い分ける 1. CLI Agentと協調する時代の認知負荷の問題 2.

    認知負荷を意識したCLI Agent設計 3. ユースケース 4. 小言 9 Agenda
  9. ©MATSUO INSTITUTE, INC. 10 CLI / Claw Agentの登場により,人間の ”実作業”はどんどん AIによる代替が進んでいる.

    ”バイブコーディング ”から始まるように 人間の認知しない作業が多数存在,増加する中で,どうキャッチアップしていくかという認知不可問題が重要テーマになりつつある. CLI Agent / Claw Agent時代における問題意識 時代はHITLを前提としない世界へ HumanはどこにInするのがいいのか 旧来の活動ループ Auto Research • 旧来コーディング作業 (それ以外のあらゆる活動含め )は 人間の認知・判断を含むパイプラインで構築された. • AIの能力向上を背景に人間が行っていた作業が AIに代替されるシチュエーションが増えている. • codex・claude codeの登場はその先駆け. 1:人間を介さないでもいいようにする 2:人間の適切な介入場所を考える (本日) 2軸の 発展方向 ? ? ? • 生産性を高めるには当然すべて AIでやるのがいい. • ただ現在の AIには限界もあり,適切な人間の介入が 望まれる. • しかし介入するにはそのループでどういうことが行われ ていて,直近何をしたのかを認知することが必要. • 一方でAIが生み出す文章・コード量は膨大. 本日の課題 :どうやって膨大な情報を人間に認知させるか
  10. ©MATSUO INSTITUTE, INC. 11 Claude code Orchestraが重視している戦略は 2点. ・人間は指定した場所しか書き込まない. Agentとの会話も

    Claude codeとしか会話をしない. (UIの一元化 ) ・コンテキストを構造化し,ワークフロー (Skills)パターンをデザインする. (メモリエンジニアリング・パラグラフエンジニアリング ) 認知負荷を抑えるための考え方 人間と相対するMain Agentは単体化 メモリエンジニアリング Codex Codex • 人間が全エージェントを認知しない. • OrchestratorであるMain Agentを必ず経由する. Checkpointディレクトリ (後述) • 直近のループ (Agentが自律的に 行った作業 )が溜まっていく • ここを元に方針を整理したり,見 落としを指摘したり.. researchディレクトリ • WebSearch,Slack,Notion,他 リポジトリなどの Read作業をした ときの情報の整理 • “何”を”どこ”に置き,人間は ”何”を見るのか • 同時にAIにマルチセッションでロバストに動かす土台に これらの生データを 所定のMDで管理 (LLM wikiの思想)
  11. ©MATSUO INSTITUTE, INC. 12 ベースコードに対して CLI Agentと共に作業する場合,基本的に以下の形で作業が進む.その前提でスキル化しておく. ①ベースコードの全体理解 →②作業計画の立案 →③実際にコード編集

    →④レビュー &テスト&PR→⑤作業サマリをドキュメント化 主要Skills:/start-feature & /checkpointing /start-feature /checkpointing • 新しい機能開発や改善に着手するための起点スキル. • コード全体と過程の理解+計画立案支援が主要目的. • 長時間・複数回の作業を安全に継続するための状態管理 スキル(前述のcheckpointを生成するスキル ) ユーザーとのやり取り,他の Agentの作 業内容などをcheckpoint化.構造はLLM wiki準拠 Codex Codex checkpointの内容からSKILLSを自動更新 使用感的にこの作業は codexがgood Claude Codeの1Mコンテキストの理解能力・聞取能力 Codexの計画能力やサーベイ能力 協調: • 最初に全体像理解と計画し,これから何をやるかを 言語化したうえで,人間と合意を取り進める. • 「何をやろうとして,どこまでやった」を残し,人間の理解 補助と長期行動のロバスト性を向上に繋げる
  12. ©MATSUO INSTITUTE, INC. 13 人間が見るべき場所と重要指示 (作業要件定義 )を残す場所を明確化しておく. • 毎回の作業で残した checkpointをもとに,

    PROGRESS.mdが構築され,どういう状況なのかを把握できる. • DESIGN.mdに事実上の仕様 (要件定義的に最終的に到達したい状態や細かな更新など )を残し,常に作業方針を明確化できる. 人間はどこでキャッチアップし,意図を伝えるのか PROGRESS.md DESIGN.md • 現在地を知るための場所 • 直近5件のcheckpointから作成される作業まとめ • 目的地・方針を共有する場所 • リポジトリの立ち上げや作業都度で更新する仕様書 • セッションの開始時に読む. • 人間視点では直近何をしていて,それはなぜで, 今どこまで進んだのかを把握する. • セッションの開始時に読む. • 人間が要件や細かな仕様を明文化し, Agentはここを適宜 参照しながら進める.場合よっては修正する. • 二つのファイルに出口と入口を絞っているイメージ.ただ詳細が気になった場合は, checkpointへのリンク, さらにそこから実コードへのリンクを飛ばして曝露範囲を増やす (SKILLSの技術背景 )
  13. ©MATSUO INSTITUTE, INC. 14 主に3つのユースケースを考えており,コーディングへの活用・論文執筆への活用・ Personal knowledge Baseへの活用がある. それぞれで別のハーネスとコンテキスト管理方法を勘案しており,具体については後日テックブログ化予定. ユースケース

    Coding 論文執筆 PKB • バニラな利用方法 • /start-featureから/checkpointing のサイクルを回す • checkpointを元にどういった作業を 進めたのかを逐次確認可能 • Overleafでの複数人執筆を前提とし た利用方法 • 参考文献・実験コード・結果の統合的 な管理をモノリポで行う • 人間の編集と競合しないような pullと pushの制御を行う • ObsidianをViewerとして活用し, Cron作業をHermes Agentに, 共著はClaude code orchestra • Google DriveやTask,Github MCP,Notion CLI,Slack,Gensparl と自然に繋がり,PKBを構成
  14. ©MATSUO INSTITUTE, INC. 15 まとめと小言 Point! • 以下に継続的に Agentと協調するか (Agent

    Loopの中に入っていくか )をデザインする上で, 人間の認知負荷の低減の工夫 は非常に重要. • インターフェースを一元化し,どこで指示し,どこを見るのかを適切に事前定義する ことが 認知負荷低減につながる. • 作業を上手に checkpointさせる,蓄積させることがそもそも重要. 資産にもなるし,継続的にロバストに動かすことにもつながるし,何より認知するために必要. • 認知負荷低減の工夫はこれだけでは済まない. ポッドキャスティング や,HTMLの動的レポート化 ,サマリー動画化 など工夫余地は無数. Oops! Claude codeはSub Agent側が担当できないかも... Team開発でも共有と分担のすみ分けなどコンテキスト管理が重要...