エージェントスキルによる最適化

エージェントスキルによる最適化まえがき・第 1 章・第 2 章・第 3 章の要点整理 MOAI Lab.
May 21, 2026 1 / 33

本スライドの位置づけまえがき: 汎用エージェントに専門知識を後付けする設計思想。第 1 章: AI の歴史を LLM、推論モデル、自律型エージェントまで接続。第
2 章: エージェントスキルの構造、配置、設計、評価方法。第 3 章: skill-creator、docx、pptx、xlsx の具体例と実装上の教訓。 2 / 33

目次 1 まえがき：なぜスキルなのか 2 第 1 章：AI からエージェントへ 3 第
2 章：エージェントスキルの設計 4 第 3 章：便利なエージェントスキル 5 まとめ 3 / 33

専用エージェントからスキル追加型へ用途ごとに専用エージェントを作る設計は、保守と拡張が重くなりやすい。強力な汎用エージェントを基盤に、専門知識をスキルとして追加する方が現実的。コード実行、ファイル操作、外部接続は多くの実務領域に共通する基盤能力。不足するのは知能そのものではなく、領域固有の手順・制約・判断基準である。 4 / 33

エージェント技術スタックの三層構造汎用エージェント推論、計画、ツール利用、ファイル操作を担う実行基盤。 MCP・外部接続データベース、API、業務システムへの接続層。スキル特定タスクの手順、スクリプト、テンプレート、評価
基準。プロセッサ = LLM / OS = エージェント / アプリ = スキル 5 / 33

スキルの本質中心は SKILL.md: 目的、利用条件、手順、関連ファイルを記述する。必要に応じて scripts/、テンプレート、画像、モデル、バイナリを同梱する。ファイルとフォルダなので、Git 管理、ZIP 配布、クラウド共有と相性がよい。すべてを常時読み込まず、必要時だけ詳細を展開する段階的開示が鍵。
6 / 33

AI 発展史の大きな流れ 1 記号的 AI: ルールと探索に基づく初期 AI。 2 統計的学習: データからパターンを獲得する機械学習へ。
3 深層学習: 表現学習と大規模ニューラルネットワークの時代。 4 LLM: 言語を汎用インターフェースにする基盤モデル。 5 エージェント: 対話から行動、実行、成果物生成へ。 7 / 33

トランスフォーマーの転換点 RNN/LSTM の逐次処理は長距離依存と並列化に限界があった。 Attention により、文脈内の関係を一括して扱えるようになった。 BERT は理解寄り、GPT は生成寄りに発展し、LLM の二大潮流を形成した。 Attention(Q,
K, V) = softmax ( QK⊤ √ dk ) V 8 / 33

スケーリング則と創発能力モデル規模、データ量、計算量を拡大すると性能が予測可能に向上する。 GPT 系列の拡大により、少数例学習やゼロショット能力が顕在化した。ただし、規模だけでは幻覚、安全性、実務制約への適合は解決しない。含意モデル性能の向上に加え、運用設計、評価、ツール接続が重要になる。 9 / 33

アライメントと ChatGPT の社会実装 InstructGPT は、人間の意図に沿う応答を作るため RLHF を導入した。 ChatGPT は、LLM を一般利用可能な対話インターフェースとして普及させた。
GPT-4 以降、マルチモーダル化と高難度タスク対応が進んだ。 1 教師ありファインチューニング 2 報酬モデルの学習 3 強化学習による最適化 10 / 33

推論モデルと Test-time Scaling 推論時に多くの計算を使い、問題を段階的に解くモデルが登場した。自己修正、検証、探索により、数学・コード・論理問題で性能が向上する。即答型 LLM から、熟考して検証するモデルへの転換が進んでいる。重要な変化学習時スケーリングだけでなく、推論時スケーリングが競争軸になる。
11 / 33

AI エージェントの定義単に回答するだけでなく、目標達成のために環境へ働きかける。観察、計画、実行、検証を繰り返すループを持つ。ツール、メモリ、ファイルシステム、外部 API を使って成果物を生成する。 Observe → Think
→ Act → Verify 12 / 33

自律型エージェントの進化 AutoGPT や BabyAGI は、自律ループ型エージェントの可能性を示した。 LangChain、LangGraph、AutoGen、CrewAI などが実装基盤を成熟させた。その先に、タスク単位の専門能力を追加するエージェントスキルが位置づく。 13 /
33

エージェントスキルとはエージェントに後付けできる、タスク特化の手続き的知識パッケージ。 Markdown の指示書だけでなく、スクリプト、テンプレート、評価データを含められる。必要時にだけ読み込まれるため、コンテキスト消費を抑えやすい。汎用エージェントを、領域特化エージェントのように振る舞わせる仕組み。 14 / 33

スキルの典型的な構造最小構成 SKILL.md name / description 利用条件実行手順拡張構成 scripts/
resources/ evals/ テンプレート・サンプル 15 / 33

スキル配置と認識条件スキルは決められたディレクトリ配下に置かれる。各スキルは独立したフォルダとして管理される。フォルダ内の SKILL.md とメタデータが、ルーティングの入口になる。プロジェクト固有、ユーザー固有、組織共有など、配置先でスコープを分けられる。 16 / 33

良いスキル記述の原則宣言的な一般論ではなく、手順として実行可能に書く。エージェントが迷いやすい判断点は、条件分岐として明示する。長い説明を避け、必要な詳細は外部ファイルやスクリプトへ逃がす。成功条件、検証方法、例外処理を含める。 17 / 33

説明文最適化とルーティング description は、スキルが呼び出されるかどうかを左右する重要なメタデータ。発動すべきクエリだけでなく、発動すべきでないニアミスも設計する。 False Positive と False Negative を評価し、説明文を反復改善する。
評価の視点「いつ使うか」だけでなく「いつ使わないか」を明確にする。 18 / 33

スクリプト同梱の価値 LLM に毎回コードを書かせるより、決定論的スクリプトを再利用する方が安定する。入力検証、ファイル変換、評価、再計算などはスクリプト化に向いている。エージェントは、スクリプトを道具として呼び出し、結果を解釈する役割に集中できる。 19 / 33

第 3 章で扱う 4 つのスキル skill-creator スキルを作るためのメタスキル。 docx Word 文書の読解、生成、編集、画像化。
pptx PowerPoint の構造保持、生成、視覚的 QA。 xlsx Excel/CSV の計算正確性、再計算、データ整形。 20 / 33

skill-creator: メタスキルとしての役割ユーザー要求から新規スキルの目的、構造、実装計画を作る。テストデータ、評価ケース、ベンチマークを含む改善ループを設計する。スキルあり・なしの比較により、効果を定量的に確認する。ポイントスキル作成を、単なるプロンプト執筆ではなくソフトウェア開発として扱う。 21 / 33

skill-creator の例: 複数 CSV 可視化複数 CSV の関係性を Union、Join、Comparison として判定する。
pandas や Plotly を用い、ダッシュボード生成を自動化する。評価ランにより、スキル利用時とベースラインの品質差を比較する。 22 / 33

docx スキル: Word 文書は ZIP 化された XML 群 .docx は単一ファイルに見えるが、実体は
OOXML の複雑なアーカイブ。生 XML を不用意に編集すると、スキーマ違反で文書が破損しやすい。読み取り、新規作成、既存編集、PDF 化・画像化で異なるツールチェーンを使う。 23 / 33

docx スキルの例: 履歴書テンプレート履歴書テンプレートに Web 上の公開情報を反映する。生成した docx を
PDF 化し、画像で確認する。誕生日など、外部情報にない項目では幻覚リスクが残る。 24 / 33

pptx スキル: 空間制約を扱う難しさ PowerPoint はテキストだけでなく、位置、サイズ、重なり、余白が品質を左右する。テンプレート駆動により、既存レイアウトを破壊せずに編集する。スクラッチ生成では、プレースホルダー ID やスライドサイズの罠に注意する。 25
/ 33

pptx スキルの例: Agent Skill 入門スライドダークテーマとライトテーマを使い分け、比較カードやプロセスフローを構成する。 26 / 33

pptx スキルの品質保証 PDF 化して画像に変換し、最終見た目を検査する。テキストのはみ出し、重なり、低コントラスト、余白不足を検出する。コードだけを見た自己評価ではなく、視覚的フィードバックループを回す。 27 / 33

xlsx スキル: 計算正確性が中心 Excel は表現よりも、計算、参照、データ整合性が重要になる。 pandas と openpyxl を使い分けるが、0 始まり/1
始まりのズレに注意が必要。ハードコードではなく、Excel ネイティブの数式とセル参照でモデル化する。 28 / 33

xlsx スキルの例: 動的ガントチャートタスク期間、ステータス、進捗率を数式で動的計算する。条件付き書式で進捗バー、週末、期限超過を表現する。 LibreOﬀice 等で再計算し、数式エラーを検証する。
29 / 33

4 スキルに共通する設計思想 LLM の弱点を、決定論的スクリプトと外部レンダリングで補う。生成物を実際の実行環境で観測し、エラーをフィードバックする。スキルは認知的補助具として、LLM を実務システムへ安全に接続する。 30 / 33

全体まとめ汎用エージェントに専門知識を追加するスキル型設計が、拡張性の高い方向性である。第 1 章は、AI の歴史を LLM から自律型エージェントへの流れとして整理した。第
2 章は、スキルの構造、配置、説明文、評価、スクリプト化を体系化した。第 3 章は、文書・スライド・表計算という実務成果物でスキルの意義を示した。 31 / 33

今後の視点スキルは、ドメイン知識、評価基準、実行ツールをまとめる再利用単位になる。価値はモデル単体ではなく、モデル、ツール、評価、運用の統合に宿る。サプライチェーンを含む業務領域では、専門スキル群の整備が競争力になる。 32 / 33

Thank you. 33 / 33

エージェントスキルによる最適化

エージェントスキルによる最適化

MIKIO KUBO

More Decks by MIKIO KUBO

Other Decks in Business

Featured

Transcript

エージェントスキルによる最適化まえがき・第 1 章・第 2 章・第 3 章の要点整理 MOAI Lab.

本スライドの位置づけまえがき: 汎用エージェントに専門知識を後付けする設計思想。第 1 章: AI の歴史を LLM、推論モデル、自律型エージェントまで接続。第

目次 1 まえがき：なぜスキルなのか 2 第 1 章：AI からエージェントへ 3 第

AI 発展史の大きな流れ 1 記号的 AI: ルールと探索に基づく初期 AI。 2 統計的学習: データからパターンを獲得する機械学習へ。

アライメントと ChatGPT の社会実装 InstructGPT は、人間の意図に沿う応答を作るため RLHF を導入した。 ChatGPT は、LLM を一般利用可能な対話インターフェースとして普及させた。

スキルの典型的な構造最小構成 SKILL.md name / description 利用条件実行手順拡張構成 scripts/

第 3 章で扱う 4 つのスキル skill-creator スキルを作るためのメタスキル。 docx Word 文書の読解、生成、編集、画像化。

skill-creator の例: 複数 CSV 可視化複数 CSV の関係性を Union、Join、Comparison として判定する。

docx スキル: Word 文書は ZIP 化された XML 群 .docx は単一ファイルに見えるが、実体は

docx スキルの例: 履歴書テンプレート履歴書テンプレートに Web 上の公開情報を反映する。生成した docx を

pptx スキルの例: Agent Skill 入門スライドダークテーマとライトテーマを使い分け、比較カードやプロセスフローを構成する。 26 / 33

xlsx スキル: 計算正確性が中心 Excel は表現よりも、計算、参照、データ整合性が重要になる。 pandas と openpyxl を使い分けるが、0 始まり/1

xlsx スキルの例: 動的ガントチャートタスク期間、ステータス、進捗率を数式で動的計算する。条件付き書式で進捗バー、週末、期限超過を表現する。 LibreOﬀice 等で再計算し、数式エラーを検証する。

全体まとめ汎用エージェントに専門知識を追加するスキル型設計が、拡張性の高い方向性である。第 1 章は、AI の歴史を LLM から自律型エージェントへの流れとして整理した。第

Thank you. 33 / 33