TransformerからMCPまで（現代AIを理解するための羅針盤）

現代AI を理解するための羅針盤 Transformer からMCP までの全貌解説 1

はじめに：現代AI を理解する旅目的: 複雑なAI専門用語を解き明かし、6つの核心概念を一つの物語として理解する。旅のルート: i. Transformer: すべての始まり ii.
LLM: 巨大なデジタル知性 iii. 生成AI: 無限の創造性 iv. RAG: 現実への接地 v. エージェントAI: 自律的な行動 vi. MCP: 協調する生態系 2

AI が遂げる「三重の進化」進化の潮流: i. 計算 (Computation) → 認知 (Cognition) ii.
生成 (Generation) → 行動 (Action) iii. 孤立 (Siloed Systems) → 協調 (Collaborative Ecosystem) インターネットとの類似性: AIも階層的な技術スタックを形成している。 3

第1 章: Transformer すべての土台となる革命的技術 2017年に発表された、現代AIの礎石。 Transformer以前と以後で、自然言語処理（NLP）の世界は一変した。 4

Transformer 以前の課題：逐次処理の壁主役: RNN (再帰型ニューラルネットワーク) 課題: i. 長期依存性の問題: 文が長くなるほど、文頭の情報を「忘れてしまう」。 (例：長い話の前提を忘れてしまう状態)
ii. 並列化の困難性: 一語ずつ処理するため、GPUの並列処理能力を活かせない。モデルの訓練に膨大な時間がかかっていた。 5

中核的革新：アテンション機構発想: 文中の単語を「同時」に処理し、単語間の関連性を計算する。仕組み: 重要な単語に「注意 (Attention)」を向け、文脈を正確に捉える。比喩: ウェブ検索 (Query, Key,
Value) Query (Q): 検索したい単語 (あなた) Key (K): 関連性を示す見出し (ウェブページのタイトル) Value (V): 意味そのもの (ウェブページの本文) 6

Transformer のその他の工夫マルチヘッド・アテンション: 複数の「アテンション」で、文脈を多角的に捉える。比喩: 専門家ぞろいの探偵チーム (指紋、アリバイ、動機など) 位置エンコーディング: 同時処理で失われた「語順」情報を補う。比喩:
各単語に「座席番号」を付与する。 7

革命的インパクト：スケールの解放最大の功績: 逐次処理の制約からAIを解放し、完全な並列処理を可能にした。結果: GPUの性能を最大限に引き出すことに成功。モデルの巨大化と性能向上の好循環（スケーリング則）が生まれる。 → 大規模言語モデル
(LLM) の誕生へ 8

第2 章: 大規模言語モデル (LLM) 言葉を操る巨大な知性 Transformerというエンジンを使い、「規模（スケール）」を追求した結果。 ChatGPT, Gemini 9

LLM とは何か？核心タスク: 「与えられた単語の次に、最も自然に来る単語を予測する」 (例：「吾輩は猫である。名前はまだ＿＿」 → 「無い」 ) この単純なタスクを極めることで、文法、事実、論理的推論能力などを獲得する。
「大規模」の正体: i. パラメータ: モデルの脳内にある無数の「調整ダイヤル」。(GPT-3で1750 億個) ii. データ: インターネット上の膨大なテキスト。 10

スケールの魔法：創発的能力モデルの規模がある閾値を超えると、教えられていない新しい能力が「創発 (emerge)」する。創発的能力の例: 要約質疑応答コード生成数学的推論これは「量質転化」の一例。
11

LLM は「文化の鏡」である訓練データ: インターネットという人類の知識と表現の集合体。意味: LLMは我々のデジタル文化を写し出す「鏡」。光: 科学的知識、文学的創造性影: 社会的偏見、誤情報、論理的誤謬（
ハルシネーション）課題: この強力な鏡に何を映し、どう活用していくか？ 12

第3 章: 生成AI 無から有を生み出す魔法 AIが分析ツールから、人間の創造性を拡張するパートナーへと変貌。テキスト、画像、音楽、コードなど、あらゆるデジタルコンテンツを生成する。 13

生成AI の位置づけ生成AI とは: 学習したデータパターンに基づき、新しいオリジナルコンテンツを生成するAIの総称。 LLM との関係: すべてのLLM は生成AI
の一種しかし、すべての生成AI がLLM ではない LLMは、生成AIの中で「テキスト生成」に特化したサブカテゴリー。 14

テキストを超えた創造性の爆発画像: DALL-E, Midjourney (プロンプトから画像を生成) 動画: Sora, Veo (テキストから動画を生成) 音声・音楽:
特定の作曲家スタイルで新曲を作成コード: 自然言語の指示からプログラムを生成 3D モデル: 建築プランやゲームキャラクターを自動生成合成データ: プライバシーが重要な領域で訓練用データを生成 15

生成AI = 「万能コンテンツエンジン」本質: あるドメインに十分なデータがあれば、そのルールに従った新しい成果物を自動生成できる。インパクト: デジタルコンテンツの「第一稿」作成コストがゼロに近づく。人間の役割は、より高度な知的作業へシフト。創造
(Creation) → キュレーション (Curation), 戦略 (Strategy) 16

第4 章: RAG ( 検索拡張生成) AI を” 知ったかぶり” から” 専門家”
へ LLMの実用化における2つの致命的な弱点を克服する技術。 i. 知識の陳腐化 (Knowledge Cutoff) ii. ハルシネーション (Hallucination) 17

RAG による解決策：現実への接地核心アイデア: LLMが回答を生成する前に、外部の信頼できる知識ソースにアクセスさせる。目的: LLMの回答を、リアルタイムかつ正確な情報に「接地 (grounding)」さ
せる。比喩: オープンブック・テスト ( 開本試験) 通常のLLM: 記憶だけが頼りの「閉本試験」 RAG: 教科書や資料を参照できる「開本試験」 18

RAG の3 ステップ・プロセス 1. 検索 (Retrieve) ユーザーの質問に基づき、外部の知識ベース（社内文書、DBなど）から関連情報を探し出す。 2. 拡張
(Augment) 取得した情報を、元の質問文に付け加え「拡張プロンプト」を作成する。 3. 生成 (Generate) 拡張プロンプトをLLMに渡し、提供された事実にのみ基づいて回答を生成させる。 19

RAG の価値：2 つの世界の架け橋 RAGは、2つの異なる世界を繋ぐアーキテクチャ上の「架け橋」。確率論的な世界: LLM（創造的だが、時に不正確）決定論的な世界: データベース（事実に基づき、常に正確）決定論的な検索システムが、確率論的な生成システムに「ガードレール」を提
供する。これにより、企業は信頼できるAIを実現できる。 20

第5 章: エージェントAI 自ら考え、行動するAI AIが受動的なツールから、能動的な主体へと進化。高レベルの目標を与えると、自ら計画を立て、ツールを使い、タスクを遂行する自律的なシステム。 21

エージェントの思考・行動サイクル 4つのステップを自律的に繰り返すことで、複雑なタスクを遂行する。 1. 知覚 (Perception): 環境から情報を収集する（メール、DB、Webなど）。 2. 推論と計画 (Reasoning &
Planning): 目標をサブタスクに分解し、実行計画を立てる。 3. 行動 (Action): 外部のツールやAPIを呼び出し、計画を実行する。 4. 省察 (Reflection): 結果を評価し、必要であれば計画を修正する。 22

エージェントAI = 知性の司令塔これまで議論してきたAI概念を統合し、指揮する「オーケストレーター」。脳: LLM 情報収集: RAG タスク実行:
生成AIや外部ツール比喩: プロジェクトマネージャープロジェクト目標を理解し、計画を立て、専門家（他のAI）にタスクを割り振り、進捗を管理して成功に導く。 23

知性の「アプリケーション層」エージェントAIは、AIの知性を具体的な「仕事」に変換するアプリケーション層。パラダイムシフト: 旧: 人間が個別のタスクを指示 (直接操作) (例：「請求書を作成」ボタンを押す) 新: 人間が目的を委任
(意図の委任) (例：「月末の請求処理を完了させておいて」と指示する) 人間は、知的作業の「監督者」「戦略家」へと役割が変わる。 24

第6 章: MCP (Model Context Protocol) AI エージェントを繋ぐ共通言語新たなボトルネック: 連携したいツールごとにAPI仕様が異なり、接続が煩雑に
なる「ツールのバベルの塔」問題。これを解決し、真のAIエコシステムを構築するための標準規格。 25

解決策：MCP = AI のためのUSB-C 役割: AIエージェントと外部ツールとの通信方法を標準化するオープンなプロトコル。比喩: AI のためのUSB-C
ポートかつてデバイスごとに異なっていた充電ケーブルがUSB-Cで統一されたように、MCPはAIとツールの接続を標準化する。 MCPに準拠していれば、どんなツールでもどんなエージェントにも「プラグアンドプレイ」で接続可能になる。 26

MCP が拓く未来：「エージェント経済圏」影響: MCPは、将来の「エージェント経済圏 (Agent Economy)」の誕生を可能にする。 HTTPがWebサイト市場を、App Storeがモバイルアプリ市場を創出したよう
に、MCPはAIエージェントとツールの市場を創出する。未来像: 特定タスクに特化した「専門家エージェント」が登場。「元請けエージェント」が、市場から最適な専門家エージェントに業務を委託し、協業して複雑な問題を解決する。 27

結論：壮大なる統合とAI の未来 6つの概念は独立せず、一つの統合されたワークフローとして連携する。 1. 人間が高レベルの目標をエージェントAIに与える。 2. エージェントはLLMを脳として計画を立案。 3. RAGで最新・正確な情報を収集。
4. MCPを通じて外部の専門ツール（生成AIなど）を呼び出す。 5. Transformerベースの各AIが連携し、目標を達成する。 28

ご清聴ありがとうございました 29

TransformerからMCPまで（現代AIを理解するための羅針盤）

TransformerからMCPまで（現代AIを理解するための羅針盤）

MIKIO KUBO

More Decks by MIKIO KUBO

Other Decks in Programming

Featured

Transcript

現代AI を理解するための羅針盤 Transformer からMCP までの全貌解説 1

はじめに：現代AI を理解する旅目的: 複雑なAI専門用語を解き明かし、6つの核心概念を一つの物語として理解する。旅のルート: i. Transformer: すべての始まり ii.

AI が遂げる「三重の進化」進化の潮流: i. 計算 (Computation) → 認知 (Cognition) ii.

第1 章: Transformer すべての土台となる革命的技術 2017年に発表された、現代AIの礎石。 Transformer以前と以後で、自然言語処理（NLP）の世界は一変した。 4

Transformer 以前の課題：逐次処理の壁主役: RNN (再帰型ニューラルネットワーク) 課題: i. 長期依存性の問題: 文が長くなるほど、文頭の情報を「忘れてしまう」。 (例：長い話の前提を忘れてしまう状態)

中核的革新：アテンション機構発想: 文中の単語を「同時」に処理し、単語間の関連性を計算する。仕組み: 重要な単語に「注意 (Attention)」を向け、文脈を正確に捉える。比喩: ウェブ検索 (Query, Key,

第2 章: 大規模言語モデル (LLM) 言葉を操る巨大な知性 Transformerというエンジンを使い、「規模（スケール）」を追求した結果。 ChatGPT, Gemini 9

スケールの魔法：創発的能力モデルの規模がある閾値を超えると、教えられていない新しい能力が「創発 (emerge)」する。創発的能力の例: 要約質疑応答コード生成数学的推論これは「量質転化」の一例。

LLM は「文化の鏡」である訓練データ: インターネットという人類の知識と表現の集合体。意味: LLMは我々のデジタル文化を写し出す「鏡」。光: 科学的知識、文学的創造性影: 社会的偏見、誤情報、論理的誤謬（

第3 章: 生成AI 無から有を生み出す魔法 AIが分析ツールから、人間の創造性を拡張するパートナーへと変貌。テキスト、画像、音楽、コードなど、あらゆるデジタルコンテンツを生成する。 13

生成AI の位置づけ生成AI とは: 学習したデータパターンに基づき、新しいオリジナルコンテンツを生成するAIの総称。 LLM との関係: すべてのLLM は生成AI

テキストを超えた創造性の爆発画像: DALL-E, Midjourney (プロンプトから画像を生成) 動画: Sora, Veo (テキストから動画を生成) 音声・音楽:

第4 章: RAG ( 検索拡張生成) AI を” 知ったかぶり” から” 専門家”

RAG による解決策：現実への接地核心アイデア: LLMが回答を生成する前に、外部の信頼できる知識ソースにアクセスさせる。目的: LLMの回答を、リアルタイムかつ正確な情報に「接地 (grounding)」さ

RAG の3 ステップ・プロセス 1. 検索 (Retrieve) ユーザーの質問に基づき、外部の知識ベース（社内文書、DBなど）から関連情報を探し出す。 2. 拡張

第5 章: エージェントAI 自ら考え、行動するAI AIが受動的なツールから、能動的な主体へと進化。高レベルの目標を与えると、自ら計画を立て、ツールを使い、タスクを遂行する自律的なシステム。 21

エージェントの思考・行動サイクル 4つのステップを自律的に繰り返すことで、複雑なタスクを遂行する。 1. 知覚 (Perception): 環境から情報を収集する（メール、DB、Webなど）。 2. 推論と計画 (Reasoning &

エージェントAI = 知性の司令塔これまで議論してきたAI概念を統合し、指揮する「オーケストレーター」。脳: LLM 情報収集: RAG タスク実行:

第6 章: MCP (Model Context Protocol) AI エージェントを繋ぐ共通言語新たなボトルネック: 連携したいツールごとにAPI仕様が異なり、接続が煩雑に

解決策：MCP = AI のためのUSB-C 役割: AIエージェントと外部ツールとの通信方法を標準化するオープンなプロトコル。比喩: AI のためのUSB-C

MCP が拓く未来：「エージェント経済圏」影響: MCPは、将来の「エージェント経済圏 (Agent Economy)」の誕生を可能にする。 HTTPがWebサイト市場を、App Storeがモバイルアプリ市場を創出したよう

ご清聴ありがとうございました 29