Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AIのReact習熟度を測る
Search
uhyo
June 20, 2026
Technology
110
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
AIのReact習熟度を測る
2026-06-20 ZennFes Spring オフラインイベント@日比谷
uhyo
June 20, 2026
More Decks by uhyo
See All by uhyo
React、まだ楽しくて草
uhyo
7
4.3k
TypeScript 7.0の現在地と備え方
uhyo
6
3.3k
React 19時代のコンポーネント設計ベストプラクティス
uhyo
20
9.7k
型定義でAIと会話する:型を通じてAIに意図を伝えるテクニック
uhyo
1
84
タグ付きユニオン型を便利に使うテクニックとその注意点
uhyo
3
1.1k
ECMAScript仕様の最新動向: プロセスの変化と仕様のトレンド
uhyo
3
900
TypeScript 6.0で非推奨化されるオプションたち
uhyo
18
8.3k
Claude Code 10連ガチャ
uhyo
4
1.1k
AI時代、“平均値”ではいられない
uhyo
8
11k
Other Decks in Technology
See All in Technology
Microsoft Build Keynoteふりかえり
tomokusaba
0
120
非エンジニアがClaudeと挑んだ「1ヶ月間プロダクト30本ノック」
askokc
0
300
なぜ Platform Engineering の土台に Kubernetes を選ぶのか
r4ynode
1
580
2026TECHFRESH畢業分享會 - 葬送的通靈師:化系統與用戶雜訊成行動訊號
line_developers_tw
PRO
0
780
MIERUNE JCT 発表資料「宇宙から伊能忠敬ごっこ」
syuchimu
0
210
Socrates × Looker 〜セマンティックレイヤーで進化するデータ分析エージェント〜
hanon52_
3
2.1k
Kubernetesにおける学習基盤とLLMOpsの概要
ry
1
240
LLMにもCAP定理があるという話
harukasakihara
0
290
日本 Fintech 未来予測レポート 2027〜2028年(手動編集版)
8maki
0
1.8k
小さく始める AI 活用推進 ― 日経電子版 Web チームの事例/nikkei-tech-talk47
nikkei_engineer_recruiting
0
220
AIの性能が向上しても未解決な組織の重大問題は何か?/An Unsolved Organizational Problem in the Age of AI
moriyuya
3
610
AIっぽい文章を採点して人間らしく直すアプリを作ってみた
yama3133
2
120
Featured
See All Featured
YesSQL, Process and Tooling at Scale
rocio
174
15k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.7k
How to audit for AI Accessibility on your Front & Back End
davetheseo
0
420
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
For a Future-Friendly Web
brad_frost
183
10k
The Art of Programming - Codeland 2020
erikaheidi
57
14k
Building Adaptive Systems
keathley
44
3k
First, design no harm
axbom
PRO
2
1.2k
The Curious Case for Waylosing
cassininazir
1
380
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
118
120k
Optimising Largest Contentful Paint
csswizardry
37
3.7k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.9k
Transcript
AIのReact習熟度を測る 2026-06-20 ZennFes Spring オフラインイベント@日比谷
発表者紹介 uhyo 株式会社カオナビ フロントエンドエキスパート TypeScriptの人と思われがちだが 最近Reactの話ばかりしている…… 2
最近Zennでやっていること 3
最近Zennでやっていること 4 独自のReact習熟度を測るベンチマークを作成し、 新しいモデルが出るたびに測定している。 (主にClaude Codeが対象)
React習熟度ベンチマーク 5 小さいReactアプリケーションをAIに実装させる。 あらかじめ決められた採点基準に基づき、 別のモデルが実装を読んで採点する。
React習熟度の主な採点基準 6 •Reactのベストプラクティスを運用できているか • 良いステート設計, useEffectのアンチパターン, etc •新しいReactのAPIを使いこなせるか • 主にSuspense関連
•アクセシビリティ・セマンティクス観点 • ちゃんとしたマークアップを書けるか
React習熟度の採点 7 •13のテストケース(スペック)がある •各スペックは6つのカテゴリで採点される (カテゴリごとに1~5点) •それぞれのカテゴリの点数に傾斜をかけて 100点満点とする • 傾斜のかけ方はスペックごとに異なる
傾斜の例 0% 10% 20% 30% 40% 50% 60% 70% 80%
90% 100% Spec 001 Spec 005 Spec 009 Spec 013 Specごとのスコア割り振り 状態設計 Effect衛生 コンポーネント設計 TypeScript品質 パフォーマンス アクセシビリティ 8
ベンチマーク結果 9
総合スコア 10 61.69 66.46 70.23 71.46 75.72 78.15 79.38 81.33
84.03 85.62 60 65 70 75 80 85 90 Haiku 4.5 Sonnet 4.6 Opus 4.6 high GPT-5.4 Opus 4.7 high Opus 4.7 max Opus 4.8 high Fable 5 high Opus 4.8 max Fable 5 max* Fable 5 maxは参考値(不完全なベンチマークのため)
データの見方と注意 •Opus 4.7以降のモデルはeffort=highと effort=maxで計測 •Opus 4.7以降は3回実行の平均(それ以前は1回だけ) 11
データから分かること Opus 4.6→Opus 4.7→Opus 4.8は着実にスコアが 伸びている。 4.7や4.8は劣化したという評判もあるが、 React習熟度に関しては確かに成長している。 12
データから分かること Effortをhighからmaxに上げると、 React力が上がる。 (それはそう) 13
データから分かること Fable 5はもちろんOpus 4.8よりさらにReact力が 高い。しかし、成長は小幅。 Opus 4.7 → Opus 4.8
のほうが飛躍していた。 Fable 5 (effort=high) とOpus 4.8 (effort=max) を 比較した場合だと、まだOpus 4.8のほうが強い。 14
カテゴリ別スコア Opus 4.6~Fable 5 15 0 0.5 1 1.5 2
2.5 3 3.5 4 4.5 5 State Architecture Effect Hygiene Component Design TypeScript Quality Performance Awareness Accessibility & Semantics Opus 4.6
カテゴリ別スコア Opus 4.6~Fable 5 16 0 0.5 1 1.5 2
2.5 3 3.5 4 4.5 5 State Architecture Effect Hygiene Component Design TypeScript Quality Performance Awareness Accessibility & Semantics Opus 4.6 Opus 4.7
カテゴリ別スコア Opus 4.6~Fable 5 17 0 0.5 1 1.5 2
2.5 3 3.5 4 4.5 5 State Architecture Effect Hygiene Component Design TypeScript Quality Performance Awareness Accessibility & Semantics Opus 4.6 Opus 4.7 Opus 4.8
カテゴリ別スコア Opus 4.6~Fable 5 18 0 0.5 1 1.5 2
2.5 3 3.5 4 4.5 5 State Architecture Effect Hygiene Component Design TypeScript Quality Performance Awareness Accessibility & Semantics Opus 4.6 Opus 4.7 Opus 4.8 Fable 5
カテゴリ別スコア Opus 4.8 high vs max 19 0 0.5 1
1.5 2 2.5 3 3.5 4 4.5 5 State Architecture Effect Hygiene Component Design TypeScript Quality Performance Awareness Accessibility & Semantics Opus 4.8 Opus 4.8 max
カテゴリ別スコアから分かること •モデルの進化とともに全体的に伸びる •しかしTypeScript Qualityはもうサチっている •Component Designはeffortを上げるのが効く。 余談: Claudeに実験レポートを書かせていたが、Opus 4.7に なってから「効く」を連発するようになってつらい……
20
なぜこれをやっているのか 21
自分の評価軸を持ちたい 他人が言っている評判や中身を良く知らない ベンチマークだけに頼るのではなく、 自分自身が重要視する方法でAIを評価したい。 他のベンチマークを否定したいわけではなく、 評価軸は多いほうがいい。 22
自分の評価軸を持ちたい 結果: 「Opus 4.7以降が微妙だからOpus 4.6を勧める人 もいるけど、Opus 4.6はアクセシビリティ弱めだ から注意してね」 のようなことをデータに基づいて言える。 23
自分の価値観を大事にしたい このAI時代でもコードの保守性・良いコードなど は重要だと思っている。 その上でAIを自分なりに活用していくために、 AIの能力を測定する必要がある。 24
単純に評価手法を持ちたい このベンチマークがあれば、例えば 「プロンプトの工夫はスコアに効くのか?」 といった検証もできる。 レビュー工程を追加することでスコアが +4~+7されることを発見した方も → 25
得意領域を持ちたい AIにいかに長く、複雑な仕事をさせるかといった 領域では競合がたくさんいる。 しかし、今のところAIのReact習熟度を評価する ことは人間がReactに詳しくないとできない。 実際、このベンチマークはFable 5までの進化を 捉えることに成功している。 26
今後の展望 27
Fable 5 effort=max を評価したい 本当は今日の発表までにFable 5 effort=maxの ベンチマークを終わらせる予定だったが、 Fable 5が止まってしまった……
(ちなみにmaxではないFable 5も5時間枠を4回くらい使い切った) 28
逆風: claude -p の課金方法変更 claude -pでClaude Codeを実行する場合、 サブスク枠とは別のクレジットを消費するようになる 予定。(6/15の予定だったが1度延期された) Claude
Maxの場合月に$100を超えると追加課金が 必要。 Fable 5 maxのベンチマークは1回で$200くらい 飛びそう…… 29
さらに高度なスペックへ 最初スコア60台から始まったベンチマークが、 もうスコア80台後半までインフレしている。 これまでのところAIの進化を順調に捉えられてい たが、より難しいベンチマークにしないとこの先 は難しいかもしれない。 30
まとめ 31
まとめ •AIのReact習熟度を測るベンチマークを作成し、 Sonnet 4.6~Fable 5までの進化を数値的に捉え ることができた •ベンチマークを作ったことで、自分なりの評価軸 でAIを評価できるようになった •今後のベンチマーク代どうしよう…… 32