令和のミニ四駆！？ AWS DeepRacer で強化学習に入門してみた

令和のミニ四駆！？ AWS DeepRacerで強化学習に入門してみた 2025/05/10(土) JAWS-UG 彩の国埼玉支部#1 ～AWS Summit前のウォームアップ～知識をアップデート！

自己紹介 ┃所属：TIS株式会社 ‐ 年次：2年目(24卒) ‐ 担当業務：社内サービス(AWS/Terraform/React) ┃大宮初上陸です！ ┃好きなAWSサービス：AWS Lambda 2
井町瑠貴（umitsu）昨年末からQiitaへの記事投稿を始めました！（AWS・生成AIなど）

はじめに ┃本日お話しすること 3 AWS DeepRacerについて強化学習の概要について

はじめに ┃本日お話しすること 4 AWS DeepRacerについて強化学習の概要について・サービス概要・使い方・学習結果の確認（デモ）・基本要素
・学習の流れ（プロセス）

5 AWS DeepRacer をご存じでしょうか？

AWS DeepRacer ┃公式より引用[1] 6 強化学習を楽しく、実践的に学べるプラットフォームあらゆるレベルレベルのデベロッパーが、クラウドベースの3Dレーシングシミュレーター、強化学習により駆動する1/18スケールの完全自走型レーシングカーを通じて機械学習を実践的に学べます。 [1]
https://aws.amazon.com/jp/deepracer/

AWS DeepRacer ┃公式より引用[1] 7 強化学習を楽しく、実践的に学べるプラットフォームあらゆるレベルレベルのデベロッパーが、クラウドベースの3Dレーシングシミュレーター、強化学習により駆動する1/18スケールの完全自走型レーシングカーを通じて機械学習を実践的に学べます。 [1]
https://aws.amazon.com/jp/deepracer/ ※2025/12 で終了予定

AWS DeepRacer ┃昨年のAWS Summit Japanでは日本一決定戦も実施[2] 8 [2] https://aws.amazon.com/jp/builders-flash/202408/deepracer-jp-championship/

9 強化学習とはなんでしょうか？

（おまけ）機械学習 10 大量のデータを分析しパターンやルールを抽出する

強化学習｜概要 11 試行錯誤を繰り返して、最適な行動を決定していく行動状態・報酬エージェント環境

強化学習｜基本要素 12 1. エージェント：レーシングカー 2. 環境：レーストラック 3. 状態：トラックの様子・車両の位置 4. 行動：車両の速度や角度の調整
5. 報酬：報酬関数による評価結果

強化学習｜プロセス 13 1. エージェントが環境の現在の状態を観察 2. 何らかの行動を選択（環境・状態が変化） 3. 行動の結果として報酬を受け取る 4. よりよい行動を選べるよう学習

14 実際にDeepRacerを触ってみましょう

モデル作成 15 モデル名・説明の入力

モデル作成｜環境設定 16 コースの選択

モデル作成｜レースタイプ 17 レースタイプの選択

モデル作成｜アクションスペース 18 “Continuous action space” を選択

モデル作成｜アクションスペース 19 “Continuous action space” の範囲を設定

モデル作成｜マシンの設定 20

モデル作成｜報酬関数の設定 21 車体がコースの中央から逸れるほど報酬が少なくなる

モデル作成｜トレーニングの設定 22 最大トレーニング時間を設定

トレーニングの実施 23

モデルの評価 24

25 報酬関数を改善してみましょう

報酬関数の改善｜改善前 26 def reward_function(params): track_width = params['track_width'] distance_from_center = params['distance_from_center']
marker_1 = 0.1 * track_width marker_2 = 0.25 * track_width marker_3 = 0.5 * track_width if distance_from_center <= marker_1: reward = 1.0 elif distance_from_center <= marker_2: reward = 0.5 elif distance_from_center <= marker_3: reward = 0.1 else: reward = 1e-3 return float(reward)

報酬関数の改善｜改善前 27 def reward_function(params): track_width = params['track_width'] distance_from_center = params['distance_from_center']
marker_1 = 0.1 * track_width marker_2 = 0.25 * track_width marker_3 = 0.5 * track_width if distance_from_center <= marker_1: reward = 1.0 elif distance_from_center <= marker_2: reward = 0.5 elif distance_from_center <= marker_3: reward = 0.1 else: reward = 1e-3 return float(reward) 車体がコースの中央から逸れるほど報酬が少なくなる

報酬関数の改善｜改善後 28 speed_reward = speed / 2.0 reward += speed_reward
ABS_STEERING_THRESHOLD = 30 steering_penalty = steering_angle / ABS_STEERING_THRESHOLD reward *= (1 - steering_penalty) return float(reward)

ABS_STEERING_THRESHOLD = 30 steering_penalty = steering_angle / ABS_STEERING_THRESHOLD reward *= (1 - steering_penalty) return float(reward) 速度が速いほど報酬が大きくなる

ABS_STEERING_THRESHOLD = 30 steering_penalty = steering_angle / ABS_STEERING_THRESHOLD reward *= (1 - steering_penalty) return float(reward) 角度が小さいほど報酬が大きくなる

報酬関数の改善｜改善後 31

まとめ ┃本日お話ししたこと 32 AWS DeepRacerについて強化学習の概要について強化学習を楽しく、実践的に学べるプラットフォーム試行錯誤を繰り返して最適な行動を決定

おわりに｜感想 33 ┃AWS DeepRacerで気軽に強化学習に入門できる ┃報酬関数を調整する形でタイム向上に挑戦 ┃報酬関数を調整し始めたときは、挙動が大きく変わったのでおもしろい一度触ってみませんか？

令和のミニ四駆！？ AWS DeepRacer で強化学習に入門してみた

令和のミニ四駆！？ AWS DeepRacer で強化学習に入門してみた

ryu-ki

More Decks by ryu-ki

Featured

Transcript