Exploitation): 試しつつ良いアームが分かってきたら、それを優先して報酬を増やすこと 目的: 全体の報酬(成果)を最大化する 具体例:広告配信 状況: 複数の広告バナー( Ad A, Ad B, Ad C など)を用意し、どれがもっともクリック率やコンバージョン率を高めるかを知りたい 対応関係: アーム : 各広告バナー, 報酬: ユーザがクリックした、または購入した、などの成果 狙い: 高い成果が期待できるバナーを「活用」しながら、まだ試していないバナーも一定の割合で「探索」する テスト期間中の機会損失をできるだけ抑えつつ、どんどん良い広告を多く配信して収益を高める