einer Aktion a im Status s ▪ Die Nutzenwerte werden in der sog. Q-Matrix gespeichert ▪ Dimensionen der Matrix: Anzahl der möglichen Stati und Aktionen ▪ Beim Training versucht der Agent, die Q-Werte der Q-Matrix durch Exploration zu approximieren, um diese später als Entscheidungsregel zu nutzen ▪ Nach der Lernphase wählt der Agent in jedem Status diejenige Aktion mit dem höchsten Q-Wert aus Q-FUNCTION