Greedy-Policy vs. Optimal Policy beim Reinforcement Learning (Bestärkenden Lernen) ::: Neuronale Netze

Greedy-Policy vs. Optimal Policy beim Reinforcement Learning (Bestärkenden Lernen)

Unser Ziel ist es eine Optimal Policy zu finden, die unsere Aufgabe optimal löst.

Bei einer Greedy-Policy nehmen wir die erstbeste Lösung. Selbst wenn diese Lösung besonders schlecht ist, wird diese Lösung dann immer genommen. Wenn wir die Greedy-Policy immer verwenden, haben wir eine reine Exploitation (Ausnutzung).
Beispiel für eine Greedypolicy: Wir haben einmal einen Weg zur Mensa gefunden, der zwar einmal um die ganze Stadt führt, durch den wir aber tatsächlich an der Mensa ankommen. Es gibt einen viel besseren Weg, nämlich direkt in die Mensa, welche das Nachbargebäude ist. Aber diesen nehmen wir nie und suchen wir auch nie, wenn wir eine Greedypolicy anwenden.
Bei einer Optimal Policy versuchen wir den besten Weg zu finden. Dies ist eine Exploration (Erforschung). Auch wenn uns die Valuefunction sagt, dass wir den Wert für eine Aktion/Situation maximieren, da wir hier schon einen Weg gefunden haben, probieren wir einmal eine andere Entscheidung aus. Um diese Entscheidung konstruktiv zu treffen, können wir den Baum der Value-Function entweder mit einer Tiefensuche oder Breitensuche explorieren. Schon gehabte Situationen/Aktionen können wir dabei abschneiden, da deren Ergebnisse bekannt sind.