Der Momentum-Term löst das Oszillieren in steilen Schluchten und das Stehenbleiben auf flachen Plateaus. Der Momentumterm addiert einen Teil der vorherigen Gewichtsänderung zu der aktuellen Gewichtsänderung hinzu:
Dabei kann
zwischen
liegen.
ist aber typisch.
Der Momentum-Term verursacht
- Beschleunigung auf flachen Plateaus: Es wird sozusagen Gas gegeben. Der Gradientenvektor hat immer dasselbe vorzeichen, so dass nach und nach sich ziemlich viel zusammenaddiert.
- Unterdrückung der Oszillation in Schluchten: Bei Oszillation wechselt der Gradientenvektor immer das Vorzeichen. In einem solchen Fall verkleinert der Momentum-Term die Gewichtsänderung und wir springen wahrscheinlich direkt in die Schlucht.
Den Momentum-Term nur bei Mustererkennung anwenden, weil wir hier eine scharfe Fehleroberfläche haben (wegen der Klassifizierung der Muster). Bei der weichen Fehleroberfläche der Funktionsapproximation ist der Momentum-Term eher kontraproduktiv. Wenn wir einen Momentumterm benutzen, können wir die Lernrate
reduzieren.