Ψ Die Informatikseite

Menü

Momentum-Term

Der Momentum-Term löst das Oszillieren in steilen Schluchten und das Stehenbleiben auf flachen Plateaus. Der Momentumterm addiert einen Teil der vorherigen Gewichtsänderung zu der aktuellen Gewichtsänderung hinzu:

\begin{displaymath}\Delta w_{ij}(t+1)=\eta\delta_{j}\tilde{o}_{i}+\alpha \Delta w_{ij}(t)\end{displaymath}

Dabei kann $\alpha$ zwischen $0\leq \alpha < 1 $ liegen. $0,1\leq \alpha \leq 0,5$ ist aber typisch.
Der Momentum-Term verursacht
  • Beschleunigung auf flachen Plateaus: Es wird sozusagen Gas gegeben. Der Gradientenvektor hat immer dasselbe vorzeichen, so dass nach und nach sich ziemlich viel zusammenaddiert.
  • Unterdrückung der Oszillation in Schluchten: Bei Oszillation wechselt der Gradientenvektor immer das Vorzeichen. In einem solchen Fall verkleinert der Momentum-Term die Gewichtsänderung und wir springen wahrscheinlich direkt in die Schlucht.
Den Momentum-Term nur bei Mustererkennung anwenden, weil wir hier eine scharfe Fehleroberfläche haben (wegen der Klassifizierung der Muster). Bei der weichen Fehleroberfläche der Funktionsapproximation ist der Momentum-Term eher kontraproduktiv. Wenn wir einen Momentumterm benutzen, können wir die Lernrate $\eta$ reduzieren.