Verfahren zur Minimierung von Netzen
Man möchte versuchen, die zu lernende Information in möglichst kleinen Netzen zu 'speichern'. Die Idee ist, mit einem größeren Netz anzufangen und dieses solange zu verkleinern, wie der entstandene Fehler akzeptiert werden kann. Dazu versucht man die Knoten und Kanten im Bezug auf ihren Beitrag zur Leistung des Netzes zu bewerten. Die am schlechtesten bewerteten Knoten und Kanten werden dann aus dem Netz entfernt.
eine einfache Methode
Die einfachste Methode basiert auf der Annahme, daß Kanten mit kleinen Gewichten auch nur einen kleinen Beitrag zur Leistung des Netzes haben. Daher werden diese Kanten aus dem Netz entfernt.(Knoten, die keine ausgehenden Kanten mehr haben können dann auch entfernt werden.) Anschließend wird das Netz neu trainiert. Dies wird solange wiederholt wie die Klassifikationsleistung des Netzes noch akzeptabel ist.
Da dieses Verfahren auf die Ausbildung möglichst kleiner Gewichte angewiesen ist, wird für die Gewichte in die Fehlerfunktion ein Strafterm eingebaut, d.h. je größer die Gewichte, je größer auch der Fehler.
Formel : Fehler mit Strafterm
d ist hier eine Konstante, die die Gewichtung des Strafterns beschreibt
Leitet man aus dieser modifizierten Fehlerfunktion die Gewichtsänderung ab (Gradientenabstieg ... ), so kommt man zu folgendem Ergebnis :
 Gewichtsänderung unter Einbeziehung des Strafterms