Cascade Correlation

Cascade Korrelation - Netze

Die meisten Netze haben eine feste Topologie. Das heißt, während des laufenden Betriebs werden keine Kanten oder Neurone hinzugefügt oder entfernt. Da jedoch die Klassifikationsleistung eines Netzes stark von dessen Topologie abhängt, liegt es nahe, eine Art Topologieoptimierung in die Lernphase mit einzubeziehen. CC-Netze bauen eine anfangs minimale Topologie so weit aus (durch Einfügen von versteckten Neuronen), bis eine akzeptable Klassifikationsleistung erreicht ist.

Die Klassifizierung in neuronalen Netzen ist ein hochgradig arbeitsteiliger Prozeß. Es gibt keine explizite Koordination zwischen den einzelnen Neuronen. Der Fehler, den ein neuronales Netz macht ist jedoch von der Gesamtheit aller Neuronen abhängig. In den meisten Netzen richten sich die Neurone zunächst an dem Teilproblem des zu lösenden Gesamtproblems aus, das den größten Beitrag an der Fehlerfunktion liefert. Erst wenn dieser Beitrag klein genug ist, werden die restlichen Teilprobleme erkannt. Dadurch ist oft eine Umorientierung von vielen Neuronen notwendig. Man spricht auch vom sogenannten Herdeneffekt.
CasCor-netze versuchen dieses Problem zu lösen. Im Extremfall wird hier nur ein einziges Neuron trainiert. Dieses nimmt in Richtung des Fehlersignals eine maximale Reduzierung vor. Durch das Einfügen von Neuronen in der versteckten Schicht entstehen kaskadenartige Strukturen.
Aufbau und Funktion
Ein CC-Netz ist ein FF-Netz 2.Ordnung. Es besteht aus einer Menge von Eingabeneuronen und einer Menge von Ausgabeneuronen. Im Laufe des Lernverfahren kommen noch versteckte Neuronen hinzu. Jedes Eingabeneuron ist mit jedem Ausgabeneuron direkt verbunden. Innerhalb eines Neurons wird eine sigmoide Aktivierungsfunktion auf die gewichtete Summe der Eingabe angewendet.
Abbildung : AUfbau eines CC-netzes
Das Lernen
Zu Beginn des Verfahrens befinden sich keine Neuronen in der versteckten Schicht. Durch ein beliebiges Gradientenabstiegsverfahren werden die Gewichte so eingestellt, daß der Fehler auf der Trainingsmenge minimal wird. Wenn dieser Fehler nun ausreichend klein ist, terminiert das Verfahren. Wenn nicht, wird ein Neuron zur versteckten Schicht hinzugefügt. Nun wird versucht, dieses Neuron so einzustellen, daß es sich stark auf das Fehlersignal konzentriert. Dieses enthält als Eingabe die Ausgaben der Eingabeneuronen und von evtl. schon vorhandenen versteckten Neuronen. Es werden noch keine Verbindungen zu den Ausgabeneuronen hergestellt. Es wird nun versucht, die Eingangsgewichte des neuen Neurons so einzustellen, daß sich das neu eingefügte Neuron so gut es geht auf das noch vorhandene Fehlersignal konzentriert. Formal wird versucht, die aufsummierten Beträge S_i der Korrelation zwischen der Ausgabe o_i des neuen Neurons i mit dem Fehler d_k aller Ausgabeneurone zu maximieren :

: gemittelte Ausgabe von Neuron i über alle Trainingspaare p
: gemittelter Fehler der Ausgabezellen k über alle Trainingspaare p
Um S_i zu manipulieren (zu maximieren) muß eine Abhängigkeit zu den freien Gewichten hergestellt werden. Die Herleitung der partiellen Ableitung geschieht analog zur Herleitung der erweiterten Deltaregel . Es ergibt sich :

Auf Basis dieser Formel wird nun die Gewichtänderung von allen Gewichten zu dem neuen Neuron durchgeführt. Da dadurch S_i maximal wird, konzentriert sich dieses Neuron nun speziell auf den Restfehler. Nach dem Einfügen des neuen Neurons (mit den entsprechenden Eingangsgewichten), werden nun auch die Verbindungen zu den Ausgabeneuronen hergestellt. Das Netz wird nun neu trainiert, wobei allerdings nur die Gewichte der Verbindungen zu den Ausgabeneuronen variabel sind. Dieser Vorgang des Einfügens (incl. Gewichtsberechnung für das neue Neuron) und Neutrainieren des Netzes wird solange wiederholt, bis das Netz eine ausreichende Reproduktionsleitungs aufweist.