thesis

Zur Theorie künstlicher neuronaler Netze

Abstract

Zur Theorie künstlicher neuronaler Netze wird aus vier Gebieten beigetragen: der Informatik mit einem neuen Lernverfahren (stabile Parameteradaption), der Mathematik mit der Analyse der Struktur des Gewichtungsraums, der Statistik mit einem neuen Schätzer für die Güte von Netzen (Clustered bootstrap) und der Physik mit effizienten Lern- und Schliesalgorithmen für dezimierbare Boltzmann-Maschinen. Es werden Abbildungsnetze definiert, deren Kettenregel abgeleitet und in mehrere berechtigte algorithmische Varianten gefast, Backpropagation-Netze definiert, der Backpropagation-Algorithmus in einer möglichst allgemeinen Fassung dargestellt und demonstriert, wie dieser Rahmen auch auf rekurrente Netze angewendet werden kann. Die Grenzen der Methode des Gradientenabstiegs werden aufgezeigt und bekannte alternative Verfahren kritisch dargestellt. Ausgehend davon wird unter den Gesichts- punkten Effizienz und Stabilität eine Klasse neuer miteinander verwandter Optimierungsalgorithmen entwickelt, deren theoretische Leistungsfähigkeit von einem Beweis der Konvergenz erster Ordnung abgesichert wird. Es ist möglich, Zweite-Ordnung-Information in das neue Verfahren einfliesen zu lassen. Empirische Vergleiche unter- mauern dessen Effizienz. Die Grenzen von Optimierungsverfahren werden diskutiert. Danach wird Lernen in neuronalen Netzen als statistisches Schätzproblem aufgefast. Die Güte der Schätzung kann mit bekannten statistischen Verfahren berechnet wer- den. Es wird nachgewiesen, das durch Unzulänglichkeiten neuronalen Lernens die Angaben zur Güte nicht robust oder zu ungenau sind. Das Bestreben, diese Unzulänglichkeiten herauszufiltern, führt auf eine neue theoretische Sichtweise des Gewichtungsraums. Er mus in natürlicher Weise als Mannigfaltigkeit verstanden werden. Es zeigt sich, das die Berechnung der kanonischen Metrik im Gewichtungsraum NP-hart ist. Zugleich wird nachgewiesen, das eine effiziente Approximation der Metrik möglich ist. Damit ist es möglich, Lernergebnisse im Gewichtungsraum zu clustern und zu visualisieren. Als eine weitere Anwendung dieser Theorie wird ein robustes Verfahren der Modellauswahl vorgestellt und an einem Beispiel vorgeführt. Schlieslich kann auch das im vorigen Absatz gestellte Problem durch ein neues Verfahren gelöst werden. Die physikalisch motivierte Boltzmann-Maschine wird dargestellt, und es wird argumentiert, warum hier das Schliesen NP-hart ist. Dies motiviert eine Beschr¨ankung auf die genügend interessante Klasse der dezimierbaren Boltzmann-Maschinen. Eine neue Dezimierungsregel wird eingef¨uhrt und gezeigt, das es keine weiteren gibt. Dezimierbare Boltzmann-Maschinen werden mit Mitteln der Wahrscheinlichkeitstheorie studiert und effiziente Lernalgorithmen vorgeschlagen. Die Gewichtungsraumstruktur kann auch hier erfolgreich ausgenutzt werden, was eine Anwendung demonstriert

    Similar works