Zusammenfassung
In den letzten Jahren, insbesondere seit 1985, haben die Neuronalen Netze einen breiten Einzug in verschiedene Sparten der Industrie und verschiedene Geschäftsbereiche der Banken gehalten. Dieser „Siegeszug“ hatte seinen Ursprung in den Vereinigten Staaten von Amerika und in Japan. Von dort aus überschwemmten neuronale Anwendungen die Welt. Europa, insbesondere auch die Bankenwelt in Deutschland, konnte sich dieser Technologie nicht mehr verschließen. In den vergangenen zwei bis drei Jahren haben die Institute ihre Türen noch weiter geöffnet, so daß heute von einer Reihe von Pilotanwendungen berichtet werden kann. Sie finden sich in nahezu allen Geschäftsfeldern und haben dort zum Teil schon klassische Verfahren ersetzt.
Neural networks are math, not magic.
Klimasauskas, C.C. President der NeuralWare Inc.
This is a preview of subscription content, log in via an institution.
Buying options
Tax calculation will be finalised at checkout
Purchases are for personal use only
Learn about institutional subscriptionsPreview
Unable to display preview. Download preview PDF.
Referenzen
Vgl. Azoff, E. M. (1994), Seite 2.
„The work has attracted scientists from a number of disciplines: neuroscientists who are interested in making models of the neural circurity found in specific areas of the brains of various animals; physicists who see analogies between the dynamical behavior of brain-like systems and the kinds of nonlinear dynamical systems familiar in physics; computer engineers who are interested in fabricating brain-like computers; workers in artificial intelligence (AI) who are interested in building machines with the intelligence of biological organisms; engineers interested in solving practical problems; psychologists who are interested in the mechanisms of human information processing; mathematicians who are interested in the mathematics of such neural network systems; philosophers who are interested in how such systems change our view of the nature of mind and its relationship to brain; and many others.“ Rumelhart, D. E./Widrow, B./Lehr, M. A. (1994), Seite 87.
Vgl. hierzu die in Abschnitt 2.1 genannten Anwendungsgebiete Neuronaler Netze.
Vgl. z.B. Ritter, H./Martinetz, T./Schulten, K. (1991), Seiten 17–24. Sehr anschaulich und umfassend werden die neurophysiologischen Grundlagen auch in Köhle, M. (1990), Seiten 35 ff. beschrieben. Vgl. auch Pytlik, M. (1995), Seiten 147ff.
Vgl. hierzu Ritter, H./Martinetz, T./Schulten, K. (1991), Seiten 18 ff.
Vgl. Wittkemper, H.-G. (1994), Seite 11, Zilahi-Szabo, M. G. (1993), Seite 158. Demgegenüber spricht C. von Altrock von mehr als 100 Millarden Neuronen und 100 Billionen Verbindungen. Vgl. v. Altrock, C. (1991), Seite 625.
Hohler, B. (1991), Seite 60.
Ein biologisches Neuron ist also, rein funktional betrachtet, ein Addierer mit Schwellwert.
Vgl. Füser, K. (1994), Seiten 225 f., Leckebusch, J. (1991), Seite 167.
Vgl. Hruschka, H. (1991), Seite 218.
Vgl Ritter, H./Martinetz, T./Schulten, K. (1991), Seite 19.
Vgl. Hinton, G. E. (1992), Seite 134.
Vgl. Hruschka, H. (1991), Seite 217.
Vgl. Hinton, G. E. (1992), Seite 134.
Vgl. Ritter, H./Martinetz, T./Schulten, K. (1991), Seite 3. Vgl. auch Blien, U./Lindner, H.-G. (1993), Seite 500, Hruschka, H. (1991), Seite 217. „So vielfältig wie der Kreis der beteiligten Fachrichtungen ist auch der Gebrauch unterschiedlicher Begriffe und Definitionen, die in den jeweiligen Publikationen verwendet werden. Z.B. können mit Neuronalen (z.T. auch neuronalen [klein geschrieben] oder neuralen) Netzen (oder Netzwerken) sowohl künstliche als auch biologische Netze von Nervenzellen (Neuronen) gemeint sein.“ Krause, C. (1993), Seite 35.
Vgl. Schneider, B. (1994), Seiten 59 und 60, Köhle, M. (1990), Seiten 19 ff.
Vgl. Pytlik, M. (1995), Seiten 151 ff. „The McCulloch-Pitts (M-P) neuron model had two types of inputs, an excitory and an inhibitory input. The neuron summed the inputs and if the excitory inputs were greater than the inhibitor inputs, the neuron fired“ , that is greater than an output. While the model, as stated, could account for logical processing, it did not show how information was stored or how intelligent behaviors were learned.“ Koster, A./Sondak, N. E./Bourbia, W. (1990/91), Seite 3. Vgl. auch Carpenter, G. A. (1989), Seiten 243 und 244.
Von besonderer Bedeutung ist im historischen Kontext sicherlich, daß der erste funktionierende „Rechner“ erst circa 10 Jahre, nachdem McCuloch/PITTS ihr Vorstellungen von der Funktionsweise eines Neurons veröffentlichten, zur Verfügung stand.
„In 1949, Hebb postulated that ‚knowledge‘ was stored in the connections between the neurons, and that ‚learning‘ consisted of modifying these connections and altering the excitory and inhibitory effects of the various inputs.“ Koster, A./Sondak, N. E./Bourbia, W. (1990/91), Seite 3.
Vgl. Carpenter, G. A. (1989), Seiten 245 f.
Vgl. Rehkugler, H./Poddig, T. (1992A), Seite 50, Wittkemper, H.-G. (1994), Seite 6. „Trotzdem verschwand bei einigen Wissenschaftlern das Interesse an neuronalen Netzen nicht. Dazu zählen J. Anderson, T. Kohonen, der Physiknobelpreisträger L. Cooper und J. Hopfield, um nur einige zu nennen.“ Sauerburger, H. (1991), Seite 9.
„Neuronale Netze sind extrem fehlertolerant. Sie liefern auch dann noch sinnvolle Ergebnisse, wenn Zellen teilweise ausfallen oder ein Teil der Verknüpfungen verändert wurde. Mit Graceful Degeneration bezeichnet man die Eigenschaft neuronaler Systeme, bei Ausfall von Zellen oder Verbindungen nicht sofort zu versagen, sondern mit zunehmender Beschädigung erst nach und nach ihre Funktionsweise zu verlieren. Neuronale Netze sind daher, im Gegensatz zu konventionellen Rechnern, extrem robust gegenüber Hardwarefehlern.“ Hohler, B. (1991), Seite 59. In diesem Kontext werden häufig auch die Begriffe der „schrittweisen Leistungsverringerung“ und der „stepwise degradation“ gefunden.
Vgl. Füser, K. (1994), Seiten 224 f.
Vgl. Schneider, B. (1994), Seite 60.
Vgl. V. Altrock, C. (1991), Seite 626. Zwischen 1991 und heute hat sich auf diesem Gebiet einiges getan. In diesem Buch wird noch mehrfach an geeigneten Stellen auf parallel arbeitende Neuronale Netze eingegangen. Geeignete Hardware-Simulatoren bzw. Rechner, die eine direkte Umsetzung des neuronalen Paradigmas ermöglichen, sind in angenäherter Form schon in der Connection Machine, im Cnaps-System vonAdaptive Solutions Inc. oder in spezialisierter Form in der Synapse-1 von Siemens-Nixdorf zu finden. Vgl. Blien, U./Lindner, H.-G. (1993), Seiten 500 f., Schöneburg, E. (Hrsg.) (1993), Seiten 149–188. Zur Synapse-1 vgl. z.B. Kopecz, J./Hormel, M. (1995), Seite 68.
Schumann, M. (1991), Seite 30.
Vgl. Hruschka, H. (1991), Seite 217. „An expert system (ES) depends on the representation of the expert’s knowledge as a series of IFTHEN conditions or rules, known as the knowledge base. These rules must first be determined by observing human experts, then programmend into ES using special languages such as PROLOG or shells such as Knowledge Craft, ART or KEE. This process can be time-consuming and expensive.“ Hawley, D. D./Johnson, J. D./Raina, D. (1990), Seite 67.
Fridson, M. S. (1994), Seite 77.
„Das Problemlösungswissen wird auf einer niedrigeren Abstraktionsebene, „unterhalb“ der symbolischen Repräsentation, dargestellt. Man spricht deshalb auch von subsymbolischer Verarbeitung.“ Kurbel, K./Pietsch, W. (1991), Seite 357.
Vgl. Hohler, B. (1991), Seite 59.
Zimmermann, H. G. (1992), Seite 30. Vgl. auch Zimmermann, H. G. (1991), Seite 497. Dort findet sich ein ähnlicher Gedankengang.
Hawley, D. D./Johnson, J. D./Raina, D. (1990), Seite 67.
Kurbel, K./Pietsch, W. (1991), Seite 357.
Vgl. Zilahi-Szabo, M. G. (1993), Seite 790.
Blien, U./Lindner, H.-G. (1993), Seite 498.
Vgl. Rojas, R. (1992), Seite 125.
„An ANS (Abkürzung für: Artificial Neural System) has three major components—a network topology, a spreading activation method and a training mechansim.“ Hawley, D. D./Johnson, J. D./Raina, D. (1990), Seite 65. Vgl. Barr, T. (1991), Seite 79.
Die Absolutwerte von ωij können als Maß für die Stärke der Verbindung interpretiert werden, das Vorzeichen signalisiert dabei eine verstärkende (wij > 0) bzw. hemmende (wij < 0) Verknüpfung.
Vgl. zur nachfolgenden Darstellung Hinton, G. E. (1992), Seite 136. Von nun an werden die Aktivierungsfunktion A(y) und die Transferfunktion T zu einer Funktion mit dem Namen A(y) zusammengefaßt, die (wie in der Literatur häufig üblich) insgesamt wieder als Aktivierungsfunktion bezeichnet wird.
Vgl. Hinton, G. E. (1992), Seite 136, Köhle, M. (1990), Seiten 64 ff.
Vgl. hierzu z.B. Wittkemper, H.-G. (1994), Seite 13, Pytlik, M. (1995), Seite 160. Hierzu findet sich eine sehr anschauliche Darstellung in Azoff, E. M. (1994), Seiten 51–55.
Vgl. hierzu die nachfolgenden Ausführungen.
„With the sigmoidal transfer functions, the limits of the output of the processing element are 0 and 1. With a hyperbolic tangent transfer function, the limits are -1 and 1. As a result, if the problem involves learning about ‚average‘ behavior, sigmoid transfer functions work best. However, if the problem involves learning about ‚deviations‘ from the average, hyperbolic tangent works best. For example, bankruptcy prediction and stock picking are examples of problems where the objective is to learn to pick out ‚exceptional‘ situations, and hyperbolic tangent works best. In the case of learning to classify respondents for a direct mail application, the sigmoid works well.“ Trippi, R. R./Turban, E. (HRsG.) (1993), Seite 65. Die von Trippi/Turban publizierten Erfahrungen lassen sich jedoch nicht verallgemeinern.
Vgl. hierzu und zu den nachfolgenden Ausführungen Hruschka, H. (1991), Seite 218.
Hruschka, H. (1991), Seite 218.
Vgl. Koster, A./Sondak, N. E./Bourbia, W. (1990/91), Seite 5.
Das einfachste Netzwerk besteht jedoch aus einer Menge von Neuronen, die in einer Schicht angeordnet sind. In diesen und allen mehrschichtigen Netzwerken haben die Knoten am Eingang des Netzes nur die Aufgabe, die eingehenden Signale zu verteilen. Da diese Knoten keine Berechnungen ausführen, werden sie bei der Schichtenzählung nicht als solche gezählt.
Vgl. Rehkugler, H./Poddig, T. (1992A), Seite 51.
Vgl. Blien, U./Lindner, H.-G. (1993), Seite 501.
„The configuration of a neural net is represented by a weighted directed graph (WDG) with nodes representing units and links representing connections. Each link is assigned a numerical value representing the weight of the connection.“ Tam, K./Kiang, M. (1992), Seite 929.
„Lernen heißt Selbstanpassung der Gewichtungsfaktoren zwischen den Prozessorelementen, so daß das Netz das gewünschte Verhalten zeigt. Die Lernfähigkeit entbindet von der expliziten Suche nach einer algorithmischen Lösung des gestellten Problems.“ Hohler, B. (1991), Seite 59.
„In many business applications (credit offers, fraud detection, credit extensions, etc.) learning is supervised. The network is presented with sets of data, each set being explicitly associated with a specific outcome (e.g., good/bad, bankrupt/nonbankrupt).“ Dasgupta, C. G./Dispensa, G. S./Ghose, S. (1994), Seite 238.
Vgl. Hawley, D. D./Johnson, J. D./Raina, D. (1990), Seite 66. Vgl. auch Blien, U./Lindner, H.-G. (1993), Seite 505.
Vgl. Azoff, E. M. (1994), Seite 4, Schumann, M. (1991), Seite 28. In diesem Zusammenhang spricht A. N. Refenes auch vom associative reinforcement learning. Vgl. Refenes, A. N. (Hrsg.) (1995), Seite 7.
Viele Autoren differenzieren nur zwischen dem Lernen mit und ohne Zielvorgabe. Vgl. hierzu z.B. Rehkugler, H./Poddig, T. (1992A), Seite 51. Einige Varianten für das Lernen mit und ohne Lehrer diskutiert Wittkemper, H.-G. (1994), Seite 21.
Vgl. Schumann, M. (1991), Seite 27.
Vgl. Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seiten 6 ff.
Baun, S. (1994), Seite 140. Die Begriffe recurrent und feedback sind synonym zu verwenden.
Rehkugler, H./Poddig, T. (1992A), Seite 52.
Vgl. Hohler, B. (1991), Seite 64. Vgl. auch Krause, C. (1993), Seite 63. Dort findet sich eine Gruppierung systematisiert nach ihren Hauptanwendungsgebieten (Prognose, Klassifikation, Assoziation, Datenanalyse, Datenfilterung und Optimierung). Vgl. auch Barr, T. (1991), Seite 82.
Klimasauskas, C. C. (1994), Seite 19.
Vgl. zu den vorherigen Ausführungen Kurbel, K./Pietsch, W. (1991), Seite 361.
Vgl. zu den folgenden Ausführungen Fuser, K. (1994), Seiten 237 ff. Vgl. hierzu Baun, S. (1994), Seite 145. Dort wird eine weitere Entwicklungsmethode zum Aufbau von Anwendungen, die auf Neuronalen Netzen basieren, vorgestellt. Es wird differenziert zwischen dem Abfrageschema zur Bestimmung der Modellvorstellung vor Beginn der eigentlichen Modellentwicklung und dem Ablaufschema für die Modellrechnung im Rahmen des Trainingsund Optimierungsprozesses zur Bestimmung des Endmodells. Vgl. Rehkugler, H./Poddig, T. (1994A), Seite 15, Hoptroff, R. G. (1993), Seite 62. Weitere Arbeitsschemata finden sich in Trippi, R. R./Turban, E. (Hrsg.) (1993), Seite 50 oder auch in Schumann, M. (1991), Seite 29 und Klimasauskas, C. C. (1994), Seite 11. Vgl. auch Koster, A./Sondak, N. E./Bourbia, W. (1990/91), Seite 5. Sehr interessant sind in diesem Rahmen auch die Ausführungen von Bailey, D./Thompson, D. (1990), Seiten 38–47.
Baun, S. (1994), Seite 144.
Vgl. Baun, S. (1994), Seiten 148 ff. Vgl. zum Thema „Pre- and Postprocessing of Financial Data“ die Ausführungen von Deboeck, G. J./Cader, M. (1994), Seiten 27–44.
„And though good at processing information and at pattern recognition, they cannot make something out of nothing.“ McLeod, R. W./Malhotra, D. K./Malhotra, R. (1993), Seite 38. R. G. Hoptroff sagt: „There is one key limitation: the MLP (MLP: Abkürzung für Multi Layer Perceptron, Architektur/Topologie eines Neuronalen Netzwerkes) can do not better than the data it is trained on.“ Hoptroff, R. G. (1993), Seite 61.
Baun, S. (1994), Seite 149.
Baun, S. (1994), Seite 144.
Vgl. Burger, A. (1994B), Seite 1170.
„Nach der Festlegung des Typs (und gegebenenfalls innerhalb des Typs der geeigneten Variante) ist die geeignete Architektur zu entwicklen. Dieser Prozeß ist extrem zeitaufwendig und anspruchsvoll. Er kann—je nach Aufgabenstellung—von Wochen bis zu Monaten dauern.“ Vgl. Rehkugler, H./Poddig, T. (1992B), Seite 416.
Vgl. Burke, G. (1992), Seiten 35 und 36.
Schöneburg, E. (Hrsg.) (1993), Seite 19.
Prinzipiell können drei Arten von Gewichtsänderungen unterschieden werden: 1) der Aufbau neuer Verbindungen, 2) die Elimination vorhandener Verbindungen und 3) die Veränderung der Gewichte existierender Verbindungen. Die Möglichkeiten 1) und 2) sind Spezialfälle von 3), da die Elimination z.B. in der Form geschehen kann, daß Gewichte auf Null gesetzt werden.
Vgl. Sauerburger, H. (1991), Seite 18.
Vgl. Kosko, B. (1992), Seite 187.
Unter Repräsentierbarkeit wird in diesem Zusammenhang die Fähigkeit eines Netzes verstanden, einen gegebenen funktionalen Zusammenhang mit Hilfe dafür explizit gewählter Gewichte und Schwellenwerte korrekt darstellen zu können. Demgegenüber sorgt die Lernfiähigkeit dafür, daß die entsprechenden Gewichte (und Schwellenwerte) durch eine Rechenvorschrift (Algorithmus) bestimmt bzw. erlernt werden können.
Vgl. Hruschka, H. (1991), Seite 219, Barr, T. (1991), Seite 82.
Sauerburger, H. (1991), Seite 20.
Eine Fläche ist konvex, wenn man jedes Punktepaar innerhalb der Fläche durch eine Gerade verbinden kann, die sich vollständig in der Fläche befindet.
Vgl. Ritter, H./Martinetz, T./Schulten, K. (1991), Seite 27.
Vgl. zu den vorherigen Ausführungen Ritter, H./Martinetz, T./Schulten, K. (1991), Seiten 27 ff.
Vgl. z.B. die Ausführungen von Rumelhart, D. E./Widrow, B./Lehr, M. A. (1994), Seiten 89 ff., Zimmermann, H. G. (1994), Seiten 37 ff., Wong, F. S. (1990/1991), Seiten 149 ff., Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seiten 11 ff. Vgl. auch Refenes, A. N. (Hrsg.) (1995), Seiten 8–10, White, H. (1989B), Seiten 48 ff.
Vgl. zu den nachfolgenden Ausführungen Fuser, K. (1994), Seiten 252 ff.
Der Initialwert jedes Gewichtungsfaktors ist i.d.R. eine kleine Zufallszahl z.B. aus dem Bereich von —0,50 bis +0,50. Vgl. Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seiten 12 und 13 zur Frage der Gewichtsinitialisierung.
Beginnend bei der Ausgangsebene wird rückwärts der Einfluß der Ebenen auf den Fehler ermittelt. Dieser Schritt erfolgt parallel für alle Output-Units. Anschließend werden die vor den einzelnen Output-Units liegenden Gewichtungsfaktoren korrigiert, deshalb der Begriff „ErrorBackpropagation-Algorithmus“. Das Backpropagation-Prinzip ist aus der Sicht der Biologen unplausibel. Es modelliert Lernen derart, daß Informationen auch entgegengesetzt zur vorgegebenen Richtung Eingabe-Verarbeitung-Ausgabe wandern. Vgl. Hinton, G. E. (1992), Seite 139.
„Ziel des Lernverfahrens ist es, Netzgewichte zu finden, die E minimieren. Nach dem Training werden unbekannte Vektoren in das Netz eingegeben, in der Erwartung, daß es eine gute Interpolation durchführt. Das Netz soll automatisch erkennen, ob eine neue Eingabe einem Eingabevektor der Trainingsmenge ähnlich ist, und dann eine ähnliche Ausgabe erzeugen.“ Rojas, R. (1992), Seite 154.
Vgl. Rehkugler, H./Poddig, T. (1992A), Seite 51.
Sehr anschaulich wird der theoretische Hintergrund des Error-Backpropagation-Algorithmus in Hinton, G. E. (1992) auf der Seite 138 dargestellt.
Vgl. Ritter, H./Martinetz, T./Schulten, K. (1991), Seiten 54 ff.
Die Formel 2.23 zur Änderung der Gewichtungsfaktoren bezeichnet man auch als Delta-Regel.
Vgl. dazu auch die Ausführungen auf der Seite 28.
An dieser Stelle soll noch einmal kurz die Problematik der Initialisierung der Gewichtungsfaktoren erörtert werden. Sind alle Gewichte einer Ebene mit denselben Werten initialisiert, so liefern alle Units dieser Ebene dieselben Ergebnisse. Da bei der Berechnung von Δwij die Ausgangswerte der vorherigen Ebene mit eingehen (Δ ωij = η • σj • opi) und diese alle gleich sind, werden alle Gewichte dieser Ebene gleichmäßig korrigiert, so daß nach der Korrektur die Gewichte wiederum alle gleich sind, d.h. diese Ebene kann nicht trainiert werden. Vgl. hierzu z.B. Refenes, A. N. (1995A), Seite 29.
Vgl. Hinton, G. E. (1992), Seite 138. Vgl. auch Wong, F. S. (1990/1991), Seite 152.
Vgl. hierzu die Formel 2.20, von der in diesem Schritt die Ableitung nach ok gebildet wird.
Die Gesamteingabe xk fließt in den Output-Neuronen k in die Sigmoid-Funktion ein. Der Funktionswert der Sigmoid-Funktion ist die Ausgabeaktivität an den Output-Neuronen k. Aus diesem Grunde ist σk gleich dem Ergebnis von Schritt 1, multipliziert mit der Rate, mit der sich die Ausgabe eines Output-Neurons bei veränderter Gesamteingabe ändert. Gebildet wird somit mit Hilfe der Kettenregel der Differentialgleichung die Ableitung der Sigmoid-Funktion, um die Änderungsrate zu bestimmen. Vgl. zur Ableitung der Sigmoid-Funktion Abschnitt 2.3.1.
Die Größe Δωjk ergibt sich nach der Formel für xk aus dem Ergebnis für σ k im Schritt 2, multipliziert mit dem Aktivitätsniveau des Knotens oj, von dem die Verbindung kommt. Gebräuchlich ist hier die Multiplikation mit dem Parameter η, über den die Geschwindigkeit des Lernprozesses variiert werden kann.
Durch diesen entscheidenden Schritt ist der Backpropagation-Algorithmus auch auf mehrschichtige Netzwerke anwendbar. Wenn ein Neuron j der vorhergehenden Schicht seine Aktivität oj ändert, so beeinflußt dies die Aktivitäten aller mit ihm verbundenen Output-Neuronen ok. Um die Gesamtveränderung auf den Fehler Ep zu ermitteln, bildet man die Summe aller einzelnen Effekte auf die Output-Neuronen ab.
Vgl. hierzu auch das gelungene Flußdiagramm zur Arbeitsweise des Error-BackpropagationAlgorithmus in Tam, K./Kiang, M. (1992), Seite 930.
Vgl. z.B. Ritter, H./Martinetz, T./Schulten, K. (1991), Seite 43, zum Gradientenabstiegsverfahren.
Die stetige Konvergenz des Algorithmus (d.h. das schrittweise Fallen des Gesamtfehlers bis unter eine bestimmte Schwelle) ist nicht immer garantiert. Es kann allerdings bewiesen werden, daß der Gesamtfehler des Netzes E gegen 0 konvergiert.
Dabei ist die Präsentationsreihenfolge der Trainingsmuster in der Regel pseudo-zufällig. „Eine Zerstörung bereits gelernter Zusammenhänge findet bei diesem Lernverfahren nicht statt, falls die Gewichte erst nach Kumulierung der Änderungen über alle Beobachtungswerte geändert werden.“ Hruschka, H. (1991), Seite 220. „First, make sure that the training presentations are randomized. If they are not, the network may very quickly learn about how to classify data in one particular mode (all good) and, due to the effects of momentum, move quickly in that direction.“ Trippi, R. R./Turban, E. (Hrsg.) (1993), Seite 71.
Rojas, R. (1992), Seite 149.
Zu den Techniken der Vorverarbeitung, insbesondere im Bereich der Finanzwirtschaft vgl. z.B. Jurik, M. (1992B), Seiten 40–44, Stein, R. (1993B), Seiten 32–37, Stein, R. (1993A), Seiten 42–47. Vgl. auch Baestaens, D. E./van Den Bergh, W. M./Wood, D. (1994), Seite 44.
Für ein wirklich tiefgehendes Verständnis des Error-Backpropagation-Verfahrens ist es notwendig einmal die Abläufe in der Lernphase „von Hand“ nachzuvollziehen. Die Zusammenhänge zwischen Gewichtungsfaktoren und Wissensspeicherung sowie die einzelnen Phasen des Trainingsverfahrens werden dabei besonders deutlich.
Vgl. Rumelhart, D. E./Widrow, B./Lehr, M. A. (1994), Seite 90. Vgl. zu den nachfolgend aufgeführten Punkten auch Altmann, E. I./Marco, G./Varetto, F. (1994), Seite 515.
Rumelhart, D. E./Widrow, B./Lehr, M. A. (1994), Seite 90.
Rumelhart, D. E./Widrow, B./Lehr, M. A. (1994), Seite 91.
Vgl. SchöNeburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 96.
Burke, G. (1992), Seite 36.
Köhle, M. (1990), Seite 96.
Vgl. Rojas, R. (1992), Seiten 168–172. Vgl. auch Piramuthu, S./Shaw, M. J./Gentry, J. A. (1994), Seiten 513–517. Bei letzteren wird eine interessante Erweiterung der Error-Backpropagation-Verfahrens, der NewtonRaphson-Algorithmus, vorgestellt.
Vgl. Kohonen T., et al. (Editors) (1991), Seiten 617–622, Köhle, M. (1990), Seite 97. Vgl. auch Wong, F. S. (1990/1991), Seite 151.
Analog wird für die Units der Hidden-Ebene die Gleichung 2.25 angepaßt.
Vgl. Rojas, R. (1992), Seite 169, Refenes, A. N. (1995A), Seite 26.
Hierbei kann noch zwischen einer allgemein gültigen, also für das gesamte Netzwerk gewählten und einer gewichtsbezogenen Vorgabe von η differenziert werden.
Schneider, B. (1994), Seite 62.
Vgl. Huber, C./Geiger, H./ Nücke, H. (1993), Seite 370.
Vgl. Trippi, R. R./Turban, E. (Hrsg.) (1993), Seite 60.
In Refenes, A. N. (1995B), Seiten 33 ff. werden einige Strategien, die zu einem „optimalen Netzwerkdesign“ führen könnten, diskutiert. A. N. Refenes differenziert dabei zwischen analytischen Methoden, den konstruktiven Techniken und den sog. Pruning-Verfahren. Es empfiehlt sich ein Riickgriff auf die zitierte Quelle, da dort einige Vorgehensweisen sehr anschaulich dargestellt werden.
Vgl. Baun, S./Köhr, Th. (1994), Seite 12. E.D. Karnin nennt drei Gründe, die für den Einsatz von Pruning-Strategien mit dem Ziel, kleinere Netzwerke zu erhalten, sprechen: 1) „The cost of computation, measured by the number of arithmetic operations, grows (almost) linearly with the number of the synaptic connections. Hence a smaller net is more efficient in both forward computation and learning.“ 2) „Neural net learning is usually based on a finite (often small) set of training patterns. A network which is too large will tend to memeorize the training patterns and thus have a poor generalization ability.“ 3) „There is always the hope that a smaller net will exhibit a behavior that can be described by a simple set of rules.“ Vgl. Karnin, E. D. (1990), Seite 239.
Vgl. Baun, S. (1994), Seite 161 ff. Dort werden eine Reihe von Pruning-Verfahren skizziert. Vgl. ebenso die Ausführungen von Miller, M. (1994), Seiten 133 ff. und die Gedanken von Wittkemper, H.-G. (1994), Seite 61.
Vgl. Baun, S./Köhr, Th. (1994), Seite 13, Baun, S. (1994), Seite 166, Miller, M. (1994), Seiten 139 und 140, Azoff, E. M. (1994), Seiten 59–60.
Vgl. Baun, S. (1994), Seite 166. Vgl. ergänzend Miller, M. (1994), Seiten 141 und 142.
Vgl. Trippi, R. R./Turban, E. (Hrsg.) (1993), Seite 69. Sie schreiben: „There are two basic approaches to optimizing hidden layer size: constructive and destructive.“
Vgl. Wittkemper, H.-G. (1994), Seite 63. „The constructive approach to hidden layer size is to start with a network with no hidden units. The inputs are connected directly to the outputs. Train the weights until the error ‚stabilizes‘. Fix these weights and add a hidden unit connected to the input and all prior hidden layers. The output of this new unit is connected to the output. Continue training. Eventually, the network will make no mistakes on the training data. One of the keys to the constructive approach is to decide when to stop adding hidden units. The answer is that at each decision point, the network is tested on both the training and test set. Performance on both is plotted. If the performance on both does not improve, remove the last hidden unit added and stop. Why? The network is starting to ‚memorize‘ the training set to the detriment of the test set.“ Trippi, R. R./Turban, E. (Hrsg.) (1993), Seite 69. Vgl. auch Klimasauskas, C. C. (1994), Seite 23.
Vgl. Baun, S. (1994), Seite 179, zur nachfolgenden Grafik. Vgl. auch Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seite 48.
„To avoid overfitting, one may adopt one ore more of the following strategies: (a) use special stopping criteria (b) add noise to the learning sample, and (c) use a simple network structure (i.e., with a small number of hidden units).“ Dutta, S./Shekhar, S./Wong W. Y. (1994), Seite 530.
Vgl. zum Problem des „overlearning“ z.B. Wittkemper, H.-G. (1994), Seite 40.
Miller, M. (1994), Seiten 132 und 133. Vgl. dort auch die graphischen Darstellungen zur Arbeitsweise des Stopp-Training auf den Seiten 131 und 132. „This method is reasonably powerful and simple and often leads to good results.“ Rumelhart, D. E./Widrow, B./Lehr, M. A. (1994), Seite 91.
Vgl. z.B. Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seite 20, zum Thema Cross-Validierungs-Menge. Vgl. ebenso Klimasauskas, C. C. (1994), Seiten 16
Vgl. hierzu Baun, S. (1994), Seite 161 f. und die dort aufgeführten Quellen, in denen diese und andere Optimierungsverfahren diskutiert werden.
Vgl. dazu Seite 60.
Vgl. Miller, M. (1994), Seite 143.
Vgl. Miller, M. (1994), Seite 143, Wittkemper, H.-G. (1994), Seite 60.
Vgl. Weigend, A. S./Hubermann, B. A./Rumelhart, D. E. (1992), Seiten 405–409. Vgl. auch Miller, M. (1994), Seite 145.
Vgl. Baun, S. (1994), Seite 167.
Vgl. Zell, A. (1994), Seiten 189 ff., Pytlik, M. (1995), Seiten 202–209. Vgl. auch Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seite 26 f.
Vgl. Zell, A. (1994), Seite 191.
Vgl. Zell, A. (1994), Seite 192.
Vgl. hierzu die Ausführliche Diskussion in Zell, A. (1994), Seiten 193 ff.
Vgl. Schneider, B. (1994), Seite 64.
J. Hopfield, Professor für Chemie und Biologie am California Institut of Technology, ist als einer der frühen und heute führenden Forscher auf dem Gebiet der Neuronalen Netze weltweit geachtet.
Vgl. Schöneburg, E. (Hrsg.) (1993), Seite 127.
Vgl Zell, A. (1994), Seiten 197 ff., Ritter, H./Martinetz, T./Schulten, K. (1991), Seite 47 ff., Brause, R. (1991), Seiten 179 ff., Sauerburger, H. (1991), Seiten 24–26 oder auch Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seite 24.
Vgl. Barr, T. (1991), Seite 82.
Vgl Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 108.
Vgl. Ritter, H./Martinetz, T./Schulten, K. (1991), Seiten 47 ff.
Ritter, H./Martinetz, T./Schulten, K. (1991), Seite 47.
Zur einfacheren Herleitung der Lernregel wurden hier die Zustände durch +1 und —1 beschrieben. In der Literatur wird dagegen häufig auch mit 0 und +1 gearbeitet. Daraus resultiert eine (formal) leicht abgewandelte Darstellung der Lernphase. Gravierender ist jedoch, wenn man die —1 Komponenten eines zu lernenden Vektors auf 0 setzt, daß durch diese Anpassung i.d.R. verschlechterte Recall-Ergebnisse beim trainierten Netzwerk zu beobachten sind. Vgl. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 110, Zell, A. (1994), Seiten 197 ff.
In der Form der Gewichtsanpassung unterscheidet sich die Lernphase des Hopfield-Netzes signifikant von der des Backpropagation-Verfahrens. Die Gewichte wij werden nicht iterativ bestimmt, sondern bei der Vorgabe der zu erkennenden Muster direkt berechnet. Vgl. Sauerburger, H. (1991), Seite 25.
Vgl Ritter,I. H./Martinetz, T./Schulten, K. (1991), Seite 49. Die Autoren sprechen in diesem Zusammenhang auch von Attraktionsbecken um lokale Minima. Alle Eingabemuster innerhalb eines solchen Beckens werden durch die Systemdynamik zum Beckenminimum gezogen und liefern das gleiche Ausgabemuster.
Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 110.
Vgl. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 112. Man kann Nebenminima jedoch bis zu einem gewissen Grad löschen oder zumindest ihren Einzugsbereich verkleinern. Diese Prozedur wird unlearning genannt. Vgl. ebenda, Seite 113.
Vgl. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 111. In diesem Zitat steht n für die Anzahl der Neuronen im Netzwerk.
Vgl. hierzu Zell, A. (1994), Seite 199 und den dort geführten Gültigkeitsbeweis. Man beachte, daß die Bedingungen des Cohen-Grossberg-Theorems hinreichend, aber nicht notwendig für die Stabilität rekurrenter Netzwerke sind, d.h. es gibt Netzwerke, die diese Kriterien nicht erfüllen und trotzdem stabil sind.
Vgl. Kosko, B. (1992), Seite 92.
Abhilfe davon schaffen sogennante statistische Methoden, bei denen die Neuronen ihren Zustand nicht mehr deterministisch sondern zufällig nach einer Wahrscheinlichkeitsverteilung ändern. In diesem Kontext existieren einige Verfahren, die durch die nachfolgend aufgeführten Begriffe beschrieben werden: Statistische Methoden, Boltzmann-Maschine und Simulated Annealing. Vgl. hierzu die weiteren Ausführungen.
Vgl. Schöneburg, E. (Hrsg.) (1993), Seite 139. Vgl. auch Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 114.
Vgl. Ritter, H./Martinetz, T./Schulten, K. (1991), Seiten 50 f. Sie geben an, daß die kritische Grenze bei p zu trainierenden Mustern und n Neuronen bei p≈ 0,146n liegt, wobei sie erwähnen, daß durch geschickte Kodierung der Muster die Speicherkapazität des Netzwerkes noch erhöht werden kann. Vgl. auch Schöneburg, E. (Hrsg.) (1993), Seite 138 f.
Vgl. hierzu z.B. Zell, A. (1994), Seiten 207 ff., Brause, R. (1991), Seiten 205 ff., Köhle, M. (1990), Seiten 104 ff., Hruschka, H. (1991), Seiten 221 f.
Vgl. Schöneburg, E. (Hrsg.) (1993), Seite 236, Zell, A. (1994), Seite 208.
Vgl. Zell, A. (1994), Seite 215.
Vgl. Schöneburg, E. (Hrsg.) (1993), Seite 132.
Im Gegensatz zu der hier dargestellten Verarbeitungsmethodik eines Hopfield-Modells kennt die Boltzmann-Maschine nur die Zustände 0 und 1, wobei der Zustand 1 einer verstärkten Neuronenaktivität und die 0 einem Ruhezustand des Neurons entspricht. Es existieren alternative Varianten von Hopfield-Netzen, die ebenso ausschließlich mit diesen beiden Zuständen arbeiten. Vgl. z.B. Zell, A. (1994), Seiten 197 ff.
Zell, A. (1994), Seite 209. Vgl. auch Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 119.
Vgl. zum Training von Boltzmann-Maschinen z.B. Zell, A. (1994), Seiten 210 ff.
Vgl. zu diesen Ausführungen Schöneburg, E. (Hrsg.) (1993), Seiten 131 ff.
Vgl. z.B. Blien, U./Lindner, H.-G. (1993), Seiten 507 f.
„There are two variants of the association paradigm: auto-association and hetero-association. An auto-associative paradigm is one in which a pattern is associated with itself. A hetero-associative paradigm is one in which two different patterns have to be associated with each other.“ Refenes, A. N. (Hrsg.) (1995), Seite 7. Vgl. hierzu auch Carpenter, G. A. (1989), Seite 250.
Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 116.
Blien, U./Lindner, H.-G. (1993), Seite 508.
Vgl. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 116.
Blien, U./Lindner, H.-G. (1993), Seite 509.
Vgl. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seite 117. Betrachte zu den Weiterentwicklungen bzw. Alternativenbetrachtungen vor allem Kosko, B. (1992), Seiten 63 ff.
Vgl. Sauerburger, H. (1991), Seiten 26–27. Vgl. auch Refenes, A. N. (Hrsg.) (1995), Seiten 10–12, Barr, T. (1991), Seite 84, Baestaens, D. E./van den Bergh, W. M./Wood, D. (1994), Seiten 25 f.
Vgl. Sauerburger, H. (1991), Seite 26.
Barr, T. (1991), Seite 84.
Vgl. Sauerburger, H. (1991), Seite 26.
Wittkemper, H.-G. (1994), Seite 22.
Vgl. z.B SchöNeburg, E./Hansen, N./Gawelczyk, A. (1990), Seiten 130 ff. Vgl. auch Köhle, M. (1990), Seiten 153 ff., Carpenter, G. A. (1989), Seiten 254 und 255.
Vgl. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seiten 86 ff. Vgl. auch Brause, R. (1991), Seiten 87 ff., Köhle, M. (1990), Seiten 29 ff. oder die Ausführungen von Carpenter, G. A. (1989), Seite 246.
Vgl. Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seiten 89 ff.
Vgl. Kerling, M./Poddig, T. (1994), Seiten 443 ff. Es handelt sich hierbei um ein sehr interessantes Nearest-Neighbour-Lernverfahren, welches nach dem “Winner takes it all“-Prinzip arbeitet. Vgl. auch Köhle, M. (1990), Seiten 127 ff., Pytlik, M. (1995), Seiten 191–202.
Vgl. Carpenter, G. A. (1989), Seiten 255 ff. Cogitron und Neocognitron wurden von K. Fukushima zwischen 1975 und 1988 entwickelt. Sie können mit und ohne Lehrer trainiert werden. Vgl. a.a.O. Seite 256. Dort steht: „Learning can proceed with or without a teacher.“ und die nachfolgende Fußnote.
Vgl. Köhle, M. (1990), Seiten 141 ff. Das Neocognitron ist ein Neuronales Netz für die visuelle Mustererkennung, das ein nicht überwachtes, d.h. selbstorganisiertes Lernverfahren zum Training verwendet.
Vgl. Pytlik, M. (1995). Dort werden eine Reihe von Netzen deskriptiv mit Hinweisen auf weitere Quellen, die das jeweilige KNN beschreiben, vorgestellt. Er weist z.B. hin auf das BrainState-in-a-Box-Modell von J.A. Anderson, die Selbstorganisierenden Karten von T. Kohonen, das Restricted-Coulumb-Energy-Netz der in den USA ansässigen Firma Nestor und weitere für viele Laien sicherlich exotisch anmutende Netzwerktypen.
Vgl. Kosko, B. (1992), Seiten 259–261 zum ART-1. Vgl. darüber hinaus Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seiten 130 ff.
Vgl Schöneburg, E./Hansen, N./Gawelczyk, A. (1990), Seiten 86 ff.
Vgl. Blien, U./Lindner, H.-G. (1993), Seite 504.
Zimmermann, H. G. (1992), Seite 28. Vgl. auch Zimmermann, H. G. (1991), Seite 496, Refenes, A. N. (Hrsg.) (1995), Seite 4. Bei letzterem werden in einer Grafik „cognition“ und „complexity“ gegenübergestellt und Neuronale Netze in diesen Kontext eingeordnet.
Vgl. Rehkugler, H./Poddig, T. (1994a), Seiten 18–21.
„Tasks requiring accuracy of computational results or intensive calculations are best left to conventional computer applications. As we’ve noted, artificial neural networks are best applied to problem environments that are highly unstructured, require some form of pattern recognition and may involve incomplete or corrupted data.“ Hawley, D. D./Johnson, J. D./Raina, D. (1990), Seite 69.
Rights and permissions
Copyright information
© 1995 Betriebswirtschaftlicher Verlag Dr. Th. Gabler GmbH, Wiesbaden
About this chapter
Cite this chapter
Füser, K. (1995). Neuronale Netzwerke. In: Neuronale Netze in der Finanzwirtschaft. Gabler Verlag, Wiesbaden. https://doi.org/10.1007/978-3-663-05964-6_2
Download citation
DOI: https://doi.org/10.1007/978-3-663-05964-6_2
Publisher Name: Gabler Verlag, Wiesbaden
Print ISBN: 978-3-409-14098-0
Online ISBN: 978-3-663-05964-6
eBook Packages: Springer Book Archive