Zusammenfassung
In diesem Kapitel wird gezeigt werden, wie neuronale Multi-Layer-Perceptron Netzwerke in ökonomische Modelle integriert werden können.1 Im ersten Abschnitt 3.1, S. 19 ff. werden die Grundlagen neuronaler Netze und insbes. die des Lernalgorithmus am Beispiel zweier makroökonomischer Gütermarkt-Modelle erläutert. Von einer Integration des neuronalen Netzes in das Modell kann dort noch nicht gesprochen werden, weil der Informationsfluß nur einseitig ist: Die Daten zum Training des neuronalen Netzes werden durch die Modelle generiert. Aufgabe des neuronalen Netzes ist es, die diesen Daten zugrunde liegende Gesetzmäßigkeit (also das Modell) so genau wie möglich zu approximieren. Rückkopplungen vom neuronalen Netz zum Modell und damit zur Generierung der Daten finden aber nicht statt. Insofern ist der Informationsfluß nur einseitig: vom Modell zum neuronalen Netz. Vorteilhaft ist, daß dadurch die Modellstruktur einfach bleibt und auf diese Weise grundlegende Mechanismen und Probleme des Lernprozesses im Rahmen des Modells erläutert werden können.
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Preview
Unable to display preview. Download preview PDF.
Notes
Vgl. Lebaron [117] (2000), S. 679 ff., Zimmermann [246] (1989) sowie Zimmer-Mann/Neuneier/Grothmann [249] (2000).
Vgl. Poole [160] (1970), S. 197 ff.
Riess [171] (1994), S. 184.
Vgl.z.B. Granger [68] (1989) oder Pindyck/Rubinfeld [157] (1998).
Vgl.z.B. Felderer/Homburg [44] (1999), Mankiw [131] (1998), sowie Rittenbruch [172] (1998).
Vgl. Abschnitt 3.2, S. 63 oder Abschnitt 3.3, S. 81.
Da es Ziel dieses Abschnittes ist die grundlegende Funktionsweise eines neuronalen Netzes zu verdeutlichen, wurde aus Gründen der Anschaulichkeit darauf verzichtet eine offene Volkswirtschaft zu modellieren. Ein ähnlich strukturiertes Modell für eine offene Volkswirtschaft findet sich bei Lange/Lorenz [111] (1993), S. 89 ff.). Die im folgenden abgeleiteten Ergebnisse lassen sich auch auf dieses Modell übertragen.
Zwischen Nominal-und Realzins muß nicht differenziert werden, weil Preisniveauänderungen unberücksichtigt bleiben.
Vgl. Deutsche Bundesbank [35] (2000).
Pindyck/Rubinfeld [157] (1998), S. 85 ff. bzw. S. 115 ff.
Anders [5] (1996), S. 163.
Vgl. Lehrbass/Peter [123] (1996), S. 152 ff. Dort wird ein neuronales Netz mit insgesamt 256 Inputs zur Schätzung eines DAX-Future-Kontraktes verwendet und ein Verfahren eingesetzt, „ … das das KNN (künstliche neuronale Netz; Anm. d. Verf.) fortwährend dazu anhält, sich auf die wesentlichen Inputs zu konzentrieren.“ (Lehrbass/Peter [123] (1996), S. 153).
Vgl. Rehkugler/Poddig [166] (1990).
Rehkugler/Poddig [168] (1994), S. 7.
Rehkugler [165] (1996), S. 575.
Vgl. für ein neuronales Netz mit mehreren Inputs Abschnitt 3.2, S. 63.
Vgl. zur Bedeutung der verdeckten Schicht Brause [21] (1995), S. 248 f. sowie Rojas [176] (1996), S. 192 f.
Uhlig [226] (1995), S. 48.
Die Topologie entspricht weitgehend der von Blien/Lindner [14] (1993), S. 502 ff.
Während die Input-Gewichte αj invariant bezüglich des Inputs Yi sind, sind die effektiven Eingänge der Neuronen und deren Aktivität abhängig vom jeweiligen Input des Netzes. Aus diesem Grund werden die effektiven Eingänge und die Aktivitäten der Neuronen im folgenden mit i indiziert, während dies bei den Gewichten des Netzes nicht nötig ist.
Vgl. für alternative Aktivierungsfunktionen und deren Eigenschaften Hoffmann [86] (1992), S. 92 ff., Rojas [176] (1996), S. 149 ff., sowie Zell [245] (1997), S. 89 ff.
Vgl. z.B. Haykin [76] (1999), S. 168 f.
Im Abschnitt 4.5, S. 118 f. wird gezeigt werden, daß das hier verwendete neuronale Netz durch wenige Umformungen in ein neuronales Netz mit logistischen Funktionen transformiert werden kann.
Alle hier und im folgenden verwendeten Vektoren sind als Spaltenvektoren aufzufassen, sofern sie nicht anders gekennzeichnet sind. Als Kennzeichnung der Transponierten eines Vektors oder einer Matrix wird der Buchstabe r verwendet.
Vgl. z.B. Funahashi [61] (1989), S. 183 ff., Hecht-Nielsen [79] (1989), S. 593 ff. sowie Hornik/Stinchcombe/White [88] (1989), S. 359 ff.
Nauck/Klawonn/Kruse[145] (1996), S. 91.
Vgl. Kolmogorov [105] (1957), S. 953 ff.
Brause [21] (1995), S. 227.
Vgl. auch Zimmermann [247] (1994), S. 13 ff. sowie Brause [21] (1995), S. 227.
Vgl. für einige Beispiele Abbildung 4, S. 25.
Für negative αJ gilt die Argumentation umgekehrt.
Vgl. Zimmermann [247] (1994), S. 14 f.
Vgl. Zimmermann [247] (1994), S. 14 f.
Bei negativen αJ beginnt die Stufe immer bei null.
Die Tatsache, daß hier die rechte Grenze der Stufenfunktionen bei null liegt, erleichtert zwar die Argumentation, ist aber nicht notwendig für die hier diskutierten Approximationseigenschaften. Entscheidend ist lediglich, daß die jeweiligen Neuronen am linken und rechten Rand ihres Schwellwertbereichs beschränkt sind und so einen konstanten Einfluß ausüben. Hornik zeigt formal, daß für die Aktivierungsfunktionen die Annahme genügt, daß sie nicht konstant, begrenzt und stetig sind (vgl. Hornik [87] (1991), S. 251 ff. sowie Brause [21] (1995), S. 229)
Vgl. Zimmermann [247] (1994), S. 16 f.
Zimmermann [247] (1994), S. 17.
Rojas [176] (1996), S. 149.
Vgl. Rumelhart/Hinton/Williams [180] (1986), S. 45 ff.
Vgl. Rojas [176] (1996), S. 172.
Vgl. Werbos [234] (1974).
Vgl. Lecun [120] (1985), S. 599 ff.
Vgl. Parker [153] (1985).
Vgl. Bryson/HO [25] (1969).
Vgl. Rojas [176] (1996), S. 161.
Eine Möglichkeit, wie der Fehler quantifiziert werden kann, wird auf S. 30 dargestellt.
Vgl. z.B. Rojas [176] (1996), S. 73.
Vgl. z.B. Uhlig [226] (1995), S. 21.
Vgl. für ein ähnliches Vorgehen Anders [4] (1997), S. 92 ff. sowie Riess [171] (1994), S. 183 ff. Kaizoji [99] (1998) verwendet ebenfalls ein keynsianisches Modell.
Vgl. Heinemann/Lange [80] (1997) sowie Kottmann [106] (1989).
Im Abschnitt 3.1.2, S. 54 wird gezeigt, wie ein neuronales Netz mit verrauschten Daten trainiert werden kann. Im Abschnitt 3.2 wird Forecast-Feedback in die Überlegungen einbezogen.
Die obigen Parameter erheben keinen Anspruch auf empirische Relevanz. Sie sind nach dem Kriterium der Anschaulichkeit gewählt.
Die Zinssätze werden hier und im folgenden in Prozentpunkten angegeben.
Vgl. Abschnitt 5.2.3, S. 162 aber auch BAUN [10] (1994), S. 154, Lecun ET AL. [122] (1998), S. 17 sowie Schraudolph [197] (1998), S. 207 ff.
Zwischen originären und transformierten Daten wird bezüglich der Variablennamen im folgenden nicht differenziert
Daten außerhalb des Intervalls sollten zumindest in der Nähe der Intervallgrenzen liegen.
Beim Zins muß zwischen dem Output des neuronalen Netzes n und der Target-Größe r * i , welche die zu lernende Größe wiedergibt, unterschieden werden. Dies ist beim Input Y i nicht nötig. Deshalb unterbleibt bei Y i eine zusätzliche Indexierung mit *. Ein Trainingsdatenset besteht somit aus (Y i , r * i ).
Vgl. Z.B. Pindyck/Rubinfeld [157] (1998), S. 7 ff.
Vgl. z.B. Anders [4] (1997), S. 22, Rojas [176] (1996), S. 189 ff. sowie Zimmermann [247] (1994), S. 51 ff.
Vgl. Lecun [120] (1985), S. 599 ff., Parker [153] (1985), Rumelhart/Hinton/Williams [180] (1986), S. 45 ff. sowie Werbos [234] (1974).
Vgl. für eine kritische Darstellung Press ET AL. [163] (1994), S. 340 f.
Vgl. Press ET AL. [163] (1994), S. 340 f.
Vgl. Anders [4] (1997), S. 30 ff.
Vgl. Anders [4] (1997), S. 119 sowie Rojas [176] (1996), S. 161.
Vgl. Zell [245] (1997), S. 110 f.
Vgl. Brause [21] (1995), S. 253 sowie Abschnitt 3.2, S. 63 ff. sowie Abschnitt 3.3, S. 81 ff. dieser Arbeit.
Auf die Problematik des lokalen Minimums wird auf S. 42 ff. noch eingegangen.
Vgl. Brause [21] (1995), S. 253.
Gerundet auf zwei Nachkommastellen.
Der auf Rumelhart/Hinton/Williams [180] (1986), S. 45 ff.zurückgehende originäre Back-Propagation-Alorithmus (vgl. aber auch S. 27 dieser Arbeit) berechnet die Suchrichtung nur auf Basis eines Datensatzes. Er wird im folgenden in Anlehnung an die Literatur (vgl. ANDERS [4] (1997), S. 42) als Online-Back-Propagation-Algonthmus bezeichnet.
Vgl. Heinemann/Lange [80] (1997), S. 14 ff. sowie Rojas [176] (1996), S. 151.
Vgl. Anders [4] (1997), S. 30 ff.
Vgl. für eine schematische Darstellung Zimmermann [247] (1994), S. 37 ff., insbes. Abbildung 15, S. 39.
Vgl. Chiang [30] (1984), S. 169 ff.
Vgl. Rojas [176] (1996), S. 156 f.
Vgl. Rojas [176] (1996), S. 156 f. sowie Zimmermann [247] (1994), S. 37 ff.
Vgl. Lecun ET AL. [122] (1998), S. 20 f. Haykin [76] (1999), S. 169 ff. sowie Nauck/Klawonn/Kruse [145] (1996), S. 78 ff.
Vgl. auch Zell [245] (1997), S. 113 f.
Nach dem ersten Trainingslauf ergibt sich auf zwei Nachkommastellen gerundet: Θ1 = [0.23, 1.34,-1.23, -0.00,-0.25,-0.73, 0.93,-2.16, 1.03,-1.85]T
Vgl. auch S. 45 ff.
Immathematisch korrekten Sinne nur in einer unendlich kleinen Umgebung.
Dies kann mit einer Taylor-Approximation des Fehlergebirges bewiesen werden (vgl. Zimmermann [247] (1994), S. 41).
Vgl. Zell [245] (1997), S. 113 f.
Bei weiteren Iterationen kommt es zu einem Fehleranstieg, auf den im folgenden (vgl. S. 46) noch eingegangen wird. Vgl. Anders [4] (1997), S. 36 f. für Abbruch-Bedingungen die erfüllt seien sollten, wenn ein (lokales) Fehlerminimum angestrebt wird.
Vgl. Haykin [76] (1999), S. 231 f., HERTZ/KROGH/PALMER[81] (1991), S. 129f., sowie Rojas [176] (1996), S. 152 f.
Ein ähnliches Beispiel (allerdings mit einem Känguruh) verwendet Plate [158] (1993) bei einer Internet-Diskussion im Usenet.
Vgl. für alternative Möglichkeiten Anders [4] (1997), S. 36 f.
Bei jeweils 50 Werten links und rechts von den jeweiligen Parametern, mit einer Schwankungsbreite von plus/minus ein Prozent, wäre die geringste meßbare Abweichung 0.02%.
Während Abweichungen der Parameter vom Minimum der geplotteten Funktion eindeutig belegen, daß das Minimum nicht (exakt) erreicht wurde, ist der Umkehrschluß, daß die Minima der geplotteten Funktionen das Fehlerminimum repräsentieren, unzulässig. Denn die Parameter von Θ wurden jeweils nur partiell variiert.
Hertz/Krogh/Palmer[81] (1991), S. 129.
Vgl. Haykin [76] (1999), S. 231 f., Hertz/Krogh/Palmer[81] (1991), S. 129f., sowie Rojas [176] (1996), S. 152 f.
Vgl. Abbildung 9, S. 45.
Auf einem PC mit Pentium 166 Mhz Prozessor benötigen 500 000 Iterationen ca. 5 1/2 Std. Rechenzeit.
Der folgende Abschnitt 3.1.2 wird außerdem zeigen, daß eine so weitgehende Anpassung an die Trainingsdaten nicht sinnvoll ist (vgl. auch Haykin [76] (1999), S. 215 ff., Morgan/Bourlard [140] (1990), S. 413 ff.).
Vgl. Lecun ET AL. [122] (1998), S. 20 f. Haykin [76] (1999), S. 169 ff. sowie Nauck/Klawonn/Kruse [145] (1996), S. 78 ff.
Vgl. auch Zell [245] (1997), S. 112.
Vgl. Haykin [76] (1999), S. 169 ff. sowie Nauck/Klawonn/Kruse [145] (1996), S. 78 ff.
Vgl. Lorenz [127] (1989), S. 29 ff.
Dadurch weisen alle indexierten Elemente von Θ bei der 148 971. Iteration den Wert eins auf.
Vgl. für eine Interpretation oszillierender Gewichte Zell [245] (1997), S. 112.
Diese Iterationen wurden in Abbildung 10 nicht grafisch dargestellt, weil bei einer Darstellung bis zur 500 000. Iteration das Aufschaukeln der Elemente von Θ kaum noch erkennbar gewesen wäre.
Verschiedene Verfahren mit variabler Lernrate werden im Abschnitt 4.6, S. 120 ff. diskutiert (vgl. Entscheidung 4).
Vgl. für eine ähnliche Strategie SBS [203] (1998), S. 58.
Vgl. Zell [245] (1997), Abbildung 8.3 (unten rechts), S. 113.
Vgl. Loistl/Betz [126] (1993), Lorenz [127] (1993) sowie Seifritz [200] (1987).
Vgl. Lange/Pasche [113] (1992), S. 523 ff., Schuster [198] (1984) sowie Stahlecker/Schmidt [207] (1991), S. 187 ff.
Vgl. Seifritz [200] (1987), S. 90 f.
Vgl. Seifritz [200] (1987), S. 92 f.
Vgl. für die Problematik der sensitiven Abhängigkeit bei chaotischer Dynamik Lange/Pasche [113] (1992), S. 523 ff., Schuster [198] (1984) sowie Stahlecker/Schmidt [207] (1991), S. 187 ff.
Brause weist z.B. auf diese Problematik bei rückgekoppelten neuronalen Netzen hin (vgl. Brause [21] (1995), S. 215 f.). Zimmermann verweist darauf, daß neuronale Netze für ökonomische Fragestellungen nicht als autoregressive Systeme angelegt sind und demzufolge nicht die Gefahr einer chaotischen Dynamik besteht (vgl. Zimmermann [247] (1994), S. 20).
Vgl. z.B. Frain [53] (1990), KAIZOJI [99] (1998), Kuan/White [108] (1994) sowie Warncke [228] (1994), S. 23 ff.
Brause geht in einer Nebenbemerkung, allerdings im Zusammenhang mit einem anderen Lernalgorithmus, auf diese Problematik ein (vgl. Brause [21] (1995), S. 215).
Vgl. Zimmermann [247] (1994), S. 20.
Vgl. Anders [4] (1997), S. 92.
Normalverteilte Störgrößen werden in den folgenden Abschnitten berücksichtigt. Die noch darzustellenden Ergebnisse dieses Abschnittes lassen sich aber auch mit normalverteilten Störgrößen ableiten.
Vgl. für ein ähnliches Vorgehen mit normal verteilten Störgrößen und einer nicht ökonomisch motivierten Funktion Anders [4] (1997), S. 92.
Vgl. die Definition der Eigenschaft AnzahlDaten im Objekt Daten im Anhang auf S. 270.
Dadurch reduziert sich u.a. auch die Rechenzeit. Sie beträgt allerdings für eine der durchgeführten Simulationen auf einem Pentium 166 MHz MMX Prozessor immer noch ca. 5 Stunden. Dies ist aber, wie noch darzustellen sein wird, nicht der Hauptgrund für die Reduzierung der Datensätze.
Die Summe der quadrierten Prognosefehler betrug lediglich 0.0026, vgl. z.B. Abbildung 7, S.42.
Bei perfekter Approximation der IS-Kurve durch das neuronale Netz würde der Prognosefehler 3.67 betragen. Dies kann überprüft werden, wenn unter Berücksichtigung der Parameter gemäß (18), S. 28 die untransformierten Trainingsdaten für Y i (i = 1,…, 50) in Gleichung (5), vgl. S. 20 eingesetzt werden und wenn die dann resultierenden Werte für den Zins zusammen mit den gemäß Gleichung (33) erzeugten verrauschten Zinssätzen als Grundlage für die Berechnung des durchschnittlichen quadrierten Fehlers herangezogen werden. Der Prognosefehler wäre nur dann null, wenn das neuronale Netz statt der IS-Funktion die verrauschten Daten perfekt approximieren würde. Ein solches Ergebnis ist allerdings wenig wünschenswert und wird als Overlearning bezeichnet.
Uhlig [226] (1995), S. 48.
Uhlig [226] (1995), S. 48.
Vgl. Graf [67] (ohne Jahresangabe), S. 6 f., Miller [136] (1994), S. 125 sowie Wiedmann/Jung [242] (1995), S. 56 insbes. Abbildung 22.
Vgl. dazu auch Gleichung (16), S. 23.
Der Wert betrug 1091634294 und wurde in die Simulation mit 11 verdeckten Neuronen übernommen, indem am Ende der Prozedur FormCreate die Zeile: RandSeed:=1091634294; eingefügt wurde. Ein Ausschnitt aus den verwendeten Trainingsdaten ist in Tabelle 2, S. 59 dargestellt.
Der Fehler und die Parameter des Netzes änderten sich auch nach 250 000 Iterationen nicht signifikant. Nach insgesamt 250 000 Iterationen sank der Fehler lediglich auf 2.46. Auf weitere Iterationen wurde verzichtet, weil bei diesem Netz die Rechenzeit für 250 000 Iterationen auf einem Pentium Rechner mit 166 Mhz bereits 5 Std. betrug.
Vgl. z.B. Baun [10] (1994), S. 151.
Der Fehler auf Grundlage der Validierungsdaten wird in aller Regel größer sein als der auf Basis der Trainingsdaten, weil das neuronale Netz im Hinblick auf die Trainingsdaten optimiert wurde.
Hier findet sich eine Parallelität zum menschlichen Lernen. Reines und häufiges Repetieren von Wissen führt zwar zumeist dazu, daß dieses nahezu perfekt gelernt wird, die zugrunde liegenden Zusammenhänge werden dadurch aber nicht gelernt.
Vgl. Graf [67] (ohne Jahr), S. 6 f., Miller [136] (1994), S. 125 sowie Wied-Mann/Jung [242] (1995), S. 56, insbes. Abbildung 22.
Vgl. HÜBLER [89] (1989), S. 59.
Der Freiheitsgrad bei einer nichtlinearen Optimierung kann allerdings negativ sein, ohne daß eine Überparametrisierung vorliegt (vgl. Anders [4] (1997), S. 92).
Vgl. für die Stop-Training-Methode Finnoff/Herget/Zimmermann [48] (1993), S. 772 f., Prechelt [162] (1998), S. 55 ff. und Weigend/Rumelhart/Huberman [232] (1990), S. 193 ff.
RÖGNVALDSSON [173] (1998), S. 75.
Vgl. Stone [210] (1977).
Es wird von einigen Autoren auch so bezeichnet (vgl. z.B. Anders [4] (1997), S. 114 ff. oder Haykin [76] (1999), S. 213 ff.).
Während des Trainingsprozesses kann unter Umständen die Umgebung verschiedener lokaler Minima erreicht werden.
Hilfsmittel um einen geeigneten Stop-Training-Point exakter zu bestimmen, werden im Abschnitt 4.7 auf S.131 vorgestellt.
Vgl. für einen Überblick entsprechender Methoden Zell [245] (1997), S. 319 ff.
Vgl. Zell [245] (1997), S. 319.
Vgl. Wiedmann/jung [242] (1995), Abbildung 21, S. 55.
Vgl. für die Modellierung von Preiserwartungen in einem Cob-Web-Modell Heinemann/Lange [80] (1997).
Vgl. Heinemann/Lange [80] (1997) sowie Kottmann [106] (1989).
Die im folgenden noch abzuleitenden Ergebnisse lassen sich aber auch mit gleichverteilten Zufallstörungen ableiten.
Dieser entspricht abgesehen von der nichtlinearen Struktur den Darstellungen in gängigen Lehrbüchern. Vgl. z.B. Felderer/Homburg [44] (1999), Mankiw [131] (1998), sowie Rittenbruch [172] (1998).
Das hier verwendete Modell ist angelehnt an ein ursprünglich für eine didaktische Simulation bestimmtes Modell (vgl. Lorenz/Lange [128] (1995), S. 593 ff.).
Vgl. Jarchow [95] (1998), S. 124 ff. sowie Rohde [175] (1985), S. 19 ff.
Vgl. Muth [144] (1961), S. 315 ff. sowie Sargent [183] (1993), S. 6 ff.
Die Vorgehensweise der Zentralbank entspricht der von Sargent beschriebenen, nur das hier die Zentralbank ein neuronales Netz zur Erwartungsbildung verwendet (vgl. Sargent [183] (1993), S. 21 ff.).
Bereits Hicks macht deutlich, daß bei diskreten Betrachtungen festzulegen ist, ob eine Entscheidung oder Aktion am Anfang oder Ende der betrachteten Periode erfolgt. Im Verlauf der Periode werden Entscheidungen nicht mehr revidiert (vgl. Hicks [84] (1967), S.32f.).
Vgl. S. 22.
Der Quelltext des dafür verwendeten Delphi 3.0 Programmes wird im Anhang (vgl. S. 271 ff.) kommentiert wiedergegeben.
Die obigen Parameter erheben keinen Anspruch auf empirische Evidenz. Sie sind nach dem Kriterium der Anschaulichkeit gewählt.
Hier werden normalverteilte anstelle von gleichverteilten Störgrößen verwendet, weil auch im Güter-und Geldmarkt-Modell des folgenden Abschnittes, das auf Poole (vgl. Poole [160] (1970), S. 197 ff.) basiert, normalverteilte Störungen unterstellt werden. Ähnliche wie die in diesem Abschnitt noch abzuleitenden Ergebnisse werden aber auch mit gleichverteilten Störgrößen erzielt (z.B. mitμ = [-0.2,0.2], v = [-100,100] sowie ω = [-350, 350]).
Technisch wäre eine solche Anpassung nicht zwingend notwendig. Allerdings würde ohne diese Anpassung das neuronale Netz die Geldnachfrage u.U. in einem Bereich fernab des Gleichgewichtes schätzen.
Angemerkt werden muß, daß hier die reduzierte Form des Gütermarktes (36) implizit als bekannt vorausgesetzt wird. Dies ist nicht unplausibel, denn sie könnte durch entsprechende empirische Schätzungen ermittelt worden sein. Die Möglichkeit auch den Gütermarkt modellendogen zu schätzen wurde hier aus Gründen der Anschaulichkeit verworfen.
Das neuronale Netz, das sich nach der Auslosung der Gewichte ohne die oben erwähnte Korrektur des Gewichtes γO ergibt, ist in Abbildung 17 jeweils als gestrichelter, Graph dargestellt.
Der Anpassungsprozeß wird vernachlässigt, da dieser in einem komparativ statischen Modell annahmegemäß unendlich schnell verläuft (vgl. Chiang [30] (1984), S. 35 ff.).
Bei der Lösung des Gleichungssystems (36) und (37) ergibt sich für rt auch noch eine zweite Lösung. Sie wurde hier aber nicht verwendet, weil sie ökonomisch nicht sinnvoll ist (vgl. in der Online-Version Box 15, S. 70. Dort findet sich auch ein Mathematica-Noiebook mit der vollständigen Lösung des Gleichungssystems (36) und (37).).
Aus Gründen der Übersichtlichkeit wurde hier Gleichung (45) verwendet, um das Gleichgewichtseinkommen zu berechnen (vgl. in der Online-Version Box 15, S. 70 für die vollständige Lösung des Gleichungssystems (36) und (37)).
ω1 führt nicht zu einer Verfälschung der Daten, weil r1 und Y1 auf Grundlage des tatsächlichen Geldangebotes M A1 , bei dem ω1 bereits eingeflossen ist, ermittelt wurden (vgl. Gleichung (38), S. 64).
Vgl. Abschnitt 3.1.2, S. 54 ff. sowie Graf [67] (ohne Jahr), S. 6 f., Miller [136] (1994), S. 125 und Wiedmann/Jung [242] (1995), S. 56 insbes. Abbildung 22.
Vgl. für die Problematik der Auswahl einer geeigneten Lernrate Zell [245] (1997), S. 113 f.
Bei einer weiten Interpretation der Definition von Muth, der rationale Erwartungen als „ … the predictions of the relevant economic theory“ (Muth [144] (1961), S. 316) bezeichnet, können auch hier die Erwartungen als rational bezeichnet werden. Das relevante Modell besteht hier aus den bekannten Gleichungen und der Kenntnis der Kausalität für die Geldnachfrage. Als Instrumentarium, um auch die Gleichung für die Geldnachfrage zu bestimmen, wird ein neuronales Netz verwendet.
Vgl. Poole [160] (1970), S. 197.
Erweiterungen bezüglich der Märkte finden sich z.B. bei Bofinger/SCHÄCHTER [16] (1997), S. 106 ff., Geigant/Lange [64] (2000), Sargent [184] (1971), S. 50 ff., Sargent/Wallace [185] (1975), S. 241 ff., sowie TURNOVSKI [225] (1975), S. 51 ff.
Eine Dynamisierung des originären Ansatzes bietet Poole selbst an (vgl. Poole [160] (1970), S. 209 ff.).
Vgl. Poole [160] (1970), S. 204.
Die Konsequenzen multiplikativ wirkender Störgrößen untersucht SÖDERSTRÖM [206] (2000).
Der Ansatz geht zurück auf Geigant/Lange [64] (2000) sowie Lange [110] (1998), S. 151 ff.
Die Verwendung von Kleinbuchstaben für das Volkseinkommen und die Geldmenge zeigt an, daß es sich bei diesen Größen um logarithmierte Werte handelt. Der Zins r geht dagegen als nichtlogarithmierte Größe in das Modell ein. Insofern müßte das Modell korrekterweise als halblogarithmisches Modell bezeichnet werden. Poole selbst verwendet ein rein lineares Modell (vgl. Poole [160] (1970), S. 204 und S. 208.), das aber bei entsprechender Interpretation (vgl. dazu Poole [160] (1970), S. 205, Fußnote 8) auch als halblogarithmisches Modell aufgefaßt werden kann.
Der Kovarianz kommt in diesem Modell keine gewichtige Rolle zu. So zeigen Leroy/Lindsey, daß die Kovarianz ohne Verlust an Allgemeingültigkeit bezüglich der noch abzuleitenden Optimierungsbedingungen (vgl. Gleichung (57)) und (58), S. 84) auf null gesetzt werden kann, da sie nur eine Normalisierung bewirkt. Allerdings sind dann auch die Modellparameter ai bzw. bi entsprechend anzupassen (Leroy/Lindsey [124] (1978), S. 929, Fußnote 1).
Vgl. dazu auch Poole [160] (1970), S. 208, Fußnote 2 sowie Chiang [30] (1984), S. 35 ff.
Vgl. Poole [160] (1970), S. 204.
Vgl. Theil [212] (1966) und Tinbergen [215] (1954).
Vgl. Poole [160] (1970), S. 204 f.
Vgl. für eine Diskussion quadratischer Loss-bzw. Nutzenfunktionen Chadha/Schellekens [29] (1999).
Die im folgenden durchgeführte Substitution der Erwartungswerte der Quadrate der Störgrößen durch ihre Varianzen bzw. die Substitution des Erwartungswertes des Produktes der Störgrößen durch deren Kovarianz ist dann zulässig, wenn die Erwartungswerte der Störgrößen null sind (vgl. Schlittgen [194] (1998), S. 146 und S. 184). Damit folgt, daß sich die im folgenden abgeleitete Poolesche Optimallösung nur unter dieser restriktiven Annahme ableiten läßt.
Auf die Darstellung der hinreichenden Bedingung wird verzichtet, weil eine eindeutige Vorzeichenanalyse nicht möglich ist.
Vgl. Poole [160] (1970), S. 208, Gleichung (17).
Die Tatsache, daß die Loss-Funktion logarithmisch formuliert wurde, ist nur darauf zurückzuführen, daß die noch abzuleitenden Ergebnisse mit denen des Abschnitts 3.3.1 vergleichbar sein sollen.
Wie die Trainingsdaten generiert werden können, wird im folgenden gezeigt.
Vgl. Chiang, A.C. (1984), S. 206 ff.
Annahmegemäß sei dieser Punkt kein Extrempunkt.
Es müssen zumindest initial auch den Elementen des Parametervektors Θ Werte zugewiesen werden, darauf wird aber an späterer Stelle eingegangen.
Die Modellparameter und die Varianzen und Kovarianzen sind unter dem Kriterium der Anschaulichkeit ausgewählt. Empirische Relevanz wird nicht postuliert. Ohnehin müssen Daten, die in ein neuronales Netz eingelesen werden sollen, in geeigneter Weise transformiert werden, damit das Netz überhaupt in der Lage ist, den Trainingsprozeß erfolgreich zu absolvieren (vgl. Baun [10] (1994), S. 148 ff. sowie S. 179 ff.).
Die entsprechenden Funktionen werden im ökonomischen Bereich des Delphi-Programmes definiert (vgl. im Anhang, S. 299).
Vgl. für die Herleitung S. 31 dieser Arbeit.
Sie werden allerdings benötigt um die Störgrößen ui und vi zu generieren, die Voraussetzung sind, um die Trainingsdaten Yi und ri zu ermitteln. Insofern beeinflussen sie indirekt das neuronale Netz.
Dafür wurde die Funktion Random [Real, — 3,3] verwendet, die, um den Vorgang reproduzierbar zu machen, mit SeedRandom [348] initialisiert wurde.
Brause fordert für empirische Anwendungen neuronaler Netze alle verfügbaren Informationen im Startvektor zu berücksichtigen (vgl. Brause [21] (1995), S. 253).
Vgl. Poole [160] (1970), S. 204 f.
Umden Prozeß reproduzierbar zu machen, wurde der Zufallsgenerator zuvor mit SeedRandom[700] initialisiert.
Verschiedene Versuche mit divergierenden Erwartungswerten haben gezeigt, daß sie in den meisten Fällen dazu führen, daß die neuronale Geldangebotsfunktion parallel verschoben zur Referenzfunktion liegt.
Vgl. Kreyszig [107] (1985), S. 97 f.
Die empirische Kovarianz weicht mit-0.005 nur unbedeutend von null ab.
Die Bisection Methode ist zwar nicht so effizient wie z.B die Newton-Rapson Methode, sie ist aber zuverlässiger (eine vergleichende Beschreibung beider Methoden findet sich bei Press ET AL. [163] (1994), S. 27 ff. und S. 286 ff.). Bei der numerischen Bestimmung der Yi war auch zu beachten, daß keine unsinnigen Einkommenswerte generiert werden. Im vorliegenden Fall bricht das Programm ab, wenn im Intervall [0.001,10] kein Gleichgewichtseinkommen ermittelbar ist.
Vgl. Zell [245] (1997), S. 113 f.
Das dies hier nicht geschehen ist lag lediglich daran, weil unter gleichen Umständen wie im originären Poole-Modell gearbeitet werden sollte, damit dieses als Referenz verwendet werden konnte.
Im vorliegenden Fall ist durch die additiven Störterme implizit lediglich Parameterunsicherheit bezüglich der additiven Störterme berücksichtigt. Um im vorliegenden Modell Parameterunsicherheit für alle Störterme zu berücksichtigen, müßten multiplikative Störungen berücksichtigt werden. Dann ist aber die im Abschnitt 3.3.1 durchgeführte allgemeine Optimierung nicht mehr möglich.
Auf andere Verfahren zur Vermeidung von Overlearning wird im Abschnitt 5.6, S. 186 ff. eingegangen
Author information
Authors and Affiliations
Rights and permissions
Copyright information
© 2004 Springer-Verlag Berlin Heidelberg
About this chapter
Cite this chapter
Lange, C. (2004). Neuronale Netze in ökonomischen Modellen. In: Neuronale Netze in der wirtschaftswissenschaftlichen Prognose und Modellgenerierung. Wirtschaftswissenschaftliche Beiträge, vol 192. Physica, Heidelberg. https://doi.org/10.1007/978-3-7908-2696-8_3
Download citation
DOI: https://doi.org/10.1007/978-3-7908-2696-8_3
Publisher Name: Physica, Heidelberg
Print ISBN: 978-3-7908-0059-3
Online ISBN: 978-3-7908-2696-8
eBook Packages: Springer Book Archive