Zusammenfassung
Der Abschnitt 2.2 erläutert das Grundprinzip der Regressionsanalyse an dem bereits bekannten PKW-Beispiel aus Kapitel 1. Anschließend beschäftigt sich Abschnitt 2.3 mit den grundlegenden Fragen, die bei der Beurteilung der Aussagekraft von Regressionsergebnissen zu überprüfen sind. Abschnitt 2.4 fasst die wichtigsten Aussagen zusammen und Abschnitt 2.5 zeigt anhand der Programmpakete SPSS und Stata wie eine solche einfache Regression durchgeführt wird.
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Notes
- 1.
Der Begriff multivariate Regression (bzw. multivariate Analyse) wird im Folgenden (so wie in der Literatur üblich) nur für Untersuchungen verwendet, bei denen gleichzeitig mehrere abhängige Variablen existieren. In manchen Lehrbüchern wird davon abweichend das, was hier multiple Regression genannt wird, als multivariate Regression bezeichnet (so bspw. in den Lehrbüchern von Backhaus et al. (2011, 2013) und Studenmund (2014)).
- 2.
Anhang 2.1 am Ende dieses Kapitels beschreibt die Konstruktion dieses Datensatzes und enthält damit auch die normalerweise unbekannten wahren Koeffizientenwerte B0 und B1.
- 3.
Die Minimierung der Summe der Abweichungsquadrate ist ein sogenannter Schätzer (estimator), d. h. ein Verfahren, um eine passende Gerade zu ermitteln. Andere Schätzverfahren sind möglich (bspw. die Minimierung der Summe der absoluten Abweichungen). Die KQ‐Methode hat im Vergleich erstens den Vorteil rechentechnisch einfach ermittelbar zu sein. Dies spielt heute aber dank der Leistungsfähigkeit der PCs keine Rolle mehr. Zweitens besitzt der KQ‐Schätzer drei wünschenswerte Eigenschaften. Unter bestimmten Annahmen ist es ein unverzerrter, konsistenter und effizienter Schätzer (näheres dazu im Abschn. 5.1).
- 4.
Es werden hier und in den anschließenden Kapiteln die folgenden Abkürzungen verwendet: Die großen Buchstaben (B0, B1 usw) bezeichnen die uns unbekannten wahren Koeffizienten. Die kleinen Buchstaben (b0, b1 usw.) stehen für die geschätzten Koeffizienten. Sie werden in der Literatur häufig auch mit den griechischen Buchstaben (in der Regel β0, β1 usw.) abgekürzt. Zur Unterscheidung von wahren und geschätzten Parametern dienen hier und in der Literatur auch die „Dächer“ über den Variablen bzw. Koeffizienten, so sind zum Beispiel Ŷ, \( \hat{\upbeta }_{1}\)geschätzte Größen.
- 5.
Englisch: „Intercept“ oder „Constant“.
- 6.
Es existieren auch andere Regeln zur Berechnung, die im Anhang 5.1 des Kap. 5 kurz beschrieben werden. Die OLS‐Methode ist aber das Referenzverfahren und grafisch besonders eingängig vermittelbar.
- 7.
- 8.
Auf die Unterscheidung der wahren und der mittels OLS geschätzten Koeffizientenwerte wird zur Vereinfachung im Folgenden verzichtet.
- 9.
Dies entspricht im Rahmen einer Korrelationsanalyse der Berechnung von Partialkorrelationen. Für die Berechnung des Zusammenhangs zwischen Y und X1 werden die Beziehungen der Variablen Y und X1 mit den Variablen X2 und X3 beseitigt. Die Statistik bezeichnet dies als auspartialisieren. Das Verfahren wird erläutert bei Bühner und Ziegler (2009, S. 645–650).
- 10.
- 11.
Die Variable n steht für die Zahl der Beobachtungen und k für die Zahl der unabhängigen Variablen. In unserem PKW‐Beispiel haben wir 15 Beobachtungen und 3 Einflussfaktoren (= unabhängige Variablen). Was Freiheitsgerade (Degress of freedom) sind, wird im Abschn. 5.9 erläutert.
- 12.
Eine genauere Darstellung der Logik von Hypothesentests enthält Kap. 9 am Ende des Buchs.
- 13.
Bspw. liegt bei einem Signifikanzniveau von 5 %, einer unabhängigen Variablen (d. h. einem Zählerfreiheitsgrad von 1) und 16 Beobachtungen, d. h. einem Nennerfreiheitsgrad von 14 (= 16 – Zahl der exogenen Variablen – 1) der kritische F‐Wert bei 4,60. Ist der ermittelte F‐Wert größer, wird die Nullhypothese abgelehnt. Bei einem Nennerfreiheitsgrad von 30 beträgt der kritische F‐Wert 4,17 und fällt mit den Zählerfreiheitsgerade: Bei 10 Zählerfreiheitsgeraden beträgt er 2,16 (Auer und Rottmann 2010, S. 699).
- 14.
Es ist zu beachten, dass, wenn die Nullhypothese nicht abgelehnt werden kann, dies noch kein Beweis ist, dass von dieser Variable kein Einfluss ausgeht (siehe Abschn. 9.3.2).
- 15.
Im Nachkommastellenbereich können u. a. durch Rundungen Abweichungen zwischen den Ergebnissen verschiedener statistischer Programmpakete auftreten.
- 16.
Da die Statistikprogrammpakete runden, heißt dies genauer, dass die Wahrscheinlichkeit kleiner als 0,0005 % ist.
- 17.
- 18.
Es handelt sich um das Vorgehen bei einem zweiseitigen Test. Es können auch Tests durchgeführt werden, inwieweit der Koeffizient größer oder kleiner Null ist (einseitige Tests). Weiterführende Tests überprüfen bspw. die Übereinstimmung mit vorgegebenen Koeffizientenwerten oder das Vorliegen eines gemeinsamen Einflusses mehrerer Variablen. Ausführliche Erläuterungen geben Bühner und Ziegler (2009; Kapitel 4 und 5), Auer und Rottmann (2010, Kapitel III.3) sowie Cortinhas und Black (2012, Unit V).
- 19.
Praktisch treten kleine Abweichungen zwischen beiden Koeffizientenschätzungen aufgrund von Rundungsfehlern auf.
- 20.
- 21.
Allerdings können standardisierte Koeffizienten bei Dummy‐Variablen und Interaktionseffekten (beide werden im Kap. 3 erläutert) nicht verwendet werden.
- 22.
Diese berechnen wir durch Logarithmierung der abhängigen und der unabhängigen Variablen (siehe dazu ebenfalls Kap. 3).
- 23.
Im Folgenden werden die in den Softwareprogrammen anzuklickenden bzw. einzugebenden Befehle in eckige Klammern gesetzt: […].
- 24.
Stata‐Datensätze sind an der Endung „.dta“ zu erkennen. Hier benutzen wir also den Datensatz „PKW‐Marketing‐Beispiel.dta“.
- 25.
Es handelt sich um einen konstruierten Datensatz, dessen Generierung im Anhang 2.1 beschrieben wird. Die folgenden Dateien enthalten den Datensatz im SPSS‑, Stata‐ und Excel‐Format: PKW‐Marketing‐Beispiel.sav, PKW‐Marketing‐Beispiel.dta und PKW‐Marketing‐Beispiel.xls.
Literatur
Acock, A. C. (2016): A Gentle Introduction to Stata, 5th, ed., College Station, Texas
Ashley, R. A. (2012): Fundamentals of Applied Econometrics, Hoboken, New Jersey
Auer, B., Rottmann, H. (2010): Statistik und Ökonometrie für Wirtschaftswissenschaftler, Wiesbaden
Backhaus, K., Erichson, B., Plinke, W., Weiber, R. (2011): Multivariate Analysemethoden, 13. Auflage, Heidelberg et al.
Backhaus, K., Erichson, B., Weiber, R. (2013): Fortgeschrittene Multivariate Analysemethoden, 2. Auflage, Heidelberg et al.
Baltes-Götz, B. (2016): Generalisierte lineare Modelle und GEE-Modelle in SPSS Statistics. Online-Dokument: https://www.uni-trier.de/fileadmin/urt/doku/gzlm_gee/ gzlm_gee.pdf, (Zugriff: 20.11.2016)
Baum, Ch. F. (2006): An Introduction to Modern Econometrics Using Stata, College Station, Texas
Brosius, F. (2013): SPSS 21, 1. Auflage, München
Bühl, A. (2014): SPSS 22, Einführung in die moderne Datenanalyse, 14. Auflage, München
Bühner, M., Ziegler, M. (2009): Statistik für Psychologen und Sozialwissenschaftler, München
Cameron, L.A., Trivedi, P.K. (2010): Microeconometrics using Stata, Revised Edition, College Station, Texas
Cortinhas, C., Black, K. (2012): Statistics for Business and Economics, Chichester UK
Field, A. (2013): Discovering Statistics Using SPSS statistics: and sex and drugs and Rock ’n Roll, 4th ed., Ventura
Hamilton, L. C. (2013): Statistics with STATA, Updated for Version 12, Boston Mass.
Hazinger, R, Hornik, K., Nagel, H., Maier, M. (2014): R, Einführung durch angewandte Statistik, 2. Auflage, München
Hellbrück, R. (2016): Angewandte Statistik mit R, 3. Auflage, Wiesbaden
Kirchkamp, O. (2011): Empirische und Experimentelle Wirtschaftsforschung, BW 24.1, unveröffentlichter Skript, Jena.
Kohler, U., Kreuter, F. (2006): Datenanalyse mit Stata, 2. Auflage, München Wien
Kohler, U., Kreuter, F. (2012): Data Analysis Using Stata, Third Ed., College Station, Texas
Schira, J. (2005): Statistische Methoden der VWL und BWL. Theorie und Praxis, 2. Auflage, München
Schnell, R., Hill, P.B., Esser, E. (2013): Methoden der empirischen Sozialforschung, 10. Auflage, München
Skiera, B., Albers, S (2008): Regressionsanalyse, in: Herrmann, A., Homburg, C., Klarmann, M. (Hrsg.): Handbuch Marktforschung, 3. Auflage, Wiesbaden: 467–497
Stata (2015a): Stata 14 documentation, College Station, Texas, http://www.stata-press.com/manuals/documentation-set/ (Zugriff: 17.10.2016)
Studenmund, A.H. (2014): Using Econometrics – A Practical Guide, 6. Auflage, Boston
Tabachnick, B.G., Fidell, L.S. (2014): Using Multivariate Statistics, 6th ed. Harlow Essex
Wittenberg, R., Cramer, H., Vicari, B. (2014): Datenanalyse mit IBM SPSS Statistics – Eine syntaxorientierte Einführung, Konstanz, München
Author information
Authors and Affiliations
Corresponding author
Anhang
Anhang
Anhang 2.1: Datengenerierung des PKW‐Beispiels
Die Zahl der verkauften PKW (Absatzmenge) wurde nach folgender Gleichung ermittelt:
Die Werte für die unabhängigen Variablen wurden innerhalb der im Folgenden beschriebenen Grenzen willkürlich angenommen: Preis zwischen min. 13.000 € und max. 16.000 €; Werbebudget im Durchschnitt bei ca. 25.000 € je Region, Zahl der Kontakte zwischen min. 10 und max. 25 pro Quartal.
Auf dieser Wertebasis wurden die resultierenden Absatzmengen gerundet und mittels eines Zufallsverfahrens modifiziert.
Anhang 2.2: Statistikprogrammpakete
Aus der Vielzahl der existierenden Statistiksoftware werden hier nur einige ausgewählte kurz vorgestellt.
SPSS
Als statistisches Programmpaket in den Sozialwissenschaften und auch der BWL weit verbreitet. Sehr anwenderfreundlich und leicht zu bedienen – dank der menübasierten Steuerung. SPSS bietet auch eine syntaxbasierte Steuerung an, auf die hier nicht näher eingegangen wird. Mit dieser sind einige weitere und fortgeschrittene statistische Verfahren realisierbar. Eine wertvolle Quelle für Informationen sind die existierenden User‐Gruppen, über die auch Macros für bestimmte Anwendungen zum Download bereitstehen (bspw. http://www.spssusers.co.uk/). In der Volkswirtschaft und Ökonometrie wird SPSS (fast) nicht eingesetzt, da wesentliche Teile der Regressionsanalyse und komplexere statistische Regressionsverfahren nicht (direkt) implementiert sind.
Stata
Sehr leistungsfähiges Programmpaket, das im akademischen Bereich einschließlich der VWL häufig verwendet wird. Verfügt in der Regressionsanalyse über umfangreiche Möglichkeiten und bietet spezielle Anwendungen. Es existiert eine weltweite User‐Community, die sich wechselseitig unterstützt, Fragen beantwortet und zusätzliche Programmroutinen (Macros) kostenlos bereitstellt (http://www.stata.com/statalist/). Auch neueste statistische Verfahren sind so für den anwendungsorientierten Nutzer verfügbar. Jedes Jahr finden in Deutschland und anderen Ländern User‐Konferenzen statt, in denen die aktuellen Verfahren und Anwendungen präsentiert werden. Nicht ganz so anwenderfreundlich wie SPSS.
R
Es handelt sich um eine Open Source Software, die kostenlos aus dem Internet downloadbar ist. Prinzipiell sehr umfangreiches und leistungsfähiges Programm. Eine aktive User‐Community entwickelt die Software ständig fort. Ein wesentlicher Nachteil ist die befehlsorientierte Programmsprache. Die Einarbeitung ist damit recht aufwändig. Dies dürfte sich aber in Zukunft durch die Entwicklung von graphischen Benutzeroberflächen verbessern.
Literatur: Hazinger et al. (2014) und Hellbrück (2016) sind einführende Lehrbücher.
Einen genaueren Vergleich der jeweiligen Vor‐ und Nachteile dieser drei Programmpakete bietet: http://www.inwt-statistics.de/blog/tag/Statistik-Software.html
Zu den Programmpaketen SPSS, Stata und R existieren auch hilfreiche YouTube Videos. Ebenfalls empfehlenswert sind die Beiträge der Econometrics Academy: https://sites.google.com/site/econometricsacademy/
SAS
Umfangreiche Software mit Ausrichtung auf Geschäftsprozesse, die insbesondere im kommerziellen Sektor (Unternehmensberatungen, Marktforschung etc.) benutzt wird.
Excel
Mit Excel lassen sich einige statistische Berechnungen durchführen – auch bestimmte Teile der Regressionsanalyse. Dies aber auf eine sehr umständliche Art und Weise.
Weitere zum Teil auf bestimmte Anwendungen – etwa die Zeitreihenanalyse – spezialisierte Programme sind EViews, LIMDEP, RATS, TSP und GRETL. Letzteres ist als Open Source Software kostenlos verfügbar (http://gretl.sourceforge.net/win32). GAUSS ist speziell auf die eigene Programmierung der statistischen Verfahren mittels Matrizenrechnung ausgelegt – also für den anwendungsorientierten Nutzer weniger geeignet.
Rights and permissions
Copyright information
© 2017 Springer-Verlag GmbH Deutschland
About this chapter
Cite this chapter
Stoetzer, MW. (2017). Grundlagen der Regressionsanalyse. In: Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung Band 1. Springer Gabler, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-53824-1_2
Download citation
DOI: https://doi.org/10.1007/978-3-662-53824-1_2
Published:
Publisher Name: Springer Gabler, Berlin, Heidelberg
Print ISBN: 978-3-662-53823-4
Online ISBN: 978-3-662-53824-1
eBook Packages: Business and Economics (German Language)