Grundlagen der Regressionsanalyse

Stoetzer, Matthias-W.

doi:10.1007/978-3-662-53824-1_2

Matthias-W. Stoetzer²

12k Accesses

Zusammenfassung

Der Abschnitt 2.2 erläutert das Grundprinzip der Regressionsanalyse an dem bereits bekannten PKW-Beispiel aus Kapitel 1. Anschließend beschäftigt sich Abschnitt 2.3 mit den grundlegenden Fragen, die bei der Beurteilung der Aussagekraft von Regressionsergebnissen zu überprüfen sind. Abschnitt 2.4 fasst die wichtigsten Aussagen zusammen und Abschnitt 2.5 zeigt anhand der Programmpakete SPSS und Stata wie eine solche einfache Regression durchgeführt wird.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Log in via an institution

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 29.99; Price excludes VAT (USA)

Softcover Book: USD 39.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

1.
Der Begriff multivariate Regression (bzw. multivariate Analyse) wird im Folgenden (so wie in der Literatur üblich) nur für Untersuchungen verwendet, bei denen gleichzeitig mehrere abhängige Variablen existieren. In manchen Lehrbüchern wird davon abweichend das, was hier multiple Regression genannt wird, als multivariate Regression bezeichnet (so bspw. in den Lehrbüchern von Backhaus et al. (2011, 2013) und Studenmund (2014)).
2.
Anhang 2.1 am Ende dieses Kapitels beschreibt die Konstruktion dieses Datensatzes und enthält damit auch die normalerweise unbekannten wahren Koeffizientenwerte B₀ und B₁.
3.
Die Minimierung der Summe der Abweichungsquadrate ist ein sogenannter Schätzer (estimator), d. h. ein Verfahren, um eine passende Gerade zu ermitteln. Andere Schätzverfahren sind möglich (bspw. die Minimierung der Summe der absoluten Abweichungen). Die KQ‐Methode hat im Vergleich erstens den Vorteil rechentechnisch einfach ermittelbar zu sein. Dies spielt heute aber dank der Leistungsfähigkeit der PCs keine Rolle mehr. Zweitens besitzt der KQ‐Schätzer drei wünschenswerte Eigenschaften. Unter bestimmten Annahmen ist es ein unverzerrter, konsistenter und effizienter Schätzer (näheres dazu im Abschn. 5.1).
4.
Es werden hier und in den anschließenden Kapiteln die folgenden Abkürzungen verwendet: Die großen Buchstaben (B₀, B₁ usw) bezeichnen die uns unbekannten wahren Koeffizienten. Die kleinen Buchstaben (b₀, b₁ usw.) stehen für die geschätzten Koeffizienten. Sie werden in der Literatur häufig auch mit den griechischen Buchstaben (in der Regel β₀, β₁ usw.) abgekürzt. Zur Unterscheidung von wahren und geschätzten Parametern dienen hier und in der Literatur auch die „Dächer“ über den Variablen bzw. Koeffizienten, so sind zum Beispiel Ŷ, $ \hat{\upbeta }_{1}$geschätzte Größen.
5.
Englisch: „Intercept“ oder „Constant“.
6.
Es existieren auch andere Regeln zur Berechnung, die im Anhang 5.1 des Kap. 5 kurz beschrieben werden. Die OLS‐Methode ist aber das Referenzverfahren und grafisch besonders eingängig vermittelbar.
7.
Zum Unterschied von Regressionskoeffizient und Pearson‐Korrelationskoeffizient siehe auch Abschn. 8.1 und 8.2 am Ende des Buchs.
8.
Auf die Unterscheidung der wahren und der mittels OLS geschätzten Koeffizientenwerte wird zur Vereinfachung im Folgenden verzichtet.
9.
Dies entspricht im Rahmen einer Korrelationsanalyse der Berechnung von Partialkorrelationen. Für die Berechnung des Zusammenhangs zwischen Y und X₁ werden die Beziehungen der Variablen Y und X₁ mit den Variablen X₂ und X₃ beseitigt. Die Statistik bezeichnet dies als auspartialisieren. Das Verfahren wird erläutert bei Bühner und Ziegler (2009, S. 645–650).
10.
Üblich ist die Interpretation als Anteil an der erklärten Varianz (Acock 2016, S. 276). Zur Deutung als Anteil an der Gesamtstreuung (Variation) siehe Baum (2006, S. 78) und Ashley (2012, S. 179–181).
11.
Die Variable n steht für die Zahl der Beobachtungen und k für die Zahl der unabhängigen Variablen. In unserem PKW‐Beispiel haben wir 15 Beobachtungen und 3 Einflussfaktoren (= unabhängige Variablen). Was Freiheitsgerade (Degress of freedom) sind, wird im Abschn. 5.9 erläutert.
12.
Eine genauere Darstellung der Logik von Hypothesentests enthält Kap. 9 am Ende des Buchs.
13.
Bspw. liegt bei einem Signifikanzniveau von 5 %, einer unabhängigen Variablen (d. h. einem Zählerfreiheitsgrad von 1) und 16 Beobachtungen, d. h. einem Nennerfreiheitsgrad von 14 (= 16 – Zahl der exogenen Variablen – 1) der kritische F‐Wert bei 4,60. Ist der ermittelte F‐Wert größer, wird die Nullhypothese abgelehnt. Bei einem Nennerfreiheitsgrad von 30 beträgt der kritische F‐Wert 4,17 und fällt mit den Zählerfreiheitsgerade: Bei 10 Zählerfreiheitsgeraden beträgt er 2,16 (Auer und Rottmann 2010, S. 699).
14.
Es ist zu beachten, dass, wenn die Nullhypothese nicht abgelehnt werden kann, dies noch kein Beweis ist, dass von dieser Variable kein Einfluss ausgeht (siehe Abschn. 9.3.2).
15.
Im Nachkommastellenbereich können u. a. durch Rundungen Abweichungen zwischen den Ergebnissen verschiedener statistischer Programmpakete auftreten.
16.
Da die Statistikprogrammpakete runden, heißt dies genauer, dass die Wahrscheinlichkeit kleiner als 0,0005 % ist.
17.
Dies ist eine im strengen statistischen Sinn falsche Interpretation (Schira 2005, S. 451). Eine klare Darstellung geben Schnell et al. (2013, S. 265–267).
18.
Es handelt sich um das Vorgehen bei einem zweiseitigen Test. Es können auch Tests durchgeführt werden, inwieweit der Koeffizient größer oder kleiner Null ist (einseitige Tests). Weiterführende Tests überprüfen bspw. die Übereinstimmung mit vorgegebenen Koeffizientenwerten oder das Vorliegen eines gemeinsamen Einflusses mehrerer Variablen. Ausführliche Erläuterungen geben Bühner und Ziegler (2009; Kapitel 4 und 5), Auer und Rottmann (2010, Kapitel III.3) sowie Cortinhas und Black (2012, Unit V).
19.
Praktisch treten kleine Abweichungen zwischen beiden Koeffizientenschätzungen aufgrund von Rundungsfehlern auf.
20.
In SPSS ist die Ausgabe der Koeffizientenschätzungen in der Standardeinstellung auf drei Nachkommastellen begrenzt. Wenn wir in SPSS im Regressionsoutput den Koeffizienten markieren und dann links doppelt anklicken, erhalten wir die weiteren Nachkommastellen der Gln. 2.15 und 2.16.
21.
Allerdings können standardisierte Koeffizienten bei Dummy‐Variablen und Interaktionseffekten (beide werden im Kap. 3 erläutert) nicht verwendet werden.
22.
Diese berechnen wir durch Logarithmierung der abhängigen und der unabhängigen Variablen (siehe dazu ebenfalls Kap. 3).
23.
Im Folgenden werden die in den Softwareprogrammen anzuklickenden bzw. einzugebenden Befehle in eckige Klammern gesetzt: […].
24.
Stata‐Datensätze sind an der Endung „.dta“ zu erkennen. Hier benutzen wir also den Datensatz „PKW‐Marketing‐Beispiel.dta“.
25.
Es handelt sich um einen konstruierten Datensatz, dessen Generierung im Anhang 2.1 beschrieben wird. Die folgenden Dateien enthalten den Datensatz im SPSS‑, Stata‐ und Excel‐Format: PKW‐Marketing‐Beispiel.sav, PKW‐Marketing‐Beispiel.dta und PKW‐Marketing‐Beispiel.xls.

Literatur

Acock, A. C. (2016): A Gentle Introduction to Stata, 5^th, ed., College Station, Texas
Google Scholar
Ashley, R. A. (2012): Fundamentals of Applied Econometrics, Hoboken, New Jersey
Google Scholar
Auer, B., Rottmann, H. (2010): Statistik und Ökonometrie für Wirtschaftswissenschaftler, Wiesbaden
Google Scholar
Backhaus, K., Erichson, B., Plinke, W., Weiber, R. (2011): Multivariate Analysemethoden, 13. Auflage, Heidelberg et al.
Book Google Scholar
Backhaus, K., Erichson, B., Weiber, R. (2013): Fortgeschrittene Multivariate Analysemethoden, 2. Auflage, Heidelberg et al.
Book Google Scholar
Baltes-Götz, B. (2016): Generalisierte lineare Modelle und GEE-Modelle in SPSS Statistics. Online-Dokument: https://www.uni-trier.de/fileadmin/urt/doku/gzlm_gee/ gzlm_gee.pdf, (Zugriff: 20.11.2016)
Google Scholar
Baum, Ch. F. (2006): An Introduction to Modern Econometrics Using Stata, College Station, Texas
Google Scholar
Brosius, F. (2013): SPSS 21, 1. Auflage, München
Google Scholar
Bühl, A. (2014): SPSS 22, Einführung in die moderne Datenanalyse, 14. Auflage, München
Google Scholar
Bühner, M., Ziegler, M. (2009): Statistik für Psychologen und Sozialwissenschaftler, München
Google Scholar
Cameron, L.A., Trivedi, P.K. (2010): Microeconometrics using Stata, Revised Edition, College Station, Texas
Google Scholar
Cortinhas, C., Black, K. (2012): Statistics for Business and Economics, Chichester UK
Google Scholar
Field, A. (2013): Discovering Statistics Using SPSS statistics: and sex and drugs and Rock ’n Roll, 4^th ed., Ventura
Google Scholar
Hamilton, L. C. (2013): Statistics with STATA, Updated for Version 12, Boston Mass.
Google Scholar
Hazinger, R, Hornik, K., Nagel, H., Maier, M. (2014): R, Einführung durch angewandte Statistik, 2. Auflage, München
Google Scholar
Hellbrück, R. (2016): Angewandte Statistik mit R, 3. Auflage, Wiesbaden
Book Google Scholar
Kirchkamp, O. (2011): Empirische und Experimentelle Wirtschaftsforschung, BW 24.1, unveröffentlichter Skript, Jena.
Google Scholar
Kohler, U., Kreuter, F. (2006): Datenanalyse mit Stata, 2. Auflage, München Wien
Google Scholar
Kohler, U., Kreuter, F. (2012): Data Analysis Using Stata, Third Ed., College Station, Texas
Google Scholar
Schira, J. (2005): Statistische Methoden der VWL und BWL. Theorie und Praxis, 2. Auflage, München
Google Scholar
Schnell, R., Hill, P.B., Esser, E. (2013): Methoden der empirischen Sozialforschung, 10. Auflage, München
Google Scholar
Skiera, B., Albers, S (2008): Regressionsanalyse, in: Herrmann, A., Homburg, C., Klarmann, M. (Hrsg.): Handbuch Marktforschung, 3. Auflage, Wiesbaden: 467–497
Google Scholar
Stata (2015a): Stata 14 documentation, College Station, Texas, http://www.stata-press.com/manuals/documentation-set/ (Zugriff: 17.10.2016)
Google Scholar
Studenmund, A.H. (2014): Using Econometrics – A Practical Guide, 6. Auflage, Boston
Google Scholar
Tabachnick, B.G., Fidell, L.S. (2014): Using Multivariate Statistics, 6^th ed. Harlow Essex
Google Scholar
Wittenberg, R., Cramer, H., Vicari, B. (2014): Datenanalyse mit IBM SPSS Statistics – Eine syntaxorientierte Einführung, Konstanz, München
Google Scholar

Download references

Author information

Authors and Affiliations

Ernst-Abbe-Hochschule Jena, Jena, Deutschland
Matthias-W. Stoetzer

Authors

Matthias-W. Stoetzer
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Matthias-W. Stoetzer .

Anhang

Anhang 2.1: Datengenerierung des PKW‐Beispiels

Die Zahl der verkauften PKW (Absatzmenge) wurde nach folgender Gleichung ermittelt:

$$ \textit{Menge} = 110 + 3\; \textit{Kontakte} - 1{,}3\; \textit{Preis} + 2{,}1\; \textit{Budget}. $$

Die Werte für die unabhängigen Variablen wurden innerhalb der im Folgenden beschriebenen Grenzen willkürlich angenommen: Preis zwischen min. 13.000 € und max. 16.000 €; Werbebudget im Durchschnitt bei ca. 25.000 € je Region, Zahl der Kontakte zwischen min. 10 und max. 25 pro Quartal.

Auf dieser Wertebasis wurden die resultierenden Absatzmengen gerundet und mittels eines Zufallsverfahrens modifiziert.

Anhang 2.2: Statistikprogrammpakete

Aus der Vielzahl der existierenden Statistiksoftware werden hier nur einige ausgewählte kurz vorgestellt.

SPSS

Als statistisches Programmpaket in den Sozialwissenschaften und auch der BWL weit verbreitet. Sehr anwenderfreundlich und leicht zu bedienen – dank der menübasierten Steuerung. SPSS bietet auch eine syntaxbasierte Steuerung an, auf die hier nicht näher eingegangen wird. Mit dieser sind einige weitere und fortgeschrittene statistische Verfahren realisierbar. Eine wertvolle Quelle für Informationen sind die existierenden User‐Gruppen, über die auch Macros für bestimmte Anwendungen zum Download bereitstehen (bspw. http://www.spssusers.co.uk/). In der Volkswirtschaft und Ökonometrie wird SPSS (fast) nicht eingesetzt, da wesentliche Teile der Regressionsanalyse und komplexere statistische Regressionsverfahren nicht (direkt) implementiert sind.

Stata

Sehr leistungsfähiges Programmpaket, das im akademischen Bereich einschließlich der VWL häufig verwendet wird. Verfügt in der Regressionsanalyse über umfangreiche Möglichkeiten und bietet spezielle Anwendungen. Es existiert eine weltweite User‐Community, die sich wechselseitig unterstützt, Fragen beantwortet und zusätzliche Programmroutinen (Macros) kostenlos bereitstellt (http://www.stata.com/statalist/). Auch neueste statistische Verfahren sind so für den anwendungsorientierten Nutzer verfügbar. Jedes Jahr finden in Deutschland und anderen Ländern User‐Konferenzen statt, in denen die aktuellen Verfahren und Anwendungen präsentiert werden. Nicht ganz so anwenderfreundlich wie SPSS.

R

Es handelt sich um eine Open Source Software, die kostenlos aus dem Internet downloadbar ist. Prinzipiell sehr umfangreiches und leistungsfähiges Programm. Eine aktive User‐Community entwickelt die Software ständig fort. Ein wesentlicher Nachteil ist die befehlsorientierte Programmsprache. Die Einarbeitung ist damit recht aufwändig. Dies dürfte sich aber in Zukunft durch die Entwicklung von graphischen Benutzeroberflächen verbessern.

Literatur: Hazinger et al. (2014) und Hellbrück (2016) sind einführende Lehrbücher.

Einen genaueren Vergleich der jeweiligen Vor‐ und Nachteile dieser drei Programmpakete bietet: http://www.inwt-statistics.de/blog/tag/Statistik-Software.html

Zu den Programmpaketen SPSS, Stata und R existieren auch hilfreiche YouTube Videos. Ebenfalls empfehlenswert sind die Beiträge der Econometrics Academy: https://sites.google.com/site/econometricsacademy/

SAS

Umfangreiche Software mit Ausrichtung auf Geschäftsprozesse, die insbesondere im kommerziellen Sektor (Unternehmensberatungen, Marktforschung etc.) benutzt wird.

Excel

Mit Excel lassen sich einige statistische Berechnungen durchführen – auch bestimmte Teile der Regressionsanalyse. Dies aber auf eine sehr umständliche Art und Weise.

Weitere zum Teil auf bestimmte Anwendungen – etwa die Zeitreihenanalyse – spezialisierte Programme sind EViews, LIMDEP, RATS, TSP und GRETL. Letzteres ist als Open Source Software kostenlos verfügbar (http://gretl.sourceforge.net/win32). GAUSS ist speziell auf die eigene Programmierung der statistischen Verfahren mittels Matrizenrechnung ausgelegt – also für den anwendungsorientierten Nutzer weniger geeignet.

Rights and permissions

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Stoetzer, MW. (2017). Grundlagen der Regressionsanalyse. In: Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung Band 1. Springer Gabler, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-53824-1_2

Download citation

DOI: https://doi.org/10.1007/978-3-662-53824-1_2
Published: 31 May 2017
Publisher Name: Springer Gabler, Berlin, Heidelberg
Print ISBN: 978-3-662-53823-4
Online ISBN: 978-3-662-53824-1
eBook Packages: Business and Economics (German Language)

Publish with us

Policies and ethics

Grundlagen der Regressionsanalyse

Zusammenfassung

Access this chapter

Notes

Literatur

Author information

Authors and Affiliations

Corresponding author

Anhang

Anhang

Anhang 2.1: Datengenerierung des PKW‐Beispiels

Anhang 2.2: Statistikprogrammpakete

SPSS

Stata

R

SAS

Excel

Rights and permissions

Copyright information

About this chapter

Cite this chapter

Download citation

Share this chapter

Publish with us

Search

Navigation