Korrelations- und Regressionsanalyse

Wollschläger, Daniel

doi:10.1007/978-3-642-25800-8_6

Daniel Wollschläger^nAff1

Part of the book series: Statistik und ihre Anwendungen ((STATIST))

7067 Accesses

Zusammenfassung

Die Korrelation zweier quantitativer Variablen ist ein Maß ihres linearen Zusammenhangs. Auch die lineare Regression bezieht sich auf den linearen Zusammenhang von Variablen, um mit seiner Hilfe Variablenwerte einer Zielvariable (des Kriteriums) durch die Werte anderer Variablen (der Prädiktoren) vorherzusagen. Für beide Verfahren lassen sich auch inferenzstatistisch testbare Hypothesen über ihre Parameter aufstellen. Für die statistischen Grundlagen dieser Themen vgl. die darauf spezialisierte Literatur (Eid et al., 2010; Hays, 1994), die auch für eine vertiefte Behandlung von Regressionsanalysen in R verfügbar ist (Faraway, 2004; Fox & Weisberg, 2011b).

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Log in via an institution

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 29.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

1.
Für Tests auf Zusammenhang von ordinalen Variablen vgl. Abschn. 8.3.1.
2.
Die rcorr() Funktion aus dem Hmisc Paket berechnet für mehrere Variablen die Korrelationsmatrix nach Pearson sowie nach Spearman und testet die resultierenden Korrelationen gleichzeitig auf Signifikanz.
3.
Für Fishers $Z$-Transformation vgl. die fisherz(), für die Rücktransformation die fisherz2r() Funktion des psych Pakets.
4.
Für die Bestimmung von Parametern in nichtlinearen Vorhersagemodellen anhand der Methode der kleinsten quadrierten Abweichungen vgl. die nls() Funktion und 119. Für Maximum-Likelihood-Schätzungen der Parameter vgl. die glm() Funktion, deren Anwendung im Rahmen der logistischen Regression Abschn. 6.8 demonstriert.
5.
In der Voreinstellung na.action=na.omit zum Ausschluss aller Fälle mit mindestens einem fehlenden Wert ist zu beachten, dass das Ergebnis entsprechend weniger vorhergesagte Werte und Residuen umfasst. Dies kann etwa dann relevant sein, wenn diese Werte mit den ursprünglichen Datenvektoren in einer Rechnung auftauchen und lässt sich mittels na.action=na.exclude vermeiden.
6.
Bei fehlenden Werten ist darauf zu achten, dass die $z$-Standardisierung bei beiden Variablen auf denselben Beobachtungsobjekten beruht. Gegebenenfalls sollten fehlende Werte der beteiligten Variablen aus dem Datensatz vorher manuell ausgeschlossen werden (vgl. Abschn. 5.4).
7.
Für eine Mediationsanalyse mit dem Sobel-Test vgl. die sobel() Funktion aus dem multilevel Paket 12. Weitergehende Mediationsanalysen sind mit dem mediation Paket möglich 130.
8.
Im Folgenden wird dieser Teil der Ausgabe mit options(show.signif.stars=FALSE) unterdrückt.
9.
Für die multivariate multiple Regression mit mehreren Kriteriumsvariablen $Y_{{k}}$ vgl. Abschn. 10.5. Die Funktion poly() erleichtert es, orthogonale Polynome für eine polynomiale Regression zu erstellen.
10.
Es sei vorausgesetzt, dass $\boldsymbol{X}$ vollen Spaltenrang hat, also keine linearen Abhängigkeiten zwischen den Prädiktoren vorliegen. Dann gilt $\boldsymbol{X}^{{+}}=(\boldsymbol{X}^{{t}}\boldsymbol{X})^{{-1}}\boldsymbol{X}^{{t}}$. Der hier gewählte Rechenweg ist numerisch nicht stabil und weicht von in R-Funktionen implementierten Rechnungen ab.
11.
Das Paket leaps 87 ermöglicht die automatisierte Auswahl aller Teilmengen von Prädiktoren. Beide Verfahren sind mit vielen inhaltlichen Problemen verbunden, für eine Diskussion und verschiedene Strategien zur Auswahl von Prädiktoren vgl. 96.
12.
AIC und BIC besitzen einen engen Bezug zu bestimmten Methoden der Kreuzvalidierung, die sich ebenfalls als Mittel zum Vergleich von Regressionsmodellen eignet (vgl. Abschn. 6.5).
13.
Für Hinweise zur Analyse komplexerer Kausalmodelle vgl. Abschn. 10.3, Fußnote 10.
14.
Handelt es sich etwa im Rahmen einer Kovarianzanalyse (vgl. Abschn. 7.8) um einen kategorialen Prädiktor, mithin ein Objekt der Klasse factor, so muss die zugehörige Variable in newdata dieselben Stufen in derselben Reihenfolge beinhalten wie die des ursprünglichen Modells – selbst wenn nicht alle Faktorstufen tatsächlich als Ausprägung vorkommen.
15.
Die $k$-fache Kreuzvalidierung eines linearen Regressionsmodells ist für einen vom Stichprobenumfang abhängigen Wert von $k$ asymptotisch äquivalent zum Informationskriterium BIC (vgl. Abschn. 6.3.3).
16.
Sie ist asymptotisch äquivalent zum Informationskriterium AIC des Regressionsmodells (vgl. Abschn. 6.3.3).
17.
Für fortgeschrittene Tests, ob Ausreißer vorliegen, vgl. die Pakete outliers 77 und mvoutlier 38 für multivariate Daten.
18.
Zudem ist $h_{{i}}$ gleich dem $i$-ten Eintrag $\boldsymbol{H}_{{ii}}$ in der Diagonale der Hat-Matrix $\boldsymbol{H}$ (vgl. Abschn. 6.3.1).
19.
Mitunter werden hierfür auch die Beträge der Residuen bzw. deren Wurzel gewählt (sog. scale-location plot). Vergleiche weiterhin die Funktion residualPlots() aus dem Paket car. Der Breusch-Pagan-Test auf Heteroskedastizität kann mit der Funktion bptest() aus dem Paket lmtest 149 durchgeführt werden, jener nach White mit white.test() aus dem Paket tseries 131.
20.
Der Durbin-Watson-Test auf Autokorrelation der Messfehler lässt sich mit der Funktion durbinWatsonTest() aus dem Paket car durchführen.
21.
Alternativ besitzt das Paket car die sich auch für andere Transformationen eignende Funktion powerTransform(<<lm-Modell>>, family="bcPower"), die eine Schätzung von $\lambda$ direkt ausgibt.
22.
Auf numerischer Seite bringt starke Multikollinearität das Problem mit sich, dass die interne Berechnung der Parameterschätzungen anfälliger für Fehler werden kann, die aus der notwendigen Ungenauigkeit der Repräsentation von Gleitkommazahlen in Computern herrühren (vgl. Abschn. 1.3.6).
23.
Fortgeschrittene Methoden zur Diagnostik von Multikollinearität enthält das Paket perturb 66.
24.
Ursache dafür ist die Änderung der Eigenwerte bei Datentransformationen: Ist $\boldsymbol{X}$ die Designmatrix des ursprünglichen Modells und $\boldsymbol{X}^{{\prime}}$ die Designmatrix des Modells der transformierten Daten, so gehen die Eigenwerte von $\boldsymbol{X}^{{\prime t}}\boldsymbol{X}^{{\prime}}$ nicht auf einfache Weise aus denen von $\boldsymbol{X}^{{t}}\boldsymbol{X}$ hervor. Insbesondere verändern sich der größte und kleinste Eigenwert jeweils unterschiedlich, sodass deren Quotient nicht konstant ist.
25.
Solche Transformationen des eigentlich vorherzusagenden Parameters, die eine lineare Modellierung ermöglichen, heißen auch Link-Funktion.
26.
Für umfangreiche Möglichkeiten zur Analyse von logistischen Regressionsmodellen vgl. die Funktion lrm() aus dem Paket rms 62.
27.
In der Voreinstellung gibt residuals(<<GLM-Modell>>) Devianz-Residuen aus, vgl. ?residuals.glm. Dagegen speichert <<GLM-Modell>>$residuals sog. Working-Residuen.
28.
Vergleiche Abschn. 8.2.6, 8.3.3 für weitere Möglichkeiten, Klassifikationen zu analysieren. Vergleiche Abschn. 10.8 für die Diskriminanzanalyse sowie die dortige Fußnote 10 für Hinweise zu weiteren Verfahren.

Author information

Daniel Wollschläger
Present address: Institut für Psychologie, Christian-Albrechts-Universität zu Kiel, Olshausenstr. 62, 24098, Kiel, Deutschland

Authors and Affiliations

Authors

Daniel Wollschläger
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Daniel Wollschläger .

Rights and permissions

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Wollschläger, D. (2012). Korrelations- und Regressionsanalyse. In: Grundlagen der Datenanalyse mit R. Statistik und ihre Anwendungen. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-25800-8_6

Download citation

DOI: https://doi.org/10.1007/978-3-642-25800-8_6
Published: 03 April 2012
Publisher Name: Springer, Berlin, Heidelberg
Print ISBN: 978-3-642-25799-5
Online ISBN: 978-3-642-25800-8
eBook Packages: Life Science and Basic Disciplines (German Language)

Publish with us

Policies and ethics