Zusammenfassung
Die Korrelation zweier quantitativer Variablen ist ein Maß ihres linearen Zusammenhangs. Auch die lineare Regression bezieht sich auf den linearen Zusammenhang von Variablen, um mit seiner Hilfe Variablenwerte einer Zielvariable (des Kriteriums) durch die Werte anderer Variablen (der Prädiktoren) vorherzusagen. Für beide Verfahren lassen sich auch inferenzstatistisch testbare Hypothesen über ihre Parameter aufstellen. Für die statistischen Grundlagen dieser Themen vgl. die darauf spezialisierte Literatur (Eid et al., 2010; Hays, 1994), die auch für eine vertiefte Behandlung von Regressionsanalysen in R verfügbar ist (Faraway, 2004; Fox & Weisberg, 2011b).
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Notes
- 1.
Für Tests auf Zusammenhang von ordinalen Variablen vgl. Abschn. 8.3.1.
- 2.
Die rcorr() Funktion aus dem Hmisc Paket berechnet für mehrere Variablen die Korrelationsmatrix nach Pearson sowie nach Spearman und testet die resultierenden Korrelationen gleichzeitig auf Signifikanz.
- 3.
Für Fishers \(Z\)-Transformation vgl. die fisherz(), für die Rücktransformation die fisherz2r() Funktion des psych Pakets.
- 4.
Für die Bestimmung von Parametern in nichtlinearen Vorhersagemodellen anhand der Methode der kleinsten quadrierten Abweichungen vgl. die nls() Funktion und 119. Für Maximum-Likelihood-Schätzungen der Parameter vgl. die glm() Funktion, deren Anwendung im Rahmen der logistischen Regression Abschn. 6.8 demonstriert.
- 5.
In der Voreinstellung na.action=na.omit zum Ausschluss aller Fälle mit mindestens einem fehlenden Wert ist zu beachten, dass das Ergebnis entsprechend weniger vorhergesagte Werte und Residuen umfasst. Dies kann etwa dann relevant sein, wenn diese Werte mit den ursprünglichen Datenvektoren in einer Rechnung auftauchen und lässt sich mittels na.action=na.exclude vermeiden.
- 6.
Bei fehlenden Werten ist darauf zu achten, dass die \(z\)-Standardisierung bei beiden Variablen auf denselben Beobachtungsobjekten beruht. Gegebenenfalls sollten fehlende Werte der beteiligten Variablen aus dem Datensatz vorher manuell ausgeschlossen werden (vgl. Abschn. 5.4).
- 7.
- 8.
Im Folgenden wird dieser Teil der Ausgabe mit options(show.signif.stars=FALSE) unterdrückt.
- 9.
Für die multivariate multiple Regression mit mehreren Kriteriumsvariablen \(Y_{{k}}\) vgl. Abschn. 10.5. Die Funktion poly() erleichtert es, orthogonale Polynome für eine polynomiale Regression zu erstellen.
- 10.
Es sei vorausgesetzt, dass \(\boldsymbol{X}\) vollen Spaltenrang hat, also keine linearen Abhängigkeiten zwischen den Prädiktoren vorliegen. Dann gilt \(\boldsymbol{X}^{{+}}=(\boldsymbol{X}^{{t}}\boldsymbol{X})^{{-1}}\boldsymbol{X}^{{t}}\). Der hier gewählte Rechenweg ist numerisch nicht stabil und weicht von in R-Funktionen implementierten Rechnungen ab.
- 11.
- 12.
AIC und BIC besitzen einen engen Bezug zu bestimmten Methoden der Kreuzvalidierung, die sich ebenfalls als Mittel zum Vergleich von Regressionsmodellen eignet (vgl. Abschn. 6.5).
- 13.
- 14.
Handelt es sich etwa im Rahmen einer Kovarianzanalyse (vgl. Abschn. 7.8) um einen kategorialen Prädiktor, mithin ein Objekt der Klasse factor, so muss die zugehörige Variable in newdata dieselben Stufen in derselben Reihenfolge beinhalten wie die des ursprünglichen Modells – selbst wenn nicht alle Faktorstufen tatsächlich als Ausprägung vorkommen.
- 15.
Die \(k\)-fache Kreuzvalidierung eines linearen Regressionsmodells ist für einen vom Stichprobenumfang abhängigen Wert von \(k\) asymptotisch äquivalent zum Informationskriterium BIC (vgl. Abschn. 6.3.3).
- 16.
Sie ist asymptotisch äquivalent zum Informationskriterium AIC des Regressionsmodells (vgl. Abschn. 6.3.3).
- 17.
- 18.
Zudem ist \(h_{{i}}\) gleich dem \(i\)-ten Eintrag \(\boldsymbol{H}_{{ii}}\) in der Diagonale der Hat-Matrix \(\boldsymbol{H}\) (vgl. Abschn. 6.3.1).
- 19.
Mitunter werden hierfür auch die Beträge der Residuen bzw. deren Wurzel gewählt (sog. scale-location plot). Vergleiche weiterhin die Funktion residualPlots() aus dem Paket car. Der Breusch-Pagan-Test auf Heteroskedastizität kann mit der Funktion bptest() aus dem Paket lmtest 149 durchgeführt werden, jener nach White mit white.test() aus dem Paket tseries 131.
- 20.
Der Durbin-Watson-Test auf Autokorrelation der Messfehler lässt sich mit der Funktion durbinWatsonTest() aus dem Paket car durchführen.
- 21.
Alternativ besitzt das Paket car die sich auch für andere Transformationen eignende Funktion powerTransform(<<lm-Modell>>, family="bcPower"), die eine Schätzung von \(\lambda\) direkt ausgibt.
- 22.
Auf numerischer Seite bringt starke Multikollinearität das Problem mit sich, dass die interne Berechnung der Parameterschätzungen anfälliger für Fehler werden kann, die aus der notwendigen Ungenauigkeit der Repräsentation von Gleitkommazahlen in Computern herrühren (vgl. Abschn. 1.3.6).
- 23.
Fortgeschrittene Methoden zur Diagnostik von Multikollinearität enthält das Paket perturb 66.
- 24.
Ursache dafür ist die Änderung der Eigenwerte bei Datentransformationen: Ist \(\boldsymbol{X}\) die Designmatrix des ursprünglichen Modells und \(\boldsymbol{X}^{{\prime}}\) die Designmatrix des Modells der transformierten Daten, so gehen die Eigenwerte von \(\boldsymbol{X}^{{\prime t}}\boldsymbol{X}^{{\prime}}\) nicht auf einfache Weise aus denen von \(\boldsymbol{X}^{{t}}\boldsymbol{X}\) hervor. Insbesondere verändern sich der größte und kleinste Eigenwert jeweils unterschiedlich, sodass deren Quotient nicht konstant ist.
- 25.
Solche Transformationen des eigentlich vorherzusagenden Parameters, die eine lineare Modellierung ermöglichen, heißen auch Link-Funktion.
- 26.
Für umfangreiche Möglichkeiten zur Analyse von logistischen Regressionsmodellen vgl. die Funktion lrm() aus dem Paket rms 62.
- 27.
In der Voreinstellung gibt residuals(<<GLM-Modell>>) Devianz-Residuen aus, vgl. ?residuals.glm. Dagegen speichert <<GLM-Modell>>$residuals sog. Working-Residuen.
- 28.
Author information
Authors and Affiliations
Corresponding author
Rights and permissions
Copyright information
© 2012 Springer–Verlag Berlin Heidelberg
About this chapter
Cite this chapter
Wollschläger, D. (2012). Korrelations- und Regressionsanalyse. In: Grundlagen der Datenanalyse mit R. Statistik und ihre Anwendungen. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-25800-8_6
Download citation
DOI: https://doi.org/10.1007/978-3-642-25800-8_6
Published:
Publisher Name: Springer, Berlin, Heidelberg
Print ISBN: 978-3-642-25799-5
Online ISBN: 978-3-642-25800-8
eBook Packages: Life Science and Basic Disciplines (German Language)