Skip to main content

Multiple Regression: mehrere Prädiktoren

  • Chapter
  • First Online:
Parametrische Statistik

Part of the book series: Statistik und ihre Anwendungen ((STATIST))

  • 8507 Accesses

Zusammenfassung

Dieses Kapitel führt uns vom Fall eines Prädiktors (Kapitel 9) zu zwei oder mehreren Prädiktoren. Damit tauchen verschiedenen neue Probleme auf, die hier behandelt werden: Visualisierung in 3 Dimensionen; statistische Interaktionen zwischen Prädiktoren; Korrelation zwischen Prädiktoren; und Auswahl der wichtigsten Prädiktoren für ein Modell. Die Hauptkomponentenanalyse und die Cluster-Analyse werden als Methoden zur Reduzierung von Kollinearität vorgestellt.

The combination of some data and an aching desire for an answer does not ensure that a reasonable answer can be extracted from a given body of data.John Tukey

The combination of some data and an aching desire for an answer does not ensure that a reasonable answer can be extracted from a given body of data.

John Tukey

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 29.99
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever
Softcover Book
USD 39.99
Price excludes VAT (USA)
  • Compact, lightweight edition
  • Dispatched in 3 to 5 business days
  • Free shipping worldwide - see info

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

  1. 1.

    Manchmal wird dies leider auch unter der Überschrift „Multivariate Statistik“ behandelt. Das ist verwirrend und irreführend. Die multivariate Statistik (im engeren Sinn) beschäftigt sich mit mehrdimensionalen Antwortvariablen. Demgegenüber stellen wir hier praktisch ausschließlich die „univariate“ Statistik vor, also mit einer Antwortvariablen.

  2. 2.

    Bzw. mehrere, was nichts am vorgestellten Prinzip ändert.

  3. 3.

    Genauer gesagt wird ein gewichteter Mittelwert berechnet, bei dem Punkte in der Mitte des Fensters voll, die zum Rand hin immer weniger gewichtet werden. Die hier dargestellte und häufigste Form ist der LOESS oder LOWESS (locally weighted scatterplot smoothing). Mathematisch passiert da einiges: So wird innerhalb des Fensters ein quadratische Funktion durch die Daten gelegt, wobei das Gewicht der Daten mit der dritten Potenz zum Rand hin abnimmt. Von diesem Fit wird aber nur der Mittelpunkt benutzt, dann wird das Fenster eine Einheit weiter bewegt und nachher alle Punkte durch gerade Linien verbunden. Spannend wie es ist, dient es uns hier doch nur zur Visualisierung und die Berechnungen sind nachrangig.

  4. 4.

    Tatsächlich kommt es vor, dass wir in einer Analyse eine signifikante Interaktion finden, die aber in Wirklichkeit auf einen nicht-linearen Effekt einer der beiden Prädiktoren zurückgeht (Oder, in den Worten von Marsh et al., 2012 , „It is well known that the presence of unmodeled quadratic effects may give the appearence of a significant interaction effect that is spurious (Ganzach 1997, Kromrey & Foster-Johnson 1999; Lubinski & Humphreys 1990; MacCullum & Mar 1995)“, S. 445). Weil Interaktionen dem Modell erlauben, nicht-lineare Funktionen zu fitten, führt uns die Interaktion hier in die Irre. Deshalb ist es wichtig, sowohl Interaktionen als auch nicht-lineare Effekte im Modell mitzunehmen.

  5. 5.

    Das 11 Monate alte Kind auf vier Dezimalstellen genau in Jahren anzugeben erscheint etwas übertrieben. Den Datensatz habe ich so aus einem R-Paket übernommen (siehe nächstes Kapitel), was aber nur eine schwache Entschuldigung ist.

  6. 6.

    Die Prädiktoren sollten dafür standardisiert werden, damit die Interaktion nicht durch den numerisch größeren Prädiktor dominiert wird. Eine Standardisierung erfolgt, indem man den Mittelwert von allen Prädiktorwerten abzieht und dann durch die Standardabweichung des Prädiktors teilt. Das Ergebnis sind dann Werte, die einen Mittelwert von 0 und eine Standardabweichung von 1 haben.

  7. 7.

    age:sexmale ist identisch zu sex by age weiter oben. Die Reihenfolge ist einfach nur alphanumerisch, so dass age vor sexmale kommt.

  8. 8.

    Tatsächlich ist das Problem unlösbar, wenn A perfekt mit B korreliert ist. Das GLM würde dann nie konvergieren und eine Fehlermeldung produzieren (außer in Microsoft Excel: McCullough und Heiser, 2008 ).

  9. 9.

    Wir erinnern uns, dass die Korrelation eine standardisierte Form der Kovarianz ist. Tatsächlich wird für die PCA zumeist der Datensatz „wie er ist“ benutzt. Daraus wird dann die Kovarianzmatrix berechnet, und aus der die PCA. Das ist schlecht, weil dann die PC 1 schlicht die Variable mit den größten Werten nachzeichnet! Stattdessen sollten wir immer die Daten standardisieren, bzw. die PCA auf der Korrelationsmatrix durchführen. Dadurch stellen wir sicher, dass die Prädiktoren auch vergleichbar sind.

  10. 10.

    Ich finde diese Metapher von Michael J. Crawley so schön, dass ich sie kopiere, obwohl sie falsch ist: Unser Nachthimmel ist natürlich durch die Milchstraße dominiert und nicht vollkommen zufällig.

  11. 11.

    Mathematisch: Der Eigenvektor mit dem größten realen Eigenwert.

  12. 12.

    Leider ist das nicht immer die Grundeinstellung in der Statistiksoftware. Nur standardisierte Daten sind aber vergleichbar. Mathematisch entspricht eine PCA mit Standardisierung der Eigenvektorberechnung der Korrelationsmatrix, während die PCA der Rohdaten den Eigenvektoren der Kovarianzmatrix entspricht.

  13. 13.

    Die multivariate Normalverteilung (MVN) ist eine Verkomplizierung der Normalverteilung für mehr als eine Antwortvariable. In unserem Fall haben wir zwei Variablen, X 1 und X 2, die jeweils normalverteilt sind und zudem noch korreliert. Die MVN hat als Parameter die Mittelwerte für jede Variable sowie eine symmetrische (Kovarianz-)Matrix, auf deren Diagonale die Varianzen und in den anderen Zellen die Kovarianzen zwischen X 1 und X 2 stehen. Dies wird z. B. so geschrieben: \(\mathrm{MVN}\big(\mu=\big(\begin{smallmatrix}5\\ 8\end{smallmatrix}\big),\sigma=\big(\begin{smallmatrix}1.2&0.5\\ 0.5&0.9\end{smallmatrix}\big)\big)\). 5 und 8 sind die Mittelwerte von X 1 und X 2; 1.2 und 0.9 sind dann die Varianzen von X 1 und X 2, respektive, während die Kovarianz 0.5 beträgt.

  14. 14.

    Shannons H = \(-\sum_{i=1}^{N}{p_{i}\ln p_{i}}\), wobei p i der Deckungsanteil der Art i ist, N die Anzahl der Arten, und \(\sum p_{i}=1\). Je größer H, desto artenreicher ist die Fläche bzw. desto gleichwertiger sind die Deckungsanteile der Arten.

  15. 15.

    Als scree bezeichnet man im Englischen den Schuttkegel am Fuße eines Berges. Der screeplot stellt also dar, wie „abschüssig“ die Eigenwerte über die Hauptkomponenten sind.

  16. 16.

    Wieder einer der vielen statistischen Ausdrücke, für die sich das deutsche Wort (in diesem Fall „Ballungsanalyse“) nicht durchgesetzt hat.

  17. 17.

    Diesen Ansatz nennt man „agglomerativ“, also zusammenfassend. Alternativ kann man im „divisiven“ clustern die Gesamtvariablen sukzessive in verschiedene Cluster aufspalten.

  18. 18.

    Eigentlich arbeitet die Cluster-Analyse mit Distanzen, also „Unähnlichkeiten“. Im Falle der Korrelation ist das einfach \(1-\rho^{2}\), es kann aber auch eine von Dutzenden anderer Distanzmaße sein: Gower, Jaccard, Euclid, Manhattan, Bray-Curtis, Mahalanobis, Hoeffding, usw. Aus der Kombination von über 50 Distanzmaßen und weiterer Dutzende Verknüpfungsverfahren ergibt sich eine unüberschaubare Fülle an Variation. Aus der oben zitierten Literatur schält sich m. E. die Kombination Spearmans ρ + complete linkage als eine sehr gute Methode heraus, sowie alternativ, Hoeffding-Distanz + Ward-linkage. Grundeinstellungen und Vorlieben variieren enorm zwischen verschiedenen Cluster-Analyse-Implementierungen.

  19. 19.

    Die Lage ist bei binären Daten etwas anders. Hier zählt nicht die Gesamtzahl Datenpunkte, sondern die Anzahl Einsen oder Nullen, je nachdem wovon wir weniger haben.

  20. 20.

    Wieso steht „beste“ in Anführungszeichen? Weil es verschiedene Kriterien für „gut“ gibt. Entsprechend kann es vorkommen, dass wir ein Modell nach Kriterium 1 für das beste halten, aber ein andere nach Kriterium 2. Typische Kriterien sind AIC, BIC, R 2 oder log-likelihood (siehe Ward, 2008 , für einen Vergleich verschiedener Kriterien). Der Glaube an das beste Modell ist spätestens seit Hilborn und Mangel, 1997 () für die Ökologie fundamental in Frage gestellt, im Grunde aber bereits etwas länger, seit der legendären Veröffentlichung des Geologen Chamberlin, 1890 ().

  21. 21.

    Oder in diesem Fall, mit binären Daten, mittels der sog. AUC-Werte. AUC steht für area under curve, und mit curve ist eine sog. receiver-operator characteristic gemeint. Was AUC genau ist, und wie man ihn berechnet, ist z. B. in Harrell, 2001 () oder Hastie et al., 2009 () beschrieben. AUC-Werte liegen zwischen 0.5 (sehr schlecht) und 1 (perfekt). Wir benutzen ihn einfach als Vergleichszahl: je größer, desto besser die Vorhersage auf den Testdatensatz.

  22. 22.

    Man kann argumentieren, dass die ANOVA nur eine andere Formulierung des LM ist, und ihr deshalb keinen besonderen Raum einräumen. Andererseits hat kein anderes modernes statistisches Verfahren so schnell und fundamental Einzug in die biologische Statistik gehalten wie die ANOVA.

  23. 23.

    Vergleiche diese mit dem Ergebnis aus R, Modell fm2, Abschn. 16.1.1.

  24. 24.

    An dieser Stelle wird eine Wiederholung der linearen Algebra aus der frühen Oberstufe empfohlen, speziell die Matrixmultiplikation. Im Notfall hilft vielleicht erst einmal http://de.wikipedia.org/wiki/Matrix_(Mathematik).

  25. 25.

    Gesprochen: „Ypsilon Dach“, engl. wai-hätt.

  26. 26.

    Der Korrekturfaktor repräsentiert die erwarteten Abweichungsquadrate für die gegebenen Werte von Y. Wenn wir von Y den Mittelwert \(\hat{Y}\) abzögen, wäre K = 0.

  27. 27.

    Ob dies stimmt, kann man dann mittels summary(aov(Volumen Umfang+Hoehe))§ nachprüfen.

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Carsten F. Dormann .

Rights and permissions

Reprints and permissions

Copyright information

© 2017 Springer-Verlag GmbH Deutschland

About this chapter

Cite this chapter

Dormann, C.F. (2017). Multiple Regression: mehrere Prädiktoren. In: Parametrische Statistik. Statistik und ihre Anwendungen. Springer Spektrum, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-54684-0_15

Download citation

Publish with us

Policies and ethics