Skip to main content

Das Lineare Modell: $t$-Test und ANOVA

  • Chapter
  • First Online:
Book cover Parametrische Statistik

Part of the book series: Statistik und ihre Anwendungen ((STATIST))

  • 8479 Accesses

Zusammenfassung

Traditionell sind normalverteilte Daten mit besonderer Aufmerksamkeit bedacht worden. Deshalb stellt dieses Kapitel den wichtigen t-Test und die Varianzanalyse vor. Beide sind Spezialfälle des bisher betrachteten GLM, wie wir hier sehen werden.

If you give people a linear model function you give them something dangerous.John Fox (fortunes(49))

If you give people a linear model function you give them something dangerous.

John Fox (fortunes(49))

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 29.99
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever
Softcover Book
USD 39.99
Price excludes VAT (USA)
  • Compact, lightweight edition
  • Dispatched in 3 to 5 business days
  • Free shipping worldwide - see info

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

  1. 1.

    Wir betrachten auch kurz den Fall, dass σ von X abhängig ist, aber im Allgemeinen wird das beim linearen Modell ausgeblendet. Die Schreibweise \(f(.)\) weist darauf hin, dass auch nicht-lineare Funktionen betrachtet werden könnten. Das werden wir aber hier nicht tun.

  2. 2.

    An dieser Stelle ist der Hinweis obligatorisch, dass „Student“ das Pseudonym von W.S. Gosset war, als er, für die Guinness-Brauerei arbeitend, den t-Test veröffentlichte. Sein Arbeitgeber betrachtete es als ein Betriebsgeheimnis, das Guinness zur Qualitätssicherung Statistik einsetzte. Gossets Mathematikerkollegen kannten aber sein Pseudonym.

  3. 3.

    Der Zentrale Grenzwertsatz stellt sicher, dass Parameterschätzer normalverteilt sind, selbst wenn die betrachtete Variablen nicht normalverteilt ist. Wenn wir also zum Beispiel den Median einer Stichprobe schätzen, so ist dieser Schätzwert mit einem gewissen Fehler versehen, da wir ja nur eine Stichprobe betrachten. Der Fehler dieses Medians ist normalverteilt, obwohl unsere Stichprobe krumm und schief sein kann!

  4. 4.

    In Libre/OpenOffice Calc etwa in der Funktion TDIST oder in Microsoft Excel in der Funktion T.VERT (auf Deutsch). Weshalb wir aber trotzdem MS Excel nicht zu statistischen Berechnungen nutzen sollten legen McCullough und Heiser, 2008 () seit Jahren immer wieder offen.

  5. 5.

    Tatsächlich ist auch die Normalverteilung in der rechten Abbildung eingezeichnet, aber eben ununterscheidbar von der t-Verteilung mit df = 500.

  6. 6.

    Siehe Abschn. 11.3.2 für eine ausführlichere Herleitung. Für den Augenblick stellen wir sie uns am besten als ein Maß dafür vor, wieviel Aufwand wir bei der Berechnung von Mittelwerten betrieben haben: je mehr Klassen, desto mehr Freiheitsgrade „verbrauchen“ wir. Ein vernünftige Erklärung muss leider warten, bis wir ANOVA und Regression nachher als zwei Seiten einer Medaille betrachten.

  7. 7.

    Der quadrierte Korrelationskoeffizient zwischen y und Modellfit \(\hat{\boldsymbol{y}}\) ist nämlich genau R 2. Man findet sowohl die Schreibweise r 2 als auch R 2 in der Literatur. Im einfachen Regressionsmodell ist \(R^{2}=r^{2}\), bei nicht-linearen Modellen ist dies aber nicht mehr der Fall. Dort verliert das R 2 seine klare Interpretierbarkeit, da das Nullmodell mehr nicht notwendigerweise ein Untermodell ist, und somit der Vergleich der Abweichungsquadrate sinnlos ist.

  8. 8.

    Es gibt übrigens unterschiedliche Arten, die Freiheitsgrade zu berechnen. Häufig wird z. B. davon ausgegangen, dass alle Gruppen die gleiche Anzahl Datenpunkte enthalten (sog. balanced design), was aber in realitas leider selten vorkommt. Deshalb wählen wir hier eine allgemeingültige Berechnung, die uns auch weiter unten nützlich ist, wenn wir ANOVA und Regression verbinden wollen.

  9. 9.

    Dies ist vor allem für den Abgleich mit anderer Literatur wichtig. Dort wird die ANOVA häufig nur für kategoriale Prädiktoren vorgestellt. Wie wir hier sehen, ist diese Darstellung doch etwas engstirnig.

  10. 10.

    Nun, eigentlich sollte uns das nicht überraschen. Schließlich benutzen wir in diesem Kapitel die ganze Zeit schon den F-Wert, um zu testen, ob der Prädiktor die Varianzen signifikant beeinflusst.

  11. 11.

    Übrigens führt R für diesen Datensatz auch nicht den obigen F-Test durch (in Funktion var.test), sondern gibt als Fehler: zu wenige Datenpunkte!

  12. 12.

    Wir addieren also zunächst auf alle Werte so viel, dass der kleinste Wert 0 ist. Dann schauen wir uns an, welchen Wert der nächst-größere hat, und addieren dann die Hälfte dessen auf alle Werte. Besser ist es, wenn möglich nicht die ANOVA zu benutzen, sondern beim GLM zu bleiben. Dazu später mehr (Abschn. 11.4).

  13. 13.

    Für rein positive y-Werte (also y > 0) ist die hier präsentierte Yeo-Johnson-Transformation identisch zur Box-Cox-Transformation. Die Box-Cox-Transformation funktioniert aber lediglich für positive y-Werte (und verschiebt die Werte nötigenfalls), während Yeo-Johnson auch negative Werte ohne Verschiebung angemessen transformieren. In der Originalarbeit zeigen die Autoren auch, dass ihre Transformation eine Normalverteilung häufig besser annähert (aber nie schlechter) als die Box-Cox (Yeo und Johnson, 2000 ). Der Vollständigkeit halber hier noch die original (zwei-parametrige) Box-Cox-Transformation (Box und Cox, 1964 ):

    $$\displaystyle y^{\prime}=\begin{cases}((y+c)^{\lambda}-1)/\lambda,&\text{ wenn }\lambda\neq 0,\\ \log(y+c),&\text{ wenn }\lambda=0.\\ \end{cases}$$

    Die Parameter λ und c (nur wenn y auch nicht-positive Werte umfasst) werden mittels log-likelihood berechnet (d. h. an eine Normalverteilung angepasst). Da wir uns mit diesen Transformationen nicht weiter beschäftigen (sie sind old school), hier noch kurz der Hinweis auf die relevanten R-Pakete: bcPower und yjPower in car; yeo.johnson in VGAM; boxcox in MASS.

  14. 14.

    Zum Beispiel: Duncan’s new multiple range-Test, Dunnett Test, Friedman-Test (nicht-parametrisch, deshalb auch für den Kruskal-Wallis-Test einsetzbar), die Scheffé-Methode, Holm-Korrektur, false discovery rate-Korrektur. Bei manchen dieser Tests (etwa dem Newman-Keuls-Test) werden die Vergleich zunächst nach der Differenz der Mittelwerte sortiert und dann einer nach dem anderen getestet. Sobald ein Unterschied nicht mehr signifikant ist, können wir abbrechen, da die Unterschiede danach noch geringer sind (und die Varianz ja überall gleich, siehe Annahme der ANOVA). Somit kommen wir mit weniger Vergleichen aus, was zu weniger konservativen Aussagen führt als die Bonferroni-Korrektur. Bei der häufig benutzen Holm-Korrektur werden zwar alle Vergleiche durchgeführt, aber dann die P-Werte sortiert und der erste Vergleich korrigiert wie bei Bonferroni, der zweite aber nur mit k − 1 multipliziert, der dritte mit k − 2 usw. Dadurch ist die Holm- weniger konservativ als die Bonferroni-Korrektur.

  15. 15.

    Analyse, ob die Einheiten auf der linken Seite der Gleichung identisch denen auf der rechten sind.

  16. 16.

    Auf der homepage des Statistikprofessors Frank Harrell (Vanderbilt University, Nashville, Tennessee) steht dieser Tip unter Philosophy of Biostatistics als dritter Punkt. Die Anderen sind auch sehr lesenswert: http://biostat.mc.vanderbilt.edu/wiki/Main/FrankHarrell.

  17. 17.

    Ein möglicher Grund ist, dass der Zusammenhang nicht linear ist, und wir einen quadratischen Term einfügen sollten: Punkt 4 auf Harrells Liste.

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Carsten F. Dormann .

Rights and permissions

Reprints and permissions

Copyright information

© 2017 Springer-Verlag GmbH Deutschland

About this chapter

Cite this chapter

Dormann, C.F. (2017). Das Lineare Modell: $t$-Test und ANOVA. In: Parametrische Statistik. Statistik und ihre Anwendungen. Springer Spektrum, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-54684-0_11

Download citation

Publish with us

Policies and ethics