Zusammenfassung
In den vorigen Kapiteln wird erklärt, wie Resultate zu nicht direkt messbaren Grössen dargestellt werden können. Man kann den Graphen der A posteriori-Dichtefunktion darstellen, den plausibelsten Wert angeben oder Wahrscheinlichkeitsintervalle nennen. Die Resultate hängen von den Daten und von Vorinformation ab. Neben den Rechnungen ist es sinnvoll, die verwendeten Daten zu visualisieren. In diesem Kapitel werden einfache und prägnante grafischen Darstellungen von univariaten Datenwerten vorgestellt. Dies kann auch nützlich sein, um Fragen wie: „War das Experiment unter statistischer Kontrolle?“, „Sind extreme Werte vorhanden?“, oder „Ist das gewählte Modell gut?“ zu beantworten. Die in den Daten steckende Information kann auch helfen, ein gutes Datenmodell zu wählen.
[…] „und was für einen Zweck haben schliesslich Bücher“, sagte sich Alice, „in denen überhaupt keine Bilder und Unterhaltungen vorkommen?“
Lewis Carroll, Alice im Wunderland (Insel Taschenbuch, 1973, S. 11)
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Notes
- 1.
Man kann auch mit der Formel (A.1) aus Abschn. .3 rechnen
$$\text{Cl}_{\text{Methode $A$}}=\overline{\text{Cl}_{A}}\pm t_{6}(0{,}95)\cdot{s_{A}}/{\sqrt{7}}=(102{,}8\pm 0{,}9)\text{ mol/m}^{3}\quad[k=1{,}96]$$Dabei ist \(\overline{\text{Cl}_{A}}\) das arithmetische Mittel und s A die empirische Standardabweichung der Datenwerte.
- 2.
Eine meist funktionierende Faustregel, um dies zu verhindern, ist: Anzahl Klassen mindestens \(\approx\sqrt{n}\), dabei ist n die Anzahl Datenwerte (falls n > 1000 ist \(10\log_{10}n\) eine geeignete Wahl).
- 3.
Für Grössen, die mit einer Normalverteilung modelliert werden, bedeuten die Regeln: (1) Ausreisser: Werte, die mindestens \(2{,}9\cdot\sigma\) aber nicht mehr als \(4{,}7\cdot\sigma\) vom Modus entfernt sind, (2) Extremwert: Datenwerte, die mehr als \(4{,}7\cdot\sigma\) vom Modus entfernt sind.
- 4.
Box & Whisker Plots wurden von J.W. Tukey erfunden, siehe 10; .
- 5.
Experiment aus einem Versuch zur Bestimmung des Wachstums von Stören bei der Firma Tropenhaus Frutigen AG, 2007.
- 6.
Angaben aus einem Kontrollblatt aus dem Uhrenmuseum in La Chaux-de-Fonds.
Literatur
A.M. Catilla, Does passage time through the lizard Podarcis lifordis gets affect germination performance in the plant withanic fructescens?. Acta Oecologica 21(2), 119–124 (2000)
F. Hampel, Robust inference Research Report, Bd. 93 (ETH Zürich, 2000)
C.H. Hennekens, Aspirin in Chronic Cardiovascular Disease and Acute Myodarcial Infarction. Clin. Cardiol. 13, V-62–V-66 (1990)
D. Hinkley, On quick choice of power transformation. Applied Statistics 26, 67–69 (1977)
J.A. Rice, Mathematical Statistics and Data Analysis (Duxburry Press, 1995)
E. Rutherford, M. Geiger, The Probability Variations in the Distribution of Alpha Particles. Philosophical Magazine, Series 6 20, 698–704 (1910)
D.S. Sivia, J. Skilling, Data Analysis, a Bayesian Tutorial (Oxford University Press, 2006)
R.G. Staudte, S.J. Sheather, Robust Estimation and Testing (John Wiley & Sons, Inc., 1990)
E.R. Tufte, The Visual Display of Quantitative Information (Graphics Press, Cheshire, Connecticut, 1983)
J.W. Tukey, Exploratory Data Analysis (Addison-Wesley Publishing Company, 1977)
Author information
Authors and Affiliations
Corresponding author
Reflexion
Reflexion
11.1
Ein Fischzüchter will wissen, wie gross die durchschnittliche Masse \(\overline{m}_{\text{Fische}}\) der Fische in einem Wasserbecken ist. Dazu wurden 15 Fische gewogen. Hier die Resultate (in g) – die Urliste wird entlang der Zeilen gelesen –:Footnote 5
-
(a)
Speichern Sie die Datenwerte in einem Statistikprogramm.
-
(b)
Kontrollieren Sie mit einem Statistikprogramm: Sind die Daten unter statistischer Kontrolle? Ist es plausibel anzunehmen, dass die Messwerte unabhängig modelliert werden können?
-
(c)
Ordnen Sie die Daten mit Hilfe eines Stamm-Blatt-Diagramms und stellen Sie sie in einem Histogramm dar. Was fällt auf? Beschreiben Sie Ihre Beobachtungen. Wie ist die Stichprobe verteilt?
-
(d)
Zeichnen Sie mit einem Statistikprogramm den Box & Whisker Plot der Stichprobe. Sind Extremwerte oder Ausreisser vorhanden?
-
(e)
Berechnen Sie mit einem geeigneten Modell die durchschnittliche Masse \(\overline{m}_{\text{Fische}}\). Geben Sie an: plausibelster Wert, Wahrscheinlichkeitsintervalle zum Niveau 0,5 und 0,95. Überprüfen Sie auch Ihr gewähltes Modell.
11.2
Tabelle 11.10 gibt die Grössenordnung in mm\({}^{2}\) von 40 Zellkulturen an.
-
(a)
Ordnen Sie die Werte mit Hilfe eines Stamm–Blatt-Diagramms. Zeichnen Sie auch ein Histogramm. Was fällt auf? Beschreiben Sie Ihre Beobachtungen.
-
(b)
Wie lauten der empirische Median, die empirischen Quartile und die empirische Quartilsdifferenz?
-
(c)
Wie sind die Datenwerte verteilt? Wie beurteilen Sie den Wert 165,8? Ist er ein Ausreisser oder ein Extremwert? Zeichnen Sie den Box & Whisker Plot der Messwerte.
11.3
Sie haben 1500 Datenwerte zwischen 10,8 cm und 11,9 cm. Wie wählen Sie die Klasseneinteilung für ein Histogramm der Daten? Finden Sie heraus, wie Sie bei Ihrem Statistikprogramm die Klasseneinteilung bei Histogrammen selber wählen können. Probieren Sie dies an Beispielen aus!
11.4
Eine Maschine stellt elektrische Widerstände her. Die Spezifikation lautet: (100,0\(\pm 3{,}0\)) \(\Upomega\). Zur Qualitätskontrolle wurden 20 Widerstände gemessen:
Um die Messwerte grafisch darzustellen, wurde Abb. 11.44 gezeichnet.
-
(a)
Finden Sie sechs unprofessionelle Umsetzungsvariablen in der Grafik, die eine erfahrene Benutzerin von statistischen Werkzeugen nicht wählen würde.
-
(b)
Zeichnen Sie einen Box & Whisker Plot, um die Daten zu visualisieren. Sind Ausreisser oder Extremwerte vorhanden?
11.5
Tabelle 11.11 zeigt dreissig aufeinanderfolgende Werte von Regenmengen im Monat März für Minneapolis/St. Paul aus 4; .
Daraus möchte man die durchschnittliche Regenmenge pro Tag für zukünftige Monate März bestimmen.
-
(a)
Untersuchen Sie die Beobachtungen mit grafischen Werkzeugen der EDA. Arbeiten Sie dabei mit mehreren grafischen Darstellungen. Beschreiben Sie Ihre Beobachtungen.
-
(b)
Hat es Trends in den Datenwerten? Sind die Beobachtungen unter statistischer Kontrolle? Können die Datenwerte als unabhängig betrachtet werden?
-
(c)
Ihrer Chefin müssen Sie Ihre Untersuchungen und Beobachtungen vorstellen. Sie dürfen dabei eine grafische Darstellung benutzen. Welche Art wählen Sie?
-
(d)
Berechnen Sie mit einem geeigneten Modell die durchschnittliche Regenmenge pro Tag für den Monat März. Geben Sie an: plausibelster Wert, Wahrscheinlichkeitsintervalle zum Niveau 0,5 und 0,95.
11.6
Im Rahmen der Untersuchung der Biodiversität in der Schweiz interessiert man sich für die durchschnittliche Anzahl \(\mu_{A}\) und \(\mu_{B}\) von Tagfalterarten pro Region im Ackerland und in den Bergen. Dazu wurden im Jahr 2003 in je 23 Regionen die Tagfalterarten gezählt. Die Resultate sind in Tab. 11.12 dargestellt.
-
(a)
Zeichnen Sie Stamm-Blatt-Diagramme der Daten.
-
(b)
Zeichnen Sie die Box & Whisker Plots für diese Daten in einem Bild. Sind Ausreisser und Extremwerte vorhanden?
-
(c)
Berechnen Sie mit einem geeigneten Modell die Parameter \(\mu_{A}\) und \(\mu_{B}\).
-
(d)
Wie gross ist die Wahrscheinlichkeit, dass \(\mu_{A}\) grösser als \(\mu_{B}\) ist. Benutzen Sie dazu das Resultat von (c) und eine Monte-Carlo-Simulation.
-
(e)
Ihrem Auftraggeber müssen Sie Ihre Untersuchungen und Beobachtungen aus der EDA vorstellen. Sie dürfen dabei eine grafische Darstellung zeigen. Welche Art wählen Sie?
11.7
Teure mechanische Uhren werden nach ihrer Fertigstellung auf ihre Genauigkeit kontrolliert. Bei der Uhrenfabrik Zenith International S.A. wird der tägliche Gang der Uhren während 15 Tagen beobachtet. Gemessen wird die Abweichung in Sekunden von der exakten Zeit. Der Gangschein Nummer 4924839 vom 16.7.1995 der Uhr mit Werknummer 6157 zeigt ihren täglichen Gang:Footnote 6
-
(a)
Zeichnen Sie ein Stamm-Blatt-Diagramm der Datenwerte. Gibts es Werte, die auffallen?
-
(b)
Ist es sinnvoll, für die Daten einen Box & Whisker Plot zu zeichnen? Ist der Zahlenwert \(+9{,}0\) ein Ausreisser oder Extremwert?
-
(c)
Sind die Messwerte unter statistischer Kontrolle? Ist es sinnvoll anzunehmen, dass sie unabhängig modelliert werden können?
-
(d)
Berechnen Sie mit dem Normalverteilungsmodell die durchschnittliche Gangabweichung μ pro Tag der Uhr. Gesucht ist der plausibelste Wert von μ, sowie Wahrscheinlichkeitsintervalle zum Niveau 0,5 und 0,95.
-
(e)
Was passiert mit dem Resultat von (d), wenn Sie den Wert \(+9{,}0\) weglassen?
-
(f)
Führen Sie die Aufgabe von (d) mit einem „robusten“ Modell durch. Was erhalten Sie nun? Was, wenn Sie mit diesem Modell den Wert \(+9{,}0\) weglassen?
Rights and permissions
Copyright information
© 2015 Springer-Verlag Berlin Heidelberg
About this chapter
Cite this chapter
Bättig, D. (2015). Explorative Datenanalyse. In: Angewandte Datenanalyse. Statistik und ihre Anwendungen. Springer Spektrum, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-43394-2_11
Download citation
DOI: https://doi.org/10.1007/978-3-662-43394-2_11
Published:
Publisher Name: Springer Spektrum, Berlin, Heidelberg
Print ISBN: 978-3-662-43393-5
Online ISBN: 978-3-662-43394-2
eBook Packages: Life Science and Basic Disciplines (German Language)