Skip to main content

Explorative Datenanalyse

  • Chapter
  • First Online:
Angewandte Datenanalyse

Part of the book series: Statistik und ihre Anwendungen ((STATIST))

  • 6968 Accesses

Zusammenfassung

In den vorigen Kapiteln wird erklärt, wie Resultate zu nicht direkt messbaren Grössen dargestellt werden können. Man kann den Graphen der A posteriori-Dichtefunktion darstellen, den plausibelsten Wert angeben oder Wahrscheinlichkeitsintervalle nennen. Die Resultate hängen von den Daten und von Vorinformation ab. Neben den Rechnungen ist es sinnvoll, die verwendeten Daten zu visualisieren. In diesem Kapitel werden einfache und prägnante grafischen Darstellungen von univariaten Datenwerten vorgestellt. Dies kann auch nützlich sein, um Fragen wie: „War das Experiment unter statistischer Kontrolle?“, „Sind extreme Werte vorhanden?“, oder „Ist das gewählte Modell gut?“ zu beantworten. Die in den Daten steckende Information kann auch helfen, ein gutes Datenmodell zu wählen.

[…] „und was für einen Zweck haben schliesslich Bücher“, sagte sich Alice, „in denen überhaupt keine Bilder und Unterhaltungen vorkommen?“

Lewis Carroll, Alice im Wunderland (Insel Taschenbuch, 1973, S. 11)

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 29.99
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

  1. 1.

    Man kann auch mit der Formel (A.1) aus Abschn. .3 rechnen

    $$\text{Cl}_{\text{Methode $A$}}=\overline{\text{Cl}_{A}}\pm t_{6}(0{,}95)\cdot{s_{A}}/{\sqrt{7}}=(102{,}8\pm 0{,}9)\text{ mol/m}^{3}\quad[k=1{,}96]$$

    Dabei ist \(\overline{\text{Cl}_{A}}\) das arithmetische Mittel und s A die empirische Standardabweichung der Datenwerte.

  2. 2.

    Eine meist funktionierende Faustregel, um dies zu verhindern, ist: Anzahl Klassen mindestens \(\approx\sqrt{n}\), dabei ist n die Anzahl Datenwerte (falls n > 1000 ist \(10\log_{10}n\) eine geeignete Wahl).

  3. 3.

    Für Grössen, die mit einer Normalverteilung modelliert werden, bedeuten die Regeln: (1) Ausreisser: Werte, die mindestens \(2{,}9\cdot\sigma\) aber nicht mehr als \(4{,}7\cdot\sigma\) vom Modus entfernt sind, (2) Extremwert: Datenwerte, die mehr als \(4{,}7\cdot\sigma\) vom Modus entfernt sind.

  4. 4.

    Box & Whisker Plots wurden von J.W. Tukey erfunden, siehe 10; .

  5. 5.

    Experiment aus einem Versuch zur Bestimmung des Wachstums von Stören bei der Firma Tropenhaus Frutigen AG, 2007.

  6. 6.

    Angaben aus einem Kontrollblatt aus dem Uhrenmuseum in La Chaux-de-Fonds.

Literatur

  1. A.M. Catilla, Does passage time through the lizard Podarcis lifordis gets affect germination performance in the plant withanic fructescens?. Acta Oecologica 21(2), 119–124 (2000)

    Article  Google Scholar 

  2. F. Hampel, Robust inference Research Report, Bd. 93 (ETH Zürich, 2000)

    Google Scholar 

  3. C.H. Hennekens, Aspirin in Chronic Cardiovascular Disease and Acute Myodarcial Infarction. Clin. Cardiol. 13, V-62–V-66 (1990)

    Article  Google Scholar 

  4. D. Hinkley, On quick choice of power transformation. Applied Statistics 26, 67–69 (1977)

    Article  Google Scholar 

  5. J.A. Rice, Mathematical Statistics and Data Analysis (Duxburry Press, 1995)

    Google Scholar 

  6. E. Rutherford, M. Geiger, The Probability Variations in the Distribution of Alpha Particles. Philosophical Magazine, Series 6 20, 698–704 (1910)

    Article  Google Scholar 

  7. D.S. Sivia, J. Skilling, Data Analysis, a Bayesian Tutorial (Oxford University Press, 2006)

    Google Scholar 

  8. R.G. Staudte, S.J. Sheather, Robust Estimation and Testing (John Wiley & Sons, Inc., 1990)

    Google Scholar 

  9. E.R. Tufte, The Visual Display of Quantitative Information (Graphics Press, Cheshire, Connecticut, 1983)

    Google Scholar 

  10. J.W. Tukey, Exploratory Data Analysis (Addison-Wesley Publishing Company, 1977)

    Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Daniel Bättig Prof. Dr. .

Reflexion

Reflexion

11.1

Ein Fischzüchter will wissen, wie gross die durchschnittliche Masse \(\overline{m}_{\text{Fische}}\) der Fische in einem Wasserbecken ist. Dazu wurden 15 Fische gewogen. Hier die Resultate (in g) – die Urliste wird entlang der Zeilen gelesen –:Footnote 5

$$\displaystyle 898\quad 2050\quad 1198\quad 644\quad 1294\quad 1450\quad 1516\quad 1452$$
$$\displaystyle 1196\quad 1200\quad 650\quad 1206\quad 836\quad 1290\quad 1380\qquad\quad$$
  1. (a)

    Speichern Sie die Datenwerte in einem Statistikprogramm.

  2. (b)

    Kontrollieren Sie mit einem Statistikprogramm: Sind die Daten unter statistischer Kontrolle? Ist es plausibel anzunehmen, dass die Messwerte unabhängig modelliert werden können?

  3. (c)

    Ordnen Sie die Daten mit Hilfe eines Stamm-Blatt-Diagramms und stellen Sie sie in einem Histogramm dar. Was fällt auf? Beschreiben Sie Ihre Beobachtungen. Wie ist die Stichprobe verteilt?

  4. (d)

    Zeichnen Sie mit einem Statistikprogramm den Box & Whisker Plot der Stichprobe. Sind Extremwerte oder Ausreisser vorhanden?

  5. (e)

    Berechnen Sie mit einem geeigneten Modell die durchschnittliche Masse \(\overline{m}_{\text{Fische}}\). Geben Sie an: plausibelster Wert, Wahrscheinlichkeitsintervalle zum Niveau 0,5 und 0,95. Überprüfen Sie auch Ihr gewähltes Modell.

11.2

Tabelle 11.10 gibt die Grössenordnung in mm\({}^{2}\) von 40 Zellkulturen an.

Tab. 11.10 40 Grössen von 40 Zellkulturen (in mm\({}^{2}\))
  1. (a)

    Ordnen Sie die Werte mit Hilfe eines Stamm–Blatt-Diagramms. Zeichnen Sie auch ein Histogramm. Was fällt auf? Beschreiben Sie Ihre Beobachtungen.

  2. (b)

    Wie lauten der empirische Median, die empirischen Quartile und die empirische Quartilsdifferenz?

  3. (c)

    Wie sind die Datenwerte verteilt? Wie beurteilen Sie den Wert 165,8? Ist er ein Ausreisser oder ein Extremwert? Zeichnen Sie den Box & Whisker Plot der Messwerte.

11.3

Sie haben 1500 Datenwerte zwischen 10,8 cm und 11,9 cm. Wie wählen Sie die Klasseneinteilung für ein Histogramm der Daten? Finden Sie heraus, wie Sie bei Ihrem Statistikprogramm die Klasseneinteilung bei Histogrammen selber wählen können. Probieren Sie dies an Beispielen aus!

11.4

Eine Maschine stellt elektrische Widerstände her. Die Spezifikation lautet: (100,0\(\pm 3{,}0\)\(\Upomega\). Zur Qualitätskontrolle wurden 20 Widerstände gemessen:

$$\displaystyle 101{,}8\quad 100{,}0\quad 102{,}0\quad 101{,}5\quad 98{,}2\quad 102{,}6\quad 100{,}0\quad 102{,}2\quad 101{,}7\quad 97{,}8$$
$$\displaystyle 100{,}0\quad 100{,}1\quad 101{,}5\quad 100{,}9\quad 100{,}1\quad 102{,}4\quad 91{,}1\quad 101{,}3\quad 98{,}4\quad 100{,}7$$

Um die Messwerte grafisch darzustellen, wurde Abb. 11.44 gezeichnet.

  1. (a)

    Finden Sie sechs unprofessionelle Umsetzungsvariablen in der Grafik, die eine erfahrene Benutzerin von statistischen Werkzeugen nicht wählen würde.

  2. (b)

    Zeichnen Sie einen Box & Whisker Plot, um die Daten zu visualisieren. Sind Ausreisser oder Extremwerte vorhanden?

Abb. 11.44
figure 44

Ein Histogramm, das nicht professionell erstellt ist

11.5

Tabelle 11.11 zeigt dreissig aufeinanderfolgende Werte von Regenmengen im Monat März für Minneapolis/St. Paul aus 4; .

Tab. 11.11 Dreissig aufeinanderfolgende Werte von Regenmengen (in Inches) im Monat März für Minneapolis/St. Paul (Die Tabelle wird entlang der Spalten gelesen.)

Daraus möchte man die durchschnittliche Regenmenge pro Tag für zukünftige Monate März bestimmen.

  1. (a)

    Untersuchen Sie die Beobachtungen mit grafischen Werkzeugen der EDA. Arbeiten Sie dabei mit mehreren grafischen Darstellungen. Beschreiben Sie Ihre Beobachtungen.

  2. (b)

    Hat es Trends in den Datenwerten? Sind die Beobachtungen unter statistischer Kontrolle? Können die Datenwerte als unabhängig betrachtet werden?

  3. (c)

    Ihrer Chefin müssen Sie Ihre Untersuchungen und Beobachtungen vorstellen. Sie dürfen dabei eine grafische Darstellung benutzen. Welche Art wählen Sie?

  4. (d)

    Berechnen Sie mit einem geeigneten Modell die durchschnittliche Regenmenge pro Tag für den Monat März. Geben Sie an: plausibelster Wert, Wahrscheinlichkeitsintervalle zum Niveau 0,5 und 0,95.

11.6

Im Rahmen der Untersuchung der Biodiversität in der Schweiz interessiert man sich für die durchschnittliche Anzahl \(\mu_{A}\) und \(\mu_{B}\) von Tagfalterarten pro Region im Ackerland und in den Bergen. Dazu wurden im Jahr 2003 in je 23 Regionen die Tagfalterarten gezählt. Die Resultate sind in Tab. 11.12 dargestellt.

Tab. 11.12 Tagfalterartenzahlen in Flächen der Schweiz (Biodiversitätsmonitoring Schweiz BDM, Hintermann & Weber AG, Reinach (Basel), Herbst 2007, gelesen längs der Spalten)
  1. (a)

    Zeichnen Sie Stamm-Blatt-Diagramme der Daten.

  2. (b)

    Zeichnen Sie die Box & Whisker Plots für diese Daten in einem Bild. Sind Ausreisser und Extremwerte vorhanden?

  3. (c)

    Berechnen Sie mit einem geeigneten Modell die Parameter \(\mu_{A}\) und \(\mu_{B}\).

  4. (d)

    Wie gross ist die Wahrscheinlichkeit, dass \(\mu_{A}\) grösser als \(\mu_{B}\) ist. Benutzen Sie dazu das Resultat von (c) und eine Monte-Carlo-Simulation.

  5. (e)

    Ihrem Auftraggeber müssen Sie Ihre Untersuchungen und Beobachtungen aus der EDA vorstellen. Sie dürfen dabei eine grafische Darstellung zeigen. Welche Art wählen Sie?

11.7

Teure mechanische Uhren werden nach ihrer Fertigstellung auf ihre Genauigkeit kontrolliert. Bei der Uhrenfabrik Zenith International S.A. wird der tägliche Gang der Uhren während 15 Tagen beobachtet. Gemessen wird die Abweichung in Sekunden von der exakten Zeit. Der Gangschein Nummer 4924839 vom 16.7.1995 der Uhr mit Werknummer 6157 zeigt ihren täglichen Gang:Footnote 6

$$\displaystyle-1{,}0\quad-1{,}9\quad+3{,}0\quad+0{,}1\quad+1{,}0\quad+1{,}0\quad+4{,}1\quad+3{,}8$$
$$\displaystyle+4{,}1\quad+1{,}0\quad+9{,}0\quad+5{,}0\quad-2{,}0\quad+1{,}1\quad+3{,}0$$
  1. (a)

    Zeichnen Sie ein Stamm-Blatt-Diagramm der Datenwerte. Gibts es Werte, die auffallen?

  2. (b)

    Ist es sinnvoll, für die Daten einen Box & Whisker Plot zu zeichnen? Ist der Zahlenwert \(+9{,}0\) ein Ausreisser oder Extremwert?

  3. (c)

    Sind die Messwerte unter statistischer Kontrolle? Ist es sinnvoll anzunehmen, dass sie unabhängig modelliert werden können?

  4. (d)

    Berechnen Sie mit dem Normalverteilungsmodell die durchschnittliche Gangabweichung μ pro Tag der Uhr. Gesucht ist der plausibelste Wert von μ, sowie Wahrscheinlichkeitsintervalle zum Niveau 0,5 und 0,95.

  5. (e)

    Was passiert mit dem Resultat von (d), wenn Sie den Wert \(+9{,}0\) weglassen?

  6. (f)

    Führen Sie die Aufgabe von (d) mit einem „robusten“ Modell durch. Was erhalten Sie nun? Was, wenn Sie mit diesem Modell den Wert \(+9{,}0\) weglassen?

Rights and permissions

Reprints and permissions

Copyright information

© 2015 Springer-Verlag Berlin Heidelberg

About this chapter

Cite this chapter

Bättig, D. (2015). Explorative Datenanalyse. In: Angewandte Datenanalyse. Statistik und ihre Anwendungen. Springer Spektrum, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-43394-2_11

Download citation

Publish with us

Policies and ethics