Advertisement

Wahrscheinlichkeit

  • Wolfgang Tschirk
Chapter
Part of the Springer-Lehrbuch book series (SLB)

Zusammenfassung

Behauptungen über eine Gesamtheit, von der man nur eine Stichprobe kennt, sind im Allgemeinen nicht sicher, sondern nur mehr oder weniger plausibel. Wie plausibel eine Behauptung ist, hängt davon ab, in welcher Beziehung sie zu anderen Behauptungen steht, deren Plausibilität man kennt. Ein Plausibilitätsmaß, das diesem Grundsatz folgt, ist die Wahrscheinlichkeit, wie sie in der Bayes-Statistik verwendet wird.

2.1 Aussagen

Eine Aussage ist ein Satz, der entweder wahr oder falsch ist: Es schneit. Ein solcher Satz ist auch dann eine Aussage, wenn man nicht entscheiden kann, ob er wahr oder falsch ist (vielleicht, weil man nicht genug weiß); notwendig ist lediglich, dass sein Wahrheitswert (wahr w oder falsch f) feststeht. Fragen, Bitten, Befehle oder unvollständige Äußerungen sind keine Aussagen [70].

Wenn eine Aussage \(A\) (Es schneit) wahr ist, dann ist ihr Gegenteil \(\overline{A}\) (Es schneit nicht) falsch, und umgekehrt. Das gilt unabhängig vom Inhalt von \(A\). Ebenso gilt für zwei Aussagen \(A\) und \(B\) ungeachtet ihres Inhalts, dass die Aussage \(A\ und\ B\) (wir schreiben sie als \(AB\): Es schneit und es taut) genau dann wahr ist, wenn beide wahr sind, und die Aussage \(A\ oder\ B\) (wir schreiben \(A+B\): Es schneit oder es taut) genau dann, wenn mindestens eine wahr ist. Tab. 2.1 stellt diese Zusammenhänge dar.

Tab. 2.1

Wahrheitstabelle der Aussagenlogik: Negation \(\overline{A}\), Konjunktion \(AB\) und Disjunktion \(A+B\)

\(A\)

\(B\)

\(\overline{A}\)

\(AB\)

\(A+B\)

w

w

f

w

w

w

f

f

f

w

f

w

w

f

w

f

f

w

f

f

Mit Bezug auf Tab. 2.1 bezeichnen wir \(A\) und \(B\) als elementare Aussagen und die Negation \(\overline{A}\), die Konjunktion \(AB\) und die Disjunktion \(A+B\) als zusammengesetzte. Der Wahrheitswert einer zusammengesetzten Aussage hängt im Allgemeinen von den Wahrheitswerten der elementaren Aussagen ab, aus denen sie sich zusammensetzt. Es kann jedoch vorkommen, dass eine zusammengesetzte Aussage stets denselben Wahrheitswert hat. Eine stets falsche Aussage heißt Kontradiktion, eine stets wahre heißt Tautologie. So ist \(A\overline{A}\) (Es schneit und es schneit nicht) eine Kontradiktion, \(A+\overline{A}\) (Es schneit oder es schneit nicht) eine Tautologie. Inhaltlich ist das klar, denn eine Aussage und ihr Gegenteil können nicht beide wahr sein (Aristoteles’ Satz vom ausgeschlossenen Widerspruch), eines davon muss aber wahr sein (Aristoteles’ Satz vom ausgeschlossenen Dritten). Es lässt sich auch formal zeigen, denn gemäß den Regeln von Tab. 2.1 gelten die Wahrheitswerte in Tab. 2.2.

Tab. 2.2

Satz vom ausgeschlossenen Widerspruch (\(A\overline{A}\) ist immer falsch) und Satz vom ausgeschlossenen Dritten (\(A+\overline{A}\) ist immer wahr)

\(A\)

\(\overline{A}\)

\(A\overline{A}\)

\(A+\overline{A}\)

w

f

f

w

f

w

f

w

Haben zwei Aussagen stets übereinstimmende Wahrheitswerte, nennt man sie äquivalent . So sind \(\overline{\overline{A}}\) und \(A\) äquivalent (\(\overline{\overline{A}}\leftrightarrow A\)), denn das Gegenteil des Gegenteils einer Aussage hat immer den gleichen Wahrheitswert wie die Aussage selbst. Wichtige aussagenlogische Äquivalenzen sind:
$$\overline{\overline{A}} \leftrightarrow\,A\,,$$
(2.1)
$$AA \leftrightarrow\,A\,,$$
(2.2)
$$A+A \leftrightarrow\,A\,,$$
(2.3)
$$AB \leftrightarrow\,BA\,,$$
(2.4)
$$A+B \leftrightarrow\,B+A\,,$$
(2.5)
$$(AB)C \leftrightarrow\,A(BC)\,,$$
(2.6)
$$(A+B)+C \leftrightarrow\,A+(B+C)\,,$$
(2.7)
$$A(B+C) \leftrightarrow\,(AB)+(AC)\,,$$
(2.8)
$$A+(BC) \leftrightarrow\,(A+B)(A+C)\,,{ }$$
(2.9)
$$\overline{AB} \leftrightarrow\,\overline{A}+\overline{B}\,,$$
(2.10)
$$\overline{A+B} \leftrightarrow\,\overline{A}\ \overline{B}\,.$$
(2.11)
Ob zwei Aussagen äquivalent sind, lässt sich anhand ihrer Wahrheitstabellen prüfen. Wir zeigen auf diese Weise (Tab. 2.3) das erste Gesetz von De Morgan (2.10 ).
Tab. 2.3

Erstes Gesetz von De Morgan: \(\overline{AB}\) und \(\overline{A}+\overline{B}\) stimmen stets überein

\(A\)

\(B\)

\(AB\)

\(\overline{AB}\)

\(\overline{A}\)

\(\overline{B}\)

\(\overline{A}+\overline{B}\)

w

w

w

f

f

f

f

w

f

f

w

f

w

w

f

w

f

w

w

f

w

f

f

f

w

w

w

w

Zusammengesetzte Aussagen können auch anders entstehen als durch Negation , Konjunktion und Disjunktion , aber alle aussagenlogischen Zusammensetzungen lassen sich auf diese drei zurückführen (es würden sogar die Negation und eine der beiden anderen genügen, nur wären dann manche Ausdrücke komplizierter). Unter den zusammengesetzten Aussagen nehmen Kontradiktion und Tautologie eine Sonderstellung ein; denn wie wir bald sehen werden, schreibt man einer sicher falschen Aussage die kleinstmögliche Wahrscheinlichkeit zu, einer sicher wahren die größtmögliche. Die Bedeutung von Äquivalenzen wiederum liegt darin, dass man äquivalenten Aussagen gleiche Wahrscheinlichkeiten attestiert.

Mit Negation , Konjunktion , Disjunktion , Kontradiktion , Tautologie und Äquivalenz haben wir alle Elemente der Aussagenlogik besprochen, die wir als Grundlage der Wahrscheinlichkeitsrechnung brauchen. Doch ehe wir zu dieser kommen, müssen wir noch ein Hindernis beseitigen.

2.2 Behauptungen

Unter einer Behauptung verstehen wir einen Satz, der wahr oder falsch ist oder sich in Zukunft als zutreffend oder unzutreffend erweisen wird. Behauptungen sind also entweder Aussagen im Sinn des vorigen Abschnitts oder Prognosen . Der Satz Kandidat X wird die Wahl gewinnen ist eine Prognose. Ob man von ihm sagen kann, er sei wahr oder falsch, ist unklar. Er wird sich zwar im Nachhinein als zutreffend oder unzutreffend herausstellen, und man könnte deshalb meinen, er wäre immer schon wahr oder falsch gewesen, nur hätte man es erst zu gegebener Zeit erfahren. Doch wenn die Behauptung eines Ereignisses, das morgen eintreten soll, schon heute wahr oder falsch ist, dann ist die Zukunft festgelegt; denn ist die Behauptung wahr, muss das Ereignis eintreten, ist sie falsch, muss es ausbleiben. Diese Konsequenz hat schon Aristoteles erschreckt, und deshalb hat er Prognosen nicht zu den Aussagen gezählt. Dabei ist es bis heute geblieben. Für uns bedeutet das, dass wir die im vorigen Abschnitt beschriebenen Regeln der Aussagenlogik auf viele Fragen der Statistik nicht unbesehen anwenden können. Beispielsweise sollen klinische Studien die Wirkung von Therapien klären, und hier erwartet man Resultate, die sich auf künftige Fälle beziehen. Daher suchen wir Regeln, die auch auf Prognosen anwendbar sind.

Eine dreiwertige Logik mit den Wahrheitswerten wahr, falsch und unbestimmt, die die Gesetze der zweiwertigen Logik bewahrt [26], hilft uns hier nicht. Sie führt nämlich auf einen Widerspruch: Ist \(A\) unbestimmt, dann ist auch \(\overline{A}\) unbestimmt, und sind \(A\) und \(B\) unbestimmt, dann ist auch \(A+B\) unbestimmt, soviel ist klar. Daraus folgt aber, dass mit \(A\) auch \(A+\overline{A}\) unbestimmt ist, und das kann nicht sein, weil \(A+\overline{A}\) eine Tautologie ist: Es ist sicher wahr, dass Kandidat X die Wahl gewinnt oder nicht.

Dem Widerspruch entgeht man, wenn man auf Wahrheitswerte überhaupt verzichtet, und die braucht man in der Wahrscheinlichkeitsrechnung ohnehin nicht. Wir müssen von Behauptungen lediglich verlangen: dass ihre Negation, Konjunktion und Disjunktion wieder eine Behauptung ergebe; dass \(A\overline{A}\) stets unmöglich sei und \(A+\overline{A}\) stets sicher; dass aussagenlogische Äquivalenzen auch behauptungslogische Äquivalenzen seien, wobei \(A\) und \(B\) äquivalent heißen, wenn \(A\) aus \(B\) folgt und \(B\) aus \(A\); und dass äquivalente Behauptungen gleich plausibel seien. Das sind aber Regeln des plausiblen Schließens, auf dem die Bayes-Statistik ruht.

2.3 Plausibles Schließen

Die moderne bayessche Wahrscheinlichkeitstheorie verdankt ihr Entstehen drei Physikern: Harold Jeffreys und Richard Cox stellten um 1940 die Wahrscheinlichkeit einer Behauptung als Resultat logischer Beziehungen zwischen ihr und anderen Behauptungen dar [20, 37], und mit diesen Arbeiten als Richtschnur entwarf Edwin Jaynes in den 1950er-Jahren eine Lehre vom plausiblen Schließen aus gegebenem Wissen [35, 36]. Wir folgen nun Jaynes’ Gedankengang von den Anforderungen, die er an plausibles Schließen stellt, bis zu den daraus entstehenden Schlussregeln. Danach zeigen wir, dass diese Regeln die Axiome von Kolmogorow [41] enthalten und darüber hinaus alles, was man in den meisten Statistikvorlesungen für Human- und Sozialwissenschaftler über Wahrscheinlichkeit lernt.

2.3.1 Merkmale des plausiblen Schließens

Unter einem Schluss verstehen wir das Ermitteln der Plausibilität einer Behauptung im Licht anderer Behauptungen. Folgende Merkmale sollte plausibles Schließen haben:
$$\begin{aligned}\displaystyle\text{(I)}\quad&\displaystyle\text{Plausibilit{\"a}tsgrade werden durch relle Zahlen repr{\"a}sentiert.}\\ \displaystyle\text{(II)}\quad&\displaystyle\text{Jeder Schluss ist mit dem gesunden Menschenverstand vereinbar.}\\ \displaystyle\text{(IIIa)}\quad&\displaystyle\text{F{\"u}hren mehrere Wege zu einem Schluss, stimmen die Ergebnisse {\"u}berein.}\\ \displaystyle\text{(IIIb)}\quad&\displaystyle\text{Jeder Schluss basiert auf dem gesamten Wissen.}\\ \displaystyle\text{(IIIc)}\quad&\displaystyle\text{{\"A}quivalentes Wissen f{\"u}hrt zu gleichen Plausibilit{\"a}ten.}\end{aligned}$$

Die Forderung (I) zusammen mit der Konvention, dass der höheren Plausibilität die größere Zahl entspricht, garantiert, dass man von zwei Behauptungen \(A\) und \(B\) stets sagen kann, \(A\) sei plausibler als \(B\) oder \(B\) plausibler als \(A\) oder beide seien gleich plausibel. (IIIa)–(IIIc) werden als Konsistenzbedingungen verstanden. (IIIc) verlangt, dass Plausibilitätsgrade nur vom Wissen abhängen und nicht von der schließenden Person selbst.

Der Behauptung Morgen kommen mehr als 1000 Badegäste wird man eine höhere Plausibilität zuschreiben, wenn man sicher ist, dass morgen Badewetter herrscht, als wenn man Regen erwartet. Die Plausibilität einer Behauptung wird also von anderen Behauptungen abhängen. Wir schreiben \(A|C\) für die Plausibilität von \(A\) angesichts \(C\) (auch: unter der Bedingung \(C\) oder gegeben \(C\)). Nun skizzieren wir Jaynes’ Ableitung der Schlussregeln.

2.3.2 Schlussregeln

Wir beginnen mit der Plausibilität der Behauptung \(AB\), gegeben \(C\). Um zu schließen, dass \(AB\) zutrifft, kann man schließen, dass \(A\) zutrifft und, bei gegebenem \(A\), auch \(B\); also hängt \(AB|C\) von \(A|C\) und \(B|AC\) ab. Wie Jaynes zeigt, gilt die Produktregel
$$\displaystyle w(AB|C)=w(A|C)\,w(B|AC)$$
für eine nichtnegative, stetige, streng monotone (steigende oder fallende) und ansonsten noch unbestimmte Funktion \(w\).
Nehmen wir nun an, \(B\) sei sicher, gegeben \(C\). Dann sind, wenn \(C\) gilt, \(A\) und \(AB\) gleich plausibel: \(A|C=AB|C\). Weiters ist \(B|AC=B|C\); denn wenn \(B\) unter der Bedingung \(C\) sicher ist, dann ist \(B\) auch sicher, wenn zu \(C\) eine Information, zum Beispiel \(A\), dazukommt. Damit wird die Produktregel zu \(w(A|C)=w(A|C)\,w(B|C)\). Da das unabhängig vom Wert von \(w(A|C)\) gilt, ist
$$\displaystyle w(B|C)=1$$
für eine unter der Bedingung \(C\) sichere Behauptung \(B\).
Nehmen wir nun an, \(B\) sei unmöglich, gegeben \(C\). Dann ist, wenn \(C\) gilt, \(AB\) ebenso unmöglich: \(AB|C=B|C\). Außerdem bleibt \(B\) unmöglich, wenn zu \(C\) noch eine Information, beispielsweise \(A\), dazukommt: \(B|AC=B|C\). Die Produktregel wird zu \(w(B|C)=w(A|C)\,w(B|C)\), und zwar unabhängig davon, welchen Wert \(w(A|C)\) hat. Daraus folgt
$$\displaystyle w(B|C)=0$$
für eine unter der Bedingung \(C\) unmögliche Behauptung \(B\). Da \(w\) der Sicherheit einen höheren Wert zuordnet als der Unmöglichkeit, ist nun auch festgelegt, dass \(w\) streng monoton steigt.
Nun suchen wir einen Zusammenhang zwischen der Plausibilität einer Behauptung \(A\) und der ihres Gegenteils \(\overline{A}\), gegeben \(C\). Jaynes zeigt, dass mit der vorhin eingeführten Funktion \(w\) für eine positive Zahl \(m\)
$$\displaystyle w^{m}(A|C)+w^{m}(\overline{A}|C)=1$$
ist. Nun gilt für jedes positive \(m\) die Produktregel auch in der Form
$$\displaystyle w^{m}(AB|C)=w^{m}(A|C)\,w^{m}(B|AC)\,.$$
Nennt man die Funktion \(w^{m}\) kurz \(p\), so folgen aus dem Bisherigen fünf Schlussregeln:
$$\displaystyle p\text{ ist nichtnegativ, stetig und streng monoton steigend}.$$
(2.12)
$$\displaystyle\text{Ist }A\text{ angesichts }C\text{ sicher, gilt: }\,p(A|C)=1\,.$$
(2.13)
$$\displaystyle\text{Ist }A\text{ angesichts }C\text{ unm{\"o}glich, gilt: }\,p(A|C)=0\,.$$
(2.14)
$$\displaystyle\text{F{\"u}r beliebige }\,A,B\,\text{ und }C\text{ gilt: }\,p(AB|C)=p(A|C)\,p(B|AC)\,.$$
(2.15)
$$\displaystyle\text{F{\"u}r beliebige }A\text{ und }C\text{ gilt: }\,p(A|C)+p(\overline{A}|C)=1\,.$$
(2.16)
Zuletzt betrachten wir eine sechste Schlussregel, die Jaynes unter Berufung auf (IIIc) beweist, das Indifferenzprinzip . Dazu bezeichnen wir eine Gesamtheit von Behauptungen \(A_{1},\ldots,A_{n},C\) als Basis der Länge \(n\) , wenn unter der Bedingung \(C\) die \(A_{i}\) einander ausschließen, aber eine der \(A_{i}\) zutreffen muss. Liefert \(C\) keinen Grund, eine der \(A_{i}\) für plausibler zu halten als eine andere, sprechen wir von einer Laplace-Basis .
$$\displaystyle\text{In einer Laplace-Basis der L{\"a}nge }n\text{ gilt f{\"u}r alle }i\,\text{: }\,p(A_{i}|C)=\dfrac{1}{n}\,.$$
(2.17)

2.4 Wahrscheinlichkeit

2.4.1 Die Kolmogorow-Axiome

Wir haben im vorigen Abschnitt weder den Plausibilitäten Werte zugeschrieben noch die Funktion \(w\) oder den Exponenten \(m\) genau spezifiziert. Nun zeigt sich, dass das gar nicht notwendig ist; denn die Regeln (2.12) bis (2.16) legen \(p\) fest, und zwar in einer Weise, die es rechtfertigt, ab nun \(p(A|C)\) als Wahrscheinlichkeit von \(A\) angesichts \(C\) (auch: unter der Bedingung \(C\) oder gegeben \(C\)) zu bezeichnen.

Wir können nämlich, wie wir sogleich zeigen werden, aus (2.12) bis (2.16 ) jene drei Gesetze ableiten, die Andrej Kolmogorow 1933 der axiomatischen klassischen Wahrscheinlichkeitsrechnung zugrunde gelegt hat [41]:
$$\begin{aligned}\displaystyle 1.\quad&\displaystyle\text{F{\"u}r jedes Ereignis }A\text{ ist die Wahrscheinlichkeit }\,p(A)\geq 0\,.\\ \displaystyle 2.\quad&\displaystyle\text{F{\"u}r ein sicheres Ereignis }S\text{ ist }\,p(S)=1\,.\\ \displaystyle 3.\quad&\displaystyle\text{F{\"u}r einander ausschlie{\ss}ende Ereignisse }A\text{ und }B\text{ ist }\,p(A+B)=p(A)+p(B)\,.\end{aligned}$$

Vergleichen wir Kolmogorows Axiome mit den Schlussregeln nach Jaynes, fällt zweierlei auf: Erstens sprechen die Axiome von Ereignissen, die Schlussregeln von Behauptungen. Das ist aber nur eine Ausdrucksvariante, denn unter der Wahrscheinlichkeit einer Behauptung versteht man die Wahrscheinlichkeit dafür, dass die Behauptung zutrifft, dass also das behauptete Ereignis eingetreten ist (oder eintritt oder eintreten wird): Die Wahrscheinlichkeit der Behauptung Es schneit ist dasselbe wie die Wahrscheinlichkeit dafür, dass es schneit, und wir verwenden im Folgenden beide Sprechweisen. Zweitens beschreiben die Kolmogorow-Axiome die Wahrscheinlichkeit eines Ereignisses an sich, die Schlussregeln hingegen die Wahrscheinlichkeit einer Behauptung angesichts anderer Behauptungen. Doch auch Kolmogorow setzt für die Anwendung seiner Theorie jeweils einen Satz von Bedingungen voraus, nur verschweigt die klassische Wahrscheinlichkeitsrechnung diese, wenn angenommen wird, dass sie erfüllt sind: Sagt man beispielsweise, die Wahrscheinlichkeit für Zahl beim Münzwurf sei \(1/2\), so behauptet man stillschweigend mit, dass die Münze fair sei, der Werfer keinen Trick anwende oder es zumindest keinen Grund gebe, Münze oder Werfer für unfair zu halten, und dass man nicht schon aus dem Flug der Münze auf das Resultat schließen könne. Werden die Bedingungen ausdrücklich erwähnt oder gar in die Rechnung einbezogen, spricht auch die klassische Theorie von bedingter Wahrscheinlichkeit .

Wir übernehmen ab nun die kurze Schreibweise und lassen in den Formeln Bedingungen, die dort für jede Wahrscheinlichkeit gelten, weg. Dann lautet (2.13) so: „Ist \(A\) sicher, gilt \(p(A)=1\)“, und (2.15) wird zu: „Für beliebige \(A\) und \(B\) gilt: \(p(AB)=p(A)\,p(B|A)\)“. Das ist leichter lesbar und trägt nicht weniger Information als der ausführliche Text; denn dass man sich eine gemeinsame Bedingung \(C\) dazudenken muss, halten wir ein für alle Mal fest.

Der wichtigste Unterschied zwischen den beiden Wahrscheinlichkeitsbegriffen ist aber jener: Die klassische Theorie schreibt Wahrscheinlichkeiten nur solchen Ereignissen zu, die Ausgang eines Zufallsexperiments sein können; in der bayesschen gibt es Wahrscheinlichkeiten für jede Behauptung, auch wenn schon feststeht, ob sie stimmt, und \(p(A|C)\) beschreibt das in \(C\) enthaltene Wissen über \(A\). Daher hat nur die Bayes-Statistik Wahrscheinlichkeiten für feststehende, aber unbekannte Werte statistischer Größen und für Hypothesen, von denen ebenfalls feststeht und lediglich unbekannt ist, ob sie stimmen. Eine Analyse der Wahrscheinlichkeitsbegriffe findet sich in [62].

Sehen wir nun, wie sich Kolmogorows Axiome aus den Schlussregeln ergeben. Das erste, \(p(A)\geq 0\), folgt aus (2.12); das zweite, \(p(S)=1\), entspricht (2.13). Das dritte erhält man, indem man zunächst mit (2.11), (2.15) und (2.16) für beliebige Behauptungen \(A\) und \(B\) feststellt:
$$\begin{aligned}\displaystyle p(A+B)&\displaystyle=1-p(\overline{A+B})=1-p(\overline{A}\ \overline{B})=1-p(\overline{A})\,p(\overline{B}|\overline{A})\\ \displaystyle&\displaystyle=1-p(\overline{A})\,(1-p(B|\overline{A}))=1-p(\overline{A})+p(\overline{A}B)\\ \displaystyle&\displaystyle=p(A)+p(B)\,p(\overline{A}|B)=p(A)+p(B)\,(1-p(A|B))\\ \displaystyle&\displaystyle=p(A)+p(B)-p(AB)\,.\end{aligned}$$
Wenn nun \(A\) und \(B\) einander ausschließen, ist \(AB\) unmöglich, und damit folgt nach (2.14): \(p(A+B)=p(A)+p(B)\).

2.4.2 Die Regel von Laplace

Pierre Simon de Laplace hat 1812 die Wahrscheinlichkeit eines Ereignisses \(A\) definiert als Verhältnis zwischen der Anzahl der für \(A\) günstigen Fälle und der endlichen Anzahl der möglichen Fälle, wenn die möglichen Fälle einander ausschließen und es keinen Grund gibt anzunehmen, dass einer von ihnen eher eintritt als ein anderer. (Obwohl Jakob Bernoulli das schon um 1700 bemerkt hat, nennt man heute eine so ausgedrückte Wahrscheinlichkeit Laplace-Wahrscheinlichkeit.) Ein für \(A\) günstiger Fall ist dabei ein Fall, aus dem \(A\) folgt. Beispielsweise sind \(1,2,3,4,5,6\) die möglichen Fälle (der Augenzahl) beim Würfeln, und für das Ereignis, eine gerade Zahl zu würfeln, sind \(2,4,6\) die günstigen.

Wir zeigen nun, dass die Regel von Laplace aus den Schlussregeln folgt. Erst stellen wir fest, dass für einander ausschließende Behauptungen \(A_{1},\ldots,A_{n}\) gilt:
$$\displaystyle p(A_{1}+\ldots+A_{n})=p(A_{1})+\ldots+p(A_{n})\,.$$
(2.18)
Nachweisen kann man das durch vollständige Induktion: Für \(n=2\) stimmt die Beziehung nach dem dritten Kolmogorow-Axiom; und stimmt sie für ein \(n\geq 2\), dann auch für \(n+1\), denn mit (2.7) und dem dritten Axiom ist
$$\begin{aligned}\displaystyle p(A_{1}+\ldots+A_{n+1})&\displaystyle=p((A_{1}+\ldots+A_{n})+A_{n+1})=p(A_{1}+\ldots+A_{n})+p(A_{n+1})\\ \displaystyle&\displaystyle=p(A_{1})+\ldots+p(A_{n+1})\,.\end{aligned}$$
Beschreiben \(A_{1},\ldots,A_{n}\) alle möglichen Fälle und gibt es keinen Grund, eine der \(A_{i}\) für plausibler zu halten als eine andere, bilden sie eine Laplace-Basis. Für eine Behauptung \(A\) mit den günstigen Fällen \(A_{i_{1}},\ldots,A_{i_{m}}\) folgt dann mit (2.17) und (2.18):
$$\displaystyle p(A)=p(A_{i_{1}}+\ldots+A_{i_{m}})=p(A_{i_{1}})+\ldots+p(A_{i_{m}})=\dfrac{m}{n}\,.$$

2.4.3 Die Kettenregel

Für beliebige Behauptungen \(A_{1},\ldots,A_{n}\) gilt die Kettenregel:
$$\displaystyle p(A_{1}\ldots A_{n})=p(A_{1})\,p(A_{2}|A_{1})\,\ldots\,p(A_{n}|A_{1}\ldots A_{n-1})\,.$$
Wir zeigen das wieder durch vollständige Induktion. Für \(n=2\) stimmt die Beziehung nach (2.15), und stimmt sie für ein \(n\geq 2\), dann auch für \(n+1\), denn mit (2.6) und (2.15) ist
$$\begin{aligned}\displaystyle p(A_{1}\ldots A_{n+1})&\displaystyle=p((A_{1}\ldots A_{n})\,A_{n+1})=p(A_{1}\ldots A_{n})\,p(A_{n+1}|A_{1}\ldots A_{n})\\ \displaystyle&\displaystyle=p(A_{1})\,p(A_{2}|A_{1})\,\ldots\,p(A_{n+1}|A_{1}\ldots A_{n})\,.\end{aligned}$$

2.4.4 Der Satz von Bayes

In Abschn. 2.3.2 sind wir zur Beziehung \(p(AB)=p(A)\,p(B|A)\) gelangt. Ausgangspunkt war die Überlegung, dass man auf \(AB\) schließen kann, indem man auf \(A\) schließt und, bei gegebenem \(A\), auf \(B\). Man kann aber die Reihenfolge auch ändern: auf \(B\) schließen und, bei gegebenem \(B\), auf \(A\), woraus sich \(p(AB)=p(B)\,p(A|B)\) ergibt. Nun können wir die beiden Ausdrücke für \(p(AB)\) gleichsetzen:
$$\displaystyle p(A)\,p(B|A)=p(B)\,p(A|B)\,.$$
Ist \(p(B)=0\), dann sind beide Seiten der Gleichung 0. Andernfalls dividieren wir durch \(p(B)\) und erhalten den Satz von Bayes (Thomas Bayes 1750):
$$\displaystyle\text{Ist }p(B)\neq 0,\text{ gilt: }p(A|B)=\dfrac{p(B|A)\,p(A)}{p(B)}\,.$$
Dieser Satz ist die Grundlage der Bayes-Statistik. Aus ihm werden wir in Kap.  7 ableiten, wie man Wahrscheinlichkeiten aus Vorwissen und Stichproben zu kombinieren hat, um eine Wahrscheinlichkeit zu erhalten, die der gesamten Information gerecht wird.

2.4.5 Die Unabhängigkeit von Behauptungen

Man nennt \(A\) unabhängig von \(B\), wenn \(p(B)=0\) ist oder das Zutreffen von \(B\) die Wahrscheinlichkeit von \(A\) nicht ändert, so dass gilt:
$$\displaystyle p(A|B)=p(A)\,.$$
Wenn \(A\) unabhängig von \(B\) ist, ist \(B\) unabhängig von \(A\). Denn ist \(p(A)=0\), so ist jede Behauptung von \(A\) unabhängig, und für \(p(A)\neq 0\) ist nach dem Satz von Bayes
$$\displaystyle p(B|A)=\dfrac{p(A|B)\,p(B)}{p(A)}=\dfrac{p(A)\,p(B)}{p(A)}=p(B)\,.$$
Man kann also einfach sagen, \(A\) und \(B\) seien voneinander unabhängig. (Statistische Abhängigkeit und Unabhängigkeit sind keine Ursache-Wirkungs-Zusammenhänge, sondern nur Beziehungen zwischen Wahrscheinlichkeiten.) Sind \(A\) und \(B\) voneinander unabhängig, gilt also \(p(B|A)=p(B)\), dann folgt nach (2.15):
$$\displaystyle p(AB)=p(A)\,p(B)\,.$$
Diese Beziehung ist äquivalent unserer Definition der Unabhängigkeit von \(A\) und \(B\) und kann daher selbst als Definition verwendet werden.
Man nennt \(A_{1},\ldots,A_{n}\) voneinander unabhängig, wenn das Zutreffen beliebig vieler von ihnen die Wahrscheinlichkeiten für die anderen nicht ändert. Für solche \(A_{i}\) folgt (siehe Aufg. 2.4):
$$\displaystyle p(A_{1}\ldots A_{n})=p(A_{1})\ldots p(A_{n})\,.$$
Das kann man wiederum als Definition der Unabhängigkeit von \(A_{1},\ldots,A_{n}\) verwenden.

2.4.6 Die totale Wahrscheinlichkeit

Ermittelt man \(p(B)\) unter Zuhilfenahme einer Basis aus Bedingungen \(A_{i}\), spricht man von der totalen Wahrscheinlichkeit von \(B\). Mit (2.4), (2.8), (2.15) und (2.18) gilt:
$$\begin{aligned}\displaystyle p(B)&\displaystyle=p((A_{1}+\ldots+A_{n})B)=p(A_{1}B+\ldots+A_{n}B)=p(A_{1}B)+\ldots+p(A_{n}B)\\ \displaystyle&\displaystyle=p(B|A_{1})\,p(A_{1})+\ldots+p(B|A_{n})\,p(A_{n})\,.\end{aligned}$$
Sei nun \(B\) eine beliebige sichere Behauptung. Dann gilt \(p(B)=1\) und \(p(B|A_{i})=1\) für alle \(i\). Also folgt aus der totalen Wahrscheinlichkeit eine Verallgemeinerung von (2.16):
$$\displaystyle p(A_{1})+\ldots+p(A_{n})=1\,.$$
Die Ergebnisse dieses Abschnitts gelten sinngemäß auch für unendlich lange Basen.

2.4.7 Bemerkungen zum Indifferenzprinzip

Das Indifferenzprinzip (2.17 ) lautet in einem Satz: Schließen unter der Bedingung \(C\) die Behauptungen \(A_{1},\ldots,A_{n}\) einander aus, wobei eine von ihnen zutreffen muss, und liefert \(C\) keinen Grund, eine der \(A_{i}\) für plausibler zu halten als eine andere, dann haben angesichts \(C\) alle die gleiche Wahrscheinlichkeit \(p(A_{i}|C)=1/n\). Zu Zeiten von Bernoulli und Laplace sprach man vom „Prinzip des unzureichenden Grundes“; der Ökonom und Mathematiker John Maynard Keynes gab der Regel 1921 den Namen „Principle of Indifference“ [40]. Keynes meldete zugleich Bedenken an, ob das Prinzip überhaupt brauchbar sei, und fand Gegenbeispiele, die es als widersprüchlich und damit unbrauchbar erweisen sollten. Andere Autoren griffen diese Beispiele auf und fügten eigene hinzu, und mit der Zeit wurde das Indifferenzprinzip beinahe einhellig abgelehnt [17, 3, 31, 52, 64]. In [63] wird aber gezeigt, dass die vermeintlichen Gegenbeispiele auf einem gemeinsamen Irrtum beruhen und das Prinzip nicht widerlegen. Und da es noch dazu in Jaynes’ Theorie ein bewiesener Satz ist, betrachten wir es als gültig.

2.4.8 Behauptungen mit Wahrscheinlichkeit 1 oder 0

Eine sichere Behauptung hat die Wahrscheinlichkeit 1, das Gegenteil einer sicheren Behauptung ist eine unmögliche und hat die Wahrscheinlichkeit 0. Die Umkehrung gilt aber nicht: Eine Behauptung mit Wahrscheinlichkeit 1 muss nicht sicher sein und eine mit Wahrscheinlichkeit 0 nicht unmöglich. Das erkennt man wie folgt: Wenn es unendlich viele mögliche und einander ausschließende Behauptungen gibt und keinen Grund, eine davon für plausibler zu halten als eine andere, dann hat jede die Wahrscheinlichkeit 0 (das folgt aus dem Indifferenzprinzip fur \(n\to\infty\)). Wir wissen beispielsweise nicht, wann der nächste Unfall geschehen wird. Es kann unendlich viele Zeitpunkte geben, von denen jeder gleichermaßen in Frage kommt. Für jeden dieser Zeitpunkte hat die Behauptung, der Unfall werde gerade dann geschehen, die Wahrscheinlichkeit 0. Wenn er aber geschieht, hat die Behauptung, es werde genau dieser Zeitpunkt sein, a priori die Wahrscheinlichkeit 0 gehabt und sich dennoch als richtig erwiesen. Es gibt also Behauptungen mit Wahrscheinlichkeit 0, die nicht unmöglich sind, und das Gegenteil einer solchen Behauptung hat die Wahrscheinlichkeit 1 und ist nicht sicher.

Freilich kann man bei einer Behauptung mit Wahrscheinlichkeit 0 nicht damit rechnen, dass sie sich als richtig herausstellen wird; sie ist zwar nicht unmöglich, aber, praktisch betrachtet, so gut wie unmöglich, und ebenso ist eine Behauptung mit Wahrscheinlichkeit 1 zwar nicht sicher, aber so gut wie sicher. Man spricht in solchen Fällen auch von fast unmöglich und fast sicher  [51].

2.5 Überblick: Wahrscheinlichkeit

Wir fassen das Bisherige zusammen. Für Summen verwenden wir das Zeichen \(\sum\) und für Produkte das Zeichen \(\prod\), wenn das die Notation vereinfacht. Weiters schreiben wir „v.u.“ für „voneinander unabhängig“.

Wertebereich und spezielle Werte

$$\displaystyle\text{F{\"u}r eine beliebige Behauptung }A\text{ gilt: }\,0\leq p(A)\leq 1\,.$$
(2.19)
$$\displaystyle\text{Ist }A\text{ sicher, gilt: }\,p(A)=1\,.$$
(2.20)
$$\displaystyle\text{Ist }A\text{ unm{\"o}glich, gilt: }\,p(A)=0\,.$$
(2.21)
$$\displaystyle\text{Sind }A\text{ und }B\text{ gleich plausibel, gilt: }\,p(A)=p(B)\,.$$
(2.22)
$$\displaystyle\text{Sind }A\text{ und }B\text{ {\"a}quivalent, gilt: }\,p(A)=p(B)\,.$$
(2.23)

Beliebige Behauptungen

$$\displaystyle\text{F{\"u}r beliebiges }A\text{ gilt: }\,p(A)+p(\overline{A})=1\,.$$
(2.24)
$$\displaystyle\text{F{\"u}r beliebige }A\text{ und }B\text{ gilt: }\,p(AB)=p(A)\,p(B|A)\,.$$
(2.25)
$$\displaystyle\text{F{\"u}r beliebige }\,A_{1},\ldots,A_{n}\,\text{ gilt: }\,p(A_{1}\ldots A_{n})=\prod_{i=1}^{n}p(A_{i}|A_{1}\ldots A_{i-1})\,.$$
(2.26)
$$\displaystyle\text{F{\"u}r beliebige }A\text{ und }B\text{ gilt: }\,p(A+B)=p(A)+p(B)-p(AB)\,.$$
(2.27)

Einander ausschließende Behauptungen

$$\displaystyle\text{Schlie{\ss}en }A\text{ und }B\text{ einander aus, gilt: }\,p(AB)=0\,.$$
(2.28)
$$\displaystyle\text{Schlie{\ss}en }A\text{ und }B\text{ einander aus, gilt: }\,p(A+B)=p(A)+p(B)\,.$$
(2.29)
$$\displaystyle\text{Schlie{\ss}en }\,A_{1},\ldots,A_{n}\,\text{ einander aus, gilt: }\,p(A_{1}+\ldots+A_{n})=\sum_{i=1}^{n}p(A_{i})\,.$$
(2.30)

Voneinander unabhängige Behauptungen

$$\displaystyle A\text{ und }B\text{ sind v.u.}\ \longleftrightarrow\ p(B)=0\ \text{ oder }\ p(A|B)=p(A)\,.$$
(2.31)
$$\displaystyle A\text{ und }B\text{ sind v.u.}\ \longleftrightarrow\ p(AB)=p(A)\,p(B)\,.$$
(2.32)
$$\displaystyle\,A_{1},\ldots,A_{n}\,\text{ sind v.u.}\ \longleftrightarrow\ p(A_{1}\ldots A_{n})=\prod_{i=1}^{n}p(A_{i})\,.$$
(2.33)

Basen

Eine Basis sei eine Menge von Behauptungen \(A_{i}\), die einander ausschließen, von denen aber eine zutreffen muss. Gibt es keinen Grund, eine der \(A_{i}\) für plausibler zu halten als eine andere, sprechen wir von einer Laplace-Basis. Die Anzahl der \(A_{i}\) nennen wir Länge der Basis.
$$\displaystyle\text{In einer (endlich oder unendlich langen) Basis gilt: }\,\sum_{i}p(A_{i})=1\,.$$
(2.34)
$$\displaystyle\text{In einer Laplace-Basis der L{\"a}nge\leavevmode\nobreak\ }n\text{ gilt f{\"u}r alle }i\,\text{: }\,p(A_{i})=\dfrac{1}{n}\,.$$
(2.35)
$$\displaystyle\text{In einer Laplace-Basis der L{\"a}nge\leavevmode\nobreak\ }n\text{ gilt: }\,p(A_{i_{1}}+\ldots+A_{i_{m}})=\dfrac{m}{n}\,.$$
(2.36)
$$\displaystyle\text{Mit einer Basis }\{A_{i}\}\text{ gilt f{\"u}r beliebiges }B\text{: }\,p(B)=\sum_{i}p(B|A_{i})\,p(A_{i})\,.$$
(2.37)

Satz von Bayes

$$\displaystyle\text{F{\"u}r beliebige }A\text{ und }B\text{ mit }\,p(B)\neq 0\,\text{ gilt: }\,p(A|B)=\dfrac{p(B|A)\,p(A)}{p(B)}\,.$$
(2.38)

2.6 Beispiele zur Wahrscheinlichkeit

2.6.1 Wahrscheinlichkeit vor Gericht

Im Jahr 1964 sprach ein kalifornisches Gericht Janet und Malcom Collins des räuberischen Diebstahls schuldig. Als einziger Hinweis lag eine Zeugenaussage vor: Dieser zufolge war die Täterin eine blonde Frau mit Pferdeschwanz, ihr Komplize ein dunkelhäutiger Mann mit Bart und Schnurrbart, und geflohen waren die beiden in einem gelben Wagen. Die Beschreibung passte auf das Ehepaar Collins; ansonsten gab es nichts, was sie mit der Tat in Verbindung gebracht hätte. Der Ankläger behauptete, dies genüge, um andere Personen mit an Sicherheit grenzender Wahrscheinlichkeit als Täter auszuschließen. Sein Ziel – eine Verurteilung – erreichte er, indem er falsch machte, was man falsch machen konnte: Er schätzte die Wahrscheinlichkeiten der einzelnen Merkmale falsch, verband sie mit einer falschen Berechnung zu einer angeblichen Wahrscheinlichkeit für die Gesamterscheinung und interpretierte diese fälschlich als (verschwindend geringe) Wahrscheinlichkeit für die Unschuld von Janet und Malcom Collins. Es dauerte mehr als drei Jahre, bis ein Berufungsgericht die haarsträubenden Fehler erkannte und das Urteil aufhob [19].

In diesem Abschnitt untersuchen wir die drei Elemente der verhängnisvollen Berechnung: das Schätzen von Wahrscheinlichkeiten aus relativen Häufigkeiten, das Multiplizieren von Wahrscheinlichkeiten und den Zusammenhang zwischen der Wahrscheinlichkeit von Indizien und jener von Schuld und Unschuld.

Wahrscheinlichkeit und relative Häufigkeit

Im ersten Schritt schätzte der Ankläger die Wahrscheinlichkeiten der einzelnen Merkmale und kam zu folgendem Ergebnis:
$$\begin{aligned}\displaystyle A\quad&\displaystyle\text{dunkelh{\"a}utiger Mann mit Bart: }\,p(A)=1/10\,,\\ \displaystyle B\quad&\displaystyle\text{Mann mit Schnurrbart: }\,p(B)=1/4\,,\\ \displaystyle C\quad&\displaystyle\text{blonde Frau: }\,p(C)=1/3\,,\\ \displaystyle D\quad&\displaystyle\text{Frau mit Pferdeschwanz: }\,p(D)=1/10\,,\\ \displaystyle E\quad&\displaystyle\text{gemischtrassiges Paar in einem Wagen: }\,p(E)=1/1000\,,\\ \displaystyle F\quad&\displaystyle\text{gelber Wagen: }\,p(F)=1/10\,.\end{aligned}$$
Soweit wir wissen, beruhen diese Zahlen auf geschätzten relativen Häufigkeiten. Betrachten wir die Aussage \(p(A)=1/10\), die besagt: Wählt man aus der relevanten Bevölkerung (den Menschen, die zur Tatzeit am Tatort hätten sein können) einen Mann so, dass jeder mit gleicher Wahrscheinlichkeit gewählt wird, dann ist die Wahrscheinlichkeit dafür, dass der gewählte Mann dunkelhäutig ist und Bart trägt, gleich 1/10. Diese Wahrscheinlichkeit ergibt sich aus der Regel von Laplace (2.36); die \(n\) möglichen Fälle sind die Männer in der relevanten Bevölkerung, und unter ihnen sind die \(m\) günstigen die dunkelhäutigen mit Bart. Mit (2.36 ) gilt also:
$$\displaystyle p(A)=\dfrac{m}{n}=\dfrac{1}{10}\,.$$
Das gilt allgemein als direkte Folge der Regel von Laplace: Wählt man ein Objekt aus einer Gesamtheit so, dass jedes Objekt mit gleicher Wahrscheinlichkeit gewählt wird, dann ist der Anteil der Objekte in der Gesamtheit, die ein bestimmtes Merkmal tragen, gleich der Wahrscheinlichkeit dafür, ein merkmalstragendes Objekt zu wählen. Diese zahlenmäßige Übereinstimmung von Anteil und Wahrscheinlichkeit werden wir im Folgenden oft stillschweigend verwenden.

Für den Ankläger bedeutet das: Um auf Basis der relativen Häufigkeit \(p(A)=1/10\) behaupten zu können, hätte er ermitteln müssen, dass die relative Häufigkeit der dunkelhäutigen Männer mit Bart in der relevanten Bevölkerung gleich 1/10 ist. Dass er das unterlassen hat und auch für kein anderes der sechs Merkmale seine Schätzung begründen konnte, war eines der Motive für die spätere Revision des Urteils.

Multiplizieren von Wahrscheinlichkeiten

Im zweiten Schritt kombinierte der Ankläger die einzelnen Wahrscheinlichkeiten zu dem, was er für die Wahrscheinlichkeit der Gesamterscheinung ausgab. Dazu holte er sich einen Wahrscheinlichkeitstheoretiker als Sachverständigen, forderte ihn auf, die Zahlen zu multiplizieren, und präsentierte der Jury das Ergebnis
$$\displaystyle\dfrac{1}{10}\cdot\dfrac{1}{4}\cdot\dfrac{1}{3}\cdot\dfrac{1}{10}\cdot\dfrac{1}{1000}\cdot\dfrac{1}{10}=\dfrac{1}{12\,000\,000}$$
als Wahrscheinlichkeit dafür, dass ein bestimmtes Paar in Los Angeles alle Merkmale aufweisen würde.

Nun ist das Multiplizieren entsprechend (2.33) nur gerechtfertigt, wenn \(A,\ldots,F\) voneinander unabhängig sind. Dass sie das nicht sind, war zumindest in einem Punkt klar: Da es kaum Bartträger ohne Schnurrbart gab, war \(p(B|A)\approx 1> p(B)\), womit \(A\) und \(B\) voneinander abhingen. Andere Abhängigkeiten konnte man vermuten: Blonde Frauen trugen vielleicht eher einen Pferdeschwanz als nichtblonde; und ein Verteidiger der Collins argumentierte sinngemäß, dass blonde Frauen eher als andere zu gemischtrassigen Partnerschaften neigen und dunkelhäutige Männer gern gelbe Wagen fahren. Insgesamt kann man annehmen, dass das Multiplizieren der einzelnen Wahrscheinlichkeiten zu einem viel zu niedrigen Wert für die Gesamtwahrscheinlichkeit geführt hat; falsch war es in jedem Fall.

Wie hätte man also rechnen müssen? Mit der Kettenregel (2.26), denn diese ist das Multiplikationsgesetz für beliebige Wahrscheinlichkeiten:
$$\displaystyle p(ABCDEF)=p(A)\,p(B|A)\,p(C|AB)\,p(D|ABC)\,p(E|ABCD)\,p(F|ABCDE)\,.$$
Wir hätten \(A,\ldots,F\) auch in anderer Reihenfolge anführen können und dann eine andere Formel erhalten, was aber am Zahlenwert für \(p(ABCDEF)\) nichts geändert hätte. Jedenfalls sind die vom Ankläger geschätzten Wahrscheinlichkeiten beinahe irrelevant, weil in der korrekten Berechnung nur eine einzige von ihnen – hier \(p(A)\) – vorkommt.

Der Trugschluss des Anklägers

Den entscheidenden Fehler beging der Ankläger, indem er behauptete: Die Wahrscheinlichkeit dafür, dass jemand anders als die Angeklagten die Tat begangen hätte, liegt aufgrund der Berechnungen bei 1 zu 12 Millionen. Denn abgesehen davon, wie hoch die Wahrscheinlichkeit für das Zusammentreffen aller Merkmale bei einem Paar in Los Angeles tatsächlich ist – mit der Wahrscheinlichkeit für die Unschuld des Ehepaars Collins hat sie wenig zu tun.

Um das zu zeigen, bezeichnen wir die Behauptung, die Angeklagten seien unschuldig, mit \(U\), und die Behauptung, bestimmte Indizien liegen vor, mit \(I\). Wir interessieren uns für \(p(U|I)\): für die Wahrscheinlichkeit der Unschuld, gegeben die Indizien. Nach dem Satz von Bayes (2.38) erhalten wir
$$\displaystyle p(U|I)=\dfrac{p(I|U)\,p(U)}{p(I)}\,,$$
und mit der totalen Wahrscheinlichkeit \(p(I)\) nach (2.37),
$$\displaystyle p(I)=p(I|U)\,p(U)+p(I|\overline{U})\,p(\overline{U})\,,$$
ergibt sich
$$\displaystyle p(U|I)=\dfrac{p(I|U)\,p(U)}{p(I|U)\,p(U)+p(I|\overline{U})\,p(\overline{U})}\,.$$
Der Irrtum, um den es in diesem Abschnitt geht, ist bekannt als Trugschluss des Anklägers: das Verwechseln von \(p(I|U)\) mit \(p(U|I)\). Denn die Wahrscheinlichkeit der Indizien, wenn die Angeklagten unschuldig sind (angeblich 1 zu 12 Millionen im Fall Collins) ist nicht dasselbe wie die Wahrscheinlichkeit der Unschuld, wenn die Indizien vorliegen. Was man in Rechnung stellen muss, ist die Wahrscheinlichkeit \(p(U)\) der Unschuld im Vorhinein (a priori), also ohne die Indizien; und die war im Fall Collins hoch, denn Janet und Malcolm wären ohne ihr Aussehen und den gelben Wagen nicht verdächtiger gewesen als jedes andere Paar im Raum Los Angeles. Nimmt man eine Million dort lebende Paare an und erklärt man alle für a priori gleich verdächtig, so gilt nach (2.36):
$$\displaystyle p(U)=\dfrac{1\,000\,000-1}{1\,000\,000}=0{,}999999\,.$$
Damit und mit
$$\displaystyle p(I|U)=\dfrac{1}{12\,000\,000}=0{,}0000000833$$
sowie
$$\displaystyle p(I|\overline{U})=1$$
(da das Räuberpaar die Merkmale der Collins gehabt haben muss, wenn es die Collins waren) folgt mit (2.24):
$$\displaystyle p(U|I)=\dfrac{0{,}0000000833\cdot 0{,}999999}{0{,}0000000833\cdot 0{,}999999+1\cdot(1-0{,}999999)}=0{,}077\,.$$
Das ist eine beträchtlich höhere Wahrscheinlichkeit für die Unschuld als die vom Ankläger genannte. Erinnert man sich noch dazu, dass \(p(I|U)\) vermutlich viel zu niedrig geschätzt war, und nimmt man stattdessen einen Wert von 1 zu 1 Million an:
$$\displaystyle p(I|U)=\dfrac{1}{1\,000\,000}=0{,}000001\,,$$
erhält man gar:
$$\displaystyle p(U|I)=\dfrac{0{,}000001\cdot 0{,}999999}{0{,}000001\cdot 0{,}999999+1\cdot(1-0{,}999999)}=0{,}5\,.$$
Ob nun 0,077 oder 0,5 oder was auch immer der beste Wert sein mag – dass die Wahrscheinlichkeit \(p(U|I)\) für die Unschuld, gegeben die Indizien, so hoch ist, liegt in erster Linie daran, dass die Wahrscheinlichkeit \(p(U)\) für die Unschuld im Vorhinein, also ohne Berücksichtigung der Indizien, hoch war. Das Ergebnis kann man auch so ausdrücken: Zwar ist die Wahrscheinlichkeit dafür, dass ein bestimmtes Paar alle beobachteten Merkmale aufweist, sehr klein; da aber so viele Paare im Raum Los Angeles leben, ist die Wahrscheinlichkeit dafür, dass irgendeines diese Merkmale trägt, groß genug, Zweifel an der Schuld von Janet und Malcom Collins aufkommen zu lassen. Konkret berechnete der Verteidiger, dass die Beschreibung mit mehr als 40 % Wahrscheinlichkeit auf ein weiteres Paar in der Gegend passt.
Ganz anders ist die Lage, wenn von vornherein nur wenige als Täter in Frage kommen. Gibt es nur 10 mögliche und a priori gleich wahrscheinliche Verdächtige, dann ist
$$\displaystyle p(U)=\dfrac{10-1}{10}=0{,}9$$
und (mit ansonsten gleichen Werten wie soeben)
$$\displaystyle p(U|I)=\dfrac{0{,}000001\cdot 0{,}9}{0{,}000001\cdot 0{,}9+1\cdot(1-0{,}9)}=0{,}000009\,.$$
Ein- und dieselben Indizien können also einen Verdächtigen entscheidend belasten, während sie über die Schuld eines Unverdächtigen wenig oder gar nichts sagen.

2.6.2 Alkohol am Steuer

„Ein Drittel aller tödlichen Verkehrsunfälle sind auf Alkohol zurückzuführen.“ Schlagzeilen wie diese sollen die Gefährlichkeit des Alkohols aufzeigen. Allerdings sind zwei Drittel aller tödlichen Verkehrsunfälle nicht auf Alkohol zurückzuführen – ist es da nicht noch gefährlicher, nüchtern zu sein? Nein; denn ausschlaggebend ist nicht die Wahrscheinlichkeit dafür, dass der Lenker alkoholisiert ist (\(A\)) oder nicht (\(\overline{A}\)), wenn ein tödlicher Unfall geschieht (\(T\)):
$$\begin{aligned}\displaystyle p(A|T)&\displaystyle=\dfrac{1}{3}\,,\\ \displaystyle p(\overline{A}|T)&\displaystyle=\dfrac{2}{3}\,,\end{aligned}$$
sondern, dass die Wahrscheinlichkeit für einen tödlichen Unfall mit Alkohol größer ist als ohne:
$$\displaystyle P(T|A)> p(T|\overline{A})\,.$$
Um wie viel größer und wie man das ermittelt, wollen wir nun untersuchen. Die notwendigen Zahlen liefert uns ein Bericht der US-amerikanischen Highway Traffic Safety Administration von 2007 [43]: Alkoholisiert (mindestens 0,08 Gramm Alkohol pro Deziliter Blut, entsprechend etwa 0,75 Promille) war der jeweilige Fahrer bei 32 % aller tödlichen Verkehrsunfälle:
$$\displaystyle p(A|T)=0{,}32$$
und bei 2,2 % aller Fahrten:
$$\displaystyle p(A)=0{,}022\,.$$
Damit berechnen wir das Verhältnis zwischen \(p(T|A)\) und \(p(T|\overline{A})\). Nach dem Satz von Bayes gilt
$$\displaystyle p(T|A)=\dfrac{p(A|T)\,p(T)}{p(A)}$$
und
$$\displaystyle p(T|\overline{A})=\dfrac{p(\overline{A}|T)\,p(T)}{p(\overline{A})}\,.$$
Dividieren wir den ersten Ausdruck durch den zweiten, fällt \(p(T)\) aus der Gleichung und wir erhalten mit (2.24):
$$\displaystyle\dfrac{p(T|A)}{p(T|\overline{A})}=\dfrac{p(A|T)}{p(A)}\,\dfrac{p(\overline{A})}{p(\overline{A}|T)}=\dfrac{p(A|T)}{p(A)}\,\dfrac{1-p(A)}{1-p(A|T)}=\dfrac{0{,}32}{0{,}022}\,\dfrac{1-0{,}022}{1-0{,}32}\approx 21\,.$$
Die Wahrscheinlichkeit eines tödlichen Verkehrsunfalls ist also mit dem genannten Alkoholspiegel 21-mal so groß wie ohne ihn.

2.6.3 Analyse von Überlebenszeiten: Die Kaplan-Meier-Kurve

Spricht man von der 5-Jahres-Überlebensrate für eine Krankheit, so steckt dahinter eine statistische Untersuchung: die Feststellung, welcher Anteil der Patienten 5 Jahre nach einem definierten Ereignis (z. B. Diagnose oder Operation) noch leben. Das kann man natürlich auch für andere Zeitspannen machen, und die jeweilige Überlebensrate ist nach der Regel von Laplace zugleich die Überlebenswahrscheinlichkeit für den einzelnen Patienten aus der beobachteten Gruppe.

Die Sache scheint einfach: Wenn nach der Zeit \(t\) noch \(x\) von \(n\) Patienten leben, ist die Wahrscheinlichkeit dafür, dass die Überlebenszeit \(T\) eines zufällig aus der beobachteten Gruppe gewählten Patienten größer ist als \(t\), gegeben durch
$$\displaystyle p(T> t)=\dfrac{x}{n}\,.$$
Dieser Wert ist zugleich eine Schätzung für die Überlebenswahrscheinlichkeit eines Patienten aus der Gesamtheit aller, die durch die beobachtete Gruppe repräsentiert werden.

Erschwert wird die Berechnung, wenn Patienten aus der beobachteten Gruppe ausscheiden, weil sie den Wohnort wechseln oder aus anderen Gründen nicht mehr zur Verfügung stehen. Einen Patienten, dessen Beobachtung solcherart vorzeitig endet, nennt man zensiert. Nun könnte man die Überlebenswahrscheinlichkeiten einfach auf Basis jener Patienten ermitteln, die bis zur fraglichen Zeit nicht zensiert sind. Dabei ginge aber die Information verloren, die in den Zensuren steckt. Um das zu verhindern, entwickelten Edward Kaplan und Paul Meier 1958 ein nach ihnen benanntes Schätzverfahren, dessen grafische Aufbereitung Kaplan-Meier-Kurve heißt [38]. Dieses Verfahren leiten wir nun ab.

Die Schätzung nach Kaplan und Meier

Zu bestimmen ist für einen zufällig aus der beobachteten Gruppe gewählten Patienten und eine Zeitspanne \(t\) die Überlebenswahrscheinlichkeit \(p(T> t)\). Wir denken uns eine Folge von Zeitspannen \(t_{0},\ldots,t_{m}\) mit \(0=t_{0}<\ldots<t_{m}\leq t\). Dann gilt
$$\displaystyle p(T> t)=p((T> t_{0})\ldots(T> t_{m})(T> t))\,,$$
denn wenn \(T> t\) ist, dann ist \(T> t_{i}\) für alle \(i\). Die rechte Seite formen wir nach der Kettenregel (2.26) um und bedenken dabei, dass mit \(T> t_{i}\) auch \(T> t_{j}\) für alle \(j<i\) ist:
$$\displaystyle p(T> t)=p(T> t_{0})\,p(T> t_{1}\,|\,T> t_{0})\,p(T> t_{2}\,|\,T> t_{1})\ldots p(T> t\,|\,T> t_{m})\,.$$
Das gilt für jede Folge von Zeitspannen mit \(0=t_{0}<\ldots<t_{m}\leq t\), denn mehr haben wir nicht vorausgesetzt. Innerhalb dieser Bedingungen sind die \(t_{i}\) frei wählbar. Wir wählen sie so, dass das Produkt auf der rechten Seite der letzten Gleichung aus möglichst wenigen und leicht bestimmbaren Faktoren besteht. Das erreichen wir, indem wir für \(t_{1}\) jene Zeitspanne einsetzen, nach der der erste Todesfall eintritt, für \(t_{2}\) jene mit dem zweiten usw. Nun ermitteln wir unter dieser Voraussetzung die einzelnen Faktoren. Für jedes \(i> 0\) gilt:
$$\displaystyle p(T> t_{i}\,|\,T> t_{i-1})=\dfrac{n_{i}-1}{n_{i}}\,,$$
wo \(n_{i}\) die Anzahl der länger als \(t_{i-1}\) lebenden und bis \(t_{i}\) nicht zensierten Patienten ist; denn wenn von \(n_{i}\) solchen Patienten einer nach \(t_{i}\) stirbt, überleben \(n_{i}-1\) diese Zeit. Berücksichtigt man, dass mehrere Patienten die gleiche beobachtete Überlebenszeit haben können, erhält man
$$\displaystyle p(T> t_{i}\,|\,T> t_{i-1})=\dfrac{n_{i}-d_{i}}{n_{i}}\,,$$
wo \(d_{i}\) die Anzahl der Patienten mit beobachteter Überlebenszeit \(t_{i}\) ist. Nun brauchen wir noch den ersten und den letzten Faktor des Produkts. Da \(t_{0}=0\) ist, gilt für den ersten:
$$\displaystyle p(T> t_{0})=1\,.$$
Für den letzten erinnern wir uns daran, dass \(t_{m}\) die größte nicht über \(t\) liegende beobachtete Überlebenszeit ist. Daher gilt, sofern vor Ablauf der Zeitspanne \(t\) nicht schon alle, die länger als \(t_{m}\) überlebt haben, zensiert sind:
$$\displaystyle p(T> t\,|\,T> t_{m})=1\,.$$
Sind alle zensiert, dann lässt sich \(p(T> t\,|\,T> t_{m})\) nicht bestimmen. Andernfalls haben wir nun die Faktoren beisammen; ihr Produkt ergibt die Überlebenswahrscheinlichkeit \(p(T> t)\) eines zufällig aus der beobachteten Gruppe gewählten Patienten, die zugleich eine Schätzung darstellt für die Überlebenswahrscheinlichkeit eines Patienten aus der Gesamtheit aller, die durch die beobachtete Gruppe repräsentiert werden.
Fassen wir zusammen: Es seien \(t_{0}=0\) und \(t_{1},\ldots,t_{m}\) alle beobachteten Überlebenszeiten mit \(0<t_{1}<\ldots<t_{m}\leq t\), ferner \(n_{i}\) die Anzahlen der länger als \(t_{i-1}\) lebenden und bis \(t_{i}\) nicht zensierten Patienten und \(d_{i}\) die Anzahlen der Patienten mit beobachteter Überlebenszeit \(t_{i}\). Sind vor Ablauf der Zeitspanne \(t\) nicht schon alle, die länger als \(t_{m}\) überlebt haben, zensiert, dann schätzt man die Überlebenswahrscheinlichkeit für \(t\) durch
$$\displaystyle\hat{p}(T> t)=\prod_{i=1}^{m}\dfrac{n_{i}-d_{i}}{n_{i}}\,.$$
Das ist die Schätzung nach Kaplan und Meier.

Ein Zahlenbeispiel

Stellen wir uns 15 Patienten vor, die ab ihren Diagnosen unter Beobachtung stehen. Nach 12, 31, 38 und 68 Monaten stirbt jeweils einer; nach 20, 52 und 58 Monaten wird jeweils einer zensiert, und die Aufzeichnungen enden nach 6 Jahren. Die Schätzungen, die aus diesen Angaben folgen, sind in Tab. 2.4 und Abb. 2.1 dargestellt.

Tab. 2.4

Kaplan-Meier-Schätzung (Zeit in Monaten). Von anfänglich 15 Patienten stirbt jeweils einer nach 12, 31, 38 und 68 Monaten und wird jeweils einer nach 20, 52 und 58 Monaten zensiert

\(i\)

\(t_{i}\)

\(n_{i}\)

\(d_{i}\)

\(\dfrac{n_{i}-d_{i}}{n_{i}}\)

\(\hat{p}(T> t_{i})\)

0

0

1,000

1

12

15

1

0,933

0,933

2

31

13

1

0,923

0,862

3

38

12

1

0,917

0,790

4

68

9

1

0,889

0,702

Abb. 2.1

Kaplan-Meier-Kurve gemäß Tab. 2.4 (Zeit in Monaten). Die 5-Jahres-Überlebensrate wird auf 0,790 geschätzt (punktiert). Nach 72 Monaten enden die Beobachtungen und damit auch die Schätzungen

2.6.4 Hempels Rabe

Das letzte Beispiel handelt von einem Paradoxon, das der Philosoph Carl Hempel 1945 diskutiert hat [29]. Es wirft Zweifel auf, ob Erfahrungswissenschaften überhaupt möglich sind: ob es möglich ist, aus Einzelbeobachtungen auf allgemeine Gesetze zu schließen.

Schlüsse von Einzelfällen auf allgemeine Gesetze (oder auf andere Einzelfälle) nennt man induktive Schlüsse [16]. Für die Erfahrungswissenschaften haben sie zentrale Bedeutung, denn dort ist die einzelne Beobachtung das Fundament allen Wissens. Dieses wäre mit einem Schlag brüchig, wenn sich herausstellen sollte, dass Hypothesen durch Beobachtungen an Einzelfällen nicht an Plausibilität gewinnen oder verlieren können.

Das Paradoxon

Dass alle Raben schwarz sind, glauben wir aus Erfahrung: Jeder bis dato beobachtete Rabe war schwarz (nehmen wir das an). Zwar können wir nie sicher sein, dass alle Raben schwarz sind, aber jede Beobachtung macht die Hypothese plausibler.

Wenn alle Raben schwarz sind, kann ein nichtschwarzes Objekt kein Rabe sein; und wenn jedes nichtschwarze Objekt ein Nichtrabe ist, dann sind alle Raben schwarz. Die Behauptungen Alle Raben sind schwarz und Alle nichtschwarzen Objekte sind Nichtraben drücken also ein- und dieselbe Hypothese aus. Eine Beobachtung, die die eine Behauptung plausibler macht, macht im selben Maß auch die andere plausibler. Die zweite Behauptung, alle nichtschwarzen Objekte seien Nichtraben, wird immer dann plausibler, wenn ein nichtschwarzes Objekt gesichtet wird und sich herausstellt, dass es kein Rabe ist. Ein grünes Objekt, das sich als Gurke erweist, und ein weißes, das sich als Schneeflocke entpuppt: beide erhöhen das Vertrauen in die Behauptung, alle nichtschwarzen Objekte seien Nichtraben – und stützen damit die Hypothese, dass alle Raben schwarz sind.

Diese Konsequenz erscheint vielen unannehmbar. Doch wer bestreitet, dass der Anblick einer grünen Gurke die Hypothese, alle Raben seien schwarz, plausibler macht, der muss auch bestreiten, dass der Anblick eines schwarzen Raben dies tut; denn logisch ist hier kein Unterschied. Das ist Hempels Paradoxon.

Die bayessche Lösung

Das Paradoxon verschwindet, wenn man ihm mit der Wahrscheinlichkeitsrechnung zu Leibe rückt. Wir haben Plausibilitätsgrade durch Wahrscheinlichkeiten ausgedrückt; nun berechnen wir, welchen Einfluss es auf die Wahrscheinlichkeit (und damit auf die Plausibilität) der Hypothese \(H:=\) Alle Raben sind schwarz hat, wenn man a) einen schwarzen Raben und b) einen nichtschwarzen Nichtraben sieht. Ist \(p(H)=0\) oder \(p(H)=1\), dann ändert eine Beobachtung nichts. Andernfalls schließen wir wie folgt.
  1. a)
    Wir sehen einen Raben. Die Feststellung, dass er schwarz ist, bezeichnen wir mit \(S\) und fragen, welche Auswirkung sie auf die Wahrscheinlichkeit der Hypothese hat. Nach (2.24), (2.37) und (2.38) gilt:
    $$\displaystyle p(H|S)=\dfrac{p(S|H)\,p(H)}{p(S|H)\,p(H)\!+\!p(S|\overline{H})\,p(\overline{H})}=\dfrac{p(S|H)\,p(H)}{p(S|H)\,p(H)\!+\!p(S|\overline{H})\,(1\!-\!p(H))}\,.$$
    Wenn \(H\) stimmt, muss der Rabe schwarz sein, andernfalls nicht. Also ist \(p(S|H)=1\) und \(p(S|\overline{H})<1\). Daraus folgt:
    $$\displaystyle p(H|S)=f_{S}\,p(H)$$
    mit
    $$\displaystyle f_{S}=\dfrac{1}{p(H)+p(S|\overline{H})\,(1-p(H))}> 1\,.$$
    Die Wahrscheinlichkeit der Hypothese hat sich also durch den Anblick eines schwarzen Raben um den Faktor \(f_{S}\) erhöht.
     
  2. b)
    Wir sehen ein nichtschwarzes Objekt. Die Feststellung, dass es kein Rabe ist, bezeichnen wir mit \(\overline{R}\) und fragen, welche Auswirkung sie auf die Wahrscheinlichkeit der Hypothese hat. Nach (2.24), (2.37) und (2.38) gilt:
    $$\displaystyle p(H|\overline{R})=\dfrac{p(\overline{R}|H)\,p(H)}{p(\overline{R}|H)\,p(H)\!+\!p(\overline{R}|\overline{H})\,p(\overline{H})}=\dfrac{p(\overline{R}|H)\,p(H)}{p(\overline{R}|H)\,p(H)\!+\!p(\overline{R}|\overline{H})\,(1\!-\!p(H))}\,.$$
    Wenn \(H\) stimmt, muss das nichtschwarze Objekt ein Nichtrabe sein, andernfalls nicht. Also ist \(p(\overline{R}|H)=1\) und \(p(\overline{R}|\overline{H})<1\). Daraus folgt:
    $$\displaystyle p(H|\overline{R})=f_{\overline{R}}\,p(H)$$
    mit
    $$\displaystyle f_{\overline{R}}=\dfrac{1}{p(H)+p(\overline{R}|\overline{H})\,(1-p(H))}> 1\,.$$
    Die Wahrscheinlichkeit der Hypothese hat sich also durch den Anblick eines nichtschwarzen Nichtraben um den Faktor \(f_{\overline{R}}\) erhöht.
     
Nun schätzen wir, wie groß \(f_{S}\) und \(f_{\overline{R}}\) sind. Dazu sei \(n_{R}\) die Anzahl aller Raben und \(n_{N}\) die Anzahl aller nichtschwarzen Objekte. Wenn \(H\) falsch ist, gibt es \(k> 0\) nichtschwarze Raben. Wir schreiben jedem Raben die gleiche Wahrscheinlichkeit zu, beobachtet zu werden, und ebenso jedem nichtschwarzen Objekt (das vereinfacht die Rechnung, ohne das Resultat wesentlich zu ändern). Dann gilt nach Laplace (2.36):
$$\begin{aligned}\displaystyle p(S|\overline{H})&\displaystyle=\dfrac{n_{R}-k}{n_{R}}=1-\dfrac{k}{n_{R}}\,,\\ \displaystyle p(\overline{R}|\overline{H})&\displaystyle=\dfrac{n_{N}-k}{n_{N}}=1-\dfrac{k}{n_{N}}\,.\end{aligned}$$
Setzen wir das in die Ausdrücke für \(f_{S}\) und \(f_{\overline{R}}\) ein, folgt:
$$\begin{aligned}\displaystyle f_{S}&\displaystyle=\dfrac{1}{p(H)+\left(1-\dfrac{k}{n_{R}}\right)(1-p(H))}=\dfrac{1}{1-\dfrac{k}{n_{R}}\,(1-p(H))}\,,\\ \displaystyle f_{\overline{R}}&\displaystyle=\dfrac{1}{p(H)+\left(1-\dfrac{k}{n_{N}}\right)(1-p(H))}=\dfrac{1}{1-\dfrac{k}{n_{N}}\,(1-p(H))}\,.\end{aligned}$$
Ziemlich sicher gibt es viel weniger nichtschwarze Raben als Raben insgesamt (\(k\ll n_{R}\)) und viel weniger nichtschwarze Raben als nichtschwarze Objekte insgesamt (\(k\ll n_{N}\)); also sind \(\dfrac{k}{n_{R}}\,(1-p(H))\) und \(\dfrac{k}{n_{N}}\,(1-p(H))\) viel kleiner als 1. Da für \(x\ll 1\) die Näherung \(\dfrac{1}{1-x}\approx 1+x\) gilt, erhalten wir zunächst:
$$\begin{aligned}\displaystyle f_{S}&\displaystyle\approx 1+\dfrac{k}{n_{R}}\,(1-p(H))\,,\\ \displaystyle f_{\overline{R}}&\displaystyle\approx 1+\dfrac{k}{n_{N}}\,(1-p(H))\,.\end{aligned}$$
Für \(x\ll 1\) und \(ax\ll 1\) gilt weiters \(1+ax\approx(1+x)^{a}\); damit ergibt sich:
$$\displaystyle f_{S}\approx 1+\dfrac{n_{N}}{n_{R}}\,\dfrac{k}{n_{N}}\,(1-p(H))\approx\left(1+\dfrac{k}{n_{N}}\,(1-p(H))\right)^{\,\tfrac{n_{N}}{n_{R}}}\approx f_{\overline{R}}^{\,\tfrac{n_{N}}{n_{R}}}\,.$$
Das bedeutet: Etwa \(n_{N}/n_{R}\) Beobachtungen nichtschwarzer Nichtraben machen die Hypothese, alle Raben seien schwarz, in gleichem Maß plausibler wie die Beobachtung eines schwarzen Raben. \(n_{N}/n_{R}\) ist eine unvorstellbar große Zahl; und damit ist die Erhöhung der Plausibilität durch den Anblick einer einzigen grünen Gurke unvorstellbar klein. Aber: Sie ist nicht null.

Gegen diesen Schluss wird heftig Einspruch erhoben von Menschen, deren Intuition er widerspricht; ihnen erscheint selbst eine noch so geringe Bestätigung „abwegig“ [56]. Das liegt aber nur an der unzureichenden Intuition: So geringe Änderungen einer Wahrscheinlichkeit kann sich ein Mensch einfach nicht vorstellen; und darum ist das intuitive Urteil, sie würden nicht existieren, irrelevant. Dazu haben wir ja die Wissenschaft: um auch das zu erhellen, was der Lichtkegel der Intuition nicht erreicht.

Hempel , der Erfinder des Problems, hatte natürlich erkannt, dass gar kein Paradoxon vorliegt, sondern nur eine (in seinen Worten) „psychologische Illusion“: Die Hypothese, alle Raben seien schwarz, scheint nur etwas über Raben auszusagen und daher durch Beobachtung eines anderen Objekts an Plausibilität weder gewinnen noch verlieren zu können. In Wirklichkeit sagt sie aber, dass jedes Objekt entweder schwarz sei oder kein Rabe oder beides – und daher kann jede Beobachtung ihre Plausibilität ändern.

2.7 Aufgaben zur Wahrscheinlichkeit

Aufg. 2.1

Man nennt einen Würfel „fair“, wenn man keinen Grund hat anzunehmen, dass er auf eine bestimmte Zahl häufiger fallen würde als auf eine andere. Ein fairer Würfel werde einmal geworfen. Mit welcher Wahrscheinlichkeit fällt er a) auf eine bestimmte Zahl, b) auf eine gerade Zahl?

Aufg. 2.2

Ein fairer Würfel werde zweimal geworfen. Nennen wir die Augenzahl des ersten Wurfs \(A_{1}\) und die des zweiten \(A_{2}\). Die Behauptung \((A_{1},A_{2})=(5,3)\) sagt dann, dass im ersten Wurf 5 fällt und im zweiten 3. a) Erstellen Sie eine Liste der möglichen Zahlenpaare. Wie viele sind es? b) Zeigen Sie, dass jedes mögliche Paar mit gleicher Wahrscheinlichkeit fällt.

Aufg. 2.3

Ein fairer Würfel werde zweimal geworfen. Die Augenzahl des ersten Wurfs heiße \(A_{1}\) und die des zweiten \(A_{2}\). Wie groß sind a) \(p(A_{1}=A_{2})\), b) \(p(A_{1}+A_{2}<4)\), c) \(p(A_{1}A_{2}> 20\,|\,A_{1}<6)\), d) \(p(A_{1}\neq A_{2}\,|\,A_{1}+A_{2}> 11)\)?

Aufg. 2.4

Zeigen Sie: Sind die Behauptungen \(A\), \(B\) und \(C\) voneinander unabhängig, dann ist \(p(ABC)=p(A)p(B)p(C)\). (Anmerkung: Daraus ergibt sich mit vollständiger Induktion, dass Analoges für beliebig viele Aussagen gilt.)

Aufg. 2.5

Zeigen Sie: Wenn \(B\) aus \(A\) folgt, ist \(p(B)\geq p(A)\).

Aufg. 2.6

Sind \(A\) und \(B\) äquivalent, dann folgen \(A\) aus \(B\) und \(B\) aus \(A\). Verwenden Sie das und Aufg. 2.5 , um zu zeigen, dass äquivalente Behauptungen gleich wahrscheinlich sind.

Copyright information

© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2019

Authors and Affiliations

  1. 1.mathecampusWienÖsterreich

Personalised recommendations