Dass eine zweiwertige Logik beim Schließen im Alltag zu Problemen führt, haben wir in Kap. 4 an Hand des Tweety-Problems aufgezeigt. In diesem Beispiel führen die Aussagen Tweety ist ein Pinguin, Alle Vögel können fliegen und Pinguine sind Vögel zu der Folgerung Tweety kann fliegen. Interessant wäre zum Beispiel eine Sprache, in der es möglich ist, die Aussage Fast alle Vögel können fliegen zu formalisieren und darauf dann Inferenzen durchzuführen. Die Wahrscheinlichkeitsrechnung stellt hierfür eine bewährte Methode bereit, denn durch die Angabe eines Wahrscheinlichkeitswertes lässt sich die Unsicherheit über das Fliegen von Vögeln gut modellieren. Wir werden zeigen, dass etwa eine Aussage wie 99 % aller Vögel können fliegen zusammen mit Wahrscheinlichkeitslogik zu korrekten Schlüssen führt.

Das Schließen mit Unsicherheit bei beschränkten Ressourcen spielt im Alltag und auch in vielen technischen Anwendungen der KI eine große Rolle. Ganz wichtig sind hierbei heuristische Verfahren, wie wir sie in Kap. 6 schon besprochen haben. Zum Beispiel auf der Suche nach einem Parkplatz im Stadtverkehr verwenden wir heuristische Techniken. Heuristiken allein genügen aber oft nicht, insbesondere wenn eine schnelle Entscheidung bei unvollständigem Wissen gefordert ist, wie folgendes Beispiel aufzeigt. Ein Fußgänger überquert eine Straße und ein Auto nähert sich schnell. Um einen folgenschweren Unfall zu verhindern, muss der Fußgänger nun sehr schnell handeln. Er ist in dieser Situation nicht in der Lage, sich vollständige Informationen über den Zustand der Welt zu beschaffen, die er für die in Kap. 6 behandelten Verfahren benötigen würde. Er muss also schnell zu einer unter den gegebenen Randbedingungen (wenig Zeit und wenig, eventuell unsicheres, Wissen) optimalen Entscheidung kommen. Denn wenn er zu lange nachdenkt, wird es gefährlich. Hier und auch in vielen ähnlichen Situationen (siehe Abb. 7.1) wird eine Methode zum Schließen mit unsicherem und unvollständigem Wissen benötigt.

Abb. 7.1
figure 1

„Lass uns mal in Ruhe überlegen, was wir nun machen!“

An einem einfachen Beispiel aus der medizinischen Diagnose wollen wir verschiedene Möglichkeiten des Schließens mit Unsicherheit untersuchen. Hat ein Patient Schmerzen im rechten Unterbauch und erhöhten Leukozytenwert, so besteht der Verdacht auf eine akute Blinddarmentzündung (Appendizitis). Wir modellieren diesen Zusammenhang mit Aussagenlogik durch die Formel

$$\displaystyle\textit{Bauchschmerzen re. u.}\,\wedge\,\textit{Leukozyten}> 10.000\quad\rightarrow\quad\textit{Blinddarmentz{\"u}ndung}$$

Wenn wir nun noch wissen, dass

$$\displaystyle\textit{Bauchschmerzen re. u.}\,\wedge\,\textit{Leukozyten}> 10.000$$

gilt, so können wir mit Modus Ponens Blinddarmentzündung ableiten. Diese Modellierung ist offenbar zu grob. Dies haben 1976 Shortliffe und Buchanan beim Bau Ihres medizinischen Expertensystems MYCIN erkannt [Sho76]. Sie führten mit Hilfe der so genannten Certainty Factors einen Kalkül ein, der es ihnen erlaubte, den Grad der Sicherheit von Fakten und Regeln zu repräsentieren. Einer Regel \(A\rightarrow B\) wird ein Sicherheitsfaktor β zugeordnet. Die Semantik einer Regel \(A\rightarrow_{\beta}B\) wurde definiert über die bedingte Wahrscheinlichkeit \(P(B\,|\,A)=\beta\). Im obigen Beispiel könnte die Regel dann

$$\displaystyle\textit{Bauchschm. re. u.}\,\wedge\,\textit{Leukozyten}> 10.000\quad\rightarrow_{0{,}6}\quad\textit{Blinddarmentz{\"u}ndung}$$

lauten. Zum Schließen mit derartigen Regeln wurden Formeln für die Verknüpfung der Faktoren von Regeln angegeben. Es stellte sich jedoch heraus, dass der Kalkül bezüglich dieser Verknüpfungsregeln inkorrekt angelegt war, denn es konnten mit ihm inkonsistente Ergebnisse abgeleitet werden.

Wie schon in Kap. 4 erwähnt, wurde auch versucht, mit Hilfe von nichtmonotonen Logiken und Defaultlogik die genannten Probleme zu lösen, was aber letztlich nicht zum Erfolg führte. Die Dempster-Schäfer-Theorie ordnet einer logischen Aussage A eine Glaubensfunktion (engl. belief function) \(Bel(A)\) zu, deren Wert den Grad der Evidenz für die Wahrheit von A angibt. Aber auch dieser Formalismus hat Schwächen, wie in [Pea88] auf S. 447 an Hand einer Variante des Tweety-Beispiels gezeigt wird. Auch die vor allem in der Regelungstechnik erfolgreiche Fuzzy-Logik zeigt beim Schließen mit Unsicherheit in komplexeren Anwendungen erhebliche Schwächen [Elk93] auf.

Seit etwa Mitte der Achtziger-Jahre findet die Wahrscheinlichkeitsrechnung immer mehr Einzug in die KI [Che85, Jen01, Pea88, Whi96]. In dem Gebiet des Schließens mit Bayes-Netzen beziehungsweise subjektiven Wahrscheinlichkeiten hat sie sich mittlerweile einen festen Platz unter den erfolgreichen KI-Techniken gesichert. Statt der aus der Logik bekannten Implikation (materiale Implikation ) werden hier bedingte Wahrscheinlichkeiten verwendet, welche das im Alltag verwendete kausale Schließen wesentlich besser modellieren. Das Schließen mit Wahrscheinlichkeiten profitiert stark davon, dass die Wahrscheinlichkeitstheorie ein hunderte Jahre altes sehr gut fundiertes Teilgebiet der Mathematik ist.

Wir werden in diesem Kapitel einen eleganten, aber für ein Lehrbuch etwas ungewöhnlichen Zugang zu diesem Gebiet wählen. Nach einer kurzen Einführung in die wichtigsten hier benötigten Grundlagen zum Rechnen mit Wahrscheinlichkeiten starten wir mit einem einfachen, aber wichtigen Beispiel, bei dem Schließen mit unsicherem und unvollständigem Wissen gefragt ist. In ganz natürlicher, fast zwingender, Weise werden wir hierbei zur Methode der maximalen Entropie (MaxEnt ) geführt. Dann zeigen wir an Hand des medizinischen Expertensystems LEXMED die Tauglichkeit dieser Methode für die Praxis auf. Schließlich führen wir das heute weit verbreitete Schließen mit Bayes-Netzen ein und zeigen den Zusammenhang zwischen den beiden Methoden auf.

7.1 Rechnen mit Wahrscheinlichkeiten

Der mit Wahrscheinlichkeitsrechnung vertraute Leser kann auf diesen Abschnitt verzichten. Für alle Anderen geben wir hier einen Schnelleinstieg und verweisen auf einschlägige Lehrbücher wie zum Beispiel [GT96, Hüb03].

Wahrscheinlichkeiten eignen sich für die Modellierung des Schließens mit Unsicherheit besonders gut. Ein Grund hierfür ist ihre intuitiv einfache Interpretierbarkeit, was an folgendem elementaren Beispiel gut erkennbar ist.

Beispiel 1

Beim einmaligen Würfeln mit einem Spielwürfel (Versuch) ist die Wahrscheinlichkeit für das Ereignis „Würfeln einer Sechs“ gleich 1/6, wogegen die Wahrscheinlichkeit für das Ereignis „Würfeln einer ungeraden Zahl“ gleich 1/2 ist.

Definition 7.1

Sei Ω die zu einem Versuch gehörende endliche Menge von Ereignissen. Jedes Ereignis \(\omega\in\Omega\) steht für einen möglichen Ausgang des Versuchs. Schließen sich die Ereignisse \(w_{i}\in\Omega\) gegenseitig aus, decken aber alle möglichen Ausgänge des Versuchs ab, so werden diese Elementarereignisse genannt.

Beispiel 2

Beim einmaligen Würfeln mit einem Spielwürfel ist

$$\displaystyle\Omega=\{1,2,3,4,5,6\},$$

denn keine zwei dieser Ereignisse können gleichzeitig auftreten. Das Würfeln einer geraden Zahl \((\{2,4,6\})\) ist dann kein Elementarereignis, genauso wie das Würfeln einer Zahl kleiner als 5 \((\{1,2,3,4\})\), denn \(\{2,4,6\}\cap\{1,2,3,4\}=\{2,4\}\neq\emptyset\).

Mit zwei Ereignissen A und B ist \(A\cup B\) auch ein Ereignis. Ω selbst wird als sicheres Ereignis und die leere Menge \(\emptyset\) als unmögliches Ereignis bezeichnet.

Im Folgenden werden wir die aussagenlogische Schreibweise für Mengenoperationen verwenden. Das heißt für die Menge \(A\cap B\) schreiben wir \(A\,\wedge\,B\). Dies ist nicht nur eine syntaktische Transformation, sondern es ist auch semantisch korrekt, denn der Durchschnitt von zwei Mengen ist definiert wie folgt

$$\displaystyle x\in A\cap B\,\Leftrightarrow\,x\in A\,\wedge\,x\in B.$$

Da dies die Semantik von \(A\,\wedge\,B\) ist, können und werden wir diese Schreibweise verwenden. Auch für die anderen Mengenoperationen Vereinigung und Komplement gilt dies und wir werden, wie in folgender Tabelle dargestellt, die aussagenlogische Schreibweise verwenden.

Table 1

Die hier verwendeten Variablen (z. B. A, B, etc.) heißen in der Wahrscheinlichkeitsrechnung Zufallsvariablen . Wir werden hier nur diskrete Zufallsvariablen mit endlichem Wertebereich verwenden. Die Variable Augenzahl beim Würfeln ist diskret mit den Werten 1, 2, 3, 4, 5, 6. Die Wahrscheinlichkeit, eine Fünf oder eine Sechs zu würfeln ist gleich 1/3. Dies lässt sich beschreiben durch

$$\displaystyle P(\textit{Augenzahl}\in\{5,6\})=P(\textit{Augenzahl}=5\,\vee\,\textit{Augenzahl}=6)=1/3. $$

Der Begriff der Wahrscheinlichkeit soll eine möglichst objektive Beschreibung unseres „Glaubens“ oder unserer „Überzeugung“ über den Ausgang eines Versuchs liefern. Als numerische Werte sollen alle reellen Zahlen im Intervall \([0,1]\) möglich sein, wobei 0 die Wahrscheinlichkeit für das unmögliche Ereignis und 1 die Wahrscheinlichkeit für das sichere Ereignis sein soll. Dies wird erreicht durch die folgende Definition.

Definition 7.2

Sei \(\Omega=\{\omega_{1},\omega_{2},\ldots,\omega_{n}\}\) endlich. Es sei kein Elementarereignis bevorzugt, d. h. man setzt eine Symmetrie bezüglich der Häufigkeit des Auftretens aller Elementarereignisse voraus. Die Wahrscheinlichkeit \(P(A)\) des Ereignisses A ist dann

$$\displaystyle P(A)=\frac{|A|}{|\Omega|}=\frac{\text{Anzahl der f{\"u}r $A$ g{\"u}nstigen F{\"a}lle}}{\text{Anzahl der m{\"o}glichen F{\"a}lle}}.$$

Es folgt sofort, dass jedes Elementarereignis die Wahrscheinlichkeit \(1/|\Omega|\) hat. Die Voraussetzung der Gleichwahrscheinlichkeit der Elementarereignisse nennt man Laplace-Annahme und die damit berechneten Wahrscheinlichkeiten Laplace-Wahrscheinlichkeiten. Diese Definition stößt an ihre Grenzen, wenn die Zahl der Elementarereignisse unendlich wird. Da wir hier aber nur endliche Ereignisräume betrachten werden, stellt dies kein Problem dar. Zur Beschreibung von Ereignissen verwenden wir Variablen mit entsprechend vielen Werten. Zum Beispiel kann eine Variable Augenfarbe die Werte grün, blau, braun annehmen. \(\textit{Augenfarbe}=\textit{blau}\) beschreibt dann ein Ereignis, denn es handelt sich um eine Aussage mit den Wahrheitswerten w oder f. Bei binären (booleschen) Variablen ist schon die Variable selbst eine Aussage. Es genügt hier also zum Beispiel die Angabe von \(P(\textit{JohnRuftAn})\) statt \(P(\textit{JohnRuftAn}=w)\).

Beispiel 3

Die Wahrscheinlichkeit, eine gerade Augenzahl zu würfeln ist nach dieser Definition

$$\displaystyle P(\textit{Augenzahl}\in\{2,4,6\})=\frac{|\{2,4,6\}|}{|\{1,2,3,4,5,6\}|}=\frac{3}{6}=\frac{1}{2}.$$

Direkt aus der Definition folgen einige wichtige Regeln:

Satz 1

  1. 1.

    \(P(\Omega)=1\).

  2. 2.

    \(P(\emptyset)=0\), d. h. das unmögliche Ereignis hat die Wahrscheinlichkeit 0.

  3. 3.

    Für paarweise unvereinbare Ereignisse A und B gilt \(P(A\,\vee\,B)=P(A)+P(B)\).

  4. 4.

    Für zwei zueinander komplementäre Ereignisse A und \(\neg{A}\) gilt \(P(A)+P(\neg{A})=1\).

  5. 5.

    Für beliebige Ereignisse A und B gilt \(P(A\,\vee\,B)=P(A)+P(B)-P(A\,\wedge\,B)\).

  6. 6.

    Für \(A\subseteq B\) gilt \(P(A)\leq P(B)\).

  7. 7.

    Sind \(A_{1},\ldots,A_{n}\) die Elementarereignisse, so gilt \(\sum_{i=1}^{n}P(A_{i})=1\) (Normierungsbedingung).

Der Ausdruck \(P(A\,\wedge\,B)\) oder auch \(P(A,B)\) steht für die Wahrscheinlichkeit des Ereignisses \(A\,\wedge\,B\). Oft interessieren wir uns für die Wahrscheinlichkeiten aller Elementarereignisse, das heißt aller Kombinationen aller Werte der Variablen A und B. Bei den zweiwertigen Variablen A und B sind dies \(P(A,B)\), \(P(A,\neg B)\), \(P(\neg A,B)\), \(P(\neg A,\neg B)\). Den Vektor

$$\displaystyle(P(A,B),P(A,\neg B),P(\neg A,B),P(\neg A,\neg B))$$

bestehend aus diesen vier Werten nennt man Verteilung oder Wahrscheinlichkeitsverteilung (engl. joint probability distribution) der Variablen A und B. Er wird abgekürzt mit \(\boldsymbol{P}(A,B)\). Schön anschaulich lässt sich die Verteilung im Fall von zwei Variablen in Form einer Tabelle (Matrix) wie folgt darstellen:

Table 2

Bei den d Variablen \(X_{1},\ldots,X_{d}\) mit je n Werten enthält die Verteilung die Werte \(P(X_{1}=x_{1},\ldots,X_{d}=x_{d})\) und \(x_{1},\ldots,x_{d}\) nehmen jeweils n verschiedene Werte an. Die Verteilung lässt sich daher als d-dimensionale Matrix mit insgesamt n d Elementen darstellen. Aufgrund der Normierungsbedingung aus Satz 1 ist jedoch einer dieser n d Werte redundant und die Verteilung wird durch \(n^{d}-1\) Werte eindeutig charakterisiert.

7.1.1 Bedingte Wahrscheinlichkeiten

Beispiel 4

In der Doggenriedstraße in Weingarten wird die Geschwindigkeit von 100 Fahrzeugen gemessen. Bei jeder Messung wird protokolliert, ob der Fahrer Student ist oder nicht. Die Ergebnisse sind:

Wir stellen die Frage: Fahren Studenten häufiger zu schnell als der Durchschnitt bzw. als Nichtstudenten? Footnote 1

Die Antwort wird gegeben durch die Wahrscheinlichkeit

$$\displaystyle P(G\,|\,S)=\frac{|\text{Fahrer ist Student und Geschw.\ zu hoch}|}{|\text{Fahrer ist Student}|}=\frac{5}{30}=\frac{1}{6}\approx 0{,}17$$

für zu schnelles Fahren unter der Bedingung, dass der Fahrer Student ist. Diese unterscheidet sich offensichtlich von der A-priori-Wahrscheinlichkeit \(P(G)=0{,}1\) für zu schnelles Fahren. Bei der A-priori-Wahrscheinlichkeit wird der Ereignisraum nicht durch Zusatzbedingungen eingeschränkt.

Table 3

Definition 7.3

Für zwei Ereignisse A und B ist die Wahrscheinlichkeit \(P(A\,|\,B)\) für A unter der Bedingung B (bedingte Wahrscheinlichkeit) definiert durch

$$\displaystyle P(A\,|\,B)=\frac{P(A\,\wedge\,B)}{P(B)}$$

An Beispiel 4 erkennt man, dass im Fall eines endlichen Ereignisraumes die bedingte Wahrscheinlichkeit \(P(A\,|\,B)\) aufgefasst werden kann als die Wahrscheinlichkeit von A und B, wenn man nur das Ereignis B betrachtet, d. h. als

$$\displaystyle P(A\,|\,B)=\frac{|A\,\wedge\,B|}{|B|}.$$

Diese Formel lässt sich einfach herleiten unter Verwendung von Definition 7.2

$$\displaystyle P(A\,|\,B)=\frac{P(A\,\wedge\,B)}{P(B)}=\frac{\frac{|A\,\wedge\,B|}{|\Omega|}}{\frac{|B|}{|\Omega|}}=\frac{|A\,\wedge\,B|}{|B|}.$$

Definition 7.4

Gilt für zwei Ereignisse A und B

$$\displaystyle P(A\,|\,B)=P(A),$$

so nennt man diese Ereignisse unabhängig .

A und B sind also unabhängig, wenn die Wahrscheinlichkeit für das Ereignis A nicht durch das Ereignis B beeinflusst wird.

Satz 2

Für unabhängige Ereignisse A und B folgt aus der Definition

$$\displaystyle P(A\,\wedge\,B)=P(A)\cdot P(B).$$

Beispiel 5

Beim Würfeln mit zwei Würfeln ist die Wahrscheinlichkeit für zwei Sechsen 1/36, wenn die beiden Würfel unabhängig sind, denn

$$\displaystyle P(W_{1}=6\,\wedge\,W_{2}=6)=P(W_{1}=6)\cdot P(W_{2}=6)=\frac{1}{6}\cdot\frac{1}{6}=\frac{1}{36},$$

wobei die erste Gleichung nur gilt, wenn die beiden Würfel unabhängig sind. Fällt z. B. durch magische Kräfte Würfel 2 immer gleich wie Würfel 1, so gilt

$$\displaystyle P(W_{1}=6\,\wedge\,W_{2}=6)=\frac{1}{6}.$$

7.1.1.1 Kettenregel

Auflösen der Definition der bedingten Wahrscheinlichkeit nach \(P(A\,\wedge\,B)\) ergibt die so genannte Produktregel

$$\displaystyle P(A\,\wedge\,B)=P(A\,|\,B)P(B),$$

die wir sofort auf den Fall von n Variablen verallgemeinern. Durch wiederholte Anwendung obiger Regel erhalten wir die Kettenregel

$$ \boldsymbol{P}(X_{1},\ldots,X_{n})=\boldsymbol{P}(X_{n}\,|\,X_{1},\ldots,X_{n-1})\cdot\boldsymbol{P}(X_{1},\ldots,X_{n-1})$$
$$ \quad\qquad=\boldsymbol{P}(X_{n}\,|\,X_{1},\ldots,X_{n-1})\cdot\boldsymbol{P}(X_{n-1}\,|\,X_{1},\ldots,X_{n-2})\cdot\boldsymbol{P}(X_{1},\ldots,X_{n-2})$$
$$ \quad\qquad=\boldsymbol{P}(X_{n}\,|\,X_{1},\ldots,X_{n-1})\cdot\boldsymbol{P}(X_{n-1}\,|\,X_{1},\ldots,X_{n-2})\cdot\ldots\cdot\boldsymbol{P}(X_{2}\,|\,X_{1})\cdot\boldsymbol{P}(X_{1})$$
$$ \quad\qquad=\prod_{i=1}^{n}\boldsymbol{P}(X_{i}\,|\,X_{1}\ldots,X_{i-1}),$$
(7.1)

mit der man die Verteilung als ein Produkt bedingter Wahrscheinlichkeiten darstellen kann. Da die Kettenregel für alle Werte der Variablen \(X_{1},\ldots,X_{n}\) gilt, wurde sie mit Hilfe des Symbols P für die Verteilung formuliert.

7.1.1.2 Marginalisierung

Wegen \(A\,\Leftrightarrow\,(A\,\wedge\,B)\,\vee\,(A\,\wedge\,\neg B)\) gilt für zweiwertige Variablen A und B

$$\displaystyle P(A)=P((A\,\wedge\,B)\,\vee\,(A\,\wedge\,\neg B))=P(A\,\wedge\,B)+P(A\,\wedge\,\neg B).$$

Durch Summation über die beiden Werte von B wird die Variable B eliminiert. Analog lässt sich für beliebige Variablen \(X_{1},\ldots,X_{d}\) eine Variable, zum Beispiel X d , durch Summation über alle ihre Werte eliminieren. Es gilt

$$\displaystyle P(X_{1}=x_{1},\ldots,X_{d-1}=x_{d-1})=\sum_{x_{d}}P(X_{1}=x_{1},\ldots,X_{d-1}=x_{d-1},X_{d}=x_{d}).$$

Die Anwendung dieser Formel wird Marginalisierung genannt. Diese Summation kann mit den Variablen \(X_{1},\ldots,X_{d-1}\) so lange fortgesetzt werden, bis nur noch eine Variable übrig bleibt. Auch ist die Marginalisierung auf die Verteilung \(\boldsymbol{P}(X_{1},\ldots,X_{d})\) anwendbar. Die resultierende Verteilung \(\boldsymbol{P}(X_{1},\ldots,X_{d-1})\) wird Randverteilung genannt, denn die Marginalisierung ist vergleichbar mit der Projektion eines Quaders auf eine Seitenfläche. Hier wird das dreidimensionale Objekt auf einen „Rand“ des Quaders, das heißt auf eine zweidimensionale Menge, abgebildet. In beiden Fällen wird die Dimension um eins reduziert.

Beispiel 6

Wir betrachten die Menge aller Patienten, die mit akuten Bauchschmerzen zum Arzt kommen. Bei diesen wird der Leukozytenwert gemessen, welcher ein Maß für die relative Häufigkeit der weißen Blutkörperchen im Blut ist. Wir definieren die Variable Leuko, welche genau dann wahr ist, wenn der Leukozytenwert größer als 10.000 ist. Dies deutet auf eine Entzündung im Körper hin. Außerdem definieren wir die Variable App, welche angibt, ob der Patient eine Appendizitis , das heißt einen entzündeten Blinddarm, hat. In folgender Tabelle ist die Verteilung \(\boldsymbol{P}(\textit{App},\textit{Leuko})\) dieser beiden Variablen angegeben:

In der letzten Spalte und der letzten Zeile sind jeweils die Summen über eine Spalte beziehungsweise Zeile angegeben. Diese Summen sind durch Marginalisierung entstanden. Zum Beispiel liest man ab

$$\displaystyle P(\textit{Leuko})=P(\textit{App},\textit{Leuko})+P(\neg\textit{App},\textit{Leuko})=0{,}54.$$

Die angegebene Verteilung \(\boldsymbol{P}(\textit{App},\textit{Leuko})\) könnte zum Beispiel aus einer Erhebung an deutschen Arztpraxen stammen. Daraus können wir nun die bedingte Wahrscheinlichkeit

$$\displaystyle P(\textit{Leuko}\,|\,\textit{App})=\frac{P(\textit{Leuko},\textit{App})}{P(\textit{App})}=0{,}82$$

berechnen, welche uns sagt, dass etwa 82 % aller Appendizitisfälle zu hohem Leukozytenwert führen. Derartige Werte werden in der medizinischen Literatur publiziert. Nicht publiziert wird hingegen die bedingte Wahrscheinlichkeit \(P(\textit{App}\,|\,\textit{Leuko})\), welche für die Diagnose der Appendizitis eigentlich viel hilfreicher wäre. Um dies zu verstehen, leiten wir zuerst eine einfache, aber sehr wichtige Formel her.

Table 4

7.1.1.3 Die Bayes-Formel

Vertauschen von A und B in Definition 7.3 führt zu

$$\displaystyle P(A\,|\,B)=\frac{P(A\,\wedge\,B)}{P(B)}\quad\text{und}\quad P(B\,|\,A)=\frac{P(A\,\wedge\,B)}{P(A)}.$$

Durch Auflösen der beiden Gleichungen nach \(P(A\,\wedge\,B)\) und Gleichsetzen erhält man die Bayes-Formel

$$\displaystyle P(A\,|\,B)=\frac{P(B\,|\,A)\cdot P(A)}{P(B)},$$
(7.2)

deren große Relevanz für viele Anwendungen wir an drei Beispielen aufzeigen wollen. Zuerst wenden wir sie auf das Appendizitis-Beispiel an und erhalten

Beispiel 7

$$\displaystyle P(\textit{App}\,|\,\textit{Leuko})=\frac{P(\textit{Leuko}\,|\,\textit{App})\cdot P(\textit{App})}{P(\textit{Leuko})}=\frac{0{,}82\cdot 0{,}28}{0{,}54}=0{,}43.$$
(7.3)

Warum wird nun \(P(\textit{Leuko}\,|\,\textit{App})\) publiziert, \(P(\textit{App}\,|\,\textit{Leuko})\) aber nicht?

Unter der Annahme, dass sich eine Appendizitis, unabhängig von der Rasse, im Organismus aller Menschen ähnlich auswirkt, ist \(P(\textit{Leuko}\,|\,\textit{App})\) ein universeller, weltweit gültiger Wert. An (7.3 ) erkennt man, dass \(P(\textit{App}\,|\,\textit{Leuko})\) nicht universell ist, denn dieser Wert wird beeinflusst durch die A-priori-Wahrscheinlichkeiten \(P(\textit{App})\) und \(P(\textit{Leuko})\). Beide können je nach den Lebensumständen variieren. Zum Beispiel hängt \(P(\textit{Leuko})\) davon ab, ob es in einer Personengruppe viele oder eher wenige Entzündungskrankheiten gibt. In den Tropen könnte sich der Wert eventuell deutlich von dem in kalten Regionen unterscheiden. Die Bayes-Formel macht es uns aber einfach, aus dem universell gültigen Wert \(P(\textit{Leuko}\,|\,\textit{App})\) den für die Diagnose relevanten Wert \(P(\textit{App}\,|\,\textit{Leuko})\) zu berechnen.

Bevor wir dieses Beispiel weiter vertiefen und in Abschn. 7.3 zu einem medizinischen Expertensystem für Appendizitis ausbauen, wollen wir zunächst die Bayes-Formel auf ein weiteres interessantes medizinisches Beispiel anwenden.

Beispiel 8

Bei der Krebsdiagnose werden häufig über Blutuntersuchungen sogenannte Tumormarker gemessen. Ein Beispiel hierfür ist der zur Diagnose des Prostatakarzinoms (PCa \(=\) prostate cancer) bei Männern verwendete Tumormarker PSA (prostataspezifisches Antigen). Unter der Annahme, dass keine weiteren Untersuchungen auf PCa durchgeführt wurden, gilt der Test als positiv, das heißt, es besteht ein Verdacht auf PCa, wenn die Konzentration von PSA einen Wert von 4 ng\(/\)ml erreicht oder übersteigt. Für den Patienten interessant ist die Wahrscheinlichkeit \(P(C\,|\,\mathit{pos})\) für PCa, wenn dieser Fall eintritt. Die binäre Variable C ist wahr, wenn der Patient PCa hat und \(\mathit{pos}\) steht für einen PSA-Wert \(\geq\) 4 ng\(/\)ml. Die Wahrscheinlichkeit \(P(C|pos)\) wollen wir nun berechnen. Aus ähnlichen Gründen wie schon oben bei der Appendizitisdiagnose erwähnt, wird nicht dieser Wert publiziert, sondern die Sensitivität \(P(\mathit{pos}\,|\,C)\) und die Spezifität \(P(\mathit{neg}\,|\,{\neg C})\) des TestsFootnote 2. Laut [HL04] liegt bei einer Sensitivität von \(0{,}95\) die Spezifität bei höchstens \(0{,}25\), weshalb wir im Folgenden von \(P(\mathit{pos}\,|\,C)=0{,}95\) und \(P(\mathit{neg}\,|\,{\neg C})=0{,}25\) ausgehen. Wir wenden darauf die Bayes-Formel an und erhalten

$$\begin{aligned}\displaystyle P(C\,|\,\mathit{pos})&\displaystyle=\frac{P(\mathit{pos}\,|\,C)\cdot P(C)}{P(\mathit{pos})}=\frac{P(\mathit{pos}\,|\,C)\cdot P(C)}{P(\mathit{pos}\,|\,C)\cdot P(C)+P(\mathit{pos}\,|\,{\neg C})\cdot P(\neg C)}\\ \displaystyle&\displaystyle=\frac{0{,}95\cdot 0{,}0021}{0{,}95\cdot 0{,}0021+\mathbf{0{,}75}\cdot 0{,}99679}=\frac{0{,}95\cdot 0{,}0021}{0{,}75}=0{,}0027.\end{aligned}$$

Hierbei verwenden wir \(P(\mathit{pos}\,|\,{\neg C})=1-P(\mathit{neg}\,|\,{\neg C})=1-0{,}25=0{,}75\) und \(P(C)=0{,}0021=0{,}21\,\%\) als A-priori-Wahrscheinlichkeit für PCa in einem Jahr.Footnote 3 Es macht Sinn anzunehmen, dass der PSA-Test einmal pro Jahr durchgeführt wird. Dieses Ergebnis ist aus der Sicht des Patienten etwas überraschend, denn die Wahrscheinlichkeit für PCa nach positivem Test ist mit 0,27 % nur minimal höher als die A-Priori-Wahrscheinlichkeit von 0,21 % für PCa für einen Mann mit 55 Jahren. Jedenfalls ist ein positiver Befund aufgrund eines PSA-Wertes von knapp über 4 ng\(/\)ml definitiv kein Grund zur Panik für den Patienten. Allenfalls dient er als Anlass für weitere Untersuchungen wie etwa Biopsie oder MRT bis hin zu Bestrahlung und Operation. Ganz ähnlich stellt sich die Situation bei vielen anderen Tumormarkern wie etwa für Darmkrebs oder bei der Brustkrebsdiagnose mittels Mammographie dar.

Der Grund für dieses Problem ist die sehr niedrige Spezifität \(P(\mathit{neg}\,|\,{\neg C})=0{,}25\). Sie führt dazu, dass 75 % der gesunden Patienten (ohne PCa) ein positives Testergebnis erhalten und in der Folge unnötig weiter untersucht werden. Dies ist der Grund, weshalb der PSA-Test seit vielen Jahren sehr kontrovers diskutiert wird.Footnote 4

Angenommen, wir hätten einen besseren Test mit einer Spezifität von 99 %, der nur bei einem Prozent der gesunden Männer ein positives Ergebnis liefert, dann würden wir in obiger Rechnung für \(P(\mathit{pos}\,|\,{\neg C})\) den Wert 0,01 einsetzen und als Ergebnis \(P(C\,|\,\mathit{pos})=0{,}17\) erhalten. Der Test wäre eben deutlich spezifischer.

Beispiel 9

Ein Handelsvertreter, der eine Alarmanlage verkaufen will, könnte wie folgt argumentieren:

Kaufen Sie diese sehr zuverlässige Alarmanlage, denn sie meldet jeden Einbruch mit 99 %-iger Sicherheit. Die Anlage der Konkurrenz bietet nur eine Sicherheit von 85 %.

Falls der Käufer daraus schließt, er könnte bei der Anlage aus einem Alarm A mit hoher Sicherheit auf einen Einbruch E schließen, liegt er falsch. Den Grund liefert die Bayes-Formel. Was der Vertreter sagte, ist \(P(A\,|\,E)=0{,}99\). Was er aber nicht sagte ist, was es bedeutet, wenn er das Alarmsignal hört. Dazu berechnen wir mit der Bayes-Formel \(P(E\,|\,A)\) und nehmen dazu an, dass der Käufer in einer relativ sicheren Gegend wohnt, in der es mit \(P(E)=0{,}001\) selten einen Einbruch gibt. Außerdem nehmen wir nun an, dass die Alarmanlage nicht nur durch Einbrecher ausgelöst wird, sondern auch durch Tiere, etwa Vögel oder Katzen im Garten, was zu \(P(A)=0{,}1\) führt. Damit erhalten wir

$$\displaystyle P(E\,|\,A)=\frac{P(A\,|\,E)P(E)}{P(A)}=\frac{0{,}99\cdot 0{,}001}{0{,}1}=0{,}01,$$

das heißt, mit dieser Anlage wird der Käufer keine Freude haben, denn er wird viel zu oft unnötig vom Alarm aufgeschreckt werden. Betrachten wir den Nenner

$$\begin{aligned}\displaystyle P(A)&\displaystyle=P(A\,|\,E)P(E)+P(A\,|\,{\neg E})P(\neg E)\\ \displaystyle&\displaystyle=0{,}00099+P(A\,|\,{\neg E})\cdot 0{,}999=0{,}1\end{aligned}$$

der Bayes-Formel etwas genauer, so sehen wir, dass \(P(A\,|\,{\neg E})\approx 0{,}1\) ist, was bedeutet, dass der Alarm an etwa jedem zehnten Tag ohne Einbruch ausgelöst wird.

Aus diesem Beispiel lernen wir unter anderem, dass es beim Einkaufen, insbesondere wenn es um Sicherheit geht, wichtig ist, dass sich der Käufer genau überlegt, welche bedingte Wahrscheinlichkeit ihn wirklich interessiert. Beim Vertauschen der Argumente einer bedingten Wahrscheinlichkeit kann sich bei stark unterschiedlichen A-Priori-Wahrscheinlichkeiten der Wert nämlich dramatisch verändern.

7.2 Die Methode der Maximalen Entropie

Am Beispiel einer einfachen Schlussfolgerung werden wir nun aufzeigen, wie man mit Hilfe der Wahrscheinlichkeitsrechnung einen Kalkül zum Schließen bei unsicherem Wissen realisieren kann. Wir werden allerdings bald sehen, dass die ausgetretenen probabilistischen Pfade schnell zu Ende sind. Wenn nämlich zu wenig Wissen für die Lösung der notwendigen Gleichungen vorhanden ist, sind neue Ideen gefragt. Der amerikanische Physiker E.T. Jaynes leistete hierzu in den fünfziger Jahren Pionierarbeit. Er forderte, dass bei fehlendem Wissen die Entropie der gesuchten Wahrscheinlichkeitsverteilung zu maximieren ist und wendete dieses Prinzip in [Jay03, Jay57] auf viele Beispiele an. Diese Methode wurde dann später weiterentwickelt [Che83, KK92, Kan89, Nil86] und ist heute ausgereift und technisch anwendbar, was wir in Abschn. 7.3 am Beispiel des LEXMED-Projektes zeigen werden.

7.2.1 Eine Inferenzregel für Wahrscheinlichkeiten

Wir wollen nun eine Inferenzregel für unsicheres Wissen analog zum klassischen Modus Ponens herleiten. Aus dem Wissen einer Aussage A und einer Regel \(A\,\Rightarrow\,B\) soll auf B geschlossen werden. Kurz formuliert heißt das

$$\displaystyle\begin{array}[]{c}A,A\rightarrow B\\ \hline B\end{array}.$$

Die Verallgemeinerung auf Wahrscheinlichkeitsregeln ergibt

$$\displaystyle\begin{array}[]{c}P(A)=\alpha,\ P(B\,|\,A)=\beta\\ \hline P(B)=\text{?}\end{array}.$$

Gegeben sind also die zwei Wahrscheinlichkeitswerte \(\alpha,\beta\) und gesucht ist ein Wert für \(P(B)\). Durch Marginalisierung erhalten wir aus der Verteilung die gesuchte Randverteilung

$$\displaystyle P(B)=P(A,B)+P(\neg A,B)=P(B\,|\,A)\cdot P(A)+P(B\,|\,\neg A)\cdot P(\neg A).$$

Die drei Werte \(P(A),P(\neg A),P(B\,|\,A)\) auf der rechten Seite sind bekannt, aber der Wert \(P(B\,|\,\neg A)\) ist unbekannt. Mit klassischer Wahrscheinlichkeitsrechnung lässt sich hier keine genaue Aussage über \(P(B)\) machen, allenfalls kann man abschätzen \(P(B)\geq P(B\,|\,A)\cdot P(A)\).

Wir betrachten nun die Verteilung

$$\displaystyle\boldsymbol{P}(A,B)=(P(A,B),P(A,\neg B),P(\neg A,B),P(\neg A,\neg B))$$

und führen zur Abkürzung die 4 Unbekannten

$$\begin{aligned}\displaystyle p_{1}&\displaystyle=P(A,B)\\ \displaystyle p_{2}&\displaystyle=P(A,\neg B)\\ \displaystyle p_{3}&\displaystyle=P(\neg A,B)\\ \displaystyle p_{4}&\displaystyle=P(\neg A,\neg B)\end{aligned}$$

ein. Diese vier Parameter bestimmen die Verteilung. Sind sie alle bekannt, so lässt sich jede Wahrscheinlichkeit für die beiden Variablen A und B berechnen. Zur Berechnung dieser Werte werden vier Gleichungen benötigt. Eine Gleichung ist in Form der Normierungsbedingung

$$\displaystyle p_{1}+p_{2}+p_{3}+p_{4}=1$$

schon bekannt. Es werden daher noch drei Gleichungen benötigt. In unserem Beispiel sind aber nur zwei Gleichungen bekannt.

Aus den gegebenen Werten \(P(A)=\alpha\) und \(P(B\,|\,A)=\beta\) berechnen wir

$$\displaystyle P(A,B)=P(B\,|\,A)\cdot P(A)=\alpha\beta$$

und

$$\displaystyle P(A)=P(A,B)+P(A,\neg B).$$

Daraus lässt sich folgendes Gleichungssystem aufstellen und soweit möglich auflösen:

$$p_{1} =\alpha\beta$$
(7.4)
$$p_{1}+p_{2} =\alpha$$
(7.5)
$$p_{1}+p_{2}+p_{3}+p_{4} =1$$
(7.6)
$$\text{\scriptsize(7.4) in (7.5):}\quad\hphantom{p_{3}+{}}p_{2} = \alpha-\alpha\beta=\alpha(1-\beta)$$
(7.7)
$$\text{\scriptsize(7.5) in (7.6):}\quad p_{3}+p_{4} = 1-\alpha$$
(7.8)

Die Wahrscheinlichkeiten \(p_{1},p_{2}\) für die Welten \((A,B)\) und \((A,\neg B)\) sind nun also bekannt, aber für die beiden Werte \(p_{3},p_{4}\) bleibt nur noch eine Gleichung. Um trotz des fehlenden Wissens zu einer eindeutigen Lösung zu kommen, wechseln wir den Standpunkt. Wir verwenden die gegebene Gleichung als Randbedingung zur Lösung eines Optimierungsproblems.

Gesucht ist nun eine Verteilung p (für die Variablen \(p_{3},p_{4}\)), welche die Entropie

$$\displaystyle H(\boldsymbol{p})=-\sum_{i=1}^{n}p_{i}\ln p_{i}=-p_{3}\ln p_{3}-p_{4}\ln p_{4}$$
(7.9)

unter der Nebenbedingung \(p_{3}+p_{4}=1-\alpha\) (7.8) maximiert. Warum soll gerade die Entropiefunktion maximiert werden? Da uns hier Wissen über die Verteilung fehlt, muss dieses irgendwie hinzugefügt werden. Wir könnten ad hoc einen Wert, zum Beispiel \(p_{3}=0{,}1\), festsetzen. Besser ist es, die Werte p 3 und p 4 so zu bestimmen, dass die hinzugefügte Information so gering wie möglich ist. Man kann zeigen (Abschn. 8.4.2 und [SW76]), dass die Entropie bis auf einen konstanten Faktor die Unsicherheit einer Verteilung misst. Die negative Entropie ist dann also ein Maß für den Informationsgehalt der Verteilung. Das Maximieren der Entropie minimiert also den Informationsgehalt der Verteilung. Zur Veranschaulichung ist in Abb. 7.2 die Entropiefunktion für den zweidimensionalen Fall graphisch dargestellt.

Abb. 7.2
figure 2

Höhenliniendiagramm der zweidimensionalen Entropiefunktion. Man erkennt, dass sie im gesamten Einheitsquadrat streng konvex ist und dass sie ein isoliertes globales Maximum besitzt. Eingezeichnet ist außerdem die Nebenbedingung \(p_{3}+p_{4}=1\) als Spezialfall der hier relevanten Randbedingung \(p_{3}+p_{4}-1+\alpha=0\) für \(\alpha=0\)

Zur Bestimmung des Maximums der Entropie unter der Nebenbedingung \(p_{3}+p_{4}-1+\alpha=0\) verwenden wir die Methode der Lagrangeparameter [BHW89]. Die Lagrangefunktion lautet

$$\displaystyle L=-p_{3}\ln p_{3}-p_{4}\ln p_{4}+\lambda(p_{3}+p_{4}-1+\alpha).$$

Partiell abgeleitet nach \(p_{3},p_{4}\) und λ erhalten wir

$$\begin{aligned}\displaystyle\frac{\partial L}{\partial p_{3}}&\displaystyle=-\ln p_{3}-1+\lambda=0\\ \displaystyle\frac{\partial L}{\partial p_{4}}&\displaystyle=-\ln p_{4}-1+\lambda=0\end{aligned}$$

und berechnen

$$\displaystyle p_{3}=p_{4}=\frac{1-\alpha}{2}.$$

Nun können wir den gesuchten Wert

$$\displaystyle P(B)=P(A,B)+P(\neg A,B)=p_{1}+p_{3}=\alpha\beta+\frac{1-\alpha}{2}=\alpha\left(\beta-\frac{1}{2}\right)+\frac{1}{2}$$

berechnen. Einsetzen von α und β ergibt

$$\displaystyle P(B)=P(A)\left(P(B\,|\,A)-\frac{1}{2}\right)+\frac{1}{2}.$$

In Abb. 7.3 ist \(P(B)\) für verschiedene Werte von \(P(B\,|\,A)\) dargestellt. Man erkennt, dass im zweiwertigen Grenzfall, das heißt, wenn \(P(B)\) und \(P(B\,|\,A)\) die Werte 0 oder 1 annehmen, die probabilistische Inferenz die gleichen Werte für \(P(B)\) liefert wie der Modus Ponens. Wenn A und \(B\,|\,A\) beide wahr sind, ist auch B wahr. Interessant ist der Fall \(P(A)=0\), in dem \(\neg A\) wahr ist. Der Modus Ponens ist hier nicht anwendbar, aber unsere Formel ergibt unabhängig von \(P(B\,|\,A)\) den Wert 1/2 für \(P(B)\). Wenn A falsch ist, wissen wir nichts über B, was genau unserer Intuition entspricht. Auch der Fall \(P(A)=1\) und \(P(B\,|\,A)=0\) deckt sich mit der Aussagenlogik. Hier ist A wahr und \(A\,\Rightarrow\,B\) falsch, also \(A\,\wedge\,\neg B\) wahr. Also ist B falsch. Die waagrechte Gerade in der Abbildung sagt, dass wir im Fall \(P(B\,|\,A)=1/2\) über B nichts aussagen können. Zwischen diesen Punkten verändert sich \(P(B)\) linear bei Änderung von \(P(A)\) oder \(P(B\,|\,A)\).

Abb. 7.3
figure 3

Die Kurvenschar für \(P(B)\) in Abhängigkeit von \(P(A)\) für verschiedene Werte von \(P(B\,|\,A)\)

Satz 3

Sei eine konsistenteFootnote 5  Menge von linearen probabilistischen Gleichungen gegeben. Dann existiert ein eindeutiges Maximum der Entropiefunktion unter den gegebenen Gleichungen als Nebenbedingungen. Die dadurch definierte MaxEnt-Verteilung besitzt unter den Nebenbedingungen minimalen Informationsgehalt.

Aus diesem Satz folgt, dass es keine Verteilung gibt, welche die Nebenbedingungen erfüllt und eine höhere Entropie als die MaxEnt-Verteilung hat. Ein Kalkül, der zu Verteilungen mit geringerer Entropie führt, fügt ad hoc Informationen hinzu, was nicht gerechtfertigt ist.

Bei genauerer Betrachtung der obigen Berechnung von \(P(B)\) erkennt man, dass die beiden Werte p 3 und p 4 immer symmetrisch vorkommen. Das heißt, bei Vertauschung der beiden Variablen ändert sich das Ergebnis nicht. Daher ergibt sich am Ende \(p_{3}=p_{4}\). Die so genannte Indifferenz dieser beiden Variablen führt dazu, dass MaxEnt sie gleichsetzt. Dieser Zusammenhang gilt allgemein:

Definition 7.5

Wenn eine beliebige Vertauschung von zwei oder mehr Variablen in den Lagrangegleichungen diese in einen Satz äquivalenter Gleichungen überführt, so nennt man diese Variablen indifferent .

Satz 4

Ist eine Menge von Variablen \(\{p_{i_{1}},\ldots p_{i_{k}}\}\) indifferent, so liegt das Entropiemaximum unter den gegebenen Nebenbedingungen an einem Punkt mit \(p_{i_{1}}=p_{i_{2}}=\ldots= p_{i_{k}}\).

Mit diesem Wissen hätten wir bei der Berechnung von \(P(B)\) die beiden Variablen p 3 und p 4 (ohne die Lagrangegleichungen zu lösen) sofort gleichsetzen können.

7.2.2 Entropiemaximum ohne explizite Nebenbedingungen

Wir betrachten nun den Fall, dass gar kein Wissen gegeben ist. Das heißt, es gibt außer der Normierungsbedingung

$$\displaystyle p_{1}+p_{2}+\ldots+p_{n}=1$$

keine Nebenbedingungen. Alle Variablen sind daher indifferent. Wir können sie also gleichsetzen und es folgt \(p_{1}=p_{2}=\ldots=p_{n}=1/n\).Footnote 6 Für das Schließen mit Unsicherheit bedeutet dies, dass bei völligem Fehlen von Wissen immer alle Welten gleich wahrscheinlich sind. Das heißt, die Verteilung ist eine Gleichverteilung. Im Fall von zwei Variablen A und B würde also gelten

$$\displaystyle P(A,B)=P(A,\neg B)=P(\neg A,B)=P(\neg A,\neg B)=1/4,$$

woraus zum Beispiel \(P(A)=P(B)=1/2\) und \(P(B\,|\,A)=1/2\) folgt. Das Ergebnis für den zweidimensionalen Fall kann man auch an Abb. 7.2 ablesen, denn die eingezeichnete Nebenbedingung ist genau die Normierungsbedingung. Man erkennt, dass das Maximum der Entropie entlang der Geraden genau bei \((1/2,1/2)\) liegt.

Sobald der Wert einer Nebenbedingung von dem aus der Gleichverteilung abgeleiteten Wert abweicht, verschieben sich die Wahrscheinlichkeiten der Welten. Dies zeigen wir an einem weiteren Beispiel auf. Mit den gleichen Bezeichnungen wie oben nehmen wir an, dass nur

$$\displaystyle P(B\,|\,A)=\beta$$

bekannt ist. Also ist \(P(A,B)=P(B\,|\,A)P(A)=\beta P(A)\), woraus \(p_{1}=\beta(p_{1}+p_{2})\) folgt und es ergeben sich die beiden Nebenbedingungen

$$\begin{aligned}\displaystyle\beta p_{2}+(\beta-1)p_{1}&\displaystyle=0\\ \displaystyle p_{1}+p_{2}+p_{3}+p_{4}-1&\displaystyle=0.\end{aligned}$$

Die Lagrangegleichungen lassen sich hier nicht mehr so einfach symbolisch lösen. Numerisches Lösen der Lagrangegleichungen ergibt das in Abb. 7.4 dargestellte Bild, das unter anderem zeigt, dass \(p_{3}=p_{4}\). Dies kann man auch schon an den Randbedingungen ablesen, in denen p 3 und p 4 indifferent sind. Für \(P(B\,|\,A)=1/2\) erhält man die Gleichverteilung, was nicht überrascht. Das heißt, für diesen Wert bedeutet die Randbedingung keine Einschränkung für die Verteilung. Man erkennt außerdem, dass für kleine \(P(B\,|\,A)\) auch \(P(A,B)\) klein wird.

Abb. 7.4
figure 4

\(p_{1},p_{2},p_{3},p_{4}\) in Abhängigkeit von β

7.2.3 Bedingte Wahrscheinlichkeit versus materiale Implikation

Nun zeigen wir, dass die bedingte Wahrscheinlichkeit das intuitive Schließen besser modelliert als die aus der Logik bekannte materiale Implikation (siehe hierzu auch [Ada75]). Zuerst betrachten wir die in Tab. 7.1 dargestellte Wahrheitstabelle, in der die bedingte Wahrscheinlichkeit und die materiale Implikation für die Extremfälle der Wahrscheinlichkeiten null und eins verglichen werden. In den beiden intuitiv kritischen Fällen mit falscher Prämisse ist \(P(B\,|\,A)\) nicht definiert, was Sinn macht.

Tab. 7.1 Wahrheitstabelle für die materiale Implikation und die bedingte Wahrscheinlichkeit für den aussagenlogischen Grenzfall

Nun fragen wir uns, welchen Wert \(P(B\,|\,A)\) annimmt, wenn beliebige Werte \(P(A)= \alpha\) und \(P(B)=\gamma\) gegeben sind und sonst kein weiteres Wissen bekannt ist. Wieder maximieren wir die Entropie unter den gegebenen Randbedingungen. Wie oben setzen wir

$$\displaystyle p_{1}=P(A,B),\quad p_{2}=P(A,\neg B),\quad p_{3}=P(\neg A,B),\quad p_{4}=P(\neg A,\neg B)$$

und erhalten als Randbedingungen

$$p_{1}+p_{2} =\alpha$$
(7.10)
$$p_{1}+p_{3} =\gamma$$
(7.11)
$$p_{1}+p_{2}+p_{3}+p_{4} =1$$
(7.12)

Damit berechnet man durch Maximierung der Entropie (siehe Aufgabe 8 )

$$\displaystyle p_{1}=\alpha\gamma,\quad p_{2}=\alpha(1-\gamma),\quad p_{3}=\gamma(1-\alpha),\quad p_{4}=(1-\alpha)(1-\gamma).$$

Aus \(p_{1}=\alpha\gamma\) folgt \(P(A,B)=P(A)\cdot P(B)\), das heißt die Unabhängigkeit von A und B. Durch das Fehlen von Randbedingungen, welche die Variablen A und B verknüpfen, führt das MaxEnt-Prinzip zur Unabhängigkeit dieser Variablen. Die rechte Hälfte der Tab. 7.1 lässt sich damit einfacher verstehen. Aus der Definition

$$\displaystyle P(B\,|\,A)=\frac{P(A,B)}{P(A)}$$

folgt für den Fall \(P(A)\neq 0\), das heißt, wenn die Prämisse nicht falsch ist, wegen der Unabhängigkeit von A und B, dass \(P(B\,|\,A)=P(B)\). Für den Fall \(P(A)=0\) bleibt \(P(B\,|\,A)\) undefiniert.

7.2.4 MaxEnt-Systeme

Wie schon erwähnt lässt sich auf Grund der Nichtlinearität der Entropiefunktion die MaxEnt-Optimierung für nicht ganz einfache Probleme meist nicht symbolisch durchführen. Daher wurden für die numerische Maximierung der Entropie zwei Systeme entwickelt. An der Fernuniversität Hagen wurde das System SPIRIT [BKI00, RM96] gebaut und an der Technischen Universität München das System PIT (Probability Induction Tool) [ES99, SE00, Sch96], welches wir nun kurz vorstellen werden.

Das System PIT verwendet die Methode des Sequential Quadratic Programming (SQP), um numerisch ein Extremum der Entropiefunktion unter den gegebenen Nebenbedingungen zu finden. Als Eingabe erwartet PIT eine Datei mit den Randbedingungen. Zum Beispiel die Randbedingungen \(P(A)=\alpha\) und \(P(B\,|\,A)=\beta\) aus Abschn. 7.2.1 haben dann die Form

figure a

Wegen der numerischen Berechnung muss man allerdings explizite Wahrscheinlichkeitswerte angeben. Die vorletzte Zeile enthält die Anfrage QP([B=t]). Das bedeutet, der Wert \(P(B)\) ist gewünscht. Unter http://www.pit-systems.de bei „Examples“ gibt man nun diese Eingaben in ein leeres Eingabefenster („Blank Page“) ein und startet PIT. Als Ergebnis erhält man

Table 6

und liest daraus \(P(B)=0{,}38\) und \(P(B\,|\,A)=0{,}3\) ab.

7.2.5 Das Tweety-Beispiel

Anhand des Tweety-Beispiel s aus Abschn. 4.3 zeigen wir nun, dass das Schließen mit Wahrscheinlichkeiten und insbesondere MaxEnt nicht monoton ist und daher das Alltagsschließen sehr gut modellieren kann. Die relevanten Regeln modellieren wir mit Wahrscheinlichkeiten wie folgt:

$$\displaystyle\begin{aligned}\displaystyle P(\textit{Vogel}\,|\,\textit{Pinguin})&\displaystyle=1&\displaystyle&\displaystyle\text{,,Pinguine sind V{\"o}gel``}\\ \displaystyle P(\textit{Fliegt}\,|\,\textit{Vogel})&\displaystyle\in[0{,}95,1]&\displaystyle&\displaystyle\text{,,(fast alle) V{\"o}gel k{\"o}nnen fliegen``}\\ \displaystyle P(\textit{Fliegt}\,|\,\textit{Pinguin})&\displaystyle=0&\displaystyle&\displaystyle\text{,,Pinguine k{\"o}nnen nicht fliegen``}\end{aligned}$$

Die erste und die dritte Regel stellen harte Aussagen dar, wie sie auch in Logik einfach formuliert werden können. Bei der zweiten hingegen drücken wir unser Wissen, dass fast alle Vögel fliegen können, durch ein Wahrscheinlichkeitsintervall aus. Auf die PIT -Eingabedatei

figure b

erhalten wir die korrekte Antwort

Table 7

mit der Aussage, dass Pinguine nicht fliegen können.Footnote 7 Die Erklärung hierfür ist ganz einfach. Durch \(P(\textit{Fliegt}\,|\,\textit{Vogel})\in[0{,}95,1]\) wird ermöglicht, dass es nicht-fliegende Vögel gibt. Würden wir diese Regel ersetzen durch \(P(\textit{Fliegt}\,|\,\textit{Vogel})=1\), so hätte auch PIT keine Chance und würde eine Fehlermeldung über inkonsistente Constraints ausgeben.

An diesem Beispiel erkennt man auch sehr gut, dass Wahrscheinlichkeitsintervalle oft sehr hilfreich sind, um unser Unwissen über den exakten Wahrscheinlichkeitswert zu modellieren. Wir hätten die zweite Regel im Sinne von „normalerweise fliegen Vögel“ noch unschärfer formulieren können durch \(P(\textit{Fliegt}\,|\,\textit{Vogel})\in(0{,}5,1]\). Die Verwendung des halb offenen Intervalls schließt den Wert 0,5 aus.

Schon in [Pea88] wurde gezeigt, dass sich dieses Beispiel mit Wahrscheinlichkeitslogik, auch ohne MaxEnt, lösen lässt. In [Sch96] wird für eine Reihe von anspruchsvollen Benchmarks für nichtmonotones Schließen aus [Lif89] gezeigt, dass sich diese mit MaxEnt elegant lösen lassen. Eine erfolgreiche praktische Anwendung von MaxEnt in Form eines medizinischen Expertensystems stellen wir im folgenden Abschnitt vor.

7.3 Lexmed, ein Expertensystem für Appendizitisdiagnose

Wir stellen hier das von Manfred Schramm, Walter Rampf und dem Autor an der Hochschule Ravensburg-Weingarten zusammen mit vom Krankenhaus 14-Nothelfer in Weingarten entwickelte medizinische Expertensystem Lexmed vor, das die MaxEnt-Methode verwendet [Lex99, SE00].Footnote 8 Die Abkürzung Lexmed steht für lernfähiges Expertensystem für medizinische Diagnose .

7.3.1 Appendizitisdiagnose mit formalen Methoden

Die häufigste ernsthafte Ursache für akute Bauchschmerzen [dD91] bildet die Appendizitis , eine Entzündung des Wurmfortsatzes des Blinddarms. Auch heute noch ist die Diagnose in vielen Fällen schwierig [OFY + 95]. Zum Beispiel sind bis zu ca. 20 % der entfernten Appendizes unauffällig, d. h. die entsprechenden Operationen waren unnötig. Ebenso gibt es regelmäßig Fälle, in denen ein entzündeter Appendix nicht als solcher erkannt wird.

Schon seit Anfang der Siebziger Jahre gibt es Bestrebungen, die Appendizitisdiagnose zu automatisieren mit dem Ziel, die Fehldiagnoserate zu verringern [OFY + 95, OPB94, dDLS + 72]. Besonders zu erwähnen ist hier das von de Dombal in Großbritannien entwickelte Expertensystem zur Diagnose akuter Bauchschmerzen, das 1972, also deutlich vor dem berühmten System MYCIN , publiziert wurde.

Fast alle in der Medizin bisher verwendeten formalen Diagnoseverfahren basieren auf Scores. Scoresysteme sind denkbar einfach anzuwenden: Für jeden Wert eines Symptoms (zum Beispiel Fieber oder Bauchschmerzen rechts unten) notiert der Arzt eine bestimmte Anzahl an Punkten. Liegt die Summe der Punkte über einem bestimmten Wert (Schwellwert), wird eine bestimmte Entscheidung vorgeschlagen (z. B. Operation). Bei n Symptomen \(S_{1},\ldots,S_{n}\) lässt sich ein Score für Appendizitis formal als

$$\displaystyle\text{Diagnose}=\begin{cases}\text{Appendizitis}&\text{falls }w_{1}S_{1}+\ldots+w_{n}S_{n}> \Theta\\ \text{negativ},&\text{sonst}\end{cases}$$

beschreiben. Bei Scores wird also ganz einfach eine Linearkombination von Symptomwerten mit einem Schwellwert Θ verglichen. Die Gewichte der Symptome werden mit statistischen Methoden aus Datenbanken gewonnen. Der Vorteil von Scores ist ihre einfache Anwendbarkeit. Die gewichtete Summe der Punkte lässt sich einfach von Hand berechnen und es wird kein Computer für die Diagnose benötigt.

Aufgrund der Linearität sind Scores aber zu schwach für die Modellierung komplexer Zusammenhänge. Da der Beitrag \(w_{i}S_{i}\) eines Symptoms S i zum Score unabhängig von den Werten anderer Symptome berechnet wird, ist klar, dass Scoresysteme keine „Kontexte“ berücksichtigen können. Sie können prinzipiell nicht zwischen Kombinationen der Untersuchungsergebnisse, also z. B. nicht zwischen dem Leukozytenwert eines älteren Patienten und dem eines Jüngeren unterscheiden.

Bei einer fest vorgegebenen Menge von Symptomen sind also bedingte Wahrscheinlichkeitsaussagen deutlich mächtiger als die Scores, da letztere die Abhängigkeiten zwischen verschiedenen Symptomen nicht beschreiben können. Man kann zeigen, dass Scores implizit die Unabhängigkeit aller Symptome voraussetzen.

Bei der Verwendung von Scores tritt noch ein weiteres Problem auf. Um eine gute Diagnosequalität zu erzielen, müssen an die zur statistischen Bestimmung der Gewichte w i verwendeten Datenbanken hohe Anforderungen gestellt werden. Sie müssen insbesondere repräsentativ sein für die Menge der Patienten im jeweiligen Einsatzbereich des Diagnosesystem s. Dies zu gewährleisten ist oft sehr schwierig oder sogar unmöglich. In solchen Fällen sind Scores und andere klassische statistische Methoden nicht oder nur mit hoher Fehlerrate anwendbar.

7.3.2 Hybride Probabilistische Wissensbasis

Mit Lexmed lassen sich komplexe Zusammenhänge, wie sie in der Medizin häufig auftreten, gut modellieren und schnell berechnen. Wesentlich ist dabei die Verwendung von Wahrscheinlichkeitsaussagen, mit denen sich auf intuitive und mathematisch fundierte Weise unsichere und unvollständige Informationen ausdrücken und verarbeiten lassen. Als Beispiel für eine typische Anfrage an das Expertensystem könnte folgende Frage dienen: Wie hoch ist die Wahrscheinlichkeit für einen entzündeten Appendix, wenn der Patient ein 23-jähriger Mann mit Schmerzen im rechten Unterbauch und einem Leukozytenwert von 13.000 ist? Als bedingte Wahrscheinlichkeit formuliert heißt das unter Verwendung der in Tab. 7.2 verwendeten Namen und Wertebereiche für die Symptome

$$\begin{aligned}\displaystyle&\displaystyle P(\textit{Bef4}=\textit{entz\"{u}ndet}\,\vee\,\textit{Bef4}=\textit{perforiert}{}\leavevmode\nobreak\ |\\ \displaystyle&\displaystyle\qquad\qquad\textit{Sex2 $=$ m{\"a}nnlich $\,\wedge\,$ Alt10 $\in$ 21-25 $\,\wedge\,$ Leuko7 $\in$ 12k-15k}).\end{aligned}$$

Durch die Verwendung von Wahrscheinlichkeitsaussagen hat Lexmed die Fähigkeit, auch Informationen aus nicht repräsentativen Datenbanken zu nutzen, da diese Informationen durch andere Quellen geeignet ergänzt werden können. Lexmed liegt eine Datenbank zugrunde, die nur Daten von Patienten enthält, denen der Appendix operativ entfernt wurde. Mit statistischen Methoden werden aus der Datenbank (etwa 400) Regeln generiert, die das in der Datenbank enthaltene Wissen abstrahieren und verfügbar machen [ES99]. Da in dieser Datenbank keine Patienten mit Verdacht auf Appendizitis und negativem, das heißt (nicht behandlungsbedürftigem) Befund enthalten sind, muss dieses Wissen aus anderen Quellen hinzugefügt werden.Footnote 9 In Lexmed wurden daher die aus der Datenbank gewonnenen Regeln durch (etwa 100) Regeln von medizinischen Experten und der Fachliteratur ergänzt. Dies führt zu einer hybriden probabilistischen Wissensbasis, welche sowohl aus Daten gewonnenes Wissen als auch explizit von Experten formuliertes Wissen enthält. Da beide Arten von Regeln als bedingte Wahrscheinlichkeiten (siehe zum Beispiel (7.14)) formuliert sind, können sie wie in der Abb. 7.5 dargestellt einfach kombiniert werden.

Tab. 7.2 Zur Abfrage in Lexmed benutzte Symptome und deren Werte. In der Spalte # ist die Anzahl der Werte des jeweiligen Symptoms angegeben
Abb. 7.5
figure 5

Aus Daten und Expertenwissen werden Wahrscheinlichkeitsregeln generiert, die in einer Regelbasis (Wissensbasis) integriert und anschließend mit der MaxEnt-Methode vervollständigt werden

Lexmed errechnet die Wahrscheinlichkeiten verschiedener Befunde anhand der Wahrscheinlichkeitsverteilung aller relevanten Variablen (siehe Tab. 7.2 ). Da alle 14 in Lexmed verwendeten Symptome und der Befund als diskrete Variablen modelliert werden (auch stetige Variablen wie der Leukozytenwert werden in Bereiche aufgeteilt), lässt sich die Mächtigkeit der Verteilung (d. h. die Größe des Ereignisraumes) anhand von Tab. 7.2 als das Produkt der Zahl der Werte aller Symptome zu

$$\displaystyle 2^{10}\cdot 10\cdot 3\cdot 4\cdot 6\cdot 7\cdot 4=20.643.840$$

Elementen bestimmen. Aufgrund der Normierungsbedingung aus Satz 1 enthält sie also 20.643.839 unabhängige Werte. Jede Regelmenge mit weniger als 20.643.839 Wahrscheinlichkeitswerten beschreibt diesen Ereignisraum eventuell nicht vollständig. Zur Beantwortung beliebiger Anfragen an das Expertensystem wird aber eine vollständige Verteilung benötigt. Der Aufbau einer so umfangreichen konsistenten Verteilung ist mit statistischen Methoden sehr schwierig.Footnote 10 So gut wie unmöglich wäre es, von einem menschlichen Experten zu verlangen, dass er statt der oben erwähnten 100 Regeln alle 20.643.839 Werte für die Verteilung liefert.

Hier kommt nun die MaxEnt-Methode ins Spiel. Die Generalisierung von etwa 500 Regeln zu einem vollständigen Wahrscheinlichkeitsmodell erfolgt in Lexmed durch Maximierung der Entropie mit den 500 Regeln als Nebenbedingungen. Durch die effiziente Speicherung der resultierenden MaxEnt-Verteilung können die Antwortzeiten für eine Diagnose im Sekundenbereich gehalten werden.

7.3.3 Anwendung von Lexmed

Die Benutzung von Lexmed ist einfach und selbsterklärend. Der Arzt wählt per Internet die Lexmed-Homepage unter http://www.lexmed.de an.Footnote 11 Für eine automatische Diagnose gibt der Arzt die Ergebnisse seiner Untersuchung in die Eingabemaske in Abb. 7.6 ein. Nach 1–2 Sekunden erhält er als Antwort die Wahrscheinlichkeiten für die vier verschiedenen Befunde sowie einen Diagnosevorschlag (Abschn. 7.3.5). Fehlen bei der Eingabe einzelne Untersuchungsergebnisse (z. B. der Sonographiebefund), so wählt der Arzt den Eintrag nicht untersucht. Dabei ist die Sicherheit der Diagnose natürlich um so höher, je mehr Symptomwerte eingegeben wurden.

Abb. 7.6
figure 6

Die Lexmed-Eingabemaske zur Eingabe der untersuchten Symptome und die Ausgabe der Wahrscheinlichkeiten

Um seine eingegebenen Daten zu archivieren, verfügt jeder registrierte Benutzer über eine eigene Patientendatenbank, auf die nur er selbst Zugang hat. So können zum Beispiel die Daten und die Diagnosen früherer Patienten einfach mit denen eines neuen Patienten verglichen werden. Eine Gesamtübersicht der Abläufe in Lexmed ist in Abb. 7.7 dargestellt.

Abb. 7.7
figure 7

Aus der Datenbank sowie aus Expertenwissen werden Regeln generiert. MaxEnt erzeugt daraus eine vollständige Wahrscheinlichkeitsverteilung. Auf eine Anfrage des Benutzers wird für jede mögliche Diagnose eine Wahrscheinlichkeit berechnet. Mit Hilfe der Kostenmatrix (siehe Abschn. 7.3.5) wird dann eine Entscheidung vorgeschlagen

7.3.4 Funktion von Lexmed

Das Wissen wird formalisiert mit Hilfe von Wahrscheinlichkeitsaussagen. Beispielsweise legt die Aussage

$$\displaystyle P(\textit{Leuko7}> 20.000\,|\,\textit{Bef4}{}=\textit{entz\"{u}ndet}{})=0{,}09 $$

die Häufigkeit für einen Leukozytenwert von mehr als 20.000 bei einem Befund entzündet auf einen Wert von 9 % fest.Footnote 12

7.3.4.1 Lernen von Regeln durch Statistische Induktion

Die in Lexmed verwendete Datenbank enthält in der Rohfassung 54 verschiedene Werte (anonymisiert) von 14.646 Patienten. Wie schon erwähnt sind in dieser Datenbank nur die Patienten erfasst, denen der Appendix operativ entfernt wurde. Von den in der Datenbank verwendeten 54 Attributen wurden nach einer statistischen Analyse die in Tab. 7.2 dargestellten 14 Symptome verwendet. Aus dieser Datenbank werden nun in zwei Schritten die Regeln erzeugt. Der erste Schritt bestimmt dabei die Abhängigkeitsstruktur der Symptome, der zweite Schritt füllt diese Struktur mit den entsprechenden Wahrscheinlichkeitsregeln.Footnote 13

Bestimmung des Abhängigkeitsgraphen

Der Graph in Abb. 7.8 enthält für jede Variable (die Symptome und den Befund) einen Knoten und gerichtete Kanten, die verschiedene Knoten verbinden. Die Dicke der Kanten zwischen den Variablen stellt ein Maß für die statistische Abhängigkeit bzw. Korrelation der Variablen dar. Die Korrelation von zwei unabhängigen Variablen ist gleich null. Es wurde für jedes der 14 Symptome die Paarkorrelation mit Bef4 berechnet und in den Graphen eingetragen. Außerdem wurden alle Dreierkorrelationen von Befund mit je zwei Symptomen berechnet. Von diesen wurden nur die stärksten Werte in Form von zusätzlichen Kanten zwischen den zwei beteiligten Symptomen eingezeichnet.

Abb. 7.8
figure 8

Der aus der Datenbank berechnete Abhängigkeitsgraph

Schätzen der Regelwahrscheinlichkeiten

Die Struktur des Abhängigkeitsgraphen beschreibt die Struktur der gelernten Regeln (wie auch bei einem Bayes-Netz üblichFootnote 14). Die Regeln haben dabei unterschiedliche Komplexität: Es gibt Regeln, die nur die Verteilung der möglichen Befunde beschreiben (A-priori-Regeln, z. B. (7.13)), Regeln, die die Abhängigkeit zwischen dem Befund und einem Symptom beschreiben (Regeln mit einfacher Bedingung, z. B. (7.14)) und schließlich Regeln, die die Abhängigkeit zwischen dem Befund und 2 Symptomen beschreiben, wie sie in Abb. 7.9 in der Pit-Syntax angegeben sind.

$$P(\textit{Bef4}{}=\textit{entz\"{u}ndet}{}) =0{,}40$$
(7.13)
$$P(\textit{Sono2}=\textit{ja}\,|\,\textit{Bef4}{}=\textit{entz\"{u}ndet}{}) =0{,}43$$
(7.14)
$$P({\textit{S4Q2}=\textit{ja}}\,|\,\textit{Bef4}{}=\textit{entz\"{u}ndet}{}\,\wedge\,\textit{S2Q2}=\textit{ja}) =0{,}61$$
(7.15)

Um die Kontextabhängigkeit des gespeicherten Wissens so gering wie möglich zu halten, enthalten alle Regeln den Befund in ihrer Bedingung und nicht als Konklusion. Dies ist ganz analog zum Aufbau vieler Medizinbücher mit Formulierungen der Art „Bei Appendizitis finden wir gewöhnlich …“. Wie schon in Beispiel 6 gezeigt wurde, stellt dies jedoch kein Problem dar, denn mit Hilfe der Bayes-Formel bringt Lexmed diese Regeln automatisch in die richtige Form.

Abb. 7.9
figure 9

Einige der Lexmed-Regeln mit Wahrscheinlichkeitsintervallen. „*“ steht hier für „\(\,\wedge\,\)

Die numerischen Werte für diese Regeln werden durch Zählen der Häufigkeit in der Datenbank geschätzt. Zum Beispiel ergibt sich der Wert in (7.14) durch Abzählen und Berechnen von

$$\displaystyle\frac{|\textit{Bef4}{}=\textit{entz\"{u}ndet}{}\,\wedge\,\textit{Sono2}=\textit{ja}|}{|\textit{Bef4}{}=\textit{entz\"{u}ndet}{}|}=0{,}43.$$

7.3.4.2 Expertenregeln

Da die Appendektomie-Datenbank nur die operierten Patienten enthält, werden die Regeln für unspezifische Bauchschmerzen (NSAP) durch Wahrscheinlichkeitsaussagen von medizinischen Experten beschrieben. Die Erfahrungen in Lexmed bestätigen, dass die verwendeten Wahrscheinlichkeitsaussagen einfach zu lesen und direkt in die Umgangssprache zu übersetzen sind. Aussagen von medizinischen Experten über Häufigkeitsbeziehungen bestimmter Symptome und Befunde, sei es aus der Literatur oder als Ergebnis einer Befragung, konnten daher ohne großen Aufwand in die Regelbasis aufgenommen werden. Zur Modellierung der Unsicherheit des Expertenwissens hat sich hier die Verwendung von Wahrscheinlichkeitsintervallen bewährt. Das Expertenwissen wurde im Wesentlichen von dem beteiligten Chirurgen, Dr. Rampf, und von Dr. Hontschik sowie seinen Publikationen [Hon94] akquiriert.

Sind die Expertenregeln erzeugt, ist die Regelbasis fertig. Mit der Methode der maximalen Entropie wird nun das vollständige Wahrscheinlichkeitsmodell berechnet.

7.3.4.3 Diagnoseanfragen

Aus dem effizient abgespeicherten Wahrscheinlichkeitsmodell berechnet Lexmed innerhalb weniger Sekunden aus den eingegebenen Symptomwerten die Wahrscheinlichkeiten für die vier möglichen Befunde. Als Beispiel nehmen wir folgende Ausgabe an:

Table 9

Basierend auf diesen vier Wahrscheinlichkeitswerten muss eine Entscheidung für eine der vier Therapien Operation, Notoperation, stationär beobachten oder ambulant beobachtenFootnote 15 erfolgen. Obwohl hier die Wahrscheinlichkeit für einen negativen Befund überwiegt, ist es keine gute Entscheidung, den Patienten als gesund nach Hause zu schicken. Man erkennt deutlich, dass die Diagnose mit der Berechnung der Wahrscheinlichkeiten für die Befunde noch nicht abgeschlossen ist.

Vielmehr steht nun die Aufgabe an, aus diesen Wahrscheinlichkeiten eine optimale Entscheidung abzuleiten. Hierzu kann sich der Benutzer von Lexmed einen Entscheidungsvorschlag berechnen lassen.

7.3.5 Risikomanagement mit Hilfe der Kostenmatrix

Wie können nun die berechneten Wahrscheinlichkeiten optimal in Entscheidungen übersetzt werden? Ein naives Verfahren würde jedem Befund eine Entscheidung zuordnen und anschließend diejenige Entscheidung wählen, die dem Befund mit der höchsten Wahrscheinlichkeit entspricht. Angenommen die berechneten Wahrscheinlichkeiten sind 0,40 für den Befund Appendizitis (entzündet oder perforiert), 0,55 für den Befund negativ und 0.05 für den Befund andere. Ein naives Verfahren würde nun die (offensichtlich bedenkliche) Entscheidung „keine Operation“ wählen, da sie zu dem Befund mit der größeren Wahrscheinlichkeit korrespondiert. Eine bessere Methode besteht darin, die Kosten der möglichen Fehler zu vergleichen, die bei den jeweiligen Entscheidungen auftreten können. Der Fehler wird in der Form von „(theoretischen) Mehrkosten der aktuellen gegenüber der optimalen Entscheidung“ quantifiziert. Die angegebenen Werte enthalten Kosten des Krankenhauses, der Krankenkasse, des Patienten und anderer Parteien (z. B. Arbeitsausfall), unter Einbeziehung der Spätfolgen. Diese Kosten sind in Tab. 7.3 angegeben.

Tab. 7.3 Die Kostenmatrix von Lexmed zusammen mit den berechneten Befundwahrscheinlichkeiten eines Patienten

Die Beträge werden anschließend für jede Entscheidung gemittelt, d. h. unter Berücksichtigung ihrer Häufigkeiten summiert. Diese sind in der letzten Spalte in Tab. 7.3 eingetragen. Anschließend wird die Entscheidung mit den geringsten mittleren Fehlerkosten vorgeschlagen. In Tab. 7.3 ist die Matrix gemeinsam mit dem für einen Patienten ermittelten Wahrscheinlichkeitsvektor (hier: \((0.25,0.15,0.55,0.05)\)) angegeben. Die letzte Spalte der Tabelle enthält das Ergebnis der Berechnungen der durchschnittlich zu erwartenden Kosten für Fehlentscheidungen. Der Wert für Operation in der ersten Zeile berechnet sich daher als gewichtetes Mittel aller Kosten zu \(0{,}25\cdot 0+0{,}15\cdot 500+0{,}55\cdot 5800+0{,}05\cdot 6000=3565\). Optimale Entscheidungen sind mit (Mehr-)Kosten 0 eingetragen. Das System entscheidet sich nun für die Therapie mit den minimalen mittleren Kosten. Es stellt damit einen kostenorientierten Agenten dar.

7.3.5.1 Kostenmatrix im binären Fall

Zum besseren Verständnis von Kostenmatrix und Risikomanagement wollen wir nun das Lexmed-System auf die zweiwertige Unterscheidung zwischen den Befunden Appendizitis mit der Wahrscheinlichkeit

$$\displaystyle p_{1}=P(\textit{Appendizitis}{})=P(\textit{Bef4}{}=\textit{entz\"{u}ndet}{})+P(\textit{Bef4}{}=\textit{perforiert})$$

und NSAP mit der Wahrscheinlichkeit

$$\displaystyle p_{2}=P(\textit{NSAP}{})=P(\textit{Bef4}{}=\textit{negativ})+P(\textit{Bef4}{}=\textit{andere})$$

einschränken. Als mögliche Therapie kann hier nur Operation oder Ambulant beobachten gewählt werden. Die Kostenmatrix ist dann also eine \(2\times 2\)-Matrix der Gestalt

$$\displaystyle\begin{pmatrix}0&k_{2}\\ k_{1}&0\\ \end{pmatrix}.$$

Die beiden Nullen in der Diagonalen stehen für die korrekten Entscheidungen Operation im Falle von Appendizitis und Ambulant beobachten bei NSAP. Der Parameter k 2 steht für die zu erwartenden Kosten, die anfallen, wenn ein Patient ohne entzündeten Appendix operiert wird. Diese Fehlentscheidung wird als falsch positiv bezeichnet. Falsch negativ hingegen ist die Entscheidung ambulant beobachten im Fall einer Appendizitis. Der Wahrscheinlichkeitsvektor \((p_{1},p_{2})^{T}\) wird nun mit dieser Matrix multipliziert und man erhält den Vektor

$$\displaystyle(k_{2}\,p_{2},k_{1}\,p_{1})^{T}$$

mit den mittleren Mehrkosten für die beiden möglichen Therapien. Da für die Entscheidung nur das Verhältnis aus den beiden Komponenten relevant ist, kann der Vektor mit einem Faktor multipliziert werden. Wir wählen \(1/k_{1}\) und erhalten \(((k_{2}/k_{1})p_{2},p_{1})\). Relevant ist hier also nur das Verhältnis \(k=k_{2}/k_{1}\). Das gleiche Ergebnis liefert auch die einfachere Kostenmatrix

$$\displaystyle\begin{pmatrix}0&k\\ 1&0\\ \end{pmatrix},$$

welche nur den einen variablen Parameter k enthält. Dieser Parameter ist sehr wichtig, denn er bestimmt das Risikomanagement . Durch Veränderung von k kann der „Arbeitspunkt“ des Diagnosesystems angepasst werden. Für \(k\to\infty\) ist das System extrem riskant eingestellt, denn es wird kein Patient operiert; mit der Konsequenz, dass es keine falsch positiven Klassifikationen gibt, aber viele falsch negative. Genau umgekehrt sind die Verhältnisse im Fall k = 0, denn hier werden alle Patienten operiert.

7.3.6 Leistungsfähigkeit

Lexmed ist vorgesehen für den Einsatz in einer Praxis oder Ambulanz. Vorbedingung für die Anwendung von Lexmed sind akute Bauchschmerzen seit mehreren Stunden (aber weniger als 5 Tage). Weiter ist Lexmed (bisher) spezialisiert auf die Unterscheidung Appendizitis-keine Appendizitis, d. h. für andere Krankheiten enthält das System erst wenig Informationen.

Im Rahmen einer prospektiven Studie wurde im Krankenhaus 14 Nothelfer von Juni 1999 bis Oktober 2000 eine repräsentative Datenbank mit 185 Fällen erstellt. Sie enthält diejenigen Patienten des Krankenhauses, die nach mehreren Stunden akuter Bauchschmerzen mit Verdacht auf Appendizitis in die Klinik kamen. Von diesen Patienten wurden die Symptome und der (im Falle einer Operation histologisch gesicherte) Befund notiert.

Wurden die Patienten nach einigen Stunden oder 1–2 Tagen stationären Aufenthalts (ohne Operation) ganz oder fast beschwerdefrei nach Hause entlassen, wurde telefonisch nachgefragt, ob die Patienten beschwerdefrei geblieben waren oder bei einer nachfolgenden Behandlung ein positiver Befund bestätigt werden konnte.

Um die Darstellung der Ergebnisse zu vereinfachen und eine bessere Vergleichbarkeit mit ähnlichen Studien zu erreichen, wurde Lexmed, wie in Abschn. 7.3.5.1 beschrieben, auf die zweiwertige Unterscheidung zwischen den Befunden Appendizitis und NSAP eingeschränkt. Nun wird k variiert zwischen null und unendlich und für jeden Wert von k werden Sensitivität und Spezifität auf den Testdaten gemessen. Die Sensitivität misst

$$\displaystyle P(\text{positiv klassifiziert}\,|\,\text{positiv})=\frac{|\text{positiv und positiv klassifiziert}|}{|\text{positiv}|},$$
(7.16)

das heißt, den relativen Anteil der positiven Fälle, die korrekt erkannt werden. Sie gibt an, wie sensitiv das Diagnosesystem ist. Die Spezifität hingegen misst

$$\displaystyle P(\text{negativ klassifiziert}\,|\,\text{negativ})=\frac{|\text{negativ und negativ klassifiziert}|}{|\text{negativ}|},$$
(7.17)

das heißt, den relativen Anteil der negativen Fälle, die korrekt erkannt werden.

In Abhängigkeit von \(0\leq k<\infty\) geben wir in Abb. 7.10 die Ergebnisse der Sensitivität und Spezifität an. Diese Kurve wird als ROC-Kurve, beziehungsweise Receiver Operating Characteristic, bezeichnet. Bevor wir zur Analyse der Qualität von Lexmed kommen, ein paar Worte zur Bedeutung der ROC-Kurve. Zur Orientierung wurde in das Diagramm die Winkelhalbierende eingezeichnet. Alle Punkte auf dieser entsprechen Zufallsentscheidungen. Zum Beispiel der Punkt \((0{,}2,0{,}2)\) entspricht einer Spezifität von 0,8 bei einer Sensitivität von 0,2. Dies erreicht man ganz einfach, indem man einen neuen Fall, ohne ihn anzusehen, mit einer Wahrscheinlichkeit von 0,2 als positiv und 0,8 als negativ klassifiziert. Jedes wissensbasierte Diagnosesystem muss daher eine ROC-Kurve erzeugen, die deutlich über der Winkelhalbierenden liegt.

Abb. 7.10
figure 10

ROC-Kurve von Lexmed verglichen mit dem Ohmann-Score und zwei weiteren Modellen

Interessant sind auch die Extremwerte in der ROC-Kurve. Im Punkt \((0,0)\) schneiden sich alle drei Kurven. Das entsprechende Diagnosesystem würde alle Fälle als negativ klassifizieren. Der andere Extremwert \((1,1)\) entspricht einem System, das sich bei jedem Patienten für die Operation entscheidet und damit eine Sensitivität von 1 erreicht. Man könnte die ROC-Kurve auch als Kennlinie für zweiwertige Diagnosesysteme bezeichnen. Das ideale Diagnosesystem hätte eine Kennlinie, die letztlich nur noch aus dem Punkt \((0,1)\) besteht, also 100 % Sensitivität und 100 % Spezifität.

Nun zur Analyse der ROC-Kurve . Bei einer Sensitivität von 88 % erreicht Lexmed eine Spezifität von 87 % (\(k=0{,}6\)). Zum Vergleich ist der Ohmann-Score, ein etablierter, bekannter Score für Appendizitis eingetragen [OMYL96, ZSR + 99]. Da Lexmed fast überall über dem Ohmann-Score beziehungsweise links davon liegt, ist seine mittlere Diagnosequalität deutlich besser. Dies ist nicht überraschend, denn Scores sind einfach zu schwach, um interessante Aussagen zu modellieren. In Abschn. 8.7, beziehungsweise in Aufgabe 17 werden wir zeigen, dass die Scores äquivalent sind zum Spezialfall Naive-Bayes , das heißt zur Annahme, alle Symptome sind paarweise unabhängig, wenn die Diagnose bekannt ist. Zum Vergleich von Lexmed mit Scores sollte aber auch erwähnt werden, dass für den Ohmann-Score eine statistisch repräsentative Datenbank verwendet wurde, für Lexmed hingegen eine nicht repräsentative Datenbank, ergänzt durch Expertenwissen. Um eine Vorstellung von der Qualität der Lexmed-Daten im Vergleich zu den Ohmann-Daten zu bekommen, wurde mit der Methode der kleinsten Quadrate (siehe Abschn. 9.4.1) auf den Lexmed-Daten ein linearer Score berechnet, der zum Vergleich auch noch mit eingezeichnet ist. Außerdem wurde mit mit dem RProp-Verfahren ein neuronales Netz auf den Lexmed-Daten trainiert (siehe Abschn. 9.5). Man erkennt an der Differenz zwischen der Lexmed-Kurve und dem Score sowie RProp, wie stark die in Lexmed verwendete Methode der Kombination von Daten und Expertenwissen ist.

7.3.7 Einsatzgebiete und Erfahrungen

Lexmed kann und soll das Urteil eines erfahrenen Chirurgen nicht ersetzen. Da jedoch ein Spezialist selbst in klinischen Einrichtungen nicht immer verfügbar ist, bietet sich eine Lexmed-Anfrage als begründete Zweitmeinung an. Besonders interessannt und lohnend ist daher der Einsatz in der klinischen Ambulanz und beim niedergelassenen Arzt.

Die Lernfähigkeit von Lexmed, welche die Berücksichtigung weiterer Symptome, weiterer Patientendaten und weiterer Regeln ermöglicht, bietet aber auch neue Möglichkeiten in der Klinik: Bei besonders seltenen und diagnostisch schwierigen Gruppen, zum Beispiel Kinder unter 6 Jahren, kann Lexmed durch die Verwendung der Daten von Kinderärzten oder anderer spezieller Datenbanken auch dem erfahrenen Chirurgen eine Unterstützung liefern.

Neben dem direkten Einsatz in der Diagnostik unterstützt Lexmed auch Maßnahmen der Qualitätssicherung. Zum Beispiel könnten die Krankenkassen die Diagnosequalität von Krankenhäusern mit der von Expertensystemen vergleichen. Durch die Weiterentwicklung der in Lexmed erstellten Kostenmatrix (im Konsens mit Ärzten, Kassen und Patienten) wird die Qualität von ärztlichen Diagnosen, Computerdiagnosen und anderen medizinischen Einrichtungen besser vergleichbar.

Mit Lexmed wurde ein neuer Weg zur Konstruktion von automatischen Diagnosesystemen aufgezeigt. Mit Hilfe der Sprache der Wahrscheinlichkeitstheorie und dem MaxEnt-Verfahren wird induktiv statistisch abgeleitetes Wissen kombiniert mit Wissen von Experten und aus der Literatur. Der auf Wahrscheinlichkeitsmodellen basierende Ansatz ist theoretisch elegant, allgemein anwendbar und liefert in einer kleinen Studie sehr gute Ergebnisse.

Lexmed ist seit 1999 im praktischen Einsatz im 14-Nothelfer-Krankenhaus in Weingarten und hat sich dort sehr gut bewährt. Es steht außerdem unter http://www.lexmed.de, ohne Gewähr natürlich, im Internet für jeden Arzt zur freien Verfügung bereit. Seine Diagnosequalität ist vergleichbar mit der eines erfahrenen Chirurgen und damit besser als die eines durchschnittlichen niedergelassenen Arztes, beziehungsweise die eines unerfahrenen Arztes in der Klinik.

Trotz dieses Erfolges zeigt es sich, dass es im deutschen Gesundheitswesen sehr schwierig ist, solch ein System kommerziell zu vermarkten. Ein Grund hierfür ist der fehlende freie Markt, der durch seine Selektionsmechanismen bessere Qualität (hier bessere Diagnose) fördert. Außerdem ist wohl in der Medizin der Zeitpunkt für den breiten Einsatz intelligenter Techniken im Jahr 2007 immer noch nicht gekommen. Eine Ursache hierfür könnte eine in dieser Hinsicht konservative Lehre an manchen deutschen Medizinfakultäten sein.

Ein weiterer Aspekt ist der Wunsch vieler Patienten nach persönlicher Beratung und Betreuung durch den Arzt, verbunden mit der Angst, dass mit der Einführung von Expertensystem en der Patient nur noch mit dem Automaten kommuniziert. Diese Angst ist jedoch völlig unbegründet. Auch langfristig werden medizinische Expertensysteme den Arzt nicht ersetzen können. Sie könnten aber schon heute, genauso wie Lasermedizin und Kernspintomographie, gewinnbringend für alle Beteiligten eingesetzt werden. Seit dem ersten medizinischen Computerdiagnosesystem von de Dombal 1972 sind nun über 40 Jahre vergangen. Es bleibt abzuwarten, ob es in Deutschland noch weitere 40 Jahre dauern wird, bis die Computerdiagnose zum etablierten medizinischen Handwerkszeug gehört.

7.4 Schließen mit Bayes-Netzen

Ein Problem beim Schließen mit Wahrscheinlichkeiten in der Praxis wurde schon in Abschn. 7.1 aufgezeigt. Wenn d Variablen \(X_{1},\ldots,X_{d}\) mit je n Werten verwendet werden, so enthält die zugehörige Wahrscheinlichkeitsverteilung insgesamt n d Werte. Das heißt, dass im Worst-Case der benötigte Speicherplatz und die Rechenzeit für die Erfassung der Verteilung sowie die Rechenzeit für die Bestimmung bestimmter Wahrscheinlichkeiten exponentiell mit der Zahl der Variablen wächst.

In der Praxis sind die Anwendungen aber meist stark strukturiert und die Verteilung enthält viel Redundanz. Das heißt, sie lässt sich mit geeigneten Methoden stark reduzieren. Die Verwendung von so genannten Bayes-Netzen hat sich hier bestens bewährt und gehört heute zu den erfolgreich in der Praxis eingesetzten KI-Techniken. Bei Bayes-Netzen wird Wissen über die Unabhängigkeit von Variablen zur Vereinfachung des Modells verwendet.

7.4.1 Unabhängige Variablen

Im einfachsten Fall sind alle Variablen paarweise unabhängig und es gilt

$$\displaystyle\boldsymbol{P}(X_{1},\ldots,X_{d})=\boldsymbol{P}(X_{1})\cdot\boldsymbol{P}(X_{2})\cdot\ldots\cdot\boldsymbol{P}(X_{d}).$$

Alle Einträge der Verteilung lassen sich damit aus den d Werten \(P(X_{1}),\ldots,P(X_{d})\) berechnen. Interessante Anwendungen lassen sich aber meist nicht modellieren, denn bedingte Wahrscheinlichkeiten werden trivial.Footnote 16 Wegen

$$\displaystyle P(A\,|\,B)=\frac{P(A,B)}{P(B)}=\frac{P(A)P(B)}{P(B)}=P(A)$$

reduzieren sich alle bedingten Wahrscheinlichkeiten auf die A-priori-Wahrscheinlichkeiten. Interessanter wird die Welt, wenn nur ein Teil der Variablen unabhängig beziehungsweise unter bestimmten Bedingungen unabhängig sind. Für das Schließen in der KI sind nämlich gerade die Abhängigkeiten zwischen Variablen wichtig und müssen genutzt werden.

An einem einfachen und sehr anschaulichen Beispiel von J. Pearl [Pea88], das durch [RN03] noch bekannter wurde und mittlerweile zum KI-Grundwissen gehört, wollen wir das Schließen mit Bayes-Netzen erläutern.

Beispiel 10 (Alarm-Beispiel )

Der alleinstehende Bob hat zum Schutz vor Einbrechern in seinem Einfamilienhaus eine Alarmanlage installiert. Da Bob berufstätig ist, kann er den Alarm nicht hören, wenn er im Büro ist. Daher hat er die beiden Nachbarn John im linken Nachbarhaus und Mary im rechten Nachbarhaus gebeten, ihn im Büro anzurufen, wenn sie seinen Alarm hören. Nach einigen Jahren kennt Bob die Zuverlässigkeit von John und Mary gut und modelliert deren Anrufverhalten mittels bedingter Wahrscheinlichkeiten wie folgt.Footnote 17

$$\displaystyle\begin{aligned}\displaystyle P(\textit{J}\,|\,\textit{Al})&\displaystyle=0{,}90&\displaystyle P(\textit{M}\,|\,\textit{Al})&\displaystyle=0{,}70\\ \displaystyle P(\textit{J}\,|\,\neg\textit{Al})&\displaystyle=0{,}05&\displaystyle P(\textit{M}\,|\,\neg\textit{Al})&\displaystyle=0{,}01\end{aligned}$$

Da Mary schwerhörig ist, überhört sie den Alarm öfter als John. John dagegen verwechselt manchmal den Alarm von Bob’s Haus mit dem Alarm anderer Häuser. Der Alarm wird ausgelöst durch einen Einbruch. Aber auch ein (schwaches) Erdbeben kann den Alarm auslösen, was dann zu einem Fehlalarm führt, denn Bob will im Büro nur über Einbrüche informiert werden. Diese Zusammenhänge werden modelliert durch

$$\begin{aligned}\displaystyle P(\textit{Al}\,|\,\textit{Ein},\textit{Erd})&\displaystyle=0{,}95\\ \displaystyle P(\textit{Al}\,|\,\textit{Ein},\neg\textit{Erd})&\displaystyle=0{,}94\\ \displaystyle P(\textit{Al}\,|\,\neg\textit{Ein},\textit{Erd})&\displaystyle=0{,}29\\ \displaystyle P(\textit{Al}\,|\,\neg\textit{Ein},\neg\textit{Erd})&\displaystyle=0{,}001,\end{aligned}$$

sowie durch die A-priori-Wahrscheinlichkeiten \(P(\textit{Ein})=0{,}001\) und \(P(\textit{Erd})=0{,}002\). Diese beiden Variablen sind unabhängig, denn Erdbeben richten sich nicht nach den Gewohnheiten von Einbrechern und umgekehrt gibt es keine Vorhersagen für Erdbeben, so dass Einbrecher keine Möglichkeit haben, ihren Terminplan danach auszurichten.

An diese Wissensbasis werden nun Anfragen gestellt. Zum Beispiel könnte sich Bob für \(P(\textit{Ein}\,|\,\textit{J}\,\vee\,\textit{M})\) oder für \(P(\textit{J}\,|\,\textit{Ein})\) bzw. \(P(\textit{M}\,|\,\textit{Ein})\) interessieren. Das heißt er will wissen, wie sensitiv die Variablen J und M auf eine Einbruchmeldung reagieren.

7.4.2 Graphische Darstellung des Wissens als Bayes-Netz

Eine starke Vereinfachung der praktischen Arbeit erreicht man durch die graphische Darstellung des in Form von bedingten Wahrscheinlichkeiten formulierten Wissens. Abb. 7.11 zeigt das zum Alarm-Beispiel passende Bayes-Netz. Jeder Knoten in dem Netz repräsentiert eine Variable und jede gerichtete Kante einen Satz von bedingten Wahrscheinlichkeiten. Die Kante von Al nach J zum Beispiel repräsentiert die beiden Werte \(P(\textit{J}\,|\,\textit{Al})\) und \(P(\textit{J}\,|\,\neg\textit{Al})\), welche in Form einer Tabelle, der so genannten CPT (engl. conditional probability table) angegeben ist. Die CPT eines Knotens enthält die bedingten Wahrscheinlichkeiten der Knotenvariable gegeben alle Knoten (Variablen), die über eingehende Kanten verbunden sind.

Abb. 7.11
figure 11

Bayes-Netz für das Alarm-Beispiel mit den zugehörigen CPTs

Beim Studium des Netzes kann man sich fragen, warum außer den vier eingezeichneten Kanten keine weiteren eingetragen sind. Bei den beiden Knoten Ein und Erd ist die Unabhängigkeit der Grund für die fehlende Kante. Da alle anderen Knoten einen Vorgängerknoten besitzen, ist hier die Antwort nicht ganz so einfach. Wir benötigen zuerst den Begriff der bedingten Unabhängigkeit.

7.4.3 Bedingte Unabhängigkeit

In Analogie zur Unabhängigkeit von Zufallsvariablen definieren wir:

Definition 7.6

Zwei Variablen A und B heißen bedingt unabhängig , gegeben C, wenn

$$\displaystyle\boldsymbol{P}(A,B\,|\,C)=\boldsymbol{P}(A\,|\,C)\cdot\boldsymbol{P}(B\,|\,C).$$

Diese Gleichung gilt für alle Kombinationen der Werte für alle drei Variablen (das heißt für die Verteilung), wie man an der Schreibweise erkennt. Betrachten wir nun im Alarm-Beispiel die Knoten J und M, welche den gemeinsamen Vorgängerknoten Al besitzen. Wenn John und Mary unabhängig von einander auf einen Alarm reagieren, dann sind die beiden Variablen J und M unabhängig, gegeben Al, das heißt, es gilt

$$\displaystyle\boldsymbol{P}(\textit{J},\textit{M}\,|\,\textit{Al})=\boldsymbol{P}(\textit{J}\,|\,\textit{Al})\cdot\boldsymbol{P}(\textit{M}\,|\,\textit{Al}).$$

Ist der Wert von Al bekannt, zum Beispiel weil ein Alarm ausgelöst wurde, so sind die Variablen J und M unabhängig (unter der Bedingung \(\textit{Al}=w\)). Wegen der bedingten Unabhängigkeit der beiden Variablen J und M wird im Netz zwischen diesen beiden keine Kante eingetragen. J und M sind aber nicht unabhängig (siehe Aufgabe 11).

Ähnlich liegen die Verhältnisse für die beiden Variablen J und Ein, denn John reagiert nicht auf einen Einbruch sondern nur auf den Alarm. Dies ist zum Beispiel dann gegeben, wenn John wegen einer hohen Mauer Bob’s Grundstück nicht einsehen, den Alarm aber hören kann. Also sind J und Ein unabhängig, gegeben Al und es gilt

$$\displaystyle\boldsymbol{P}(\textit{J},\textit{Ein}\,|\,\textit{Al})=\boldsymbol{P}(\textit{J}\,|\,\textit{Al})\cdot\boldsymbol{P}(\textit{Ein}\,|\,\textit{Al}).$$

Gegeben Alarm sind außerdem noch unabhängig die Variablen J und Erd, M und Ein, sowie M und Erd. Für das Rechnen mit bedingten Unabhängigkeiten sind die folgenden, zu obiger Definition äquivalenten Charakterisierungen hilfreich:

Satz 5

Folgende Gleichungen sind paarweise äquivalent, das heißt jede einzelne dieser Gleichungen beschreibt die bedingte Unabhängigkeit der Variablen A und B gegeben C:

$$\boldsymbol{P}(A,B\,|\,C) =\boldsymbol{P}(A\,|\,C)\cdot\boldsymbol{P}(B\,|\,C)$$
(7.18)
$$\boldsymbol{P}(A\,|\,B,C) =\boldsymbol{P}(A\,|\,C)$$
(7.19)
$$\boldsymbol{P}(B\,|\,A,C) =\boldsymbol{P}(B\,|\,C)$$
(7.20)

Beweis

Einerseits können wir unter Verwendung der bedingten Unabhängigkeit (7.18) folgern, dass

$$\displaystyle\boldsymbol{P}(A,B,C)=\boldsymbol{P}(A,B\,|\,C)\boldsymbol{P}(C)=\boldsymbol{P}(A\,|\,C)\boldsymbol{P}(B\,|\,C)\boldsymbol{P}(C)$$

gilt. Andererseits liefert die Produktregel

$$\displaystyle\boldsymbol{P}(A,B,C)=\boldsymbol{P}(A\,|\,B,C)\boldsymbol{P}(B\,|\,C)\boldsymbol{P}(C).$$

Also ist \(\boldsymbol{P}(A\,|\,B,C)=\boldsymbol{P}(A\,|\,C)\) äquivalent zu (7.18). Gleichung (7.20) erhält man analog durch Vertauschung von A und B in dieser Herleitung.

7.4.4 Praktische Anwendung

Nun wenden wir uns wieder dem Alarm-Beispiel zu und zeigen, wie das Bayes-Netz in Abb. 7.11 zum Schließen verwendet werden kann. Bob interessiert sich zum Beispiel für die Sensitivität seiner beiden Alarmmelder John und Mary, das heißt für \(P(\textit{J}\,|\,\textit{Ein})\) und \(P(\textit{M}\,|\,\textit{Ein})\). Noch wichtiger aber sind für ihn die Werte \(P(\textit{Ein}\,|\,\textit{J})\) und \(P(\textit{Ein}\,|\,\textit{M})\) sowie \(P(\textit{Ein}\,|\,\textit{J},\textit{M})\). Wir starten mit \(P(\textit{J}\,|\,\textit{Ein})\) und berechnen

$$\displaystyle P(\textit{J}\,|\,\textit{Ein})=\frac{P(\textit{J},\textit{Ein})}{P(\textit{Ein})}=\frac{P(\textit{J},\textit{Ein},\textit{Al})+P(\textit{J},\textit{Ein},\neg\textit{Al})}{P(\textit{Ein})}$$
(7.21)

und

$$\displaystyle\boldsymbol{P}(\textit{J},\textit{Ein},\textit{Al})=\boldsymbol{P}(\textit{J}|\textit{Ein},\textit{Al})\boldsymbol{P}(\textit{Al}|\textit{Ein})\boldsymbol{P}(\textit{Ein})=\boldsymbol{P}(\textit{J}|\textit{Al})\boldsymbol{P}(\textit{Al}|\textit{Ein})\boldsymbol{P}(\textit{Ein}),$$
(7.22)

wobei wir für die beiden letzten Gleichungen die Produktregel und die bedingte Unabhängigkeit von J und Ein, gegeben Al, verwendet haben. Eingesetzt in (7.21) erhalten wir

$$P(\textit{J}\,|\,\textit{Ein}) =\frac{P(\textit{J}\,|\,\textit{Al})P(\textit{Al}\,|\,\textit{Ein})P(\textit{Ein})+P(\textit{J}\,|\,\neg\textit{Al})P(\neg\textit{Al}\,|\,\textit{Ein})P(\textit{Ein})}{P(\textit{Ein})}$$
$$ =P(\textit{J}\,|\,\textit{Al})P(\textit{Al}\,|\,\textit{Ein})+P(\textit{J}\,|\,\neg\textit{Al})P(\neg\textit{Al}\,|\,\textit{Ein}).$$
(7.23)

Hier fehlen \(P(\textit{Al}\,|\,\textit{Ein})\) und \(P(\neg\textit{Al}\,|\,\textit{Ein})\). Wir berechnen also

$$\begin{aligned}\displaystyle P(\textit{Al}\,|\,\textit{Ein})&\displaystyle=\frac{P(\textit{Al},\textit{Ein})}{P(\textit{Ein})}=\frac{P(\textit{Al},\textit{Ein},\textit{Erd})+P(\textit{Al},\textit{Ein},\neg\textit{Erd})}{P(\textit{Ein})}\\ \displaystyle&\displaystyle=\frac{P(\textit{Al}\,|\,\textit{Ein},\textit{Erd})P(\textit{Ein})P(\textit{Erd})+P(\textit{Al}|\textit{Ein},\neg\textit{Erd})P(\textit{Ein})P(\neg\textit{Erd})}{P(\textit{Ein})}\\ \displaystyle&\displaystyle=P(\textit{Al}\,|\,\textit{Ein},\textit{Erd})P(\textit{Erd})+P(\textit{Al}\,|\,\textit{Ein},\neg\textit{Erd})P(\neg\textit{Erd})\\ \displaystyle&\displaystyle=0{,}95\cdot 0{,}002+0{,}94\cdot 0{,}998=0{,}94\end{aligned}$$

sowie \(P(\neg\textit{Al}\,|\,\textit{Ein})=0{,}06\) und setzen in (7.23 ) ein, was zum Ergebnis

$$\displaystyle P(\textit{J}\,|\,\textit{Ein})=0{,}9\cdot 0{,}94+0{,}05\cdot 0{,}06=0{,}849$$

führt. Analog berechnet man \(P(\textit{M}|\textit{Ein})=0{,}659\). Wir wissen nun also, dass John bei etwa 85 % aller Einbrüche anruft und Mary bei etwa 66 % aller Einbrüche. Die Wahrscheinlichkeit, dass beide anrufen, ergibt sich aufgrund der bedingten Unabhängigkeit zu

$$\begin{aligned}\displaystyle P(\textit{J},\textit{M}\,|\,\textit{Ein})&\displaystyle=P(\textit{J},\textit{M}\,|\,\textit{Al})P(\textit{Al}\,|\,\textit{Ein})+P(\textit{J},\textit{M}\,|\,\neg\textit{Al})P(\neg\textit{Al}\,|\,\textit{Ein}))\\ \displaystyle&\displaystyle=P(\textit{J}\,|\,\textit{Al})P(\textit{M}\,|\,\textit{Al})P(\textit{Al}\,|\,\textit{Ein})+P(\textit{J}\,|\,\neg\textit{Al})P(\textit{M}\,|\,\neg\textit{Al})P(\neg\textit{Al}\,|\,\textit{Ein})\\ \displaystyle&\displaystyle=0{,}9\cdot 0{,}7\cdot 0{,}94+0{,}05\cdot 0{,}01\cdot 0{,}06=0{,}5922.\end{aligned}$$

Interessanter ist aber die Wahrscheinlichkeit für einen Anruf von John oder Mary

$$\begin{aligned}\displaystyle P(\textit{J}\,\vee\,\textit{M}\,|\,\textit{Ein})&\displaystyle=P(\neg(\neg\textit{J},\neg\textit{M})\,|\,\textit{Ein})=1-P(\neg\textit{J},\neg\textit{M}\,|\,\textit{Ein})\\ \displaystyle&\displaystyle=1-[P(\neg\textit{J}\,|\,\textit{Al})P(\neg\textit{M}\,|\,\textit{Al})P(\textit{Al}\,|\,\textit{Ein})\\ \displaystyle&\displaystyle\hphantom{{}=1-[{}}+P(\neg\textit{J}\,|\,\neg\textit{Al})P(\neg\textit{M}\,|\,\neg\textit{Al})P(\neg\textit{Al}\,|\,\textit{Ein})]\\ \displaystyle&\displaystyle=1-[0{,}1\cdot 0{,}3\cdot 0{,}94+0{,}95\cdot 0{,}99\cdot 0{,}06]=1-0{,}085=0{,}915.\end{aligned}$$

Bob bekommt also etwa 92 % aller Einbrüche gemeldet. Um nun \(P(\textit{Ein}\,|\,\textit{J})\) zu berechnen, wenden wir die Bayes-Formel an, die uns

$$\displaystyle P(\textit{Ein}\,|\,\textit{J})=\frac{P(\textit{J}\,|\,\textit{Ein})P(\textit{Ein})}{P(\textit{J})}=\frac{0{,}849\cdot 0{,}001}{0{,}052}=0{,}016$$

liefert. Offenbar haben nur etwa 1,6 % aller Anrufe von John einen Einbruch als Ursache. Da die Wahrscheinlichkeit für Fehlalarme bei Mary fünfmal geringer ist als bei John, erhalten wir mit \(P(\textit{Ein}\,|\,\textit{M})=0{,}056\) eine wesentlich höhere Sicherheit bei einem Anruf von Mary. Wirkliche Sorgen um sein Eigenheim sollte sich Bob aber erst dann machen, wenn beide anrufen, denn \(P(\textit{Ein}\,|\,\textit{J},\textit{M})=0{,}284\) (siehe Aufgabe 11).

In (7.23 ) haben wir mit

$$\displaystyle P(\textit{J}\,|\,\textit{Ein})=P(\textit{J}\,|\,\textit{Al})P(\textit{Al}\,|\,\textit{Ein})+P(\textit{J}\,|\,\neg\textit{Al})P(\neg\textit{Al}\,|\,\textit{Ein})$$

gezeigt, wie man eine neue Variable „einschieben“ kann. Dieser Zusammenhang gilt allgemein für zwei Variablen A und B bei Einführung einer weiteren Variablen C und wird Konditionierung genannt:

$$\displaystyle P(A\,|\,B)=\sum_{c}P(A\,|\,B,C=c)P(C=c\,|\,B).$$

Wenn nun außerdem noch A und B bedingt unabhängig gegeben C sind, so vereinfacht sich die Formel zu

$$\displaystyle P(A\,|\,B)=\sum_{c}P(A\,|\,C=c)P(C=c\,|\,B).$$

7.4.5 Software für Bayes-Netze

Anhand des Alarm-Beispiels stellen wir zwei Werkzeuge kurz vor. Das System PIT ist schon bekannt. Wir geben unter http://www.pit-systems.de die Werte aus den CPT s in PIT-Syntax in das Online-Eingabefenster ein und starten PIT. Nach der in Abb. 7.12 dargestellten Eingabe erhalten wir als Antwort:

Abb. 7.12
figure 12

PIT-Eingabe für das Alarm-Beispiel

P([Einbruch=t] | [John=t] AND [Mary=t]) = 0.2841.

Obwohl PIT kein klassisches Bayes-Netz-Werkzeug ist, können beliebige bedingte Wahrscheinlichkeiten und Anfragen eingegeben werden und PIT berechnet richtige Ergebnisse. Man kann nämlich zeigen [Sch96], dass bei der Angabe der CPTs oder äquivalenter Regeln aus dem MaxEnt -Prinzip die gleichen bedingten Unabhängigkeiten wie bei einem Bayes-Netz folgen und somit auch die gleichen Antworten berechnet werden.

Als nächstes betrachten wir JavaBayes , ein klassisches, auch im Internet verfügbares System mit der in Abb. 7.13 dargestellten graphischen Oberfläche. Mit dem graphischen Netzwerkeditor können Knoten und Kanten bearbeitet und auch die Werte in den CPTs editiert werden. Außerdem können mit „Observe“ die Werte von Variablen festgelegt und mit „Query“ die Werte von anderen Variablen abgefragt werden. Die Antworten auf Anfragen erscheinen dann im Konsolenfenster. JavaBayes ist frei verfügbar, auch als JavaApplet [Coz98].

Abb. 7.13
figure 13

Die Benutzeroberfläche von JavaBayes: Links der graphische Editor und rechts die Konsole, auf der die Antworten ausgegeben werden

Wesentlich mächtiger und komfortabler ist das professionell vertriebene System Hugin . Zum Beispiel kann Hugin neben diskreten auch stetige Variablen verwenden. Es kann auch Bayes-Netze lernen, das heißt das Netz vollautomatisch aus statistischen Daten generieren (siehe Abschn. 8.6).

7.4.6 Entwicklung von Bayes-Netzen

Ein kompaktes Bayes-Netz ist sehr übersichtlich und für den Betrachter wesentlich informativer als eine vollständige Wahrscheinlichkeitsverteilung. Außerdem benötigt es viel weniger Speicherplatz. Bei den Variablen \(v_{1},\ldots,v_{n}\) mit jeweils \(|v_{1}|,\ldots,|v_{n}|\) verschiedenen Werten hat die Verteilung insgesamt

$$\displaystyle\prod_{i=1}^{n}|v_{i}|-1$$

unabhängige Einträge. Im Alarm-Beispiel sind die Variablen alle binär, also ist für alle Variablen \(|v_{i}|=2\). Die Verteilung hat also \(2^{5}-1=31\) unabhängige Einträge. Um für das Bayes-Netz die Zahl der unabhängigen Einträge zu berechnen, muss die Gesamtzahl aller Einträge aller CPTs bestimmt werden. Für einen Knoten v i mit den k i Elternknoten \(e_{i1},\ldots,e_{ik_{i}}\) besitzt die zugehörige CPT

$$\displaystyle(|v_{i}|-1)\prod_{j=1}^{k_{i}}|e_{ij}|$$

Einträge. Alle CPTs des Netzes zusammen haben dann

$$\displaystyle\sum_{i=1}^{n}(|v_{i}|-1)\prod_{j=1}^{k_{i}}|e_{ij}|$$
(7.24)

Einträge.Footnote 18 Für das Alarm-Beispiel ergeben sich damit

$$\displaystyle 2+2+4+1+1=10$$

unabhängige Einträge, welche das Netz eindeutig beschreiben. Der Vergleich der Speicherkomplexität zwischen der vollständigen Verteilung und dem Bayes-Netz wird anschaulicher, wenn man annimmt, alle n Variablen haben die gleiche Zahl b an Werten und jeder Knoten hat k Elternknoten. Dann vereinfacht sich (7.24) und alle CPTs zusammen besitzen \(n(b-1)b^{k}\) Einträge. Die vollständige Verteilung enthält \(b^{n}-1\) Einträge. Einen deutlichen Gewinn erzielt man also dann, wenn die mittlere Zahl der Elternknoten viel kleiner als die Zahl der Variablen ist. Das bedeutet, dass die Knoten nur lokal vernetzt sind. Durch die lokale Vernetzung wird auch eine Modularisierung des Netzes erreicht, die – ähnlich wie bei der Softwareentwicklung – mit einer Komplexitätsreduktion einhergeht. Im Alarm-Beispiel etwa trennt der Alarm-Knoten die Knoten Ein und Erd von den Knoten J und M. Ganz schön erkennt man dies auch am Beispiel von Lexmed.

7.4.6.1 Lexmed als Bayes-Netz

Das in Abschn. 7.3 beschriebene System Lexmed kann auch als Bayes-Netz modelliert werden. Der Unabhängigkeitsgraph in Abb. 7.8 lässt sich durch Ausrichtung der äußeren, schwach eingezeichneten Kanten als Bayes-Netz interpretieren. In Abb. 7.14 ist das resultierende Netz dargestellt.

Abb. 7.14
figure 14

Bayes-Netz für die Lexmed-Anwendung

In Abschn. 7.3.2 wurde als Mächtigkeit der Verteilung für Lexmed der Wert 20.643.839 berechnet. Das Bayes-Netz lässt sich hingegen mit nur 521 Werten vollständig beschreiben. Dieser Wert ergibt sich, wenn man die Variablen aus Abb. 7.14 von links oben im Gegenuhrzeigersinn in (7.24) einträgt. In der Reihenfolge (Leuko, TRek, Abw, Alt, Losl, Sono, Ersch, Darmg, Sex, S4Q, S1Q, S2Q, RektS, PathU, S3Q, Bef4) berechnet man

$$\begin{aligned}\displaystyle\smash[b]{\sum_{i=1}^{n}(|v_{i}|-1)\prod_{j=1}^{k_{i}}|e_{ij}|}=&\displaystyle 6\cdot 6\cdot 4+5\cdot 4+2\cdot 4+9\cdot 7\cdot 4+1\cdot 3\cdot 4\\ \displaystyle&\displaystyle+1\cdot 4+1\cdot 2\cdot 4+3\cdot 3\cdot 4+1\cdot 4+1\cdot 4\cdot 2\\ \displaystyle&\displaystyle+1\cdot 4\cdot 2+1\cdot 4+1\cdot 4+1\cdot 4+1\cdot 4+1=521.\end{aligned}$$

An diesem Beispiel erkennt man sehr schön, dass es für reale Anwendungen praktisch unmöglich ist, eine vollständige Verteilung aufzubauen. Ein Bayes-Netz mit 22 Kanten und 521 Wahrscheinlichkeitswerten hingegen ist noch handlich.

7.4.6.2 Kausalität und Netzstruktur

Beim Aufbau eines Bayes-Netzes wird normalerweise zweistufig vorgegangen.

1. Entwurf der Netzwerkstruktur

Dieser Schritt erfolgt meist manuell und wird im Folgenden beschrieben.

2. Eintragen der Wahrscheinlichkeiten in die CPTs

Manuelles Ermitteln der Werte wird im Fall von vielen Variablen sehr mühsam. Falls (wie zum Beispiel bei Lexmed) eine Datenbank verfügbar ist, kann dieser Schritt automatisiert werden, indem man durch Zählen von Häufigkeiten die CPT-Einträge schätzt.

An dem Alarm-Beispiel beschreiben wir nun den Aufbau des Netzes (siehe Abb. 7.15). Zu Beginn stehen die beiden Ursachen Einbruch und Erdbeben und die beiden Symptome John und Mary fest. Da John und Mary aber nicht direkt auf Einbruch oder Erdbeben reagieren, sondern nur auf den Alarm, bietet es sich an, diesen als weitere, für Bob nicht beobachtbare, Variable hinzuzunehmen. Zur Bestimmung der erforderlichen Kanten im Netz starten wir nun mit den Ursachen, das heißt, mit den Variablen, die keine Elternknoten besitzen. Zuerst wählen wir Einbruch und als nächstes Erdbeben. Nun muss geprüft werden, ob Erdbeben von Einbruch unabhängig ist. Dies ist gegeben, also wird keine Kante von Einbruch nach Erdbeben eingetragen. Weil Alarm direkt von Einbruch und Erdbeben abhängt, wird diese Variable als nächste gewählt und je eine Kante von Einbruch und Erdbeben nach Alarm eingetragen. Nun wählen wir John. Da Alarm und John nicht unabhängig sind, wird eine Kante von Alarm nach John eingetragen. Gleiches gilt für Mary. Nun muss noch geprüft werden, ob John bedingt unabhängig ist von Einbruch gegeben Alarm. Ist dies nicht der Fall, so muss noch eine Kante von Einbruch zu John eingefügt werden. Genauso muss noch geprüft werden, ob Kanten von Erdbeben zu John und von Einbruch oder Erdbeben zu Mary benötigt werden. Aufgrund der bedingten Unabhängigkeiten sind diese vier Kanten nicht nötig. Auch wird keine Kante zwischen John und Mary benötigt, denn John und Mary sind bedingt unabhängig gegeben Alarm.

Abb. 7.15
figure 15

Schrittweiser Aufbau des Alarm-Netzes unter Beachtung der Kausalität

Die Struktur des Bayes-Netzes hängt stark von der gewählten Variablenreihenfolge ab. Wird die Reihenfolge der Variablen im Sinne der Kausalität, angefangen von den Ursachen, hin zu den Diagnosevariablen, gewählt, dann erhält man ein einfaches Netz. Andernfalls kann das Netz wesentlich mehr Kanten enthalten. Solche nicht kausalen Netze sind oft sehr schwer verständlich und die Komplexität des Schließens wird erhöht. Der Leser möge dies anhand von Aufgabe 11 nachvollziehen.

7.4.7 Semantik von Bayes-Netzen

Wie wir im vorhergehenden Abschnitt gesehen haben, wird in einem Bayes-Netz zwischen zwei Variablen A und B keine Kante eingetragen, wenn diese unabhängig sind oder bedingt unabhängig, gegeben eine dritte Variable C. Diese Situation ist dargestellt in Abb. 7.16.

Abb. 7.16
figure 16

Zwischen zwei Knoten A und B wird keine Kante eingetragen, wenn sie unabhängig (links) oder bedingt unabhängig sind (Mitte, rechts)

Wir fordern nun, dass das Bayes-Netz keine Zyklen hat, und nehmen an, die Variablen sind so nummeriert, dass keine Variable einen Nachfolger mit kleinerer Nummer hat. Wenn das Netz keine Zyklen hat, ist dies immer möglich.Footnote 19 Unter Verwendung aller bedingten Unabhängigkeiten gilt dann

$$\displaystyle\boldsymbol{P}(X_{n}\,|\,X_{1},\ldots,X_{n-1})=\boldsymbol{P}(X_{n}\,|\,\text{Eltern}(X_{n})).$$

Die Aussage dieser Gleichung ist also die, dass eine beliebige Variable X i in einem Bayes-Netz bedingt unabhängig von ihren Vorfahren, gegeben ihre Eltern, ist. Es gilt sogar die in Abb. 7.17 dargestellte, etwas allgemeinere Aussage

Abb. 7.17
figure 17

Beispiel für die bedingte Unabhängigkeit in einem Bayes-Netz. Sind die Elternknoten E 1 und E 2 gegeben, so sind alle Nichtnachfolger \(B_{1},\ldots B_{8}\) unabhängig von A

Satz 6

Ein Knoten in einem Bayes-Netz ist bedingt unabhängig von allen Nicht-Nachfolgern, gegeben seine Eltern.

Nun sind wir in der Lage, die Kettenregel (7.1) stark zu vereinfachen:

$$\displaystyle\boldsymbol{P}(X_{1},\ldots,X_{n})=\prod_{i=1}^{n}\boldsymbol{P}(X_{i}\,|\,X_{1}\ldots,X_{i-1})=\prod_{i=1}^{n}\boldsymbol{P}(X_{i}\,|\,\text{Eltern}(X_{i})).$$

Mit Hilfe dieser Regel hätten wir zum Beispiel (7.22)

$$\displaystyle\boldsymbol{P}(\textit{J},\textit{Ein},\textit{Al})=\boldsymbol{P}(\textit{J}\,|\,\textit{Al})\boldsymbol{P}(\textit{Al}\,|\,\textit{Ein})\boldsymbol{P}(\textit{Ein})$$

direkt hinschreiben können.

Die wichtigsten Begriffe und Grundlagen von Bayes-Netzen sind nun bekannt und wir können diese zusammenfassen [Jen01]:

Definition 7.7

Ein Bayes-Netz ist definiert durch:

  • Eine Menge von Variablen und einer Menge von gerichteten Kanten zwischen diesen Variablen.

  • Jede Variable hat endlich viele mögliche Werte.

  • Die Variablen zusammen mit den Kanten stellen einen gerichteten azyklischen Graphen (engl. directed acyclic graph, DAG ) dar. Ein DAG ist ein gerichteter Graph ohne Zyklen, das heißt ohne Pfade der Form \((A,\ldots,A)\).

  • Zu jeder Variablen A ist die CPT, das heißt die Tabelle der bedingten Wahrscheinlichkeiten \(\boldsymbol{P}(A\,|\,\text{Eltern}(A))\), angegeben.

Zwei Variablen A und B heißen bedingt unabhängig gegeben C, wenn \(\boldsymbol{P}(A,B\,|\,C)=\boldsymbol{P}(A|C)\cdot\boldsymbol{P}(B\,|\,C)\), bzw. wenn \(\boldsymbol{P}(A\,|\,B,C)=\boldsymbol{P}(A\,|\,C)\).

Neben den grundlegenden Rechenregeln für Wahrscheinlichkeiten gelten folgende Regeln:

Bayes-Formel:

$$\displaystyle P(A\,|\,B)=\frac{P(B\,|\,A)\cdot P(A)}{P(B)}.$$

Marginalisierung:

$$\displaystyle P(B)=P(A,B)+P(\neg A,B)=P(B\,|\,A)\cdot P(A)+P(B\,|\,\neg A)\cdot P(\neg A).$$

Konditionierung:

$$\displaystyle P(A\,|\,B)=\sum_{c}P(A\,|\,B,C=c)P(C=c\,|\,B).$$

Eine Variable in einem Bayes-Netz ist bedingt unabhängig von allen Nicht-Nachfolge-Variablen, gegeben ihre Eltern-Variablen. Wenn \(X_{1},\ldots,X_{n-1}\) keine Nachfolger von X n sind, gilt \(\boldsymbol{P}(X_{n}\,|\,X_{1},\ldots,X_{n-1})=\boldsymbol{P}(X_{n}\,|\,\text{Eltern}(X_{n}))\). Diese Bedingung muss beim Aufbau eines Netzes beachtet werden.

Beim Aufbau eines Bayes-Netzes sollten die Variablen in Sinne der Kausalität angeordnet werden. Zuerst die Ursachen, dann die verdeckten Variablen und zuletzt die Diagnosevariablen.

Kettenregel:

$$\displaystyle\boldsymbol{P}(X_{1},\ldots,X_{n})=\prod_{i=1}^{n}\boldsymbol{P}(X_{i}\,|\,\text{Eltern}(X_{i})).$$

In [Pea88] und [Jen01] wird der Begriff der d-Separation für Bayes-Netze eingeführt, woraus dann ein zu Satz 6 analoger Satz folgt. Wir verzichten auf die Einführung dieses Begriffes und erreichen dadurch eine etwas einfachere, aber theoretisch nicht ganz so saubere Darstellung.

7.5 Zusammenfassung

Entsprechend dem schon lange anhaltenden Trend hin zu probabilistischen Systemen in der KI haben wir die Wahrscheinlichkeitslogik zum Schließen mit unsicherem Wissen eingeführt. Nach der Einführung der Sprache – Aussagenlogik erweitert um Wahrscheinlichkeiten beziehungsweise Wahrscheinlichkeitsintervalle – wählten wir als Einstieg den ganz natürlichen, wenn auch noch nicht üblichen Zugang über die Methode der maximalen Entropie und zeigten dann unter anderem, wie man mit dieser Methode auch das nichtmonotone Schließen modellieren kann. Die Bayes-Netze wurden danach, sozusagen als ein Spezialfall der MaxEnt-Methode, eingeführt.

Warum sind die Bayes-Netze ein Spezialfall von MaxEnt ? Beim Aufbau eines Bayes-Netzes werden Unabhängigkeitsannahmen gemacht, die für die MaxEnt-Methode nicht notwendig sind. Außerdem müssen beim Aufbau eines Bayes-Netzes alle CPTs ganz gefüllt werden, damit eine vollständige Wahrscheinlichkeitsverteilung aufgebaut wird. Sonst ist das Schließen nicht oder nur eingeschränkt möglich. Bei MaxEnt hingegen kann der Entwickler alles Wissen, das er zur Verfügung hat, in Form von Wahrscheinlichkeiten formulieren. MaxEnt vervollständigt dann das Modell und erzeugt die Verteilung. Sogar wenn, zum Beispiel bei der Befragung eines Experten, nur sehr vage Aussagen verfügbar sind, können diese mit MaxEnt angemessen modelliert werden. Eine Aussage etwa wie „Ich bin mir ziemlich sicher, dass A gilt.“ kann dann zum Beispiel mittels \(P(A)\in[0{,}6,1]\) als Wahrscheinlichkeitsintervall modelliert werden. Beim Aufbau eines Bayes-Netzes muss ein fester Wert für die Wahrscheinlichkeit angegeben werden, unter Umständen sogar durch Raten. Das heißt aber, der Experte oder der Entwickler stecken ad hoc Information in das System. Ein weiterer Vorteil von MaxEnt ist die Möglichkeit, (fast) beliebige Aussagen zu formulieren. Beim Bayes-Netz müssen die CPTs gefüllt werden.

Die Freiheit, die der Entwickler bei der Modellierung mit MaxEnt hat, kann, insbesondere für den Anfänger, auch ein Nachteil sein, denn im Gegensatz zur Bayesschen Vorgehensweise fehlen klare Vorgaben, welches Wissen modelliert werden soll. Bei der Entwicklung eines Bayes-Netzes ist die Vorgehensweise ganz klar: Im Sinne der kausalen Abhängigkeiten, von den Ursachen hin zu den Wirkungen, wird mittels Prüfung bedingter UnabhängigkeitenFootnote 20 eine Kante nach der anderen in das Netz eingetragen. Am Ende werden dann alle CPT s mit Werten gefüllt.

Hier bietet sich aber folgende interessante Kombination der beiden Methoden an: Man beginnt im Sinne der Bayesschen Methodik, ein Netz aufzubauen, trägt entsprechend alle Kanten ein und füllt dann die CPTs mit Werten. Sollten bestimmte Werte für die CPTs nicht verfügbar sein, so können sie durch Intervalle ersetzt werden oder durch andere Formeln der Wahrscheinlichkeitslogik. Natürlich hat solch ein Netz – besser: eine Regelmenge – nicht mehr die spezielle Semantik eines Bayes-Netzes. Es muss dann von einem MaxEnt-System vervollständigt und abgearbeitet werden.

Die Möglichkeit, bei Verwendung von MaxEnt beliebige Regelmengen vorzugeben, hat aber auch eine Kehrseite. Ähnlich wie in der Logik können solche Regelmengen inkonsistent sein. Zum Beispiel sind die beiden Regeln \(P(A)=0{,}7\) und \(P(A)=0{,}8\) inkonsistent. Das MaxEnt-System PIT zum Beispiel erkennt zwar die Inkonsistenz, kann aber keine Hinweise zur Beseitigung machen.

Als eine klassische Anwendung für das Schließen mit unsicherem Wissen haben wir das medizinische Expertensystem Lexmed vorgestellt und gezeigt, wie dieses mittels MaxEnt und Bayes-Netzen modelliert und implementiert werden kann und wie man mit diesen Werkzeugen die in der Medizin etablierten, aber zu schwachen linearen Score-Systeme ablösen kann.Footnote 21

Am Beispiel von Lexmed haben wir gezeigt, dass es möglich ist, ein Expertensystem zum Schließen mit Unsicherheit zu bauen, das basierend auf den Daten einer Datenbank Wissen lernen kann. Einen Einblick in die Methoden des Lernens von Bayes-Netzen werden wir in Kap. 8 geben, nachdem die dazu benötigten Grundlagen des maschinellen Lernens bereit stehen.

Das Bayessche Schließen ist heute ein eigenständiges großes Gebiet, das wir hier nur kurz anreißen konnten. Ganz weggelassen haben wir den Umgang mit stetigen Variablen. Für den Fall von normalverteilten Zufallsvariablen gibt es hier Verfahren und Systeme. Bei beliebigen Verteilungen ist hingegen die Berechnungskomplexität ein großes Problem. Auch gibt es neben den stark auf der Kausalität basierenden gerichteten Netzen ungerichtete Netze. Damit verbunden ist eine Diskussion über den Sinn von Kausalität in Bayes-Netzen. Der interessierte Leser wird verwiesen auf die ausgezeichneten Lehrbücher, unter anderem [DHS01, Jen01, Pea88, Whi96] sowie auf die Konferenzbände der jählichen Konferenz der Association for Uncertainty in Artificial Intelligence (AUAI) (http://www.auai.org).

7.6 Übungen

Aufgabe 1

Beweisen Sie die Aussagen von Satz 1.

Aufgabe 2

Der Hobbygärtner Max will seine Jahresernte von Erbsen statistisch analysieren. Er misst für jede gepflückte Erbsenschote Länge x i in cm und Gewicht y i in Gramm. Er teilt die Erbsen in 2 Klassen, die guten und die tauben (leere Schoten). Die Messdaten \((x_{i},y_{i})\) sind:

$$\displaystyle\text{gute Erbsen: }\begin{array}[t]{l|l|l|l|l|l|l|l|l|l}x&1&2&2&3&3&4&4&5&6\\ \hline y&2&3&4&4&5&5&6&6&6\\ \end{array}\quad\text{taube Erbsen: }\begin{array}[t]{l|l|l|l|l}x&4&6&6&7\\ \hline y&2&2&3&3\\ \end{array}$$
  1. 1.

    Berechnen Sie aus den Daten die Wahrscheinlichkeiten \(P(y> 3\,|\,\textit{Klasse}=\textit{gut})\) und \(P(y\leq 3\,|\,\textit{Klasse}=\textit{gut})\). Verwenden sie dann die Bayes-Formel zur Bestimmung von \(P(\textit{Klasse}=\textit{gut}\,|\,y> 3)\) und \(P(\textit{Klasse}=\textit{gut}\,|\,y\leq 3).\)

  2. 2.

    Welche der in Teilaufgabe a berechneten Wahrscheinlichkeiten widerlegt die Aussage: „Alle guten Erbsen sind schwerer als 3 Gramm.“

Aufgabe 3

Anhand von zwei einfachen Wetterwerten vom Morgen eines Tages soll das Wetter am Nachmittag vorhergesagt werden. Die klassische Wahrscheinlichkeitsrechnung benötigt dazu ein vollständiges Modell, wie es in folgender Tabelle angegeben ist.

  1. 1.

    Wieviele Ereignisse hat die Verteilung für diese drei Variablen?

  2. 2.

    Berechnen Sie \(P(\textit{Nied}=\text{trocken}\,|\,\textit{Him}=\text{klar},\textit{Bar}=\text{steigt})\).

  3. 3.

    Berechnen Sie \(P(\textit{Nied}=\text{regen}\,|\,\textit{Him}=\text{bew{\"o}lkt})\).

  4. 4.

    Was würden Sie tun, wenn in der Tabelle die letzte Zeile fehlen würde?

Table 11

Aufgabe 4 ❄

In einer Quizshow im Fernsehen muss der Kandidat eine von drei geschlossenen Türen auswählen. Hinter einer Tür wartet der Preis, ein Auto, hinter den beiden anderen stehen Ziegen. Der Kandidat wählt eine Tür, z. B. Nummer eins. Der Moderator, der weiß, wo das Auto steht, öffnet eine andere Tür, z. B. Nummer drei und es erscheint eine Ziege. Der Kandidat erhält nun nochmal die Möglichkeit, zwischen den beiden verbleibenden Türen (eins und zwei) zu wählen. Was ist aus seiner Sicht die bessere Wahl? Bei der gewählten Tür zu bleiben oder auf die andere noch geschlossene Tür zu wechseln?

Aufgabe 5

Zeigen Sie mit Hilfe der Methode der Lagrangemultiplikatoren, dass ohne explizite Nebenbedingungen die Gleichverteilung \(p_{1}=p_{2}=\ldots=p_{n}=1/n\) das Entropiemaximum darstellt. Vergessen Sie nicht die implizit immer vorhandene Nebenbedingung \(p_{1}+p_{2}+\ldots+p_{n}=1\). Wie kann man dieses Resultat auch mittels Indifferenz zeigen?

Aufgabe 6

Verwenden Sie das System PIT (http://www.pit-systems.de) oder SPIRIT (http://www.xspirit.de), um die MaxEnt-Lösung für \(P(B)\) unter den Randbedingungen \(P(A)=\alpha\) und \(P(B\,|\,A)=\beta\) zu berechnen. Welchen Nachteil von PIT gegenüber dem Rechnen von Hand erkennen Sie hier?

Aufgabe 7

Gegeben seien die Randbedingungen \(P(A)=\alpha\) und \(P(A\,\vee\,B)=\beta\). Berechnen Sie manuell mit der MaxEnt-Methode \(P(B)\). Verwenden Sie PIT, um Ihre Lösung zu überprüfen.

Aufgabe 8 ❄

Gegeben seien die Randbedingungen aus den (7.10), (7.11) und (7.12): \(p_{1}+ p_{2}=\alpha\), \(p_{1}+ p_{3}=\gamma\), \(p_{1}+ p_{2}+ p_{3}+ p_{4}=1\). Zeigen Sie, dass \(p_{1}=\alpha\gamma\), \(p_{2}=\alpha(1- \gamma)\), \(p_{3}=\gamma(1- \alpha)\), \(p_{4}=(1- \alpha)(1- \gamma)\) das Entropiemaximum unter diesen Nebenbedingungen darstellt.

Aufgabe 9 ❄

Ein probabilistisches Verfahren berechnet für ankommende Emails deren Spam-Wahrscheinlichkeit p. Zur Klassifikation der Emails in die Klassen Löschen und Lesen wird dann auf das Ergebnis, das heißt auf den Vektor \((p,1-p)\), eine Kostenmatrix angewendet.

  1. 1.

    Geben Sie eine Kostenmatrix (\(2\times 2\)-Matrix) an für die Spam-Filterung. Nehmen Sie hierzu an, für das Löschen einer Spam-Mail durch den Benutzer fallen Kosten in Höhe von 10 Cent an.Für das Wiederbeschaffen gelöschter Mails, bzw. den Verlust einer Mail, fallen Kosten in Höhe von 10 Euro an (vergleiche Beispiel 1 beziehungsweise Aufgabe 7).

  2. 2.

    Zeigen Sie, dass für den Fall einer \(2\times 2\)-Matrix die Anwendung der Kostenmatrix äquivalent ist zur Anwendung einer Schwelle auf die Spam-Wahrscheinlichkeit und bestimmen Sie die Schwelle.

Aufgabe 10

Gegeben sei ein Bayesnetz mit den drei binären Variablen \(A,B,C\) und \(P(A)=0{,}2\), \(P(B)=0{,}9\), sowie der angegebenen CPT.

figure c
  1. 1.

    Berechnen Sie \(P(A\,|\,B)\).

  2. 2.

    Berechnen Sie \(P(C\,|\,A)\).

Table 12

Aufgabe 11

Für das Alarm-Beispiel (Beispiel 10) sollen verschiedene bedingte Wahrscheinlichkeiten berechnet werden.

  1. 1.

    Berechnen Sie die A-priori-Wahrscheinlichkeiten \(P(\textit{Al})\), \(P(\textit{J})\), \(P(\textit{M})\).

  2. 2.

    Berechnen Sie unter Verwendung von Produktregel, Marginalisierung, Kettenregel und bedingter Unabhängigkeit \(P(\textit{M}\,|\,\textit{Ein})\).

  3. 3.

    Verwenden Sie nun die Bayes-Formel zur Berechnung von \(P(\textit{Ein}\,|\,\textit{M})\).

  4. 4.

    Berechnen Sie \(P(\textit{Al}\,|\,\textit{J},\textit{M})\) und \(P(\textit{Ein}\,|\,\textit{J},\textit{M})\).

  5. 5.

    Zeigen Sie, dass die Variablen J und M nicht unabhängig sind.

  6. 6.

    Überprüfen Sie alle Ihre Ergebnisse mit JavaBayes und mit PIT (siehe [Ert07] \(\rightarrow\) Demoprogramme).

  7. 7.

    Entwerfen Sie ein Bayes-Netz für das Alarm-Beispiel, jedoch mit der geänderten Variablenreihenfolge \(\textit{M},\textit{Al},\textit{Erd},\textit{Ein},\textit{J}\). Entsprechend der Semantik des Bayes-Netzes sind nur die notwendigen Kanten einzutragen. (Hinweis: Die hier angegebene Variablenreihenfolge entspricht NICHT der Kausalität. Daher ist es nicht einfach, intuitiv die bedingten Unabhängigkeiten zu ermitteln.)

  8. 8.

    Im ursprünglichen Bayes-Netz des Alarm-Beispiels wird der Knoten Erdbeben gestrichen. Welche CPTs ändern sich? (Warum genau diese?)

  9. 9.

    Berechnen Sie die CPT des Alarm-Knotens im neuen Netz.

Aufgabe 12

Für eine per Dynamo angetriebene Fahrradlichtanlage soll mit Hilfe eines Bayes-Netzes ein Diagnosesystem erstellt werden. Gegeben sind die Variablen in folgender Tabelle.

Folgende Variablen seien paarweise unabhängig: \(Str,La,B,K\). Außerdem sind unabhängig: \((R,B)\), \((R,K)\), \((Sp,B)\), \((Sp,K)\) und es gelten folgende Gleichungen:

$$\begin{aligned}\displaystyle P(Li\,|\,Sp,R)&\displaystyle=P(Li\,|\,Sp)\\ \displaystyle P(Sp\,|\,R,Str)&\displaystyle=P(Sp\,|\,R)\\ \displaystyle P(Sp\,|\,R,La)&\displaystyle=P(Sp\,|\,R)\end{aligned}$$
figure d
  1. 1.

    Zeichnen Sie in den Graphen (unter Berücksichtigung der Kausalität) alle Kanten ein.

  2. 2.

    Tragen Sie in den Graphen alle noch fehlenden CPTs (Tabellen bedingter Wahrscheinlichkeiten) ein. Setzen Sie plausible Werte für die Wahrscheinlichkeiten frei ein.

  3. 3.

    Zeigen Sie, dass das Netz keine Kante \((Str,Li)\) enthält.

  4. 4.

    Berechnen Sie \(P(Sp\,|\,Str=\textit{schneeb})\).

Table 13
Table 14