Eigentlich hatte ich nicht vor, dieses Blog mit Matheinhalten zu füllen, aber momentan ergibt es sich so. Gestern habe ich auf Spiegel Online gelesen, dass dieses Jahr auch das Jahr der Mathematik ist. Von diesen "Jahr des xyz"-Aktionen halte ich zwar nicht besonders viel (wobei, witzig ist es schon, dass die Winkelspinnen die Spinnen des Jahres 2008 sind...), aber interessant fand ich die Frage 8 in dem Mathequiz, das den Spiegel-Artikel begleitete. Diese ist nämlich mit der Formel von Bayes zu lösen, und ich hätte nicht gedacht, dass diese einer breiten Masse von Menschen bekannt ist. Gut, im Grunde lässt sich die Aufgabe auch durch die klassische Zählmethode lösen (Zahl der gesuchten Fälle geteilt durch Zahl aller möglichen Fälle), was aber auch nur zeigt, dass die Formel von Bayes gar nicht so kompliziert ist.

Was besagt die Formel? Es geht um bedingte Wahrscheinlichkeiten. Traditionell wird die Wahrscheinlichkeit eines Ereignisses A mit P(A) bezeichnet, und P(A|B) bezeichnet die Wahrscheinlichkeit, dass A eintritt, unter der Bedingung, dass B eintritt. Anhand des Beispieles der Aufgabe 8 aus dem Quiz: hier wäre z.B. mit A = "das Kind ist ein Mädchen" und B = "das Kind ist schlau" die Wahrscheinlichkeit P(A|B) gesucht (die Wahrscheinlichkeit, dass ein schlaues Kind ein Mädchen ist - aus Copyright-Gründen will ich die komplette Aufgabe hier nicht wiedergeben).

Die Formel von Bayes besagt nun: P(A|B) = P(B|A)*P(A)/P(B)

Alle Wahrscheinlichkeiten auf der rechten Seite sind in der Aufgabenstellung gegeben, P(B|A) = "Wahrscheinlichkeit, dass ein Mädchen schlau ist" (1/3 in der Aufgabe), P(A) = Wahrscheinlichkeit, dass ein Kind schlau ist (1/2*1/4+1/2*1/3) und P(B) = "Wahrscheinlichkeit, dass ein Kind ein Mädchen ist" (1/2). Die Quizfrage ist damit leicht zu beantworten.

Die Formel von Bayes bereitet dem gesunden Menschenverstand oft einige Schwierigkeiten, wie man an dem folgenden Beispiel sieht, das häufig (in dieser oder ähnlicher Form) im Zusammenhang mit der Formel von Bayes präsentiert wird:

Gegeben sei ein Test für eine eklige Krankheit, der eine Zuverlässigkeit von 95% besitzt. Das heisst mit 95% Wahrscheinlichkeit ist die Aussage des Tests richtig ("Person X hat die Krankheit" oder "Person X hat die Krankheit nicht"), bei 95% aller Leute mit der Krankheit liefert der Test ein positives Ergebnis, bei 95% der Leute die die Krankheit nicht haben ein negatives.
Weiter ist bekannt dass 1% der Bevölkerung an dieser Krankheit leiden. Nun nehmen wir an, "Joe" macht den Test und erhält das Ergebnis "positiv". Wie hoch ist die Wahrscheinlichkeit, dass Joe die Krankheit hat?

Angeblich verstehen auch viele Ärzte diese Aufgabe nicht (siehe z.B. die Anmerkung zu Mammographie in diesem Artikel über Bayes in der Medizin). Sooo schlimm steht es nämlich um Joe gar nicht - er ist nicht etwa mit 95% Wahrscheinlichkeit krank, sondern nur zu 16%, wie Bayes Formel zeigt:

P(krank|test positiv) = P(test positiv|krank) * P(krank)/P(test positiv)

Wir wissen P(test positiv|krank) = 95% (die Zuverlässigkeit des Tests) und P(krank) = 1% (der Anteil an Kranken in der Bevölkerung). P(test positiv) = P(krank)P(test positiv|krank)+P(nicht krank)*P(test positiv|nicht krank) = 0.01*0.95+0.99*0.05 = 0.059

Insgesamt also P(krank|test positiv) = 0.95*0.01/0.059 = 0.16...

Das Beispiel habe ich konkret aus dem Buch Information Theory, Inference and Learning Algorithms von David MacKay, der das sehr interessante Buch auch als kostenloses eBook anbietet.

Insgesamt hat die Formel von Bayes in den letzten Jahren sehr an Bedeutung gewonnen, da sich damit Algorithmen für künstliche Intelligenz und Data Mining programmieren lassen. Die Bekämpfung von Spam hat z.B. mit dem Bayes-basierten Ansatz von Paul Graham in A Plan For Spam erstmals neue Hoffnung geschöpft, auch heute noch dürften Bayes-basierte Algorithmen zu den wichtigsten Waffen gegen Spam-Emails gehören.

Die Bayesianer zweckentfremden die Formel von Bayes dabei oft etwas, indem sie sich von der reinen Wahrscheinlichkeitstheorie wegbewegen und anstelle von Wahrscheinlichkeiten "Grade der Überzeugtheit" verwenden, also die Einschätzung des Fragestellers aufgrund dessen aktuellen Kenntnisstandes. Manchen Wahrscheinlichkeitstheoretikern ist dieser Ansatz nicht geheuer, und sie bemängeln teilweise Willkür beim Bestimmen der geschätzten Wahrscheinlichkeiten. Tatsache ist aber, dass die Methode erstaunlich gut funktioniert und sich daher immer grösserer Beliebtheit erfreut. Joel Spolsky berichtet zum Beispiel, dass Google die Formel von Bayes so benutzt wie Microsoft das "if"-Statement. Ich muss leider sagen, dass ich bei meinen bisherigen Software-Entwicklungs-Jobs noch nicht die Gelegenheit hatte, auf diesem Niveau zu arbeiten.

Dieser Blog-Artikel konnte nicht die Tiefen und Untiefen der Formel ausleuchten, aber vielleicht wenigstens Neugierig machen, denn wie das Beispiel von Google zeigt, vollzieht sich hier in den letzten Jahren ein Paradigmenwechsel.

Ach ja, besonders Stolz bin ich auf meine Eselsbrücke, um mir die Formel zu merken, ich konnte mir nämlich nie merken, was im Zähler und was im Nenner steht. Also den Teil P(A|B) = P(B|A) konnte ich mir noch merken, aber danach, steht P(A) oder P(B) im Nenner? Meine Eselsbrücke ist, das P(A|B) um 90° im Uhrzeigersinn zu drehen (z.B. als wäre es ein Auto, dass über eine Klippe fährt). Demnach steht das P(A) oben und das P(B) unten. Wenn man tatsächlich mal ein bisschen mit der Formel arbeitet, kann man sie sich wahrscheinlich sowieso merken, aber da ich bisher hauptsächlich nur theoretisch mit ihr beschäftigt war, hilft mir die Eselsbrücke ganz gut.