This is my translation of Brandon Rohrer’s blog post (Nov 2, 2016) and utterly awesome explanation of Bayesian Inference.

https://www.youtube.com/watch?v=5NMxiOGL39M&feature=youtu.be

Bayesian Inference kann genutzt werden um genauere Vorhersagen ĂŒber einen Datensatz zu erhalten. Die Technik ist besonders dann nĂŒtzlich, wenn man nicht so viele Daten hast, wie man gerne hĂ€tte - deshalb will man so viel wie möglich an Vorhersagegenauigkeit aus ihnen herausquetschen.

Obwohl ĂŒber Bayesian Inference manchmal mit viel Respekt gesprochen wird, ist sie weder Magie noch Mystik. Obwohl die Mathematik unter der Haube tatsĂ€chlich etwas verworren sein kann, sind die allgemeinen Konzepte absolut zugĂ€nglich. Kurzum, Bayesian Inference lĂ€sst uns genauere Schlussfolgerungen von unseren Daten ziehen, indem Wissen, dass wir ĂŒber die Antwort bereits haben, mit eingebunden wird.

Bayesian Inference lĂ€sst sich auf die Ideen von Thomas Bayes, einem nonkonformistischem presbyterianischen Pfarrer, zurĂŒckfĂŒhren, der vor ungefĂ€hr 300 Jahren in London lebte. Er schrieb zwei BĂŒcher: eins zur Theologie, und eines zur Wahrscheinlichkeitsberechnung. Seine Arbeit enthielt das heute bekannte Bayes Theorem in seiner ursprĂŒnglichen Form, welches seitdem auf das Problem der Schlussfolgerung (Inference) angewandt wurde, dem technischen Begriff fĂŒr eine wohlbegrĂŒndete Vermutung. Die PopularitĂ€t der Ideen von Bayes hat große UnterstĂŒtzung von einem anderen Pfarrer, Richard Price, erhalten. Er sah ihre Bedeutung, entwickelte sie weiter und veröffentlichte sie. Es wĂ€re daher historisch gesehen richtiger, Bayes Theorem die Bayes-Price Regel zu nennen.

Bayesian Inference im Kino

Stell dir vor, du bist im Kino und eine Person dort lĂ€sst ihr Ticket fallen. Du willst natĂŒrlich ihre Aufmerksamkeit. So sieht die Person von hinten aus (Foto oben). Man kann das Geschlecht nicht feststellen, nur dass die Person lange Haare hat. Ruft man nun “Entschuldigen Sie die Dame!” oder “Entschuldigen Sie der Herr!” Davon ausgehend was man ĂŒber die Haarschnitte von MĂ€nnern und Frauen in Deutschland (oder der Gegend, in der du wohnst) weiß, könnte man annehmen, dass dies eine Frau ist. (In dieser Vereinfachung gibt es nur zwei HaarlĂ€ngen und Geschlechter.)

Jetzt stell dir eine Variation dieser Situation vor, in welcher die Person in der Schlange vor dem MĂ€nnerklo steht. Mit dieser zusĂ€tzlichen Information wĂŒrde man wahrscheinlich davon ausgehen, dass dies ein Mann ist. Die Benutzung von Common Sense und Welt/Hintergrundwissen ist etwas, das wir ohne großes Nachdenken tun. Bayesian Inference ist eine Methode dieses Vorgehen mit Mathematik einzufangen und dadurch genauere Vorhersagen zu treffen.

Um unserem Kinodilemma Zahlen zu geben, nimmt man an, dass ungefÀhr 50% MÀnner und 50% Frauen im Kino sind. Unter 100 Leuten, sind daher 50 MÀnner und 50 Frauen. Von den Frauen haben die HÀlfte (25) lange Haare und die anderen 25 kurze Haare. Von den MÀnnern haben 48 kurze Haare und 2 lange Haare. Da im Kino 25 Frauen und 2 MÀnner mit langen Haaren sind, liegt die Vermutung nahe, dass der Ticketbesitzer eine Frau ist.

Von 100 Leuten in der Schlange zum MĂ€nnerklo jedoch sind 98 MĂ€nner und zwei Frauen, die ihren Partnern das Warten versĂŒĂŸen. Die HĂ€lfte der Frauen hat immer noch lange Haare, und die andere HĂ€lfte hat kurze Haare, aber hier ist nur eine von jeder HaarlĂ€nge in der Schlange. Die Anteile der MĂ€nner mit langen und kurzen Haare sind die gleichen, aber da es nun 98 MĂ€nner sind, haben 94 kurze Haare und 4 lange. Da es jetzt eine Frau mit langen Haaren ist, aber vier MĂ€nner, liegt nun die Annahme nahe, dass es sich bei dem Ticketbesitzer um einen Mann handelt. Dies ist ein konkretes Beispiel des Prinzips dem Bayesian Inference folgt. Da man eine wichtige Information schon vorher hat - nĂ€mlich dass der Ticketbesitzer in der Schlange fĂŒr das MĂ€nnerklo steht - lĂ€sst uns genauere Vorhersagen ĂŒber ihn/sie treffen.

Um genau ĂŒber Bayesian Inference sprechen zu können, ist es wichtig unsere Ideen klar zu definieren. Leider brauchen wir dafĂŒr etwas Mathematik. Wir werden nicht zu tief einsteigen, aber haltet euch noch ein paar AbsĂ€tze ran, und es wird sich auszahlen. Um die Grundlage zu legen, brauchen wir vier Begriffe: Wahrscheinlichkeit, bedingte Wahrscheinlichkeit (conditional probability), Verbundwahrscheinlichkeit (joint probability), und Randwahrscheinlichkeit (marginal probability).

Wahrscheinlichkeit

Die Wahrscheinlichkeit, das ein Event eintritt, ist die Anzahl der verschiedenen Möglichkeiten mit denen dieses Event passieren kann, geteilt durch die Gesamtanzahl von Events die passieren können. Die Wahrscheinlichkeit, das ein KinogĂ€nger eine Frau ist, ist 50 Frauen geteilt durch 100 KinogĂ€nger, .5 oder 50%. Das Gleiche gilt fĂŒr MĂ€nner.

Die Situation in der Warteschlange zum MĂ€nnerklo ist wie folgt: .02 fĂŒr Frauen, und .98 fĂŒr MĂ€nner.

Bedingte Wahrscheinlichkeit (conditional probability)

Bedingte Wahrscheinlichkeiten beantworten die Frage “Wenn ich weiß, dass eine Person eine Frau ist, wie groß ist die Wahrscheinlichkeit, dass sie lange Haare hat?” Bedingte Wahrscheinlichkeiten werden genauso wie geradlinige Wahrscheinlichkeiten berechnet, nur dass sie eine Teilmenge (subset) aller Beispiele bestimmen, die die eine bestimmte Bedingung erfĂŒllt. In unserem Fall, P(lange Haare | Frau), die bedingte Wahrscheinlichkeit, dass jemand lange Haare hat, in Anbetracht der Tatsache, dass die Person eine Frau ist, ist die Anzahl der Frauen mit langen Haaren geteilt durch die Anzahl aller Frauen. Dies belĂ€uft sich auf .5 (50%), ob wir nun die Warteschlange betrachten, oder das Kino insgesamt.

Die selbe Mathematik angewandt, ist die bedingte Wahrscheinlichkeit, dass jemand lange Haare hat, in Anbetracht der Tatsache, dass die Person ein Mann ist, .04 (4%), ob er nun in der Schlange steht oder nicht.

Bei bedingten Wahrscheinlichkeiten gilt es sich zu merken, dass P(A | B) nicht das gleiche ist wie P(B | A). Zum Beispiel, P(sĂŒĂŸ | Welpe)  ist nicht das gleiche wie P(Welpe | sĂŒĂŸ). Wenn das Ding, das ich halte ein Welpe ist, ist die Wahrscheinlichkeit, dass er sĂŒĂŸ ist sehr hoch. Wenn das Ding, das ich halte sĂŒĂŸ ist, dann ist die Wahrscheinlichkeit, dass es ein Welpe ist nur mittelmĂ€ĂŸig-niedrig. Es könnte dann auch ein KĂ€tzchen sein, ein Hase, ein Igel, oder ein kleiner Mensch.

Verbundwahrscheinlichkeit (joint probability)

Verbundwahrscheinlichkeiten sind nĂŒtzlich um die Frage “Wie hoch ist die Wahrscheinlichkeit, dass jemand eine Frau mit kurzen Haaren ist?” Die Antwort darauf zu finden ist ein Prozess mit zwei Schritten. Zuerst schaut man sich die Wahrscheinlichkeit an, mit welcher jemand eine Frau ist, P(Frau). Dann binden wir die Wahrscheinlichkeit, dass jemand kurze Haare hat, unter der Annahme dass diese Person eine Frau ist mit ein, P(kurze Haare | Frau). Kombiniert geben uns die zwei Wahrscheinlichkeiten die Verbundwahrscheinlichkeit durch Multiplikation, P(Frau mit kurzen Haaren) = P(Frau) * P(kurze Haare| Frau). Wenn man diese Herangehensweise benutzt, kann man berechnen, was wir schon wussten - dass P(Frau mit langen Haaren) unter allen KinogĂ€ngern = .25, aber dass P(Frau mit langen Haaren) in der Warteschlange fĂŒr das MĂ€nnerklo = .01. Die Wahrscheinlichkeiten sind unterschiedlich, da P(Frau) in beiden FĂ€llen unterschiedlich ist.

Gleichermaßen ist P(Mann mit langen Haaren) .02 unter allen KinogĂ€ngern, aber .04 in der Warteschlange zum MĂ€nnerklo.

Im Gegensatz zu bedingten Wahrscheinlichkeiten, spielt die Reihenfolge bei Verbundwahrscheinlichkeiten keine Rolle. P(A und B) ist das Gleiche wie P(B und A). Die Wahrscheinlichkeit, dass ich Milch trinke und einen Gelee-donut esse ist die gleiche Wahrscheinlichkeit, dass ich einen Gelee-donut esse und Milch trinke.

Randwahrscheinlichkeit (marginal probability)

Der letzte Halt auf unserer Tour durch die Grundlagen sind Randwahrscheinlichkeiten. Sie sind nĂŒtzlich, um die Frage “Wie hoch ist die Wahrscheinlichkeit, dass jemand lange Haare hat?” zu beantworten. Um diese Frage zu beantworten, mĂŒssen wir die Wahrscheinlichkeiten fĂŒr die verschiedenen Möglichkeiten mit denen jemand lange Haare hat addieren - die Wahrscheinlichkeit ein Mann mit langen Haaren zu sein plus die Wahrscheinlichkeit eine Frau mit langen Haaren zu sein. FĂŒr die Kinobesucher bekommen wir zwei Randwahrscheinlichkeiten, P(lange Haare): .27 fĂŒr alle Kinobesucher, aber .05 in der Warteschlange zum MĂ€nnerklo.

Bayes’ Theorem

Nach den Grundlagen kommen wir nun zu dem Teil, der uns wirklich interessiert. Wir wollen die Frage “Wenn wir wissen, dass jemand lange Haare hat, wie hoch ist die Wahrscheinlichkeit, dass diese Person eine Frau (oder ein Mann) ist?” beantworten. Dies ist eine bedingte Wahrscheinlichkeit, P(Mann | lange Haare), aber die umgekehrte Version zu der Wahrscheinlichkeit, die wir bereits wissen, P(lange Haare | Mann). Da bedingte Wahrscheinlichkeiten nicht umkehrbar sind, können wir (noch) nichts ĂŒber die neue bedingte Wahrscheinlichkeit sagen.

GlĂŒcklicherweise hat Thomas Bayes etwas cooles entdeckt das uns helfen kann.

Erinnern wir uns daran wie wir Verbundwahrscheinlichkeiten berechnet haben. Wir können Gleichungen schreiben fĂŒr P(Mann mit langen Haaren) und P(lange Haare und Mann). Da Verbundwahrscheinlichkeiten umkehrbar sind, sind beide Wahrscheinlichkeiten gleich.

Mit ein bisschen Algebra, können wir nach dem Gesuchten auflösen, P(Mann | lange Haare).

Mit A und B ausgedrĂŒckt (anstelle von “Mann” und “lange Haare”) bekommen wir Bayes Theorem.

Jetzt können wir endlich zurĂŒck gehen und unser Kinoticket Dilemma lösen. Wir haben Bayes Theorem auf unser Problem angewandt.

Zuerst mĂŒssen wir unsere Randwahrscheinlichkeit erweitern, P(lange Haare).

Dann können wir unsere Zahlen einfĂŒgen und die Wahrscheinlichkeit, dass jemand ein Mann ist, mit dem Wissen, dass diese Person lange Haare hat berechnen. FĂŒr die KinogĂ€nger in der Warteschlange zum MĂ€nnerklo, P(Mann | lange Haare) = .8. Das bestĂ€tigt unsere Intuition, dass die Person, die das Ticket fallen gelassen hat, wahrscheinlich ein Mann ist. Bayes Theorem hat unsere Intuition in dieser Situation eingefangen. Was noch wichtiger ist, ist die Tatsache, dass es unser Vorwissen, dass es weitaus mehr MĂ€nner als Frauen in der Warteschlange zum MĂ€nnerklo gibt mit einbezogen hat. Unter Einbezug unseres Vorwissen hat es unsere Annahme in dieser Situation upgedated.

Wahrscheinlichkeitsverteilung (probability distributions)

Beispiele wie das Kino-dilemma eignen sich gut um den Ursprung von Bayesian Inference zu erklĂ€ren und zu zeigen wie sie funktioniert. In Data Science Anwendungen jedoch, wird sie oft benutzt um Daten zu interpretieren. Indem bereits existierendes Vorwissen ĂŒber das, was wir messen mit eingebunden wird, können genauere Schlussfolgerungen aus kleinen Datensatzes gezogen werden. Ich werde das im Detail zeigen, aber zuerst mĂŒssen wir uns auf einen weiteren kleinen Umweg begeben. Wir mĂŒssen klĂ€ren, was wir mit “Wahrscheinlichkeitsverteilung(en)” meinen.

Man kann sich Wahrscheinlichkeit als eine Kanne Kaffee vorstellen, in der noch genau so viel Kaffee ist, um eine Tasse zu fĂŒllen. Wenn es nur eine Tasse zu fĂŒllen gibt, gibt es kein Problem, aber wenn es mehrere Tassen zu fĂŒllen gilt, muss man sich entscheiden, wie der Kaffee zwischen den Tassen aufgeteilt wire. Man kann den Kaffee aufteilen wie man möchte, so lange der ganze Kaffee auf die Tassen verteilt wird. Im Kino könnte eine Tasse die Frauen, eine weitere Tasse die MĂ€nner reprĂ€sentieren.

Oder wir könnten vier Tassen verwenden um die Verteilung aller Kombinationen aus Geschlecht und HaarlÀnge zu reprÀsentieren. In beiden FÀllen ergibt die gesamte Kaffeemenge eine Tasse voll.

FĂŒr gewöhnlich stellen wir die Tassen beiseite und schauen uns die Menge in jeder Tasse als Histogram an. Es hilft sich den Kaffee als unseren Vermutung/Intuition vorzustellen, und die Verteilung zeigt wie stark wir vermuten, dass etwas der Fall ist.

Wenn man eine MĂŒnze wirft und das Ergebnis verdeckt, dann wird der Glaube genau gleich zwischen Kopf und Zahl verteilt sein.

Wenn man einen WĂŒrfel rollt und das Ergebnis verdeckt, dann wird der Vorstellung ĂŒber eine Zahl genau gleich zwischen den sechs Seiten des WĂŒrfels verteilt sein.

Wenn man ein Los kauft, dann wird der Glaube, dass es das Los ist das gewinnt gegen null gehen. Der MĂŒnzwurf, das Rollen des WĂŒrfels, und das Lotterieergebnis sind alle Beispiele fĂŒr das Messen und Sammeln von Daten.

Es ist daher nicht ĂŒberraschend, dass man auch ĂŒber andere gesammelte Daten einen Vermutung oder eine Vorstellung hat. Stell dir die GrĂ¶ĂŸe von Erwachsenen in den USA vor. Wenn ich dir sage, dass ich jemand getroffen und die GrĂ¶ĂŸe der Person gemessen habe, könnte dein Glaube ĂŒber die GrĂ¶ĂŸe der Person wie das Bild (Histogram) oben aussehen. Es zeigt den Glaube oder die Annahme, dass diese Person wahrscheinlich zwischen 150 und 200cm, und sehr wahrscheinlich zwischen 180 und 190cm groß ist.

Verteilungen können in immer genauere/kleinere BehÀlter aufgeteilt werden. Stell dir vor, dass der Kaffee auf immer mehr Tassen verteilt wird um ein genaueres Bild unserer Vermutung zu erhalten.

Am Ende steigt die Anzahl der imaginÀren Tassen so stark an, dass die Analogie zusammenbricht. Ab diesem Punkt, ist die Verteilung stetig (continuous). Die Mathematik mit der man dann arbeitet verÀndert sich ein bisschen, aber die grundlegende Idee ist immer noch hilfreich. Sie zeigt wie unsere Vermutung verteilt wird.

Danke fĂŒr eure Geduld. Nachdem nun die Wahrscheinlichkeitsverteilung beschrieben ist, können wir Bayes Theorem benutzen um Daten zu interpretieren. Um zu zeigen wie das geht, wiegen wir meinen Hund.

Bayesian Inference beim Tierarzt

Der Name meines Hundes ist Reign of Terror (Herrschaft des Schreckens). Immer wenn wir zum Tierarzt gehen, dreht und windet sie sich auf der Waage. Nun ist es aber wichtig ein genaues Messergebnis zu bekommen, da ich, falls ihr Gewicht angestiegen ist, die Nahrungszufuhr minimieren muss. Sie liebt ihr Essen mehr als das Leben selbst, also steht viel auf dem Spiel.

Beim letzten Besuch haben wir drei Messungen geschafft bevor sie sich weigerte weiter auf der Waage zu bleiben: 19.3 lb (Pfund), 17.5 lb, und 14.1 lb. Es gibt hier ein statistisches Standardvorgehen. Wir können den Mittelwert, die Standardabweichung, und den Standardmessfehler fĂŒr diese Zahlen berechnen und eine Verteilung fĂŒr Reigns tatsĂ€chlichem Gewicht erstellen.

Diese Verteilung zeigt, was wir mit diesem Ansatz ĂŒber ihr Gewicht zu wissen glauben. Es ist normal verteilt mit einem Mittelwert von 15.2 Pfund und einem Standardfehler von 1.2 Pfund. Die tatsĂ€chlichen Messwerte werden hier als weiße Linien gezeigt. UnglĂŒcklicherweise ist diese Kurve zu weit um zufriedenstellend zu sein. Obwohl die Spitze bei 15.2 Pfund liegt, zeigt die Wahrscheinlichkeitsverteilung, dass das Gewicht leicht so niedrig wie 13 Pfund und so hoch wie 17 Pfund sein könnte. Die Bandbreite ist viel zu groß um eine gut informierte Entscheidung zu treffen. Wenn wir auf solche Ergebnisse stoßen, werden fĂŒr gewöhnlich mehr Daten gesammelt, aber in manchen FĂ€llen ist dies nicht machbar oder zu teuer. In unserem Fall ist die Geduld von Reign zu Ende. Wir mĂŒssen uns mit den Ergebnissen, die wir bereits haben, zufrieden geben.

An dieser Stelle tritt Bayes Theorem ein. Es ist nĂŒtzlich um das meiste aus einem kleinen Datensatz heraus zu holen. Bevor wir es anwenden, macht es Sinn nochmals die Gleichung und die verschiedenen Terme zu betrachten.

Wir fĂŒgen “w” (Gewicht) und “m” (Messergebnisse) fĂŒr “A” und “B” ein um klarzumachen wie wir Bayes Theorem verwenden. Die vier Terme reprĂ€sentieren verschiedene Teile des Prozesses.

Der prior, P(w), zeigt unser vorherige Vermutung. In diesem Fall zeigt er was wir ĂŒber Reigns Gewicht glauben zu wissen bevor wir sie auf die Waage setzen.

Die likelihood (Wahrscheinlichkeit), P(m | w) zeigt die Wahrscheinlichkeit, mit der unsere Messergebnisse fĂŒr ein gewisses Gewicht auftreten. Man nennt sie auch die Likelihood der Daten.

Die posterior, P(w | m), zeigt die Wahrscheinlichkeit mit der Reign ein gewisses Gewicht hat, mit dem Wissen ĂŒber die Messungen die wir gemacht haben. Das ist es, was uns am meisten interessiert.

Die Wahrscheinlichkeit der Daten, P(m), zeigt die Wahrscheinlichkeit, dass jeder Datenpunkt gemessen wird. Im Moment nehmen wir an, dass sie konstant ist und das die Skala unverzerrt ist.

Es ist keine schlechte Idee absolut skeptisch zu sein und keine Vermutungen ĂŒber das Ergebnis anzustellen. In diesem Fall nehmen wir an, dass die Wahrscheinlichkeit dass Reigns Gewicht 13 Pfund, oder 15 Pfund, oder 1 Pfund oder 1000000 Pfund gleich ist und wir lassen dann die Daten zu uns sprechen. Um das zu tun nehmen wir einen uniform prior (gleichmĂ€ĂŸiger prior) an. Das bedeutet, dass die Wahrscheinlichkeitsverteilung fĂŒr alle Werte eine Konstante ist. Damit können wir Bayes Theorem zu P(w | m) = P(m | w) reduzieren.

Nun können wir alle möglichen Werte fĂŒr Reigns Gewicht verwenden und die Wahrscheinlichkeit berechnen, unsere drei Messergebnisse zu bekommen. Zum Beispiel: unsere Messergebnisse wĂ€ren sehr unwahrscheinlich wenn Reigns Gewicht 1000 Pfund wĂ€re. Sie wĂ€ren aber sehr wahrscheinlich wenn ihr Gewicht tatsĂ€chlich 14 oder 16 Pfund wĂ€re. Jetzt können wir durchgehen und, unter Verwendung von jedem hypothetischem Wert fĂŒr ihr Gewicht, die Wahrscheinlichkeit berechnen, dass wir die Messergebnisse tatsĂ€chlich bekommen die wir haben. Das ist P(m | w). Da wir einen gleichmĂ€ĂŸigen prior (uniform prior) verwenden ist es auch P(w | m), die posterior Verteilung (posterior distribution).

Es ist kein Zufall, dass dies der Antwort, die wir durch den Mittelwert, die Standardabweichung, und den Standardfehler, bekommen haben, sehr Ă€hnlich sieht. Sie sind beide tatsĂ€chlich gleich. Wenn man einen uniform prior benutzt, bekommt man die traditionellen statistischen SchĂ€tzungen fĂŒr das Ergebnis. Der Locus der Spitze der Kurve, der Mittelwert mit 15.2 Pfund wird auch Maximum Likelihood Estimate (MLE) fĂŒr das Gewicht genannt.

Obwohl wir Bayes Theorem verwendet haben, sind wir einer nĂŒtzlichen SchĂ€tzung noch nicht wirklich nĂ€her gekommen. Um sie bekommen muss unser prior ungleichmĂ€ĂŸig (non-uniform) werden. Die vorher-Verteilung (prior distribution) reprĂ€sentiert unsere Vermutung ĂŒber etwas bevor wir irgendwelche Messungen vorgenommen haben. Ein gleichmĂ€ĂŸiger prior (uniform prior) zeigt, dass wir glauben, dass alle möglichen Ergebnisse gleich wahrscheinlich sind. Das ist fast nie der Fall. Wir wissen oft etwas ĂŒber die Menge/QuantitĂ€t die wir messen. Das Alter ist immer grĂ¶ĂŸer als Null. Temperaturen sind immer grĂ¶ĂŸer als ~ -276 Grad Celsius. Die GrĂ¶ĂŸe von Erwachsenen ist sehr selten grĂ¶ĂŸer als ~ 244cm (8 feet). Manchmal haben wir zusĂ€tzliches Wissen, dass manche Werte wahrscheinlicher auftreten als andere.

In Reigns Fall habe ich zusĂ€tzliche Informationen. I weiß, dass sie 14,2 Pfund gewogen hat, als sie das letzte Mal beim Tierarzt war. I weiß auch, dass sie sich nicht auffallend schwerer oder leichter anfĂŒhlt, auch wenn mein Arm keine besonders gute Waage ist. Deshalb glaube ich, dass sie um die 14,2 Pfund wiegt, vielleicht ein oder zwei Pfund mehr oder weniger. Um das zu zeigen, verwende ich eine Normalverteilung mit einem Peak bei 14.2 Pfund und einer Standardabweichung von einem halben Pfund.

Da wir nun einen prior haben, können wir den Vorgang wiederholen in dem posterior distribution berechnet wird. Um das zu tun, ziehen wir die Möglichkeit in Betracht, dass Reigns Gewicht einen bestimmten Wert, sagen wir 17 Pfund hat. Dann multiplizieren wir die Wahrscheinlichkeit, dass sie tatsĂ€chlich 17 Pfund wiegt (entsprechend unserem prior) mit der bedingten Wahrscheinlichkeit, dass wir unsere Messergebnisse bekommen falls sie 17 Pfund wiegt. Dann wiederholen wir dies fĂŒr alle möglichen Gewichte. Der Effekt des prior drĂŒckt manche Wahrscheinlichkeiten nach unten und verstĂ€rkt andere. In unserem Fall, bekommt die 13-15 Pfund Bandbreite mehr Gewicht, und weniger Gewicht auf Messergebnisse ausserhalb dieser Bandbreite. Im Unterschied zu dem uniform prior, welcher der Wahrscheinlichkeit das Reigns tatsĂ€chliches Gewicht 17 Pfund ist eine angemessene Möglichkeit gab, fĂ€llt 17 Pfund auf das Schwanzende der Verteilung mit einem non-uniform prior. Wenn man nun mit dieser Möglichkeit multipliziert geht die Wahrscheinlichkeit fĂŒr das 17 Pfund Gewicht sehr weit nach unten.

In dem eine Wahrscheinlichkeit fĂŒr jedes mögliche Gewicht berechnet wird, generieren wir eine neue posterior Wahrscheinlichkeit. Die Spitze dieser posterior distribution ist auch als maximum a posteriori estimate (MAP) bekannt; in unserem Fall 14.1 Pfund. Das ist ein bedeutender Unterschied zu dem Ergebnis, dass wir mit dem uniform prior berechnet haben. Die Spitze ist auch viel enger. Dies erlaubt uns eine weitaus zuversichtlichere SchĂ€tzung zu machen. Jetzt sehen wir, dass sich Reigns Gewicht nicht sehr verĂ€ndert hat und ihre Portionen genau so groß bleiben können wie sie sind.

In dem wir das mit einbezogen haben, was wir ĂŒber unser das was wir Messen schon gewusst haben, waren wir in der Lage eine genauere und zuversichtlichere Aussage zu treffen als anderswie. Es hat uns auch erlaubt Nutzen aus einem sehr kleinen Datensatz zu ziehen. Unser prior hat dem Gewicht von 17,5 Pfund eine sehr niedrige Wahrscheinlichkeit gegeben. Das ist fast das Gleiche, als wenn man das Messergebnis als Ausreißer ablehnt. Anstatt Ausreißer durch Intuition und Common Sense zu finden, erlaubt uns Bayes Theorem es anhand von Mathematik zu tun.

Als Randbemerkung ist zu sagen, dass wir angenommen haben das P(m) uniform war, aber hĂ€tten wir gewusst, dass unsere Skala auf irgendeine Weise verzerrt ist, hĂ€tten wir das in unsere P(m) mit einfiesen lassen können. Wenn die Skala nur gerade Zahlen hĂ€tte oder eine Messung von “2,0” 10% der Zeit ergibt, oder bei jedem dritten Versuch willkĂŒrliche Ergebnisse hĂ€tte, dann hĂ€tten wir unsere P(m) so gestalten können, das diese Sonderheiten darin wiedergegeben worden wĂ€ren. Dadurch hĂ€tte sich die Genauigkeit von unserer posterior distribution verbessert.

Bayes-Fallen vermeiden

Obwohl das Wiegen von Reign die Vorteile von Bayesian Inference gezeigt hat, gibt es auch ein paar Fallen. Wir haben unsere SchĂ€tzung verbessert indem wir ein paar Vermutungen ĂŒber die Antwort angestellt haben, aber der ganze Sinn etwas zu messes liegt darin etwas darĂŒber zu lernen. Wenn wir vermuten, dass wir die Antwort bereits kennen, kann es sein, dass wir die Daten “zensieren.” Mark Twain hat die Gefahren von starken priors ganz kurz und bĂŒndig zusammengefasst. „Nicht das, was du nicht weißt, bringt dich in Schwierigkeiten, sondern das, was du sicher zu wissen glaubst, obwohl es gar nicht wahr ist.“

Wenn wir mit einer starken vorherigen Vermutung, dass Reigns Gewicht zwischen 13 und 15 Pfund liegt, dann wĂ€ren wir nie in der Lage zu erfassen, ob ihr Gewicht nicht tatsĂ€chlich 12,5 Pfund ist. Unser prior wĂŒrde diesem Ergebnis eine Nullwahrscheinlichkeit geben, und jede Messung die unter 13 Pfund liegt, wĂŒrde ignoriert werden, ganz egal wie oft wir messen.

GlĂŒcklicherweise gibt es einen Weg unsere “Wette abzusichern” und es zu vermeiden blind Möglichkeiten zu eliminieren. Die Lösung ist jedem möglichen Ergebnis zumindest eine kleine Wahrscheinlichkeit zu geben. Sollte also Reign durch irgendeine physikalische Sonderheit tatsĂ€chlich 1000 Pfund wiegen, dann könnten unsere gesammelten Messergebnisse das in der posterior Wahrscheinlichkeit widerspiegeln. Dies ist ein Grund warum Normalverteilungen oft als prior verwendet werden. Sie konzentrieren den Großteil unserer Vermutung um eine kleine Bandbreite von Ergebnissen, aber sie haben lange Schweife (tails) die nie ganz Null werden ganz egal wie weit sie reichen.