Was ist Wahrscheinlichkeit?

20. Juni 2020

Es gibt verschiedene theoretische Ansätze was Wahrscheinlichkeit überhaupt ist^[27]
[28]. Grob wird subjektive und objektive Wahrscheinlichkeit unterschieden. Die auf unterschiedlichen Sichtweisen auf Wahrscheinlichkeit fußen. Dabei haben sich in der Historie der Mathematik im Bereich der Wahrscheinlichkeitstheorie ebenso wie in anderen Forschungsdisziplinen verschiedene Schulen entwickelt die unabhängig voneinander stark ausgebaut wurden. Dabei werden

die klassische Inferenz-Statistik und
bayesianische Inferenz (Bayes-Statistik) unterschieden.
Daneben gibt es die statistische Entscheidungsstrategie als weiteren Strang (nach Wald).

Die klassische Inferenz-Statistik wurde neben anderen von Ronald A. Fisher begründet (objektiver Wahrscheinlichkeitsbegriff).

Nach der klassischen Statistik ist:

Wahrscheinlichkeit eine Langzeitbetrachtung (frequentistische Sichtweise).
wahre Parameter in der Grundgesamtheit sind unbekannt und
können nur mittels konsistenten, effizienten, unverzerrten und erwartungstreuen Schätzers geschätzt werden.
Eine Beobachtung muss sehr häufig (möglichst unendlich oft) zeitlich und räumlich wiederholt werden (Gesetz der großen Zahl).
Eine Punktschätzung gilt demnach als sicher, wenn
sie nahezu immer eintritt, oder in 99,999% der Fälle. Dies wird mit Signifikanztests überprüft.
Es gibt aber immer die Möglichkeit des Gegenereignisses, also den möglichen nicht Eintritts (Irrtumswahrscheinlichkeit).
Dies entspricht der regulativen Idee von Wahrheit bei Popper (siehe Kapitel Gütekriterien).

Aus Sicht der Herangehensweise waren Fishers wissenschaftliche Opponenten Thomas Bayes und Pierre-Simon Laplace, die die Bayes-Inferenz bereits vor Fisher begründeten (subjektiver Wahrscheinlichkeitsbegriff). Fisher lehnte die bedingte Wahrscheinlichkeit, um Theorien zu testen, wie die Bayes-Inferenz sie begründete, vehement ab und propagierte erfolgreich die Durchsetzung des Signifikanztestes und den Status quo der objektiven Wahrscheinlichkeit.

Die Bayes-Statistik nahm sich nämlich heraus zu behaupten, dass jedem Parameter eine Wahrscheinlichkeit zugeordnet werden kann. Man betrachtet schließlich Daten, die ja nur bei genügender Grundlage den wahrscheinlichsten Parameter als wahren Wert abbilden. Hingegen vertritt jedoch die klassische Inferenz, dass wahre Parameter immer unbekannt sind und nur geschätzt werden können. Hypothesen sind also nicht bedingt auf die Daten zu betrachten, sondern Daten bedingt auf eine Hypothese, die gegen eine Nullhypothese zu testen sei. Nur in der Langzeitbetrachtung können wir so einen wahren Wert approximieren, sicher können wir uns dennoch nie sein.

Wahrscheinlichkeit ist nach Bayes Auffassung:

eine subjektive mutmaßliche Wettaussage, die im Vorhinein (a-priori)
gegeben der Daten mutmaßlich (Likelihood) als (un)plausibel
im Nachhinein (a-posteriori) entschieden werden kann.
Folglich geben große Datenmengen mehr Anlass für Plausibilität einer zu testenden Aussage.

Die Wahrscheinlichkeit für eine als vorläufig richtig oder falsche Aussage setzt sich also aus einem Prior als Vorinformation und Daten bedingt auf diese Vorinformation in Relation zu der Datengrundlage zusammen.

P(H|E) = \frac{P(H)*P(E|H)}{P(E)}

Diese Sichtweise auf Wahrscheinlichkeit kennt jeder persönlich aus seiner Erfahrung und macht in der Praxis häufig mehr Sinn, erscheint aber im Vergleich zur klassischen Wahrscheinlichkeit als unwissenschaftlich um Hypothesen zu überprüfen (zumindest für Personen, die sich eher als FrequentistInnen identifizieren). Jedoch nutzen auch FrequentistInnen (un)bewusst in ihrer Praxis eher beysianische Wege für die Interpretation von Daten auch, wenn häufig Objektivität als Maßstab genutzt wird.

Verdeutlichen wir dies an einem einfachen Beispiel:

Mutmaßlich hat jeder von uns hat schonmal eine Person in seinem Leben getroffen, die er nicht möchte und nicht sagen kann woran es lag (subjektiver Eindruck). Diese Person war vielleicht ArbeitskollegIn, eine Person im Freundeskreis oder einfach auf der Straße. Dies entspräche einem Vorurteil bzw. einer Vorannahme (Prior), einer a-priori Annahme ohne Vorinformation (Annahmen ohne Vorinformation nennt man in der Bayes-Statistik zufällig meist unechte bzw. improper Prior, man sollte als keine Annahmen ohne Vorinformation treffen: Wenn wir nichts wissen, wissen wir nichts! Wir lernen hier also schon, hab keine Vorurteile, sie sind meist falsch und unpassend!). Nun ist es wohl oder übel so, dass man diese Person nun sehr häufig über längere Zeit trifft, Kontakt zu ihr hat und mit ihr interagiert. Von Mal zu Mal wird die Vorannahme aufgeweicht und du merkst sie ist gar nicht so unsympathisch wie zu Beginn vermutet. Durch deine Datengrundlage (jeder Tag als einzelne Stichprobe) hat sich dein Eindruck verändert. Deine Mutmaßlichkeit (Likelihood) hat sich zu Gunsten deiner Datengrundlage verändert. Vielleicht musst du eines Tages lange mit dieser Person interagieren und sie sagt etwas zu dir, was du als sehr nett empfandest und nicht erwartet hättest. Das ändert deine Vorannahme vollständig und die beginnst die Person von dem Tag an zu mögen, vielleicht werdet ihr sogar Freunde. Deine resultierende a-posteriori Annahme ist nun, dass die Person ein netter Mensch ist (Posterior).

Die Bayes-Inferenz lehrt uns also, dass wir immer Vorannahmen (Hypothesen) haben, die wir anhand von Daten (Stichprobe) zu(un)gunsten dieser Hypothese entscheiden und als vorläufig bestätigt ansehen oder ablehnen sollten. Grundlage sollte dabei immer eine zufällige Stichprobe mit genügender Datengrundlage sein, um überhaupt entscheidbar Aussagen tätigen zu können.

Aus der Praxis wissen wir leider, dass Vorannahmen auch im Kontext von Signifikanztestes häufig geschehen, da das Forscherteam vielleicht nicht von ihren Ergebnissen begeistert ist und man sich ein signifikantes Ergebnis gewünscht hat, um im renommierten Journal zu publizieren. Wenn Daten oder Tests manipuliert werden, um künstlich signifikante Ergebnisse zu erhalten, sprechen wir von p-Hacking. Hier wiegt dann die Vorannahme wohl schwerer und die Faktenlage wird nicht akzeptiert.

Das einfache Prinzip, was Laplace begründete war das Laplace-Experiment.
Laplace formulierte,

dass endlich viele Ergebnisse alle die gleiche Wahrscheinlichkeit
in einem Zufallsexperiment (bspw. ein Würfelwurf, Münzwurf, eine zufällig gezogene Stichprobe von Befragten, ...) auszeichnet,
sodass für die Wahrscheinlichkeit das A eintritt, also P(A) (Probability of A) gilt, dass sie
die Anzahl der Ergebnisse, bei denen das Ereignis A eintritt in Relation zur Gesamtanzahl aller möglichen Ereignisse darstellt.
Oder formell: die Wahrscheinlichkeit von A ist die Mächtigkeit von A durch die Mächtigkeit der Ereignismenge Omega:

P(A) = \frac{|A|}{|Ω|}

Dieses Prinzip ist demnach konsistent mit dem klassischen Wahrscheinlichkeitsbegriff, der ebenfalls bei der Wahrscheinlichkeit eines Ereignisses von einer relativen Häufigkeit ausgeht. Verdeutlicht wird diese relative Chance meist mit einem Würfel oder einer Münze. Ein Würfel hat 6 Seiten, alle Seiten treten gleich wahrscheinlich mit $P(A) = \frac{|1|}{|6|}$ ein. Bei einer Münze haben ebenso beide Seiten die gleiche Wahrscheinlichkeit des Eintritts mit 0,5 oder 50 Prozent, also ein Chancenverhältnis von 50:50.

Nach Kolmogorow bedeutet das axiomatisch, dass wir Wahrscheinlichkeit als eine Funktion reellen Zahlen zuordnen können: P: P(Ω) → ℝ und Wahrscheinlichkeiten einzelner Ereignisse summieren können, wobei die Wahrscheinlichkeitssumme immer 1 also 100% ergibt. Dies gilt für diskrete Wahrscheinlichkeiten ebenso wie für Wahrscheinlichkeitsräume mit abzählbaren oder überabzählbaren unendlichen Teilmengen. Dabei gibt es keine negativen Wahrscheinlichkeiten für einzelne Teilmengen A.

$P(\cup_{i=0}^{∞} A_{i}) = \sum_{i=1}^{∞} {P(A}_{i}) =$
${P(A}_{1}) + {P(A}_{2}) + ... + {P(A}_{i}) + ... ≙$
$\sum_{i=1}^{n} {P(A}_{i}) = n * {P(A}_{i})$
$P(Ω) = 1$
$P(A) \geq 0 \forall A mit i=1,...,n$

Was ist die Chance?

Die Chance ist das Verhältnis zweier Größen in einer 2x2 Kreuztabelle. Sie ist ein simples Maß, um auf Wahrscheinlichkeiten zu schließen. Häufig hört man im Kontext von medizinischen Aussagen oder im Glücksspiel, meist auch gemeinsam mit einem Risiko.

Rauchen erhöht das Risiko an Herz-Kreislauf-Erkrankungen zu erkranken.
Die Chance im Lotto zu gewinnen liegt bei 1:64 Millionen.
Laut Angaben des Bundesgesundheitsministeriums aus dem Jahr 2020 sind 8,7 Prozent der Kinder zwischen 3 und 17 Jahren übergewichtig. Das entspricht einem Chancenverhältnis von 1 zu 11, also etwa jedes elfte Kind in Deutschland weißt Übergewicht auf, jedes 16. ist adipös^[29].

Hund oder Katze?

Welches ist das beliebteste Haustier der Deutschen? Hund! Nein, Katze! Oder doch der Wellensittich? Folgt man den Aussagen der Marktforschung, zeigen sich unterschiedliche Ergebnisse. Mal ist es der Hund, mal ist es die Katze. Vermutlich kann man sich hier gar nicht wirklich einigen. Es ist wohl eine 50:50 oder 1:1 Chance zwischen Hunden und Katzen. In diesem Fall ist die Chance bedingt auf das Spaltenverhältnis. Also das Verhältnis ob Hund oder Katze angegeben wird (bzw. als Ereignis eintritt). Haustierbesitzer decken in diesem Fall nur die Ausprägungen Hund oder Katze ab; nicht beides, keins, oder andere. Man könnte dies also als einfachen Münzwurf auffassen, entweder Kopf oder Zahl, Katze oder Hund.

Folgen wir Google Trends, zeigt sich ein klares gestiegenes Interesse in der Zeit von COVID-19 in Deutschland, was damit assoziiert sein könnte, dass mehr Leute Zeit für und Interesse an einem Hund als Haustier haben, um der sozialen Distanz zu entkommen. Von vormalige Beliebtheitswert ist von 75 Indexpunkten auf 100 gestiegen und zeigt damit größte Beliebtheit in den Suchanfragen an. Katzen hingegen sind konstant beliebt bei um die 30 Indexpunkten auf der Beliebtheitsskala.

(Eine Modellierung von GoogleTrends, die die Beliebtheit der Suchbegriffe "Hund" und "Katze" in Deutschland darstellt.)

Wie bereits im Kapitel Realität und Modelle erwähnt wurde, ist die Welt nicht binär, auch in diesem Fall nicht. Würde man weitere Kategorien mit einbeziehen (Kleintierbesitzer, Aquaristen, ...) würde sich die Wahrscheinlichkeit weiter dezimieren. Die größten Wahrscheinlichkeiten hätten aber wohl die Katzen- oder Hundebesitzenden in zufällig gezogenen Stichproben aufzutreten.

Wodurch wird es bedingt ein Haustier als Familienmitglied zu haben?

Es gibt sehr viele Gründe warum Menschen ein Haustier als neues Familienmitglied aufnehmen. Welche fallen dir spontan ein? Hast du vielleicht ein Haustier oder jemand in deiner Familie? Dann weißt du vermutlich warum.

Wahrscheinlichkeit ist also eine Hypothese, die bedingt auf Evidenz Betrachtung findet und als wahrscheinlich plausibel oder unplausibel angesehen werden kann.

Haustiere fungieren als treuer Partner, machen den Alltag manchmal lebenswerter und sind Spielpartner, Freund und besonders Hunde häufig auch Beschützer. Daraus folgt, dass besonders Familien mit Kindern, einsame Personen, ältere Personen sowie Landbesitzer Tiere in ihrer Familie haben. Wenn man dies also in einer Kontingenztabelle darstellt, müssten diese Personen, im Verhältnis zu Personen, die diese Merkmale nicht aufweisen, häufiger ein Tier besitzen. Wenn aber es andere Faktoren (Eigenschaftsdimensionen) der Personenkreise es bedingen ein Haustier zu haben, müssten die Häufigkeiten im Vergleich ungefähr gleich sein.
Dies nennt man dann stochastische Unabhängigkeit.

Zwei statistische Variablen heißen stochastisch unabhängig, wenn die relativen Häufigkeiten $h_{ij}$ in den Zellen, dem Produkt der relativen Randhäufigkeiten aus Zeile und Spalte $h_{ij} = h_{i.} * h_{.j}$ entspricht.

Natürlich ist die Wahrscheinlichkeitstheorie in der Mathematik nicht so simpel zusammengefasst, sondern in verschiedenen mathematischen Teilbereichen formal definiert und in Axiomen (gesetzesmäßigen Regeln) formuliert. Um Wahrscheinlichkeit (Stochastik) als Teilbereich zu behandeln benötigen wir Verständnis über die Mengenlehre, Logik und Grundlagen der Stichprobentheorie. Ebenso sollten wir die Axiome von Kolmogorow und Regeln der Mengenoperation und der Wahrscheinlichkeitsrechnung kennen.

Fraglich bleibt: Welche weiteren Maße gibt es, die auf diesem Prinzip der Chance aufbauen und wie kann man diese berechnen? Wie werden die Axiome von Kolmogorow formal definiert? Wie funktioniert Kombinatorik und Permutation? Wie rechnet man mit Mengen und was ist eigentlich eine Ereignismenge? Welche Regeln gelten für Mengenoperationen? Wie rechnet man mit Wahrscheinlichkeiten? Was ist der Multiplikationssatz und was ist totale Wahrscheinlichkeit?

Gemeinsam können wir diese Fragen und weitere gerne beantworten. Schreibe mir einfach eine Mail.