Urlisten, Listen, Ränge, Kontingenztabellen

19. Juni 2020

Ziehen wir eine Stichprobe aus einer Grundgesamtheit erhalten wir eine ungeordnete Liste von Elementen. Diese ungeordnete Liste wird als Urliste bezeichnet.

Um dies zu verdeutlichen, ein Beispiel:
Wir genießen gerade ein paar Süßigkeiten und haben eine Tüte Gummibärchen. Deine kleine Schwester kommt und sagt ich möchte gerne auch welche. Wir ziehen also 10 Gummibärchen aus der Tüte und erhalten:

  • rot, rot, gelb, grün, rot, orange, rot, grün, orange, grün.
  • Dies sind nun i Beobachtungen einer Eigenschaft von n=10 Objekten (n für numerus, also die Anzahl).

unsortierte Urliste

1 2 3 4 5 6 7 8 9 10
rot rot gelb grün rot orange rot grün orange grün

Da diese Darstellungsweise keine adäquade Auswertungsgrundlage bildet und bei größeren Stichproben schnell unübersichtlich wird insbesondere, wenn man mehr als eine Eigenschaft (hier: Farbe) erhebt, erstellen wir im ersten Schritt eine geordnete Urliste [13] oder eine "Rangliste".

sortierte Urliste

Rang 1 Rang 2 Rang 3 Rang 4 Rang 5 Rang 6 Rang 7 Rang 8 Rang 9 Rang 10
rot rot rot rot gelb grün grün grün orange orange

Hierbei kommt das Problem auf, dass Ränge keine wohldefinierten Statistiken sind, wie du sehen kannst gibt es Beobachtungen mit gleichen Asuprägungen der Farbe. Dies nennt man Bindungen. Strenggenommen müssten diese Bindungen, denselben Rang erhalten, da sie gleichweitig ausgeprägt sind.
Rot kommt viermal vor, also erhält rot die Listenränge 1-4 oder eine adäquate Statistik:

  • Rangsumme dieser Ränge
  • den Durchschnitt der zugewiesenen Ränge
  • Zufällig einen Wert der zugewiesenen Ränge

Rangliste

Rang 1-4 bzw.10 bzw. 2,5 2,5 2,5 2,5 5 7 7 7 9,5 9,5
rot rot rot rot gelb grün grün grün orange orange

Wollen wir aber weitergehende Auswertungen vornehmen, insbesondere mit einer Computersoftware, wird es nötig, die Ausprägungen der Eigenschaft Farbe (empirisches Relativ) in verschiedene Zahlenwerte zu überführen (numerisches Relativ) [14] .

  • Diese Zuordnung nennt man fachsprachlich homomorphe Abbildung und stellt somit eine Messung dar. Mit diesen Messwerten können wir dann weiterführende Berechnungen durchführen.
  • Sagen wir willkürlich: rot sei gleich 1, gelb sei gleich 2 grün sei gleich 3 und orange sei gleich 4.

Dein Bruder hat gesehen, dass du deiner Schwester die 10 Gummibärchen gibst. Er stellt fest:
"Typischerweise gibt es bei Gummibärchen 6 Farben. Somit können wir feststellen, dass weiß (=5) und dunkelrot (=6) nicht gezogen wurden, es liegen für diese Ausprägungen keine Beobachtungen in der Stichprobe vor".

Homomorphe Abbildung

1 1 1 1 2 3 3 3 4 4
rot rot rot rot gelb grün grün grün orange orange

Wir haben also nun die Möglichkeit zu zählen und absolute, relative und prozentuale Anteile als Statistiken über die Häufigkeiten der Eigenschaft Farbe von Gummibärchen in einer Stichprobe zu erstellen[15]. Somit erhalten wir die jeweiligen Häufigkeiten der jeweiligen Ausprägungen in der Stichprobe.

  • Deine Schwester stellt fest: "Absolut habe ich 4 rote, 1 gelben, 3 grüne, 2 orangene, 0 weiße und 0 dunkelrote Gummibärchen bekommen".

Häufigkeitstabelle

1 2 3 4 5 6
4 1 3 2 0 0

Um nun die Kontingente zu erhalten benötigen wir eine zweite Variable. Im Moment sind die Beobachtungen ja konstant nur für deine Schwester vorhanden. Wir wollen jetzt aber wissen wie viele Gümmibärchen hattest du eigentlich im Vergleich?

Kontingenztabelle

Person\Farbe 1 2 3 4 5 6 Zeilensumme
Spaltensummen a b c d e f N=38
Schwester 4 1 3 2 0 0 10
Du 6 4 7 3 6 2 28

Fraglich bleibt: Ist sie zufrieden oder möchte vielleicht doch noch mehr Gummibärchen? Wie viele wurden von jeweiligen Farben gegessen? Wie werden die anderen relativen und prozentualen Anteile berechnet? Wie wird das ganze den formal mathematisch dargestellt? Welche weiteren Statistiken kann ich auf Grundlage von Listen und Kontingenztabellen berechnen? Was hat das mit Verteilung zu tun?

Gemeinsam können wir diese Fragen und weitere gerne beantworten. Schreibe mir einfach eine Mail.