Was sind klassierte Daten?

26. Juni 2020

Klassierte qualitative oder quantitative Daten sind solche die in Klassen/Intervallen/Gruppen auf Grundlage eines gemeinsamen Charakteristikums (Eigenschaft) zusammengefasst wurden, um sie auf dieser Grundlage vergleichend auswerten zu können.

Klassierungen dienen zudem der Aggregation von Daten. Also der Hochskalierung in eine abstraktere Darstellung, dadurch erlangen wir übersichtlichere Daten und können Gemeinsamkeiten, Ähnlichkeiten sowie Unterschiede und Distanzen zwischen Gruppen oder Entitäten (einzelne Einheiten oder Beobachtungen) endecken und beschreiben [21] [22] [23] [24] .

Zudem sind klassierte Daten als erster Schritt nötig, wenn man im zweiten Schritt ein Histogramm berechnen und zeichnen möchte. Diese Art der Darstellung wird sehr häufig in den Sozial- und Wirtschaftswissenschaften genutzt, aber auch in der Psychologie, Biologie und Textanalyse kommen klassierte Daten bzw. komplexere Klassierungsverfahren zur Anwendung.

Wie bildet man Klassen?

Dies möchte ich an einem sehr intuitiven Beispiel verdeutlichen, da jeder aus seiner eigenen Erfahrung Klassierungen kennt.
Beispiel: Wir betrachten das Alter von Schülerinnen und Schülern einer Mittelschule in Duisburg. Im Regelfall wechseln Schülerinnen und Schüler im Alter von 9 oder 10 Jahren von der Grundschule in die 5. Jahrgangsstufe auf einer Hauptschule, Realschule, Gymnasium oder Förderschule. Wenn sie nicht sitzen bleiben, wechseln sie im Regelfall im Altern von 15 oder 16 Jahren von der 10. Jahrgangsstufe der Mittelschule in die Oberschule ((Fach-)Abitur) oder in Ausbildung, Praktikum, Auslandsjahr, ... und ihnen steht die Welt offen.

Wir haben nun die Information, dass Schülerinnen und Schüler zwischen 9 und 16 Jahren in der Mittelschule sind und wir wissen dass sie die 5.- 10. Jahrgangsstufe durchlaufen. Wir können also das Alter nach Jahrgangsstufe klassieren.

Es sind 6 Klassen gegeben. Im vorliegenden Beispiel befinden sich im Schnitt 148.8 Schülerinnen und Schüler in jeder der Jahrgangsstufen ( N Anzahl I ) [iv] .

Wenn man das Alter der Schülerinnen und Schüler in Klassen zusammenfasst (Aggregation), gehen Informationen über das exakte Alter verloren, daher gehen wir davon aus, dass das Alter zwischen den Klassen gleichverteilt ist und in den Klassen normalverteilt. Deshalb bildet sich als Klassenmitte das mittlere Alter aus beiden Intervallsgrenzen.

Die Klassenbreite ergibt sich immer, wenn man von der oberen Intervallsgrenze die untere Intervallsgrenze subtrahiert.

Klasse k Intervall I Anzahl n Klassenmitte m relative Häufigkeit f kummulierte rel. Häufigkeit F Klassenbreite d
Gesamtanzahl
N=893
Summe
relativer
Häufigkeiten
= 893 893
Summe
kummulierter
rel. Häufigkeiten
=1
5 I1=[9;10[ 132 9,5 132 893 132 893 ein Lebensjahr
6 I2=[10;11[ 133 10,5 133 893 265 893 1
7 I3=[11;12[ 155 11,5 155 893 420 893 a i - a i-1
8 I4=[12;13[ 163 12,5 163 893 F i-1 + f i d i
9 I5=[13;14[ 154 13,5 n N F i d i
10 I6=
[ a i-1 ; a i [
n i a i-1 + a i 2 f i F i d i

Neben dieser Art von recht willkürlichen Klassierung gibt es fortgeschrittene Klassifiktaionsverfahren [25] [26], die versuchen auf mathematisch begründete Weise mittels Ähnlichkeits- und Distanzmaßen Beobachtungen zu klassieren.

Fraglich bleibt: Welche Werte müssten in die nicht ausgefüllten Felder eingetragen werden? Wie berechnet man nun ein Histogramm aus den klassierten Daten? Wie zeichnet man ein Histogramm? Was war nochmal ein Histogramm? Wieso gehen Informationen bei diesem Verfahren verloren? Welche anderen Klassifikationsverfahren gibt es?

Gemeinsam können wir diese Fragen und weitere gerne beantworten. Schreibe mir einfach eine Mail.