Was bedeutet Regression (to the mean)?

26. Juni 2020

Wie kann man dieses Konzept mathematisch nutzen?

Das ist ein Text zu diesem Thema.

Was ist eine Regression?

Eine Regression ist ein additives Modell (lineare Gleichung) oder ein n-dimensionales Polynom.

y = a + b * x + e [v]
f(x) = a * x + a * x 2 + ... + a * x n

Eine Seite der Gleichung ist eine abhängige Variable als Funktion und die zweite ein Term, der verschiedene unabhängigen Variablen mittels Addition (und Subtraktion) kombiniert, so dass sie einen positiven oder negativen Effekt der unabhängigen Variablen auf die abhängige Variable erklären können.

Dieses Konzept ist sehr mächtig und wird in jeglichen Forschungsdisziplinen ausgiebig genutzt, um verschiedenste Fragen zu beantworten.

Wenn man sich die verschiedenen Methoden genauer anschaut, stellt man fest, dass eigentlich fast ausschließlich Regressionsmodelle in der quantitativen empirischen Forschung genutzt werden, da das Konzept eines linearen Modells immer sehr einfach als Gerüst genutzt werden kann, um es mit verschiedensten Konzepten zu füllen. Man kann dabei zwischen

Was ist also eine OLS-Regression?

Die OLS-Regression (Ordinary Least Squears) kombiniert, das Prinzip der Regression und kombiniert es mit dem Anzahl der kleinsten Fehlerquadrate. Ziel ist es eine durchschnittliche Steigung einer Geraden zu formulieren, die durch einen gemeinsamen Punkt ( x _ ; y _ ) verläuft, der die Mittelwerte der abhängigen metrisch skalierten und der beliebig skalierten unabhängigen Variablen kombiniert. Die abhängige Variable muss dabei zudem möglichst normalverteilt sein. Dabei wird für die Steigung der Geraden vorausgesetzt, dass die unerklärte Streuung (Residuuen) in Form der Fehlerquadrate minimiert werden soll. Man kann daher ein durchschnittliches Modell wie folgt formulieren:

y _ = a + b * x _

Der Wert a bezeichnet dabei die Konstante bei der die Gerade die y-Achse (Ordinate) schneidet. Der Faktor b bezeichnet die Effektstärke, der Variabeln x, oder auch die Steigung. Sie ergbibt sich aus der Relation der Kovarianz beider Variablen und der Varianz von x, also gemeinsame Streuung im Verhältnis zur Marginalstreuung der unabhängigen Variablen x.

Ein Regressionsmodell kann auch mehr als eine unabhängige Variable (multivariate Regression) umfassen.

y i = a + b 1 * x 1 + ... + b i * x p + e i

Die Interpretation der Steigungskoeffizenten b (beta) bleibt in beiden Fällen gleich [39] . Steigt die unabhängige Variable um eine Skaleneinheit, so steigt die abhängige Variabel durchschnittlich um die Effektstärke der jeweiligen unabhängigen Variabeln an (Ein Beispiel findest du unter Simulationen in R).

Wir können also nur einen Teil der Streuung der abhängigen Variablen durch die unabhängige Variable erklären.

Das e am Ende des Terms steht für error und bezeichnet den Vorhersagefehler des Modells, da ein Modell nicht perfekt ist, bleibt immer ein Rest Unsicherheit der Schätzung zurück, der hier durch die Datengrundlage angebbar wird. Wir machen schließlich nur eine durchschnittliche Schätzung des Effektes.

Fraglich bleibt: Welche weiteren formalen Voraussetzung hat eine Regression für die Anwendung? Was sind Residuuen und wie berechnet man sie? Wie formuliert man eine nicht-lineare Regression und wie interpretiert man diese? Wie überprüfe ich weitere formale Voraussetzung für die Anwendung? Wie überprüfe ich, die Stärke des Effekt der unabhängigen Variabeln auf die abhängige? Wie vergleiche ich Modelle nach ihrer Anpassung?

Gemeinsam können wir diese Fragen und weitere gerne beantworten. Schreibe mir einfach eine Mail.