Das Fotonexus-Wiki befindet sich im Testbetrieb.
Regressionsanalyse
Aus Fotonexus.
Die Regressionsanalyse ist ein statistisches Analyseverfahren. Ziel ist es, Beziehungen zwischen einer abhängigen und einer oder mehrerer unabhängigen Variablen festzustellen.
Allgemein wird eine metrische Variable Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y
betrachtet, die von einer zweiten Variablen Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): x
abhängt. Üblicherweise ist Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline{x}=(x_1,...,x_n)^T\;
ein n-dimensionaler Vektor, wobei die einzelnen Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): x
-Werte untereinander unabhängig sind. Im eindimensionalen Fall spricht man von einer einfachen linearen Regressionsanalyse, in Dimensionen größer gleich zwei von einer multiplen Regressionsanalyse.
Inhaltsverzeichnis |
Grundbegriffe
Deskriptive Regression
Im Falle einer deskriptiven Regression wird angenommen, dass die Zusammenhänge zwischen Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): x
und den Beobachtungen Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y deterministisch sind, also nicht vom Zufall abhängen. Dieser Fall lässt sich als Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y = f(x) darstellen, wobei die Funktion Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): f nicht oder nicht vollständig bekannt ist. Bei diesen deskriptiven Verfahren wird vor allem Wert auf den numerischen Aspekt der Regression gelegt. Das typische Instrument zur Analyse ist dabei die Methode der kleinsten Quadrate.
Wahrscheinlichkeitstheoretische Regression
Im Falle der wahrscheinlichkeitstheoretisch basierten Regression sind die beobachteten Variablen mit einem zufälligen Fehler Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \epsilon
behaftet, dieser Fall wird durch Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y = f(x) + \epsilon \; modelliert. Die „wahren“ Zusammenhänge zwischen Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y und Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): f(x) sind demnach nicht bekannt und müssen geschätzt oder prognostiziert werden. Entsprechend wird dieses statistische Regressionsmodell anhand von Schätz- und Testverfahren analysiert. Dennoch liegen der wahrscheinlichkeitstheoretisch basierten Regressionsanalyse immer die numerischen Verfahren der deskriptiven Regression zu Grunde.
In diesem Artikel soll vor allem auf die wahrscheinlichkeitstheoretisch basierte lineare Regression eingegangen werden.
Variablenbezeichnung
In der Regressionsanalyse unterscheidet man zwischen interessierenden und erklärenden Variablen.
- Die interessierende Variable Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y\;
wird Kriterium, abhängige Variable, Response-Variable, endogene Variable oder Zielvariable und
- die erklärenden Variablen Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): x\;
werden unabhängige Variablen, Prädiktor-Variablen, exogene Variable oder Regressoren genannt.
Es ist a priori nicht klar, welche Variablen erklärend und welche interessierend sind. Typischerweise wählt man diejenige Variable als Response, die eine natürliche Variabilität aufweist. Ein einfaches Beispiel ist die Darstellung des Körpergewichts in kg (hier: Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y ) in Abhängigkeit von der Körpergröße in cm (hier: Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): x ). Man sieht, dass der Response Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y
und die Kovariable Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): x nicht vertauschbar sind, da die Körpergröße ab einem bestimmten Alter unverändert bleibt.
Zusammenhangsarten zwischen Variablen
Man verwendet zur Beschreibung eines Zusammenhangs zwischen der abhängigen Variable Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y
und der (oder den) unabhängigen Variablen Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): x unterschiedliche Funktionen. Diese unterscheiden sich in ihrer Komplexität. Lineare Funktionen wie die Ursprungsgerade sind dabei die einfachsten funktionalen Zusammenhänge. In diesem Fall wird angenommen, dass das interessierende Merkmal Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y gut durch eine lineare Kombination anderer Merkmale Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): x erklärt werden kann (lineare Regression). Die Gewichtung der Einflüsse der erklärenden Merkmale wird dabei aus Daten geschätzt. Ein lineares Regressionsmodell hat den Vorteil, dass es zum Beispiel mittels kleinster Quadrate exakt berechnet werden kann. Betrachtet man den Fall mit nur einer unabhängigen Variablen, so spricht man von linearer Einfachregression.
Nichtlineare Systeme müssen dagegen meist näherungsweise gelöst werden. Häufig können diese Regressionsmodelle dann nicht mehr wahrscheinlichkeitstheoretisch analysiert werden. Solche Regressionen sind beispielsweise die Geometrische Regression, Exponentielle Regression oder Potenzielle Regression. Bei der Logarithmischen Regression, welche nicht mit der Logistischen Regression zu verwechseln ist, arbeitet man, wie der Name bereits vermuten lässt, mit folgendem Ansatz für die Regression:
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y = \beta_0 + \beta_1 \log{x} + \epsilon\;
.
Die gängigen Statistik-Software-Pakete bieten diese Berechnungen heute automatisiert.
Dies kann für den Fall mit mehreren exogenen Variablen erweitert werden, wobei diese wiederum von mehreren abhängigen Variablen erklärt werden. Die abhängigen Variablen der einen Gleichung können hierbei als erklärende Variablen in einer anderen Gleichung erscheinen. Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y
und Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): X werden dann durch Vektoren dargestellt (Ökonometrisches Modell).
Einfache Lineare Regression
Bei der einfachen linearen Regression liegen Daten der Form Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): (y_i, x_i), i=1,\ldots, n
vor. Als Modell wählt man
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y_i = \beta_0 + \beta_1 x_i + \epsilon_i\; ,
man nimmt somit einen linearen Zusammenhang zwischen Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): x_i
und Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y_i an. Die Daten Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): y_i werden als Realisierungen der Zufallsvariablen Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y_i angesehen, die Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): x_i sind nicht stochastisch, sondern Messstellen. Ziel der Regressionsanalyse ist in diesem Fall die Bestimmung der unbekannten Parameter Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \beta_0 und Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \beta_1
.
Annahmen
Damit die Regressionsschätzungen inferentiell analysiert werden können, müssen für das lineare Regressionsmodell bestimmte Annahmen erfüllt sein:
1. Bezüglich der Störgröße Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \epsilon_i
- Der Zufallsvektor Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline{\epsilon}=(\epsilon_1,\ldots,\epsilon_n)^T
ist verteilt mit dem Erwartungswertvektor Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): 0
, d.h. Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): E(\underline{\epsilon})=0
.
- Die Zufallsvariablen Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \epsilon_i
sind stochastisch unabhängig voneinander d. h. Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \Sigma_\epsilon=\mbox{Cov}(\underline{\epsilon})= \sigma^2I_n\;
, wobei Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): I_n
die Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): n dimensionale Einheitsmatrix bezeichnet. Dies kann man genauer auch schreiben als
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \mbox{Cov}(\epsilon_i,\epsilon_j)=\delta_{ij} \sigma^2, i=1,\ldots, n\;
,
- wobei Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \delta_{ij}
das Kronecker-Delta bezeichnet. Hierbei gilt
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \delta_{ij} = \begin{cases} 1 & \mbox{falls} \ i=j \\ 0 & \mbox{sonst} \end{cases}
,
- das heißt die Fehler sind unkorreliert mit homogener Varianz.
2. Die Datenmatrix Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline{X} , welche im Abschnitt zur multiplen Regression explizit angegeben ist, ist fest vorgegeben.
3. Die Datenmatrix Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline{X}
hat den Rang Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): (p+1)
.
- In der ersten Annahme haben also alle Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \epsilon_i
die gleiche Varianz (Homoskedastie) und sie sind paarweise unkorreliert. Man interpretiert dies so, dass die Störgröße keinerlei Information enthalten darf und nur zufällig streut. Deshalb kann Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y nur durch Informationen aus Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline{X} erklärt werden.
- Die zweite Annahme hält Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline{X}
konstant.
- Die dritte Annahme ist für eine eindeutige Lösung des Regressionsproblems erforderlich.
Beispiel
Als nächstes wird die einfache lineare Einfachregression anhand eines größeren Beispiels dargestellt.
Eine renommierte Sektkellerei möchte einen hochwertigen Rieslingsekt auf den Markt bringen. Für die Festlegung des Abgabepreises soll zunächst eine Preis-Absatz-Funktion ermittelt werden. Dazu wurde in Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): n = 6
Geschäften ein Testverkauf durchgeführt. Man erhielt sechs Wertepaare mit dem Ladenpreis Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): x (in Euro) einer Flasche und die verkaufte Menge Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): y an Flaschen:
| Laden | i | 1 | 2 | 3 | 4 | 5 | 6 |
| Preis einer Flasche | Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): x_i | 20 | 16 | 15 | 16 | 13 | 10 |
| verkaufte Menge | Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): y_i | 0 | 3 | 7 | 4 | 6 | 10 |
Als Streudiagramm von Preis und abgesetzter Menge an Sektflaschen ergibt sich folgende Grafik.
Berechnung der Regressionsgeraden
Man geht von folgendem statistischen Modell aus:
Man betrachtet zwei Variablen Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): y
und Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): x
, die vermutlich ungefähr in einem linearen Zusammenhang
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y \approx \alpha + \beta x
stehen. Auf die Vermutung des linearen Zusammenhangs kommt man, wenn man das obige Streudiagramm betrachtet, dort erkennt man, dass die eingetragenen Punkte nahezu auf einer Linie liegen. Im Weiteren sind Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): x
als unabhängige und Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y als abhängige Variable definiert. Es existieren von Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): x und Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): y je Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): n Beobachtungen Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): x_i und Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): y_i
, wobei Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): i
von 1 bis Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): n geht. Der funktionale Zusammenhang Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y = f(x) zwischen Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): x und Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y kann nicht exakt festgestellt werden, da Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \alpha + \beta x von einer Störgröße Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \epsilon überlagert wird. Diese Störgröße ist als Zufallsvariable (der Grundgesamtheit) konzipiert, die nichterfassbare Einflüsse (menschliches Verhalten oder Messungenauigkeiten oder ähnliches) darstellt. Es ergibt sich also das Modell
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y = \alpha + \beta x + \epsilon \;
oder genauer Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): y_i = \alpha + \beta x_i + \epsilon_i \;.
Da Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \alpha
und Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \beta nicht bekannt sind, kann Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): y nicht in die Komponenten Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \alpha + \beta x und Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \epsilon zerlegt werden. Des Weiteren soll eine mathematische Schätzung für die Parameter Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \alpha und Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \beta durch Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): a und Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): b gefunden werden, damit ergibt sich
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): y_i = a + bx_i + e_i\,
mit dem Residuum Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): e_i
der Stichprobe. Das Residuum gibt die Differenz zwischen der Regressionsgerade Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): a + bx_i
und den Messwerten Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): y_i
an. Des Weiteren bezeichnet man mit Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \hat{y}_i
den Schätzwert für Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): y_i
und es gilt
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \hat{y}_i = a + bx_i
und somit kann man das Residuum schreiben als Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): e_i = y_i - \hat{y}_i
.
Es gibt verschiedene Möglichkeiten, die Gerade zu schätzen. Man könnte eine Gerade so durch den Punkteschwarm legen, dass die Quadratsumme der Residuen, also der senkrechten Abweichungen Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): e_i
der Punkte von dieser Ausgleichsgeraden minimiert wird. Trägt man die wahre unbekannte und die geschätzte Regressionsgerade in einer gemeinsamen Grafik ein, dann ergibt sich folgende Abbildung.
Diese herkömmliche Methode ist die Minimum-Quadrat-Methode oder Methode der kleinsten Quadrate. Man minimiert die summierten Quadrate der Residuen,
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): RSS = SS_{Res} = \sum_{i=1}^n e_i^2 = \sum_{i=1}^n (y_i - (a + bx_i))^2 \rightarrow min!
bezüglich Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): a
und Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): b
. Durch partielles Differenzieren und Nullsetzen der Ableitungen erster Ordnung erhält man ein System von Normalgleichungen.
Die gesuchten Regressionskoeffizienten sind die Lösungen
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): b = \frac{\frac{1}{n} \sum_{i=1}^n (x_i- \bar x)(y_i- \bar y)}{\frac{1}{n} \sum_{i=1}^n (x_i- \bar x)^2} = \frac{\sum_{i=1}^n (x_i- \bar x)(y_i- \bar y)}{\sum_{i=1}^n (x_i- \bar x)^2} = \frac{SS_{xy}}{SS_{xx}}
und
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): a = \bar y - b \bar x
mit Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \bar x
als arithmetischem Mittel der Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): x
-Werte und Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \bar y
als arithmetischem Mittel der Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): y
-Werte. Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): SS_{xy}
stellt die empirische Kovarianz zwischen den
Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): x_i
und Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): y_i
dar. Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): SS_{xx}
bezeichnet die empirische Varianz der Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): x_i
. Man nennt diese Schätzungen auch Kleinste-Quadrate-Schätzer (KQ) oder Ordinary Least Squares-Schätzer (OLS).
Für das folgende Zahlen-Beispiel ergibt sich Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \bar{x}=15
und Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \bar{y}=5
. Somit erhält man die Schätzwerte für Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): a
und Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): b durch einfaches Einsetzen in obige Formeln. Zwischenwerte in diesen Formeln sind in folgender Tabelle dargestellt.
| Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): i | Flaschenpreis Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): x_i | verkaufte Menge Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): y_i | Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): x_i-\bar x | Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): y_i-\bar y | Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): (x_i-\bar x)(y_i-\bar y) | Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): (x_i-\bar x)(x_i-\bar x) | Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): (y_i-\bar y)(y_i-\bar y) | Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \hat{y}_i |
| 1 | 20 | 0 | 5 | -5 | -25 | 25 | 25 | 0,09 |
| 2 | 16 | 3 | 1 | -2 | -2 | 1 | 4 | 4,02 |
| 3 | 15 | 7 | 0 | 2 | 0 | 0 | 4 | 5,00 |
| 4 | 16 | 4 | 1 | -1 | -1 | 1 | 1 | 4,02 |
| 5 | 13 | 6 | -2 | 1 | -2 | 4 | 1 | 6,96 |
| 6 | 10 | 10 | -5 | 5 | -25 | 25 | 25 | 9,91 |
| Total | 90 | 30 | 0 | 0 | -55 | 56 | 60 | 30,00 |
Es ergibt sich in dem Beispiel
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): b = \frac{-55}{56} = -0,98 \;
und Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): a = 5 - (-0,98) \cdot 15 = 19,73 \;
.
Die geschätzte Regressionsgerade lautet somit
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \hat{y}_i =19,73-0,98 \cdot x_i \;
,
so dass man vermuten kann, dass bei jedem Euro mehr der Absatz im Durchschnitt um ungefähr eine Flasche sinkt.
Multiple Regression
Im folgenden wird ausgehend von der einfachen linearen Regression die multiple Regression eingeführt. Der Response Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y
hängt linear von mehreren fest vorgegebenen Kovariablen Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): x_1,\ldots, x_p ab, somit erhält man die Form
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y = \beta_0 + \beta_1 x_1 + \beta_2 x_2+ ... +\beta_p x_p + \epsilon \
wobei Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \epsilon
wieder die Störgröße repräsentiert. Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \epsilon ist eine Zufallsvariable und daher ist Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y als lineare Transformation von Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \epsilon ebenfalls eine Zufallsvariable. Es liegen für die Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): x_j
, wobei Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): j= 1,\ldots,p , und Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y
je Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): n viele Beobachtungen vor, so dass sich für die Beobachtungen Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): i
, wobei Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): i=1,\ldots, n , das Gleichungssystem
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2}+ \cdots +\beta_p x_{ip} + \epsilon_i
ergibt. Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): p
gibt somit die Anzahl der Kovariablen oder die Dimension des Kovariablenvektors Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline{x}=(x_{i1},\ldots, x_{ip})^T
an. In der einfachen linearen Regression wurde nur der Fall Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): p=1
betrachtet, ausgehend davon wird nun die multiple Regression als Verallgemeinerung dessen mit Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): p \geq 2
präsentiert. Als stichprobentheoretischer Ansatz wird jedes Stichprobenelement Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \epsilon_i
als eine eigene Zufallsvariable interpretiert und ebenso so jedes Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y_i
.
Da es sich hier um ein lineares Gleichungssystem handelt, können die Elemente des Systems in Matrix-Schreibweise zusammengefasst werden. Man erhält den Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): (n \times 1)
Spaltenvektore der abhängigen Variablen Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y und der Störgröße Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \epsilon als Zufallsvektoren und den Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): ((p+1) \times 1) Spaltenvektor der Regressionskoeffizienten Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \beta_j
, wobei Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): j=0,\ldots,p ,
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline Y= \begin{pmatrix} Y_1 \\ Y_2 \\ \vdots \\ Y_i \\ \vdots\\ Y_n \end{pmatrix} \in \mathbb{R}^{n \times 1} \;,
Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline \epsilon= \begin{pmatrix} \epsilon_1 \\ \epsilon_2 \\ \vdots\\ \epsilon_i \\ \vdots\\ \epsilon_n \end{pmatrix} \in \mathbb{R}^{n \times 1} \;
und Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline \beta= \begin{pmatrix} \beta_0 \\ \beta_1 \\ \beta_2 \\ \vdots\\ \beta_j \\ \vdots\\ \beta_p \end{pmatrix} \in \mathbb{R}^{(p+1) \times 1} \;
.
Die Datenmatrix Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline{X}
lautet in ausgeschriebener Form
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline X= \begin{pmatrix} 1&x_{11}& x_{12}& \cdots &x_{1j}&\cdots &x_{1p}\\ 1&x_{21}& x_{22}& \cdots &x_{2j}&\cdots &x_{2p}\\ \vdots& & & & &\vdots \\ 1&x_{i1}& x_{i2}& \cdots &x_{ij}&\cdots &x_{ip}\\ \vdots& & & & &\vdots \\ 1&x_{n1}& x_{n2}& \cdots &x_{nj}&\cdots &x_{np} \end{pmatrix} \in \mathbb{R}^{(n \times(p+1))}
.
Die Einsen in der ersten Spalte gehören zum Absolutglied Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \beta_0 . Des Weiteren trifft man, wie bereits im Abschnitt zur einfachen linearen Regression erwähnt, die Annahmen
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): E(\underline{\epsilon}) = 0 \
und Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \mbox{Cov}(\underline{\epsilon})=\sigma^2 I_n
.
Somit gilt für Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline{Y}
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): E(\underline{Y}) = \underline{X} \underline{\beta}
und Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \mbox{Cov}(\underline{Y})=\sigma^2 I_n
.
Ferner lässt sich das Gleichungssystem nun erheblich einfacher darstellen als
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline Y = \underline X \underline \beta + \underline \epsilon
.
Schätzung der Regressionskoeffizienten
Auch im multiplen linearen Regressionsmodell wird die Quadratsumme der Residuen nach der Methode der kleinsten Quadrate minimiert. Man erhält als Lösung mit Hilfe des Gauß-Markow-Theorems den Vektor der geschätzten Regressionskoeffizienten als
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline b = \begin{pmatrix} b_0 \\ b_1 \\ b_2 \\ ...\\ b_j \\ ...\\ b_p \end{pmatrix} = (\underline {X}^T \underline X )^{-1} \underline {X}^T \underline Y
.
Dieser Schätzer ist BLUE (Best Linear Unbiased Estimator), also der beste (erwartungstreu mit kleinster Varianz) lineare unverzerrte Schätzer. Für die Eigenschaften der Schätzfunktion Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline{b}
muss also keine Verteilungsinformation der Störgröße vorliegen.
Man erhält mit Hilfe des Minimum-Quadrat-Schätzers Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline{b}
das Gleichungssystem
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline Y = \underline X \underline b + \underline e = \hat{\underline{Y}} + \underline e \;,
wobei Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline{e}
der Vektor der Residuen und Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \hat{\underline{Y}}
die Schätzung für Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline{Y}
ist. Das Interesse der Analyse liegt vor allem in der Schätzung Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \hat{\underline{Y}}_0
oder auch Prognose der abhängigen Variablen Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline{Y}
für ein gegebenes Tupel von Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline{x}_0
. Die berechnet sich als
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \hat{\underline{Y}}_0 = b_0 + b_1 x_{01} + b_2 x_{02}+ ... + b_p x_{0p}=\underline{x}_0^T \underline{b}
.
Ausgewählte Schätzfunktionen
Die Schätzwerte der Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y_i
berechnen sich als
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \hat{\underline Y} = \underline {Xb} = \underline X (\underline X ^T \underline X )^{-1} \underline X ^T \underline Y
,
wobei man dies auch kürzer als
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \hat{\underline Y} = \underline H \underline Y
mit Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline{H} \in \mathbb{R}^{n \times n}
schreiben kann. Die Matrix Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline{H}
ist idempotent und maximal vom Rang Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): p+1
. Sie wird auch Hat-Matrix genannt, weil sie Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline{Y}
den „Hut“ aufsetzt.
Die Residuen werden ermittelt als
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline e = \underline{Y}-\hat{\underline{Y}} = \underline Y - \underline {Xb} = \underline Y - \underline H \underline Y = (I_n - \underline H) \underline Y
,
wobei Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): (I_n - \underline H)
mit Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline{H}
vergleichbare Eigenschaften hat.
Die Prognose Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline{\hat{Y}}_0
wird ermittelt als
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline{\hat{Y}}_0 = (1, x_{01}, \cdots, x_{0p}) (\underline X ^T \underline X )^{-1} \underline X ^T \underline Y
.
Da Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline{X}
fest vorgegeben ist, kann man alle diese Variablen als lineare Transformation von Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline{Y}
und damit von Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline{\epsilon}
darstellen, und deshalb können auch ihr Erwartungswertvektor und ihre Kovarianzmatrix unproblematisch ermittelt werden.
Die Quadratsumme Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): SS_{Res}
(von engl. „residual sum of squares“) der Residuen ergibt in Matrix-Notation
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): SS_{Res} = \underline {e}^T \underline e = \underline {Y}^T (I_n - \underline H)^T (I_n - \underline H) \underline Y = \underline Y^T (I_n - \underline H) \underline Y
.
Dies kann ferner auch geschrieben werden als
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): SS_{Res} = \underline {e}^T \underline e = ||Y-\hat{Y} ||_2^2=\sum\limits_{i=1}^{n}(Y_i-\hat{Y}_i)^2
.
Die Varianz wird mit Hilfe der Residuen geschätzt, und zwar als mittlere Quadratsumme der Residuen
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): s^2 = \hat \sigma^2 = \frac{SS_{Res}}{(n-p)}=\frac{\sum\limits_{i=1}^{n}(Y_i-\hat{Y}_i)^2}{(n-p)} \;
.
Schätzen und Testen
Für die inferentielle Regression (Schätzen und Testen) wird noch die Information über die Verteilung der Störgröße Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \epsilon
gefordert. Man hat hier eingeführt als zusätzliche Annahme zu den bereits weiter oben aufgeführten Annahmen
4. Die Störgröße Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \epsilon_i
ist normalverteilt.
Zusammen mit der 1. Annahme erhält man für die Verteilung des Vektors der Störgröße:
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline \epsilon \sim N(\underline 0, \sigma^2 I_n)
,
wobie Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline{0}
den Nullvektor bezeichnet. Hier sind unkorrelierte Zufallsvariablen auch stochastisch unabhängig.
Da die interessierenden Schätzer zum größten Teil lineare Transformationen von Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline{\epsilon}
sind, sind sie ebenfalls normalverteilt mit den entsprechenden Parametern. Ferner ist die Quadratsumme der Residuen als nichtlineare Transformation χ2-verteilt mit Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): n-p Freiheitsgraden.
Beweisskizze: Sei
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline{w}=\underline{Y}-\underline{X}\underline{\beta}
,
damit erhält man
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline{w}^T(I_n-\underline{H})\underline{w}/\sigma^2=(\underline{Y}-\underline{X}\underline{\beta})^T (I_n-\underline{H}) (I_n-\underline{H})\underline{Y}-\underline{X}\underline{\beta} / \sigma^2
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): =\underline{Y}^T (I_n-\underline{H})\underline{Y}/\sigma^2
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): =SS_{Res} / \sigma^2 \sim \chi^2_{n-p}
.
Wobei
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): (I_n - \underline{H})\underline{X}=0
und der Satz von Cochran verwendet wurde.
Ferner gilt ebenso
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): SS_{Reg} / \sigma^2 \sim \chi^2_{n-1}
.
Betrachte hierzu auch den Artikel Bestimmtheitsmaß.
Güte des Regressionsmodells
Hat man eine Regression ermittelt, ist man auch an der Güte dieser Regression interessiert. Häufig verwendet wird als Maß für die Güte das Bestimmtheitsmaß Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): R^2 . Generell gilt, je näher der Wert des Bestimmtheitsmaßes bei 1, desto größer ist die Güte der Regression. Ist das Bestimmtheitsmaß klein, kann man seine Signifikanz durch die Hypothese H0: R2 = 0 mit der Prüfgröße
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): F = \frac{SS_{Reg}/(n-1)}{SS_{Res}/(n-p)}=\frac{\frac{SS_{Reg}}{SS_{SS_{Total}}}/(n-1)} {\frac{SS_{Res}}{SS_{SS_{Total}}}/(n-p)}=\frac{R^2/(n-1)}{(1-R^2)/(n-p)} \sim F_{n-1, n-p}
testen. F ist F-verteilt mit n-1 und n-p Freiheitsgraden. Überschreitet die Prüfgröße bei einem Signifikanzniveau α den kritischen Wert F(1-α; n-1; n-p), das (1-α)-Quantil der F-Verteilung mit n-1 und n-p Freiheitsgraden, wird H0 abgelehnt. R2 ist dann ausreichend groß, Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): X
trägt also vermutlich genügend viel Information zur Erklärung von Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y bei. Die Residualanalyse, bei der man die Residuen über den unabhängigen Variablen aufträgt, gibt Aufschluss über
- die Richtigkeit des angenommenen linearen Zusammenhangs,
- mögliche Ausreißer,
- Homoskedastie, Heteroskedastie.
Ein Ziel bei der Residualanalyse ist es, dass man die Voraussetzung der unbeobachteten Residuen Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \epsilon_i
überprüft. Hierbei ist es wichtig zu beachten, dass
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): e_i \neq \epsilon_i
gilt. Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): e_i
ist mit der Formel Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): e_i = y_i - \hat{y}_i
berechenbar. Im Gegensatz hierzu ist die Störgröße Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \epsilon_i
nicht berechenbar oder beobachtbar. Nach den oben getroffenen Annahmen soll für das Modell gelten
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Var(\epsilon_i) = \sigma^2 \;
,
es liegt somit eine Varianzhomogenität vor. Dieses Phänomen wird auch als Homoskedastie bezeichnet. Und ist auf die Residuen übertragbar. Dies bedeutet, dass wenn man die unabhängigen Variablen Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): x
gegen die Residuen Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): e aufträgt, dass dann keine systematischen Muster erkennbar sein sollten.
In der folgenden Grafik werden unabhängigen Variablen Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): x
gegen die Residuen Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): e geplottet.
In dieser Grafik sieht man, dass kein erkennbares Muster in den Residuen vorliegt. Somit ist die Annahme der Varianzhomogenität erfüllt. Anschließend werden zwei Grafiken aufgeführt, bei denen diese Annahme nicht erfüllt ist.
Bei der linken Abbildung erkennt man ein Muster, welches an die Sinus-Funktion erinnert. Somit wäre hier eine Daten-Transformation in der Form
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): a \sin(t x_i + c)\;
denkbar. Bei der rechten Abbildung erkennt man ein Muster, welches die Form einer Parabel annimmt. Somit wäre hier eine Daten-Transformation in der Form
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): a(x_i-c)^2\;
angebracht.
Beitrag der einzelnen Regressoren zur Erklärung von y
Man ist daran interessiert, ob man einzelne Parameter oder Kovariablen aus dem Regressionsmodell entfernen kann. Dies ist dann möglich, falls ein Parameter Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \beta_j
gleich Null ist, somit testet man die Nullhypothese H0: βj = 0. Das heißt man testet, ob der Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): j
-te Parameter gleich Null ist, falls dies der Fall ist, kann die zugehörige Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): j -te Kovariable Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): X_j
aus dem Modell entfernt werden. Der Vektor b ist als lineare Transformation von Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Y verteilt wie
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline b \sim N(\underline \beta; \sigma^2 {(\underline X^T \underline X)}^{-1})
.
Wenn man die Varianz der Störgröße schätzt, erhält man für die geschätzte Kovarianzmatrix
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \underline S = se(b_j)^2 (\underline X^T \underline X)^{-1}
.
Die geschätzte Varianz se(bj)2 eines Regressionskoeffizienten bj steht als j-tes Diagonalelement in der geschätzten Kovarianzmatrix. Es ergibt sich die Prüfgröße
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): t_j = \frac {b_j}{se(b_j)} \sim t_{n-p}
,
die t-verteilt ist mit n-p Freiheitsgraden. Ist Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): |t_j|
größer als der kritische Wert t(1-α/2; n-p), dem (1-α/2)-Quantil der t-Verteilung mit n-p Freiheitsgraden, wird die Hypothese abgelehnt. Somit wird die Kovariable Xj im Modell beibehalten und der Beitrag des Regressors Xj zur Erklärung von Y ist signifikant groß.
Prognose
Ermittelt man einen Prognosewert, möchte man möglicherweise wissen, in welchem Intervall sich die prognostizierten Werte mit einer festgelegten Wahrscheinlichkeit bewegen. Man wird also ein Konfidenzintervall für den durchschnittlichen Prognosewert E(Y0) ermitteln. Es ergibt sich als Varianz der Prognose
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): Var (\underline{\hat{Y}}_0) = \sigma^2 (1; x_{01}; x_{02}; \cdots ) (\underline X ^T \underline X )^{-1} \begin{pmatrix} 1 \\ x_{01}\\ x_{02}\\ \vdots \end{pmatrix}=\sigma^2 \underline{x}_0^T (\underline X ^T \underline X )^{-1} \underline{x}_0
.
Man erhält dann als (1-α)-Konfidenzintervall für den durchschnittlichen Prognosewert mit geschätzter Varianz
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): [\underline{\hat{Y}}_0 - s \cdot t_{1-\alpha /2; n-p} \; ; \; \underline{\hat{Y}}_0 + s \cdot t_{1-\alpha /2; n-p}]
.
Speziell für den Fall der einfachen linearen Regression ergibt das
- Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): \left[ \underline{\hat{Y}}_0 - t_{1- \alpha/2 ; n-p} \cdot s \cdot \sqrt { 1 + \frac {1}{n} + \frac {(x_0 - \bar x)^2} { \sum_{i=1}^n (x_i - \bar x)^2 }} \; ; \; \underline{\hat{Y}}_0 + t_{1- \alpha/2 ; n-p} \cdot s \cdot \sqrt {1 + \frac {1}{n} + \frac {(x_0 - \bar x)^2} { \sum_{i=1}^n (x_i - \bar x)^2 }} \right]
Speziell aus dieser Form des Konfidenzintervalls erkennt man sofort, dass das Konfidenzintervall breiter wird, wenn die exogene Prognosevariable x0 sich vom „Zentrum“ der Daten entfernt. Schätzungen der endogenen Variablen sollten also im Beobachtungsraum der Daten liegen, sonst werden sie sehr unzuverlässig.
Beispiel
Zur Illustration der multiplen Regression wird im folgenden Beispiel untersucht, wie die abhängige Variable Y: Bruttowertschöpfung (in Preisen von 95; bereinigt, Mrd. Euro) von den unabhängigen Variablen „Bruttowertschöpfung nach Wirtschaftsbereichen Deutschland (in jeweiligen Preisen; Mrd. EUR)“ abhängt. Die Daten sind im Artikel Regressionsanalyse/Datensatz angegeben. Da man in der Regel die Berechnung eines Regressionsmodell am Computer durchführt, wird in diesem Beispiel exemplarisch dargestellt, wie eine multiple Regression mit der Statistik-Software R durchgeführt werden kann.
| Variable | Beschreibung der Variablen |
|---|---|
| BWSb95 | Bruttowertschöpfung in Preisen von 95 (bereinigt) |
| BBLandFF | Bruttowertschöpfung von Land- und Forstwirtschaft, Fischerei |
| BBProdG | Bruttowertschöpfung des produzierenden Gewerbes ohne Baugewerbe |
| BBBau | Bruttowertschöpfung im Baugewerbe |
| BBHandGV | Bruttowertschöpfung von Handel, Gastgewerbe und Verkehr |
| BBFinVerm | Bruttowertschöpfung durch Finanzierung, Vermietung und Unternehmensdienstleister |
| BBDienstÖP | Bruttowertschöpfung von öffentlichen und privaten Dienstleistern |
Zunächst lässt man sich ein Streudiagramm ausgeben, in diesem erkennt man, dass die gesamte Wertschöpfung offensichtlich mit den Wertschöpfungen der wirtschaftlichen Bereiche positiv korreliert ist. Dies erkennt man daran, dass die Datenpunkte in der ersten Spalte der Grafik in etwa auf einer Geraden mit einer positiven Steigung liegen. Auffällig ist, dass die Wertschöpfung im Baugewerbe negativ mit den anderen Sektoren korreliert. Dies erkennt man daran, dass in der vierten Spalte die Datenpunkte näherungsweise auf einer Geraden mit einer negativen Steigung liegen.
In einem ersten Schritt gibt man das Modell mit allen Kovariablen in R ein
lm(BWSb95~BBLandFF+BBProdG+BBBau+BBHandGV+BBFinVerm+BBDienstÖP)
Anschließend lässt man sich in R ein Summary des Modells mit allen Kovariablen ausgeben, dann erhält man folgende Auflistung.
Residuals:
Min 1Q Median 3Q Max
-1.5465 -0.8342 -0.1684 0.5747 1.5564
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 145.6533 30.1373 4.833 0.000525 ***
BBLandFF 0.4952 2.4182 0.205 0.841493
BBProdG 0.9315 0.1525 6.107 7.67e-05 ***
BBBau 2.1671 0.2961 7.319 1.51e-05 ***
BBHandGV 0.9697 0.3889 2.494 0.029840 *
BBFinVerm 0.1118 0.2186 0.512 0.619045
BBDienstÖP 0.4053 0.1687 2.402 0.035086 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.222 on 11 degrees of freedom
Multiple R-Squared: 0.9889, Adjusted R-squared: 0.9828
F-statistic: 162.9 on 6 and 11 DF, p-value: 4.306e-10
Der Test auf Güte des gesamten Regressionsmodells ergibt eine Prüfgröße von F = 162.9. Diese Prüfgröße hat einen p-Wert von Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): 4.306 \cdot 10^{-10} , somit ist die Anpassung signifikant gut.
Die Analyse der einzelnen Beiträge der Variablen (Tabelle Coefficients) des Regressionsmodells ergibt bei einem Signifikanzniveau von 0.05, dass die Variablen BBLandFF und BBFinVerm offensichtlich die Variable BWSB95 nur unzureichend erklären können. Dies erkennt man daran, dass die zugehörigen t-Werte zu diesen beiden Variablen verhältnismäßg klein sind, und somit die Hypothese, dass die Koeffizienten dieser Variablen Null sind, nicht verworfen werden kann.
Die Variablen BBHandGV und BBDienstÖP sind gerade noch signifikant. Besonders stark korreliert ist Y (in diesem Beispiel also BWSb95) mit den Variablen BBProdG und BBBau, was man an den zugehörigen hohen t-Werten erkennen kann.
Im nächsten Schritt werden die insignifikanten Kovariablen BBLandFF und BBFinVerm aus dem Modell entfernt.
lm(BWSb95~BBProdG+BBBau+BBHandGV+BBDienstÖP)
Anschließend lässt man sich wiederum ein Summary des Modells ausgeben, dann erhält man folgende Auflistung.
Residuals:
Min 1Q Median 3Q Max
-1.34447 -0.96533 -0.05579 0.82701 1.42914
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 158.00900 10.87649 14.528 2.05e-09 ***
BBProdG 0.93203 0.14115 6.603 1.71e-05 ***
BBBau 2.03613 0.16513 12.330 1.51e-08 ***
BBHandGV 1.13213 0.13256 8.540 1.09e-06 ***
BBDienstÖP 0.36285 0.09543 3.802 0.0022 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.14 on 13 degrees of freedom
Multiple R-Squared: 0.9886, Adjusted R-squared: 0.985
F-statistic: 280.8 on 4 and 13 DF, p-value: 1.783e-12
Dieses Modell liefert eine Prüfgröße von F = 280.8. Diese Prüfgröße hat einen p-Wert von Parser-Fehler (Das temporäre Verzeichnis für mathematische Formeln kann nicht angelegt oder beschrieben werden.): 1.783 \cdot 10^{-12} , somit ist die Anpassung besser als im ersten Modell. Dies ist vor allem darauf zurückzuführen, dass in dem jetzigen Modell alle Kovariablen signifikant sind.
Spezielle Anwendungen der Regressionsanalyse
Für quantitative Wirtschaftsanalysen im Rahmen der Regressionsanalyse, beispielsweise der Ökonometrie, sind besonders geeignet:
- Wachstumsfunktionen, wie zum Beispiel das Gesetz des organischen Wachstums oder die Zinseszinsrechnung,
- Abschwingfunktionen, wie zum Beispiel die hyperbolische Verteilungsfunktion oder die Korachsche Preisfunktion,
- Schwanenhalsfunktionen, wie zum Beispiel die logistische Funktion, die Johnson-Funktion oder die Potenzexponentialfunktion,
- degressive Saturationsfunktionen, wie zum Beispiel die Gompertz-Funktion oder die Törnquist-Funktion.
Siehe auch
- Korrelationskoeffizient
- Messfehler
- Dummy-Variable
- Faktorenanalyse
- Ausgleichsrechnung
- Response (Mathematik)
- Generalisierte Lineare Modelle
Literatur
- Draper, Norman R. und Smith Harry: Applied Regression Analysis, 1998, New York: Wiley
- Opfer, Gerhard: Numerische Mathematik für Anfänger, 2. Auflage, 1994, Vieweg Verlag
- Oppitz, Volker/Nollau, Volker: Taschenbuch Wirtschaftlichkeitsrechnung, Carl Hanser Verlag 2003, 400 S., ISBN 3446224637
- Oppitz, Volker Gabler Lexikon Wirtschaftlichkeitsberechnung, Gabler-Verlag 1995, 629 S., ISBN 3409199519
- Schönfeld, Peter: Methoden der Ökonometrie, Berlin, Frankfurt, 1969
- Urban, Dieter/ Mayerl, Jochen: Regressionsanalyse: Theorie, Technik und Anwendung, 2. überarb. Auflage, 2006, Wiesbaden: VS Verlag, ISBN 3531337394
- Zeidler E. (Hrsg.): Taschenbuch der Mathematik (bekannt als Bronstein und Semendjajew), Stuttgart, Leipzig, Wiesbaden 2003
- Backhaus, K. et al.: Multivariate Analysemethoden - Eine anwendungsorientierte Einführung. 10. Auflage, Berlin et al. 2003
Weblinks
| <imagemap>-Fehler: Bild ist ungültig oder nicht vorhanden | Wikibooks: Einführung in die Regressionsrechnung – Lern- und Lehrmaterialien |
| Dieses Dokument entstammt in seiner ersten oder einer späteren Version der deutschsprachigen Wikipedia. Es ist dort zu finden unter dem Stichwort Regressionsanalyse, die Liste der bisherigen Autoren befindet sich in der Versionsliste; die Originalfassung kann dort auch bearbeitet werden. Alle Texte der Wikipedia und ihre Derivate stehen unter der GNU-Lizenz für freie Dokumentation. |
- Selbstlernkurs zur Einführung in den Begriff der Regressionsgeraden
- Auswerten bivariater Datenerhebungen (Regressionsgerade, Korrelationskoeffizient)
- Beispiele zur Kreisregression und Exponentialregression
- Java-Programm zur Bestimmung einer Regressionsellipse
| Dieses Dokument entstammt in seiner ersten oder einer späteren Version der deutschsprachigen Wikipedia. Es ist dort zu finden unter dem Stichwort Regressionsanalyse, die Liste der bisherigen Autoren befindet sich in der Versionsliste; die Originalfassung kann dort auch bearbeitet werden. Alle Texte der Wikipedia und ihre Derivate stehen unter der GNU-Lizenz für freie Dokumentation. |
