Ergebnisvariable ~ Vorhersagevariable/-n
response variable ~ explanatory variable
\[ y_i = \beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + \dots{} + \beta_qx_{iq} + \epsilon_i \]
Datenmatrix
\[ \underline{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & x_{13} & \dots & x_{1j} & \dots & x_{1p} \\ 1 & x_{21} & x_{22} & x_{23} & \dots & x_{2j} & \dots & x_{2p} \\ 1 & x_{31} & x_{32} & x_{33} & \dots & x_{3j} & \dots & x_{3p} \\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ 1 & x_{i1} & x_{i2} & x_{i3} & \dots & x_{ij} & \dots & x_{ip} \\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ 1 & x_{n1} & x_{n2} & x_{n3} & \dots & x_{nj} & \dots & x_{np} \\ \end{pmatrix} \]
Schätzung der Betagewichte
\[ \underline{b} = \left (\begin {array} {c} b_0 \\ b_1 \\b_2 \\b_3 \\ \vdots \\ b_p \end {array} \right) = {(\underline{X}^T \underline{X})}^{-1} \underline{X}^T \underline{Y} \]
\[ \underline{Y} = \underline{Xb} + \underline{\epsilon} = \underline{\hat{Y}} + \underline{\epsilon} \]
Schätzung der Y
\[ \underline{\hat{Y}} = \underline{Xb} = \underline{X} {(\underline{X}^T \underline{X})}^{-1} \underline{X}^T \underline{Y} \]
\[ {Y} = {Xb} + {\epsilon} \]
Die Design-Matrix ist \({X}\). Sie wird mit dem Gewichtsvektor multipliziert (Matrix-Multiplikation), um die Schätzwerte für Y zu berechnen. In R kann die Design-Matrix von Modellen über den Befehl model.matrix()
angefordert werden, wobei der erste Parameter das Modell (Ergebnisobjekt) ist, das angepasst wurde.
\[ R^2_{corr} = R^2 - \frac {(p-1)}{(n-p)}[1 - R^2] \]
n: Anzahl vpn p: Anzahl erklärende Variablen (incl. const)
Die Korrektur wird umso kleiner, je weniger Prädiktoren bzw. je mehr Vpn es gibt.
Prediction interval for \(\hat y\) from a new x measurement \(y_{new}\) is given by:
\[ \hat y_i \pm c_t \sqrt{V\{\hat y_i\}} where V \{\hat y_i\} = S^2_E \left ( 1 + \frac 1 n + \frac {x_i - \bar x)^2}{\sum_j (x_j - \bar x)^2} \right ) \]
VIF
{} verschiedene Plots zu besonderen Formen von Residuen
todo: gar
Eine Formel im Fließtext wird einfach dazwischen gerendert: \(\int_x^{f(x)} (\frac{\sqrt{\frac{3}{4}x^2}}{4})dx\)
nun ein zweiter Versuch zur Designmatrix:
\[ \begin{pmatrix} a & b & c\\ d & e & f\\ g & h & i\\ \end{pmatrix} \]
und hier endet es bereits.
alles an Datensatz car data
Rekapitulation Formeln (für individuelle Prädiktion) aus Latex-Dokument
Qualitäts-Indices in absteigender Reihenfolge:
Global F-Test
R, R2 und seine Korrektur
univariate T-Tests
Korrektheit des Modells / besseres Modell via Residualanalyse
speichern der vorhergesagten Werte
Vergleich Korr. vorherges. Werte mit Krit und mult. R
Multikollinearitäts-Kontrolle
Kontrolle Einfluss einzelner Beobachtungen (Ausreißer, Cooks-Distance)
Interaktionsterm (über Multiplikation der entsprechenden Prädiktoren) z. B. als untersch. Steigung in den Subgruppen.
Ziel ist es, Regressionsanalysen mit mehr als einem Prädiktor rechnen und visualisieren zu können. Ausserdem sollen Sie Techniken zur Prädiktoren-Auswahl kennenlernen und die Güte der Anpassung beurteilen lernen.
Beispieldatensatz: Video Games (Field, 2013)
Beispieldatensatz: Car-Data (Everitt, 2010)
Multiple Regression Vorgehen
stark orientiert an der entsprechenden Wikipedia-Seite und an den entsprechenden Kapiteln in Field et al (2013).
Situation und Voraussetzungen klären (Design, Variablen, Skalenniveau etc.)
Datenaufbereitung (ggf. Datentransformation vor einer zweiten Schleife und nach entsprechenden Hinweisen in der Residualanalyse)
Visueller Überblick empfehlenswert
Verfahren auswählen (Struktur, v. a. Skalenniveau entscheidend)
Modell aufstellen
Modellanpassung
Koeffizienten werden geschätzt.
Unstandardisierte Koeffizienten: Wert der Reaktionsvariablen wenn alle anderen Prädiktoren 0 sind (manchmal unrealistisch, z. B. Herzschlag).
Modellvalidierung (Qualität des Modells)
R, R^2,
F-Test des Gesamtmodells
T-Test der einzelnen Koeffizienten
bei hierachischem Vorgehen Test der Unterschiede zwischen den Modellen (Modellvergleich)
Prognose
Kriterium vorhersagen
Range beachten
Modell beurteilen, Residualanalyse, Modellverfeinerung, Modellvergleich, Variablenauswahl etc.
Multikollinearitätsdiagnose
Cooks Distance und Mahalanoby
Jede Veränderung betrifft das Gesamtsystem
Stepwise (deprecated: rein exploratives, konzeptloses Vorgehen)
Wechselwirkungen (Interaktionsterme) als Prädiktoren
(Visualisierung). F-Test als Omnibus-Test
Omnibus F-Test (F-statistic) prüft Hyp., dass alle Regressionskoeffizienten gleich 0 sind. bzw. ob durch die Vorhersage-Linearkombination ein signifikanter Anteil der Varianz am Kriterium erklärt wird. bzw. H0: R2 ist 0
reg-f-test.png R2 bzw. corrected R2
Multiple R-squared: Anteil der Varianz des Kriteriums, der durch die Kombination der Prädiktoren gebunden/erklärt wird. Adjusted R-squared: rechnet R-squared so um, dass die Anzahl der erklärenden Terme im Modell berücksichtigt wird. adjusted R-squared steigt im Gegensatz zu R-squared nur, wenn der neue Term das Modell um mehr als durch Zufall erwartet verbessert. adjusted R-squared kann negativ sein und ist immer <= R-squared.
r2adj.png
p Anzahl der Regressore im linear Model (ohne constant), n ist sample-size.
Spezialform Moderationsanalyse / Interaktionseffekte bzw. Wechselwirkung
siehe Moderationsanalyse Spezialform Mediationsanalyse
siehe Mediationsanalyse
Suppressor
Eine Suppressorvariable ist eine Variable, die den Vorhersagebeitrag einer (oder mehrer) anderer Variablen erhöht, indem sie irrelevante Varianzen unterdrückt. (Bortz, 1999, S.444)
Die Suppressorvariable korreliert nicht oder nur sehr gering mit dem Kriterium. Erkennbar in Korrelationsmatrix mit dem Kriterium, den Prädiktoren und den möglichen Supressorvariablen.
Die mögliche Suppressorvariable korreliert mit einem der anderen Prädiktoren sehr deutlich, ablesbar ebenfalls in obiger Korrelationsmatrix.
Das Inkrement (bzw. das Dekrement) ist größer als der einfache Determinationskoeffizient. (Das Inkrement ist der Zuwachs im R^2, wenn das Modell um einen Prädiktor erweitert wird, das Dekrement die Differenz im R^2, wenn das Modell um einen Prädiktor verringert wird. Der einfache Determinationskoeffizient ist der quadrierte bivariate Korrelationskoeffizient des Prädiktors mit dem Kriterium).
Eine mehr ins Detail gehende Erklärung des Suppressor-Effekts, die auch eine grafische Veranschaulichung mit enthält.
Multikollinearität:
Indices: VIF (Variance Inflation Factor)
vif.png
und
Toleranz
toleranz.png
Der Index i läuft über die Prädiktoren.
VIF = 1 / Toleranz
Die Indices werden gebildet auf Basis der multiplen Korrelation eines Prädiktors mit dem Rest der Prädiktoren. Inwieweit lässt sich ein Prädiktor aus den anderen vorhersagen.
Daumenregel: Wenn der VIF 10 ( bzw. 5) überschreitet oder aber die Toleranz 0.1 bzw. Tol 0.2 unterschreitet gibt es Probleme mit Kollinearität im Pool der Prädiktoren. Die extremeren Werte stammen aus Everitt (2010) und sehen die Multikollinearitätsproblematik erst später als die Empfehlungen z. B. aus Wikipedia.
Residualanalyse
visuell in Scatterplot suchen nach Besonderheiten (Hinweise auf z. B. quadratische Reste, Varianzungleichheiten, Ausreißer)
Residuen mit QQ-Plot auf Normalverteilung überprüfen quantitative Ausreißerkontrolle
standardisierte Residuen Residuen werden durch die Standardabweichung geteilt (alle durch dieselbe). n ist Anzahl der Beobachtungen, m ist Anzahl der Parameter. (ev. auch n - m - 1 im Nenner weil Schätzer) sd-resid.png
studentisierte Residuen Residuen werden durch einen Schätzer der lokalen Standardabweichung geteilt (n und m s. o., h ist leverage) sd-resid-local.png
Leverage (Hebelwert) Diagonalelemente der Hat-Matrix. Hat-Matrix mappt die Kriterien auf die vorhergesagten Werte hat-1.png mit hat-2.png Jede vorhergesagte y^ kann als eine Linearkombination der Kriterien yi dargestellt werden. Der Koeffizient der Beobachtung yi, das ist hii, wir die Leverage dieser Beobachtung genannt (Diagonale). Je größer hii desto größer der Beitrag von yi zu yi*. Leverage-Werte schwanken zwischen 0 und 1: 0 <= hii <= 1 Die Anzahl der leverages ist p, die Anzahl der Parameter des Regressionsmodells (Anzahl der Prädiktoren + 1 (Konstante)) Leverage kann als Distanzmaß der Beobachtung zum Zentrum aller Beobachtungen interpretiert werden.
Cook’s distance: Einfluss eines Falles auf die Parameterschätzung des Gesamtmodells. Misst den Effekt, den die Herausnahme dieser Person auf das Modell haben würde. Je höher der Wert, desto höher der Einfluss dieser Beobachtung. In die Cook’s distance geht die Leverage als Paramter ein, außerdem die Anzahl der Parameter und der Residualwert der Beobachtung. MSE is the mean square error of the regression model cook-1.png Ein Wert größer 1 heisst, dass diese Beobachtung einen unverhältnismäßig großen Einfluss hat (Empfehlung Everitt, 2010). Andere Empfehlung: Cook’s distance > 4 / n, wobei n die Anzahl der Beobachtungen ist (Quelle Wikipedia: http://en.wikipedia.org/wiki/Cook%27s_distance)
Mahalanobis-Distanz. Man kann sich vorstellen, dass die unabhängigen (i.allg. korrelierten) Variablen (in der Gleichung) einen mehrdimensionalen Raum beschreiben, in dem jede Beobachtung als Punkt eingezeichnet werden kann. Außerdem kann ein Punkt eingezeichnet werden, der die Mittelwerte all dieser Variablen repräsentiert (der Schwerpunkt dieser “Punktwolke” von Beobachtungen). Dieser “Mittelpunkt” wird auch der Zentroid genannt. Die Mahalanobis-Distanz ist der Abstand einer Beobachtung vom Zentroid. Dabei ist zu beachten, dass bei korrelierten Variablen die Achsen im Plot nicht-orthogonal zueinander sind, d.h., sie stehen nicht im rechten Winkel zueinander. In diesem Fall sind die einfachen Euklidischen Distanzen kein geeignetes Abstandsmaß, während die Mahalanobis-Distanzen die Korrelationen der Variablen adäquat berücksichtigen. Die Mahalanobis-Distanz liefert somit einen Anhaltspunkt, ob eine Beobachtung im Hinblick auf die unabhängigen Variablen als Ausreißer anzusehen ist oder nicht. Modellanpassung
Jede Veränderung am Modell verändert das Gesamtgefüge, beispielsweise auch das Verhältnis der Wichtigkeit von Prädiktoren. Daher Veränderungen in Einzelschritten und jeden Schritt prüfen
Sparsamere Modelle. Ziel ist, eine gewisse Vorhersagequalität mit so wenig Prädiktoren zu erreichen, wie möglich.
Modellbewertung und Modellvergleich:
AIC (Akaike's information criterion) wie in Everitt(2010) zwischen den Alternativmodellen vergleichen und minimieren.
Stepwise Regression. Forward and backward. ()
Für die Prädiktoren-Selektion werden Veränderungen des F-Wertes benutzt (F to enter, F to remove)