cf R for Data Science by Garrett Grolemund and Hadley Wickham
Das Ziel von Modellen ist, eine möglichst einfache, niedrigdimensionale Zusammenfassung von Daten zur Verfügung zu stellen. Daten werden durch Modelle zerlegt in zugrunde liegende Muster und Residuen, den nicht durch das Modell erklärten Rest.
Zwei Teile eines Modells:
Definition einer Familie von Modellen, die ein präzises, aber auch allgemeines Muster beschreiben. Dies kann eine Linie sein oder eine quadratische Kurve. Eine Modell-Familie wird durch eine mathematische Gleichung ausgedrückt, z. B. \(y = a_1 * x + a_2\) oder \(y = a_1 * x^2\) x und y sind bekannte Variablen und \(a_1\) bzw. \(a_2\) sind paramter, die variieren, um verschiedene Muster in den Daten zu erfassen.
Generieren eines angepassten Modells (fitted model) um das Modell zu finden, das die jeweiligen Daten am besten beschreibt. Hierdurch wird ein allgemeines Modell ein spezifisches, also eines mit konkreten Werten für die Paramter des Modells.
Typ | Reaktionsvariable, Outcome | ~ | erklärende oder Vorhersagevariable(n) (Prädiktor) |
---|---|---|---|
einf. Regression | stetig | ~ | 1 stetige Variable |
multiple Regression | stetig | ~ | mehrere stetige Variablen, binäre Variablen (dummy codierte mehrstufige Variablen) |
einfache Varianzanalyse | stetig | ~ | Gruppierungsvariable (zwei- oder mehrstufig) |
mehrfaktorielle Varianzanalyse | stetig | ~ | Gruppierungsvariable/-n (zwei- oder mehrstufig) |
Covarianzanalyse | stetig | ~ | Mischung aus Gruppierungsvariable/-n (zwei- oder mehrstufig) und stetigen Variablen |
Multivariate Varianzanalyse | mehrere stetige abh. Variablen | ~ | Gruppierungsvariable/-n (zwei- oder mehrstufig) |
Als Beispiel für verallgemeinerte lineare Modelle | |||
logistische Regr. | binär dichotom | ~ | mehrere stetige Variablen, binäre Variablen (dummy codierte mehrstufige Variablen) |
Einfaches lineares Modell, einfache Regression mit einer erklärenden Variable. unit
Eine stetige Outcome-Variable, mehrere erklärende Variablen, stetig oder dichotom. unit
T-Test, ANOVA, einfaktoriell und mehrfaktoriell, AnCoVA, ohne und mit Messwiederholung, multivariate Varianzanalyse unit
Jeff Miller and Patricia Haden (2013): Statistical Analysis The General Linear Model