Fragen zu Folien
Was bedeutet $E(Y|X=x) = g(x)~~\forall x \in X(\Omega)$ (Übung 2, Folie 3)
Der Ausdruck $\forall$ bedeutet, dass die Gleichung für alle
$x$ gilt, die in der Menge $X(\Omega)$ liegen. Das heißt, dass der
bedingte Erwartungswert $E(Y|X=x)$ nicht nur für ein spezielles $x$
dem Wert $g(x)$ entspricht, sondern eben für alle Werte von der
Zufallsvariable $X$ dem Wert der Regression $g$ entspricht.
Ist es egal, welche Formel man für die Berechnung
des Determinationskoeffizienten benutzt? (Übung 2, Folie 6)
Prinzipiell ist es egal, welche Formel man benutzt. Wenn man die
Varianz des Residuums kennt, bietet sich die zweite Formel an, wenn
man die Varianz der Regression kennt, die erste Formel.
Was genau bedeuten die Formeln für Alpha, Beta, und den
Determinationskoeffizienten hier bzw. warum wurden die Formeln so
umgeformt? (Übung 2, Folie 10)
Erwartungswerte, Varianzen und Kovarianzen kann man sehr einfach mit
einem Datensatz schätzen. Wenn man sich für die Koeffizienten
interessiert (das tut man meistens), kann man mithilfe der Formeln
(geschätzte) Erwartungswerte und (Ko-)varianzen in (geschätzte)
Regressionskoeffizienten umrechnen.
Inwiefern sind bedingte Erwartungen und Erwartungswerte determiniert, aber die
Darstellung durch Funktionen (Regressionen) nicht? (Übung 3, Folie 3)
Die Parameter in der ersten Darstellung sind 6 und 3, die Parameter
in der zweiten Darstellung sind 3 und 2. Trotzdem wird die gleiche
bedingte Erwartung durch die beiden Parametrisierungen dargestellt.
Wozu benötigt man verschiedene Kodierungen
(Zellenmittelwertkodierung, Referenzgruppenkodierung)?
(Übung 3, Folie 6)
Wenn man sich für Unterschiede zwischen den Erwartungswerten in den
verschiedenen Gruppen interessiert, bietet sich die
Referenzgruppenkodierung an. Wenn man sich für die die
Erwartungswerte selbst interessiert, nimmt man die
Zellenmittelwertkodierung.
Bedeutet $\delta XZ$ als Interaktionsterm, dass $Z$ den Einfluss von
$X$ auf $Y$
beeinflusst? (Übung 3, Folie 12)
Das ist eine mögliche Interpretation. Man muss allerdings vorsichtig
mit der Verwendung des Begriffs "beinflusst" sein. Das klingt sehr
nach kausaler Interpretation. Allerdings kann man an dem
Interaktionsterm nicht sehen, welche Variable welche beeinflusst.
Muss man die Rechenregeln zu den geschachtelten bedingten Erwartungen
auswendig und herleiten können für die Klausur? (Übung 6, Folie 8)
Man muss die Rechenregeln weder auswendig können, noch herleiten
können. Man sollte sie aber bei einfache Problemen anwenden können.
Warum gilt $Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z)$? (Übung 6, Folie 15)
Einfache Antwort: Weil das eine Rechenregeln ist
Komplizierte Antwort: Das kann man nachrechnen durch Anwendung der
Definition von der Kovarianz:
$$
\begin{align}
Cov(X+Y,Z) &= E[(X+Y)Z]-E[X+Y]E[Z] \\
&= E[XZ+YZ]-[E(X)+E(Y)]E[Z] \\
&= E[XZ] - E[X]E[Z] + E[YZ]-E[Y]E[Z] \\
&= Cov(X,Z) + Cov(Y,Z)
\end{align}
$$
Warum muss man $\beta$ auf der Folie 17 von Übung 6 transponieren?
$\beta$ ist ein Spaltenvektor. Damit $\beta$ und die den
Spaltenvektor $X$ kann man nicht einfach mit der
Matrizenmultiplikation multiplizieren. Die Dimensionen der Vektoren
stimmen nicht. Damit es klappt, muss man statt $\beta$ die
Transposition von $\beta$, also $\beta'$ verwenden.
Muss man die Herleitung von $\beta$ aus der genannten Regression für die Klausur
beherrschen? (Übung 6, Folie 17)
Man muss die Herleitung nicht auswendig hinschreiben können. Man
sollte aber jeden Umformungsschritt verstehen.
Könnten Sie bitte die Zuordnung der letzten Matrix zu den Hypothesen
erklären? (Übung 7, Folie 17)
Es gilt $A = \left(\begin{array}{ccc} -1 & 0.5 & 0.5 \\ 0 & 1 & -1
\end{array}\right)$ und $\delta = \left(\begin{array}{c}0 \\ 0
\end{array}\right)$. Die allgemeine lineare Hypothese lautet
$A\beta-\delta =0$. Weil $A$ drei Spalten hat, muss $\beta$ drei
Zeilen haben, sonst klappt die Matrizenmultiplikation nicht. Wenn
man $A$ und $\delta$ einsetzt, erhält man also
$$
\left(\begin{array}{ccc} -1 & 0.5 & 0.5 \\ 0 & 1 & -1
\end{array}\right)\left(\begin{array}{c}\mu_1 \\ \mu_2 \\
\mu_3\end{array}\right) - \left(\begin{array}{c}0 \\ 0
\end{array}\right) = \left(\begin{array}{c}0 \\ 0
\end{array}\right)
$$
Wenn man jetzt die Matrizenmultiplikation berechnet erhält man
$$
\begin{align}
-1 \mu_1 + 0.5 \mu_2 + 0.5 \mu_3 &= 0 \\
\mu_2 - \mu_3 &= 0
\end{align}
$$
Jetzt muss man die beiden Gleichungen nur noch nach $\mu_1$ und
$\mu_2$ umstellen und erhält die angegebene Hypothese.
Übung 2, Folie 9: Extremfall $R^2 = 0$ Wie müssen wir uns das denn
bildlich darstellen? Bezieht sich auch auf die Frage von Übungszettel 3,
Aufgabe 1c. Da ist es klar, warum der Determinationskoeffizient nicht 1
ist, aber woran erkenne ich, das er nicht auch 0 ist? Immerhin streuen
die Werte ja ordentlich um die Regression. Muss die Regression IMMER
eine Gerade sein, um $R^2=0$ zu sein?
Ja im Prinzip kann man sich die Bilder aus der Übungsaufgabe vorstellen. Es ist außerdem richtig, dass die Regression immer eine Gerade mit Steigung 0 sein muss, wenn der Determinationskoeffizient gleich 0 ist.
Übung 5, Folie 8: Berechnung g-Funktionen
1. Regression
$g_0(Z) = \alpha + \gamma Z$
$g_1(Z) = \beta + \delta Z$
2. Regression
$g_0(Z) = \alpha + \gamma Z$
$g_1(Z) = \beta$
3. Regression
$g_0(Z,W) = \alpha + \gamma Z$
$g_1(Z,W) = \beta + \delta Z + \lambda 1_{W=0} + \kappa 1_{W=1} + \phi Z$$
4. Regression
$g_0(W) = \lambda_0$
$g_1(W) = \lambda_1$
$g_2(W) = \lambda_2 W$
5. Regression
$g_0(W,Z) = \kappa_0 + \kappa_7 WZ$
$g_1(W,Z) = \kappa_1 + \kappa_3 W + \kappa_5 WZ$
$g_2(W,Z) = \kappa_2 + \kappa_4 W + \kappa_6 WZ$
Fragen zu Übungszetteln
Die Frage bezieht sich auf den Übungszettel Nr.5 gleich auf Aufgabe
1. Dort ist die Frage wann welche Art von Parametrisierung möglich
ist. Z.b. weiß ich, dass die Zellenmittelwertskodierung bei
kategorialen Parametern möglich ist, die Referenzgruppenkodierung bei
nominalen, die kubische Parametrisierung bei metrischen und die
lineare P. bei dichotomem X. Aber gibt es auch noch andere Varianten,
außer den beschriebenen, bei denen die Parametrisierungen möglich
sind? Vielleicht können Sie dafür nochmal eine Übersicht geben?
Es gibt prinzipiell zwei Fälle:
-
Bei kategorialen Regressoren kann man
entweder die Zellenmittelwertkodierung oder die
Referenzgruppenkodierung anwenden. Das gleiche gilt für numerische
Regressoren mit endlich vielen Werten.
-
Bei numerischen Regressoren mit unendlich vielen Werten kann man das
nicht machen. Da braucht man dann lineare, polynomielle, exponentielle
etc. Parametrisierung
Wenn man unterschiedliche Regressorentypen hat, braucht man ggf. eine
Kombination aus den beiden Fällen.
Zettel 4, 1c: Die Aufgabe ist falsch, aber wenn man in den
Zellenmittelwert $X=1$ und $X=0$ einsetzt, kommt man jeweils auf $\mu_1$ und $\mu_2$
bzw. woher weiß ich, dass die beiden Regressionen nicht verschachtelt sind?
Man sieht das am besten, wenn man sich die beiden Regressionen aufmalt. Die erste Regression hat überall den Wert $\mu_2$, außer bei $X=1$. Da hat sie den Wert $\mu_1$. Das ist also eine Funktion, die bei $X=1$ einen Sprung macht. Die andere Regression ist eine lineare Regression. Man kann nicht die eine Regression in die andere umformen, indem man einzelne Parameter gleich 0 setzt. Damit sind sie keine Spezialfälle voneinander und damit nicht geschachtelt.
Zettel 4, 3c: Wir hatten, die Referenzgruppe ist die KG, aber warum
eigentlich nicht $\alpha$? Hatten wir nicht in der Vorlesung zum
Referenzgruppenmodell, dass $\alpha$ die Referenzgruppe ist, und der Rest
auf $\alpha$ drauf gerechnet wird?
Man muss unterscheiden zwischen der Referenzgruppe und Regressionskoeffizienten. Die Referenzgruppe ist ein Wert von $X$. Das kann in diesem Fall nur KG, Std oder Exp sein. $\alpha$ ist ein Regressionskoeffizient. In dieser Regression ist $\alpha$ der bedingte Erwartungswert in der Referenzgruppe und nicht die Referenzgruppe selbst.
Zettel 5, 1c: Warum geht das nicht? Wir hatten in Übung 3, Folie 10 genau das so besprochen, wenn ich es richtig verstanden hatte. Da hatten wir $\beta X+\gamma X^2+\delta X^3$ kann man tranformieren in: $\beta X+\gamma Z+\delta W$?
$X$ ist eine kategoriale Variable mit Werten $a$, $b$ und $c$. Dafür kann man kein polynomielles Modell nehmen. Es ergibt ja keinen Sinn das Quadrat einer Kategorie zu berechnen.
Zettel 7, 2a: In der Aussage steht: "Bedingt auf Z...", also gehe ich
von der Regression $E(Y|Z)$ aus. Warum betrachte ich dann trotzdem die
selbst gezeichnete $E(Y|X)$?
Die Items sind ein bisschen kurz formuliert. Ausführlicher hätte man z.B. beim ersten Item schreiben können: Bedingt auf $Z$ ist die Regression $E(Y|X,Z)$ linear in $X$.
Zettel 7, 2e: Warum kann man den Determinationskoeffizienten nicht
berechnen? Die Begründung der Tutorin war: Wir haben ja keine Varianzen.
Aber rückblickend denke ich mir: Kann man die sich nicht auch einfach
berechnen? Habe ich nicht alle Werte dafür gegeben? (Bzw steckt in der
Regression)
Nein. Wir haben nur bedingte Erwartungswerte gegeben, aber keine Aussage darüber, wie groß die Streuung um diese Erwartungswerte ist. Das bräuchte man, um den Determinationskoeffizient zu berechnen.
Zettel 8, 1a: Ich dachte die Aussage wäre falsch, weil meines
Erachtens nach fehlt: ".. in Abhängigkeit von Z" .. ist das irrelevant?
Bzw. wenn sowas in der Klausur kommt, kann ich also die Aussage auch
trotzdem als richtig deklarieren?
Das Item ist schon richtig so. Man betrachtet den Erwartungswert der $g_1$-Funktion. Der Erwartungswert ist ein einzelner Wert z.B. 3. Dieser Wert hängt nicht mehr von $Z$ ab.
Allgemeine Fragen
Muss man $\beta$ und $\beta_0$ berechnen können?
Die Frage bezieht sich vermutlich auf die multiple lineare Regression und die Berechnung der Koeffizienten:
$$\beta = \Sigma_{XX}^{-1} \Sigma_{XY}$$
bzw.
$$\beta_0 = E(Y) - \beta E(X)$$
Die Formeln muss man nicht herleiten oder auswendig können, aber anwenden.
Bei EffectLiteR wird kein Erwartungswert für die $g_0$-Funktion angezeigt - hat das einen bestimmten Grund?
Dieser Erwartungswert wäre doch der Mittelwert für die Referenzgruppe, oder?
Um es anhand eines Beispiels zu formulieren: Für den Datensatz 'scents' (8. Übungszettel) wäre $E[g_0(k)]$ die mittlere Lösungszeit für das Labyrinth für Leute, die keinem Geruch ausgesetzt waren (unabhängig vom Geschlecht): $E[g_0(k)] = 48.94$.
$E[g_0(k)]$ wäre dann kein 'mittlerer Effekt', aber man könnte ihn trotzdem so berechnen, oder?
Meistens interessiert man sich eher für den Effekt, als für die bedingten Erwartungswerte in einer der beiden Gruppen. Deswegen wird das bei Effect-Lite nicht angegeben. Man kann sich aber, wie du sagst, den Wert einfach berechnen.