diff --git a/data/film.csv b/data/film.csv index a77f488..b261271 100644 --- a/data/film.csv +++ b/data/film.csv @@ -299,15 +299,3 @@ "Nein";"Nein";"Ja";"Nein";"Ja";"Ja";"Nein";"Nein";"Nein";"Ja";"weiblich";24 "Ja";"Nein";"Nein";"Nein";"Nein";"Ja";"Nein";"Nein";"Nein";"Nein";"maennlich";26 "Nein";"Nein";"Ja";"Nein";"Nein";"Ja";"Ja";"Nein";"Nein";"Ja";"weiblich";26 -"Ja";"Nein";"Nein";"Nein";"Nein";"Ja";"Nein";"Nein";"Nein";"Ja";"maennlich";24 -"Ja";"Nein";"Ja";"Ja";"Nein";"Ja";"Ja";"Nein";"Ja";"Nein";"weiblich";24 -"Nein";"Ja";"Nein";"Nein";"Nein";"Nein";"Nein";"Nein";"Nein";"Ja";"weiblich";24 -"Ja";"Nein";"Nein";"Nein";"Ja";"Ja";"Ja";"Nein";"Nein";"Nein";"weiblich";22 -"Nein";"Nein";"Nein";"Nein";"Nein";"Ja";"Ja";"Nein";"Nein";"Ja";"weiblich";21 -"Nein";"Ja";"Nein";"Nein";"Ja";"Nein";"Ja";"Nein";"Nein";"Nein";"weiblich";36 -"Nein";"Nein";"Nein";"Ja";"Nein";"Nein";"Nein";"Nein";"Nein";"Nein";"weiblich";23 -"Ja";"Nein";"Nein";"Nein";"Nein";"Ja";"Ja";"Ja";"Nein";"Ja";"maennlich";28 -"Nein";"Ja";"Nein";"Nein";"Ja";"Ja";"Nein";"Nein";"Nein";"Nein";"weiblich";27 -"Nein";"Nein";"Nein";"Nein";"Nein";"Ja";"Ja";"Ja";"Ja";"Ja";"weiblich";23 -"Ja";"Ja";"Ja";"Nein";"Ja";"Ja";"Nein";"Nein";"Nein";"Nein";"maennlich";26 -"Ja";"Nein";"Ja";"Ja";"Ja";"Nein";"Ja";"Nein";"Nein";"Nein";"weiblich";23 diff --git a/eda/Filmgenre.Rmd b/eda/Filmgenre.Rmd index 9b855cf..dc98b36 100644 --- a/eda/Filmgenre.Rmd +++ b/eda/Filmgenre.Rmd @@ -144,9 +144,9 @@ Pr(Drama = Ja | Action = Ja) \cdot P(Action = Ja) + Pr(Drama = Ja | Action = Nei $$ ```{r} -prop(E_Drama ~ E_Action, data = film, success = "Ja")[1] * +prop( ~ E_Drama | E_Action, data = film, success = "Ja")[1] * prop( ~ E_Action, data = film, success = "Ja") + - prop(E_Drama ~ E_Action, data = film, success = "Ja")[2] * + prop(~ E_Drama | E_Action, data = film, success = "Ja")[2] * prop( ~ E_Action, data = film, success = "Nein") ``` diff --git a/inferenzstatistik/Lotto.Rmd b/inferenzstatistik/Lotto.Rmd index 61dd002..c7b7a07 100644 --- a/inferenzstatistik/Lotto.Rmd +++ b/inferenzstatistik/Lotto.Rmd @@ -85,14 +85,25 @@ pi_gewinn #### Fragen -- Welche Annahme muss erfüllt sein, damit obige Berechnung der (theoretischen) Gewinnwahrscheinlichkeit so funktioniert? - - Hätten Sie - in der Vergangenheit - mit Ihren Zahlen, bezogen auf den Anteil Ziehungen mit einem Gewinn, eher Glück oder Pech gehabt? - Wenn wir davon ausgehen, dass die Gewinnwahrscheinlichkeit bei $\pi = `r pi_gewinn`$ liegt. Muss dann der Anteil der Gewinne $p$ auch bei $`r pi_gewinn`$ liegen? +- Welche Annahme muss erfüllt sein, damit obige Berechnung der (theoretischen) Gewinnwahrscheinlichkeit so funktioniert? + ## Zufallssimulation +Eine einfache Möglichkeit, eine Erfolgswahrscheinlichkeit von $\pi=0.5$ zu simulieren ist der Münzwurf. Werfen Sie bitte $8\times$ eine Münze und tragen Sie unter [https://forms.gle/dXdhzL5YqttY46wu5](https://forms.gle/dXdhzL5YqttY46wu5) ein, wie oft Sie Kopf (Wappen) geworfen haben. + + +#### Fragen + +- Was ist bei acht Würfen wahrscheinlicher: $4\times$ Kopf oder $8\times$ Kopf? + +- Was müssen wir beachten, wenn wir die Gewinnwahrscheinlichkeit beim Lotto simulieren wollen? + +*** + Simulieren wir $3\times$ (`do(3)*`) $n = `r n`$ Ziehungen mit einer Gewinnwahrscheinlichkeit von $\pi = `r pi_gewinn`$ (`(rflip()`): ```{r simu1} diff --git a/regression/LEGO-Modellierung.Rmd b/regression/LEGO-Modellierung.Rmd index 299b7a7..8f2cd7f 100644 --- a/regression/LEGO-Modellierung.Rmd +++ b/regression/LEGO-Modellierung.Rmd @@ -75,7 +75,7 @@ str(lego_sub) ### Lineares Modell Angenommen (**!**) es gibt einen *linearen* Zusammenhang zwischen der Komplexität, gemessen durch die Anzahl Bausteine (`Pieces`), und dem Preis (`Amazon_Price`). -Dann wird mathematisch folgendes Modell angenommen: +Dann wird mathematisch folgendes Modell für die Population angenommen: $$y_i = \beta_0 + \beta_1 \cdot x_i + \epsilon_i$$ @@ -87,7 +87,7 @@ $$y_i = \beta_0 + \beta_1 \cdot x_i + \epsilon_i$$ - Welche Variable (`Pieces`, `Amazon_Price`) ist die abhängige Variable $y$? -### Schätzung lineares Modell +### Lineares Modell der Stikchprobe Visuell: ```{r streu} @@ -95,7 +95,7 @@ gf_point(Amazon_Price ~ Pieces, data = lego_sub) %>% gf_lm() ``` -Die unbekannten Parameter $\beta_0, \beta_1$ können anhand des *Kleinste-Quadrate-Kriteriums* für diese Daten über die Funktion `lm()` optimal geschätzt werden: +Anhand des *Kleinste-Quadrate-Kriteriums* für diese Daten ergeben sich über die Funktion `lm()` folgende Werte: ```{r lm1} erg <- lm(Amazon_Price ~ Pieces, data = lego_sub) @@ -104,8 +104,8 @@ betadach <- coef(erg) %>% round(2) betadach ``` -Für -$$\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 \cdot x_i$$ +Für das Modell der Stichprobe +$$\hat{y}_i = b_0 + b_1 \cdot x_i$$ ergibt sich: $$\hat{y}_i = `r betadach[1]` + `r betadach[2]` \cdot x_i$$ @@ -119,6 +119,8 @@ $$\hat{y}_i = `r betadach[1]` + `r betadach[2]` \cdot x_i$$ ### Bestimmtheitsmaß +Wie gut die gefundene Gerade die vorliegenden Daten beschreibt, kann mit Hilfe des Bestimmtheitsmaßes $R^2$ bestimmt werden: + $$R^2= 1-\frac{\sum_{i=1}^n (y_i-\hat{y}_i)^2}{\sum_{i=1}^n (y_i-\bar{y})^2}$$ ```{r rquadrat} @@ -134,6 +136,10 @@ $$R^2 = `r r2`$$ ### Schätzunsicherheit +Die anhand der Stichprobe berechneten Werte für Achsenabschnitt und Steigung, $b_0, b_1$, können als Schätzwerte für die unbekannten Modellparameter $\beta_0, \beta_1$ im Modell der Population verwendet werden: + +$$\hat{\beta}_0=b_0,\,\hat{\beta}_1=b_1.$$ + ```{r resample} # Zufallszahlengenerator setzen set.seed(1896) @@ -187,6 +193,8 @@ se - Würde der Standardfehler durch mehr Bootstrap-Stichproben kleiner werden? +- Wann würde der Standardfehler kleiner werden, d.h., die Präszision der Schätzung steigen? + *** **Konfidenzintervall**: @@ -227,7 +235,7 @@ gf_point(Amazon_Price ~ Pieces, data = lego_sub) %>% *** -```{r} +```{r shuffle} # Zufallszahlengenerator setzen set.seed(1896) # Streudiagramm inkl. Regressionsgerade bei permutierten (shuffle()) x @@ -323,6 +331,7 @@ summary(erg1) #### Fragen - Bei welcher Serie ist der Mittelwert des Preises am größten? + - Wie groß is der durchschnittliche Preisunterschied zwischen `Friends` und `City`? ## Preismodellierung mit mehr als einer erklärenden Variable @@ -339,6 +348,7 @@ summary(erg2) #### Fragen - Bei welcher Serie ist der Achsenabschnitt am größten? + - Welches *Problem* dieses Modells sehen Sie? ## Preismodellierung mit Wechselwirkung @@ -358,4 +368,5 @@ summary(erg3) ``` - Erweitern Sie den Code so, dass Sie die Wechselwirkung zwischen `Pieces`und `Theme` ins Modell integrieren. -- Bein welcher Serie ist die Steigung am größten? \ No newline at end of file + +- Bein welcher Serie ist die Steigung am größten?