Zusammenfassung
Die klassifizierende Regression ist ein (zentrales) Beispiel für die Generalisierung der „normalen“ Regression (die in Kapitel 18 behandelt wird); der Hauptunterschied ist, dass bei der logistischen Regression das Kriterium binär bzw. dichotom ist – und nicht metrisch wie bei der normalen Regression. Das hat zur Folge, dass die Funktion keine Gerade mehr beschreibt, sondern eine s-förmige Kurve. Nach dem Darstellen der Grundlagen der logistischen Regression und den Analogien zur normalen Regression folgt eine Erörterung zur Modellgüte: Wie viele Fälle wurden korrekt von einem Modell klassifiziert? Dabei ist zu unterscheiden, wie viele Fälle richtig als „positiv“ und wie viele Fälle richtig als „negativ“ klassifiziert wurden.
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Notes
- 1.
Das geht z. B. so: stats_test <- drop_na(stats_test). Man kann argumentieren, dass fehlende Werte in der Variablen date_time nicht tragisch sind oder dass diese Variable für unsere Zwecke hier gleich entfernt werden kann.
- 2.
Das \(\mathfrak{L}\) ist ein schnödes L wie in Ludwig.
- 3.
Dieses Argument soll heißen: „Die Art (Typ) der Vorhersage soll im Format der Response-Variablen, also des Kriteriums, erfolgen.“
- 4.
stats_test %>% ggplot() + aes(x = interessiert) + geom_bar(aes(fill = bestanden), position = ″fill″) + geom_jitter(width = .1).
- 5.
Z. B. cm2 <- confusion.matrix(stats_test$bestanden_num, glm4$fitted.values, threshold = .8).
- 6.
Von receiver operating characteristic; ein Ausdruck aus dem Funkwesen.
- 7.
R, R, R, R, F, R, R, R, F, F.
- 8.
So könnte man umkodieren: stats_test %>% mutate(bestanden_fct = factor(bestanden)) -> stats_test; es resultiert keine Fehlermeldung.
- 9.
\(R^{2}\) ist identisch mit lm1.
- 10.
...bestanden_lgl = bestanden == ″ja″; \(R^{2}\) ist identisch zu lm1.
- 11.
levels(stats_test$bestanden_fct) gibt die Stufen dieser Faktor-Variablen aus.
- 12.
Die Ausgabe von levels(stats_test$bestanden_fct) zeigt, dass „ja“ als null und „nein“ als eins verstanden wird. Das ist genau umgekehrt wie im Modell mit bestanden_num. Im Modell glm_fct wird also das Nicht-Bestehen modelliert; Nicht-Bestehen ist hier das zu modellierende Ereignis.
- 13.
Ja, dieses Modell ist identisch mit glm4.
- 14.
Zuerst prüfe man die aktuelle Reihenfolge der Faktorstufen: levels(stats_test$bestanden_fct). Mit dem Befehl relevel() kann man die Referenzstufe definieren; das Argument ref bezeichnet die neue Referenz-Faktorstufe, d. h. die erste Faktorstufe: stats_test$bestanden <- relevel(stats_test$bestanden_fct, ref = ″nein″).
- 15.
(cm2 <- confusion.matrix(stats_test$bestanden_num, glm3$fitted.values, threshold = .8)); sensitivity(cm2); specificity(cm2).
- 16.
Der Youden-Index ist bei einem Schwellenwert von .5 besser als bei .8.
- 17.
PseudoR2(glm1);PseudoR2(glm2);PseudoR2(glm3).
Author information
Authors and Affiliations
Corresponding author
Rights and permissions
Copyright information
© 2019 Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature
About this chapter
Cite this chapter
Sauer, S. (2019). Klassifizierende Regression. In: Moderne Datenanalyse mit R. FOM-Edition. Springer Gabler, Wiesbaden. https://doi.org/10.1007/978-3-658-21587-3_19
Download citation
DOI: https://doi.org/10.1007/978-3-658-21587-3_19
Published:
Publisher Name: Springer Gabler, Wiesbaden
Print ISBN: 978-3-658-21586-6
Online ISBN: 978-3-658-21587-3
eBook Packages: Business and Economics (German Language)