|
|
Water Softness | ||||
|
M-User |
Temperature |
Preference |
hard |
medium |
soft |
|
no |
low |
X |
68 |
66 |
63 |
|
M |
42 |
50 |
53 | ||
|
high |
X |
42 |
33 |
29 | |
|
M |
30 |
23 |
27 | ||
|
yes |
low |
X |
37 |
47 |
57 |
|
M |
52 |
55 |
49 | ||
|
high |
X |
24 |
23 |
19 | |
|
M |
43 |
47 |
29 | ||
Dieser Datensatz ist das Resultat einer Konsumentenumfrage (1008 Befragte) für Waschpulver. Die Variablen sind:
Preference
(M, X): Ob der Kunde das Waschpulver "M" oder die Marke "X"
bevorzugt. Diese Frage nachzugehen war die Hauptaufgabe der Umfrage.
Temperature
(low, high): Die Temperatur, bei der gewaschen wurde.
M-User (yes,
no): Ob der Kunde bereits vorher das Produkt "M" benutzt hat
(yes) oder nicht.
Water
Softness (hard, medium, soft): Die Wasserhärte, bei der
gewaschen wurde.
Unser Beispiel-Modell soll jetzt die folgenden Zusammenhänge zwischen den Variablen enthalten:
Preference
und M-User: Kunden bleiben "ihrem" Produkt treu
Preference
und Temperature: Möglicherweise eignen sich die Waschmittel
für verschiedene Temperaturen
Water
Softness und Temperature: Es scheint plausibel, daß die
Temperatur in Abhängigkeit von der Wasserhärte gewählt
wird.
Exemplarisch soll die Modellierung in S-Plus erklärt werden. Dazu dient der folgende Befehl:
> model1 <- glm(Fr ~ M.User + Temp + Water + Pref + Pref*M.User + Pref*Temp + Water*Temp, family=poisson(link=log))
Hier sieht man bereits, daß zahlreiche Umformungen nötig sind, die nicht sehr intuitiv scheinen.
Eine Zusammenfassung der Ergebnisse kann mit einem weiteren Befehl abgerufen werden und sieht etwa so aus:
|
> summary(model1) Call: glm(formula = Fr ~ M.User + Temp + Water + Pref + Pref * M.User + Pref * Temp + Water * Temp, family = poisson(link = log)) Deviance Residuals: Min 1Q Median 3Q Max -1.433821 -0.3559708 -0.07358303 0.3974668 1.513481 Coefficients: Value Std. Error t value (Intercept) 3.682698677 0.03327911 110.66097825 M.User -0.043430194 0.03185253 -1.36347716 Temp -0.278264405 0.03293940 -8.44776869 Water.L 0.063890801 0.05737890 1.11348958 Water.Q -0.034028909 0.05643138 -0.60301392 Pref 0.016589976 0.03311667 0.50095536 Pref:M.User 0.143765541 0.03185253 4.51347354 Pref:Temp 0.068360506 0.03277528 2.08573372 TempWater.L 0.141228879 0.05737890 2.46133842 TempWater.Q -0.004223551 0.05643138 -0.07484402
(Dispersion Parameter for Poisson family taken to be 1 ) Null Deviance: 118.6269 on 23 degrees of freedom Residual Deviance: 11.88649 on 14 degrees of freedom Correlation of Coefficients: (Intercept) M.User Temp Water.L Water.Q M.User 0.0413074 Temp 0.2719588 0.0000000 Water.L -0.0586431 0.0000000 -0.0917217 Water.Q 0.0234422 0.0000000 0.0106862 -0.0423559 Pref -0.0392572 -0.1372548 -0.0699740 0.0000000 Pref:M.User -0.1365849 -0.0044709 0.0000000 0.0000000 |
|
Abbildung 3: Die Ergebnisse der Modellierung eines einfachen Modells (leicht gekürzt). Die wesentlichen Resultate werden können nicht sofort erkannt werden, diese Form der Darstellung ist für die Interpretation des Modells nicht besonders günstig. |
Modellierung ist offensichtlich nicht gerade leicht. Warum modelliert man eigentlich?
Man will
Vorhersagen machen.
Das ist wohl einer der ältesten Beweggründe für die Modellierung. Die Formulierung eines formelartigen Zusammenhangs (selbst wenn er nur die Erwartungen beschreibt) erlaubt die Vorhersage von zukünftigen Beobachtungen (selbstverständlich mit einer gewissen Fehlerwahrscheinlichkeit).
Man will
vorhandene Erkenntnisse überprüfen
Wenn man bereits gewonnene Erkenntnisse (oder auch Vermutungen) in einem Modell formuliert und dieses Modell sich als "gut" erweist (was im wesentlichen heißen soll, daß die beobachteten Daten den Modellerwartungen nicht zu gravierend widersprechen), ist das ein Indiz für die Richtigkeit der Erkenntnisse.
Man will neue
Erkenntnisse aus den Daten gewinnen
Dieses Vorgehen könnte man sowohl "explorative Modellierung" als auch als explorative Datenanalyse nennen. Gemeint ist, daß durch das Auffinden guter Modelle (also guter Beschreibungen der Zusammenhänge in den Daten) neue Erkenntnisse (z.B. bisher unbekannte Zusammenhänge) gefunden werden können.




