Interaktive Modellierung


This page is available in German only.

Wie funktioniert Modellierung?

 

Beispiel: Der Detergent Datensatz (Ries & Smith, 1963)

Water Softness

M-User

Temperature

Preference

hard

medium

soft

no

low

X

68

66

63

M

42

50

53

high

X

42

33

29

M

30

23

27

yes

low

X

37

47

57

M

52

55

49

high

X

24

23

19

M

43

47

29

Dieser Datensatz ist das Resultat einer Konsumentenumfrage (1008 Befragte) für Waschpulver. Die Variablen sind:

Preference (M, X): Ob der Kunde das Waschpulver "M" oder die Marke "X" bevorzugt. Diese Frage nachzugehen war die Hauptaufgabe der Umfrage.

Temperature (low, high): Die Temperatur, bei der gewaschen wurde.

M-User (yes, no): Ob der Kunde bereits vorher das Produkt "M" benutzt hat (yes) oder nicht.

Water Softness (hard, medium, soft): Die Wasserhärte, bei der gewaschen wurde.

Unser Beispiel-Modell soll jetzt die folgenden Zusammenhänge zwischen den Variablen enthalten:

Preference und M-User: Kunden bleiben "ihrem" Produkt treu

Preference und Temperature: Möglicherweise eignen sich die Waschmittel für verschiedene Temperaturen

Water Softness und Temperature: Es scheint plausibel, daß die Temperatur in Abhängigkeit von der Wasserhärte gewählt wird.

 

Umsetzung auf den Rechner

Exemplarisch soll die Modellierung in S-Plus erklärt werden. Dazu dient der folgende Befehl:

> model1 <- glm(Fr ~ M.User + Temp + Water + Pref + Pref*M.User + Pref*Temp + Water*Temp, family=poisson(link=log))

Hier sieht man bereits, daß zahlreiche Umformungen nötig sind, die nicht sehr intuitiv scheinen.

Eine Zusammenfassung der Ergebnisse kann mit einem weiteren Befehl abgerufen werden und sieht etwa so aus:

> summary(model1)

Call: glm(formula = Fr ~ M.User + Temp + Water + Pref + Pref * M.User + Pref * Temp + Water * Temp, family = poisson(link = log))

Deviance Residuals:

Min 1Q Median 3Q Max

-1.433821 -0.3559708 -0.07358303 0.3974668 1.513481

Coefficients:

Value Std. Error t value

(Intercept) 3.682698677 0.03327911 110.66097825

M.User -0.043430194 0.03185253 -1.36347716

Temp -0.278264405 0.03293940 -8.44776869

Water.L 0.063890801 0.05737890 1.11348958

Water.Q -0.034028909 0.05643138 -0.60301392

Pref 0.016589976 0.03311667 0.50095536

Pref:M.User 0.143765541 0.03185253 4.51347354

Pref:Temp 0.068360506 0.03277528 2.08573372

TempWater.L 0.141228879 0.05737890 2.46133842

TempWater.Q -0.004223551 0.05643138 -0.07484402

 

(Dispersion Parameter for Poisson family taken to be 1 )

Null Deviance: 118.6269 on 23 degrees of freedom

Residual Deviance: 11.88649 on 14 degrees of freedom

Correlation of Coefficients:

(Intercept) M.User Temp Water.L Water.Q

M.User 0.0413074

Temp 0.2719588 0.0000000

Water.L -0.0586431 0.0000000 -0.0917217

Water.Q 0.0234422 0.0000000 0.0106862 -0.0423559

Pref -0.0392572 -0.1372548 -0.0699740 0.0000000

Pref:M.User -0.1365849 -0.0044709 0.0000000 0.0000000

Abbildung 3: Die Ergebnisse der Modellierung eines einfachen Modells (leicht gekürzt). Die wesentlichen Resultate werden können nicht sofort erkannt werden, diese Form der Darstellung ist für die Interpretation des Modells nicht besonders günstig.

Warum modelliert man?

Modellierung ist offensichtlich nicht gerade leicht. Warum modelliert man eigentlich?

Man will Vorhersagen machen.

Das ist wohl einer der ältesten Beweggründe für die Modellierung. Die Formulierung eines formelartigen Zusammenhangs (selbst wenn er nur die Erwartungen beschreibt) erlaubt die Vorhersage von zukünftigen Beobachtungen (selbstverständlich mit einer gewissen Fehlerwahrscheinlichkeit).

Man will vorhandene Erkenntnisse überprüfen

Wenn man bereits gewonnene Erkenntnisse (oder auch Vermutungen) in einem Modell formuliert und dieses Modell sich als "gut" erweist (was im wesentlichen heißen soll, daß die beobachteten Daten den Modellerwartungen nicht zu gravierend widersprechen), ist das ein Indiz für die Richtigkeit der Erkenntnisse.

Man will neue Erkenntnisse aus den Daten gewinnen

Dieses Vorgehen könnte man sowohl "explorative Modellierung" als auch als explorative Datenanalyse nennen. Gemeint ist, daß durch das Auffinden guter Modelle (also guter Beschreibungen der Zusammenhänge in den Daten) neue Erkenntnisse (z.B. bisher unbekannte Zusammenhänge) gefunden werden können.



oooooHome

Stephan.Lauer@Math.Uni-Augsburg.DE, Dezember '98