Veröffentlichungen


This page is available in German only.

Graphische Modelle

Diplomarbeit im Studiengang Diplom-Wirtschaftsmathematik am Institut für Mathematik der Universität Augsburg, Juli 1997.


  1. Einführung
    1. Graphische Modelle
    2. Einschränkung
    3. Abgrenzung
    4. Ein einfaches Beispiel
    5. Gliederung und Ziel der Arbeit
  2. Zusammenfassung und Ausblick
    1. Zusammenfassung
    2. Ausblick
    3. Was ist zu tun?
  3. Literaturverzeichnis


Ein einfaches Beispiel

Um einen ersten Einblick in die Ideen dieser Arbeit zu gewinnen, betrachten wir den Divorce-Datensatz (Tabelle 1.1), der im Buch von Agresti (1990) ausführlich besprochen wurde. Wir werden später noch auf diesen Datensatz zurückkommen.

Premarital Sex

Yes

No

Extramarital Sex

Extramarital Sex

Yes

No

Yes

No

Marital Status

Gender

Divorced

female

17

54

36

214

male

28

60

17

68

Still Married

female

4

25

4

322

male

11

42

4

130

Tabelle 1.1: Der Divorce-Datensatz.

Es wurden 494 geschiedene und 542 verheiratete Personen befragt, ob sie vorehelichen (premarital) bzw. außerehelichen (extramarital) Sex hatten. Dabei waren 676 der 1036 Befragten Frauen, 360 Männer.

Wie sieht der Datensatz aus?

Bisher waren graphische Methoden nur für die Darstellung von Daten verfügbar. In Abbildung 1.2 sind Balkendiagramme für die vier Variablen dargestellt.

Abbildung 1.2: Balkendiagramme für alle vier Variablen des Divorce-Datensatzes. Die geschiedenen Personen wurden hell hervorgehoben ("gehighlighted").

Abbildung 1.3 zeigt ein Mosaicplot der Daten; in beiden Abbildungen wurden die geschiedenen Personen selektiert ("gehighlightet").

Abbildung 1.3: Ein Mosaicplot des Divorce-Datensatzes. Die geschiedenen Personen wurden hell hervorgehoben ("gehighlighted").

Deutlich sieht man hier die Anwendung des Linking; die Selektion in einer Graphik (die Geschiedenen im Barchart "Marital Status") wird auf alle anderen Ansichten der Daten übertragen. So läßt sich z.B. im Barchart "Gender" ablesen, daß unter den Männern und Frauen jeweils etwa gleich viele Personen geschieden und noch verheiratet sind.

Wie sehen die Modelle aus?

Gemäß obiger Einschränkung wollen wir uns auf hierarchische loglineare Modelle beschränken (siehe Kapitel 3). Diese loglinearen Modelle lassen sich durch Graphen visualisieren (siehe Kapitel 4). Unter "Zusammenhang" zwischen Variablen versteht man hier die Präsenz der jeweiligen Interaktionsterme im Modell. Abbildung 1.4 zeigt zwei solche Modelle.

Abbildung 1.4: Zwei Klassische Graphische Modelle für den Divorce-Datensatz. Links: PEM, GP. Rechts: ME, MG, MP.

Im linken Modell wird ein enger gegenseitiger Zusammenhang (eine Dreifach-Interaktion) zwischen Pre, Extra und Marital Status sowie eine Abhängigkeit zwischen Gender und Pre postuliert. Im rechten Modell wird behauptet, Marital Status hänge mit allen anderen Variablen zusammen, die anderen Variablen untereinander jedoch nicht.

Die Darstellung in Abbildung 1.4 stellt nur die Modelle dar, nicht jedoch wie gut oder schlecht die Daten angepaßt werden, also auch nicht, wie signifikant die modellierten Interaktionen, sprich Zusammenhänge zwischen den Variablen sind.

In Abbildung 1.5 haben wir die Signifikanzen der Interaktionen eingezeichnet, indem die Änderung des likelihood ratios, die sich durch Hinzunahme der Kante zum Nullmodell ergibt, als Strichstärke für die Kanten verwendet wurde.

Abbildung 1.5: Hier wurden den Modelldarstellungen aus Abbildung 1.4 noch die (natürlich datenabhängige) Signifikanz der Kanten hinzugefügt, die ein Maß für die Güte der Anpassung der "wahren" Zusammenhänge ist. Man sieht leicht, daß im linken Modell alle Interaktionen "stark" sind, wohingegen im rechten Modell keine Evidenz für einen Zusammenhang zwischen Marital Status und Gender besteht.

Man sieht jetzt leicht, daß im linken Modell alle Kanten hohe Signifikanz haben, was für eine gute Anpassung des Modells spricht, zumindest was die abgebildeten Zusammenhänge betrifft, wohingegen im rechten Modell keine Evidenz für eine Interaktion zwischen Marital Status und Gender zu finden ist. Das entspricht den Ergebnissen, die wir mit den datendarstellenden Graphiken schon gesehen haben, aus Abbildung 1.2 ist klar ersichtlich, daß das Verhältnis von Geschiedenen und Verheirateten unter Männern und Frauen ungefähr gleich ist, i. e. aus der Kenntnis des Familienstandes läßt sich kein Schluß über das Geschlecht ziehen und umgekehrt.

Allerdings sieht man im rechten Modell von Abbildung 1.5 nicht, daß ein starker Zusammenhang zwischen Gender und Pre besteht, da diese Kante nicht im Modell vorhanden ist.

Bleibt noch anzumerken, daß man in der Modelldarstellung natürlich nicht nur Dinge sieht, die man schon mit den Datendarstellungen gefunden hat, oder besser: Es gibt Ergebnisse, die man mit den Modellgraphen besser und schneller sieht als mit den herkömmlichen Graphiken, obwohl man sie auch dort (nach einiger Mühe und wenn man weiß, wonach man sucht) finden kann. Beispielsweise zeigt der Vergleich vom linken Graph aus Abbildung 1.5 mit dem rechten, daß Evidenz für einen engen Zusammenhang zwischen Marital Status, Pre und Extra besteht, der nicht durch drei Zweifach-Interaktionen abgedeckt werden kann, sondern die Präsenz einer Dreifach-Interaktion erfordert. Dieser Schluß ergibt sich aus der Tatsache, daß die Linien für PM und EM rechts deutlich dünner sind als links, wo die Signifikanz der Dreifach-Interakion anteilig addiert wurde.

Gliederung und Ziel der Arbeit

Zunächst folgt eine Übersicht über die Literatur, die dieser Arbeit zugrunde liegt. Anschließend eine Einführung in die Theorie loglinearer Modelle und ihrer Schreibweise, wobei auch die Mosaicplots genauer betrachtet werden, die wir zur Illustration der elementaren Abhängigkeitsstrukturen benutzen werden.

In Kapitel 4 werden die graphischen Modelle, so wie sie momentan in der Literatur zu finden sind, beleuchtet und motiviert. Dabei werden wir auf Beschränkungen stoßen, die größtenteils, aber nicht ausschließlich auf den statischen Charakter dieser Darstellungen zurückzuführen sind.

Im zentralen Kapitel dieser Arbeit (Kapitel 5) ergänzen wir die klassischen Ansätze des vorhergehenden Abschnitts um interaktive Methoden und datenspezifische Zusatzinformationen, was die meisten der zuvor gefundenen Nachteile nicht nur kompensiert, sondern geradezu die Stärke der Interaktiven Graphischen Modelle ausmacht.

Im Anschluß daran werden wir noch zwei weitere Visualisierungsmöglichkeiten für loglineare Modelle kennenlernen: die Interaktionsnetze (Kapitel 6) und die Modellnetze (Kapitel 7). Diese Methoden beleuchten die Modelle aus einer anderen Perspektive und haben gänzlich andere Eigenschaften als die Graphen aus den Kapiteln 4 und 5.

Zuletzt folgt eine Zusammenfassung der Resultate dieser Arbeit und ein Ausblick auf die mögliche nähere Zukunft der Modellvisualisierung.

Viele der Ideen, die in dieser Arbeit vorgestellt werden, wurden schon in anderen Bereichen mit Erfolg eingesetzt und erprobt (so sind Abfragemöglichkeiten Bestandteil von MANET). Andere sind völlig neu und existieren bislang nur auf dem Papier, wie z.B. die Interaktionsnetze.

In jedem Fall ist definitiv eine Implementation unerläßlich, um die Visualisierung von Modellen erproben und weiterentwickeln zu können. Da es nicht Bestandteil dieser Arbeit war, eine solche Implementation zu entwickeln, soll hiermit der iterative Zyklus aus Vorüberlegung, Implementation und Verbesserung bzw. Erweiterung eingeleitet werden.



oooooHome

Stephan.Lauer@Math.Uni-Augsburg.DE, September '97