Bedingte Verteilungen Beispiel Essay

Wir betrachten nun Ereignisse, die unter der Maßgabe (= Voraussetzung) auftreten, dass ein anderes Ereignis bereits eingetreten sei. So kann man sich z.B. für die Frage interessieren, wieviele Studenten Anglistik studieren, wenn sie katholisch sind. Allgemein lauten die relativen Häufigkeiten für solche bedingten Ereignisse in Zeichen: $$\ h(a_i∣b_j)={ h_{ij} \over h_{.j}} $$

bedingte Verteilungen berechnen

Die bedingte relative Häufigkeit, dass ein Student Anglistik studiert, wenn er katholisch ist, lautet nicht 0,18 (denn dies wäre die relative Häufigkeit dafür, dass er Anglistik-Student ist und er katholisch ist), sondern vielmehr: $$\ h(b_4∣a_1)= {h_{14} \over h_{1.}} ={ 0,18 \over 0,46 }=0,39. $$
Nicht zu verwechseln ist dies mit der umgekehrten Fragestellung: Wie groß ist die relative Häufigkeit des Ereignisses, dass ein Student katholisch ist, wenn er Anglistik studiert (für das bessere Verständnis schreiben wir dies ausführlich und nicht lediglich mit Symbolen auf):
$$\ h(X = katholisch|Y = Anglistik) $$
$$\ = {f(X = katholisch \text {und} Y = Anglistik) \over f(Y = Anglistik)} $$
in Zeichen $$\ h(a_1∣b_4)= {h_{14} \over h_{.4}} = {0,18 \over 0,28}=0,64 $$
Insgesamt lautet also die bedingte Verteilung für die katholischen Studenten:

  • rel. Häufigkeit ( Y = BWL | X = katholisch),
    • in Zeichen $\ h(b_1∣a_1)= {h_{11} \over h_{1.}} ={0,1 \over 0,46}=0,217 $
  • rel. Häufigkeit ( Y = Jura | X = katholisch),
    • also $\ h(b_2∣a_1)= {h_{12} \over h_{1.}} ={0,12 \over 0,46}=0,261 $
  • rel. Häufigkeit ( X = Medizin | Y = katholisch) = $\ 0,13 $,
  • rel. Häufigkeit ( X = Anglistik | Y = katholisch) = $\ 0,391 $.

Wenn man nun die Zahlen in eine einzige Tabelle einträgt, erhält man die bedingte Verteilung für die katholischen Studenten, d.h. wenn x = katholisch gesetzt wird:

Y|(X = katholisch) rel. Häufigkeit
BWL0,217
Jura0,261
Medizin0,13
Anglistik0,391

Die bedingte Verteilung der Studienrichtungen für evangelische Studenten lautet

Y|(X = evangelisch) rel. Häufigkeit
BWL0,211
Jura0,079
Medizin0,474
Anglistik0,237

Jene für muslimische hingegen

Y|(x = muslimisch) rel. Häufigkeit
BWL0,4375
Jura0,375
Medizin0,125
Anglistik0,0625

Die bedingte Verteilung der Studienrichtung unter den Voraussetzungen der gegebenen Religion ist in der folgenden Tabelle zusammen gefasst:

  BWL Jura Medizin Anglistik $$\ \sum $$
katholisch0,2170,2610,130,3911
evangelisch0,2110,0790,4740,2371
muslimisch0,43750,3750,1250,06251

Kennzahlen bei bedingten Verteilungen

Es lassen sich nun außerdem für bedingte Verteilungen gewisse Kennzahlen berechnen, nämlich

  • bedingte Lagemaße,
  • bedingte Streuungsmaße,
  • bedingte Formmaße.

Die Ermittlung erfolgt hierbei absolut analog zu den unbedingten Maßen. Der bedingte Modus der katholischen Studenten ist das Anglistik Studium, weil die bedingte relative Häufigkeit mit 0,391 in der Zeile für „katholisch“ am größten ist. Genauso ist der bedingte Modus der evangelischen Studenten das Fach Medizin, bei den Moslems hingegen die BWL.

Grundbegriffe

Empirische Randverteilung oder marginale Verteilung

Gegeben sei eine zweidimensionale Häufigkeitsverteilung zweier Merkmale und .

Die eindimensionale Häufigkeitsverteilung des Merkmals (bzw. ), bei der das Auftreten des Merkmals (bzw. ) nicht berücksichtigt wird, heisst Randverteilung oder marginale Verteilung von (bzw. ).

Die Randverteilung ergibt sich durch "Aufsummieren" der Häufigkeitsverteilungen für die einzelnen Merkmalsausprägungen, z.B. für die Randverteilung von :

Randverteilung für das Merkmal mit den Merkmalsausprägungen:

Randverteilung für das Merkmal mit den Merkmalsausprägungen:

Gesamtzahl der Merkmalsausprägungen von und (gleich ):

Empirische bedingte Verteilung oder konditionale Verteilung

Gegeben sei eine zweidimensionale Häufigkeitsverteilung zweier Merkmale und .

Die Häufigkeitsverteilung von (bzw. ), die sich für eine bestimmte Ausprägung von (bzw. ) ergibt, heißt bedingte Verteilung oder konditionale Verteilung von (bzw. ) für ein gegebenes (bzw. ).

Bedingte relative Häufigkeitsverteilung von für gegebenes :

Bedingte relative Häufigkeitsverteilung von für gegebenes :

Die bedingten Verteilungen sind eindimensionale Verteilungen.

Empirische oder statistische Unabhängigkeit

Empirische oder statistische Unabhängigkeit bedeutet, dass die Verteilung des einen Merkmals nicht davon abhängt, welche Werte das andere Merkmal annimmt.

Sind zwei Merkmale und voneinander unabhängig, dann gilt:

für alle und für alle
und für die bedingte Verteilung von gilt
für alle und für alle
Eine analoge Darstellung unter Verwendung der absoluten Häufigkeiten ist:
Dies muss für alle und gelten.
Andernfalls heißen die beiden Merkmale und empirisch abhängig.

Beispiele

Berufsgruppe und Sport

Ausgangspunkt für die folgende Kontingenztabelle sind die Variablen:

- Berufsgruppe (nominalskaliert)

- sportliche Betätigung (nominalskaliert),

die an berufstätigen Personen beobachtet wurden.

Die bedingten Verteilungen des Merkmals (sportliche Betätigung) für gegebene (Berufsgruppe):

Berufsgruppe sportliche Betätigung
kaum gelegentlich regelmäßig
Arbeiter 0,56 0,28 0,16 1,00
Angestellter 0,47 0,26 0,26 1,00
Beamter 0,33 0,33 0,33 1,00
Landwirt 0,74 0,14 0,12 1,00
sonstiger freier Beruf 0,44 0,36 0,20 1,00

Studenten

Von 107 Studenten wurden in einer Befragung unter anderem ihr Fachbereich und ihr Geschlecht erfasst.

Aus den Ergebnissen lässt sich die folgende Kontingenztabelle darstellen:

Frau Mann RV (Fachber.)
Geist. 12 13 25
Ing. 1 1 2
Jura 8 13 21
Mediz. 6 4 10
Natur. 1 8 9
Psych. 3 8 11
Sonst. 1 0 1
Theol. 7 2 9
WiWi 5 14 19
RV (Geschl.) 44 63 107

An dieser Stelle interessiert, welchen Anteil die Frauen bzw. Männer innerhalb der einzelnen Fachbereiche stellen.

Die bedingte Verteilung des Geschlechts für gegebene Fachbereiche gibt darüber Auskunft.

Die Werte ergeben sich als Quotient aus dem jeweiligen Zellenwert und dem Wert der dazugehörigen Randverteilung des Fachbereichs.

Frau Mann
Geist. 0,480 0,520 1,000
Ing. 0,500 0,500 1,000
Jura 0,381 0,619 1,000
Mediz. 0,600 0,400 1,000
Natur. 0,111 0,889 1,000
Psych. 0,273 0,727 1,000
Sonst. 1,000 0,000 1,000
Theol. 0,778 0,222 1,000
WiWi 0,263 0,737 1,000
Gesamt 0,411 0,589 1,000

Im Ergebnis dieser Befragung zeigt sich zum Beispiel, dass der Studiengang Wirtschaftswissenschaften von den Männern dominiert wird.

Sie stellen 73,7% der Studenten in diesem Fachbereich.

Im Fachbereich Theologie dagegen bilden die Frauen mit einem Anteil von 77,8% die Mehrheit.

Schulbildung und Alter

Im Rahmen einer Befragung von 941 Personen wurden unter anderem ihr Alter (gruppiert in 18-29, 30-39 und 40-49) und ihre Schulbildung (Universität, Abitur, Realschule, Volkshochschule) erfasst.

Aus den Ergebnissen lässt sich die folgende Kontingenztabelle darstellen:

Universtät Abitur Realschule VHS RV (Alter)
18-29 38 93 134 42 307
30-39 23 94 168 70 355
40-49 12 39 129 99 279
RV (Bildung) 73 226 431 211 941

Die bedingte Verteilung der Schulbildung für eine gegebene Altersgruppe ergibt sich wie folgt:

Universtät Abitur Realschule VHS
18-29 0,124 0,303 0,436 0,137 1,000
30-39 0,065 0,265 0,473 0,197 1,000
40-49 0,043 0,140 0,462 0,355 1,000

Die Werte ergeben sich als Quotient aus dem jeweiligen Zellenwert und dem Wert der dazugehörigen Randverteilung der Altersgruppe.

Die obige Tabelle zeigt, dass beispielsweise in der Gruppe der 18-29 jährigen 12,4% eine Hochschulausbildung, 30,3% Abitur und 43,6% eine Realschulausbildung haben.

In der Gruppe der 40-49 jährigen beträgt der Anteil der Personen mit abgeschlossener Hochschulausbildung nur 4,3%.

Analog lässt sich die bedingte Verteilung der Altersgruppen für eine gegebene Schulbildung errechnen:

Universtät Abitur Realschule VHS
18-29 0,521 0,411 0,311 0,199
30-39 0,315 0,416 0,390 0,332
40-49 0,164 0,173 0,299 0,469
1,000 1,000 1,000 1,000

Hierbei zeigt sich beispielsweise, dass die Personen, die ein abgeschlossenes Abitur (ohne Studium) haben, zu 41,1% der Altersgruppe 18-29, zu 41,6% der Altersgruppe 30-39 und zu 17,3% der Altersgruppe 40-49 angehören.

Rauchen und Lungenkrebs

An zufällig ausgewählten Personen wurde festgestellt, ob sie rauchen und ob bei ihnen Lungenkrebs aufgetreten ist.

Die Variablen sind

- "Rauchen" mit den Ausprägungen ja und nein

- Auftreten von "Lungenkrebs" mit den Ausprägungen ja und nein

Das Ergebnis der Untersuchung ist in der folgenden Kontingenztabelle dargestellt:

Die bedingte Verteilung des Merkmals (Rauchen) für gegebene (Auftreten von Lungenkrebs) bei Personen:

Lungenkrebs

ja

Lungenkrebs

nein

Rauchen ja 0,667 0,176
Rauchen nein 0,333 0,824
1,000 1,000

Die Werte ergeben sich als Quotient aus dem jeweiligen Zellenwert und dem Wert der dazugehörigen Randverteilung (Lungenkrebs ja bzw. nein).

Die obige Tabelle zeigt, dass 66,7% der Personen, bei denen Lungenkrebs festgestellt wurde, zu den Rauchern gehören.

82,4% der Personen, die keinen Lungenkrebs haben, sind Nichtraucher.

Analog ist die bedingte Verteilung des Merkmals (Lungenkrebs) für gegebene (Rauchen) bei Personen dargestellt:

Lungenkrebs

ja

Lungenkrebs

nein

Rauchen ja 0,400 0,600 1,000
Rauchen nein 0,067 0,933 1,000

Hierbei zeigt sich, dass an 40% aller Raucher, aber nur an 6,7% aller Nichtraucher Lungenkrebs beobachtet wurde.

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *