Motivation

In diesem Projekt untersuchen Sie, wie soziale Netzwerke – insbesondere Freundschaften – wirtschaftliche Chancen und sozialen Aufstieg beeinflussen. Dabei greifen Sie auf einen Datensatz von 70,3 Millionen Facebook Nutzern zurück, um das Konzept des Sozialkapitals besser zu verstehen. Ihr Ziel ist es, zu analysieren, wie stark Menschen aus unterschiedlichen sozioökonomischen Hintergründen miteinander vernetzt sind und welche Auswirkungen dies auf die wirtschaftliche Mobilität hat.

Fokus der Analyse
Das Projekt konzentriert sich auf zwei zentrale Aspekte sozialer Vernetzung:

Warum ist das relevant?
Eine zentrale Fragestellung des Projekts ist es, zu untersuchen, ob und in welchem Ausmaß soziale Netzwerke – insbesondere Freundschaften – zu wirtschaftlicher Mobilität beitragen. Frühere Studien deuten darauf hin, dass ein Mangel an sozialer Interaktion über Klassengrenzen hinweg mit geringeren Aufstiegschancen verbunden ist. Menschen, die stärker über soziale Schichten hinweg vernetzt sind, profitieren tendenziell von besseren wirtschaftlichen Perspektiven.

Doch der genaue Zusammenhang zwischen Sozialkapital und wirtschaftlicher Mobilität ist bisher nur teilweise verstanden. Ihr Projekt hat daher das Ziel, diesen Zusammenhang empirisch zu untersuchen und offenzulegen. Sie analysieren, inwiefern unterschiedliche Formen sozialer Vernetzung Chancen auf sozialen Aufstieg beeinflussen – oder behindern.

Datengrundlage

Für Ihre Analyse verwenden Sie reale Daten des Social Capital Atlas (https://www.socialcapital.org). Ihr Ziel ist es, herauszufinden:

Durch Ihre eigene Analyse decken Sie nicht nur bestehende Muster auf, sondern tragen auch dazu bei, neue Erkenntnisse darüber zu gewinnen, wie soziale Netzwerke Chancen für wirtschaftlichen Aufstieg verbessern können.

Einlesen

Dieses Projekt basiert auf öffentlich zugänglichen Facebook-Daten, welche die soziale Vernetzung auf County Ebene messen. Die zugrunde liegende Datenquelle wurde in den Studien von Chetty et al. (2022a, 2022b) detailliert beschrieben und liefert wichtige Einblicke in die soziale Vernetzung über sozioökonomische Grenzen hinweg. Für Ihre Analyse stellen wir Ihnen diesen Datensatz zur Verfügung.

  1. Lesen Sie den Datensatz social_capital_county.rds aus dem Unterordner “Daten” in R ein und nennen diesen Datensatz social_capital_county. Dieser Datensatz beinhaltet Variablen, welche von Facebook stammen und die Freundschaftsverbindungen einzelner Personen untereinander (aggregiert auf County-Ebene) darstellen.

Schränken Sie ihren Datensatz auf folgende Variablen ein:

  • county
  • ec_county
  • exposure_gpr_mem_county
  • bias_grp_mem_county
  • pop2018

Bitte beschreiben Sie die Variablen, nutzen Sie dafür die bereitgestellte Datei “social_capital_codebook.pdf”.

Beantworten Sie auch folgende Fragen:

  • Was ist eine Beobachtung?
  • Wie viele Counties sind in diesem Datensatz vorhanden? Wie viele Counties hat die USA?
  • In wie viel Prozent der Fälle haben Sie Informationen zu allen Variablen einer Beobachtung in dem vorliegenden Datensatz?

Beschreibung der Variablen

In dem Datensatz liegen fünf Variablen vor. Die Variable county enthält einen fünfstelligen FIPS Code der zur Indentifizierung des jeweiligen County dient. Die Variable ec_county liegt zwischen 0 und 1 und gibt die wirtschaftliche Verbundenheit in diesem Fall auf County-Ebene an. Dabei wird der Anteil an Freunden mit hohem sozioökonomischen Status (SES) ins Verhältnis zu Personen mit niedrigem sozioökonomischen Status gesetzt. Dieser Wert gibt an, wie oft Menschen mit niedrigem SES Wert Freunde haben, die einen hohen SES Wert haben. Die Variable exposure_gpr_mem_county kann zwischen 0 und 2 liegen und gibt an, wie stark Personen mit niedrigem SES Wert mit Personen mit hohem SES Wert in Kontakt kommen. Die Variable bias_grp_mem_county ist eine Maßzahl, die die Tendenz angibt mit Personen eines höheren SES-Status eine Freundschaft einzugehen. Die Variable pop2018 gibt die Bevölkerung des jeweiligen Counties im Jahr 2018 an.

Was ist eine Beobachtung?

Eine Beobachtung wäre, dass man sich einen County anschaut, mit entsprechnder Identifikationsnummer, dazu den ec_county, den exposure_gpr_mem_county (Kontakt zu anderen Gruppen), den bias_grp_mem_county und die jeweilige Bevölkerung (pop2018).

Wie viele Counties sind in diesem Datensatz vorhanden? Wie viele Counties hat die USA?

In diesem Datensatz liegen 3089 verschiedene Counties vor. Die USA hat 3144 Counties.

In wie viel Prozent der Fälle haben wir Informationen zu allen Variablen einer Beobachtung in dem vorliegenden Datensatz?

In 95.14% der Fälle haben wir für eine Beobachtung Informationen zu allen Variablen.


  1. Weiterhin haben wir Ihnen den Datensatz county_covariates.dta im Unterordner “Daten” bereitgestellt, welcher unter anderem Daten aus dem Opportunity Atlas enthält und in Chetty et al. (2018) vorgestellt wird. Lesen Sie diese Daten in R ein und nennen Sie ihn covariates.

Schränken Sie diesen Datensatz auf die folgenden Variablen ein:

  • county
  • kfr_pooled_pooled_p25
  • gini99_simple

Generieren Sie eine neue Variable upward_mobility als kfr_pooled_pooled_p25*100. Löschen Sie weiterhin die Variable kfr_pooled_pooled_p25.

Bitte beschreiben Sie die Variablen in ihrem Datensatz, nutzen Sie dafür die bereitgestellte Datei “replication_package_README.pdf”.

Hinweis: Mit dem haven Paket können Sie .dta Dateien einlesen


Beschreibung der Variablen

Der Datensatz covariates enthält nun die drei Variablen county,gini99_simple und upward_mobility. Die Variable county enthält einen fünstelligen FIPS-Code, der zur Identifizierung des jeweiligen County dient. Die Variable gini99_simple gibt den Gini-Koeffizient, der unter Verwendung von Steuerdaten geschätzt wurde (abzüglich des Einkommensanteils der obersten 1%), an. Die erstellte Variable upward_mobility gibt in Prozent den durchschnittlichen Einkommenspercentile im Alter von 26 Jahren eines Kindes, das von Eltern geboren wurde, die im 25. Percentil der Einkommensverteilung liegen.


  1. Um Karten wie bspw. in der Case Study zu erstellen, benötigen Sie Kartendaten in Form von Shapefiles (Endung .shp). In einer späteren Analyse sollen Sie die soziale Vernetzung und andere Variablen zwischen den Counties mittels einer Karte visualisieren. Hierzu benötigen Sie jedoch erst die nötigen Shapefiles, welche wir Ihnen im Unterordner “Daten” bereitgestellt haben (County_census_data.shp). Diese Daten haben wir mittels des Pakets tidycensus direkt von der amerikanischen Statistikbehörde IPUMS heruntergeladen. Neben den Geografischen Informationen der Counties sind auch noch weitere Daten enthalten.

Lesen sie die Daten County_census_data.shp in R ein und speichern diesen in R als county_census_shape ab. Neben den County Namen und und Polygonen enthält dieser Datensatz auch das geschätzte Median Einkommen pro County für das Jahr 2023 (medincE).

Hinweis: Achten Sie darauf eine numerische county Variable aus GEOID zu generieren



  1. Verbinden Sie die Dataframes county_census_shape, covariates und social_capital_county zu einem Datensatz analysis_data.
  • Welche Art von Join sollten sie hierbei verwenden? Warum gerade diesen Join?
  • Welcher Datensatz sollte der Hauptdatensatz sein? Warum?

Welche Art von Join sollten sie hierbei verwenden? Warum gerade diesen Join?

Als Join wählen wir hier einen Left-Join, da wir einen Hauptdatensatz haben, den wir durch Informationen aus den anderen beiden Datensätzen ergänzen wollen. Diese Art von Join ermöglicht es, die Zeilen und die Struktur des Hauptdatensatzes beizubehalten, während die Zeilen durch weitere Informationen aus den anderen beiden Datensätzen ergänzt werden.

Welcher Datensatz sollte der Hauptdatensatz sein? Warum?

Als Hauptdatensatz wählen wir den Datensatz county_census_shape, denn dieser enthält die geografischen Informationen und die Form der Counties (Polygone), was für die spätere Analyse und Visualisierung von Karten und räumlichen Daten wichtig ist.


  1. Folgende Variablen werden Sie in diesem Projekt hauptsächlich nutzen:
  • upward_mobility
  • ec_county
  • exposure_gpr_mem_county
  • bias_grp_mem_county

Bevor Sie eine Analyse tätigen, sollten Sie sich überlegen, welche Erwartungen bzgl. der Zusammenhänge innerhalb der einzelnen Variablen Sie haben. Gehen Sie dabei auf folgende Fragen ein:

  • Was genau misst die wirtschaftliche Mobilität (upward_mobility) und die soziale Vernetzung (ec_county)? Warum sollte ein hoher Wert der sozialen Vernetzung auch potentiell gute ökonomische Aufstiegschancen, d.h. eine hohe wirtschaftliche Mobilität, mit sich bringen? Begründen Sie und benennen Sie explizit die Annahmen, die ihrer Begründung zugrunde liegen.
  • Bitte schauen Sie sich an, wie die sozialen Vernetzung (ec_county) berechnet wird. Was würden Sie erwarten, wie die Exposition (exposure_gpr_mem_county) und der Freundschafts-Bias (bias_grp_mem_county) die sozialen Vernetzung (ec_county) beeinflusst? Begründen Sie und benennen Sie explizit die Annahmen, die ihrer Begründung zugrunde liegen.

Hinweis: Die genaue Berechnung der sozialen Vernetzung (ec_county) finden Sie im Dokument “social_capital_codebook.pdf”


Was genau misst die wirtschaftliche Mobilität (upward_mobility) und die soziale Vernetzung (ec_county)?

Die wirtschaftliche Mobilität upward_mobility misst die Fähigkeit von Individuen, ihre ökonomische Situation im Laufe der Zeit zu verbessern. Dies bedeutet, dass Menschen in der Lage sind, von einer niedrigeren zu einer höheren Einkommensklasse aufzusteigen oder ihren sozioökonomischen Status zu verbessern. Ein hoher Wert der wirtschaftlichen Mobilität zeigt an, dass es viele Chancen und Möglichkeiten für diesen Aufstieg gibt.

Die soziale Vernetzung ec_county bezieht sich auf die Anzahl und Qualität der sozialen Kontakte einer Person oder innerhalb einer Gemeinschaft. Dies umfasst die Häufigkeit und Intensität von Interaktionen sowie die Diversität der Netzwerke. Ein hoher Wert der sozialen Vernetzung bedeutet, dass eine Person oder Gemeinschaft gut vernetzt ist und viele Verbindungen sowohl innerhalb als auch außerhalb ihrer unmittelbaren sozialen Gruppe hat.

Warum sollte ein hoher Wert der sozialen Vernetzung auch potentiell gute ökonomische Aufstiegschancen, d.h. eine hohe wirtschaftliche Mobilität, mit sich bringen?

Ein hoher Wert der sozialen Vernetzung könnte potenziell gute ökonomische Aufstiegschancen mit sich bringen, weil stark vernetzte Individuen besseren Zugang zu Ressourcen, Informationen und Gelegenheiten haben. Diese Netzwerke können bei der Jobsuche helfen, indem sie Empfehlungen aussprechen oder Informationen über offene Stellen weitergeben. Zudem bieten soziale Netzwerke Unterstützung, sowohl emotional als auch materiell, was bei der Bewältigung von Herausforderungen helfen kann. Ein weiterer wichtiger Aspekt ist das Vertrauen, das in Netzwerken aufgebaut wird und das berufliche Beziehungen und Karrieren fördern kann. Eine der zugrunde liegenden Annahmen hierbei ist, dass ein hohes Maß an sozialer Vernetzung zu besseren Chancen auf wirtschaftlichen Aufstieg führt.

Was würden Sie erwarten, wie die Exposition (exposure_gpr_mem_county) und der Freundschafts-Bias (bias_grp_mem_county) die sozialen Vernetzung (ec_county) beeinflusst?

Die Berechnung der sozialen Vernetzung ec_county berücksichtigt in der Regel die Anzahl der Verbindungen, die Intensität der Interaktionen und die Diversität der Netzwerke. Es wird erwartet, dass die Exposition exposure_gpr_mem_county und der Freundschafts-Bias bias_grp_mem_county die soziale Vernetzung beeinflussen.

Die Exposition exposure_gpr_mem_county misst, wie häufig Personen verschiedenen sozialen Gruppen begegnen oder mit ihnen interagieren. Eine hohe Exposition erhöht die Wahrscheinlichkeit, verschiedene soziale Netzwerke zu bilden und vielfältigere Verbindungen zu haben. Eine zugrunde liegende Annahme ist, dass mehr Exposition zu vielfältigeren und möglicherweise stärkeren sozialen Netzwerken führt.

Der Freundschafts-Bias bias_grp_mem_county misst, ob Personen dazu neigen, Freundschaften innerhalb ihrer eigenen sozialen Gruppe zu bilden. Ein hoher Freundschafts-Bias könnte die Diversität der Netzwerke einschränken und somit die soziale Vernetzung insgesamt beeinflussen. Eine zugrunde liegende Annahme ist, dass ein höherer Freundschafts-Bias die Effektivität und Diversität der sozialen Vernetzung reduziert.


Deskriptive Analysen

Nun haben Sie alle Daten zusammen, die Sie für die Analyse der soziodemographischen Zusammenhänge innerhalb der einzelnen Counties benötigen und können in ihre Analysen einsteigen.

  1. Schauen Sie sich in einem ersten Schritt an, wie die Variablen im Datensatz analysis_data über alle Counties verteilt sind. Konkret sollten Sie eine Tabelle erstellen, welche Informationen zu allen numerischen Variablen in ihrem Datensatz darstellt. Berechnen Sie zu jeder Variablen den Mittelwert, den Median, das Minimum, das Maximum, die Standardabweichung, sowie das 25%- und das 75%- Quantil bezogen auf alle Counties.

Beschreiben und interpretieren Sie Ihre Tabelle.

Bei welchen Variablen gibt es Auffälligkeiten? Gibt es Ausreißer nach oben oder unten?

Hinweis: Achten Sie auf eine schöne Darstellung ihrer Tabelle mittels der Pakete kableExtra oder gt!


Statistische Beschreibung der Variablen
Variablenname Mittelwert Median Minimum Maximum Standardabweichung 25%-Quantil 75%-Quantil
bias_grp_mem_county 0.06 0.06 -0.11 0.33 0.05 0.03 0.10
ec_county 0.81 0.81 0.29 1.36 0.18 0.69 0.94
exposure_grp_mem_county 0.91 0.91 0.26 1.49 0.21 0.76 1.05
gini99_simple 0.29 0.29 -0.06 0.57 0.06 0.24 0.33
medincE 65046.65 63161.50 16170.00 178707.00 18388.68 54113.25 73216.25
pop2018 107129.87 27837.50 544.00 10098052.00 337331.88 12618.75 71974.50
upward_mobility 42.72 41.96 12.22 68.83 6.49 38.43 46.11

Beschreibung der Tabelle

Die Tabelle enthält acht Spalten und sieben Zeilen. Die Zeilen der Tabelle stellen dabei die zu untersuchenden numerischen Variablen aus dem Datensatz analysis_data dar. Diese numerischen Variablen sind in der ersten Spalte aufgelistet und lauten wie folgt: bias_grp_mem_county, ec_county, exposure_grp_mem_county, gini99_simple, medincE, pop2018, upward_mobility. In den restlichen Spalten der Tabelle sind die statistischen Kennzahlen der genannten Variablen abgebildet. Hierzu gehört der Mittelwert, der Median, das Minimum, das Maximum, die Standardabweichung, sowie das 25%- und das 75%- Quantil.

Interpretation der Tabelle

bias_grp_mem_county: Der Mittelwert und Median sind beide 0.06, was zeigt, dass die Werte relativ symmetrisch um diesen Punkt verteilt sind.Die Standardabweichung von 0.05 zeigt eine gewisse Variabilität, ist aber relativ moderat. Der Mittelwert von 0.06 weist auf eine leichte Tendenz hin, innerhalb der eigenen Gruppe zu bleiben. Die gewisse Variabilität zeigt, dass es Regionen mit stärkerer oder schwächerer Tendenz gibt. Negative Werte bedeuten, dass einige Regionen mehr Diversität in Freundschaftsnetzwerken fördern. Tendenziell lässt sich aber sagen, dass das Minimum vom Betrag her kleiner als das Maximum ist (nur ein Drittel), weshalb es doch Counties zu geben scheint, in denen verschiedene sozio-ökonomische Gruppen lieber unter sich bleiben.

ec_county: Der Mittelwert und Median sind beide 0.81, was auf eine symmetrische Verteilung hindeutet. Ein Bereich von 0.29 bis 1.36 zeigt eine große Spannweite.Ein hoher Wert von Median (um 0.81) zeigt an, dass die meisten Regionen gut vernetzt sind. Regionen mit höherer sozialer Vernetzung bieten mehr Unterstützung und bessere Chancen für wirtschaftliche Mobilität. Der Interquartilsabstand ist jedoch mit einem Wert von 0.25 relativ gesehen recht groß. Dies zeigt, dass die regionale Vernetzung teils sehr unterschiedlich ausgeprägt ist.

exposure_grp_mem_county: Der Mittelwert und Median sind beide 0.91, was auf eine symmetrische Verteilung hindeutet. Die Spannweite von 0.26 bis 1.49 ist groß, allerdings ist der Interquartilsabstand mit 0,3 doch deutlich geringer, weist aber auch noch eine deutliche Variabilität auf. Es scheint also zwischen verschiedenen sozio-ökonomischen Gruppen in den verschiedenen Counties doch recht unterschiedliche Interaktionsintensitäten zu geben. Ein hoher Mittelwert zeigt, dass die meisten Personen tendenziell regelmäßig mit verschiedenen Gruppen interagieren. Dies fördert die Bildung vielfältiger Netzwerke und potenziell bessere wirtschaftliche Chancen.

gini99_simple: Der Mittelwert und Median sind beide 0.29, was auf eine symmetrische Verteilung hindeutet. Der Interquartilsabstandsbetrag von 0.09 zeigt eine moderate Variabilität zwischen den einzelnen Counties.Ein Mittelwert von 0.29 deutet auf erkennbare Ungleichheit hin. Regionen mit höherer Ungleichheit könnten wirtschaftliche Aufstiegschancen für ärmere Bevölkerungsgruppen einschränken. Auffällig ist hier, dass das Minimum einen negativen Wert hat. Normalerweise hat der Gini-Koeffizient aber einen Wert zwischen 0 und 1. Dies deutet also auf einen Fehler im Datensatz hin. Bei genauerer Betrachtung des Datensatzes wurde festgestellt, dass nur zwei Counties einen negativen Wert haben.

medincE: Der Mittelwert von 65046.65 und eine große Standardabweichung von 18388.68 zeigen eine erhebliche Variabilität.Der Bereich von 16170.00 bis 178707.00 zeigt eine sehr breite Spanne, was auf mögliche Ausreißer hinweist. Es scheint im mittleren Haushaltseinkommen also große Unterschiede zu geben. Der Mittelwert ist um knapp 2000 US Dollar größer als der Median, was ein Indiz für eine rechtsschiefe Verteilung ist, mit Ausreißern eher nach oben. So ist auch die Standardabweichung mit über 18000 US Dollar beträchtlich und deutet auf eine insgesamt breite Verteilung mit deutlichen Unterschieden hin. Dies scheint für die USA aber nicht verwunderlich zu sein, da in manchen Gegenden große Techfirmen beheimatet sind, während es auch ländliche, eher abgehängte Regionen gibt.

pop2018: Ein hoher Mittelwert von 107129.87 und eine sehr große Standardabweichung von 337331.88 zeigen eine extreme Variabilität.Der Bereich von 544.00 bis 10098052.00 zeigt extreme Ausreißer nach oben wie unten. Regionen mit höheren Bevölkerungszahlen können mehr wirtschaftliche Chancen bieten, aber auch größere Herausforderungen wie Überbevölkerung und soziale Spannungen mit hohen Wohnungspreisen haben. Die extrem große Standardabweichung und der breite Bereich von Minimum zu Maximum zeigen erhebliche Unterschiede zwischen urbanen und ländlichen Regionen. In den USA gibt es viele Regionen mit einer viel geringeren Bevölkerungsdichte als in Deutschland. Besonders deutlich wird dies am Verhältnis zwischen Median und Mittelwert, der Median ist nur gut ein Viertel so groß wie der Mittelwert, was dafür spricht, dass es viele Counties mit geringer Bevölkerung und einzelne, extreme Ausreißer nach oben gibt.

upward_mobility: Der Mittelwert von 42.72 und eine moderate Standardabweichung von 6.49 zeigen eine moderate Variabilität.Die Spannweite von 12.22 bis 68.83 zeigt, dass es extreme Unterschiede in der wirtschaftlichen Mobilität gibt. Allerdings ist der Interquartilsabstand mit nicht einmal einem Betrag von 8 deutlich geringer. Auch der Median ist nur unwesentlich geringer als der Mittelwert, weshalb vieles für eine gleichmäßige Verteilung mit wenigen Ausreißern spricht . Regionen mit hoher wirtschaftlicher Mobilität bieten insgesamt bessere Chancen für den sozioökonomischen Aufstieg.

Bei welchen Variablen gibt es Auffälligkeiten? Gibt es Ausreißer nach oben oder unten?

medincE (Medianes Einkommen): Es gibt möglicherweise Ausreißer nach oben, da der Bereich von 16170.00 bis 178707.00 sehr breit ist.

pop2018 (Bevölkerungszahl): Es gibt extreme Ausreißer nach oben, da der Bereich von 544.00 bis 10098052.00 extrem breit ist.

Diese Variablen zeigen eine hohe Variabilität und mögliche Ausreißer, die bei der weiteren Analyse berücksichtigt werden sollten.


Soziale Vernetzung und wirtschaftliche Mobilität

Ihre Analyse der Daten aus Aufgabe 6 gibt ihnen schon ein erstes Bild über die Verteilung der einzelnen Variablen. Jedoch sollten Sie für ihre Analyse näheres über die soziale Vernetzung lernen, den Economic Connectedness Index (ec_county), welcher aus den Facebook Freundschaften generiert wurde. Die Daten des Economic Connectedness Index wurden auf County Ebene aggregiert, beruhen jedoch auf Freundschaftsdaten von individuellen Facebook Nutzern.

  1. Um sich ein Bild der sozialen Vernetzung auf County Ebene machen zu können, sollten Sie diese in einer Karte der USA darstellen. Beschreiben und interpretieren Sie die gezeigte Karte.

Gehen Sie bei ihrer Interpretation auch auf folgende Frage ein:

Welche Annahme müssen Sie machen, damit Sie gültige Aussagen zum Einfluss des Economic Connectedness Index auf die wirtschaftliche Mobilität tätigen können und Sie tatsächlich etwas über Freundschaftsnetzwerke lernen können?

Hinweis: Wenn Sie Karten der USA darstellen, dann empfiehlt sich das tigris Paket und der Befehl shift_geometry() um Alaska, Hawaii und Puerto Rico schön darstellen zu lassen.


Beschreibung

Die Karte zeigt den Economic Connectedness Index ec_county auf County-Ebene in den USA. Alaska, Hawaii und Puerto Rico wurden dabei unterhalb der USA hinzugefügt. Dabei ist zu sehen, wie stark die Counties innerhalb wirtschaftlich vernetzt sind. Gelb gefärbte Regionen zeigen höhere Werte, was bedeutet, dass in diesen Counties Menschen mit niedrigem sozioökonomischen Status (SES) häufig Freundschaften mit Menschen mit hohem SES eingehen. Diese Regionen zeigen also eine stärkere soziale Durchmischung und potenziell bessere Bedingungen für wirtschaftliche Mobilität. Dunklblaue Regionen hingegen zeigen Counties mit weniger wirtschaftlicher Vernetzung, wo Freundschaften zwischen den beiden Gruppen seltener sind. Solche Regionen könnten stärker segregiert sein und weniger Chancen für soziale und wirtschaftliche Aufstiege bieten. Zu den grauen Bereichen liegen uns keine Daten vor.

Annahmen zur Interpretation

Es muss ein kausaler Zusammenhang zwischen dem EC Index und der wirtschaftlichen Mobilität bestehen. Das bedeutet, dass aufgrund des hohen EC Index eine höhere wirtschaftliche Mobilität folgt. Ohne Kausalität könnten beide Größen lediglich korrelieren, ohne dass der EC Index tatsächlich einen Einfluss auf die Mobilität hat. Eine weitere Annahme ist, dass die Daten repräsentativ für die Bevölkerung sein müssen. Die Daten basieren auf Facebook-Freundschaften, Menschen ohne Facebook-Account oder solche, die Facebook anders nutzen, könnten systematisch ausgeschlossen werden, was die Aussagekraft des Index einschränkt.

Interpretation

Es ist zu erkennen, dass der EC Index vor allem in Großstädten wie New York sehr hoch ist. Das deutet darauf hin, dass dort eine starke soziale Durchmischung stattfindet und die wirtschaftliche Mobilität deshalb größer ist. Außerdem lässt sich erkennen, dass der Norden tendenziell einen höheren EC Index als der Süden hat. Diese Regionen sind historisch durch stärkere soziale Segregation geprägt, was sowohl auf wirtschaftliche als auch auf ethnische Unterschiede zurückzuführen ist, was den niedrigeren Index begründen könnte.


  1. Wie in der vorherigen Aufgabe zu sehen war, unterscheidet sich der Economic Connectedness Index in den einzelnen Counties doch deutlich voneinander. In einer ersten deskriptiven Analyse wäre es spannend zu sehen, ob der EC mit unterschiedlichen Variablen, welche den ökonomischen Aufstieg repräsentieren, zusammenhängt.

Hier sollen Sie in einem ersten Schritt die zehn Counties mit dem höchsten Economic Connectedness Index und die zehn Counties mit dem niedrigsten Economic Connectedness Index auflisten und folgende Variablen näher anschauen:

  • Median Haushaltseinkommen in dem County (medincE)
  • Wirtschaftliche Mobilität in dem County (upward_mobility)
  • Einkommensungleichheit in dem County (gemessen mit dem Gini-Koeffizient des Counties) (gini99_simple)

Erstellen Sie eine oder mehrere Tabelle um die Ergebnisse für die 20 Counties übersichtlich dazustellen.

Beschreiben und interpretieren Sie ihre Tabellen und gehen Sie auf die folgende Frage ein:

  • Haben Sie diese Unterschiede in den einzelnen Variablen erwartet? Begründen Sie warum, oder warum nicht.

Die 10 Counties mit dem höchstem Economic Connectedness Index
NAME ec_county medincE upward_mobility gini99_simple
Rockingham County, New Hampshire 1.35970 113927 45.31415 0.22538
Douglas County, Colorado 1.35327 145737 48.24337 0.11621
San Francisco County, California 1.31244 141446 50.38885 0.30963
Morgan County, Utah 1.29125 126092 54.12398 0.15350
Madison County, Idaho 1.28088 58259 51.53670 0.22434
Arlington County, Virginia 1.27232 140160 46.28139 0.38696
Sussex County, New Jersey 1.25775 114316 47.03977 0.18298
Wright County, Minnesota 1.25228 106666 49.54441 0.18420
Gunnison County, Colorado 1.24836 77358 48.71070 0.34658
Pitkin County, Colorado 1.24364 100318 45.83353 -0.01002
Die 10 Counties mit dem niedrigsten Economic Connectedness Index
NAME ec_county medincE upward_mobility gini99_simple
Todd County, South Dakota 0.29469 39148 30.17850 0.32266
Oglala Lakota County, South Dakota 0.33048 34769 24.84036 NA
Terrell County, Georgia 0.34741 43812 31.16523 0.36427
Bullock County, Alabama 0.35515 36723 34.56590 0.31482
Allendale County, South Carolina 0.36095 31603 31.40409 0.33154
Robeson County, North Carolina 0.36258 40318 32.09524 0.36248
Early County, Georgia 0.37960 53750 33.82838 0.45567
Marlboro County, South Carolina 0.38475 36293 32.81837 0.30707
Crisp County, Georgia 0.38777 42745 32.88780 0.42409
Scotland County, North Carolina 0.39580 43500 31.07868 0.38709

Beschreibung der Tabellen

In der ersten Tabelle sind die zehn Counties mit dem höchstem Economic Connectedness Index aufgelistet, während in der zweiten Tabelle die zehn Counties mit dem niedrigsten Economic Connectedness Index aufgelistet sind. Beide Tabellen sind dabei absteigend nach dem Economic Connectedness Index sortiert. Neben dem Economic Connectedness Index sind außerdem folgende drei Variablen in der Tabelle abgebildet: Median Haushaltseinkommen medincE, wirtschaftlichen Mobilität upward_mobility und Einkommensungleichheit gini99_simple.

Interpretation der Tabellen

In den Landkreisen mit den höchsten Werten im Economic Connectedness Index zeigt sich, dass das Median-Haushaltseinkommen in der Regel höher ist als in den Landkreisen mit den niedrigsten Werten. So verzeichnet beispielsweise Douglas County, Colorado, mit 145.737 US-Dollar das höchste Haushaltseinkommen, während Allendale County, South Carolina, mit 31.603 US-Dollar das niedrigste aufweist. Diese Beobachtung entspricht den Erwartungen, da eine höhere wirtschaftliche Vernetzung oft mit besseren wirtschaftlichen Möglichkeiten und somit höheren Einkommen korreliert.

Ähnlich verhält es sich mit der wirtschaftlichen Mobilität: Landkreise mit hoher Vernetzung wie Morgan County, Utah, weisen eine hohe wirtschaftliche Mobilität auf (54.12398), während Landkreise mit niedriger Vernetzung wie Oglala Lakota County, South Dakota, eine geringere wirtschaftliche Mobilität zeigen (24.84036). Diese Ergebnisse entsprechen ebenfalls den Erwartungen, da eine stärkere Vernetzung typischerweise bessere Aufstiegschancen und Karrieremöglichkeiten bietet.

Interessant ist jedoch die Beobachtung der Einkommensungleichheit. Während Douglas County, Colorado, mit einem Gini-Koeffizienten von 0.11621 die geringste Einkommensungleichheit aufweist, zeigt Arlington County, Virginia, trotz hoher Vernetzung einen vergleichsweise hohen Gini-Koeffizienten von 0.38696. Dies könnte darauf hindeuten, dass auch in wirtschaftlich vernetzten Gebieten signifikante Ungleichheiten bestehen, was auf komplexe lokale wirtschaftliche und soziale Strukturen hinweist. Auf der anderen Seite haben weniger vernetzte Landkreise wie Early County, Georgia, eine hohe Einkommensungleichheit mit einem Gini-Koeffizienten von 0.45567, was die geringeren wirtschaftlichen Chancen und die größere Einkommensdisparität in diesen Gebieten widerspiegelt.

Haben Sie diese Unterschiede in den einzelnen Variablen erwartet?

Zusammenfassend entsprechen die beobachteten Unterschiede in den Variablen weitgehend den Erwartungen. Höhere Vernetzung ist tendenziell mit höheren Einkommen und besserer wirtschaftlicher Mobilität verbunden, während geringere Vernetzung oft mit niedrigeren Einkommen und höheren Ungleichheiten einhergeht. Dennoch unterstreichen Ausnahmen wie Arlington County die Notwendigkeit, lokale Kontexte und zusätzliche Faktoren zu berücksichtigen, um ein vollständiges Bild der wirtschaftlichen und sozialen Dynamiken zu erhalten. Dies verdeutlicht, dass eine tiefergehende Analyse und ein Verständnis der individuellen Besonderheiten der Landkreise unerlässlich sind, um die Zusammenhänge vollständig zu erfassen.


Aktuell haben Sie in einer univariaten Analyse viel über die soziale Vernetzung auf Basis von Facebook Daten gelernt. Doch was hat der Economic Connectedness Index mit tatsächlicher Entwicklungsmöglichkeit auf sich?

  1. In dieser Aufgabe sollten Sie eine Punktdiagramm (Scatter-Plot) erstellen, welches die wirtschaftliche Mobilität (upward_mobility) gegenüber dem Economic Connectedness Index darstellt. Diese Grafik sollte interaktiv gestaltet sein. Konkret sollte der Name des Counties zu sehen sein, wenn Sie über einen Punkt im Diagramm fahren. Fügen Sie Ihrer Grafik den Korrelationskoeffizient der zwei Variablen hinzu und zeichnen Sie eine Regressionsgerade durch die Punktewolke.

Beschreiben und interpretieren Sie ihre Grafik. Gehen Sie dabei insbesondere auf die folgende Frage ein:

  • Entspricht der Zusammenhang zwischen den zwei Variablen ihren Erwartungen aus Aufgabe 5?
  • In wie weit können Sie mit dieser Grafik die Frage “Wie stark beeinflussen soziale Netzwerke die wirtschaftliche Mobilität?” aus der Motivation beantworten?

Hinweis: Um interaktive Grafiken zu erstellen könnten Sie z.B. das plotly Paket, oder das ggiraph Pakte nutzen


Beschreibung der Grafik

Auf der y-Achse der Grafik ist die wirtschaftliche Mobilität und auf der x-Achse der Economic Connectedness Index aufgetragen. Die blauen Punkte stellen die einzelnen Counties dar. In grün ist die Regressionslinie in die Grafik eingetragen.

Interpretation der Grafik

Auf Basis der bisherigen Analysen und der aktuellen Daten lässt sich feststellen, dass es einen positiven Zusammenhang zwischen den untersuchten Variablen gibt. Der Korrelationskoeffizient beträgt 0.72, was auf eine starke positive Korrelation hinweist. Das bedeutet, dass mit zunehmendem Wert der einen Variablen auch der Wert der anderen Variablen tendenziell zunimmt.

Entspricht der Zusammenhang zwischen den zwei Variablen ihren Erwartungen aus Aufgabe 5?

Diese Beobachtung bestätigt die ursprüngliche Annahme, dass soziale Netzwerke einen positiven Einfluss auf die wirtschaftliche Mobilität haben. Ein Korrelationskoeffizient von 0.72 deutet darauf hin, dass starke soziale Netzwerke in hohem Maße mit einer verbesserten wirtschaftlichen Mobilität einhergehen. Menschen, die gut in sozialen Netzwerken eingebunden sind, haben vermutlich besseren Zugang zu Informationen, Ressourcen und Unterstützung, was ihre Chancen auf wirtschaftlichen Aufstieg erhöht.

In wie weit können Sie mit dieser Grafik die Frage “Wie stark beeinflussen soziale Netzwerke die wirtschaftliche Mobilität?” aus der Motivation beantworten?

Es ist jedoch wichtig zu betonen, dass Korrelation nicht gleich Kausalität ist. Obwohl die starke positive Korrelation auf einen bedeutenden Zusammenhang hinweist, sollten weitere Analysen durchgeführt werden, um andere Einflussfaktoren zu berücksichtigen und mögliche Kausalzusammenhänge zu überprüfen. Diese Ergebnisse bieten dennoch wertvolle Einblicke und legen nahe, dass Maßnahmen zur Stärkung sozialer Netzwerke positive Auswirkungen auf die wirtschaftliche Mobilität haben könnten.


  1. Erstellen Sie zwei weitere Punktediagramme, welche die 500 größten Counties nach Bevölkerungsgröße abtragen und zeigen Sie folgende Zusammenhänge auf (ohne Interaktivität):
  • Zusammenhang zwischen der Einkommensungleichheit (gemessen im Gini-Koeffizient) und dem Economic Connectedness Index
  • Zusammenhang zwischen dem Median Haushaltseinkommen und dem Economic Connectedness Index

Weiterhin sollten Sie die folgenden Counties in ihrem Diagramm hervorheben und benennen:

  • San Francisco County, California
  • Arlington County, Virginia
  • Morgan County, Utah
  • New York County, New York
  • Bronx County, New York

Beschreiben und interpretieren Sie ihre Grafiken. Gehen Sie dabei insbesondere auf folgende Frage ein:

  • Entspricht der Zusammenhang zwischen den zwei Variablen ihren Erwartungen aus Aufgabe 5? Erklären Sie.

Beschreibung der Grafik

Die erste Grafik zeigt den Zusammenhang zwischen der Einkommensungleichheit (Gini-Koeffizient) und dem Economic Connectedness Index. Hervorgehoben sind die Counties Arlington, Bronx, Morgan, New York und San Fransisco. Die zweite Grafik zeigt den Zusammenhang zwischen dem Median Haushaltseinkommen und dem Economic Connectedness Index. Auch hier wurden die genannten Städte extra hervorgehoben. Betrachtet werden hier in beiden Grafiken ausschließlich die 500 bevölkerungsreichsten Counties der USA. In der ersten Grafik können wir eine negative Korrelation zwischen der Einkommensungleichheit und dem EC Index erkennen. In der zweiten Grafik hingegen können wir eine positive Korrelation zwischen dem Haushaltseinkommen und dem EC-Index erkennen.

Interpretation der Grafik:Entspricht der Zusammenhang zwischen den zwei Variablen ihren Erwartungen aus Aufgabe 5?

Der negative Zusammenhang zwischen der sozialen Vernetzung (EC Index) und der Einkommensungleichheit (Gini-Koeffizient) war zu erwarten. In Regionen mit weniger Einkommensungleichheit sind soziale Barrieren geringer, was die Vernetzung zwischen sozioökonomischen Gruppen fördert. Eine hohe Einkommensungleichheit baut hingegen Barrieren auf, da Personen mit niedrigem Einkommen oft nicht mit Personen höherem Einkommens interaggieren und umgekehrt. Überraschend ist jedoch, dass einige Regionen mit hoher Ungleichheit, wie New York County, dennoch einen vergleichsweise hohen EC Index aufweisen. Dies könnte durch spezifische lokale Faktoren wie eine hohe Bildungs- und Technologiedichte erklärt werden. Auch in der zweiten Grafik war der positive Zusammenhang zwischen der sozialen Vernetzung und dem Haushaltseinkommen zu erwarten und entspricht damit den Annahmen aus Aufgabe 5. Counties mit höherem Median-Einkommen tendieren dazu, einen höheren EC Index aufzuweisen, was auf stärkere soziale Vernetzung hindeutet. Höheres Einkommen geht oft mit besseren Möglichkeiten einher, sich sozial über verschiedene Einkommensschichten hinweg zu vernetzen, z.B. über Bildungseinrichtungen oder Arbeitsplätze. Vor allem Arlington County und San Fransisco County zeigen diesen Effekt sehr deutlich.


Wie aus Aufgabe 9 hervorgeht ist die wirtschaftliche Mobilität stark mit dem Economic Connectedness Index korreliert. In den nächsten Aufgaben sollten Sie sich tiefer mit den Gründen dafür beschäftigen und sich im ersten Schritt die Korrelationen zwischen verschiedenen Variablen in ihrem Datensatz anschauen.

  1. Erstellen Sie in dieser Aufgabe eine Korrelationsmatrix, die Ihnen den Zusammenhang zwischen den folgenden Variablen aufzeigt:
  • Economic Connectedness Index (ec_county)
  • Wirtschaftliche Mobilität (upward_mobility)
  • Median Haushaltseinkommen (medincE)
  • Bevölkerung in 2018 (pop2018)
  • Einkommensungleichheit (gini99_simple)
  • Exposition (exposure_gpr_mem_county)
  • Freundschafts-Bias (bias_grp_mem_county)

Beschreiben und interpretieren Sie ihre Korrelationsmatrix.


Beschreibung der Korrelationsmatrix

Die Korrelationsmatrix zeigt, wie stark und in welche Richtung einzelne Variablen miteinander korreliert sind. Wir haben den Zusammenhang folgender Variablen aufgezeigt: Economic Connectedness Index ec_county, Wirtschaftliche Mobilität upward_mobility, Median Haushaltseinkommen medincE, Bevölkerung in 2018 pop2018, Einkommensungleichheit gini99_simple, Exposition exposure_gpr_mem_county, Freundschafts-Bias bias_grp_mem_county. Blaue Bereiche zeigen negative Korrelationen der Variablen und grüne Bereiche zeigen positive Korrelationen. Je kräftiger die Farbe, desto stärker ist die Korrelation, wobei weiße Bereiche auf nahezu keine Korrelation hindeuten. Zu sehen ist hier nur die halbe Matrix, was aus Gründen der Symmetrie sinnvoll ist.

Interpretation der Korrelationsmatrix

Die Korrelationen der einzelnen Variablen war zu erwarten. So ist, wie in vorherigen Aufgaben gezeigt, der EC Index stark mit upward_mobility und exposure_grp_mem_county korreliert. Hier zeigt sich wieder, dass stärkere soziale Vernetzung (höherer EC Index) mit höherer wirtschaftlicher Mobilität und stärkerem Kontakt zwischen sozioökonomischen Gruppen verbunden ist. Das liegt daran, dass ein hoher EC Index den Zugang zu Ressourcen und Netzwerken verbessert, was die wirtschaftliche Mobilität fördert. Hingegen ist der EC Index mit der pop2018 fast gar nicht korreliert, was bedeutet, dass die Bevölkerungsanzahl keinen Einfluss auf die soziale Vernetzung hat. Man kann allgemein sehen, dass die Bevölkerungsanzahl relativ wenig Einfluss auf andere Variablen hat. Eine weitere Beobachtung ist, dass der Kontakt zwischen sozioökonomischen Gruppen (Exposition) positiv auf die Mobilität und das Einkommen wirkt, da er den Austausch von Ideen, Wissen und Möglichkeiten erleichtert. Hingegen schränkt höhere Ungleichheit sowohl die Vernetzung als auch die Mobilität ein, was auf strukturelle Barrieren hinweist, die soziale und wirtschaftliche Interaktionen behindern.


Im nächsten Schritt sollten Sie sich anschauen, welche Rolle das Median Haushaltseinkommen in den Counties bei der wirtschaftlichen Mobilität spielt. Gibt es einen Unterschied des Effekts der sozialen Vernetzung zwischen Gutverdienern und weniger gut verdienenden?

  1. Zeigen Sie in einem Punktediagramm den Zusammenhang des Economic Connectedness Index (y-Achse) und dem Median Haushaltseinkommen in den einzelnen Counties. Färben Sie die einzelnen Datenpunkte nach der wirtschaftlichen Mobilität ein.

Beschreiben und interpretieren Sie ihre Grafik. Gehen Sie insbesondere darauf ein, ob er Effekt der sozialen Vernetzung für alle Einkommensgruppen gleich ist.


Beschreibung der Grafik

Die Grafik zeigt den Zusammenhang zwischen dem Economic Connectedness Index und dem Median-Haushaltseinkommen in den einzelnen Counties. Die Datenpunkte sind nach der wirtschaftlichen Mobilität upward_mobility eingefärbt, wobei hellere Punkte eine höhere wirtschaftliche Mobilität haben. Zunächst einmal können wir feststellen, dass das Median-Haushaltseinkommen und der EC Index positiv miteinander korrelieren. Außerdem auffällig ist, dass Counties mit hohem Haushaltseinkommen und hohem EC Index auch eine starke wirtschaftliche Mobilität haben, wo hingegen Counties mit niedrigem Haushaltseinkommen und niedrigem EC Index auch eine schwache wirtschaftliche Mobilität aufweisen.

Interpretation der Grafik

Der positive Zusammenhang zwischen Median-Haushaltseinkommen und EC Index zeigt, dass wohlhabendere Regionen oft bessere soziale Durchmischung ermöglichen. Haushalte mit höherem Einkommen haben tendenziell Zugang zu Bildungseinrichtungen, sozialen Netzwerken und beruflichen Möglichkeiten, die die soziale Vernetzung fördern. Trotzdem gibt es einige Ausreißer. Counties mit hoher wirtschaftlicher Mobilität können auch ein vergleichsweise niedriges Haushaltseinkommen und vor allem ein niedrigen EC Wert haben. Diese Regionen könnten vor allem kleinere Städte sein in denen andere Faktoren, wie z.B. eine geringere Einkommensungleichheit oder auch eine allgemein stärkere soziale Vernetzung, z.B. durch lokale Vereine, die wirtschaftliche Mobilität fördern könnten. Andersrum gibt es auch Counties mit niedriger Mobilität aber hohem EC Index. Beispiele könnten wohlhabende, städtische Regionen sein, die trotz hoher Vernetzung Segregation oder andere strukturelle Probleme aufweisen.

Ist der Effekt der sozialen Vernetzung für alle Einkommensgruppen gleich?

Daraus lässt sich erkennen, dass der Effekt der sozialen Vernetzung (EC Index) nicht für alle Einkommensgruppen gleich ist. Der EC Index hat in hochverdienenden Regionen einen moderat positiven Einfluss auf die Mobilität. Die Hürde zur sozialen Vernetzung ist geringer, und Menschen profitieren mehr von bestehenden Netzwerken. In einkommensschwachen Regionen hat der EC Index eine deutlich stärkere Wirkung auf die Mobilität. Wenn soziale Vernetzung vorhanden ist, können auch in solchen Regionen größere Mobilitätsgewinne erzielt werden.


  1. Die soziale Vernetzung ist in der bisherigen Analyse ein treibender Faktor für die wirtschaftliche Mobilität. Jedoch ist es durchaus möglich, dass nicht die soziale Vernetzung, sondern andere Faktoren den zu Grunde liegenden Effekt treiben und es sich bei dem Zusammenhang zwischen dem Economic Connectedness Index und der wirtschaftlichen Mobilität nur um einen Scheinzusammenhang handelt. So könnten z.B. Rückwärtskausalität, Selektionseffekte oder ausgelassene Variablen den gefundenen Zusammenhang erklären.

Um dem nachzugehen sollten Sie sich Chetty et al. (2022a), Seite 115-120 durchlesen und folgende Fragen beantworten:

  • Nehmen Sie Bezug auf die Rückwärtskausalität, den Selektionseffekt und die ausgelassenen Variablen. Wie könnten diese Faktoren einen scheinbaren Zusammenhang zwischen dem Economic Connectedness Index und der wirtschaftlichen Mobilität verursachen? Gehen Sie auf jeden Faktor separat ein.
  • In der explorativ und deskriptiv angelegten Analyse der Autoren lassen sich die Argumente bzgl. Rückwärtskausalität, Selektionseffekten und ausgelassener Variablen nicht vollständig ausschließen. Doch welche Argumente sprechen laut den Autoren dafür, dass es sich nicht um die genannten Faktoren handelt?
  • Finden Sie die Argumentation glaubhaft? Hätten Sie bedenken bei deren Argumentation? Wenn ja, was stört Sie daran?
  • Nehmen wir an Sie können sich die optimalen Bedingungen zusammenstellen, damit Sie tatsächlich einen kausalen Effekt der sozialen Vernetzung auf die wirtschaftliche Mobilität messen könnten. Wie würden diese Bedingungen ausgestaltet sein?

Rückwärtskausalität: Rückwärtskausalität bedeutet, dass die wirtschaftliche Mobilität selbst die soziale Vernetzung beeinflussen könnte. Menschen mit höherer wirtschaftlicher Mobilität könnten eher in sozialen Netzwerken aktiv sein, was zu einer höheren wirtschaftlichen Vernetzung führt. Dies könnte den Eindruck erwecken, dass die soziale Vernetzung die wirtschaftliche Mobilität beeinflusst, obwohl es tatsächlich umgekehrt ist.

Selektionseffekte: Selektionseffekte treten auf, wenn bestimmte Personen aufgrund ihrer wirtschaftlichen Mobilität eher in soziale Netzwerke aufgenommen werden. Wenn Menschen mit höherer wirtschaftlicher Mobilität bevorzugt in soziale Netzwerke aufgenommen werden, könnte dies den Zusammenhang zwischen sozialer Vernetzung und wirtschaftlicher Mobilität verstärken. Dies würde bedeuten, dass die soziale Vernetzung nicht die Ursache, sondern das Ergebnis der wirtschaftlichen Mobilität ist.

Ausgelassene Variablen: Ausgelassene Variablen sind Faktoren, die nicht in der Analyse berücksichtigt wurden, aber den Zusammenhang zwischen sozialer Vernetzung und wirtschaftlicher Mobilität beeinflussen könnten. Beispiele für solche Variablen könnten Bildungsniveau, geografische Lage oder familiäre Hintergründe sein. Wenn diese Variablen nicht berücksichtigt werden, könnte dies zu einem falschen Schluss führen, dass die soziale Vernetzung die wirtschaftliche Mobilität beeinflusst, obwohl es tatsächlich andere Faktoren sind, die den Zusammenhang erklären.

Argumente der Autoren: Die Autoren von Chetty et al. (2022a) argumentieren, dass ihre Analyse Rückwärtskausalität, Selektionseffekte und ausgelassene Variablen berücksichtigt hat und dass der Zusammenhang zwischen sozialer Vernetzung und wirtschaftlicher Mobilität robust bleibt. Sie weisen darauf hin, dass ihre Datenquellen und Methoden darauf ausgelegt sind, diese potenziellen Verzerrungen zu minimieren.

Glaubwürdigkeit der Argumentation: Die Argumentation der Autoren ist überzeugend, da sie umfangreiche Daten und sorgfältige Methoden verwenden, um den Zusammenhang zwischen sozialer Vernetzung und wirtschaftlicher Mobilität zu untersuchen. Dennoch könnten Bedenken bestehen, dass selbst die besten Methoden nicht alle möglichen Verzerrungen vollständig ausschließen können. Es ist wichtig, die Ergebnisse mit Vorsicht zu betrachten und weitere Forschung durchzuführen, um die Ergebnisse zu bestätigen.

Optimalen Bedingungen zur Messung des kausalen Effekts: Um einen kausalen Effekt der sozialen Vernetzung auf die wirtschaftliche Mobilität zu messen, müssten die optimalen Bedingungen folgende Kriterien erfüllen:

Randomisierte Experimente: Durchführung von randomisierten Experimenten, bei denen die soziale Vernetzung gezielt manipuliert wird, um die Auswirkungen auf die wirtschaftliche Mobilität zu beobachten.

Längsschnittstudien: Durchführung von Längsschnittstudien, die die Entwicklung der sozialen Vernetzung und der wirtschaftlichen Mobilität über einen längeren Zeitraum verfolgen.

Kontrollgruppen: Einbeziehung von Kontrollgruppen, die keine Veränderungen in der sozialen Vernetzung erfahren, um die Effekte besser isolieren zu können.

Multivariate Analyse: Berücksichtigung einer Vielzahl von Variablen, die potenziell den Zusammenhang beeinflussen könnten, um ausgelassene Variablen zu kontrollieren.

Qualitative Forschung: Ergänzung der quantitativen Analysen durch qualitative Forschung, um tiefergehende Einblicke in die Mechanismen zu gewinnen, durch die die soziale Vernetzung die wirtschaftliche Mobilität beeinflusst.

Durch die Kombination dieser Methoden könnten wir ein klareres Bild davon bekommen, ob und inwieweit die soziale Vernetzung einen kausalen Effekt auf die wirtschaftliche Mobilität hat.


Einflussfaktoren auf die soziale Vernetzung

Wie Sie in Ihrer bisherigen Analyse gesehen haben scheint der Economic Connectedness Index einen großen Teil der wirtschaftlichen Mobilität innerhalb der Counties erklären zu können. Doch was sind die Treiber hinter einer hohen sozialen Vernetzung?

  1. Ein Treiber der sozialen Vernetzung könnte natürlich eine hohe Exposition (exposure_grp_mem_county) sein, d.h. wenn es viele gut verdienende Personen in einem County gibt. Anders herum: Wenn es in einigen Counties gar keine gut verdienende Personen gibt, dann gibt es keine Möglichkeit für mich, der dort lebt, Freunde aus einem hohen Einkommensdezil zu haben.

Um sich einen Überblick über die Exposition in den einzelnen Counties zu verschaffen sollten Sie im ersten Schritt die Verteilung der Exposition über die Counties hinweg auf einer Karte der USA zeigen.

Beschreiben Sie ihre Karte und vergleichen diese mit der Karte aus Aufgabe 7. Was fällt Ihnen auf? Trifft die Annahme bzgl. der Exposition zu?


Beschreibung der Karte

Die dargestellte Karte zeigt die Verteilung der Exposition (exposure_grp_mem_county) in den Counties der USA, wobei die Exposition als Maß für die Anzahl gut verdienender Personen in jedem County definiert ist. Die Karte verwendet eine Farbskala, um die Counties entsprechend ihrer Expositionswerte zu kennzeichnen. Counties mit höherer Exposition erscheinen in gelblichen Farben, während Counties mit niedrigerer Exposition in dunkelblauen Tönen dargestellt werden.

Interpretation der Karte

Die Karte zeigt deutliche geografische Muster in der Verteilung der Exposition. Besonders in urbanen und wirtschaftlich wohlhabenden Regionen, wie New York City, und anderen großen Städten, sind hohe Expositionswerte zu finden. Diese Regionen sind typischerweise mit einer höheren Dichte wohlhabender Einwohner vernetzt. Counties, die in der Vergangenheit ökonomische Schwierigkeiten hatten, zeigen im Allgemeinen eine klare Abwesenheit von gut verdienenden Personen und damit eine niedrige Exposition. Diese Assoziation wirft Fragen nach der sozialen Mobilität und den Möglichkeiten für die Bevölkerung in diesen Regionen auf.

Vergleich mit Aufgabe 7

Im Vergleich zur Karte aus Aufgabe 7, die den Economic Connectedness Index darstellt, scheinen beide Karten ähnliche geografische Muster aufzuweisen. Counties, die stark im Economic Connectedness sind, tendieren dazu, ebenfalls höhere Expositionswerte anzuzeigen. Dies könnte darauf hindeuten, dass besser vernetzte Gemeinden tendenziell auch eine größere Anzahl gut verdienender Personen aufweisen. In ländlichen Gebieten oder sozial benachteiligten Regionen hingegen finden sich oft niedrigere Werte sowohl im Economic Connectedness Index als auch in der Exposition, was darauf hindeutet, dass dort weniger Chancen für soziale Vernetzung mit wohlhabenden Individuen bestehen.


Jedoch bedeutet eine hohe Exposition nicht gleich auch automatisch höhere soziale Vernetzung mit Personen aus hohen Einkommensdezilen. Falls Personen aus den jeweiligen Einkommensdezilen lieber unter sich bleiben möchten und keine Freundschaften zu Personen aus niedrigeren Einkommensdezilen pflegen, dann wird es ebenso schwer soziale Vernetzungen eine hohe wirtschaftliche Mobilität zu erreichen.

  1. Um zu untersuchen ob es eine entsprechende Segregation der Freundschaftsgruppen gibt sollten Sie in dieser Aufgabe ein Punktediagramm erzeugen, welche auf der x-Achse die Exposition (exposure_grp_mem_county) und auf der y-Achse den Freundschafts-Bias (bias_grp_mem_county) abträgt. Weiterhin sollten Sie die einzelnen Punkte in dem Punktediagramm nach der Stärke der sozialen Vernetzung einfärben. Heben Sie die Counties “San Francisco County, California” und “Bronx County, New York” in ihr Grafik explizit heraus (z.B. durch eine Beschriftung) und gehen Sie in ihrer Interpretation auf diese zwei Counties ein.

Beschreiben und interpretieren Sie ihre Grafik, gehen Sie dabei insbesondere auf folgende Fragen ein:

  • Welchen Einfluss haben die Faktoren Freundschafts-Bias und Exposition auf die soziale Vernetzung (den Economic Connectedness Index)?

Beschreibung

Die Grafik zeigt den Zusammenhang zwischen der Exposition und dem Freundschafts-Bias für verschiedene Counties. Die Datenpunkte sind nach der Stärke der sozialen Vernetzung eingefärbt, wobei gelbe Farben auf eine stärkere Vernetzung hinweisen. Zusätzlich sind die Counties San Francisco County, California und Bronx County, New York explizit hervorgehoben.

Interpretation: Welchen Einfluss haben die Faktoren Freundschafts-Bias und Exposition auf die soziale Vernetzung?

Es lässt sich erkennen, dass die Datenpunkte sehr breit gestreut sind. Das deutet auf eine sehr geringe Korrelation zwischen der Exposition und dem Freundschafts-Bias hin. Trotzdem ist ein leicht negativer Zusammenhang zu erkennen. Das deutet tatsächlich darauf hin, dass je höher die Exposition ist, desto geringer der Freundschafts-Bias. Das bedeutet, dass Personen mit höherem Einkommen tendenziell eher weniger Freundschaften mit Personen aus anderen Gruppen eingehen. Allerdings ist der Effekt nicht so stark wie vielleicht erwartet, was an den vielen Ausreißern liegen könnte. So gibt es Counties, welche eine hohe Exposition und einen hohen Freundschafts-Bias haben. Was sich gut in der Grafik erkennen lässt ist der starke Zusammenhang zwischen der Exposition und der sozialen Vernetzung. Je höher also das Einkommen einzelner Personen ist, desto besser ist die soziale Vernetzung, was zeigt, dass eine hohe Expostition als Grundlage dient, um soziale Vernetzung möglich zu machen. Der Freundschafts-Bias hat hingegen einen geringeren Einfluss auf die soziale Vernetzung. Es lässt sich ein leicht negativer Zusammenhang erkennen, also je geringer der Freundschafts-Bias, desto höher die soziale Vernetzung. Dies zeigt, dass der reine Kontakt zu Menschen aus anderen Gruppen nicht ausreicht, um eine gute soziale Vernetzung zu haben.

San Fransisco County liegt im Bereich hoher Exposition und eines hohen EC Index. Das könnte daran liegen, dass die hohe Bildungsdichte und kulturelle Offenheit Freundschaften über sozioökonomische Grenzen hinweg fördern. Außerdem bieten städtische Strukturen mehr Möglichkeiten für gemeinsame soziale Interaktionen. Bronx County liegt hingegen sehr mittig in der Grafik. Räumliche und soziale Segregation könnten dazu führen, dass Menschen aus unterschiedlichen sozioökonomischen Schichten selten Freundschaften schließen. Historisch gewachsene Einkommensungleichheiten und kulturelle Barrieren verstärken den Bias.


  1. Welche (politischen) Maßnahmen könnten dazu beitragen, die soziale Vernetzung und damit die wirtschaftlichen Chancen in benachteiligten Regionen zu verbessern? Diskutieren Sie auf Basis ihrer Ergebnisse aus den Aufgaben 14 und 15.

Wie wir in vorherigen Aufgaben gesehen haben ist eine hohe Exposition eine wichtige Voraussetzung für eine starke soziale Vernetzung. Daher könnte ein wichtiger Ansatz sein, die Exposition möglichst hoch zu halten. Eine Möglichkeit wäre räumliche Segregation zu reduzieren in dem man sozial Wohnungen auch in wohlhabenderen Gegenden baut, um eine stärkere Durchmischung der Gruppen zu erzeugen. Außerdem könnten Mieten begrenzt werden um einkommensschwächere Haushalte in Stadtzentren zu halten.

Eine weitere Maßnahme könnten gemeinsame Bildungsräume sein. Es könnten Schulen gefördert werden mit gemischten sozioökonomischen Hintergründen, z.B. durch Schulzuweisungen bei denen Kinder verschiedener Gruppen auf eine Schule kommen. Außerdem könnten Förderprogramme und Stipendien Kindern aus einkommensschwachen Haushalten die Möglichkeit geben besser ausgestattete Schulen zu besuchen. Außerdem könnte der Ausbau von öffentlichen Räumen, wie Parks und Gemeindezentren, die Menschen aus unterschiedlichen sozioökonomischer Gruppen zusammenbringen.

Eine weitere wichtige Erkenntnis aus den vorherigen Aufgaben ist, dass ein hoher Freundschafts-Bias trotz hoher Exposition die soziale Vernetzung erschwert. Daher ist es wichtig diesen sehr gering zu halten und soziale und kulturelle Barrieren abzubauen. Soziale Interaktionsprogramme könnten dabei helfen, indem sie Menschen aus unterschiedlichen Gruppen zusammenbringen. In der Realität könnte sich das aber auch als schwierig darstellen, da solche oft freiwilligen Programme meist nur einseitig genutzt werden. Der beste Weg geht auch hier wieder über die Bildung, da Kinder oft zugänglicher für solche Programme sind, in denen dann Vorurteile und Stereotypen abgebaut werden können und eine stärkere Durchmischung stattfindet. Aber auch die vermehrte Organisation von kulturellen Aktivitäten, wie Festivals oder Sportveranstaltungen, könnten die Begegnungen verschiedener Gruppen fördern.

Ein weiterer wichtiger Punkt ist die Unterstützung wirtschaftlicher Integration, da Regionen mit höherer sozialer Vernetzung eine höhere wirtschaftliche Mobilität aufweisen. Eine Möglichkeit wäre qualifizierte Arbeitsplätze in benachteiligten Regionen zu schaffen, so dass diese Bevölkerungsgruppen auch die Chance auf einen guten Arbeitsplatz haben. Dies könnte z.B. durch Steuervergünstigungen für Unternehmen, die dort investieren, erreicht werden. Außerdem könnten auch staatlich geförderte Fortbildungsprogramme solchen Menschen helfen, da sie wichtige und nützliche Fähigkeiten erlernen, wodurch sich ihnen Jobaufstiege ermöglichen.


Zusatzaufgabe

  1. Laden Sie die Daten zur Economic Connectedness, dem Freundschafts-Bias und der Exposition auf College Ebene von der folgenden URL herunter und lesen Sie diese Daten in R ein:

Hier können Sie die Daten auf College Ebene herunterladen



  1. Laden Sie Kartendaten auf ZIP-Code Ebene mit einer API von IPUMS herunter. Am einfachsten funktioniert dies mit dem R Paket tidycensus. Für den API Zugang müssen Sie sich erst bei IPUMS registrieren und können danach einen API Key beantragen, welchen Sie dann für den Daten download über das tidycencus Paket hinterlegen müssen.

Hinweis: Der Download von Shape-File Daten wird in der Vignette des R Pakets tidycensus sehr gut beschrieben. Dieser Issue auf GitHub ist nützlich um zu erfahren, wie Sie ZIP-Code Daten herunterladen können.



  1. Stellen Sie den Economic Connectedness Index des Colleges (ec_own_ses_college) auf ZIP-Code Ebene in einer US-Karte dar. Machen Sie ihre Karte interaktiv mit dem Paket leaflet.


  1. Erstellen Sie ein Punktediagramm auf College Ebene, welches den Zusammenhang zwischen dem Freundschafts-Bias und der Exposition beleuchtet auf College Ebene näher beleuchtet.

Tragen Sie dafür auf der x-Achse den Anteil von Studierenden mit gut verdienenden Eltern ab (exposure_parent_ses_college) und den Freundschafts-Bias unter den Studierenden (bias_parent_ses_college)

Heben Sie fünf Colleges ihrer Wahl in der Grafik hervor (inkl. Beschriftung).

Beschreiben und interpretieren Sie ihre Grafik. Gehen Sie insbesondere auf die fünf von Ihnen hervorgehobenen Colleges ein.


Beschreibung der Grafik

Die Grafik zeigt den Zusammenhang zwischen dem Freundschafts-Bias unter den Studierenden und dem Anteil der Studierenden mit gut verdienenden Eltern. Es wurden fünf Colleges hervorgehoben: Stanford University, Harvard University, MIT, Yale University. Es lässt sich eine leicht horizontale Tendenz der Punkte erkennen, wobei rechts in der Grafik eine höhere Konzentration der Punkte herrscht und links eine größere Streuung. Je geringer also die Exposition ist, desto größer ist die Streuung des Freundschafts-Bias.

Interpretation der Grafik

Die horizontale Tendenz zeigt, dass der Freundschafts-Bias relativ unabhängig vom Anteil der Studierenden mit gut verdienenden Eltern ist. Das bedeutet, dass das Einkommen der Eltern auf die soziale Durchmischung, in Form von Freundschaftsschließungen, weniger Einfluss hat wie vielleicht erwartet. Es gibt also keine starke Präferenz für Freundschaften innerhalb der eigenen sozioökonomischen Gruppe. Dies spricht für eine gesunde soziale Integration der Studierenden an den Colleges. Dies könnte auf den strukturellen Aufbau vieler Colleges zurückzuführen sein, z.B. durch gemeinsames Wohnen, gemeinsames Lernen oder Gruppenprojekte. Die hohe Dichte an Punkten im rechten Teil der Grafik zeigt, dass viele Colleges eine hohe Exposition bieten und das bei einem Freundschafts-Bias nahe null. Es lässt sich erkennen, dass auch drei der von uns ausgewählten Colleges in diesem Bereich sind. Das MIT, die Standford und Yale University sind renomierte Universitäten. Das erklärt die hohe Exposition aber auch den Freundschafts-Bias, da dort meist auch ausländische Personen studieren und diese womöglich offener für Freundschaften verschiedenster sozialer Gruppen sind. Die größere Streuung links in der Grafik hängt mit der niedrigeren Exposition zusammen. Dies sind meistens kleinere und ländlichere Colleges, wie z.B. das Texas College. Dort sind vermehrt Studenten, deren Eltern weniger verdienen. Da diese Colleges weniger durchmischt sind, weil dort vermutlich auch weniger Ausländer studieren, könnten soziale Barrieren weiterhin bestehen, was die Streuung des Bias erklärt.



Literatur

Chetty, R., Friedman, J. N., Hendren, N., Jones, M. R., & Porter, S. R. (2018). The opportunity atlas: Mapping the childhood roots of social mobility (No. w25147). National Bureau of Economic Research. https://doi.org/10.3386/w25147

Chetty, R., Jackson, M.O., Kuchler, T. et al. Social capital I: measurement and associations with economic mobility. Nature 608, 108–121 (2022a). https://doi.org/10.1038/s41586-022-04996-4

Chetty, R., Jackson, M.O., Kuchler, T. et al. Social capital II: determinants of economic connectedness. Nature 608, 122–134 (2022b). https://doi.org/10.1038/s41586-022-04997-3