Motivation

In diesem Projekt untersuchen Sie, wie soziale Netzwerke – insbesondere Freundschaften – wirtschaftliche Chancen und sozialen Aufstieg beeinflussen. Dabei greifen Sie auf einen Datensatz von 70,3 Millionen Facebook Nutzern zurück, um das Konzept des Sozialkapitals besser zu verstehen. Ihr Ziel ist es, zu analysieren, wie stark Menschen aus unterschiedlichen sozioökonomischen Hintergründen miteinander vernetzt sind und welche Auswirkungen dies auf die wirtschaftliche Mobilität hat.

Fokus der Analyse
Das Projekt konzentriert sich auf zwei zentrale Aspekte sozialer Vernetzung:

Warum ist das relevant?
Eine zentrale Fragestellung des Projekts ist es, zu untersuchen, ob und in welchem Ausmaß soziale Netzwerke – insbesondere Freundschaften – zu wirtschaftlicher Mobilität beitragen. Frühere Studien deuten darauf hin, dass ein Mangel an sozialer Interaktion über Klassengrenzen hinweg mit geringeren Aufstiegschancen verbunden ist. Menschen, die stärker über soziale Schichten hinweg vernetzt sind, profitieren tendenziell von besseren wirtschaftlichen Perspektiven.

Doch der genaue Zusammenhang zwischen Sozialkapital und wirtschaftlicher Mobilität ist bisher nur teilweise verstanden. Ihr Projekt hat daher das Ziel, diesen Zusammenhang empirisch zu untersuchen und offenzulegen. Sie analysieren, inwiefern unterschiedliche Formen sozialer Vernetzung Chancen auf sozialen Aufstieg beeinflussen – oder behindern.

Datengrundlage

Für Ihre Analyse verwenden Sie reale Daten des Social Capital Atlas (https://www.socialcapital.org). Ihr Ziel ist es, herauszufinden:

Durch Ihre eigene Analyse decken Sie nicht nur bestehende Muster auf, sondern tragen auch dazu bei, neue Erkenntnisse darüber zu gewinnen, wie soziale Netzwerke Chancen für wirtschaftlichen Aufstieg verbessern können.

Einlesen

Dieses Projekt basiert auf öffentlich zugänglichen Facebook-Daten, welche die soziale Vernetzung auf County Ebene messen. Die zugrunde liegende Datenquelle wurde in den Studien von Chetty et al. (2022a, 2022b) detailliert beschrieben und liefert wichtige Einblicke in die soziale Vernetzung über sozioökonomische Grenzen hinweg. Für Ihre Analyse stellen wir Ihnen diesen Datensatz zur Verfügung.

  1. Lesen Sie den Datensatz social_capital_county.rds aus dem Unterordner “Daten” in R ein und nennen diesen Datensatz social_capital_county. Dieser Datensatz beinhaltet Variablen, welche von Facebook stammen und die Freundschaftsverbindungen einzelner Personen untereinander (aggregiert auf County-Ebene) darstellen.

Schränken Sie ihren Datensatz auf folgende Variablen ein:

  • county
  • ec_county
  • exposure_gpr_mem_county
  • bias_grp_mem_county
  • pop2018

Bitte beschreiben Sie die Variablen, nutzen Sie dafür die bereitgestellte Datei “social_capital_codebook.pdf”.

Beantworten Sie auch folgende Fragen:

  • Was ist eine Beobachtung?
  • Wie viele Counties sind in diesem Datensatz vorhanden? Wie viele Counties hat die USA?
  • In wie viel Prozent der Fälle haben Sie Informationen zu allen Variablen einer Beobachtung in dem vorliegenden Datensatz?

Die Variable (county) ist ein einzigartiger, fünfstelliger FIPS-Code, wodurch jedes County einem Code zugeordnet werden kann und andersherum. Die Variable (ec_county) ist eine Kennzahl für die wirtschaftliche Vernetzung und berechnet sich aus dem Doppelten des Anteils von Freundschaften zwischen Personen mit niedrigen und hohem sozioökonomischen Status (SES), gemittelt über alle Personen mit niedrigem SES in einem County. (exposure_gpr_mem_county) ist der durchschnittliche Anteil an Personen mit hohem SES in den sozialen Gruppen von Personen mit niedrigem SES, ebenfalls berechnet auf Countyebene. Der (biasgrpmemcounty) ist eine Schätzung der Verzerrung in Freundschaftsverbindungen. Dieser berechnet sich aus 1 minus dem Verhältnis von wirtschaftlicher Vernetzung (ecgrpmemcounty) zu der durchschnittlichen Exposition (exposuregrpmemcounty). Die Variable (pop2018) gibt die Bevölkerung des jeweiligen Counties im Jahr 2018 an.

Der Datensatz enthält 3089 Beobachtungen. Eine Beobachtung gibt hierbei einen Countycode an. Diese Beobachtung enthält dabei die wirtschaftliche Vernetzung, durchschnittliche Exposition zu Personen mit hohem sozioökonomischen Status, die Verzerrung in den Freundschaftsverbindungen und die Bevölkerung 2018.

In diesem Datensatz sind 3089 Counties enthalten. In den USA gibt es insgesamt 3144 Counties (https://de.wikipedia.org/wiki/County_(Vereinigte_Staaten).

Im vorliegenden Datensatz sind in 95,14% der Fälle Informationen zu allen Variablen einer Beobachtung vorhanden.


  1. Weiterhin haben wir Ihnen den Datensatz county_covariates.dta im Unterordner “Daten” bereitgestellt, welcher unter anderem Daten aus dem Opportunity Atlas enthält und in Chetty et al. (2018) vorgestellt wird. Lesen Sie diese Daten in R ein und nennen Sie ihn covariates.

Schränken Sie diesen Datensatz auf die folgenden Variablen ein:

  • county
  • kfr_pooled_pooled_p25
  • gini99_simple

Generieren Sie eine neue Variable upward_mobility als kfr_pooled_pooled_p25*100. Löschen Sie weiterhin die Variable kfr_pooled_pooled_p25.

Bitte beschreiben Sie die Variablen in ihrem Datensatz, nutzen Sie dafür die bereitgestellte Datei “replication_package_README.pdf”.

Hinweis: Mit dem haven Paket können Sie .dta Dateien einlesen


Die Variable (county) ist dieselbe wie in Aufgabe 1. (county) gibt einen fünfstelligen FIPS-Code an, wodurch jedes County identifiziert werden kann. Die Variable (kfr_pooled_pooled_p25) gibt das durchschnittliche Einkommensperzentil im Erwachsenenalter eines Kindes, das in eine Familie geboren wurde, die sich im 25. Perzentil der Einkommensverteilung befindet, an. Diese Variable wurde mal 100 gerechnet und gibt so einen Prozentwert an. Die Variable (gini99_simple) ist der rohe Gini-Koeffizient - der durch Streudaten geschätzt wurde - abzüglich des obersten 1%.


  1. Um Karten wie bspw. in der Case Study zu erstellen, benötigen Sie Kartendaten in Form von Shapefiles (Endung .shp). In einer späteren Analyse sollen Sie die soziale Vernetzung und andere Variablen zwischen den Counties mittels einer Karte visualisieren. Hierzu benötigen Sie jedoch erst die nötigen Shapefiles, welche wir Ihnen im Unterordner “Daten” bereitgestellt haben (County_census_data.shp). Diese Daten haben wir mittels des Pakets tidycensus direkt von der amerikanischen Statistikbehörde IPUMS heruntergeladen. Neben den Geografischen Informationen der Counties sind auch noch weitere Daten enthalten.

Lesen sie die Daten County_census_data.shp in R ein und speichern diesen in R als county_census_shape ab. Neben den County Namen und und Polygonen enthält dieser Datensatz auch das geschätzte Median Einkommen pro County für das Jahr 2023 (medincE).

Hinweis: Achten Sie darauf eine numerische county Variable aus GEOID zu generieren



  1. Verbinden Sie die Dataframes county_census_shape, covariates und social_capital_county zu einem Datensatz analysis_data.
  • Welche Art von Join sollten sie hierbei verwenden? Warum gerade diesen Join?
  • Welcher Datensatz sollte der Hauptdatensatz sein? Warum?

Wir sollten den left-join verwenden, da in allen drei Datensätzen die Variable (county) vorhanden ist. Des Weiteren macht dieser Sinn, da wir alle Daten aus dem ersten Dataframe, dem Hauptdatensatz, beibehalten. Hier ist das covariates, da dieser die meisten Counties enthält. Somit kann sichergestellt werden, dass kein County verlorengeht, was bei den beiden anderen Datensätzen nicht gegeben gewesen wäre.


  1. Folgende Variablen werden Sie in diesem Projekt hauptsächlich nutzen:
  • upward_mobility
  • ec_county
  • exposure_gpr_mem_county
  • bias_grp_mem_county

Bevor Sie eine Analyse tätigen, sollten Sie sich überlegen, welche Erwartungen bzgl. der Zusammenhänge innerhalb der einzelnen Variablen Sie haben. Gehen Sie dabei auf folgende Fragen ein:

  • Was genau misst die wirtschaftliche Mobilität (upward_mobility) und die soziale Vernetzung (ec_county)? Warum sollte ein hoher Wert der sozialen Vernetzung auch potentiell gute ökonomische Aufstiegschancen, d.h. eine hohe wirtschaftliche Mobilität, mit sich bringen? Begründen Sie und benennen Sie explizit die Annahmen, die ihrer Begründung zugrunde liegen.
  • Bitte schauen Sie sich an, wie die sozialen Vernetzung (ec_county) berechnet wird. Was würden Sie erwarten, wie die Exposition (exposure_gpr_mem_county) und der Freundschafts-Bias (bias_grp_mem_county) die sozialen Vernetzung (ec_county) beeinflusst? Begründen Sie und benennen Sie explizit die Annahmen, die ihrer Begründung zugrunde liegen.

Hinweis: Die genaue Berechnung der sozialen Vernetzung (ec_county) finden Sie im Dokument “social_capital_codebook.pdf”


Die wirtschaftliche Mobilität misst, wie gut Kinder aus Familien, die sich in den unteren 25% des Einkommensbereichs befinden, im späteren Leben in höhere Einkommensgruppen aufsteigen. Genauer gesagt berechnet sich die wirtschaftliche Mobilität als der Prozentsatz (multipliziert mit 100) des Einkommensperzentils, in dem Kinder von Eltern, deren Einkommen im unteren 25%-Perzentil liegt, später landen. Die soziale Vernetzung misst den Anteil der sozialen Verbindungen (Freundschaften) zwischen Personen mit niedrigem und hohem sozioökonomischen Status (SES) in einem bestimmten County. Diese Vernetzung wird berechnet, indem der doppelte Anteil der Freundschaften zwischen diesen beiden sozialen Gruppen gemittelt wird. Eine hohe soziale Vernetzung führt dazu, dass Personen mit niedrigem SES Zugang zu Menschen mit höherem SES haben. Personen mit höherem soziokönomischen Status haben zumeist ein gutes berufliches Netzwerk, bessere Bildungsmöglichkeiten und finanzielle Möglichkeiten. Besonders persönliche Beziehungen können vieles erleichtern, aufgrund der Annahme dass eine höhere soziale Vernetzung zwischen den Schichten zu einem besseren Zugang zu Ressourcen und Chancen für Menschen mit niedrigem SES führt, was ihre Aufstiegschancen erheblich steigert. Des Weiteren werden durch die Konnektivität von Personen verschiedener sozioökonomischer Schichten Informationsbarrieren überwunden, was zu besseren Chancen und wirtschaftlicher Entscheidungsfindung führt.

Unsere Erwartung hinsichtlich Exposition liegt darin, dass eine hohe Exposition zu einer stärkeren sozialen Vernetzung führt, weil mehr Kontakte zu Menschen mit hohem SES bestehen. Die zugrundeliegende Annahme basiert darauf, dass ein höherer Anteil an Personen mit hohem sozioökonomischen Status in den Netzwerken von Personen mit niedrigem SES zu einer besseren sozialen Vernetzung führt und damit zu einer potenziellen Steigerung der wirtschaftlichen Moobilität (upward_mobility). Wir nehmen an, dass ein hoher Freundschafts-Bias die sozialen Verbindungen zwischen den Schichten reduziert und damit den Zugang von Personen mit niedrigem SES zu relevanten Opportunitäten und Ressourcen einschränkt. Die Erwartung begründet sich darauf, dass ein hoher Freundschafts-Bias die soziale Vernetzung verringert, weil Personen mit niedrigem SES weniger dazu neigen würden, Freundschaften mit Personen aus höheren SES-Gruppen zu schließen. Konträr dazu würde ein niedriger Bias die Vernetzung zwischen den Schichten fördern.


Deskriptive Analysen

Nun haben Sie alle Daten zusammen, die Sie für die Analyse der soziodemographischen Zusammenhänge innerhalb der einzelnen Counties benötigen und können in ihre Analysen einsteigen.

  1. Schauen Sie sich in einem ersten Schritt an, wie die Variablen im Datensatz analysis_data über alle Counties verteilt sind. Konkret sollten Sie eine Tabelle erstellen, welche Informationen zu allen numerischen Variablen in ihrem Datensatz darstellt. Berechnen Sie zu jeder Variablen den Mittelwert, den Median, das Minimum, das Maximum, die Standardabweichung, sowie das 25%- und das 75%- Quantil bezogen auf alle Counties.

Beschreiben und interpretieren Sie Ihre Tabelle.

Bei welchen Variablen gibt es Auffälligkeiten? Gibt es Ausreißer nach oben oder unten?

Hinweis: Achten Sie auf eine schöne Darstellung ihrer Tabelle mittels der Pakete kableExtra oder gt!


Variable Mittelwert Minimum Quantil25 Median Quantil75 Maximum Standardabweichung
Gini-Koeffizient 0.29 -0.06 0.24 0.29 0.33 0.57 0.06
Aufstiegschancen für einkommensschwache Kinder 42.72 12.22 38.44 41.95 46.07 68.83 6.48
Median-Haushaltseinkommen 64956.94 16170.00 54088.00 63125.00 73051.00 178707.00 18342.48
EC-Index 0.81 0.29 0.70 0.81 0.94 1.36 0.18
Exposition 0.91 0.26 0.77 0.91 1.05 1.49 0.21
Freundschafts-Bias nach SES 0.06 -0.11 0.03 0.06 0.10 0.33 0.05
Bevölkerung 2018 108010.41 544.00 12630.00 27887.00 72728.50 10098052.00 337782.56

Beschreibung: Die Spalte Variablen besteht aus den Variablen County-Nr, Gini-Koeffizient, Aufstiegschancen für einkommensschwache Kinder, Median-Haushaltseinkommen, EC-Index (Grad an sozialer Vernetzung), durchsch. Kontakt von niedrigem SES mit hohem SES, Freundschafts-Bias nach SES und Bevölkerung 2018. Das sind alle Variablen aus dem Datensatz “analysis_data”, welche nummerisch sind. Diese wurden aber leicht umbenannt, um sie verständlicher zu machen. Zu jeder dieser Variablen wurde Median, Mittelwert, Minimum, Maximum, Standardabweichung, 25% Quantil und 75% Quantil berechnet.

Auffällig ist, dass bei dem Gini-Koeffizient, Grad an sozialer Vernetzung, Exposition und Freundschafts-Bias nach SES Median und Mittelwert identisch sind. Zudem ist beim Gini-Koeffizient ein starker Ausreißer nach unten zu erkennen in Form des Minimums. Außerdem ist das Maximum von Freundschafts-Bias nach SES, Median-Haushaltseinkommen und Bevölkerung 2018 sehr hoch im Vergleich zum 75%-Quantil.

Interpretation: Schauen wir uns nun die einzelnen auffälligen Variablen im Detail an. Der Gini-Koeffizient hat den Definitionsbereich von 0-1 , weshalb ein Wert von -0.06 als Minimum sehr seltsam ist. Das könnte auf Fehler bei der Datenerhebung hindeuten, da dieser Wert in der Praxis nicht existieren dürfte. 0 als gini-Koeffizient bedeutet vollkommene Gleichheit innerhalb der Bevölkerung und 1 vollkommene Ungleichheit. Der Median und Mittelwert liegen bei 0.29, was auffällig ist. Allerdings könnte das darauf hindeuten, dass die Ungleichheit relativ gleichmäßig über die betrachteten Countys verteilt ist. Das ist auch mit einer Standardabweichung von 0.06 plausibel.

Beim “Median-Haushaltseinkommen” können wir einen großen Abstand zwischen dem Minimum “16170.00” und dem Maximum “178707.00” erkennen. Zudem sind auch die Quartile mit “54088.00” und “73051.00” weit von diesen Werten entfert. Jedoch liegen die Quantile selber nah beieinander. Das spricht dafür, dass es starke Ausreißer nach oben und unten gibt, aber der Großteil in der Mitte liegt.

Wenn wir uns “Grad an sozialer Vernetzung” anschauen, stellen wir fest, dass die Zahlen relativ im Mittelfeld sind, was für einen großen Teil an sozialer Vermischung spricht. Dafür sprechen auch die beiden Quantile mit “0.70” und “0.94”. Da der Deffinitionsbereich von 0-2 geht, ist das nicht weiter auffällig. Auch wenn die Zahlen nicht identisch sind, trifft das selbe für “Kontakt von niedrigem SES mit hohem SES” zu. Zudem ist bei beiden der Mittelwert und der Median identisch, was für eine symmetrische Verteilung sprechen könnte. Ebenfalls ist die dazugehörige Standardabweichung bei beiden relativ niedrig, was für eine geringe Streuung der Werte spricht.

Als nächstes schauen wir uns den “Freundschafts-Bias nach SES” an. Dort liegt der Definitionsbereich zwischen minus Unendlich und 1. Zumindest in der Theorie. Dabei zeigt 1 einen 100% Bias an. Ein Wert von 0.33 ist damit schon signifikant. Besonders, wenn das 75% Quantil bei 0.1 liegt. Das spricht für einen Ausreißer nach oben, dass der Mittelwert und Median bei 0.06 liegen und die Standartabweichung bei 0.05. Diese Zahlen sprechen für eine geringe Streuung und dass der Mittelwert und Median identisch sind, könnte für eine mögliche Symmetrie sprechen.

Als Letztes schauen wir uns noch “Bevölkerung 2018” an. Dort haben wir ebenfalls einen ziemlichen Ausreißer nach oben mit einem Maximum von 10098052.00 . Dieser Wert liegt weit über dem 75% Quantil mit 72728.50. Da das Minimum bei 544.00 liegt, spricht das für eine sehr hohe Streuung. Das bestätigt auch die Standardabweichung mit 337782.56. Ungewöhnlich ist das jedoch nicht, da es sich nunmal um sehr kleine Countys und sehr große Countys handelt, was normal ist, aber trotzdem beachtet werden sollte.


Soziale Vernetzung und wirtschaftliche Mobilität

Ihre Analyse der Daten aus Aufgabe 6 gibt ihnen schon ein erstes Bild über die Verteilung der einzelnen Variablen. Jedoch sollten Sie für ihre Analyse näheres über die soziale Vernetzung lernen, den Economic Connectedness Index (ec_county), welcher aus den Facebook Freundschaften generiert wurde. Die Daten des Economic Connectedness Index wurden auf County Ebene aggregiert, beruhen jedoch auf Freundschaftsdaten von individuellen Facebook Nutzern.

  1. Um sich ein Bild der sozialen Vernetzung auf County Ebene machen zu können, sollten Sie diese in einer Karte der USA darstellen. Beschreiben und interpretieren Sie die gezeigte Karte.

Gehen Sie bei ihrer Interpretation auch auf folgende Frage ein:

Welche Annahme müssen Sie machen, damit Sie gültige Aussagen zum Einfluss des Economic Connectedness Index auf die wirtschaftliche Mobilität tätigen können und Sie tatsächlich etwas über Freundschaftsnetzwerke lernen können?

Hinweis: Wenn Sie Karten der USA darstellen, dann empfiehlt sich das tigris Paket und der Befehl shift_geometry() um Alaska, Hawaii und Puerto Rico schön darstellen zu lassen.


Die Karte zeigt den Economic Connectedness Index (Grad an sozialer Vernetzung) auf County-Ebene. Durch farbliche Abstufungen wird dargestellt, in welchen Counties der Grad an sozialer Vernetzung wie groß ist. Höhere Vernetzung wird durch warme Farben, niedrigere Vernetzung innerhalb der Counties mit kalten Farben dargestellt. Es sind definitiv regionale Unterschiede zu erkennen, beispielsweise dass die regionale Vernetzung im mittleren Norden und Nordosten höher ist als in den Südstaaten wie beispielsweise Alabama und Georgia, aber auch in Texas und Florida. Auf den ersten Blick kann keine Aussage darüber getroffen werden, ob der Grad sozialer Vernetzung in Städten kleiner oder größer als im ländlichen Raum ist.

Regionen mit einem hohen ECI müssten von stärkeren sozialen Netzwerken profitieren, wodurch ein besserer Austausch zustande kommen müsste. Einerseits fällt auf, dass es sowohl in wirtschaftlich schwächeren Regionen wie dem mittleren Westen, aber auch wirtschaftlich starken Regionen (Nordosten) höhere ECI Werte gibt. Andererseits gibt es auch in wirtschaftlich schwächeren Regionen wie New Mexico und den Südstaaten niedrige EC Werte, jedoch auch in vermeintlich stärkeren Regionen wie Südflorida. Jedoch kann man bei genauerem Hinsehen erkennen, dass selbst in Regionen mit geringeren ECI-Werten öfter grüne bis gelbliche Flecken zu erkennen sind, wenn dort Großstädte sind, wie beispielsweise in Los Angeles, San Francisco und Boston. Je näher man Richtung Stadt geht, desto heller wird es. Dagegen sprechen die Beobachtungen im mittleren Westen mit hohen ECI-Werten und sehr wenigen Großstädten.

Man müsste eine klare Aussage darüber treffen können, wie sehr der Grad sozialer Vernetzung sich auf die wirtschaftliche Mobilität auswirkt. Beispielsweise müssten wir eine Kausalität zwischen den beiden Größen erkennen können. Der Economic Connectedness Index (ECI) hat einen direkten Einfluss auf die wirtschaftliche Mobilität. Dabei gehen wir davon aus, dass bessere soziale Netzwerke (höherer ECI) den Zugang zu wirtschaftlichen Möglichkeiten und Ressourcen fördern. Eine weitere Annahme könnt dahingehend sein, dass die auf County-Ebene aggregierten Daten die individuellen Netzwerke und deren Einfluss korrekt widerspiegeln. Wir müssten zusätzlich davon ausgehen, dass die Facebook-Daten jegliche soziale Interaktion widerspiegeln und nicht durch Präferenzen (mögliche Trennung von beruflichen und privaten Kontakten auf Social Media) beeinflusst sind. Des Weiteren müssen wir annehmen, dass die Daten repräsentativ hinsichtlich Zeit und Bevölkerung sind. Das bedeutet, dass die Datengrundlage repräsentativ für die gesamte Bevölkerung der einzelnen Counties ist und eine langfristige Auswirkung auf die wirtschaftliche Mobilität hat.


  1. Wie in der vorherigen Aufgabe zu sehen war, unterscheidet sich der Economic Connectedness Index (ec_county) in den einzelnen Counties doch deutlich voneinander. In einer ersten deskriptiven Analyse wäre es spannend zu sehen, ob der EC mit unterschiedlichen Variablen, welche den ökonomischen Aufstieg repräsentieren, zusammenhängt.

Hier sollen Sie in einem ersten Schritt die zehn Counties mit dem höchsten Economic Connectedness Index und die zehn Counties mit dem niedrigsten Economic Connectedness Index auflisten und folgende Variablen näher anschauen:

  • Median Haushaltseinkommen in dem County (medincE)
  • Wirtschaftliche Mobilität in dem County (upward_mobility)
  • Einkommensungleichheit in dem County (gemessen mit dem Gini-Koeffizient des Counties) (gini99_simple)

Erstellen Sie eine oder mehrere Tabelle um die Ergebnisse für die 20 Counties übersichtlich dazustellen.

Beschreiben und interpretieren Sie ihre Tabellen und gehen Sie auf die folgende Frage ein:

  • Haben Sie diese Unterschiede in den einzelnen Variablen erwartet? Begründen Sie warum, oder warum nicht.

Top 10 Counties nach EC-Index
County Name EC-Index Median-Haushaltseinkommen Wirtschaftliche Mobilität Gini-Koeffizient
Rockingham County, New Hampshire 1.36 113927 45.31 0.23
Douglas County, Colorado 1.35 145737 48.24 0.12
San Francisco County, California 1.31 141446 50.39 0.31
Morgan County, Utah 1.29 126092 54.12 0.15
Madison County, Idaho 1.28 58259 51.54 0.22
Arlington County, Virginia 1.27 140160 46.28 0.39
Sussex County, New Jersey 1.26 114316 47.04 0.18
Gunnison County, Colorado 1.25 77358 48.71 0.35
Wright County, Minnesota 1.25 106666 49.54 0.18
Pitkin County, Colorado 1.24 100318 45.83 -0.01
Bottom 10 Counties nach EC-Index
County Name EC-Index Median-Haushaltseinkommen Wirtschaftliche Mobilität Gini-Koeffizient
Todd County, South Dakota 0.29 39148 30.18 0.32
Terrell County, Georgia 0.35 43812 31.17 0.36
Bullock County, Alabama 0.36 36723 34.57 0.31
Robeson County, North Carolina 0.36 40318 32.10 0.36
Allendale County, South Carolina 0.36 31603 31.40 0.33
Early County, Georgia 0.38 53750 33.83 0.46
Marlboro County, South Carolina 0.38 36293 32.82 0.31
Crisp County, Georgia 0.39 42745 32.89 0.42
Dooly County, Georgia 0.40 56545 33.50 0.39
Scotland County, North Carolina 0.40 43500 31.08 0.39

Beschreibung:

Die jeweiligen Tabellen für Top 10 und Bottom 10 nach EC-Index enthalten fünf Informationen: den County-Namen (County Name), den Economic Connectedness Index (EC-Index), das Median-Haushaltseinkommen, die wirtschaftliche Mobilität und den Gini-Koeffizienten. Wir haben die Top 10 und Bottom 10 Countys in Bezug auf den EC-Index ausgewählt, um Unterschiede in den anderen Variablen zu untersuchen. Zu erkennen ist, dass bei den Top 10 das Medianeinkommen und die wirtschaftliche Mobilität insgesamt höher sind als bei den Bottom 10. Dies deutet darauf hin, dass in Regionen mit höherem EC-Index ein höheres Wohlstandsniveau und bessere Aufstiegsmöglichkeiten bestehen. Interessanterweise zeigt der Gini-Koeffizient bei den Top 10 niedrigere Werte im Vergleich zu den Bottom 10, was auf geringere Einkommensungleichheit in diesen Countys hinweist.

Interpretation:

Ein hoher EC-Index korreliert stark mit einem hohen Medianeinkommen und einer hohen wirtschaftlichen Mobilität und scheint positiv mit einem niedrigeren Gini-Koeffizienten verbunden zu sein. Dies legt nahe, dass Netze mit höherer sozialer Vernetzung auch wirtschaftlich inklusiver und weniger ungleich sein könnten. Umgekehrt korreliert ein niedriger EC-Index mit niedrigeren Einkommen, schlechteren Aufstiegschancen und höherer Ungleichheit, was darauf hindeutet, dass ein begrenztes Netzwerk diese Faktoren negativ beeinflusst. Diese Korrelationen unterstützen die Hypothese, dass starke soziale Verbindungen positiven Einfluss auf die wirtschaftliche Situation haben können. Es sei jedoch angemerkt, dass diese Tabelle nur Hinweise bietet und keine endgültige Schlussfolgerung stützt. Dennoch verstärken die Daten die Idee eines starken Netzes für wirtschaftliche Vorteile.

Erkenntnisse unerwartet? :

Diese Unterschiede sind nicht völlig unerwartet. Menschen mit besseren sozialen Netzwerken haben oft einfacheren Zugang zu attraktiven Jobmöglichkeiten oder Praktika, was ein höheres Einkommen begünstigt und die wirtschaftliche Mobilität fördert. Auch ein niedriger Gini-Koeffizient ist plausibel, da engere Netzwerke helfen können, soziale Ungleichheiten besser sichtbar zu machen und zu adressieren. In einem gut verbundenen Netzwerk ist es einfacher, Unterstützung zu finden und Hindernisse zu überwinden.


Aktuell haben Sie in einer univariaten Analyse viel über die soziale Vernetzung auf Basis von Facebook Daten gelernt. Doch was hat der Economic Connectedness Index mit tatsächlicher Entwicklungsmöglichkeit auf sich?

  1. In dieser Aufgabe sollten Sie eine Punktdiagramm (Scatter-Plot) erstellen, welches die wirtschaftliche Mobilität (upward_mobility) gegenüber dem Economic Connectedness Index darstellt. Diese Grafik sollte interaktiv gestaltet sein. Konkret sollte der Name des Counties zu sehen sein, wenn Sie über einen Punkt im Diagramm fahren. Fügen Sie Ihrer Grafik den Korrelationskoeffizient der zwei Variablen hinzu und zeichnen Sie eine Regressionsgerade durch die Punktewolke.

Beschreiben und interpretieren Sie ihre Grafik. Gehen Sie dabei insbesondere auf die folgende Frage ein:

  • Entspricht der Zusammenhang zwischen den zwei Variablen ihren Erwartungen aus Aufgabe 5?
  • In wie weit können Sie mit dieser Grafik die Frage “Wie stark beeinflussen soziale Netzwerke die wirtschaftliche Mobilität?” aus der Motivation beantworten?

Hinweis: Um interaktive Grafiken zu erstellen könnten Sie z.B. das plotly Paket, oder das ggiraph Pakte nutzen


Auf der x-Achse zeigt der Plot den Economic Connectedness Index, auf der y-Achse die wirtschaftliche Mobilität. Jeder Punkt repräsentiert ein County, und der Name des Counties wird sichtbar, wenn die Maus über einen Punkt bewegt wird. Zusätzlich ist eine rot gestrichelte Regressionsgerade zu sehen, die den linearen Zusammenhang zwischen den beiden Variablen beschreibt.

Der Korrelationskoeffizient liegt bei 0,723, was auf einen starken positiven Zusammenhang hinweist: Höhere Werte des EC-Index gehen tendenziell mit höherer wirtschaftlicher Mobilität einher. Dies entspricht unseren Erwartungen aus Aufgabe 5, da eine stärkere Vernetzung zwischen sozialen Schichten die Chancen auf wirtschaftliche Mobilität erhöhen sollte.

Die Grafik deutet darauf hin, dass soziale Netzwerke tatsächlich eine wichtige Rolle bei der wirtschaftlichen Mobilität spielen. Dennoch beweist sie keine Kausalität. Es könnte sein, dass dieser Zusammenhang dadurch entsteht, dass Menschen vor allem Kontakte in wirtschaftlich stärkeren Schichten suchen. Um diese Hypothese zu überprüfen, wären weitere Daten und Analysen nötig, etwa zur Qualität und Diversität der sozialen Netzwerke oder zu anderen Einflussfaktoren wie Bildung und Infrastruktur.

Zusammenfassend zeigt die Grafik eine klare Korrelation, die die These stützt, dass bessere soziale Vernetzung zu verbesserter wirtschaftlicher Mobilität führt. Allerdings bleibt die Frage offen, ob dies der alleinige Treiber für den beobachteten Effekt ist.


  1. Erstellen Sie zwei weitere Punktediagramme, welche die 500 größten Counties nach Bevölkerungsgröße abtragen und zeigen Sie folgende Zusammenhänge auf (ohne Interaktivität):
  • Zusammenhang zwischen der Einkommensungleichheit (gemessen im Gini-Koeffizient) und dem Economic Connectedness Index
  • Zusammenhang zwischen dem Median Haushaltseinkommen und dem Economic Connectedness Index

Weiterhin sollten Sie die folgenden Counties in ihrem Diagramm hervorheben und benennen:

  • San Francisco County, California
  • Arlington County, Virginia
  • Morgan County, Utah
  • New York County, New York
  • Bronx County, New York

Beschreiben und interpretieren Sie ihre Grafiken. Gehen Sie dabei insbesondere auf folgende Frage ein:

  • Entspricht der Zusammenhang zwischen den zwei Variablen ihren Erwartungen aus Aufgabe 5? Erklären Sie.

Beschreibung:

Grafik 1:

Die erste Grafik zeigt den EC-Index (Economic Connectedness Index), welcher auf der x-Achse liegt, im Vergleich zum Gini-Koeffizienten auf der y-Achse. In der Grafik sind die Top 500 Counties der USA als hellblaue Punkte dargestellt und eine Regressionsgerade verdeutlicht den allgemeinen Trend. Fünf spezifische Städte, nämlich San Francisco County, California, Arlington County, Virginia, Morgan County, Utah, New York County, New York und Bronx County, New York, sind in unterschiedlichen Farben hervorgehoben. Eine Legende ordnet diesen Städten jeweils die Farben grün, gelb, blau, lila und rot zu. Die Überschrift lautet “Zusammenhang zwischen Einkommensungleichheit und Economic Connectedness Index”.

Grafik 2:

Diese Grafik ist im Wesentlichen identisch mit der ersten, mit dem Unterschied, dass auf der x-Achse das Median-Haushaltseinkommen abgebildet ist. Die Überschrift lautet entsprechend “Zusammenhang zwischen Median Haushaltseinkommen und Economic Connectedness Index”.

Interpretation:

In der ersten Grafik zeigt die Regressionsgerade eine klare negative Korrelation: Mit steigendem Gini-Koeffizienten sinkt der EC-Index. Dies bedeutet, je mehr Einkommensungleichheit ein County aufweist, desto geringer ist die Vernetzung zwischen verschiedenen sozialen Schichten. Orte wie Bronx County, New York, liegen nahe an der Regressionslinie, was diese Beziehung bestätigt. San Francisco County, California und Arlington County, Virginia fallen durch ihre hohen Werte bei EC-Index und Gini-Koeffizienten auf und weichen von der allgemeinen Tendenz ab. Interessanterweise weicht New York County, New York ebenfalls ab, allerdings mit einem noch viel höheren Gini-Koeffizienten und einem mittleren EC-Index, was ebenfalls dem allgemeinen Trend deutlich wiederspricht . Morgan County, Utah hingegen übertrifft die Erwartungen des Modells, da es einen sehr hohen EC-Index und einen niedrigen Gini-Koeffizienten aufweist. Insgesamt spiegelt die negative Korrelation in dieser Stichprobe einen signifikanten Trend wider, der zeigt, wie Einkommensgleichheit mit sozialer Vernetzung zusammenhängt.

In der zweiten Grafik weichen die fünf Countys nicht stark von der Regressionsgeraden ab. San Francisco County, California, Arlington County, Virginia und Morgan County, Utah zeigen einen höheren EC-Index bei vergleichbarem Median-Haushaltseinkommen als durch die Regressionsgerade erwartet. Dies deutet darauf hin, dass diese Countys hohe Werte sowohl im EC-Index als auch im Median-Haushaltseinkommen aufweisen. New York County, New York zeigt jedoch einen niedrigeren EC-Index bei hohem Median-Haushaltseinkommen, während Bronx County, New York direkt auf der Regressionsgeraden liegt, allerdings mit einem niedrigen EC-Index.

Frage beantworten:

Die Erkenntnisse aus diesen Grafiken bestätigen die Vermutungen aus Aufgabe 5 und stützen sie mit empirischen Daten. Die untersuchten Zusammenhänge machen intuitiv Sinn, besonders in großen Städten wie den analysierten, wo die soziale Vernetzung trotz Einkommensungleichheit erhalten bleibt, vermutlich aufgrund der hohen Bevölkerungsdichte und dem Mix sozialer Gruppen. Diese Ausnahmen sind relevant, aber sie stehen der allgemeinen Tendenz nicht entgegen, die durch die Daten belegt wird. Insgesamt sind die fünf ausgewählten Countys in Einklang mit dem modellhaften Verständnis einer negativen Korrelation zwischen Einkommensungleichheit und sozialer Vernetzung sowie einer positiven Beziehung zwischen Einkommen und sozialer Vernetzung.


Wie aus Aufgabe 9 hervorgeht ist die wirtschaftliche Mobilität stark mit dem Economic Connectedness Index korreliert. In den nächsten Aufgaben sollten Sie sich tiefer mit den Gründen dafür beschäftigen und sich im ersten Schritt die Korrelationen zwischen verschiedenen Variablen in ihrem Datensatz anschauen.

  1. Erstellen Sie in dieser Aufgabe eine Korrelationsmatrix, die Ihnen den Zusammenhang zwischen den folgenden Variablen aufzeigt:
  • Economic Connectedness Index (ec_county)
  • Wirtschaftliche Mobilität (upward_mobility)
  • Median Haushaltseinkommen (medincE)
  • Bevölkerung in 2018 (pop2018)
  • Einkommensungleichheit (gini99_simple)
  • Exposition (exposure_gpr_mem_county)
  • Freundschafts-Bias (bias_grp_mem_county)

Beschreiben und interpretieren Sie ihre Korrelationsmatrix.


In der Korrelationsmatrix ist der Zusammenhang zwischen ausgewählten Variablen zu erkennen. Sowohl auf der x- und y- Achse sind dieselben Variablennamen abgetragen. Es werden Werte zwischen -1 und 1 als Korrelationen ausgegeben, wobei logischerweise die Korrelation zwischen identischen Variablen immer gleich 1 ist. Die Farbtöne und Größe der Kreise geben die Stärke der Korrelation an, wobei Blautöne eine positive Korrelation und Rottöne eine negative Korrelation angeben.

Auffälligkeiten hinsichtlich der Matrix liegen vor allem in der sehr starken positiven Korrelation zwischen den Variablen EC-Index (Economic Connetedness Index) und der Variablen Exposition. Hinzu kommt, dass beide Kennzahlen auch deutliche positive Korrelationen mit der wirtschaftlichen Mobilität vorweisen. Daraus kann man schließen, dass Leute aus sozial schwacheren Schichten durch gute Netzwerke in andere Schichten deutlich verbesserte Aufstiegschancen genießen und diese drei Größen miteinander positiv korreliert sind. Das war größtenteils auch zu erwarten. Des Weiteren fällt auf, dass das Median-Haushaltseinkommen positiv mit dem EC-Index und Exposition korreliert. Das bedeutet, dass bessere soziale Vernetzung in höhere Schichten positiv auf das Median-Haushaltseinkommen auswirkt. Zusätzlich ist eine positive Korrelation des Einkommens mit der wirtschaftlichen Mobilität zu erkennen, da ein höheres Einkommen zumeist mit besseren Jobs einhergeht. Starke negative Korrelationen sind besonders bezüglich des Gini-Koeffizienten zu erkennen. Ein höherer Gini-Koeffizient, also eine ungleichere Vermögenverteilung, ist negativ mit dem EC-Index, der wirtschaftlichen Mobilität und Exposition korreliert. Daher kann man schlussfolgern, dass Ungleichheit schädlich für jeglich Form sozialen Aufstiegs ist und den Austausch und die Vernetzung stark beeinträchtigt. Die Bevölkerung scheint keine bedeutenden Zusammenhänge mit den anderen Größen zu haben; hierbei ist die Korrelation stets nahe null, außer hinsichtlich des Median-Einkommens. Das ist vermutlich darauf zurückzuführen, da das Gehaltsniveau in großstädtähnlichen Gebieten für gewöhnlich höher als im ländlichen Raum ist.

Wirtschaftliche Mobilität hängt stark mit sozialem Kontakt und Einkommensgleichheit zusammen. Eine stärkere Durchmischung sozialer Gruppen (weniger Freundschafts-Bias, mehr Kontakt zwischen SES-Gruppen) und ein höherer EC-Index fördern Mobilität. Schädlich für eine hohe wirtschaftliche Mobilität hingegen ist ein hoher Gini-Koeffizient (Ungleichheit).


Im nächsten Schritt sollten Sie sich anschauen, welche Rolle das Median Haushaltseinkommen in den Counties bei der wirtschaftlichen Mobilität spielt. Gibt es einen Unterschied des Effekts der sozialen Vernetzung zwischen Gutverdienern und weniger gut verdienenden?

  1. Zeigen Sie in einem Punktediagramm den Zusammenhang des Economic Connectedness Index (y-Achse) und dem Median Haushaltseinkommen in den einzelnen Counties. Färben Sie die einzelnen Datenpunkte nach der wirtschaftlichen Mobilität ein.

Beschreiben und interpretieren Sie ihre Grafik. Gehen Sie insbesondere darauf ein, ob er Effekt der sozialen Vernetzung für alle Einkommensgruppen gleich ist.


Die x-Achse zeigt das Median-Haushaltseinkommen in den Counties, ein Indikator für den allgemeinen wirtschaftlichen Wohlstand. Die y-Achse zeigt den Economic Connectedness Index, ein Maß für soziale Vernetzung und Interaktionen zwischen verschiedenen Einkommensgruppen. Die Farbskala stellt die wirtschaftliche Mobilität dar, mit einem Übergang von dunklem Violett (niedrige Mobilitätsscore) bis hin zu Gelb (hoher Mobilitätsscore). Man kann zudem sehen, dass ein steigendes Median-Haushaltseinkommen mit einem höheren EC-Index und höherer wirtschaftlicher Mobilität einhergeht.

Höhere Mobilitätswerte (gelb gefärbt) sind vor allem in der Mitte, aber auch im oberen Bereich des EC-Index und des Einkommens sichtbar. Niedrigere Mobilitätswerte (violett gefärbt) treten häufiger bei niedrigen Einkommen und niedrigem EC-Index auf.

Der Effekt der sozialen Vernetzung scheint sich besoners im Bereich der Median-Einkommen von 55000-80000USD zu lohnen. Dort sind die höchsten Werte der wirtschaftlichen Mobilität zu erkennen. Das kann darauf zurückzuführen sein, dass Leute aus der untersten Schicht sehr schwer an andere Kontakte aus höheren Schichten kommen. Die Abnahme der hohen Scores hinsichtlich der wirtschaftlichen Mobilität von dem genannten Bereich hin zu den sehr hohen Einkommen (>100000) könnte daran liegen, dass Leute aus der höchsten Schicht weniger mit unteren Schichten agieren. Des Weiteren wird es gerade in diesen Counties, in denen ein allgemein hohes Lohnniveau herrscht, für ärmere Familien umso schwerer sein, mit den höheren Schichten in Kontakt zu treten.


  1. Die soziale Vernetzung ist in der bisherigen Analyse ein treibender Faktor für die wirtschaftliche Mobilität. Jedoch ist es durchaus möglich, dass nicht die soziale Vernetzung, sondern andere Faktoren den zu Grunde liegenden Effekt treiben und es sich bei dem Zusammenhang zwischen dem Economic Connectedness Index und der wirtschaftlichen Mobilität nur um einen Scheinzusammenhang handelt. So könnten z.B. Rückwärtskausalität, Selektionseffekte oder ausgelassene Variablen den gefundenen Zusammenhang erklären.

Um dem nachzugehen sollten Sie sich Chetty et al. (2022a), Seite 115-120 durchlesen und folgende Fragen beantworten:

  • Nehmen Sie Bezug auf die Rückwärtskausalität, den Selektionseffekt und die ausgelassenen Variablen. Wie könnten diese Faktoren einen scheinbaren Zusammenhang zwischen dem Economic Connectedness Index und der wirtschaftlichen Mobilität verursachen? Gehen Sie auf jeden Faktor separat ein.
  • In der explorativ und deskriptiv angelegten Analyse der Autoren lassen sich die Argumente bzgl. Rückwärtskausalität, Selektionseffekten und ausgelassener Variablen nicht vollständig ausschließen. Doch welche Argumente sprechen laut den Autoren dafür, dass es sich nicht um die genannten Faktoren handelt?
  • Finden Sie die Argumentation glaubhaft? Hätten Sie bedenken bei deren Argumentation? Wenn ja, was stört Sie daran?
  • Nehmen wir an Sie können sich die optimalen Bedingungen zusammenstellen, damit Sie tatsächlich einen kausalen Effekt der sozialen Vernetzung auf die wirtschaftliche Mobilität messen könnten. Wie würden diese Bedingungen ausgestaltet sein?

Rückwärtskausalität: Rückwärtskausalität könnte den Zusammenhang zwischen dem Economic Connectedness Index (EC) und der wirtschaftlichen Mobilität beeinflussen, indem wirtschaftliche Mobilität selbst die wirtschaftliche Vernetzung prägt. Bei der ursprünglichen Analyse wurde die Aufwärtsmobilität mit der wirtschaftlichen Vernetzung bei Erwachsenen verglichen. Da Freundschaften und der sozioökonomische Status (SES) im Erwachsenenalter betrachtet werden, könnte die Mobilitätsrate die Vernetzung beeinflussen. In Regionen mit hoher Aufwärtsmobilität haben Kinder aus niedrigem SES oft höhere Einkommen als Erwachsene und behalten Freundschaften mit Personen geringeren SES bei, was die Vernetzung zwischen sozialen Schichten erhöht. Allerdings zeigt sich die hohe Korrelation zwischen Mobilität und Vernetzung bereits in der Kindheit, was darauf hindeutet, dass Mobilität nur einen kleinen Teil dieser Verbindung erklärt.

Selektionseffekt: Der Selektionseffekt könnte den Zusammenhang zwischen dem Economic Connectedness Index (EC) und der wirtschaftlichen Mobilität dadurch verursachen, dass Familien, die in Gebieten mit hohem EC leben, von Natur aus höhere Mobilitätsraten haben könnten. Sie könnten sich durch Merkmale wie Bildung oder Vermögen unterscheiden, was die Mobilität ihrer Kinder beeinflusst, ohne dass der EC direkt wirksam ist. Rassentrennung könnte ebenfalls zu einer trügerischen Verbindung zwischen EC und Mobilität führen, da Unterschiede in der Bevölkerungszusammensetzung eine Verzerrung hervorrufen könnten.

Ausgelassenen Variablen: Ausgelassene Variablen könnten einen scheinbaren Zusammenhang zwischen dem Economic Connectedness Index (EC) und der wirtschaftlichen Mobilität verursachen, indem sie unbeachtete Merkmale von Gebieten mit hohem EC einschließen, die ebenfalls die Mobilität beeinflussen. Hoch-EC-Gebiete könnten zum Beispiel über andere vorteilhafte Eigenschaften verfügen, wie bessere Schulen oder jobbezogene Chancen, die zur Mobilität beitragen, unabhängig vom EC selbst.

Diese Merkmale können parallel zum EC die wirtschaftliche Mobilität fördern, was die Illusion eines stärkeren Einflusses des EC auf die Mobilität erzeugt. Die Analyse zeigt jedoch, dass auch bei Berücksichtigung anderer starker Prädiktoren von Mobilität, der EC ein entscheidender Faktor bleibt. Der Zusammenhang zwischen anderen Faktoren und Mobilität schwächt sich ab, wenn der EC einbezogen wird, was darauf hindeutet, dass der Einfluss dieser Faktoren teilweise über ihre Wirkung auf den EC vermittelt wird.

Zusammenfassung der Argumente: Die Autoren argumentieren, dass Rückwärtskausalität, Selektionseffekte und ausgelassene Variablen nicht die Haupttreiber für den Zusammenhang zwischen dem Economic Connectedness Index (EC) und wirtschaftlicher Mobilität sind. Erstens zeigt sich die hohe Korrelation zwischen Mobilität und Vernetzung bereits in der Kindheit, was darauf hindeutet, dass die Mobilität nicht die Vernetzung im Erwachsenenalter beeinflusst. Zudem bleibt die Korrelation stark, wenn nach ethnischen Gruppen differenziert wird, was den Einfluss unterschiedlicher Bevölkerungszusammensetzungen relativiert. Schließlich zeigt sich EC als signifikanter Einflussfaktor selbst bei Einbeziehung anderer wichtiger Prädiktoren der Mobilität. Diese Verringerung der Einflussstärke anderer Faktoren in Verbindung mit EC spricht dafür, dass vom EC vermittelte Effekte den Zusammenhang prägen, was auf eine direkte kausale Rolle von EC bei der Förderung wirtschaftlicher Mobilität hinweist.

Argumentation bewerten: Die Argumentation der Autoren erscheint glaubhaft, da sie eine differenzierte Betrachtung der Rolle von sozialem Kapital bei wirtschaftlicher Mobilität bieten und potenzielle Einflussfaktoren wie Rückwärtskausalität, Selektionseffekte und ausgelassene Variablen adressieren. Sie erkennen an, dass verschiedene Formen sozialen Kapitals unterschiedliche Auswirkungen haben und dass wirtschaftliche Vernetzung besonders relevant für wirtschaftliche Mobilität ist. Ein potenzieller Bedenkenpunkt könnte die methodische Komplexität sein, insbesondere hinsichtlich der eindeutigen Identifikation kausaler Zusammenhänge. Zudem bleibt die Frage offen, wie universell die Ergebnisse auf andere geografische oder sozioökonomische Kontexte übertragbar sind. Die Autoren zeigen jedoch ein Bewusstsein für diese Limitationen und schlagen zukünftige Forschung vor, um die Erkenntnisse weiter zu untermauern, was positiv zu bewerten ist.

Ideale Bedingungen: Um den kausalen Effekt der sozialen Vernetzung auf die wirtschaftliche Mobilität exakt zu messen, wären ideale Bedingungen wie folgt gestaltet: Man würde eine kontrollierte Studie durchführen, in der Familien oder Einzelpersonen zufällig verschiedenen sozialen Netzwerken zugewiesen werden. Dies könnte durch Programme erreicht werden, die gezielt die Interaktion mit verschiedenen sozioökonomischen Gruppen fördern. Wichtig wäre, alle anderen Einflussfaktoren konstant zu halten, um Verzerrungen zu vermeiden. Der Zugriff auf umfassende, langfristige Daten zu Einkommen, Bildung und Netzwerkstrukturen wäre unerlässlich, um Veränderungen im sozioökonomischen Status präzise über die Zeit zu erfassen. Eine internationale Dimension der Studie könnte zudem helfen, die Übertragbarkeit der Ergebnisse auf unterschiedliche kulturelle und wirtschaftliche Kontexte zu überprüfen.


Einflussfaktoren auf die soziale Vernetzung

Wie Sie in Ihrer bisherigen Analyse gesehen haben scheint der Economic Connectedness Index einen großen Teil der wirtschaftlichen Mobilität innerhalb der Counties erklären zu können. Doch was sind die Treiber hinter einer hohen sozialen Vernetzung?

  1. Ein Treiber der sozialen Vernetzung könnte natürlich eine hohe Exposition (exposure_grp_mem_county) sein, d.h. wenn es viele gut verdienende Personen in einem County gibt. Anders herum: Wenn es in einigen Counties gar keine gut verdienende Personen gibt, dann gibt es keine Möglichkeit für mich, der dort lebt, Freunde aus einem hohen Einkommensdezil zu haben.

Um sich einen Überblick über die Exposition in den einzelnen Counties zu verschaffen sollten Sie im ersten Schritt die Verteilung der Exposition über die Counties hinweg auf einer Karte der USA zeigen.

Beschreiben Sie ihre Karte und vergleichen diese mit der Karte aus Aufgabe 7. Was fällt Ihnen auf? Trifft die Annahme bzgl. der Exposition zu?


Beschreibung und Vergleich der Expositionskarte mit der EC-Index-Karte

Die aktuelle Grafik zeigt die Verteilung der Exposition in den USA auf County-Ebene, basierend auf Daten von Facebook. Diese Karte umfasst auch Hawaii, Alaska und Puerto Rico. Die Farbskala reicht von dunkelblau über grün bis gelb, wobei NA-Werte in hellgrau dargestellt sind. In der Legende, die rechts neben der Grafik platziert ist, wird dies als “Anteil der Exposition” bezeichnet.

Im Vergleich zur EC-Index-Karte aus Aufgabe 7 ist die Karte ähnlich eingefärbt. Der östliche Rand der USA erscheint sehr dunkel, mit nur wenigen gelben Stellen, was auf geringere Exposition in diesen Bereichen hindeutet. Der Süden ist von dunkelblau bis grün eingefärbt, jedoch insgesamt heller als der Osten, welches auf eine moderat höhere Exposition hinweist. Der Norden ist im Vergleich relativ hell, mit einigen dunklen Bereichen, was erneut regionale Unterschiede darstellt. Die meisten Countys sind grün oder gelb, ähnlich wie in der EC-Index-Karte, was auf eine ausgewogene wirtschaftliche Vernetzung schließen lässt. Der Westen, besonders entlang der Küste, ist dunkler, zeigt jedoch einige hellere Regionen, vorwiegend in Blau und leichtem Grün, die eine moderate bis hohe Exposition anzeigen. Die Mitte der USA ist überwiegend hell, mit vielen Countys in hellblau bis gelb, was ähnlich zur Darstellung des EC-Index zeigt, dass auch hier die sozialen Strukturen variieren.

Die Karte aus Aufgabe 7 zeigt den EC-Index und weist im Osten eine etwas hellere Darstellung mit mehr gelben und grünen Flecken auf, was auf eine stärkere wirtschaftliche Vernetzung in einigen dieser Bereiche schließen lässt. Auch wenn der Südosten in der aktuellen Karte weniger farbig erscheint, sind der Nordosten und der Norden in beiden Grafiken nahezu identisch hinsichtlich ihrer wirtschaftlichen und sozialen Vernetzung. Die Mitte der USA erscheint in der Expositionsdarstellung dunkler mit mehr blauen Regionen, während in der EC-Index-Karte mehr grüne und gelbe Flächen zu sehen waren, was auf stark vernetzte Regionen hindeutet. Gleichzeitig zeigt sich in der aktuellen Karte, dass sich die Helligkeit weiter nach Westen verlagert hat, wobei die Mitte der USA im westlichen Teil sowie der Westen etwas heller erscheinen. Der Südwesten bleibt in beiden Grafiken nahezu identisch, ebenso Alaska, Hawaii und Puerto Rico.

Interpretation zur Exposition

Die Expositionsdarstellung bestätigt die Annahme einer signifikanten Variation in der Verteilung von wohlhabenden Haushalten auf County-Ebene in den USA. Die unterschiedlichen Färbungen legen nahe, dass einige Regionen eine hohe Dichte an wohlhabenden Individuen aufweisen (gelb eingefärbte Bereiche), während andere Regionen weniger Exposition anzeigen. Im Vergleich zur EC-Index-Karte zeigt sich, dass Regionen mit höherer Exposition tendenziell auch eine stärkere wirtschaftliche Vernetzung zeigen. Diese Information unterstützt die Annahme, dass Regionen mit mehr wohlhabenden Einwohnern potenziell bessere Vernetzungsoptionen bieten und mehr soziale Integration ermöglichen.


Jedoch bedeutet eine hohe Exposition nicht gleich auch automatisch höhere soziale Vernetzung mit Personen aus hohen Einkommensdezilen. Falls Personen aus den jeweiligen Einkommensdezilen lieber unter sich bleiben möchten und keine Freundschaften zu Personen aus niedrigeren Einkommensdezilen pflegen, dann wird es ebenso schwer soziale Vernetzungen eine hohe wirtschaftliche Mobilität zu erreichen.

  1. Um zu untersuchen ob es eine entsprechende Segregation der Freundschaftsgruppen gibt sollten Sie in dieser Aufgabe ein Punktediagramm erzeugen, welche auf der x-Achse die Exposition (exposure_grp_mem_county) und auf der y-Achse den Freundschafts-Bias (bias_grp_mem_county) abträgt. Weiterhin sollten Sie die einzelnen Punkte in dem Punktediagramm nach der Stärke der sozialen Vernetzung einfärben. Heben Sie die Counties “San Francisco County, California” und “Bronx County, New York” in ihrer Grafik explizit heraus (z.B. durch eine Beschriftung) und gehen Sie in ihrer Interpretation auf diese zwei Counties ein.

Beschreiben und interpretieren Sie ihre Grafik, gehen Sie dabei insbesondere auf folgende Fragen ein:

  • Welchen Einfluss haben die Faktoren Freundschafts-Bias und Exposition auf die soziale Vernetzung (den Economic Connectedness Index)?

Auf der x-Achse ist die Exposition abgetragen. Diese misst den durchschnittlichen Anteil an Personen mit hohem SES in den sozialen Gruppen von Personen mit niedrigem SES. Auf der y-Achse ist der Freundschafts-Bias abgetragen, dies ist eine Schätzung der Verzerrung in Freundschaftsverbindungen. Der Freundschafts-Bias berechnet sich aus 1 minus dem Verhältnis von wirtschaftlicher Vernetzung (ecgrpmemcounty) zu der durchschnittlichen Exposition (exposuregrpmemcounty). Die Punkte im Diagramm geben den Score an sozialer Vernetzung an(je größer der Punkt und heller die Farbe, desto höher ist der Score). Hierbei gilt, je höher, desto vernetzter sind Leute aus niedrigeren soziökonomischen Schichten mit Leuten aus hohen Schichten. Außerdem wurden zwei Counties, Bronx County und San Francisco County, gesondert hervorgehoben.

Allgemein kann man erkennen, dass ein höherer Wert an Exposition mit geringeren Werten des Freundschafts-Bias einhergeht. Des Weiteren kann man erkennen, dass wenn man sich höheren Expositions-Werten und geringen Bias-Werten nähert, der Wert an sozialer Vernetzung immer größer wird. Dies fällt besonders durch die Kombination aus hellen und großen Punkten auf. San Francisco County ist beispielsweise eines der Counties mit hohem Expositions- und sozialem Vernetzungswert, aber auch niedrigem Freundschafts-Bias. Dies deutet darauf hin, dass sich Bewohner aus San Francisco häufiger mit Menschen aus verschiedenen sozioökonomischen Schichten umgeben und weniger selektiv in der Freundschaftsbildung sind. Außerdem zeigt das, dass es in diesem County für Leute aus niedrigeren Schichten recht einfach erscheint, Kontakte in höhere Schichten aufzubauen. Das Bronx County hingegen wirkt deutlich selektiver. Eine mittlere bis niedrige Exposition geht hier mit einem leicht erhöhten Freundschafts-Bias einher. Das lässt darauf schließen, dass die soziale Vernetzung in diesem County verglichen mit San Francisco recht gering ist. Dieser Eindruck wird durch einen geringeren Wert an sozialer Vernetzung verstärkt. Das lässt auf eine recht segregierte soziale Struktur deuten; hierbei ist die Durchmischung begrenzt.

Ein hoher Freundschafts-Bias behindert die soziale Vernetzung, da Menschen vorwiegend innerhalb ihrer sozialen Gruppe bleiben und Aufstiegschancen somit stark begrenzt sind. Andererseits geht eine hohe Exposition mit starker sozialer Vernetzung einher, was die Möglichekeit der Kontaktschaffung und des Aufstiegs erhöht. Das wird an dieser Grafik besonders deutlich, da der Verlauf der sozialen Vernetzung klar zu erkennen ist. Niedriger Freundschafts-Bias und hohe Exposition führen zu hoher sozialer Vernetzung.


  1. Welche (politischen) Maßnahmen könnten dazu beitragen, die soziale Vernetzung und damit die wirtschaftlichen Chancen in benachteiligten Regionen zu verbessern? Diskutieren Sie auf Basis ihrer Ergebnisse aus den Aufgaben 14 und 15.

Es gibt diverse politische Maßnahmen, um die in den vorherigen Aufgaben identifizierten Probleme der sozialen Vernetzung zu beheben. Eine Möglichkeit ist die Subventionierung von Wohnraum in wirtschaftlich stärkeren Regionen für einkommensschwache Haushalte, um deren Exposition und soziale Vernetzung zu fördern. Dies könnte einkommensschwächeren Familien den Aufbau von beruflichen und privaten Kontakten in höheren sozialen Schichten erleichtern. Allerdings besteht die Gefahr, dass unbedachte Anreize zu sozialer Isolation führen, wie es in problematischen Stadtteilen wie in Philadelphia (Kensington), San Francisco oder Los Angeles zu beobachten ist, wo große Ungleichheiten zur Verschärfung der Drogenkrise beigetragen haben.

Eine zielführende Maßnahme wäre die gezielte Förderung der regionalen Wirtschaft in benachteiligten Gebieten, um neue Arbeitsplätze zu schaffen und den Austausch zwischen sozialen Gruppen zu intensivieren. Dies könnte die allgemeine Zufriedenheit, insbesondere in ländlicheren Gebieten, erhöhen und die landesweite Stimmung verbessern. Eine verbesserte wirtschaftliche Basis würde den sozialen Austausch fördern, indem Arbeit und Mobilität mehr Menschen aus verschiedenen Schichten in Kontakt bringen, was den Austausch zwischen sozialen Gruppen aktiv fördern würde.

Zusätzlich könnte die Visualisierung der positiven Effekte von sozialer Vernetzung in wirtschaftlich schwachen Regionen als Chance dargestellt werden. Dadurch könnten die Chancen eines sozialen Aufstiegs durch den Aufbau von Kontakten und Netzwerken verdeutlicht werden. Dies sollte auch in wirtschaftlich stärkeren Regionen kommuniziert werden, um aufzuzeigen, wie Personen aus höheren sozioökonomischen Schichten von Verbindungen zu anderen sozialen Gruppen profitieren können. Dieser Ansatz würde das gegenseitige Verständnis steigern und könnte eine kostengünstige Möglichkeit darstellen, Barrieren zu minimieren.

Ergänzend könnten spezifische Bildungsinitiativen dazu beitragen, jegliche Vorurteile abzubauen und die Bereitschaft zur sozialen Interaktion zu fördern. Internationale Beispiele erfolgreicher politischer Maßnahmen, etwa aus den nordischen Ländern, könnten als Modelle genutzt werden, um die Umsetzung solcher Maßnahmen effektiv zu gestalten. Dies würde ein umfassenderes Verständnis ermöglichen und die Erfolgschancen der vorgeschlagenen Strategien unterstützen.


Zusatzaufgabe

  1. Laden Sie die Daten zur Economic Connectedness, dem Freundschafts-Bias und der Exposition auf College Ebene von der folgenden URL herunter und lesen Sie diese Daten in R ein:

Hier können Sie die Daten auf College Ebene herunterladen



  1. Laden Sie Kartendaten auf ZIP-Code Ebene mit einer API von IPUMS herunter. Am einfachsten funktioniert dies mit dem R Paket tidycensus. Für den API Zugang müssen Sie sich erst bei IPUMS registrieren und können danach einen API Key beantragen, welchen Sie dann für den Daten download über das tidycencus Paket hinterlegen müssen.

Hinweis: Der Download von Shape-File Daten wird in der Vignette des R Pakets tidycensus sehr gut beschrieben. Dieser Issue auf GitHub ist nützlich um zu erfahren, wie Sie ZIP-Code Daten herunterladen können.



  1. Stellen Sie den Economic Connectedness Index des Colleges (ec_own_ses_college) auf ZIP-Code Ebene in einer US-Karte dar. Machen Sie ihre Karte interaktiv mit dem Paket leaflet.


  1. Erstellen Sie ein Punktediagramm auf College Ebene, welches den Zusammenhang zwischen dem Freundschafts-Bias und der Exposition beleuchtet auf College Ebene näher beleuchtet.

Tragen Sie dafür auf der x-Achse den Anteil von Studierenden mit gut verdienenden Eltern ab (exposure_parent_ses_college) und den Freundschafts-Bias unter den Studierenden (bias_parent_ses_college)

Heben Sie fünf Colleges ihrer Wahl in der Grafik hervor (inkl. Beschriftung).

Beschreiben und interpretieren Sie ihre Grafik. Gehen Sie insbesondere auf die fünf von Ihnen hervorgehobenen Colleges ein.


Beschreibung: Die Grafik behandelt die Exposition, also den Anteil von Studierenden mit gut verdienenden Eltern, auf der x-Achse und den Freundschafts-Bias unter Studierenden auf der y-Achse. Dabei hat die Exposition einen Definitionsbereich von 0-2. Der Freundschafts-Bias hingegen kann auch negativ sein und ist innerhalb der Grafik zwischen -0.2 und +0.25. Das ist allerdings nicht der volle Definitionsbereich, sondern nur der, der innerhalb der Grafik relevant ist. Zudem ist auf der rechten Seite eine Legende zu sehen, welche fünf Universitäten jeweils eine Farbe zuordnet. Die Universitäten mit den zugehörigen Farben lauten wie folgt: University of West Alabama ist rot, California State University-Stanislaus ist grün, Passaic County Community College ist blau, Harvard University ist lila, Brigham Young University ist orange. Diese Universitäten wurden nach der Repräsentativität aus dem Datensatz genommen und mit den jeweiligen Farben innerhalb der Grafik eingefärbt. Das soll für eine möglichst hohe Diversifizierung der eingefärbten Universitäten führen. Dadurch, dass diese eingefärbten Universitäten relativ verstreut sind, hat das auch funktioniert. Die Auswahl umfasst Universitäten aus unterschiedlichen Regionen der USA wie dem Süden, Westen und Mittelwesten und bietet eine Mischung aus öffentlichen und privaten Einrichtungen, darunter auch eine historisch schwarze Universität. Sie repräsentiert Vielfalt in Bezug auf geografische Lage, institutionelle Größe und studentische Demografie und zeigt so verschiedene Facetten des amerikanischen Hochschulsystems.

Innerhalb der Grafik ist eine Art Trichter zu erkennen. Bei einer geringen Exposition, also bei einem geringen Anteil an Studierenden mit gut verdienenden Eltern, ist die Streuung sehr hoch. Dort liegen die Punkte auf der y-Achse sehr weit auseinander. Das gilt für den positiven und den negativen Bereich. Allerdings dort, wo die Exposition höher ist, gibt es auch immer weniger Streuung und weniger Ausreißer. Somit gibt es bei einer Exposition von unter 1.0 Werte von fast -0.2 bis fast +0.25. Bei einer Exposition von über 1.5 gibt es allerdings nur Werte von -0.05 bis +0.075.

Interpretation:

Wichtige Anmerkung: Die Werte, die hier gesagt werden, sind grob aus der Grafik abgelesen und können somit von den tatsächlichen Werten variieren. Das ist allerdings nicht schlimm, da die grobe Richtung der Werte für die Interpretation wichtig ist und nicht die 100%ige Genauigkeit.

Die Werte der University of West Alabama sind bei der Exposition 0.85 und beim Friendship-Bias 0.05. Damit ist sie bei der Exposition schon relativ niedrig, hat aber einen sehr geringen Friendship-Bias. Das liegt daran, dass sie eine kleine, regional fokussierte Institution in einem ländlicheren Gebieten ist, die häufig Studierende aus diversen und teilweise einkommensschwächeren Hintergründen betreut. Damit besitzt sie eine große Durchmischung innerhalb der Studierenden, aber orientiert sich eher an einkommensschwächeren Schichten. Das könnte zu einem geringen Friendship-Bias führen, obwohl sie ebenfalls eine geringe Exposition besitzt.

Bei der California State University-Stanislaus liegt die Exposition bei 1.25 und der Friendship-Bias bei -0.025. Die Exposition ist somit schon etwas höher, aber der Friendship-Bias ist geringer und ist sogar im Negativen. Die California State University-Stanislaus steht für Zugänglichkeit und Vielfalt in einem großen staatlichen Universitätssystem. Somit bildet sie große öffentliche Universitäten ab, die für alle sozialen Schichten offen sind.

Passaic County Community College ist eine zugängliche, kostengünstige öffentliche Bildungseinrichtung in New Jersey, die vielfältige Studentenkohorten mit Associate Degrees, Zertifikaten und Transferoptionen unterstützt, und bekannt ist für ihre Anpassungsfähigkeit an die Bedürfnisse von berufstätigen Erwachsenen und Erstgenerationsstudierenden. Dazu passen auch die Werte der Exposition mit 0.75 und dem Friendship-Bias mit 0.25. Diese Universität orientiert sich an den wirtschaftlich schwächeren Gesellschaftsschichten und steht für Flexibilität.

Brigham Young University (BYU) ist eine private Forschungsuniversität in Provo, Utah, die von der Kirche Jesu Christi der Heiligen der Letzten Tage unterstützt wird, bekannt für ihre starken akademischen Programme in Verbindung mit moralischen und ethischen Leitlinien sowie für ihre internationale und vielfältige studentische Gemeinschaft. Sie legt großen Wert auf Werte wie Glauben, Lernen und Dienst und zieht Studierende aus der ganzen Welt an, die sich für eine Bildung mit einem kirchlichen und weltoffenen Fokus interessieren. Mit einer Exposition von 1.6 und einem Friendship-Bias von 0 passen diese Werte auch zur Universität. Durch das Lehren von starken moralischen und ethischen Grundsätzen könnte das dazu führen, dass der Friendship-Bias so niedrig ist. Zudem setzt diese Institution auf eine ausgeprägte und umfangreiche akademische Ausbildung, welche ebenfalls den Friendship-Bias reduziert. Zudem ist sie privat und somit nicht zugänglich oder kaum zugänglich für wirtschaftlich schwache Familien und deren Kinder.

Harvard University ist eine renommierte private Forschungsuniversität in Cambridge, Massachusetts, bekannt für ihre akademische Exzellenz, umfangreiche Forschungseinrichtungen und einflussreiche Alumni-Netzwerke. Sie bietet ein breites Spektrum an Studiengängen und zieht eine diverse und international ausgerichtete Studentenschaft an, die von einer Bildung profitiert, die intellektuelle Neugier und Führerschaftsfähigkeiten fördert. Die Werte dieser Institution sind allerdings überraschend. Die Exposition ist mit 1.4 wie erwartet sehr hoch, aber der Friendship-Bias ist mit -0.8 unerwartet hoch und auch im negativen Bereich. Der negative Bereich könnte dadurch erklärt werden, dass diese Universität so umkämpft und auf Leistung fokussiert ist, dass die Studierenden nicht nur versuchen, sich selbst zu perfektionieren, sondern ebenfalls versuchen, die anderen schlecht zu machen, damit sie selbst besser dastehen. Mit dieser Interpretation sind die Werte auch wieder logisch und nachvollziehbar.

Zusammenfassend lässt sich folgendes anhand der obigen Universitäten sagen: Der Negativbereich innerhalb der Grafik steht vermutlich dafür, dass die Studierenden sich gegenseitig negativ eingestellt sind und versuchen, sich gegenseitig runterzuziehen. Das ist in sehr umkämpften Universitäten wie Harvard zum Beispiel der Fall. In Universitäten, wo starke moralische und ethische Werte vermittelt werden, könnte der Friendship-Bias stark reduziert werden, wie es in der Brigham Young University der Fall ist. Zudem lässt sich sagen, dass Universitäten wie Passaic County Community College einen sehr hohen Friendship-Bias haben, da sie eher wirtschaftlich und sozial schwache Schichten repräsentieren und zudem ein flexibleres und nicht so striktes Universitätsleben vermitteln. Zudem sind große öffentliche Universitäten wie California State University-Stanislaus mit einer starken Durchmischung der sozialen und wirtschaftlichen Schichten eher im Mittelfeld eingeordnet, neigen aber auch eher zu einem negativen Friendship-Bias.

Diese Aussagen sind anhand der vorgestellten Universitäten getroffen worden, sind aber nicht vollständig belegbar, sondern könnten nur die Situation des jeweiligen Colleges oder der jeweiligen Universität plausibel erklären. Damit sollen die getroffenen Aussagen nicht einfach als Fakt verstanden werden, auch wenn die Formulierung das andeuten könnte. Um diese Aussagen zu überprüfen, müssten allerdings deutlich mehr Universitäten mit ähnlicher Größe und ähnlichem strukturellem Aufbau beleuchtet werden.

Was allerdings sehr zuverlässig gesagt werden kann, ist folgendes: Wie in der Beschreibung gesagt, hat der Inhalt der Grafik die Form eines Trichters, was vermuten lässt, dass eine hohe Exposition zu einem geringen Friendship-Bias führen könnte und umgekehrt. Wie in der vorherigen Analyse allerdings schon besprochen, gibt es sehr viele individuelle Faktoren, die bei jeder Universität nochmal zusätzlich reinspielen, weshalb eine pure Aussage nur über diese beiden Variablen nicht eindeutig getroffen werden kann.



Literatur

Chetty, R., Friedman, J. N., Hendren, N., Jones, M. R., & Porter, S. R. (2018). The opportunity atlas: Mapping the childhood roots of social mobility (No. w25147). National Bureau of Economic Research. https://doi.org/10.3386/w25147

Chetty, R., Jackson, M.O., Kuchler, T. et al. Social capital I: measurement and associations with economic mobility. Nature 608, 108–121 (2022a). https://doi.org/10.1038/s41586-022-04996-4

Chetty, R., Jackson, M.O., Kuchler, T. et al. Social capital II: determinants of economic connectedness. Nature 608, 122–134 (2022b). https://doi.org/10.1038/s41586-022-04997-3