Motivation
In diesem Projekt untersuchen Sie, wie soziale Netzwerke – insbesondere Freundschaften – wirtschaftliche Chancen und sozialen Aufstieg beeinflussen. Dabei greifen Sie auf einen Datensatz von 70,3 Millionen Facebook Nutzern zurück, um das Konzept des Sozialkapitals besser zu verstehen. Ihr Ziel ist es, zu analysieren, wie stark Menschen aus unterschiedlichen sozioökonomischen Hintergründen miteinander vernetzt sind und welche Auswirkungen dies auf die wirtschaftliche Mobilität hat.
Fokus der Analyse
Das Projekt konzentriert sich auf zwei zentrale Aspekte sozialer
Vernetzung:
- Exposition: In welchem Ausmaß kommen Menschen aus
verschiedenen sozialen Schichten überhaupt in Kontakt?
- Freundschafts-Bias: Wenn Menschen die Möglichkeit haben, sich mit Personen aus anderen sozialen Schichten anzufreunden – nutzen sie diese Chance auch? Oder bleiben sie lieber in ihrer vertrauten sozialen Umgebung?
Warum ist das relevant?
Eine zentrale Fragestellung des Projekts ist es, zu untersuchen, ob und
in welchem Ausmaß soziale Netzwerke – insbesondere Freundschaften – zu
wirtschaftlicher Mobilität beitragen. Frühere Studien deuten darauf hin,
dass ein Mangel an sozialer Interaktion über Klassengrenzen hinweg mit
geringeren Aufstiegschancen verbunden ist. Menschen, die stärker über
soziale Schichten hinweg vernetzt sind, profitieren tendenziell von
besseren wirtschaftlichen Perspektiven.
Doch der genaue Zusammenhang zwischen Sozialkapital und wirtschaftlicher Mobilität ist bisher nur teilweise verstanden. Ihr Projekt hat daher das Ziel, diesen Zusammenhang empirisch zu untersuchen und offenzulegen. Sie analysieren, inwiefern unterschiedliche Formen sozialer Vernetzung Chancen auf sozialen Aufstieg beeinflussen – oder behindern.
Datengrundlage
Für Ihre Analyse verwenden Sie reale Daten des Social Capital Atlas (https://www.socialcapital.org). Ihr Ziel ist es, herauszufinden:
- Wie stark beeinflussen soziale Netzwerke die wirtschaftliche Mobilität?
- Welche Faktoren tragen zur sozialen Ungleichheit bei?
- Welche Maßnahmen könnten die Vernetzung über sozioökonomische Grenzen hinweg fördern?
Durch Ihre eigene Analyse decken Sie nicht nur bestehende Muster auf, sondern tragen auch dazu bei, neue Erkenntnisse darüber zu gewinnen, wie soziale Netzwerke Chancen für wirtschaftlichen Aufstieg verbessern können.
Einlesen
Dieses Projekt basiert auf öffentlich zugänglichen Facebook-Daten, welche die soziale Vernetzung auf County Ebene messen. Die zugrunde liegende Datenquelle wurde in den Studien von Chetty et al. (2022a, 2022b) detailliert beschrieben und liefert wichtige Einblicke in die soziale Vernetzung über sozioökonomische Grenzen hinweg. Für Ihre Analyse stellen wir Ihnen diesen Datensatz zur Verfügung.
- Lesen Sie den Datensatz
social_capital_county.rdsaus dem Unterordner “Daten” in R ein und nennen diesen Datensatzsocial_capital_county. Dieser Datensatz beinhaltet Variablen, welche von Facebook stammen und die Freundschaftsverbindungen einzelner Personen untereinander (aggregiert auf County-Ebene) darstellen.
Schränken Sie ihren Datensatz auf folgende Variablen ein:
- county
- ec_county
- exposure_gpr_mem_county
- bias_grp_mem_county
- pop2018
Bitte beschreiben Sie die Variablen, nutzen Sie dafür die bereitgestellte Datei “social_capital_codebook.pdf”.
Beantworten Sie auch folgende Fragen:
- Was ist eine Beobachtung?
- Wie viele Counties sind in diesem Datensatz vorhanden? Wie viele Counties hat die USA?
- In wie viel Prozent der Fälle haben Sie Informationen zu allen Variablen einer Beobachtung in dem vorliegenden Datensatz?
Beschreibung der Variablen
In dem Datensatz liegen fünf Variablen vor. Die Variable
county enthält einen fünfstelligen FIPS Code der zur
Indentifizierung des jeweiligen County dient. Die Variable
ec_county liegt zwischen 0 und 1 und gibt die
wirtschaftliche Verbundenheit in diesem Fall auf County-Ebene an. Dabei
wird der Anteil an Freunden mit hohem sozioökonomischen Status (SES) ins
Verhältnis zu Personen mit niedrigem sozioökonomischen Status gesetzt.
Dieser Wert gibt an, wie oft Menschen mit niedrigem SES Wert Freunde
haben, die einen hohen SES Wert haben. Die Variable
exposure_gpr_mem_county kann zwischen 0 und 2 liegen und
gibt an, wie stark Personen mit niedrigem SES Wert mit Personen mit
hohem SES Wert in Kontakt kommen. Die Variable
bias_grp_mem_county ist eine Maßzahl, die die Tendenz
angibt mit Personen eines höheren SES-Status eine Freundschaft
einzugehen. Die Variable pop2018 gibt die Bevölkerung des
jeweiligen Counties im Jahr 2018 an.
Was ist eine Beobachtung?
Eine Beobachtung wäre, dass man sich einen County anschaut, mit
entsprechnder Identifikationsnummer, dazu den ec_county,
den exposure_gpr_mem_county (Kontakt zu anderen Gruppen),
den bias_grp_mem_county und die jeweilige Bevölkerung
(pop2018).
Wie viele Counties sind in diesem Datensatz vorhanden? Wie viele Counties hat die USA?
In diesem Datensatz liegen 3089 verschiedene Counties vor. Die USA hat 3144 Counties.
In wie viel Prozent der Fälle haben wir Informationen zu allen Variablen einer Beobachtung in dem vorliegenden Datensatz?
In 95.14% der Fälle haben wir für eine Beobachtung Informationen zu allen Variablen.
- Weiterhin haben wir Ihnen den Datensatz
county_covariates.dtaim Unterordner “Daten” bereitgestellt, welcher unter anderem Daten aus dem Opportunity Atlas enthält und in Chetty et al. (2018) vorgestellt wird. Lesen Sie diese Daten in R ein und nennen Sie ihncovariates.
Schränken Sie diesen Datensatz auf die folgenden Variablen ein:
- county
- kfr_pooled_pooled_p25
- gini99_simple
Generieren Sie eine neue Variable upward_mobility als
kfr_pooled_pooled_p25*100. Löschen Sie weiterhin die
Variable kfr_pooled_pooled_p25.
Bitte beschreiben Sie die Variablen in ihrem Datensatz, nutzen Sie dafür die bereitgestellte Datei “replication_package_README.pdf”.
Hinweis: Mit dem haven Paket können Sie .dta
Dateien einlesen
Beschreibung der Variablen
Der Datensatz covariates enthält nun die drei Variablen
county,gini99_simple und
upward_mobility. Die Variable county enthält
einen fünstelligen FIPS-Code, der zur Identifizierung des jeweiligen
County dient. Die Variable gini99_simple gibt den
Gini-Koeffizient, der unter Verwendung von Steuerdaten geschätzt wurde
(abzüglich des Einkommensanteils der obersten 1%), an. Die erstellte
Variable upward_mobility gibt in Prozent den
durchschnittlichen Einkommenspercentile im Alter von 26 Jahren eines
Kindes, das von Eltern geboren wurde, die im 25. Percentil der
Einkommensverteilung liegen.
- Um Karten wie bspw. in der Case Study zu erstellen, benötigen Sie Kartendaten in Form von Shapefiles (Endung .shp). In einer späteren Analyse sollen Sie die soziale Vernetzung und andere Variablen zwischen den Counties mittels einer Karte visualisieren. Hierzu benötigen Sie jedoch erst die nötigen Shapefiles, welche wir Ihnen im Unterordner “Daten” bereitgestellt haben (County_census_data.shp). Diese Daten haben wir mittels des Pakets tidycensus direkt von der amerikanischen Statistikbehörde IPUMS heruntergeladen. Neben den Geografischen Informationen der Counties sind auch noch weitere Daten enthalten.
Lesen sie die Daten County_census_data.shp in R ein und
speichern diesen in R als county_census_shape ab. Neben den
County Namen und und Polygonen enthält dieser Datensatz auch das
geschätzte Median Einkommen pro County für das Jahr 2023
(medincE).
Hinweis: Achten Sie darauf eine numerische county Variable aus GEOID zu generieren
- Verbinden Sie die Dataframes
county_census_shape,covariatesundsocial_capital_countyzu einem Datensatzanalysis_data.
- Welche Art von Join sollten sie hierbei verwenden? Warum gerade diesen Join?
- Welcher Datensatz sollte der Hauptdatensatz sein? Warum?
Welche Art von Join sollten sie hierbei verwenden? Warum gerade diesen Join?
Als Join wählen wir hier einen Left-Join, da wir einen Hauptdatensatz haben, den wir durch Informationen aus den anderen beiden Datensätzen ergänzen wollen. Diese Art von Join ermöglicht es, die Zeilen und die Struktur des Hauptdatensatzes beizubehalten, während die Zeilen durch weitere Informationen aus den anderen beiden Datensätzen ergänzt werden.
Welcher Datensatz sollte der Hauptdatensatz sein? Warum?
Als Hauptdatensatz wählen wir den Datensatz
county_census_shape, denn dieser enthält die geografischen
Informationen und die Form der Counties (Polygone), was für die spätere
Analyse und Visualisierung von Karten und räumlichen Daten wichtig
ist.
- Folgende Variablen werden Sie in diesem Projekt hauptsächlich nutzen:
- upward_mobility
- ec_county
- exposure_gpr_mem_county
- bias_grp_mem_county
Bevor Sie eine Analyse tätigen, sollten Sie sich überlegen, welche Erwartungen bzgl. der Zusammenhänge innerhalb der einzelnen Variablen Sie haben. Gehen Sie dabei auf folgende Fragen ein:
- Was genau misst die wirtschaftliche Mobilität
(
upward_mobility) und die soziale Vernetzung (ec_county)? Warum sollte ein hoher Wert der sozialen Vernetzung auch potentiell gute ökonomische Aufstiegschancen, d.h. eine hohe wirtschaftliche Mobilität, mit sich bringen? Begründen Sie und benennen Sie explizit die Annahmen, die ihrer Begründung zugrunde liegen. - Bitte schauen Sie sich an, wie die sozialen Vernetzung
(
ec_county) berechnet wird. Was würden Sie erwarten, wie die Exposition (exposure_gpr_mem_county) und der Freundschafts-Bias (bias_grp_mem_county) die sozialen Vernetzung (ec_county) beeinflusst? Begründen Sie und benennen Sie explizit die Annahmen, die ihrer Begründung zugrunde liegen.
Hinweis: Die genaue Berechnung der sozialen Vernetzung
(ec_county) finden Sie im Dokument
“social_capital_codebook.pdf”
Was genau misst die wirtschaftliche Mobilität
(upward_mobility) und die soziale Vernetzung
(ec_county)?
Die wirtschaftliche Mobilität upward_mobility misst die
Fähigkeit von Individuen, ihre ökonomische Situation im Laufe der Zeit
zu verbessern. Dies bedeutet, dass Menschen in der Lage sind, von einer
niedrigeren zu einer höheren Einkommensklasse aufzusteigen oder ihren
sozioökonomischen Status zu verbessern. Ein hoher Wert der
wirtschaftlichen Mobilität zeigt an, dass es viele Chancen und
Möglichkeiten für diesen Aufstieg gibt.
Die soziale Vernetzung ec_county bezieht sich auf die
Anzahl und Qualität der sozialen Kontakte einer Person oder innerhalb
einer Gemeinschaft. Dies umfasst die Häufigkeit und Intensität von
Interaktionen sowie die Diversität der Netzwerke. Ein hoher Wert der
sozialen Vernetzung bedeutet, dass eine Person oder Gemeinschaft gut
vernetzt ist und viele Verbindungen sowohl innerhalb als auch außerhalb
ihrer unmittelbaren sozialen Gruppe hat.
Warum sollte ein hoher Wert der sozialen Vernetzung auch potentiell gute ökonomische Aufstiegschancen, d.h. eine hohe wirtschaftliche Mobilität, mit sich bringen?
Ein hoher Wert der sozialen Vernetzung könnte potenziell gute ökonomische Aufstiegschancen mit sich bringen, weil stark vernetzte Individuen besseren Zugang zu Ressourcen, Informationen und Gelegenheiten haben. Diese Netzwerke können bei der Jobsuche helfen, indem sie Empfehlungen aussprechen oder Informationen über offene Stellen weitergeben. Zudem bieten soziale Netzwerke Unterstützung, sowohl emotional als auch materiell, was bei der Bewältigung von Herausforderungen helfen kann. Ein weiterer wichtiger Aspekt ist das Vertrauen, das in Netzwerken aufgebaut wird und das berufliche Beziehungen und Karrieren fördern kann. Eine der zugrunde liegenden Annahmen hierbei ist, dass ein hohes Maß an sozialer Vernetzung zu besseren Chancen auf wirtschaftlichen Aufstieg führt.
Was würden Sie erwarten, wie die Exposition
(exposure_gpr_mem_county) und der Freundschafts-Bias
(bias_grp_mem_county) die sozialen Vernetzung
(ec_county) beeinflusst?
Die Berechnung der sozialen Vernetzung ec_county
berücksichtigt in der Regel die Anzahl der Verbindungen, die Intensität
der Interaktionen und die Diversität der Netzwerke. Es wird erwartet,
dass die Exposition exposure_gpr_mem_county und der
Freundschafts-Bias bias_grp_mem_county die soziale
Vernetzung beeinflussen.
Die Exposition exposure_gpr_mem_county misst, wie häufig
Personen verschiedenen sozialen Gruppen begegnen oder mit ihnen
interagieren. Eine hohe Exposition erhöht die Wahrscheinlichkeit,
verschiedene soziale Netzwerke zu bilden und vielfältigere Verbindungen
zu haben. Eine zugrunde liegende Annahme ist, dass mehr Exposition zu
vielfältigeren und möglicherweise stärkeren sozialen Netzwerken
führt.
Der Freundschafts-Bias bias_grp_mem_county misst, ob
Personen dazu neigen, Freundschaften innerhalb ihrer eigenen sozialen
Gruppe zu bilden. Ein hoher Freundschafts-Bias könnte die Diversität der
Netzwerke einschränken und somit die soziale Vernetzung insgesamt
beeinflussen. Eine zugrunde liegende Annahme ist, dass ein höherer
Freundschafts-Bias die Effektivität und Diversität der sozialen
Vernetzung reduziert.
Deskriptive Analysen
Nun haben Sie alle Daten zusammen, die Sie für die Analyse der soziodemographischen Zusammenhänge innerhalb der einzelnen Counties benötigen und können in ihre Analysen einsteigen.
- Schauen Sie sich in einem ersten Schritt an, wie die Variablen im
Datensatz
analysis_dataüber alle Counties verteilt sind. Konkret sollten Sie eine Tabelle erstellen, welche Informationen zu allen numerischen Variablen in ihrem Datensatz darstellt. Berechnen Sie zu jeder Variablen den Mittelwert, den Median, das Minimum, das Maximum, die Standardabweichung, sowie das 25%- und das 75%- Quantil bezogen auf alle Counties.
Beschreiben und interpretieren Sie Ihre Tabelle.
Bei welchen Variablen gibt es Auffälligkeiten? Gibt es Ausreißer nach oben oder unten?
Hinweis: Achten Sie auf eine schöne Darstellung ihrer
Tabelle mittels der Pakete kableExtra oder
gt!
| Variablenname | Mittelwert | Median | Minimum | Maximum | Standardabweichung | 25%-Quantil | 75%-Quantil |
|---|---|---|---|---|---|---|---|
| bias_grp_mem_county | 0.06 | 0.06 | -0.11 | 0.33 | 0.05 | 0.03 | 0.10 |
| ec_county | 0.81 | 0.81 | 0.29 | 1.36 | 0.18 | 0.69 | 0.94 |
| exposure_grp_mem_county | 0.91 | 0.91 | 0.26 | 1.49 | 0.21 | 0.76 | 1.05 |
| gini99_simple | 0.29 | 0.29 | -0.06 | 0.57 | 0.06 | 0.24 | 0.33 |
| medincE | 65046.65 | 63161.50 | 16170.00 | 178707.00 | 18388.68 | 54113.25 | 73216.25 |
| pop2018 | 107129.87 | 27837.50 | 544.00 | 10098052.00 | 337331.88 | 12618.75 | 71974.50 |
| upward_mobility | 42.72 | 41.96 | 12.22 | 68.83 | 6.49 | 38.43 | 46.11 |
Beschreibung der Tabelle
Die Tabelle enthält acht Spalten und sieben Zeilen. Die Zeilen der
Tabelle stellen dabei die zu untersuchenden numerischen Variablen aus
dem Datensatz analysis_data dar. Diese numerischen
Variablen sind in der ersten Spalte aufgelistet und lauten wie folgt:
bias_grp_mem_county, ec_county,
exposure_grp_mem_county, gini99_simple,
medincE, pop2018,
upward_mobility. In den restlichen Spalten der Tabelle sind
die statistischen Kennzahlen der genannten Variablen abgebildet. Hierzu
gehört der Mittelwert, der Median, das Minimum, das Maximum, die
Standardabweichung, sowie das 25%- und das 75%- Quantil.
Interpretation der Tabelle
bias_grp_mem_county: Der Mittelwert und Median sind
beide 0.06, was zeigt, dass die Werte relativ symmetrisch um diesen
Punkt verteilt sind.Die Standardabweichung von 0.05 zeigt eine gewisse
Variabilität, ist aber relativ moderat. Der Mittelwert von 0.06 weist
auf eine leichte Tendenz hin, innerhalb der eigenen Gruppe zu bleiben.
Die gewisse Variabilität zeigt, dass es Regionen mit stärkerer oder
schwächerer Tendenz gibt. Negative Werte bedeuten, dass einige Regionen
mehr Diversität in Freundschaftsnetzwerken fördern. Tendenziell lässt
sich aber sagen, dass das Minimum vom Betrag her kleiner als das Maximum
ist (nur ein Drittel), weshalb es doch Counties zu geben scheint, in
denen verschiedene sozio-ökonomische Gruppen lieber unter sich
bleiben.
ec_county: Der Mittelwert und Median sind beide 0.81,
was auf eine symmetrische Verteilung hindeutet. Ein Bereich von 0.29 bis
1.36 zeigt eine große Spannweite.Ein hoher Wert von Median (um 0.81)
zeigt an, dass die meisten Regionen gut vernetzt sind. Regionen mit
höherer sozialer Vernetzung bieten mehr Unterstützung und bessere
Chancen für wirtschaftliche Mobilität. Der Interquartilsabstand ist
jedoch mit einem Wert von 0.25 relativ gesehen recht groß. Dies zeigt,
dass die regionale Vernetzung teils sehr unterschiedlich ausgeprägt
ist.
exposure_grp_mem_county: Der Mittelwert und Median sind
beide 0.91, was auf eine symmetrische Verteilung hindeutet. Die
Spannweite von 0.26 bis 1.49 ist groß, allerdings ist der
Interquartilsabstand mit 0,3 doch deutlich geringer, weist aber auch
noch eine deutliche Variabilität auf. Es scheint also zwischen
verschiedenen sozio-ökonomischen Gruppen in den verschiedenen Counties
doch recht unterschiedliche Interaktionsintensitäten zu geben. Ein hoher
Mittelwert zeigt, dass die meisten Personen tendenziell regelmäßig mit
verschiedenen Gruppen interagieren. Dies fördert die Bildung
vielfältiger Netzwerke und potenziell bessere wirtschaftliche
Chancen.
gini99_simple: Der Mittelwert und Median sind beide
0.29, was auf eine symmetrische Verteilung hindeutet. Der
Interquartilsabstandsbetrag von 0.09 zeigt eine moderate Variabilität
zwischen den einzelnen Counties.Ein Mittelwert von 0.29 deutet auf
erkennbare Ungleichheit hin. Regionen mit höherer Ungleichheit könnten
wirtschaftliche Aufstiegschancen für ärmere Bevölkerungsgruppen
einschränken. Auffällig ist hier, dass das Minimum einen negativen Wert
hat. Normalerweise hat der Gini-Koeffizient aber einen Wert zwischen 0
und 1. Dies deutet also auf einen Fehler im Datensatz hin. Bei genauerer
Betrachtung des Datensatzes wurde festgestellt, dass nur zwei Counties
einen negativen Wert haben.
medincE: Der Mittelwert von 65046.65 und eine große
Standardabweichung von 18388.68 zeigen eine erhebliche Variabilität.Der
Bereich von 16170.00 bis 178707.00 zeigt eine sehr breite Spanne, was
auf mögliche Ausreißer hinweist. Es scheint im mittleren
Haushaltseinkommen also große Unterschiede zu geben. Der Mittelwert ist
um knapp 2000 US Dollar größer als der Median, was ein Indiz für eine
rechtsschiefe Verteilung ist, mit Ausreißern eher nach oben. So ist auch
die Standardabweichung mit über 18000 US Dollar beträchtlich und deutet
auf eine insgesamt breite Verteilung mit deutlichen Unterschieden hin.
Dies scheint für die USA aber nicht verwunderlich zu sein, da in manchen
Gegenden große Techfirmen beheimatet sind, während es auch ländliche,
eher abgehängte Regionen gibt.
pop2018: Ein hoher Mittelwert von 107129.87 und eine
sehr große Standardabweichung von 337331.88 zeigen eine extreme
Variabilität.Der Bereich von 544.00 bis 10098052.00 zeigt extreme
Ausreißer nach oben wie unten. Regionen mit höheren Bevölkerungszahlen
können mehr wirtschaftliche Chancen bieten, aber auch größere
Herausforderungen wie Überbevölkerung und soziale Spannungen mit hohen
Wohnungspreisen haben. Die extrem große Standardabweichung und der
breite Bereich von Minimum zu Maximum zeigen erhebliche Unterschiede
zwischen urbanen und ländlichen Regionen. In den USA gibt es viele
Regionen mit einer viel geringeren Bevölkerungsdichte als in
Deutschland. Besonders deutlich wird dies am Verhältnis zwischen Median
und Mittelwert, der Median ist nur gut ein Viertel so groß wie der
Mittelwert, was dafür spricht, dass es viele Counties mit geringer
Bevölkerung und einzelne, extreme Ausreißer nach oben gibt.
upward_mobility: Der Mittelwert von 42.72 und eine
moderate Standardabweichung von 6.49 zeigen eine moderate
Variabilität.Die Spannweite von 12.22 bis 68.83 zeigt, dass es extreme
Unterschiede in der wirtschaftlichen Mobilität gibt. Allerdings ist der
Interquartilsabstand mit nicht einmal einem Betrag von 8 deutlich
geringer. Auch der Median ist nur unwesentlich geringer als der
Mittelwert, weshalb vieles für eine gleichmäßige Verteilung mit wenigen
Ausreißern spricht . Regionen mit hoher wirtschaftlicher Mobilität
bieten insgesamt bessere Chancen für den sozioökonomischen Aufstieg.
Bei welchen Variablen gibt es Auffälligkeiten? Gibt es Ausreißer nach oben oder unten?
medincE (Medianes Einkommen): Es gibt möglicherweise
Ausreißer nach oben, da der Bereich von 16170.00 bis 178707.00 sehr
breit ist.
pop2018 (Bevölkerungszahl): Es gibt extreme Ausreißer
nach oben, da der Bereich von 544.00 bis 10098052.00 extrem breit
ist.
Diese Variablen zeigen eine hohe Variabilität und mögliche Ausreißer, die bei der weiteren Analyse berücksichtigt werden sollten.
Soziale Vernetzung und wirtschaftliche Mobilität
Ihre Analyse der Daten aus Aufgabe 6 gibt ihnen schon ein erstes Bild
über die Verteilung der einzelnen Variablen. Jedoch sollten Sie für ihre
Analyse näheres über die soziale Vernetzung lernen, den Economic
Connectedness Index (ec_county), welcher aus den Facebook
Freundschaften generiert wurde. Die Daten des Economic Connectedness
Index wurden auf County Ebene aggregiert, beruhen jedoch auf
Freundschaftsdaten von individuellen Facebook Nutzern.
- Um sich ein Bild der sozialen Vernetzung auf County Ebene machen zu können, sollten Sie diese in einer Karte der USA darstellen. Beschreiben und interpretieren Sie die gezeigte Karte.
Gehen Sie bei ihrer Interpretation auch auf folgende Frage ein:
Welche Annahme müssen Sie machen, damit Sie gültige Aussagen zum Einfluss des Economic Connectedness Index auf die wirtschaftliche Mobilität tätigen können und Sie tatsächlich etwas über Freundschaftsnetzwerke lernen können?
Hinweis: Wenn Sie Karten der USA darstellen, dann empfiehlt
sich das tigris
Paket und der Befehl shift_geometry() um Alaska, Hawaii
und Puerto Rico schön darstellen zu lassen.
Beschreibung
Die Karte zeigt den Economic Connectedness Index
ec_county auf County-Ebene in den USA. Alaska, Hawaii und
Puerto Rico wurden dabei unterhalb der USA hinzugefügt. Dabei ist zu
sehen, wie stark die Counties innerhalb wirtschaftlich vernetzt sind.
Gelb gefärbte Regionen zeigen höhere Werte, was bedeutet, dass in diesen
Counties Menschen mit niedrigem sozioökonomischen Status (SES) häufig
Freundschaften mit Menschen mit hohem SES eingehen. Diese Regionen
zeigen also eine stärkere soziale Durchmischung und potenziell bessere
Bedingungen für wirtschaftliche Mobilität. Dunklblaue Regionen hingegen
zeigen Counties mit weniger wirtschaftlicher Vernetzung, wo
Freundschaften zwischen den beiden Gruppen seltener sind. Solche
Regionen könnten stärker segregiert sein und weniger Chancen für soziale
und wirtschaftliche Aufstiege bieten. Zu den grauen Bereichen liegen uns
keine Daten vor.
Annahmen zur Interpretation
Es muss ein kausaler Zusammenhang zwischen dem EC Index und der wirtschaftlichen Mobilität bestehen. Das bedeutet, dass aufgrund des hohen EC Index eine höhere wirtschaftliche Mobilität folgt. Ohne Kausalität könnten beide Größen lediglich korrelieren, ohne dass der EC Index tatsächlich einen Einfluss auf die Mobilität hat. Eine weitere Annahme ist, dass die Daten repräsentativ für die Bevölkerung sein müssen. Die Daten basieren auf Facebook-Freundschaften, Menschen ohne Facebook-Account oder solche, die Facebook anders nutzen, könnten systematisch ausgeschlossen werden, was die Aussagekraft des Index einschränkt.
Interpretation
Es ist zu erkennen, dass der EC Index vor allem in Großstädten wie New York sehr hoch ist. Das deutet darauf hin, dass dort eine starke soziale Durchmischung stattfindet und die wirtschaftliche Mobilität deshalb größer ist. Außerdem lässt sich erkennen, dass der Norden tendenziell einen höheren EC Index als der Süden hat. Diese Regionen sind historisch durch stärkere soziale Segregation geprägt, was sowohl auf wirtschaftliche als auch auf ethnische Unterschiede zurückzuführen ist, was den niedrigeren Index begründen könnte.
- Wie in der vorherigen Aufgabe zu sehen war, unterscheidet sich der Economic Connectedness Index in den einzelnen Counties doch deutlich voneinander. In einer ersten deskriptiven Analyse wäre es spannend zu sehen, ob der EC mit unterschiedlichen Variablen, welche den ökonomischen Aufstieg repräsentieren, zusammenhängt.
Hier sollen Sie in einem ersten Schritt die zehn Counties mit dem höchsten Economic Connectedness Index und die zehn Counties mit dem niedrigsten Economic Connectedness Index auflisten und folgende Variablen näher anschauen:
- Median Haushaltseinkommen in dem County (
medincE) - Wirtschaftliche Mobilität in dem County
(
upward_mobility) - Einkommensungleichheit in dem County (gemessen mit dem
Gini-Koeffizient des Counties) (
gini99_simple)
Erstellen Sie eine oder mehrere Tabelle um die Ergebnisse für die 20 Counties übersichtlich dazustellen.
Beschreiben und interpretieren Sie ihre Tabellen und gehen Sie auf die folgende Frage ein:
- Haben Sie diese Unterschiede in den einzelnen Variablen erwartet? Begründen Sie warum, oder warum nicht.
| NAME | ec_county | medincE | upward_mobility | gini99_simple |
|---|---|---|---|---|
| Rockingham County, New Hampshire | 1.35970 | 113927 | 45.31415 | 0.22538 |
| Douglas County, Colorado | 1.35327 | 145737 | 48.24337 | 0.11621 |
| San Francisco County, California | 1.31244 | 141446 | 50.38885 | 0.30963 |
| Morgan County, Utah | 1.29125 | 126092 | 54.12398 | 0.15350 |
| Madison County, Idaho | 1.28088 | 58259 | 51.53670 | 0.22434 |
| Arlington County, Virginia | 1.27232 | 140160 | 46.28139 | 0.38696 |
| Sussex County, New Jersey | 1.25775 | 114316 | 47.03977 | 0.18298 |
| Wright County, Minnesota | 1.25228 | 106666 | 49.54441 | 0.18420 |
| Gunnison County, Colorado | 1.24836 | 77358 | 48.71070 | 0.34658 |
| Pitkin County, Colorado | 1.24364 | 100318 | 45.83353 | -0.01002 |
| NAME | ec_county | medincE | upward_mobility | gini99_simple |
|---|---|---|---|---|
| Todd County, South Dakota | 0.29469 | 39148 | 30.17850 | 0.32266 |
| Oglala Lakota County, South Dakota | 0.33048 | 34769 | 24.84036 | NA |
| Terrell County, Georgia | 0.34741 | 43812 | 31.16523 | 0.36427 |
| Bullock County, Alabama | 0.35515 | 36723 | 34.56590 | 0.31482 |
| Allendale County, South Carolina | 0.36095 | 31603 | 31.40409 | 0.33154 |
| Robeson County, North Carolina | 0.36258 | 40318 | 32.09524 | 0.36248 |
| Early County, Georgia | 0.37960 | 53750 | 33.82838 | 0.45567 |
| Marlboro County, South Carolina | 0.38475 | 36293 | 32.81837 | 0.30707 |
| Crisp County, Georgia | 0.38777 | 42745 | 32.88780 | 0.42409 |
| Scotland County, North Carolina | 0.39580 | 43500 | 31.07868 | 0.38709 |
Beschreibung der Tabellen
In der ersten Tabelle sind die zehn Counties mit dem höchstem
Economic Connectedness Index aufgelistet, während in der zweiten Tabelle
die zehn Counties mit dem niedrigsten Economic Connectedness Index
aufgelistet sind. Beide Tabellen sind dabei absteigend nach dem Economic
Connectedness Index sortiert. Neben dem Economic Connectedness Index
sind außerdem folgende drei Variablen in der Tabelle abgebildet: Median
Haushaltseinkommen medincE, wirtschaftlichen Mobilität
upward_mobility und Einkommensungleichheit
gini99_simple.
Interpretation der Tabellen
In den Landkreisen mit den höchsten Werten im Economic Connectedness Index zeigt sich, dass das Median-Haushaltseinkommen in der Regel höher ist als in den Landkreisen mit den niedrigsten Werten. So verzeichnet beispielsweise Douglas County, Colorado, mit 145.737 US-Dollar das höchste Haushaltseinkommen, während Allendale County, South Carolina, mit 31.603 US-Dollar das niedrigste aufweist. Diese Beobachtung entspricht den Erwartungen, da eine höhere wirtschaftliche Vernetzung oft mit besseren wirtschaftlichen Möglichkeiten und somit höheren Einkommen korreliert.
Ähnlich verhält es sich mit der wirtschaftlichen Mobilität: Landkreise mit hoher Vernetzung wie Morgan County, Utah, weisen eine hohe wirtschaftliche Mobilität auf (54.12398), während Landkreise mit niedriger Vernetzung wie Oglala Lakota County, South Dakota, eine geringere wirtschaftliche Mobilität zeigen (24.84036). Diese Ergebnisse entsprechen ebenfalls den Erwartungen, da eine stärkere Vernetzung typischerweise bessere Aufstiegschancen und Karrieremöglichkeiten bietet.
Interessant ist jedoch die Beobachtung der Einkommensungleichheit. Während Douglas County, Colorado, mit einem Gini-Koeffizienten von 0.11621 die geringste Einkommensungleichheit aufweist, zeigt Arlington County, Virginia, trotz hoher Vernetzung einen vergleichsweise hohen Gini-Koeffizienten von 0.38696. Dies könnte darauf hindeuten, dass auch in wirtschaftlich vernetzten Gebieten signifikante Ungleichheiten bestehen, was auf komplexe lokale wirtschaftliche und soziale Strukturen hinweist. Auf der anderen Seite haben weniger vernetzte Landkreise wie Early County, Georgia, eine hohe Einkommensungleichheit mit einem Gini-Koeffizienten von 0.45567, was die geringeren wirtschaftlichen Chancen und die größere Einkommensdisparität in diesen Gebieten widerspiegelt.
Haben Sie diese Unterschiede in den einzelnen Variablen erwartet?
Zusammenfassend entsprechen die beobachteten Unterschiede in den Variablen weitgehend den Erwartungen. Höhere Vernetzung ist tendenziell mit höheren Einkommen und besserer wirtschaftlicher Mobilität verbunden, während geringere Vernetzung oft mit niedrigeren Einkommen und höheren Ungleichheiten einhergeht. Dennoch unterstreichen Ausnahmen wie Arlington County die Notwendigkeit, lokale Kontexte und zusätzliche Faktoren zu berücksichtigen, um ein vollständiges Bild der wirtschaftlichen und sozialen Dynamiken zu erhalten. Dies verdeutlicht, dass eine tiefergehende Analyse und ein Verständnis der individuellen Besonderheiten der Landkreise unerlässlich sind, um die Zusammenhänge vollständig zu erfassen.
Aktuell haben Sie in einer univariaten Analyse viel über die soziale Vernetzung auf Basis von Facebook Daten gelernt. Doch was hat der Economic Connectedness Index mit tatsächlicher Entwicklungsmöglichkeit auf sich?
- In dieser Aufgabe sollten Sie eine Punktdiagramm (Scatter-Plot)
erstellen, welches die wirtschaftliche Mobilität
(
upward_mobility) gegenüber dem Economic Connectedness Index darstellt. Diese Grafik sollte interaktiv gestaltet sein. Konkret sollte der Name des Counties zu sehen sein, wenn Sie über einen Punkt im Diagramm fahren. Fügen Sie Ihrer Grafik den Korrelationskoeffizient der zwei Variablen hinzu und zeichnen Sie eine Regressionsgerade durch die Punktewolke.
Beschreiben und interpretieren Sie ihre Grafik. Gehen Sie dabei insbesondere auf die folgende Frage ein:
- Entspricht der Zusammenhang zwischen den zwei Variablen ihren Erwartungen aus Aufgabe 5?
- In wie weit können Sie mit dieser Grafik die Frage “Wie stark beeinflussen soziale Netzwerke die wirtschaftliche Mobilität?” aus der Motivation beantworten?
Hinweis: Um interaktive Grafiken zu erstellen könnten Sie z.B. das plotly Paket, oder das ggiraph Pakte nutzen
Beschreibung der Grafik
Auf der y-Achse der Grafik ist die wirtschaftliche Mobilität und auf der x-Achse der Economic Connectedness Index aufgetragen. Die blauen Punkte stellen die einzelnen Counties dar. In grün ist die Regressionslinie in die Grafik eingetragen.
Interpretation der Grafik
Auf Basis der bisherigen Analysen und der aktuellen Daten lässt sich feststellen, dass es einen positiven Zusammenhang zwischen den untersuchten Variablen gibt. Der Korrelationskoeffizient beträgt 0.72, was auf eine starke positive Korrelation hinweist. Das bedeutet, dass mit zunehmendem Wert der einen Variablen auch der Wert der anderen Variablen tendenziell zunimmt.
Entspricht der Zusammenhang zwischen den zwei Variablen ihren Erwartungen aus Aufgabe 5?
Diese Beobachtung bestätigt die ursprüngliche Annahme, dass soziale Netzwerke einen positiven Einfluss auf die wirtschaftliche Mobilität haben. Ein Korrelationskoeffizient von 0.72 deutet darauf hin, dass starke soziale Netzwerke in hohem Maße mit einer verbesserten wirtschaftlichen Mobilität einhergehen. Menschen, die gut in sozialen Netzwerken eingebunden sind, haben vermutlich besseren Zugang zu Informationen, Ressourcen und Unterstützung, was ihre Chancen auf wirtschaftlichen Aufstieg erhöht.
In wie weit können Sie mit dieser Grafik die Frage “Wie stark beeinflussen soziale Netzwerke die wirtschaftliche Mobilität?” aus der Motivation beantworten?
Es ist jedoch wichtig zu betonen, dass Korrelation nicht gleich Kausalität ist. Obwohl die starke positive Korrelation auf einen bedeutenden Zusammenhang hinweist, sollten weitere Analysen durchgeführt werden, um andere Einflussfaktoren zu berücksichtigen und mögliche Kausalzusammenhänge zu überprüfen. Diese Ergebnisse bieten dennoch wertvolle Einblicke und legen nahe, dass Maßnahmen zur Stärkung sozialer Netzwerke positive Auswirkungen auf die wirtschaftliche Mobilität haben könnten.
- Erstellen Sie zwei weitere Punktediagramme, welche die 500 größten Counties nach Bevölkerungsgröße abtragen und zeigen Sie folgende Zusammenhänge auf (ohne Interaktivität):
- Zusammenhang zwischen der Einkommensungleichheit (gemessen im Gini-Koeffizient) und dem Economic Connectedness Index
- Zusammenhang zwischen dem Median Haushaltseinkommen und dem Economic Connectedness Index
Weiterhin sollten Sie die folgenden Counties in ihrem Diagramm hervorheben und benennen:
- San Francisco County, California
- Arlington County, Virginia
- Morgan County, Utah
- New York County, New York
- Bronx County, New York
Beschreiben und interpretieren Sie ihre Grafiken. Gehen Sie dabei insbesondere auf folgende Frage ein:
- Entspricht der Zusammenhang zwischen den zwei Variablen ihren Erwartungen aus Aufgabe 5? Erklären Sie.
Beschreibung der Grafik
Die erste Grafik zeigt den Zusammenhang zwischen der Einkommensungleichheit (Gini-Koeffizient) und dem Economic Connectedness Index. Hervorgehoben sind die Counties Arlington, Bronx, Morgan, New York und San Fransisco. Die zweite Grafik zeigt den Zusammenhang zwischen dem Median Haushaltseinkommen und dem Economic Connectedness Index. Auch hier wurden die genannten Städte extra hervorgehoben. Betrachtet werden hier in beiden Grafiken ausschließlich die 500 bevölkerungsreichsten Counties der USA. In der ersten Grafik können wir eine negative Korrelation zwischen der Einkommensungleichheit und dem EC Index erkennen. In der zweiten Grafik hingegen können wir eine positive Korrelation zwischen dem Haushaltseinkommen und dem EC-Index erkennen.
Interpretation der Grafik:Entspricht der Zusammenhang zwischen den zwei Variablen ihren Erwartungen aus Aufgabe 5?
Der negative Zusammenhang zwischen der sozialen Vernetzung (EC Index) und der Einkommensungleichheit (Gini-Koeffizient) war zu erwarten. In Regionen mit weniger Einkommensungleichheit sind soziale Barrieren geringer, was die Vernetzung zwischen sozioökonomischen Gruppen fördert. Eine hohe Einkommensungleichheit baut hingegen Barrieren auf, da Personen mit niedrigem Einkommen oft nicht mit Personen höherem Einkommens interaggieren und umgekehrt. Überraschend ist jedoch, dass einige Regionen mit hoher Ungleichheit, wie New York County, dennoch einen vergleichsweise hohen EC Index aufweisen. Dies könnte durch spezifische lokale Faktoren wie eine hohe Bildungs- und Technologiedichte erklärt werden. Auch in der zweiten Grafik war der positive Zusammenhang zwischen der sozialen Vernetzung und dem Haushaltseinkommen zu erwarten und entspricht damit den Annahmen aus Aufgabe 5. Counties mit höherem Median-Einkommen tendieren dazu, einen höheren EC Index aufzuweisen, was auf stärkere soziale Vernetzung hindeutet. Höheres Einkommen geht oft mit besseren Möglichkeiten einher, sich sozial über verschiedene Einkommensschichten hinweg zu vernetzen, z.B. über Bildungseinrichtungen oder Arbeitsplätze. Vor allem Arlington County und San Fransisco County zeigen diesen Effekt sehr deutlich.
Wie aus Aufgabe 9 hervorgeht ist die wirtschaftliche Mobilität stark mit dem Economic Connectedness Index korreliert. In den nächsten Aufgaben sollten Sie sich tiefer mit den Gründen dafür beschäftigen und sich im ersten Schritt die Korrelationen zwischen verschiedenen Variablen in ihrem Datensatz anschauen.
- Erstellen Sie in dieser Aufgabe eine Korrelationsmatrix, die Ihnen den Zusammenhang zwischen den folgenden Variablen aufzeigt:
- Economic Connectedness Index (ec_county)
- Wirtschaftliche Mobilität (upward_mobility)
- Median Haushaltseinkommen (medincE)
- Bevölkerung in 2018 (pop2018)
- Einkommensungleichheit (gini99_simple)
- Exposition (exposure_gpr_mem_county)
- Freundschafts-Bias (bias_grp_mem_county)
Beschreiben und interpretieren Sie ihre Korrelationsmatrix.
Beschreibung der Korrelationsmatrix
Die Korrelationsmatrix zeigt, wie stark und in welche Richtung
einzelne Variablen miteinander korreliert sind. Wir haben den
Zusammenhang folgender Variablen aufgezeigt: Economic Connectedness
Index ec_county, Wirtschaftliche Mobilität
upward_mobility, Median Haushaltseinkommen
medincE, Bevölkerung in 2018 pop2018,
Einkommensungleichheit gini99_simple, Exposition
exposure_gpr_mem_county, Freundschafts-Bias
bias_grp_mem_county. Blaue Bereiche zeigen negative
Korrelationen der Variablen und grüne Bereiche zeigen positive
Korrelationen. Je kräftiger die Farbe, desto stärker ist die
Korrelation, wobei weiße Bereiche auf nahezu keine Korrelation
hindeuten. Zu sehen ist hier nur die halbe Matrix, was aus Gründen der
Symmetrie sinnvoll ist.
Interpretation der Korrelationsmatrix
Die Korrelationen der einzelnen Variablen war zu erwarten. So ist,
wie in vorherigen Aufgaben gezeigt, der EC Index stark mit
upward_mobility und exposure_grp_mem_county
korreliert. Hier zeigt sich wieder, dass stärkere soziale Vernetzung
(höherer EC Index) mit höherer wirtschaftlicher Mobilität und stärkerem
Kontakt zwischen sozioökonomischen Gruppen verbunden ist. Das liegt
daran, dass ein hoher EC Index den Zugang zu Ressourcen und Netzwerken
verbessert, was die wirtschaftliche Mobilität fördert. Hingegen ist der
EC Index mit der pop2018 fast gar nicht korreliert, was
bedeutet, dass die Bevölkerungsanzahl keinen Einfluss auf die soziale
Vernetzung hat. Man kann allgemein sehen, dass die Bevölkerungsanzahl
relativ wenig Einfluss auf andere Variablen hat. Eine weitere
Beobachtung ist, dass der Kontakt zwischen sozioökonomischen Gruppen
(Exposition) positiv auf die Mobilität und das Einkommen wirkt, da er
den Austausch von Ideen, Wissen und Möglichkeiten erleichtert. Hingegen
schränkt höhere Ungleichheit sowohl die Vernetzung als auch die
Mobilität ein, was auf strukturelle Barrieren hinweist, die soziale und
wirtschaftliche Interaktionen behindern.
Im nächsten Schritt sollten Sie sich anschauen, welche Rolle das Median Haushaltseinkommen in den Counties bei der wirtschaftlichen Mobilität spielt. Gibt es einen Unterschied des Effekts der sozialen Vernetzung zwischen Gutverdienern und weniger gut verdienenden?
- Zeigen Sie in einem Punktediagramm den Zusammenhang des Economic Connectedness Index (y-Achse) und dem Median Haushaltseinkommen in den einzelnen Counties. Färben Sie die einzelnen Datenpunkte nach der wirtschaftlichen Mobilität ein.
Beschreiben und interpretieren Sie ihre Grafik. Gehen Sie insbesondere darauf ein, ob er Effekt der sozialen Vernetzung für alle Einkommensgruppen gleich ist.
Beschreibung der Grafik
Die Grafik zeigt den Zusammenhang zwischen dem Economic Connectedness
Index und dem Median-Haushaltseinkommen in den einzelnen Counties. Die
Datenpunkte sind nach der wirtschaftlichen Mobilität
upward_mobility eingefärbt, wobei hellere Punkte eine
höhere wirtschaftliche Mobilität haben. Zunächst einmal können wir
feststellen, dass das Median-Haushaltseinkommen und der EC Index positiv
miteinander korrelieren. Außerdem auffällig ist, dass Counties mit hohem
Haushaltseinkommen und hohem EC Index auch eine starke wirtschaftliche
Mobilität haben, wo hingegen Counties mit niedrigem Haushaltseinkommen
und niedrigem EC Index auch eine schwache wirtschaftliche Mobilität
aufweisen.
Interpretation der Grafik
Der positive Zusammenhang zwischen Median-Haushaltseinkommen und EC Index zeigt, dass wohlhabendere Regionen oft bessere soziale Durchmischung ermöglichen. Haushalte mit höherem Einkommen haben tendenziell Zugang zu Bildungseinrichtungen, sozialen Netzwerken und beruflichen Möglichkeiten, die die soziale Vernetzung fördern. Trotzdem gibt es einige Ausreißer. Counties mit hoher wirtschaftlicher Mobilität können auch ein vergleichsweise niedriges Haushaltseinkommen und vor allem ein niedrigen EC Wert haben. Diese Regionen könnten vor allem kleinere Städte sein in denen andere Faktoren, wie z.B. eine geringere Einkommensungleichheit oder auch eine allgemein stärkere soziale Vernetzung, z.B. durch lokale Vereine, die wirtschaftliche Mobilität fördern könnten. Andersrum gibt es auch Counties mit niedriger Mobilität aber hohem EC Index. Beispiele könnten wohlhabende, städtische Regionen sein, die trotz hoher Vernetzung Segregation oder andere strukturelle Probleme aufweisen.
Ist der Effekt der sozialen Vernetzung für alle Einkommensgruppen gleich?
Daraus lässt sich erkennen, dass der Effekt der sozialen Vernetzung (EC Index) nicht für alle Einkommensgruppen gleich ist. Der EC Index hat in hochverdienenden Regionen einen moderat positiven Einfluss auf die Mobilität. Die Hürde zur sozialen Vernetzung ist geringer, und Menschen profitieren mehr von bestehenden Netzwerken. In einkommensschwachen Regionen hat der EC Index eine deutlich stärkere Wirkung auf die Mobilität. Wenn soziale Vernetzung vorhanden ist, können auch in solchen Regionen größere Mobilitätsgewinne erzielt werden.
- Die soziale Vernetzung ist in der bisherigen Analyse ein treibender Faktor für die wirtschaftliche Mobilität. Jedoch ist es durchaus möglich, dass nicht die soziale Vernetzung, sondern andere Faktoren den zu Grunde liegenden Effekt treiben und es sich bei dem Zusammenhang zwischen dem Economic Connectedness Index und der wirtschaftlichen Mobilität nur um einen Scheinzusammenhang handelt. So könnten z.B. Rückwärtskausalität, Selektionseffekte oder ausgelassene Variablen den gefundenen Zusammenhang erklären.
Um dem nachzugehen sollten Sie sich Chetty et al. (2022a), Seite 115-120 durchlesen und folgende Fragen beantworten:
- Nehmen Sie Bezug auf die Rückwärtskausalität, den Selektionseffekt und die ausgelassenen Variablen. Wie könnten diese Faktoren einen scheinbaren Zusammenhang zwischen dem Economic Connectedness Index und der wirtschaftlichen Mobilität verursachen? Gehen Sie auf jeden Faktor separat ein.
- In der explorativ und deskriptiv angelegten Analyse der Autoren lassen sich die Argumente bzgl. Rückwärtskausalität, Selektionseffekten und ausgelassener Variablen nicht vollständig ausschließen. Doch welche Argumente sprechen laut den Autoren dafür, dass es sich nicht um die genannten Faktoren handelt?
- Finden Sie die Argumentation glaubhaft? Hätten Sie bedenken bei deren Argumentation? Wenn ja, was stört Sie daran?
- Nehmen wir an Sie können sich die optimalen Bedingungen zusammenstellen, damit Sie tatsächlich einen kausalen Effekt der sozialen Vernetzung auf die wirtschaftliche Mobilität messen könnten. Wie würden diese Bedingungen ausgestaltet sein?
Rückwärtskausalität: Rückwärtskausalität bedeutet, dass die wirtschaftliche Mobilität selbst die soziale Vernetzung beeinflussen könnte. Menschen mit höherer wirtschaftlicher Mobilität könnten eher in sozialen Netzwerken aktiv sein, was zu einer höheren wirtschaftlichen Vernetzung führt. Dies könnte den Eindruck erwecken, dass die soziale Vernetzung die wirtschaftliche Mobilität beeinflusst, obwohl es tatsächlich umgekehrt ist.
Selektionseffekte: Selektionseffekte treten auf, wenn bestimmte Personen aufgrund ihrer wirtschaftlichen Mobilität eher in soziale Netzwerke aufgenommen werden. Wenn Menschen mit höherer wirtschaftlicher Mobilität bevorzugt in soziale Netzwerke aufgenommen werden, könnte dies den Zusammenhang zwischen sozialer Vernetzung und wirtschaftlicher Mobilität verstärken. Dies würde bedeuten, dass die soziale Vernetzung nicht die Ursache, sondern das Ergebnis der wirtschaftlichen Mobilität ist.
Ausgelassene Variablen: Ausgelassene Variablen sind Faktoren, die nicht in der Analyse berücksichtigt wurden, aber den Zusammenhang zwischen sozialer Vernetzung und wirtschaftlicher Mobilität beeinflussen könnten. Beispiele für solche Variablen könnten Bildungsniveau, geografische Lage oder familiäre Hintergründe sein. Wenn diese Variablen nicht berücksichtigt werden, könnte dies zu einem falschen Schluss führen, dass die soziale Vernetzung die wirtschaftliche Mobilität beeinflusst, obwohl es tatsächlich andere Faktoren sind, die den Zusammenhang erklären.
Argumente der Autoren: Die Autoren von Chetty et al. (2022a) argumentieren, dass ihre Analyse Rückwärtskausalität, Selektionseffekte und ausgelassene Variablen berücksichtigt hat und dass der Zusammenhang zwischen sozialer Vernetzung und wirtschaftlicher Mobilität robust bleibt. Sie weisen darauf hin, dass ihre Datenquellen und Methoden darauf ausgelegt sind, diese potenziellen Verzerrungen zu minimieren.
Glaubwürdigkeit der Argumentation: Die Argumentation der Autoren ist überzeugend, da sie umfangreiche Daten und sorgfältige Methoden verwenden, um den Zusammenhang zwischen sozialer Vernetzung und wirtschaftlicher Mobilität zu untersuchen. Dennoch könnten Bedenken bestehen, dass selbst die besten Methoden nicht alle möglichen Verzerrungen vollständig ausschließen können. Es ist wichtig, die Ergebnisse mit Vorsicht zu betrachten und weitere Forschung durchzuführen, um die Ergebnisse zu bestätigen.
Optimalen Bedingungen zur Messung des kausalen Effekts: Um einen kausalen Effekt der sozialen Vernetzung auf die wirtschaftliche Mobilität zu messen, müssten die optimalen Bedingungen folgende Kriterien erfüllen:
Randomisierte Experimente: Durchführung von randomisierten Experimenten, bei denen die soziale Vernetzung gezielt manipuliert wird, um die Auswirkungen auf die wirtschaftliche Mobilität zu beobachten.
Längsschnittstudien: Durchführung von Längsschnittstudien, die die Entwicklung der sozialen Vernetzung und der wirtschaftlichen Mobilität über einen längeren Zeitraum verfolgen.
Kontrollgruppen: Einbeziehung von Kontrollgruppen, die keine Veränderungen in der sozialen Vernetzung erfahren, um die Effekte besser isolieren zu können.
Multivariate Analyse: Berücksichtigung einer Vielzahl von Variablen, die potenziell den Zusammenhang beeinflussen könnten, um ausgelassene Variablen zu kontrollieren.
Qualitative Forschung: Ergänzung der quantitativen Analysen durch qualitative Forschung, um tiefergehende Einblicke in die Mechanismen zu gewinnen, durch die die soziale Vernetzung die wirtschaftliche Mobilität beeinflusst.
Durch die Kombination dieser Methoden könnten wir ein klareres Bild davon bekommen, ob und inwieweit die soziale Vernetzung einen kausalen Effekt auf die wirtschaftliche Mobilität hat.
Einflussfaktoren auf die soziale Vernetzung
Wie Sie in Ihrer bisherigen Analyse gesehen haben scheint der Economic Connectedness Index einen großen Teil der wirtschaftlichen Mobilität innerhalb der Counties erklären zu können. Doch was sind die Treiber hinter einer hohen sozialen Vernetzung?
- Ein Treiber der sozialen Vernetzung könnte natürlich eine hohe
Exposition (
exposure_grp_mem_county) sein, d.h. wenn es viele gut verdienende Personen in einem County gibt. Anders herum: Wenn es in einigen Counties gar keine gut verdienende Personen gibt, dann gibt es keine Möglichkeit für mich, der dort lebt, Freunde aus einem hohen Einkommensdezil zu haben.
Um sich einen Überblick über die Exposition in den einzelnen Counties zu verschaffen sollten Sie im ersten Schritt die Verteilung der Exposition über die Counties hinweg auf einer Karte der USA zeigen.
Beschreiben Sie ihre Karte und vergleichen diese mit der Karte aus Aufgabe 7. Was fällt Ihnen auf? Trifft die Annahme bzgl. der Exposition zu?
Beschreibung der Karte
Die dargestellte Karte zeigt die Verteilung der Exposition
(exposure_grp_mem_county) in den Counties der USA, wobei
die Exposition als Maß für die Anzahl gut verdienender Personen in jedem
County definiert ist. Die Karte verwendet eine Farbskala, um die
Counties entsprechend ihrer Expositionswerte zu kennzeichnen. Counties
mit höherer Exposition erscheinen in gelblichen Farben, während Counties
mit niedrigerer Exposition in dunkelblauen Tönen dargestellt werden.
Interpretation der Karte
Die Karte zeigt deutliche geografische Muster in der Verteilung der Exposition. Besonders in urbanen und wirtschaftlich wohlhabenden Regionen, wie New York City, und anderen großen Städten, sind hohe Expositionswerte zu finden. Diese Regionen sind typischerweise mit einer höheren Dichte wohlhabender Einwohner vernetzt. Counties, die in der Vergangenheit ökonomische Schwierigkeiten hatten, zeigen im Allgemeinen eine klare Abwesenheit von gut verdienenden Personen und damit eine niedrige Exposition. Diese Assoziation wirft Fragen nach der sozialen Mobilität und den Möglichkeiten für die Bevölkerung in diesen Regionen auf.
Vergleich mit Aufgabe 7
Im Vergleich zur Karte aus Aufgabe 7, die den Economic Connectedness Index darstellt, scheinen beide Karten ähnliche geografische Muster aufzuweisen. Counties, die stark im Economic Connectedness sind, tendieren dazu, ebenfalls höhere Expositionswerte anzuzeigen. Dies könnte darauf hindeuten, dass besser vernetzte Gemeinden tendenziell auch eine größere Anzahl gut verdienender Personen aufweisen. In ländlichen Gebieten oder sozial benachteiligten Regionen hingegen finden sich oft niedrigere Werte sowohl im Economic Connectedness Index als auch in der Exposition, was darauf hindeutet, dass dort weniger Chancen für soziale Vernetzung mit wohlhabenden Individuen bestehen.
Jedoch bedeutet eine hohe Exposition nicht gleich auch automatisch höhere soziale Vernetzung mit Personen aus hohen Einkommensdezilen. Falls Personen aus den jeweiligen Einkommensdezilen lieber unter sich bleiben möchten und keine Freundschaften zu Personen aus niedrigeren Einkommensdezilen pflegen, dann wird es ebenso schwer soziale Vernetzungen eine hohe wirtschaftliche Mobilität zu erreichen.
- Um zu untersuchen ob es eine entsprechende Segregation der
Freundschaftsgruppen gibt sollten Sie in dieser Aufgabe ein
Punktediagramm erzeugen, welche auf der x-Achse die Exposition
(
exposure_grp_mem_county) und auf der y-Achse den Freundschafts-Bias (bias_grp_mem_county) abträgt. Weiterhin sollten Sie die einzelnen Punkte in dem Punktediagramm nach der Stärke der sozialen Vernetzung einfärben. Heben Sie die Counties “San Francisco County, California” und “Bronx County, New York” in ihr Grafik explizit heraus (z.B. durch eine Beschriftung) und gehen Sie in ihrer Interpretation auf diese zwei Counties ein.
Beschreiben und interpretieren Sie ihre Grafik, gehen Sie dabei insbesondere auf folgende Fragen ein:
- Welchen Einfluss haben die Faktoren Freundschafts-Bias und Exposition auf die soziale Vernetzung (den Economic Connectedness Index)?
Beschreibung
Die Grafik zeigt den Zusammenhang zwischen der Exposition und dem
Freundschafts-Bias für verschiedene Counties. Die Datenpunkte sind nach
der Stärke der sozialen Vernetzung eingefärbt, wobei gelbe Farben auf
eine stärkere Vernetzung hinweisen. Zusätzlich sind die Counties
San Francisco County, California und
Bronx County, New York explizit hervorgehoben.
Interpretation: Welchen Einfluss haben die Faktoren Freundschafts-Bias und Exposition auf die soziale Vernetzung?
Es lässt sich erkennen, dass die Datenpunkte sehr breit gestreut sind. Das deutet auf eine sehr geringe Korrelation zwischen der Exposition und dem Freundschafts-Bias hin. Trotzdem ist ein leicht negativer Zusammenhang zu erkennen. Das deutet tatsächlich darauf hin, dass je höher die Exposition ist, desto geringer der Freundschafts-Bias. Das bedeutet, dass Personen mit höherem Einkommen tendenziell eher weniger Freundschaften mit Personen aus anderen Gruppen eingehen. Allerdings ist der Effekt nicht so stark wie vielleicht erwartet, was an den vielen Ausreißern liegen könnte. So gibt es Counties, welche eine hohe Exposition und einen hohen Freundschafts-Bias haben. Was sich gut in der Grafik erkennen lässt ist der starke Zusammenhang zwischen der Exposition und der sozialen Vernetzung. Je höher also das Einkommen einzelner Personen ist, desto besser ist die soziale Vernetzung, was zeigt, dass eine hohe Expostition als Grundlage dient, um soziale Vernetzung möglich zu machen. Der Freundschafts-Bias hat hingegen einen geringeren Einfluss auf die soziale Vernetzung. Es lässt sich ein leicht negativer Zusammenhang erkennen, also je geringer der Freundschafts-Bias, desto höher die soziale Vernetzung. Dies zeigt, dass der reine Kontakt zu Menschen aus anderen Gruppen nicht ausreicht, um eine gute soziale Vernetzung zu haben.
San Fransisco County liegt im Bereich hoher Exposition und eines hohen EC Index. Das könnte daran liegen, dass die hohe Bildungsdichte und kulturelle Offenheit Freundschaften über sozioökonomische Grenzen hinweg fördern. Außerdem bieten städtische Strukturen mehr Möglichkeiten für gemeinsame soziale Interaktionen. Bronx County liegt hingegen sehr mittig in der Grafik. Räumliche und soziale Segregation könnten dazu führen, dass Menschen aus unterschiedlichen sozioökonomischen Schichten selten Freundschaften schließen. Historisch gewachsene Einkommensungleichheiten und kulturelle Barrieren verstärken den Bias.
- Welche (politischen) Maßnahmen könnten dazu beitragen, die soziale Vernetzung und damit die wirtschaftlichen Chancen in benachteiligten Regionen zu verbessern? Diskutieren Sie auf Basis ihrer Ergebnisse aus den Aufgaben 14 und 15.
Wie wir in vorherigen Aufgaben gesehen haben ist eine hohe Exposition eine wichtige Voraussetzung für eine starke soziale Vernetzung. Daher könnte ein wichtiger Ansatz sein, die Exposition möglichst hoch zu halten. Eine Möglichkeit wäre räumliche Segregation zu reduzieren in dem man sozial Wohnungen auch in wohlhabenderen Gegenden baut, um eine stärkere Durchmischung der Gruppen zu erzeugen. Außerdem könnten Mieten begrenzt werden um einkommensschwächere Haushalte in Stadtzentren zu halten.
Eine weitere Maßnahme könnten gemeinsame Bildungsräume sein. Es könnten Schulen gefördert werden mit gemischten sozioökonomischen Hintergründen, z.B. durch Schulzuweisungen bei denen Kinder verschiedener Gruppen auf eine Schule kommen. Außerdem könnten Förderprogramme und Stipendien Kindern aus einkommensschwachen Haushalten die Möglichkeit geben besser ausgestattete Schulen zu besuchen. Außerdem könnte der Ausbau von öffentlichen Räumen, wie Parks und Gemeindezentren, die Menschen aus unterschiedlichen sozioökonomischer Gruppen zusammenbringen.
Eine weitere wichtige Erkenntnis aus den vorherigen Aufgaben ist, dass ein hoher Freundschafts-Bias trotz hoher Exposition die soziale Vernetzung erschwert. Daher ist es wichtig diesen sehr gering zu halten und soziale und kulturelle Barrieren abzubauen. Soziale Interaktionsprogramme könnten dabei helfen, indem sie Menschen aus unterschiedlichen Gruppen zusammenbringen. In der Realität könnte sich das aber auch als schwierig darstellen, da solche oft freiwilligen Programme meist nur einseitig genutzt werden. Der beste Weg geht auch hier wieder über die Bildung, da Kinder oft zugänglicher für solche Programme sind, in denen dann Vorurteile und Stereotypen abgebaut werden können und eine stärkere Durchmischung stattfindet. Aber auch die vermehrte Organisation von kulturellen Aktivitäten, wie Festivals oder Sportveranstaltungen, könnten die Begegnungen verschiedener Gruppen fördern.
Ein weiterer wichtiger Punkt ist die Unterstützung wirtschaftlicher Integration, da Regionen mit höherer sozialer Vernetzung eine höhere wirtschaftliche Mobilität aufweisen. Eine Möglichkeit wäre qualifizierte Arbeitsplätze in benachteiligten Regionen zu schaffen, so dass diese Bevölkerungsgruppen auch die Chance auf einen guten Arbeitsplatz haben. Dies könnte z.B. durch Steuervergünstigungen für Unternehmen, die dort investieren, erreicht werden. Außerdem könnten auch staatlich geförderte Fortbildungsprogramme solchen Menschen helfen, da sie wichtige und nützliche Fähigkeiten erlernen, wodurch sich ihnen Jobaufstiege ermöglichen.
Zusatzaufgabe
- Laden Sie die Daten zur Economic Connectedness, dem Freundschafts-Bias und der Exposition auf College Ebene von der folgenden URL herunter und lesen Sie diese Daten in R ein:
Hier können Sie die Daten auf College Ebene herunterladen
- Laden Sie Kartendaten auf ZIP-Code Ebene mit einer API von IPUMS herunter. Am einfachsten
funktioniert dies mit dem R Paket tidycensus. Für
den API Zugang müssen Sie sich erst bei IPUMS registrieren und können
danach einen API Key beantragen, welchen Sie dann für den Daten download
über das
tidycencusPaket hinterlegen müssen.
Hinweis: Der Download von Shape-File Daten wird in der Vignette des R Pakets tidycensus sehr gut beschrieben. Dieser Issue auf GitHub ist nützlich um zu erfahren, wie Sie ZIP-Code Daten herunterladen können.
- Stellen Sie den Economic Connectedness Index des Colleges
(
ec_own_ses_college) auf ZIP-Code Ebene in einer US-Karte dar. Machen Sie ihre Karte interaktiv mit dem Paketleaflet.