Motivation

In diesem Projekt untersuchen Sie, wie soziale Netzwerke – insbesondere Freundschaften – wirtschaftliche Chancen und sozialen Aufstieg beeinflussen. Dabei greifen Sie auf einen Datensatz von 70,3 Millionen Facebook Nutzern zurück, um das Konzept des Sozialkapitals besser zu verstehen. Ihr Ziel ist es, zu analysieren, wie stark Menschen aus unterschiedlichen sozioökonomischen Hintergründen miteinander vernetzt sind und welche Auswirkungen dies auf die wirtschaftliche Mobilität hat.

Fokus der Analyse
Das Projekt konzentriert sich auf zwei zentrale Aspekte sozialer Vernetzung:

Exposition: In welchem Ausmaß kommen Menschen aus verschiedenen sozialen Schichten überhaupt in Kontakt?
Freundschafts-Bias: Wenn Menschen die Möglichkeit haben, sich mit Personen aus anderen sozialen Schichten anzufreunden – nutzen sie diese Chance auch? Oder bleiben sie lieber in ihrer vertrauten sozialen Umgebung?

Warum ist das relevant?
Eine zentrale Fragestellung des Projekts ist es, zu untersuchen, ob und in welchem Ausmaß soziale Netzwerke – insbesondere Freundschaften – zu wirtschaftlicher Mobilität beitragen. Frühere Studien deuten darauf hin, dass ein Mangel an sozialer Interaktion über Klassengrenzen hinweg mit geringeren Aufstiegschancen verbunden ist. Menschen, die stärker über soziale Schichten hinweg vernetzt sind, profitieren tendenziell von besseren wirtschaftlichen Perspektiven.

Doch der genaue Zusammenhang zwischen Sozialkapital und wirtschaftlicher Mobilität ist bisher nur teilweise verstanden. Ihr Projekt hat daher das Ziel, diesen Zusammenhang empirisch zu untersuchen und offenzulegen. Sie analysieren, inwiefern unterschiedliche Formen sozialer Vernetzung Chancen auf sozialen Aufstieg beeinflussen – oder behindern.

Datengrundlage

Für Ihre Analyse verwenden Sie reale Daten des Social Capital Atlas (https://www.socialcapital.org). Ihr Ziel ist es, herauszufinden:

Wie stark beeinflussen soziale Netzwerke die wirtschaftliche Mobilität?
Welche Faktoren tragen zur sozialen Ungleichheit bei?
Welche Maßnahmen könnten die Vernetzung über sozioökonomische Grenzen hinweg fördern?

Durch Ihre eigene Analyse decken Sie nicht nur bestehende Muster auf, sondern tragen auch dazu bei, neue Erkenntnisse darüber zu gewinnen, wie soziale Netzwerke Chancen für wirtschaftlichen Aufstieg verbessern können.

Einlesen

Dieses Projekt basiert auf öffentlich zugänglichen Facebook-Daten, welche die soziale Vernetzung auf County Ebene messen. Die zugrunde liegende Datenquelle wurde in den Studien von Chetty et al. (2022a, 2022b) detailliert beschrieben und liefert wichtige Einblicke in die soziale Vernetzung über sozioökonomische Grenzen hinweg. Für Ihre Analyse stellen wir Ihnen diesen Datensatz zur Verfügung.

Lesen Sie den Datensatz social_capital_county.rds aus dem Unterordner “Daten” in R ein und nennen diesen Datensatz social_capital_county. Dieser Datensatz beinhaltet Variablen, welche von Facebook stammen und die Freundschaftsverbindungen einzelner Personen untereinander (aggregiert auf County-Ebene) darstellen.

Schränken Sie ihren Datensatz auf folgende Variablen ein:

county
ec_county
exposure_gpr_mem_county
bias_grp_mem_county
pop2018

Bitte beschreiben Sie die Variablen, nutzen Sie dafür die bereitgestellte Datei “social_capital_codebook.pdf”.

Beantworten Sie auch folgende Fragen:

Was ist eine Beobachtung?
Wie viele Counties sind in diesem Datensatz vorhanden? Wie viele Counties hat die USA?
In wie viel Prozent der Fälle haben Sie Informationen zu allen Variablen einer Beobachtung in dem vorliegenden Datensatz?

Datensatz `social_capital_county` nach Filtern für gewünschte Variablen (Erste fünf Einträge)
county	ec_county	exposure_grp_mem_county	bias_grp_mem_county	pop2018
1001	0.72	0.82	0.06	55200
1003	0.74	0.79	0.03	208107
1005	0.41	0.42	0.13	25782
1007	0.63	0.71	0.04	22527
1009	0.73	0.80	0.00	57645

Analyse der Counties im Datensatz und in den USA
Kategorie	Wert
Anzahl der Counties im Datensatz	3089
Anzahl der Counties in den USA	3142
Prozentsatz der vollständigen Beobachtungen	95.14 %

county
Diese Variable beinhaltet die Federal Information Processing Standard Publication 6-4 (FIPS-Countycode). Dies ist ein vier bis sechsstelliger Federal Information Processing Standard Code, welcher Countys in den USA eindeutigt identifiziert. Dies gibt in der Tabelle die Anzahl der unterschiedlichen Counties an, die im Datensatz covariates vorhanden sind. Der Wert von 3227 deutet darauf hin, dass der Datensatz Umfassendes von den Counties in den USA abbildet

ec_county
Diese Variable beschreibt die wirtschaftliche Verbundenheit, welche angibt wie stark Personen mit niedrigem sozioökonomischen Status (SES) mit Personen mit hohem SES in einem Landkreis vernetzt sind. Konkret wird dies folgendermaßen berechnet:

Berechnung der Verbundenheit:
Man betrachtet den Anteil der Freunde mit hohem SES, die Personen mit niedrigem SES haben. Dieser Anteil wird verdoppelt, um die “Baseline-Verbundenheit” zu erhalten. Anschließend wird dieser Wert über alle Personen mit niedrigem SES im Landkreis gemittelt.
Sozioökonomischer Status (SES):
Der SES wird nach einer spezifischen Methode berechnet, die in den Zusatzinformationen (Anhang B.1) der Studie von Chetty et al. (2022a) beschrieben ist. Dabei werden wahrscheinlich Faktoren wie Einkommen, Bildung und Beruf berücksichtigt.
Datenschutz:
Um die Privatsphäre der Personen zu schützen, wird den Daten gezielt “Rauschen” hinzugefügt. Das bedeutet, dass kleine, zufällige Abweichungen eingeführt werden, um die Identifizierung einzelner Personen zu erschweren.

exposure_gpr_mem_county
Diese Variable beschreibt, wie stark Personen mit niedrigem sozioökonomischen Status (SES) in einem Landkreis durchschnittlich mit Personen mit hohem SES in Kontakt kommen. Hier ist eine detaillierte Mediation des Konzepts:

Definition der “Exposure” (Kontakt): Es wird gemessen, wie häufig Personen mit niedrigem SES in ihrem sozialen Umfeld (z. B. Freundeskreis, Gemeinschaft) auf Personen mit hohem SES treffen. Konkret wird dies folgendermaßen berechnet:

-Man betrachtet den Anteil der Personen mit hohem SES in den sozialen Gruppen von Personen mit niedrigem SES.

-Dieser Anteil wird verdoppelt, um die “Exposure” zu berechnen.

-Anschließend wird dieser Wert über alle Personen mit niedrigem SES im Landkreis gemittelt.

Gruppenzuordnung:
Die sozialen Gruppen, in denen diese Interaktionen stattfinden, werden basierend auf den Einstellungen und Verbindungen von Facebook-Nutzern definiert.

bias_grp_mem_county
Diese Variable beschreibt, wie stark die Tendenz von Personen mit niedrigem sozioökonomischen Status (SES) ist, innerhalb ihrer eigenen sozialen Gruppe Freundschaften zu schließen, anstatt mit Personen aus anderen Gruppen (z. B. mit hohem SES). Dieses Konzept wird als “Friending Bias” bezeichnet.

pop2018
Diese Variable beschreibt die Einwohnerzahl eines Landkreises im Jahr 2018.

Was ist eine Beobachtung?
Eine Beobachtung in der Tabelle ist eine vollständige Zeile, die alle relevanten Informationen für ein einzelnes County enthält. Jede Beobachtung umfasst Daten zu einem County, einschließlich der Spalten county, ec_county, exposure_gpr_mem_county, bias_grp_mem_county, pop2018.

Wie viele Counties sind in diesem Datensatz vorhanden? Wie viele Counties hat die USA?
Im Datensatz sind 3089 Counties vorhanden. Die USA hat insgesamt 3142 Counties.

In wie viel Prozent der Fälle haben Sie Informationen zu allen Variablen einer Beobachtung in dem vorliegenden Datensatz?
In 95.14% Prozent der Fälle sind Informationen zu allen Variablen einer Beobachtung vorliegend. Dies kann berechnet werden, indem man die Anzahl der vollständigen Zeilen (d.h. ohne fehlende Werte) durch die Gesamtanzahl der Zeilen teilt.

Weiterhin haben wir Ihnen den Datensatz county_covariates.dta im Unterordner “Daten” bereitgestellt, welcher unter anderem Daten aus dem Opportunity Atlas enthält und in Chetty et al. (2018) vorgestellt wird. Lesen Sie diese Daten in R ein und nennen Sie ihn covariates.

Schränken Sie diesen Datensatz auf die folgenden Variablen ein:

county
kfr_pooled_pooled_p25
gini99_simple

Generieren Sie eine neue Variable upward_mobility als kfr_pooled_pooled_p25*100. Löschen Sie weiterhin die Variable kfr_pooled_pooled_p25.

Bitte beschreiben Sie die Variablen in ihrem Datensatz, nutzen Sie dafür die bereitgestellte Datei “replication_package_README.pdf”.

Hinweis: Mit dem haven Paket können Sie .dta Dateien einlesen

Datensatz `covariates` nach Filtern für gewünschte Variablen (Erste fünf Einträge)
county	kfr_pooled_pooled_p25	gini99_simple
1001	0.3616662	0.31916
1003	0.3888471	0.36382
1005	0.3493856	0.39427
1007	0.3633907	0.35154
1009	0.3918788	0.27086

Datensatz `covariates` nach Anpassen der Variabel `kfr_pooled_pooled_p25` zu `upward_mobility` (Erste fünf Einträge)
county	gini99_simple	upward_mobility
1001	0.32	36.17
1003	0.36	38.88
1005	0.39	34.94
1007	0.35	36.34
1009	0.27	39.19

Zusammenfassung der Analyse des Datensatzes
Kategorie	Wert
Anzahl_Counties	3227%
Durchschnitt_Gini	0.29
Durchschnitt_Aufwärtsmobilität	42.72%

upward_mobility
Diese Variable beschreibt das durchschnittliche Einkommen im Erwachsenenalter eines Kindes, das in eine Familie geboren wurde, deren Einkommen im 25. Perzentil der Einkommensverteilung liegt. Ursprünglich kfrpooledpooledp25, wurde diese Variable hier in upwardmobility umbenannt und als wirtschaftliche Mobilitätsmetrik skaliert. Sie wird berechnet, indem der ursprüngliche Wert mit 100 multipliziert wird. Diese Variable reflektiert die wirtschaftlichen Aufstiegsmöglichkeiten der Bevölkerung eines Countys und gibt an, in welchem Maße jüngere Generationen mobil sind oder wirtschaftlichen Fortschritt im Vergleich zu ihren Eltern zeigen können.Dieser Wert zeigt an, dass in den betrachteten Counties im Durchschnitt Personen einen Aufstieg von etwa 42.72% im Einkommensspektrum schaffen können, was im Kontext bedeutet, dass viele Bewohner in ihrer Lebenszeit in eine höhere Einkommensklasse aufsteigen.

gini99_simple
Der Gini-Koeffizient misst die Einkommensungleichheit. Im Durchschnitt liegt dieser Wert für die Counties im Datensatz bei 0,29. Dies bedeutet, dass im Durchschnitt eine moderate Einkommensungleichheit in den sichtbaren Regionen besteht. Ein Wert von 0 impliziert vollständige Einkommensgleichheit, während ein Wert von 1 auf extreme Ungleichheit hinweist.

Um Karten wie bspw. in der Case Study zu erstellen, benötigen Sie Kartendaten in Form von Shapefiles (Endung .shp). In einer späteren Analyse sollen Sie die soziale Vernetzung und andere Variablen zwischen den Counties mittels einer Karte visualisieren. Hierzu benötigen Sie jedoch erst die nötigen Shapefiles, welche wir Ihnen im Unterordner “Daten” bereitgestellt haben (County_census_data.shp). Diese Daten haben wir mittels des Pakets tidycensus direkt von der amerikanischen Statistikbehörde IPUMS heruntergeladen. Neben den Geografischen Informationen der Counties sind auch noch weitere Daten enthalten.

Lesen sie die Daten County_census_data.shp in R ein und speichern diesen in R als county_census_shape ab. Neben den County Namen und und Polygonen enthält dieser Datensatz auch das geschätzte Median Einkommen pro County für das Jahr 2023 (medincE).

Hinweis: Achten Sie darauf eine numerische county Variable aus GEOID zu generieren

Datensatz `county_census_shape` nach Einlesen (Erste fünf Einträge)
GEOID	NAME	medincE	geometry
01003	Baldwin County, Alabama	75019	MULTIPOLYGON (((-88.02858 3…
01069	Houston County, Alabama	57531	MULTIPOLYGON (((-85.71209 3…
01005	Barbour County, Alabama	44290	MULTIPOLYGON (((-85.74803 3…
01119	Sumter County, Alabama	37981	MULTIPOLYGON (((-88.41492 3…
05091	Miller County, Arkansas	49983	MULTIPOLYGON (((-94.04343 3…

Datensatz `county_census_shape` nach Erweitern mit numerischer Variablen für `GEOID` (Erste fünf Einträge)
GEOID	NAME	medincE	geometry	county
01003	Baldwin County, Alabama	75019	MULTIPOLYGON (((-88.02858 3…	1003
01069	Houston County, Alabama	57531	MULTIPOLYGON (((-85.71209 3…	1069
01005	Barbour County, Alabama	44290	MULTIPOLYGON (((-85.74803 3…	1005
01119	Sumter County, Alabama	37981	MULTIPOLYGON (((-88.41492 3…	1119
05091	Miller County, Arkansas	49983	MULTIPOLYGON (((-94.04343 3…	5091

Verbinden Sie die Dataframes county_census_shape, covariates und social_capital_county zu einem Datensatz analysis_data.

Welche Art von Join sollten sie hierbei verwenden? Warum gerade diesen Join?
Welcher Datensatz sollte der Hauptdatensatz sein? Warum?

Welche Art von Join sollten sie hierbei verwenden? Warum gerade diesen Join?
Man sollte einen left Join verwenden. Da man so sichher gehen kann dass der Hauptdatensatz (county_census_shape) vollständig bleibt und die Daten aus den anderen Tabellen werden passend hinzugefügt. So geht man also sicher, dass alle Counties im finalen Datensatz enhalten sind, auch wenn zu ihnen gegebenenfalls keine Daten aus den Datensätzen covariates und social_capital_county bestehen.

Welcher Datensatz sollte der Hauptdatensatz sein? Warum?
county_census_shape sollte der Hauptdatensatz sein. Da dieser Datensatz die demografischen Grunddaten von allen Counties enthält. Die anderen beiden Datensätze decken möglicherweise nicht alle Counties ab.

Folgende Variablen werden Sie in diesem Projekt hauptsächlich nutzen:

upward_mobility
ec_county
exposure_gpr_mem_county
bias_grp_mem_county

Bevor Sie eine Analyse tätigen, sollten Sie sich überlegen, welche Erwartungen bzgl. der Zusammenhänge innerhalb der einzelnen Variablen Sie haben. Gehen Sie dabei auf folgende Fragen ein:

Was genau misst die wirtschaftliche Mobilität (upward_mobility) und die soziale Vernetzung (ec_county)? Warum sollte ein hoher Wert der sozialen Vernetzung auch potentiell gute ökonomische Aufstiegschancen, d.h. eine hohe wirtschaftliche Mobilität, mit sich bringen? Begründen Sie und benennen Sie explizit die Annahmen, die ihrer Begründung zugrunde liegen.
Bitte schauen Sie sich an, wie die sozialen Vernetzung (ec_county) berechnet wird. Was würden Sie erwarten, wie die Exposition (exposure_gpr_mem_county) und der Freundschafts-Bias (bias_grp_mem_county) die sozialen Vernetzung (ec_county) beeinflusst? Begründen Sie und benennen Sie explizit die Annahmen, die ihrer Begründung zugrunde liegen.

Hinweis: Die genaue Berechnung der sozialen Vernetzung (ec_county) finden Sie im Dokument “social_capital_codebook.pdf”

Wirtschaftliche Mobilität
Wirtschaftliche Mobilität, beschreibt die Fähigkeit von Individuen oder Haushalten, ihren ökonomischen Status im Laufe der Zeit zu verbessern. In Studien wie denen von Chetty et al. wird dies oft anhand der Veränderung des Einkommens oder der sozialen Schichtstellung gemessen, oft verglichen zwischen Generationen (intergenerationelle Mobilität). Ein typisches Maß könnte sein, wie wahrscheinlich es ist, dass Kinder aus einkommensschwachen Familien im Erwachsenenalter höhere Einkommen erreichen als ihre Eltern.

Soziale Vernetzung
Die soziale Vernetzung, bezieht sich auf die Intensität und Qualität der sozialen Interaktionen und Verbindungen innerhalb einer bestimmten geographischen Einheit, in diesem Fall einem County. Diese Vernetzung umfasst Freundschaften und Bekanntschaften innerhalb und über sozioökonomische Grenzen hinweg. Es handelt sich um eine Art von Sozialkapital, die aufzeigt, wie Menschen innerhalb einer Gemeinschaft vernetzt sind.

Warum sollte ein hoher Wert der sozialen Vernetzung auch potentiell gute ökonomische Aufstiegschancen, d.h. eine hohe wirtschaftliche Mobilität, mit sich bringen?
Es gibt mehrere Annahmen die dafür sprechen, dass ein hoher Wert der sozialen Vernetzung auch potentiell gute öknomische Aufstiegschancen mit sich bringen.

Menschen mit einer stärkeren sozialen Vernetzung haben einen besseren Zugang zu Informationen über Bildungsmöglichkeiten, Jobs oder wirtschaftliche Chancen und können voneinander lernen.
Menschen mit einer stärkeren sozialen Vernetzung haben Zugang zu sonst unzugänglichen Ressourcen, diese Ressourcen können Wssen, fianzielle Unterstütung oder andere Mittel sein.
Menschen mit einer stärkeren sozialen Vernetzung können durch diese Zugang zu Mentoren oder Vorbilder erlangen, diese können sie insipirieren und praktisch Unterstützen.
Menschen mit einer stärkeren sozialen Vernetzung können durch Normen und Erwartungen dieser Netzwerke positiv beeinflusst und motiviert werden.

Inwiefer beeinflusst die Exposition (exposure_gpr_mem_county) die sozialen Vernetzung (ec_county)?

Die Exposition (exposure_gpr_mem_county) misst den Umfang der Kontaktmöglichkeiten zwischen Individuen mit niedrigem sozioökonomischen Status (Low-SES) und jenen mit hohem sozioökonomischen Status (High-SES) innerhalb eines bestimmten Countys. Eine höhere Exposition bedeutet mehr potenzielle Gelegenheiten für Low-SES-Individuen, auf High-SES-Individuen zu treffen und mit ihnen zu interagieren. Daher erwarte ich, dass eine erhöhte Exposition positiv mit der sozialen Vernetzung (ec_county) korreliert ist. Diese Annahme basiert darauf, dass mehr soziale Kontakte die Wahrscheinlichkeit erhöhen, dass Beziehungen und Freundschaften über sozioökonomische Grenzen hinweg entstehen.

Inwiefer beeinflusst der Freundschafts-Bias (bias_grp_mem_county) die sozialen Vernetzung (ec_county)?

Der Freundschafts-Bias (bias_grp_mem_county) zeigt die Neigung von Individuen, bevorzugt Freundschaften innerhalb ihrer eigenen sozioökonomischen Schicht zu pflegen, obwohl Expositionsmöglichkeiten über diese hinaus bestehen. Ein hoher Freundschafts-Bias impliziert, dass, trotz vorhandener Möglichkeiten, die Bildung interschichtlicher Freundschaften selten ist. Daher erwarte ich, dass ein stärkerer Freundschafts-Bias negativ mit der sozialen Vernetzung (ec_county) korreliert ist. Diese Annahme gründet sich auf die Hypothese, dass wenn Individuen ihre sozialen Kontakte primär innerhalb der eigenen Gruppe halten, weniger Brücken zwischen unterschiedlichen sozioökonomischen Gruppen entstehen, was die interschichtliche Vernetzung und damit die wirtschaftlichen Chancen beschränkt.

Deskriptive Analysen

Nun haben Sie alle Daten zusammen, die Sie für die Analyse der soziodemographischen Zusammenhänge innerhalb der einzelnen Counties benötigen und können in ihre Analysen einsteigen.

Schauen Sie sich in einem ersten Schritt an, wie die Variablen im Datensatz analysis_data über alle Counties verteilt sind. Konkret sollten Sie eine Tabelle erstellen, welche Informationen zu allen numerischen Variablen in ihrem Datensatz darstellt. Berechnen Sie zu jeder Variablen den Mittelwert, den Median, das Minimum, das Maximum, die Standardabweichung, sowie das 25%- und das 75%- Quantil bezogen auf alle Counties.

Beschreiben und interpretieren Sie Ihre Tabelle.

Bei welchen Variablen gibt es Auffälligkeiten? Gibt es Ausreißer nach oben oder unten?

Hinweis: Achten Sie auf eine schöne Darstellung ihrer Tabelle mittels der Pakete kableExtra oder gt!

Zusammenfassung der numerischen Variablen in den Counties
Variable	mittelwert	median	minimum	maximum	standardabweichung	q25	q75
bias_grp_mem_county	0.06	0.06	-0.11	0.33	0.05	0.03	0.10
county	31377.89	30022.00	1001.00	72153.00	16299.55	19029.50	46104.50
ec_county	0.81	0.81	0.29	1.36	0.18	0.69	0.94
exposure_grp_mem_county	0.91	0.91	0.26	1.49	0.21	0.76	1.05
gini99_simple	0.29	0.29	-0.06	0.57	0.06	0.24	0.33
medincE	65046.65	63161.50	16170.00	178707.00	18388.68	54113.25	73216.25
pop2018	107129.87	27837.50	544.00	10098052.00	337331.88	12618.75	71974.50
upward_mobility	42.72	41.96	12.22	68.83	6.49	38.43	46.11

Beschreibung
Die vorliegende Tabelle zeigt eine große Anzahl an Variablen. Für jede dieser Variablen wird der Mittelwert, der Median, das Minimum, das Maximum, die Standardabweichung, sowie das 25%- und das 75%- Quantil bezogen auf alle Counties angegeben. Dabei ist der Mittelwert der Durchschnittswert aller Beobachtungen einer Variablen. Er wird berechnet, indem man alle Werte addiert und durch die Anzahl der Beobachtungen teilt. Der Median ist der mittlere Wert einer geordneten Datenmenge. Wenn es eine ungerade Anzahl von Beobachtungen gibt, nimmt der Median den mittleren Wert an. Bei einer geraden Anzahl wird er als der Durchschnitt der beiden mittleren Werte berechnet. Der Median ist resistent gegenüber Ausreißern und bietet eine alternative Beschreibung der zentralen Tendenz. Minimum ist der kleinste Wert in der Datenmenge. Es zeigt den kleinsten beobachteten Wert einer bestimmten Variablen. Maximum ist der größte Wert in der Datenmenge. Es zeigt den größten beobachteten Wert einer bestimmten Variablen. Die Standardabweichung ist ein Maß für die Streuung oder Variabilität der Daten. Eine kleine Standardabweichung bedeutet, dass die Werte nahe am Mittelwert liegen, während eine große Abweichung auf eine breitere Streuung hinweist. Q25 ist der Wert, unterhalb dessen 25% der Daten liegen. Es bietet einen Überblick darüber, wie niedrig der untere Teil der Verteilung ist. Q75 ist der Wert, unterhalb dessen 75% der Daten liegen. Es gibt Auskunft über den oberen Teil der Verteilung.

Interpretation
Die vorliegende Tabelle zeigt eine große Anzahl an Variablen. Für jede dieser Variablen wird der Mittelwert, der Median, das Minimum, das Maximum, die Standardabweichung, sowie das 25%- und das 75%- Quantil bezogen auf alle Counties angegeben. Dies ermöglicht eine detaillierte Analyse der Variabilität und Ausreißer innerhalb der Daten.Die meisten Variablen zeigen einen engen Wertebereich mit geringen Standardabweichungen, was darauf hindeutet, dass sie in den meisten Counties ähnlich verteilt sind. Es gibt aber paar Variablen, die deutliche Ausreißer sind. Deutliche Ausreißer nach oben sind zum Beispiel pop2018, num_belov_p50 und medincE.

Ausreißer in pop 2018
Die Extremwerte (Max : 10,098,052) deuten auf stark bevölkerungsreiche Counties hin. Damit sind große Städte gemeint, die eine höhere Bevölkerungsdichte haben als ländliche Counties. Viele Menschen ziehen in die Stadt wegen besseren wirtschaftlichen Möglichkeiten. Städte bieten eine Vielzahl von Vereinen, Organisationen,… wo Menschen sich sozialisieren können. Aufgrund der großen Auswahl sind in großen Counties die Netzwerke weniger miteinander verbunden. Hingegen zu kleineren Counties, wo die Netzwerke oft enger und persönlicher sind, da die Gemeinschaften stärker verbunden sind.
Ausreißer in num_below_p50
Ein Maximum von 1,576,717 deutet auf Counties mit ungewöhnlich vielen Haushalten unterhalb der 50%Einkommensmarke hin. Diese Counties liegen meist in strukturschwächeren Regionen oder Gebieten mit hoher Arbeitslosigkeit. Da diese Counties weiter entfernt sind, sind sie isoliert von den anderen Counties. Zusätzlich spielt das Einkommen eine Rolle, da sich die Counties vieles net leisten können (Vereine betreten) und daher selten andere Kontakte knüpfen. Sie helfen sich in der Gemeinde einander aus, was zu starken persönlichen Netzwerken in der Gemeinde führt.
Ausreißer in medincE
Das Max von 178,707 deutet auf einige Counties mit außergewöhnlich hohem mittleren Einkommen. Diese Counties findet man häufig in wohlhabenden Städten wie zum Beispiel Regionen mit technologischer Innovation(z.B. Kalifornien). Da die Menschen in den Counties gut verdienen, bleibt ihnen Geld übrig was sie an Freizeitaktivitäten verbrauchen können. Zum Beispiel verwenden sie das Geld für soziale und kulturelle Organisationen, was Menschen miteinander verbindet.Es gibt auch Ausreißer nach unten wie zum Beispiel bei volunteering_rate_county. Der niedrigste Wert von ein Prozent zeigt, dass da fast kein ehrenamtliches Engagement stattfindet. Das bedeutet kaum Sozialisation in diesen Counties zwischen den gesellschaftlichen Schichten. Gründe dafür könnten sein, dass die Menschen selbst wenig Geld haben oder sich selbst isolieren.Zusammenfassend deuten die Ausreißer darauf, das soziale Vernetzung durch Faktoren wie Bevölkerungsdichte, Einkommensniveau und sozialer Mobilität beeinflusst wird.

Soziale Vernetzung und wirtschaftliche Mobilität

Ihre Analyse der Daten aus Aufgabe 6 gibt ihnen schon ein erstes Bild über die Verteilung der einzelnen Variablen. Jedoch sollten Sie für ihre Analyse näheres über die soziale Vernetzung lernen, den Economic Connectedness Index (ec_county), welcher aus den Facebook Freundschaften generiert wurde. Die Daten des Economic Connectedness Index wurden auf County Ebene aggregiert, beruhen jedoch auf Freundschaftsdaten von individuellen Facebook Nutzern.

Um sich ein Bild der sozialen Vernetzung auf County Ebene machen zu können, sollten Sie diese in einer Karte der USA darstellen. Beschreiben und interpretieren Sie die gezeigte Karte.

Gehen Sie bei ihrer Interpretation auch auf folgende Frage ein:

Welche Annahme müssen Sie machen, damit Sie gültige Aussagen zum Einfluss des Economic Connectedness Index auf die wirtschaftliche Mobilität tätigen können und Sie tatsächlich etwas über Freundschaftsnetzwerke lernen können?

Hinweis: Wenn Sie Karten der USA darstellen, dann empfiehlt sich das tigris Paket und der Befehl shift_geometry() um Alaska, Hawaii und Puerto Rico schön darstellen zu lassen.

Beschreibung Die vorliegende Karte zeigt die USA aufgeteilt in ihre einzelne Counties. Die Counties sind entsprechend ihrer Economic Connectedness eingefärbt. Eine entsprechende Legende findet sich rechts der Karte. Bereiche für die keine Daten vorliegen sind hierbei grau gefärbt.
In weiten Teilen ist die Karte grünlich gefärbt. Ausnahmen hierzu findet man vorallem an der Ostküste, hier sind große Teile Blau bis Dunkelblau gefärbt. In der nördlichen Mitte sind die Färbungen hingegen vermehrt gelblich, mit vereinzelten blauen Counties. Vereinzelte Staaten sind grau gefärbt.

Interpretation
Die grauen Färbungen zeigen dass es für diese Counties keine Daten gibt.
Die blaue Färbung der Ostküste zeigt dass der Economic Connectedness Index hier relativ gering ist (0,75 und geringer).
In der nördlichen Mitte weist die gelbliche Färbung hingegen auf einen relativ hohen Economic Connectedness Index hin (1,00 und größer).

Um gültige Aussagen zum Einfluss des Economic Connectedness Index auf die wirtschaftliche Mobilität treffen zu können und tatsächlich etwas über Freundschaftsnetzwerke lernen zu können, müssen folgende Annahmen gemacht werden:

Kausalitätsannahme:
Es muss angenommen werden, dass zwischen der wirtschaftlichen Verbundenheit (Economic Connectedness, EC) und der wirtschaftlichen Mobilität eine kausale Beziehung besteht. Das bedeutet konkret, dass höhere EC-Werte zu einer stärkeren wirtschaftlichen Mobilität führen.
Repräsentativität der Freundschaftsnetzwerke:
Es wird angenommen, dass die gemessenen Freundschaftsnetzwerke tatsächlich repräsentativ für die sozialen Kontakte sind und deren Auswirkungen auf wirtschaftliche Chancen realistisch abbilden. Dies setzt voraus, dass die zugrunde liegenden Daten, aus denen die Freundschaftsnetzwerke abgeleitet werden (z. B. Social-Media-Daten), alle relevanten Beziehungen zwischen Personen erfassen. Wenn wichtige soziale Kontakte, wie familiäre Bindungen oder Beziehungen am Arbeitsplatz, in den Daten nicht abgebildet werden, könnte dies die Analyse verzerren. Darüber hinaus wird vorausgesetzt, dass die Freundschaften, die in sozialen Medien erfasst werden, tatsächlich einen Einfluss auf die wirtschaftliche Mobilität haben. Das bedeutet, dass diese Verbindungen genutzt werden können, um Zugang zu wichtigen Ressourcen wie Informationen, Jobmöglichkeiten oder Unterstützung in Karrierenetzwerken zu erhalten. Sollte es sich jedoch vorwiegend um oberflächliche oder inaktive Verbindungen handeln, die keine praktischen Auswirkungen auf die wirtschaftliche Mobilität haben, könnte dies die Gültigkeit der Ergebnisse infrage stellen.
Zeitliche Stabilität und Richtung der Effekte:
Es muss angenommen werden, dass die wirtschaftliche Verbundenheit (Economic Connectedness) die wirtschaftliche Mobilität beeinflusst und nicht umgekehrt. Das bedeutet, dass Freundschaftsnetzwerke als Treiber für wirtschaftliche Mobilität wirken und dazu beitragen, dass Personen mit niedrigem sozioökonomischen Status (low-SES) durch Kontakte zu Personen mit hohem sozioökonomischen Status (high-SES) bessere Chancen auf sozialen und wirtschaftlichen Aufstieg erhalten.
Exogenität der Economic Connectedness:
Es wird angenommen, dass die wirtschaftliche Verbundenheit (Economic Connectedness) nicht direkt durch die wirtschaftliche Mobilität innerhalb der betrachteten Region beeinflusst wird. Andernfalls könnte die Beziehung zwischen den beiden Variablen durch eine Rückkopplung verzerrt sein, was die kausale Interpretation erschwert.

Wie in der vorherigen Aufgabe zu sehen war, unterscheidet sich der Economic Connectedness Index in den einzelnen Counties doch deutlich voneinander. In einer ersten deskriptiven Analyse wäre es spannend zu sehen, ob der EC mit unterschiedlichen Variablen, welche den ökonomischen Aufstieg repräsentieren, zusammenhängt.

Hier sollen Sie in einem ersten Schritt die zehn Counties mit dem höchsten Economic Connectedness Index und die zehn Counties mit dem niedrigsten Economic Connectedness Index auflisten und folgende Variablen näher anschauen:

Median Haushaltseinkommen in dem County (medincE)
Wirtschaftliche Mobilität in dem County (upward_mobility)
Einkommensungleichheit in dem County (gemessen mit dem Gini-Koeffizient des Counties) (gini99_simple)

Erstellen Sie eine oder mehrere Tabelle um die Ergebnisse für die 20 Counties übersichtlich dazustellen.

Beschreiben und interpretieren Sie ihre Tabellen und gehen Sie auf die folgende Frage ein:

Haben Sie diese Unterschiede in den einzelnen Variablen erwartet? Begründen Sie warum, oder warum nicht.

Übersicht der Counties mit höchstem und niedrigstem Economic Connectedness Index
Rang	Landkreiscode	Wirtschaftl.Verbundenheit	MedianHaushaltseinkommen	Wirtschaftl.Mobilität	Einkommensungleichheit
Top 1	33015	1.36	113927	45.31	0.23
Top 2	49029	1.29	126092	54.12	0.15
Top 3	16065	1.28	58259	51.54	0.22
Top 4	51013	1.27	140160	46.28	0.39
Top 5	34037	1.26	114316	47.04	0.18
Top 6	27171	1.25	106666	49.54	0.18
Top 7	38045	1.24	70263	63.80	NA
Top 8	46107	1.24	71726	55.81	NA
Top 9	55089	1.24	96734	48.99	0.15
Top 10	19191	1.22	75652	56.28	0.22
Bottom 1	46121	0.29	39148	30.18	0.32
Bottom 2	46102	0.33	34769	24.84	NA
Bottom 3	13273	0.35	43812	31.17	0.36
Bottom 4	37155	0.36	40318	32.10	0.36
Bottom 5	45005	0.36	31603	31.40	0.33
Bottom 6	13099	0.38	53750	33.83	0.46
Bottom 7	45069	0.38	36293	32.82	0.31
Bottom 8	13081	0.39	42745	32.89	0.42
Bottom 9	13093	0.40	56545	33.50	0.39
Bottom 10	37165	0.40	43500	31.08	0.39

Beschreibung
Die vorliegende Tabelle zeigt die Top 10 und die Bottom 10 Counties der USA, gerankt nach dem Economic Connectedness Index. Für jeden dieser Counties wird neben dem Economic Connectedness Index auch der Median Haushaltseinkommen, die Wirtschaftliche Mobilität und die Einkommensungleichheit in dem County (gemessen mit dem Gini-Koeffizient) angegeben.
Bei dem Median Haushaltseinkommen ist zu erkennen dass er bei den Top 10 Counties tendenziell höher ist als bei den Bottom 10. Den höchsten Wert hierbei hat die Top 4 mit 140160 und den niedrigsten Wert hat die Bottom 4 mit 31603.
Bei der Wirtschaftlichen Mobilität ist ebenfalls ein ähnlicher Trend zu erkennen. Auch hier ist haben die Top 10 Counties einen tendenziell höheren Wert als die Bottom 10. Den höchsten Wert hat hier die Top 7 mit 63,80 und den niedrigsten hat die Bottom 1 mit 0,29.
Auch bei der Einkommensungleichheit ist ein Trend zu erkennen. Die Top 10 Counties haben hier tendenziell niedrigere Werte als die Bottom 10. Den niedrigsten hat hier die Top 2 mit 0.15 und den höchsten hat die Bottom 6 mit 0.64. Bei der Einkommensungleichheit ist zudem anzumerken dass es für die Top 7 und 8, sowie die Bottom 2 keine Daten gibt.

Interpretation
Counties mit hohem EC Index haben ein deutlich höheres medianes Haushaltseinkommen, während Counties mit niedrigen EC Index geringeres Einkommen aufweisen. Dies zeigt, dass in einkommensstarken Counties die soziale Vernetzung stärker ist. In den Top 10 Counties liegt die wirtschaftliche Mobilität häufig über 45, während in den Bottom 10 Counties die wirtschaftliche Mobilität unter 10 liegt. Das bedeutet, dass ein hoher EC Index mit besserer wirtschaftlicher Mobilität korreliert. In den Top Counties liegen die Gini-Werte meist unter 0,25, was auf geringere Einkommensungleichheit hinweist, während in den Bottom Counties die Gini-Werte meist höher sind. Das bedeutet, dass in Counties, die eine geringere Einkommensungleichheit haben, eine stärkere soziale Vernetzung zwischen wirtschaftlich starken Personen und wirtschaftlich schwachen Personen herrscht.

Haben sie diese Unterschiede in den einzelnen Variablen erwartet? Ja, die Unterschiede waren zu erwarten, da ein hoher EC Index oft mit höheren Einkommen und besserer wirtschaftlicher Mobilität zusammenhängt. Zudem macht es auch Sinn, dass in den meisten Counties mit geringeren Einkommensungleichheiten eine stärkere soziale Vernetzung herrscht.

Aktuell haben Sie in einer univariaten Analyse viel über die soziale Vernetzung auf Basis von Facebook Daten gelernt. Doch was hat der Economic Connectedness Index mit tatsächlicher Entwicklungsmöglichkeit auf sich?

In dieser Aufgabe sollten Sie eine Punktdiagramm (Scatter-Plot) erstellen, welches die wirtschaftliche Mobilität (upward_mobility) gegenüber dem Economic Connectedness Index darstellt. Diese Grafik sollte interaktiv gestaltet sein. Konkret sollte der Name des Counties zu sehen sein, wenn Sie über einen Punkt im Diagramm fahren. Fügen Sie Ihrer Grafik den Korrelationskoeffizient der zwei Variablen hinzu und zeichnen Sie eine Regressionsgerade durch die Punktewolke.

Beschreiben und interpretieren Sie ihre Grafik. Gehen Sie dabei insbesondere auf die folgende Frage ein:

Entspricht der Zusammenhang zwischen den zwei Variablen ihren Erwartungen aus Aufgabe 5?
In wie weit können Sie mit dieser Grafik die Frage “Wie stark beeinflussen soziale Netzwerke die wirtschaftliche Mobilität?” aus der Motivation beantworten?

Hinweis: Um interaktive Grafiken zu erstellen könnten Sie z.B. das plotly Paket, oder das ggiraph Pakte nutzen

Beschreibung
Die Grafik ist ein Streudiagramm, dass den Zusammenhang zwischen dem Median-Haushaltseinkommen und dem Economic Connectedness Index für verschiedene US Counties darstellt. Die x-Achse (Economic Connectedness Index) geht von etwa 0,5 bis 1,3, während bei der yAchse (Medianes Haushaltseinkommen in USD) die Werte von 40.000 USD bis über 160.000 USD gehen. Jeder Punkt repräsentiert ein County, wobei die Mehrheit graue Punkte sind. Besonders auffallend sind 4 Counties, die andere Farben und Formen haben. Zum Beispiel oben rechts befinden sich die zwei Counties San Francisco, California (roter Punkt) und Arlington, Virgina (grünes Quadrat). Die beiden Counties haben einen sehr hohen EC Index und ein sehr hohes Einkommen. In der Mitte der Graphik sticht ein lila Dreieck hervor, was für den County New York, New York steht. Dort ist der EC Index und das Einkommen mittel. Untenlinks sieht man ein umgekehrtes Dreieck was für den County Bronx, New York steht. Das Einkommen und der EC Index sind in diesem County niedrig. Die Grafik visualiert deutlich, dass ein höherer Economic Connectedness Index oft mit höherem Einkommen einhergeht.

Entspricht der Zusammenhang zwischen den Variablen ihren Erwartungen aus Aufgabe 5?
Ja, der Zusammenhang zwischen den Variablen bestätigt die Erwartungen aus Aufgabe 5. Hohe soziale Vernetzung fördert wirtschaftlichen Aufstieg, da die Menschen leichter Zugang zu besserer Bildung und besseren Arbeitsmöglichkeiten haben. Zudem ist die Chance höher sich mit erfolgreichen Menschen anzufreunden, die einen helfen können. Höhere EC-Werte korrelieren mit höherem Einkommen. In der Aufgabe 5 wird auch gesagt, dass ein höherer Expositionswert zu einem höheren EC Index führt, was aber nicht unbedingt der Fall ist. Während in Countys wie San Francisco und Arlington es zutreffen mag, trifft es im County Bronx nicht zu. Im County Bronx trifft der Freundschafts-Bias zu. Die Menschen in diesem County bleiben lieber unter sich, anstatt sich mit anderen gesellschaftlichen Gruppen anzufreunden.

Wie stark beeinflussen soziale Netzwerke die wirtschaftliche Mobilität?
Die Grafik weist auf einen Zusammenhang zwischen sozialen Netzwerken und der wirtschaftlichen Mobilität hin. Steigt einer der beiden Werte steigt tendenziell auch der andere. Nur anhand dieser Grafik kann man aber nicht eindeutig sagen welcher Wert welchen beeinflusst. Hierfür ist eine weitergehende Analyse erforderlich.

Erstellen Sie zwei weitere Punktediagramme, welche die 500 größten Counties nach Bevölkerungsgröße abtragen und zeigen Sie folgende Zusammenhänge auf (ohne Interaktivität):

Zusammenhang zwischen der Einkommensungleichheit (gemessen im Gini-Koeffizient) und dem Economic Connectedness Index
Zusammenhang zwischen dem Median Haushaltseinkommen und dem Economic Connectedness Index

Weiterhin sollten Sie die folgenden Counties in ihrem Diagramm hervorheben und benennen:

San Francisco County, California
Arlington County, Virginia
Morgan County, Utah
New York County, New York
Bronx County, New York

Beschreiben und interpretieren Sie ihre Grafiken. Gehen Sie dabei insbesondere auf folgende Frage ein:

Entspricht der Zusammenhang zwischen den zwei Variablen ihren Erwartungen aus Aufgabe 5? Erklären Sie.

Beschreibung
Die erste Grafik zeigt den Zusammenhang zwischen der Einkommensungleichheit und der Economic Connectedness Index. Auf der X-Achse ist der Economic Connectedness Index dargestellt, während auf der Y-Achse der GiniKoeffizient (Maß für Ungleichheit) dargestellt ist. Auf der Grafik erkennt man viele graue Punkte, die für verschiedene Counties stehen. Man erkennt wieder die vier Counties, die besonders herausstechen. Die Countys San Francisco, California und Arlington County, Virginia haben einen hohen EC Index, aber einen niedrigen GiniKoeffizienten. Während im County New York ein mittlerer EC Index und eine hohe Einkommensungleichheit vorzufinden ist. Im County Bronx ist eine mittlere Einkommensungleichheit und niedriger EC Index zu erkennen.

Die zweite Grafik zeigt den Zusammenhang zwischen dem Median Haushaltseinkommen und dem Economic Connectedness Index. Auf der X-Achse wird der Economic Connectedness Index dargestellt und auf der Y-Achse wird das Median Haushaltseinkommen dargestellt. Auf der Grafik sind wieder viele graue Punkte, die verschiedene Counties darstellen sollen. Wieder sind vier Counties hervorgehoben. Oben rechts sieht man die Counties San Francisco und Arlington, die ein hohes Einkommen und ein hohen EC-Index haben. In der Mitte sieht man den New York County, der mittleres Einkommen und EC-Index hat. Unten links befindet sich der Bronx County, der ein niedrigen EC-Index und Einkommen hat.

Interpretation
Die Ergebnisse stimmen mit den Erwartungen aus Aufgabe 5 überein. Die erste Grafik bestätigt, dass eine niedrigere Economic Connectedness tendenziell mit einer höheren Einkommensungleichheit einhergeht. Die zweite Grafik bestätigt, dass eine höhere Economic Connectedness tendenziell mit einem höheren Median Haushaltseinkommen einhergeht. Die Economic Connectedness ist ein einflussreicher Faktor für wirtschaftliche Opportunitäten und kann Ungleichheit reduzieren.

Wie aus Aufgabe 9 hervorgeht ist die wirtschaftliche Mobilität stark mit dem Economic Connectedness Index korreliert. In den nächsten Aufgaben sollten Sie sich tiefer mit den Gründen dafür beschäftigen und sich im ersten Schritt die Korrelationen zwischen verschiedenen Variablen in ihrem Datensatz anschauen.

Erstellen Sie in dieser Aufgabe eine Korrelationsmatrix, die Ihnen den Zusammenhang zwischen den folgenden Variablen aufzeigt:

Economic Connectedness Index (ec_county)
Wirtschaftliche Mobilität (upward_mobility)
Median Haushaltseinkommen (medincE)
Bevölkerung in 2018 (pop2018)
Einkommensungleichheit (gini99_simple)
Exposition (exposure_grp_mem_county)
Freundschafts-Bias (bias_grp_mem_county)

Beschreiben und interpretieren Sie ihre Korrelationsmatrix.

Beschreibung
Die gezeigte Grafik ist eine Korrelationsmatrix, die die Beziehung zwischen verschiedenen sozioökonomischen Variablen darstellt. Die Werte in der Matrix repräsentieren Pearson-Korrelationskoeffizienten, die die Richtung und Stärke der Zusammenhänge zwischen den Variablen quantifizieren.

Die Farbskala auf der rechten Seite reicht von rot (negative Korrelation) bis gelb (positive Korrelation). Ein Wert von 1.0 oder -1.0 bedeutet eine perfekte positive bzw. negative Korrelation, während 0 für keinen Zusammenhang steht.

Interpretation
Die Korrelationsmatrix zeigt die Zusammenhänge zwischen verschiedenen sozioökonomischen Faktoren. Auffällig ist die starke positive Korrelation zwischen wirtschaftlicher Vernetzung (Economic Connectedness Index) und Exposition (0.94), was darauf hindeutet, dass Regionen mit hoher wirtschaftlicher Vernetzung auch eine größere soziale Durchmischung aufweisen. Ebenso besteht ein enger Zusammenhang zwischen wirtschaftlicher Vernetzung und wirtschaftlicher Mobilität (0.73), was bedeutet, dass gut vernetzte Regionen tendenziell mehr Aufstiegsmöglichkeiten bieten.

Ein weiteres interessantes Muster zeigt sich in der Beziehung zwischen Einkommensungleichheit und wirtschaftlicher Mobilität (-0.60). Die negative Korrelation legt nahe, dass eine höhere Einkommensungleichheit die wirtschaftliche Mobilität einschränkt, sodass Menschen aus einkommensschwächeren Verhältnissen geringere Chancen auf sozialen Aufstieg haben. Dies wird durch die ebenfalls negative Korrelation zwischen Einkommensungleichheit und wirtschaftlicher Vernetzung (-0.64) verstärkt, was darauf hindeutet, dass stärker vernetzte Regionen tendenziell eine gleichmäßigere Einkommensverteilung aufweisen.

Das Median-Haushaltseinkommen zeigt eine positive Korrelation mit wirtschaftlicher Mobilität (0.71), was darauf schließen lässt, dass in wohlhabenderen Regionen die Chancen auf sozialen Aufstieg größer sind. Gleichzeitig zeigt sich, dass der sogenannte Freundschafts-Bias – also die Tendenz, Freundschaften eher innerhalb der eigenen sozialen Schicht zu pflegen – negativ mit wirtschaftlicher Vernetzung korreliert (-0.38). Dies könnte bedeuten, dass in wirtschaftlich stark vernetzten Regionen soziale Barrieren schwächer ausgeprägt sind.

Insgesamt verdeutlicht die Analyse, dass wirtschaftliche Vernetzung, Mobilität und Einkommen eng miteinander verknüpft sind, während eine hohe Einkommensungleichheit tendenziell mit geringerer sozialer Durchlässigkeit einhergeht. Die Ergebnisse unterstreichen somit die Bedeutung wirtschaftlicher Integration für soziale Aufstiegsmöglichkeiten.

Im nächsten Schritt sollten Sie sich anschauen, welche Rolle das Median Haushaltseinkommen in den Counties bei der wirtschaftlichen Mobilität spielt. Gibt es einen Unterschied des Effekts der sozialen Vernetzung zwischen Gutverdienern und weniger gut verdienenden?

Zeigen Sie in einem Punktediagramm den Zusammenhang des Economic Connectedness Index (y-Achse) und dem Median Haushaltseinkommen in den einzelnen Counties. Färben Sie die einzelnen Datenpunkte nach der wirtschaftlichen Mobilität ein.

Beschreiben und interpretieren Sie ihre Grafik. Gehen Sie insbesondere darauf ein, ob er Effekt der sozialen Vernetzung für alle Einkommensgruppen gleich ist.

Beschreibung
Die Grafik zeigt die Beziehung zwischen dem Economic Connected Index und dem Medianen Haushaltseinkommen. Auf der X-Achse befindet sich das Mediane Haushaltseinkommen (in USD) und auf der Y-Achse befindet sich der Economic Connectedness Index. Man erkennt auf der Grafik viele Punkte in verschiedenen Blautönen. Dabei stehen die dunkelblauen Punkte für eine sehr hohe Mobilität (60 oder mehr) und die hellblauen Punkte für eine niedrigere Mobilität (30 oder weniger). Desto dunkler das blau, desto höher ist die Mobilität. Die Grafik veranschaulicht eine positive Korrelation zwischen EC Index und Einkommen.

Interpretation
Nein, der Effekt ist nicht für alle Einkommensgruppen gleich.Bei den Regionen mit unteren Einkommensgruppen und niedrigen EC-Index ist die wirtschaftliche Mobilität niedrig.Wenn der EC-Index steigt, nimmt die wirtschaftliche Mobilität zu, aber dieser Effekt ist nicht immer gleichmäßig. Bei der mittleren Einkommensgruppe variiert die wirtschaftliche Mobilität stark, dies zeigt das der EC Index eine Rolle spielt wie bei der unteren Einkommensgruppe. Aber andere Faktoren scheinen ebenfalls entscheidend zu sein. Die höheren Einkommensgruppen profitieren von der sozialen Vernetzung wegen besseren Aufstiegschancen.Dadurch wird deutlich, dass soziale Vernetzung allein nicht ausreicht, um wirtschaftliche Mobilität zu fordern.

Die soziale Vernetzung ist in der bisherigen Analyse ein treibender Faktor für die wirtschaftliche Mobilität. Jedoch ist es durchaus möglich, dass nicht die soziale Vernetzung, sondern andere Faktoren den zu Grunde liegenden Effekt treiben und es sich bei dem Zusammenhang zwischen dem Economic Connectedness Index und der wirtschaftlichen Mobilität nur um einen Scheinzusammenhang handelt. So könnten z.B. Rückwärtskausalität, Selektionseffekte oder ausgelassene Variablen den gefundenen Zusammenhang erklären.

Um dem nachzugehen sollten Sie sich Chetty et al. (2022a), Seite 115-120 durchlesen und folgende Fragen beantworten:

Nehmen Sie Bezug auf die Rückwärtskausalität, den Selektionseffekt und die ausgelassenen Variablen. Wie könnten diese Faktoren einen scheinbaren Zusammenhang zwischen dem Economic Connectedness Index und der wirtschaftlichen Mobilität verursachen? Gehen Sie auf jeden Faktor separat ein.
In der explorativ und deskriptiv angelegten Analyse der Autoren lassen sich die Argumente bzgl. Rückwärtskausalität, Selektionseffekten und ausgelassener Variablen nicht vollständig ausschließen. Doch welche Argumente sprechen laut den Autoren dafür, dass es sich nicht um die genannten Faktoren handelt?
Finden Sie die Argumentation glaubhaft? Hätten Sie bedenken bei deren Argumentation? Wenn ja, was stört Sie daran?
Nehmen wir an Sie können sich die optimalen Bedingungen zusammenstellen, damit Sie tatsächlich einen kausalen Effekt der sozialen Vernetzung auf die wirtschaftliche Mobilität messen könnten. Wie würden diese Bedingungen ausgestaltet sein?

Wie können die Faktoren (Rückwärtskausalität, Selektionseffekt und die ausgelassenen Variablen) einen scheinbaren Zusammenhang zwischen dem Economic Connectedness Index und der wirtschaftlichen Mobilität verursachen?

Rückwärtskausalität
Der Faktor Rückwärtskausalität sagt, dass nicht höherer EC zu sozialen Aufstieg führt, sondern umgekehrt. Höhere wirtschaftliche Mobilität erzeugt eine stärkere Vernetzung. Kinder aus ärmeren Familien, die in Orten aufwachsen wo hohe Mobilität herrscht, finden als Erwachsene gut bezahlte Jobs und pflegen Kontakte weiterhin zu Menschen aus ihrer ursprünglichen sozialen Schicht. Um zu zeigen wie wichtig die Rückwärtskausalität ist, analysieren die Autoren den Zusammenhang zwischen Kindheits-EC und wirtschaftlicher Mobilität. Da diese Kindheitsfreundschaften nicht von späterer wirtschaftlichen Mobilität beeinflusst sein können, lässt sich testen ob die EC eine Wirkung hat. Bei den Resultaten kam heraus, dass die Korrelation zwischen Kindheits-EC und wirtschaftlicher Mobilität hoch bleibt. Das bedeutet, dass Rückwärtskausalität nur einen kleinen Teil beiträgt und EC doch sehr wichtig ist.
Selektion
Wohlhabendere Familien ziehen in gut vernetzte Viertel mit guten Schulen. Sie ziehen in Viertel, die sich nur wohlhabendere Familien leisten können und isolieren sich dadurch von ärmeren Familien. Die Selektion findet aber nicht nur durch die wirtschaftliche Lage der Familien statt, sondern wird auch durch rassistische und ethnische Segregation beeinflusst. In den USA gibt es Orte wo hauptsächlich Schwarze und Hispanics leben, die geringere EC-Werte und geringere Mobilität haben. Das bedeutet, dass die Menschen die dort aufwachsen schlechtere Chancen für einen wirtschaftlichen Aufstieg haben.
Ausgelassene Variablen
Es handelt sich um unbeobachtete Faktoren, die sowohl EC als auch Mobilität beeinflussen, zum Beispiel bessere Schulen in Hoch-EC-Gebieten. Weil die Kinder in der Schule bessere Bildung erhalten, finden sie später besser bezahlte Jobs. Das liegt nicht am EC, sondern an der besseren Bildung. Ein weiteres Beispiel sind hoche EC-Regionen, die mehr wirtschaftliche Möglichkeiten bieten können oder Regionen mit weniger Einkommenssegration, die bessere Bedingungen für sozialen Aufstieg bieten können. In der explorativ und deskriptiv angelegten Analyse der Autoren lassen sich die Argumente bzgl. Rückwärtskausalität, Selektionseffekten und ausgelassener Variablen nicht vollständig ausschließen. Doch welche Argumente sprechen laut den Autoren dafür, dass es sich nicht um die genannten Faktoren handelt?

In der explorativ und deskriptiv angelegten Analyse der Autoren lassen sich die Argumente bzgl. Rückwärtskausalität, Selektionseffekten und ausgelassener Variablen nicht vollständig ausschließen. Doch welche Argumente sprechen laut den Autoren dafür, dass es sich nicht um die genannten Faktoren handelt?

Gegenargumente zur Rückwärtskausalität
Rückwärtskausalität würde bedeuten, dass wirtschaftliche Mobilität EC beeinflusst. Wie bereits oben erwähnt, gibt es ein Gegenargument dafür, da der Kindheits-EC stark mit der Mobilität korreliert.
Gegenargumente zur Selektion
Kinder die zufällig in hochen EC-Gebieten aufwachsen erzielen höhere Einkommen als Erwachsene.
Gegenargument zu ausgelassenen Variablen
Autoren argumentieren, dass EC auch nach Kontrolle wirtschaftlicher Faktoren ein starker Prädiktor für Mobilität bleibt, in Regionen mit gleicher Einkommensverteilung Unterschiede in der Mobilität erklärt.

Finden Sie die Argumentation glaubhaft? Hätten Sie bedenken bei deren Argumentation? Wenn ja, was stört Sie daran?

Die Argumentation scheint sehr überzeugend. Das einzige Argument, dass Bedenken auslöst findet sich bei den möglichen Messprobleme bei Economic Connectedness, da Menschen die kein Social Media haben, unterrepräsentiert sein könnten.

Nehmen wir an Sie können sich die optimalen Bedingungen zusammenstellen, damit Sie tatsächlich einen kausalen Effekt der sozialen Vernetzung auf die wirtschaftliche Mobilität messen könnten. Wie würden diese Bedingungen ausgestaltet sein?

Es wäre ein randomisiertes Experiment erforderlich. Zum Beispiel werden Familien mit unterschiedlichen EC in eine gemeinsame Nachbarschaft getan, was zu Durchmischung führen würde. Die Kinder sollten mehrer Jahre lang verfolgt werden, um langfristige Einkommensverläufe zu analysieren. Man sollte neben dem EC auch die Schulqualität, Arbeitsmarktbedingungen analysieren. Dadurch kann man analysieren ob die Variablen den Effekt erklären.

Einflussfaktoren auf die soziale Vernetzung

Wie Sie in Ihrer bisherigen Analyse gesehen haben scheint der Economic Connectedness Index einen großen Teil der wirtschaftlichen Mobilität innerhalb der Counties erklären zu können. Doch was sind die Treiber hinter einer hohen sozialen Vernetzung?

Ein Treiber der sozialen Vernetzung könnte natürlich eine hohe Exposition (exposure_grp_mem_county) sein, d.h. wenn es viele gut verdienende Personen in einem County gibt. Anders herum: Wenn es in einigen Counties gar keine gut verdienende Personen gibt, dann gibt es keine Möglichkeit für mich, der dort lebt, Freunde aus einem hohen Einkommensdezil zu haben.

Um sich einen Überblick über die Exposition in den einzelnen Counties zu verschaffen sollten Sie im ersten Schritt die Verteilung der Exposition über die Counties hinweg auf einer Karte der USA zeigen.

Beschreiben Sie ihre Karte und vergleichen diese mit der Karte aus Aufgabe 7. Was fällt Ihnen auf? Trifft die Annahme bzgl. der Exposition zu?

Beschreibung
Diese Karte zeigt die soziale Exposition nach Economic Connectedness in US-Counties dar. Das bedeutet wie oft Menschen unterschiedlicher Gesellschaftsgruppen in Kontakt kommen. Helle Farben(1.25 oder mehr) stehen für eine hohe Exposition, das bedeutet ein hohes Durchmischen, während die dunklen Farben (0,50 oder weniger) für ein niedrigere Exposition steht.Die Karte in Aufgabe 7 zeigt die USA aufgeteilt in ihre einzelne Counties. Die Counties sind entsprechend ihrer Economic Connectedness eingefärbt.

Vergleich der beiden Karten:
In vielen Regionen mit hoher Exposition ist auch der EC Index hoch. Es gibt paar Ausnahmen wo die Exposition hoch ist, aber der EC Index niedrig ist. Ein Beispiel ist Bronx, wo eine starke Freundschafts-Bias herrscht. In Städten ist die Exposition auch höher was zu einem höheren EC Index führt. Die Annahme, dass eine höhere Exposition die soziale Vernetzung fördert trifft in der Regel zu. Es gibt aber auch Ausnahmen wo ein hoher Freundschafts-Bias herrscht. Exposition ist eine wichtige, aber nicht hinreichende Bedingung für soziale Vernetzung.

Jedoch bedeutet eine hohe Exposition nicht gleich auch automatisch höhere soziale Vernetzung mit Personen aus hohen Einkommensdezilen. Falls Personen aus den jeweiligen Einkommensdezilen lieber unter sich bleiben möchten und keine Freundschaften zu Personen aus niedrigeren Einkommensdezilen pflegen, dann wird es ebenso schwer soziale Vernetzungen eine hohe wirtschaftliche Mobilität zu erreichen.

Um zu untersuchen ob es eine entsprechende Segregation der Freundschaftsgruppen gibt sollten Sie in dieser Aufgabe ein Punktediagramm erzeugen, welche auf der x-Achse die Exposition (exposure_grp_mem_county) und auf der y-Achse den Freundschafts-Bias (bias_grp_mem_county) abträgt. Weiterhin sollten Sie die einzelnen Punkte in dem Punktediagramm nach der Stärke der sozialen Vernetzung einfärben. Heben Sie die Counties “San Francisco County, California” und “Bronx County, New York” in ihr Grafik explizit heraus (z.B. durch eine Beschriftung) und gehen Sie in ihrer Interpretation auf diese zwei Counties ein.

Beschreiben und interpretieren Sie ihre Grafik, gehen Sie dabei insbesondere auf folgende Fragen ein:

Welchen Einfluss haben die Faktoren Freundschafts-Bias und Exposition auf die soziale Vernetzung (den Economic Connectedness Index)?

Beschreibung
Die Grafik zeigt den Zusammenhang zwischen der Exposition und dem Freundschafts-Bias in US-Counties. Auf der XAchse wird die Exposition dargestellt und auf der Y-Achse die Freundschafts-Bits. Die Punkte in dunkleren Farben stellen einen höheren EC-Index dar, während die helleren Punkte einen niedrigen EC-Index darstellen. Die meisten Punkte befinden sich in der Mitte. Der EC-Index ist am höchsten bei hoher Exposition und bei niedrigem Freundschafts-Bias.

Interpretation
Welchen Einfluss haben die Faktoren Freundschafts-Bias und Exposition auf die soziale Vernetzung?
Durch eine hohe Exposition besteht eine große Chance für interschichtliche Vernetzung. Je höher die Exposition, desto höher ist der EC Index, da es wahrscheinlicher ist das Menschen aufeinander treten. Desto höher die FreundschaftBias jedoch ist, desto geringer ist der EC Index. Da bei der Freundschaft-Bias die gesellschaftlichen Schichten meist unter sich bleiben. Die Kombination aus hoher Exposition und niedrigem Freundschafts-Bias würde zur höchsten sozialen Vernetzung führen.

Welche (politischen) Maßnahmen könnten dazu beitragen, die soziale Vernetzung und damit die wirtschaftlichen Chancen in benachteiligten Regionen zu verbessern? Diskutieren Sie auf Basis ihrer Ergebnisse aus den Aufgaben 14 und 15.

Die beste Strategie zur Förderung sozialer Vernetzung ist eine Kombination aus höherer Exposition und Reduktion des Freundschafts-Bias. In der Aufgabe 16 stellt man sich die Frage, welche Maßnahmen dazu beitragen könnten, um die soziale Vernetzung und damit die wirtschaftlichen Chancen in benachteiligten Regionen zu verbessern. Man könnte Vereine fördern, die sozial durchmischte Gruppen fördern oder man könnte neutrale soziale Treffpunkte (Parks, Sportplätze) weiter ausbauen, damit sich Menschen treffen können. Zudem könnte man Schulstipendien an ärmere Schüler vergeben, damit sie die Möglichkeit haben eine bessere Schule zu besuchen.

Zusatzaufgabe

Laden Sie die Daten zur Economic Connectedness, dem Freundschafts-Bias und der Exposition auf College Ebene von der folgenden URL herunter und lesen Sie diese Daten in R ein:

Hier können Sie die Daten auf College Ebene herunterladen

Die ersten fünf Einträge des `social_capital_college` Datensatzes
college	college_name	zip	county	mean_students_per_cohort	ec_own_ses_college	ec_own_ses_se_college	ec_parent_ses_college	ec_parent_ses_se_college	ec_high_own_ses_college	ec_high_own_ses_se_college	ec_high_parent_ses_college	ec_high_parent_ses_se_college	exposure_own_ses_college	exposure_parent_ses_college	bias_own_ses_college	bias_parent_ses_college	bias_high_own_ses_college	bias_high_parent_ses_college	clustering_college	support_ratio_college	volunteering_rate_college
100200	Alabama A & M University	35762	1089	943.67	0.86	0.02	0.68	0.03	1.12	0.02	0.74	0.03	0.85	0.65	-0.01	-0.04	-0.33	-0.14	0.24	0.99	0.03
100300	Faulkner University	36109	1101	227.67	1.31	0.05	1.27	0.06	1.55	0.04	1.35	0.05	1.24	1.20	-0.06	-0.05	-0.25	-0.12	0.41	0.99	0.03
100400	University of Montevallo	35115	1117	494.00	1.42	0.03	1.15	0.04	1.57	0.02	1.24	0.03	1.42	1.17	-0.01	0.01	-0.11	-0.06	0.31	1.00	0.10
100500	Alabama State University	36104	1101	NA	0.78	0.02	0.67	0.03	1.05	0.02	0.74	0.03	0.75	0.65	-0.04	-0.03	-0.39	-0.13	0.23	0.99	0.02
100700	Central Alabama Community College	35010	1123	NA	0.73	0.04	0.77	0.04	0.99	0.04	0.87	0.05	0.77	0.77	0.05	-0.01	-0.29	-0.13	0.34	0.99	0.03

Laden Sie Kartendaten auf ZIP-Code Ebene mit einer API von IPUMS herunter. Am einfachsten funktioniert dies mit dem R Paket tidycensus. Für den API Zugang müssen Sie sich erst bei IPUMS registrieren und können danach einen API Key beantragen, welchen Sie dann für den Daten download über das tidycencus Paket hinterlegen müssen.

Hinweis: Der Download von Shape-File Daten wird in der Vignette des R Pakets tidycensus sehr gut beschrieben. Dieser Issue auf GitHub ist nützlich um zu erfahren, wie Sie ZIP-Code Daten herunterladen können.

Stellen Sie den Economic Connectedness Index des Colleges (ec_own_ses_college) auf ZIP-Code Ebene in einer US-Karte dar. Machen Sie ihre Karte interaktiv mit dem Paket leaflet.

Erstellen Sie ein Punktediagramm auf College Ebene, welches den Zusammenhang zwischen dem Freundschafts-Bias und der Exposition beleuchtet auf College Ebene näher beleuchtet.

Tragen Sie dafür auf der x-Achse den Anteil von Studierenden mit gut verdienenden Eltern ab (exposure_parent_ses_college) und den Freundschafts-Bias unter den Studierenden (bias_parent_ses_college)

Heben Sie fünf Colleges ihrer Wahl in der Grafik hervor (inkl. Beschriftung).

Beschreiben und interpretieren Sie ihre Grafik. Gehen Sie insbesondere auf die fünf von Ihnen hervorgehobenen Colleges ein.

Beschreibung
Die Grafik zeigt den Zusammenhang zwischen der Exposition von Studierenden mit gut verdienenden Eltern und dem Freundschafts-Bias auf College-Ebene. Auf der x-Achse ist der Anteil der Studierenden mit wohlhabenden Eltern dargestellt, während die y-Achse den Freundschafts-Bias misst, also die Tendenz, dass Studierende mit wohlhabenden Eltern überproportional viele wohlhabende Freund:innen haben. Die einzelnen Punkte repräsentieren verschiedene Colleges, wobei die Farbskala den Economic Connectedness Index widerspiegelt – je heller (gelber) ein Punkt, desto stärker ist die wirtschaftliche Vernetzung an diesem College.

Fünf Colleges wurden speziell hervorgehoben und beschriftet: Harvard University, University of Illinois Chicago, University of Alabama in Huntsville, Manchester University und Chicago State University. Diese wurden mit schwarzen Umrandungen markiert, um ihre Position im Vergleich zu anderen Colleges deutlich zu machen. Zusätzlich wurden graue Linien eingefügt – eine vertikale Linie markiert den Durchschnittswert der Exposition, während eine horizontale Linie den Nullpunkt des Freundschafts-Bias anzeigt.

Interpretation
Die Grafik verdeutlicht, wie unterschiedlich die soziale und wirtschaftliche Zusammensetzung von Colleges in den USA ist. Besonders auffällig ist die Position der Harvard University, die einen sehr hohen Anteil an Studierenden mit wohlhabenden Eltern aufweist. Gleichzeitig zeigt sich hier nur ein geringer Freundschafts-Bias, was darauf hindeutet, dass sich Studierende trotz ihrer unterschiedlichen wirtschaftlichen Hintergründe relativ gleichmäßig vernetzen. Zudem ist die wirtschaftliche Vernetzung an Harvard besonders stark, was bedeutet, dass Studierende dort Zugang zu wirtschaftlich einflussreichen Netzwerken haben.

Im Gegensatz dazu liegt die Chicago State University am linken Rand der Grafik, was zeigt, dass dort deutlich weniger Studierende aus wohlhabenden Familien eingeschrieben sind. Die wirtschaftliche Vernetzung ist ebenfalls schwächer, und der Freundschafts-Bias ist neutral bis leicht negativ. Dies könnte darauf hindeuten, dass wirtschaftliche Unterschiede hier eine geringere Rolle bei der Bildung sozialer Netzwerke spielen, möglicherweise weil der Großteil der Studierenden aus ähnlichen sozialen Verhältnissen stammt.

Die University of Illinois Chicago nimmt eine Mittelstellung ein, sowohl in Bezug auf die Exposition als auch auf den Freundschafts-Bias. Dies deutet darauf hin, dass Studierende hier relativ ausgewogene soziale Netzwerke haben, in denen wirtschaftliche Unterschiede weniger stark durch soziale Trennung verstärkt werden. Ähnlich positioniert sich die University of Alabama in Huntsville, die zwar einen höheren Anteil an wohlhabenden Studierenden aufweist, aber ebenfalls nur einen geringen Freundschafts-Bias zeigt.

Die Manchester University liegt nahe am Durchschnitt der Exposition und zeigt ebenfalls einen relativ neutralen Freundschafts-Bias. Dies bedeutet, dass die wirtschaftlichen Hintergründe der Studierenden keine allzu große Rolle bei der Bildung von Freundschaften spielen. Gleichzeitig deutet die moderate wirtschaftliche Vernetzung darauf hin, dass Studierende hier im Vergleich zu Elite-Universitäten wie Harvard weniger Zugang zu wirtschaftlich einflussreichen Netzwerken haben.

Insgesamt zeigt die Grafik, dass es Colleges gibt, an denen wirtschaftliche Trennlinien stärker sichtbar sind, während andere eine eher ausgewogene soziale Struktur aufweisen. Während Hochschulen mit einem hohen Anteil wohlhabender Studierender tendenziell bessere wirtschaftliche Netzwerke bieten, zeigt sich, dass der Freundschafts-Bias nicht zwangsläufig mit der Exposition korreliert. Manche Colleges, wie Harvard, ermöglichen trotz hoher Exposition eine soziale Durchmischung, während andere, wie Chicago State University, durch ihre geringere Exposition automatisch eine weniger wirtschaftlich segregierte Gemeinschaft aufweisen.

Literatur

Chetty, R., Friedman, J. N., Hendren, N., Jones, M. R., & Porter, S. R. (2018). The opportunity atlas: Mapping the childhood roots of social mobility (No. w25147). National Bureau of Economic Research. https://doi.org/10.3386/w25147

Chetty, R., Jackson, M.O., Kuchler, T. et al. Social capital I: measurement and associations with economic mobility. Nature 608, 108–121 (2022a). https://doi.org/10.1038/s41586-022-04996-4

Chetty, R., Jackson, M.O., Kuchler, T. et al. Social capital II: determinants of economic connectedness. Nature 608, 122–134 (2022b). https://doi.org/10.1038/s41586-022-04997-3

Soziale Vernetzung in den USA

Analyse von Facebook-Daten zur Erforschung sozialer Netzwerke und wirtschaftlicher Mobilität