Motivation

Jeden Morgen das gleiche Bild: Verstopfte Autobahnen, genervte Pendler, verlorene Zeit. 20,5 Millionen Menschen pendeln in Deutschland täglich zur Arbeit – die meisten davon mit dem Auto. Laut INRIX Traffic Scorecard 2024 verlieren Pendler in deutschen Großstädten zwischen 40 und 60 Stunden pro Jahr allein im Stau. Das entspricht fast einer kompletten Arbeitswoche, die im Nichts verpufft.

Die Idee liegt auf der Hand: Wer Bahn fährt, steht nicht im Stau. Aber wie schlägt sich die Bahn im Vergleich zum Auto? Ist sie wirklich schneller? Und wie zuverlässig ist sie eigentlich?

In diesem Projekt analysieren Sie Echtzeitdaten der Deutschen Bahn, Pendlerstatistiken der Bundesagentur für Arbeit, Staudaten von INRIX und die Entgeltstatistik der Bundesagentur für Arbeit. Sie werden herausfinden, dass die Antwort auf die Frage “Sollten mehr Menschen Bahn fahren?” komplexer ist, als man zunächst vermuten würde und dass sie wichtige Implikationen für die Verkehrspolitik hat.

Ihre zentrale Forschungsfrage lautet:

“Sollten mehr Menschen Bahn fahren – und was müsste sich dafür ändern?”

Datengrundlage

In diesem Projekt arbeiten Sie mit mehreren Datensätzen. Ein wichtiger Teil des Projekts ist das eigenständige Beschaffen von Primärdaten aus offiziellen Quellen.

Daten einlesen und verstehen

Bevor Sie mit der Analyse beginnen können, müssen Sie verschiedenste Datensätze einlesen und deren Struktur verstehen. Die Deutsche Bahn stellt über unterschiedliche Schnittstellen Echtzeitdaten für ihre Züge als open-source Daten zur Verfügung, welche per API-Calls geladen werden können. Jedoch gibt es von der Deutschen Bahn keine offizielle Seite, welche historische Daten zu Zugverspätungen, Ausfällen etc. für Fern- und Nahverkehrszüge sammelt. Da wir uns jedoch mit historischen Daten beschäftigen möchten, greifen wir auf Daten zurück, die von Piet Brömmel gesammelt wurden und bei Huggingface im Parquet-Format zur Verfügung gestellt wurden. Das Parquet-Format ist ein effizientes Datenformat und wird oft für große Datenmengen genutzt; in R können Sie diese Daten mit dem arrow-Paket einlesen.

Wie pünktlich ist die Bahn wirklich? Um diese Frage zu beantworten, brauchen Sie echte Verspätungsdaten – nicht nur Pressemitteilungen. Die Bahndaten bilden das Herzstück unserer Analyse: Mit ihnen können Sie berechnen, wie viel Zeit Bahnfahrer durch Verspätungen verlieren und später mit den Stauzeiten der Autofahrer vergleichen.

Die Deutsche Bahn stellt Echtzeitdaten als Open Data zur Verfügung. Das Projekt piebro/deutsche-bahn-data auf Huggingface sammelt diese Daten im Parquet-Format.

Laden Sie die Datei für November 2025 direkt von Huggingface herunter und lesen Sie diesen Datensatz als bahn in R ein.

Zeigen Sie die ersten 10 Zeilen des Datensatzes in einer Tabelle und beantworten Sie anschließend folgende Fragen:

Wie viele Beobachtungen enthält der Datensatz? Welche Variablen sind vorhanden?
Was stellt eine einzelne Beobachtung dar?

Hinweis 1: Sie können auf Huggingface die gesuchte Datei hier finden und direkt die URL zu der Datei in R mitgeben

Hinweis 2: Sie können die Parquet Datei entweder lokal speichern, oder immer direkt per URL einlesen. Falls Sie die Datei lokal speichern, so wird diese nicht auf GitHub Committet, da wir dies in der .gitignore entsprechend eingestellt haben. In diesem Fall sollten alle Teammitglieder die Datei lokal zur Verfügung haben.

Hinweis 3: Achten Sie bei allen Tabellen auf einer saubere Darstellung

Erste 10 Zeilen des Bahn-Datensatzes
train_name	station_name	final_destination_station	time	delay_in_min	train_type
S 2	Stuttgart Hbf	Filderstadt	2025-11-01 01:00:00	5	S
S 5	Halle (Saale) Hbf	Leipzig Hbf (tief)	2025-11-01 01:00:00	1	S
RE 1	Karlsruhe Hbf	Karlsruhe Hbf	2025-11-01 01:00:00	95	RE
ALX RE25	Regensburg Hbf	München Hbf	2025-11-01 01:00:00	11	ALX
ICE 775	Mannheim Hbf	Karlsruhe Hbf	2025-11-01 01:00:00	1	ICE
S 9	Flughafen BER	Flughafen BER	2025-11-01 01:00:00	1	S
S 8	Halle (Saale) Hbf	Halle (Saale) Hbf	2025-11-01 01:00:00	15	S
RB 40	München Hbf	München Hbf	2025-11-01 01:00:00	0	RB
IC 1952	Köln Hbf	Köln Hbf	2025-11-01 01:00:00	40	IC
S 1	Freiburg (Breisgau) Hbf	Freiburg (Breisgau) Hbf	2025-11-01 01:00:00	0	S

## Anzahl Beobachtungen (Sample): 5000

## Variablen im Datensatz: train_name, station_name, final_destination_station, time, delay_in_min, train_type

## 
## Eine einzelne Beobachtung stellt die Daten eines Zuges an einer Station zu einem bestimmten Zeitpunkt dar, inklusive Verspätung, geplanter und tatsächlicher Zeit, Zugtyp und Ziel.

Beschreibung

Der Datensatz für November 2025 enthält insgesamt 13.943.561 Beobachtungen. Jede Zeile im Datensatz entspricht einer erfassten Information aus dem Echtzeitbetrieb der Deutschen Bahn in diesem Monat.

Im Datensatz sind 16 Variablen enthalten. Diese umfassen unter anderem den Namen des Bahnhofs (station_name), eine alternative Bahnhofsbezeichnung (xml_station_name), die eindeutige Bahnhofsnummer (eva), den Zugnamen (train_name), den Zielbahnhof (final_destination_station), die Verspätung in Minuten (delay_in_min), einen Zeitstempel (time), Informationen zu Zugausfällen (is_canceled), den Zugtyp (train_type) sowie mehrere Zeitvariablen zu geplanten und tatsächlichen Ankunfts- und Abfahrtszeiten. Ergänzt werden diese Angaben durch Identifikationsvariablen wie die Linien- und Beobachtungs-ID.

Eine Beobachtung

Eine einzelne Beobachtung stellt einen konkreten Zughalt beziehungsweise den Status eines Zuges zu einem bestimmten Zeitpunkt an einem bestimmten Bahnhof dar. Sie verbindet geplante und tatsächliche Zeitinformationen und erlaubt es, Verspätungen sowie Ausfälle im Bahnverkehr systematisch zu analysieren.

Wohin pendeln die Menschen? Die Bahndaten zeigen ihnen die Pünktlichkeit der Züge – aber um zu verstehen, wo gute Bahnverbindungen besonders wichtig sind, müssen Sie wissen, wohin die Menschen pendeln. Die Pendlerstatistik der Bundesagentur für Arbeit zeigt genau das: Welche Städte sind die größten Arbeitgeber-Magneten?

Laden Sie den Datensatz pendler_kreise_aufbereitet.csv aus dem Ordner daten in R ein als Datensatz pendler.

Erstellen Sie eine Tabelle der Top 10 Städte nach Einpendlern mit den Spalten: Stadt (kreis_name), Einpendler, Auspendler, Pendlersaldo.

Interpretieren Sie kurz: Welche Städte sind die größten “Pendlermagneten” Deutschlands und warum?

Top 10 Städte nach Einpendlern (bereinigt um Doppelungen)
Stadt	Einpendler	Auspendler	Pendlersaldo
München	455.645	202.756	252.889
Frankfurt am Main	405.856	111.245	294.611
Hamburg	392.951	147.328	245.623
Berlin	392.324	219.898	172.426
Köln	306.905	138.422	168.483
Düsseldorf	284.696	97.326	187.370
Stuttgart	274.442	100.095	174.347
Nürnberg	165.496	78.557	86.939
Essen	141.296	90.906	50.390
Region Hannover	137.924	69.974	67.950

Beschreibung

Die Tabelle zeigt die Top-10-Städte bzw. -Regionen Deutschlands nach der Anzahl der Einpendler. Aufgeführt sind die Städte mit den höchsten täglichen Pendlerzuflüssen sowie die zugehörigen Aus- und Pendlersalden. Dadurch wird sichtbar, in welchen Regionen sich besonders viele Arbeitsplätze konzentrieren und welche Gebiete als zentrale Zielorte für Berufspendler fungieren.

Analyse

An der Spitze steht München mit rund 456.000 Einpendlern, gefolgt von Frankfurt am Main (406.000), Hamburg (393.000) und Berlin (392.000). Weitere wichtige Pendlermagneten sind Köln, Düsseldorf und Stuttgart. Auffällig ist zudem die Region Hannover, die als zusammengefasste Stadt-Umland-Region ebenfalls einen hohen Pendlerzufluss aufweist. In allen genannten Städten übersteigt die Zahl der Einpendler die der Auspendler deutlich, was sich in einem klar positiven Pendlersaldo widerspiegelt.

Hohe Bedeutung in den Metropolen

Diese Ergebnisse verdeutlichen, dass vor allem große Metropolen und wirtschaftsstarke Ballungsräume die wichtigsten Arbeitgeber-Zentren Deutschlands sind. Sie bieten eine hohe Dichte an Arbeitsplätzen in Industrie, Dienstleistungen, Verwaltung und wissensintensiven Branchen. Gleichzeitig wohnen viele Beschäftigte aufgrund hoher Mieten und begrenzten Wohnraums im Umland, was zu starkem Pendelverkehr führt. Daraus ergibt sich eine besonders hohe Bedeutung leistungsfähiger Bahn- und Verkehrsverbindungen in diese Regionen, um den täglichen Berufsverkehr zuverlässig und effizient zu bewältigen.

Was kostet das Auto? Sie haben jetzt Bahndaten und wissen, wohin die Menschen pendeln. Aber um fair vergleichen zu können, brauchen Sie auch die Alternative: Wie viel Zeit verlieren Autofahrer im Stau? Diese Daten liefert INRIX – ein Unternehmen, das weltweit Verkehrsdaten sammelt. Später werden Sie diese Staukosten mit den Bahnverspätungen vergleichen.

Besuchen Sie die INRIX Global Traffic Scorecard und suchen Sie die Stauzeiten für die Top 10 Städte aus Aufgabe 2 und zusätzlich die Stauzeiten für Ulm. INRIX misst, wie viele Stunden Autofahrer jährlich im Stau verlieren.

Erstellen Sie eine eigene CSV-Datei inrix_staedte_2024.csv mit folgenden Spalten für die geforderten Städte:
- stadt: Name der Stadt
- stau_stunden_jahr: Jährliche Staustunden pro Fahrer
- kosten_eur: Jährliche Kosten pro Fahrer (findet sich in der tiefergehenden Übersicht)
Berechnen Sie für jede Stadt, wie viele Arbeitstage pro Jahr im Stau verloren gehen. Annahme: Ein Arbeitstag = 8 Stunden.

Erstellen Sie anschließend eine schöne Tabelle mit: Stadt, Staustunden/Jahr, verlorene Arbeitstage und beschreiben diese. In welcher Stadt ist die Stausituation am schlimmsten? Wie viele Arbeitstage verliert ein typischer Pendler dort pro Jahr?

Hinweis: Auf der INRIX-Website können Sie nach bei “Jump to City Rankings” -> “Search the List” -> “Germany” oder der konkreten Stadt filtern.

Staustunden, verlorene Arbeitstage und Kosten nach INRIX (2024)
Stadt	Stau Stunden pro Jahr	Verlorene Arbeitstage	Kosten pro Pendler (€/Jahr)
Köln	67.0	8.4	919
Düsseldorf	63.0	7.9	864
Berlin	60.0	7.5	823
Stuttgart	60.0	7.5	823
München	57.0	7.1	781
Frankfurt am Main	55.0	6.9	754
Region Hannover	54.0	6.8	740
Hamburg	46.0	5.8	631
Essen	46.0	5.8	631
Nürnberg	38.0	4.8	521
Ulm	30.0	3.8	411

Beschreibung

Die Tabelle zeigt die Staustunden, die verlorenen Arbeitstage und die jährlichen Kosten pro Autofahrer für ausgewählte deutsche Städte im Jahr 2024. In den Zeilen sind die einzelnen Städte aufgelistet, während die Spalten die durchschnittlichen Staustunden pro Jahr (stau_stunden_jahr), die daraus berechneten verlorenen Arbeitstage (arbeitstage_verloren) und die monetären Kosten (kosten_eur) enthalten. So wird deutlich, wie stark Pendler in den jeweiligen Städten durch Verkehrsüberlastung zeitlich und finanziell belastet werden.

Metropolen als Brennpunkte

Besonders auffällig ist, dass die größten Metropolen wie Köln, Düsseldorf, Berlin, Stuttgart und München deutlich höhere Staustunden aufweisen als kleinere Städte wie Nürnberg, Ulm oder Essen. Die Werte reichen von 67,0 Stunden in Köln bis 30,0 Stunden in Ulm. Entsprechend variieren auch die verlorenen Arbeitstage zwischen 8,4 Tagen in Köln und 3,8 Tagen in Ulm. Die monetären Kosten pro Autofahrer folgen einem ähnlichen Muster und sind in den am stärksten belasteten Städten am höchsten. Am stärksten betroffen ist Köln, wo Pendler im Durchschnitt rund 8,4 Arbeitstage pro Jahr im Stau verbringen. Auch in Düsseldorf, Berlin und Stuttgart sind die Werte hoch, während München, Frankfurt am Main und die Region Hannover etwas geringer belastet sind.

Auswirkungen der hohen Stauzeiten

Insgesamt zeigt sich, dass vor allem große Städte mit hoher Arbeitsplatzdichte und vielen Pendlern besonders stark von Staus betroffen sind. Für die Pendler bedeutet das nicht nur einen erheblichen Zeitverlust, sondern auch zusätzlichen Stress und höhere Kosten durch Kraftstoffverbrauch und Fahrzeugverschleiß. Gleichzeitig hat die Verkehrsüberlastung wirtschaftliche Folgen, da weniger Zeit für produktive Arbeit zur Verfügung steht und Unternehmen durch Verzögerungen im Verkehr beeinträchtigt werden können. Die Zahlen unterstreichen daher die Bedeutung einer gut ausgebauten Verkehrsinfrastruktur, um den Verkehrsfluss zu verbessern und die Belastung für Pendler und Wirtschaft zu verringern.

Für die weiteren Analysen stellen wir Ihnen fünf zusätzliche Datensätze bereit. Diese laden Sie jetzt, damit sie in allen folgenden Aufgaben direkt verfügbar sind.

Laden Sie die folgenden Datensätze aus dem Ordner daten und speichern Sie diese unter den angegebenen Variablennamen:

Datei	Variablenname	Verwendet in
`bahnhof_ags_mapping.csv`	`bahnhof_mapping`	Aufgabe 9-10
`fahrtzeit_osrm_vergleich.csv`	`fahrtzeit`	Aufgabe 12
`ulm_pendlerrouten.csv`	`ulm_routen`	Aufgabe 13
`ba_entgeltstatistik_2024.csv`	`entgelt`	für `staedte_basis`
`co2_analyse.csv`	`co2_analyse`	Aufgabe 19 (Bonus)

Verschaffen Sie sich einen ersten Überblick über die Struktur der Daten (z.B. mit glimpse(), dies sollte später in ihrem HTML Dokument nicht sichtbar sein!).

Erstellen Sie außerdem einen Master-Datensatz staedte_basis für die Top-11-Städte (Top 10 Pendlerstädte + Ulm), der die Daten aus pendler, entgelt und inrix kombiniert. Dieser Datensatz vereinfacht die späteren Analysen (ab Aufgabe 14), da alle relevanten Kennzahlen bereits zusammengeführt sind.

Der Master-Datensatz sollte folgende Spalten enthalten:

ags: Amtlicher Gemeindeschlüssel
stadt: Stadtname (Kurzform, z.B. “München”)
einpendler: Anzahl Einpendler
median_monat_eur: Medianlohn pro Monat
median_stunde_eur: Medianlohn pro Stunde (Monatslohn / 160)
stau_stunden_jahr: Stauzeit pro Jahr (aus INRIX)

Hinweis 1: Die Datensätze verwenden unterschiedliche Namensformate: pendler hat offizielle Namen (“München, Landeshauptstadt”), während entgelt und inrix Kurznamen (“München”) verwenden. Nutzen Sie den AGS als zuverlässigen Schlüssel für die Verknüpfung mit pendler. Tipp: entgelt enthält sowohl AGS als auch Kurznamen und eignet sich daher gut als Ausgangspunkt.

Hinweis 2: Eine ausführliche Beschreibung der Datensätze finden Sie im Anhang A.

Basisdaten für die Top-10 Städte nach Pendler und Einkommen und Ulm
Amtlicher Gemeindeschlüssel	Stadt	Anzahl der Einpendler	Medianlohn pro Monat in €	Medianlohn pro Stunde in €	Stauzeit pro Jahr in Stunden
09162	München	455.645	4.847	30	57
06412	Frankfurt	405.856	4.712	29	55
02000	Hamburg	392.951	4.527	28	46
11000	Berlin	392.324	4.156	26	60
05315	Köln	306.905	4.398	27	67
05111	Düsseldorf	284.696	4.523	28	63
08111	Stuttgart	274.442	4.689	29	60
09564	Nürnberg	165.496	4.234	26	38
05113	Essen	141.296	3.987	25	46
08421	Ulm	68.341	4.312	27	30

Die Pünktlichkeit der Deutschen Bahn

Nachdem Sie nun einen Überblick über die Daten haben, welche wir in diesem Projekt verwenden möchten, tauchen Sie tiefer in die Bahndaten ein. Die zentrale Frage ist: Wie zuverlässig ist die Deutsche Bahn wirklich?

Die Bahn unterscheidet verschiedene Zugtypen, vom ICE über den RE bis zur S-Bahn. Jeder Zugtyp hat unterschiedliche Eigenschaften: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Aber welcher Zugtyp ist am pünktlichsten?

Welche Züge sind (un)pünktlich? Nicht alle Züge sind gleich: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Um später sinnvolle Empfehlungen geben zu können, müssen Sie verstehen, welche Zugtypen besonders problematisch sind. Dafür klassifizieren Sie die Züge anhand ihrer Namen. Nutzen Sie für diese Analyse den Datensatz bahn.

Die Variable train_name enthält den Zugnamen (z.B. “ICE 123”, “S 5”, “RE 8”).

Erstellen Sie eine neue Variable zugtyp mit folgenden Kategorien:

Zugtyp	Regel	Beispiel
ICE	beginnt mit “ICE”	ICE 123
IC/EC	beginnt mit “IC” oder “EC”	IC 2012, EC 6
IRE/RE	beginnt mit “RE” oder “IRE”	RE 5, IRE 200
RB	beginnt mit “RB”	RB 26
S-Bahn	beginnt mit “S” (mit Leerzeichen!)	S 5
Sonstige	alle anderen	U 6, STB 123

Erstellen Sie auf dieser Basis eine Tabelle, welche pro Zugtyp folgende Kennzahlen anschaulich darstellt:

Anzahl der Fahrten
Durchschnittliche Verspätung (in Minuten)
Anteil pünktlicher Züge (≤6 Min Verspätung)
Ausfallquote

Beschreiben und Interpretieren Sie die Tabelle.

Weiterhin sollten Sie ihre Ergebnisse verifizieren. Dafür können Sie auf die offizielle Pünktlichkeitswerte der Deutschen Bahn zurückgreifen (recherchieren Sie diese selbstständig).

Stimmen Ihre Ergebnisse mit den offiziellen Werten überein? Falls nicht: Welche methodischen Unterschiede könnten die Abweichung erklären?

Hinweis: Nutzen Sie str_detect() aus dem stringr-Paket. Achten Sie auf die Reihenfolge der Bedingungen!

Pünktlichkeit und Ausfälle nach Zugtyp
Zugtyp	Anzahl Fahrten	Durchschnittliche Verspätung in Min.	Pünktlichkeitsanteil in %	Ausfallquote in %
IC/EC	70.602	11.0	60.2	7.2
ICE	171.516	12.5	56.7	4.2
IRE/RE	1.673.555	6.1	74.1	3.6
RB	2.675.028	3.5	85.2	3.2
S-Bahn	6.414.045	2.9	87.4	5.5
Sonstige	2.938.815	3.5	84.7	2.6

Beschreibung der Tabelle

Die Tabelle „Pünktlichkeit und Ausfälle nach Zugtyp“ zeigt für sechs Kategorien von Zügen – IC/EC, ICE, IRE/RE, RB, S-Bahn und Sonstige – vier wesentliche Kennzahlen: die Anzahl der Fahrten, die durchschnittliche Verspätung in Minuten, den Anteil der pünktlichen Züge (definiert als Verspätungen von höchstens sechs Minuten) in Prozent sowie die Ausfallquote in Prozent. Die Anzahl der Fahrten variiert stark: Während S-Bahnen mit über 6,4 Millionen Fahrten den größten Anteil ausmachen, weisen Fernverkehrszüge wie IC/EC und ICE mit etwa 70.600 bzw. 171.500 Fahrten eine deutlich geringere Anzahl auf.

Die durchschnittlichen Verspätungen unterscheiden sich deutlich zwischen den Zugtypen. Fernverkehrszüge ICE und IC/EC weisen die höchsten Verzögerungen mit 12,5 bzw. 11,0 Minuten auf. Regionalzüge und S-Bahnen zeigen mit Werten zwischen 2,9 und 6,1 Minuten deutlich geringere Verspätungen. Dies spiegelt sich auch in den Pünktlichkeitsanteilen wider: S-Bahnen sind mit 87,4 % am pünktlichsten, gefolgt von Regionalbahnen (RB) mit 85,2 %. Fernverkehrszüge erreichen mit 56,7 % (ICE) und 60,2 % (IC/EC) wesentlich niedrigere Werte.

Die Ausfallquoten sind bei IC/EC-Zügen mit 7,2 % am höchsten, gefolgt von S-Bahnen mit 5,5 %. Regionalzüge und die Kategorie Sonstige verzeichnen geringere Ausfallquoten zwischen 2,6 % und 3,6 %. ICE-Züge liegen mit 4,2 % Ausfällen dazwischen.

Woher kommen die Unterschiede im Fern- und Nahverkehr?

Die Ergebnisse verdeutlichen ein klar erkennbares Leistungsgefälle zwischen Fern- und Nahverkehr. Die höhere Verspätungs- und Ausfallrate im Fernverkehr resultiert aus den längeren Fahrstrecken, komplexeren Betriebsabläufen und einer höheren Netzauslastung. Primärverspätungen führen auf langen Strecken häufig zu Kettenreaktionen und kumulieren, was die Zuverlässigkeit beeinträchtigt. Nahverkehrszüge profitieren dagegen von kürzeren Distanzen, häufigerer Trennung der Infrastruktur vom Fernverkehr und standardisierten Abläufen, was sich in besseren Pünktlichkeitswerten niederschlägt.

Die Ausfallquote der S-Bahn ist trotz der hohen Pünktlichkeit vergleichsweise hoch, was auf die Strategie zurückzuführen sein kann, Züge im dichten Taktverkehr gezielt ausfallen zu lassen, um den Gesamtverkehr stabil zu halten und Folgeverspätungen zu vermeiden.

Vergleich mit dem offiziellen Pünktlichkeitsbericht der Deutschen Bahn

Der Vergleich mit den offiziellen Pünktlichkeitszahlen der Deutschen Bahn bestätigt die grundlegenden Trends dieser Analyse. Die DB weist für den Fernverkehr Pünktlichkeitswerte von etwa 62,5 % aus, was etwas höher ist als die in der Analyse ermittelten Werte (56,7 % für ICE, 60,2 % für IC/EC). Im Regionalverkehr liegen die offiziellen Werte bei circa 90,7 %, während unsere Analyse Pünktlichkeitsanteile zwischen 74,1 % (IRE/RE) und 87,4 % (S-Bahn) zeigt. Diese Abweichungen lassen sich methodisch erklären: Die DB verwendet teils eine großzügigere Definition von Pünktlichkeit und aggregiert Daten über längere Zeiträume, wodurch saisonale Effekte und einmalige Störungen besser ausgeglichen werden. Die vorliegende Analyse setzt eine strengere Verspätungsgrenze von sechs Minuten an und basiert auf einer begrenzten Datenmenge. Außerdem kann die Zugtypklassifikation über Zugnamen Randfälle nicht vollständig korrekt abbilden. Insgesamt liegen die wesentlichen Befunde aber im Einklang, was die Aussagekraft der Ergebnisse unterstreicht.

In Aufgabe 5 haben Sie gesehen, dass Fernverkehrszüge (ICE, IC/EC) deutlich höhere Verspätungen und Ausfallquoten haben als Nahverkehrszüge (IRE, RE, RB, S-Bahn). Aber wie relevant ist das für den typischen Pendler? Das hängt davon ab, wie viele Züge jeweils unterwegs sind. Nutzen Sie für diese Analyse den Datensatz bahn (mit der in Aufgabe 5 erstellten Variable zugtyp).

Klassifizieren Sie die Züge in zwei Kategorien:

Fernverkehr: ICE, IC/EC
Nahverkehr: IRE, RE, RB, S-Bahn

Erstellen Sie ein Liniendiagramm, das die durchschnittliche Anzahl der Fahrten pro Stunde im Tagesverlauf zeigt:

X-Achse: Uhrzeit (0-23 Uhr)
Y-Achse: Durchschnittliche Anzahl Fahrten pro Stunde
Zwei Linien: eine für Fernverkehr, eine für Nahverkehr (unterschiedliche Farben)

Tipp: Extrahieren Sie die Stunde aus der Variable time mit hour() aus dem lubridate-Paket. Berechnen Sie dann die durchschnittliche Anzahl Fahrten pro Stunde und Zugtyp.

Beschreiben und interpretieren Sie ihre Grafik. Beantworten Sie zusätzlich die folgenden Fragen:

Zu welchen Uhrzeiten fahren die meisten Züge?
Wie unterscheidet sich das Muster zwischen Fern- und Nahverkehr?
Warum ist diese Information wichtig, wenn wir später die Verspätungen analysieren?

Beschreibung

Die Grafik zeigt die Anzanhl an Zugfahrten nach Stunden sortiert. Dabei wird zwischen dem Fernverkehr in blau und dem Nahverkehr in grün unterschieden. Die Anzahl der Zugfahrten beziehen sich dabei für den Zeitraum vom November 2025 für Deutschland.

Auswertung

Die grafische Auswertung der durchschnittlichen Anzahl der Fahrten verdeutlicht eine massive quantitative Diskrepanz zwischen dem Nah- und Fernverkehr über den gesamten Tagesverlauf hinweg. Der Nahverkehr (IRE, RE, RB, S-Bahn) folgt einem charakteristischen, bipolaren Aktivitätsmuster: Nach einem nächtlichen Minimum zwischen 4:00 und 5:00 Uhr morgens steigt die Kurve steil an und erreicht ein erstes ausgeprägtes Plateau während der morgendlichen Hauptverkehrszeit gegen 9:00 Uhr mit einem Volumen von etwa 600.000 Fahrten. Nach einer leichten Abschwächung über die Mittagsstunden baut sich am späten Nachmittag ein zweites Maximum auf, das zwischen 18:00 und 19:00 Uhr seinen Scheitelpunkt erreicht, bevor die Frequenz in den späten Abendstunden sukzessive absinkt. Im Gegensatz dazu verläuft die Kurve des Fernverkehrs (ICE, IC/EC) nahezu flach auf einem konstant niedrigen Niveau; während der Nahverkehr in den Spitzenzeiten die Marke von 600.000 Fahrten überschreitet, bewegt sich das Aufkommen im Fernverkehr über den gesamten Tag hinweg stabil im Bereich deutlich unter 50.000 Fahrten.

Dieses Verteilungsmuster korreliert unmittelbar mit den gesellschaftlichen Mobilitätsanforderungen des Berufs- und Pendlerverkehrs, wobei die beiden identifizierten Peaks die klassischen Stoßzeiten widerspiegeln, in denen die Infrastruktur maximal ausgelastet ist. Der Fernverkehr stellt hingegen eine kontinuierliche Grundversorgung überregionaler Verbindungen sicher, die weniger von kurzfristigen Lastspitzen geprägt ist. Diese Information ist für die spätere Verspätungsanalyse von zentraler Bedeutung, da die extrem hohen Fahrtenzahlen im Nahverkehr bedeuten, dass jede prozentuale Verspätung in diesem Sektor eine weitaus größere Hebelwirkung auf die Gesamtanzahl der betroffenen Personen hat als im Fernverkehr. Eine Störung während der Peaks trifft eine massive Anzahl an gleichzeitig verkehrenden Zügen und damit potenziell Millionen von Pendlern. Zudem sind in diesen Hochlastphasen die zeitlichen Abstände zwischen den einzelnen Fahrten minimal, wodurch Verspätungen im dichten Takt des Nahverkehrs wesentlich schneller zu Kaskadeneffekten und Folgeverspätungen führen können. Während der Fernverkehr zwar – wie in Aufgabe 5 analysiert – häufiger und im Einzelfall schwerer verspätet ist, operiert er in einem deutlich weniger dicht getakteten Zeitfenster. Somit lässt sich festhalten, dass Pünktlichkeit im Nahverkehr aufgrund der hohen Frequenz vor allem eine Herausforderung der Taktstabilität in Spitzenzeiten darstellt, während sie im Fernverkehr primär als Problem der Langstrecken-Zuverlässigkeit zu bewerten ist.

Nachdem Sie in Aufgabe 6 herausgefunden haben, dass es deutlich mehr Nahverkehrszüge als Fernverkehrszüge gibt, und diese für Pendler wichtiger sind, sollten Sie sich die Verspätungen der Nahverkehrszüge über den Tag anschauen, da diese vermutlich nicht gleichmäßig über den Tag verteilt sind. Pendler erleben die Bahn vor allem in der Hauptverkehrszeit, d.h. morgens zwischen 7 und 9 Uhr und abends zwischen 16 und 19 Uhr. Aber ist die Bahn zu diesen Zeiten besonders unpünktlich?

Erstellen Sie zwei Heatmaps, die zeigen, wie sich die Verspätungen nach Tageszeit (Stunde) und Wochentag für die Nahverkehrszüge und die Fernverkehrszüge verteilen. Nutzen Sie für diese Analyse den Datensatz bahn.

Extrahieren Sie aus der Variable time die Stunde und den Wochentag.
Filtern Sie auf die relevanten Tageszeiten (5-23 Uhr), da nachts kaum Zugverkehr stattfindet.
Aggregieren Sie die durchschnittliche Verspätung pro Stunde und Wochentag für Nah- und Fernverkehrszüge separat.
Erstellen Sie eine Heatmap mit ggplot2 und geom_tile().

Tipp zur Farbskala: Da Fernverkehrszüge im Durchschnitt höhere Verspätungen haben als Nahverkehrszüge, können Sie unterschiedliche Farbskalen für die beiden Heatmaps verwenden (z.B. Blau-Töne für Nahverkehr, Rot-Töne für Fernverkehr). Dadurch werden die Muster innerhalb jeder Verkehrsart besser sichtbar.

Beschreiben und interpretieren Sie ihre Grafiken.

Wann sind die Verspätungen am höchsten?
Gibt es Unterschiede zwischen Werktagen und Wochenende?
Gibt es Unterschiede zwischen Nah- und Fernverkehrszügen?
Was bedeutet das für Pendler?

Beschreibung

Die Heatmaps zeigen die Verspätungen im Nah- und Fernverkehr nach Wochentagen und Stunden gegliedert. Wobei eine dunkelere Verfärbung auf eine höhere Verspätung hindeutet.

Analyse der Verspätungsmuster mittels Heatmaps

Die grafische Auswertung der durchschnittlichen Verspätungen nach Tageszeit und Wochentag mittels Heatmaps offenbart fundamentale Unterschiede in der zeitlichen Verteilung zwischen Nah- und Fernverkehr. Im Nahverkehr zeigt sich über die gesamte Woche hinweg ein stabiles Bild mit moderaten Verspätungswerten, die sich überwiegend im Bereich unter sechs Minuten bewegen. Die höchsten Verspätungen treten hier tendenziell in den späten Nachmittagsstunden auf, wobei insbesondere die Werktage von Montag bis Freitag eine leichte Intensivierung ab ca. 16:00 Uhr aufweisen. Am Wochenende ist die Verspätungsintensität im Nahverkehr insgesamt geringer und gleichmäßiger verteilt, was sich in einer helleren, homogenen Färbung der Heatmap widerspiegelt.

Im Gegensatz dazu zeigt der Fernverkehr eine signifikant höhere Verspätungsanfälligkeit mit einem klaren kumulativen Trend über den Tagesverlauf. Die Verspätungen nehmen ab den Mittagsstunden kontinuierlich zu und erreichen ihre Maximalwerte in den späten Abendstunden ab 20:00 Uhr, wo die Durchschnittswerte verbreitet die Marke von 15 bis 20 Minuten überschreiten. Ein Vergleich der Wochentage macht deutlich, dass die Situation am Montag und Freitag besonders kritisch ist. Diese Tage weisen die großflächigsten und intensivsten Färbungen im Abendbereich auf, während der Sonntag zwar ebenfalls belastet ist, aber in der Fläche der extremen Verspätungen hinter dem Wochenstart und dem Freitag zurückbleibt.

Interpretation und Relevanz für den Pendlerverkehr

Die Unterschiede zwischen den Verkehrsarten sind strukturell: Während der Nahverkehr primär durch punktuelle, tageszeitabhängige Spitzen im Berufsverkehr belastet ist, leidet der Fernverkehr unter massiven Kumulationseffekten, die gegen Ende des Tages eskalieren. Da Fernzüge lange Strecken zurücklegen, addieren sich Verzögerungen über den Tag hinweg auf, was die Eskalation der Werte am späten Abend erklärt. Die besonders dunklen Bereiche am Montag und Freitag korrelieren zudem mit der hohen Belastung des Schienennetzes durch den Wochenpendelverkehr. An diesen Tagen trifft ein hohes Aufkommen an Geschäftsreisenden und Pendlern auf eine bereits strapazierte Infrastruktur, was die Fehleranfälligkeit des Gesamtsystems erhöht.

Für den typischen Pendler bedeutet dies eine differenzierte Risikolage. Wer auf den Nahverkehr angewiesen ist, muss vor allem am späten Nachmittag mit kleineren Verzögerungen rechnen, profitiert aber von einer insgesamt hohen Vorhersehbarkeit. Pendler im Fernverkehr hingegen sind einem deutlich höheren Risiko massiver Zeitverluste ausgesetzt, insbesondere bei Fahrten am späten Abend. An den Hauptreisetagen Montag und Freitag ist die Wahrscheinlichkeit am größten, dass Anschlüsse aufgrund der hohen durchschnittlichen Verspätungswerte nicht mehr erreicht werden, was die Planungssicherheit für Langstreckenpendler erheblich einschränkt. Dies macht alternative Pufferzeiten in der Reiseplanung unumgänglich, um die geringere Resilienz des Fernverkehrssystems auszugleichen.

Von der Zeit zum Ort: Wo entstehen die Verspätungen?

In Aufgabe 7 haben Sie analysiert, wann die Verspätungen auftreten, nämlich vor allem zu den Hauptverkehrszeiten. Aber die nächste wichtige Frage ist: Wo entstehen diese Verspätungen?

Aggregierte Statistiken wie Durchschnittswerte über ganz Deutschland verbergen oft große regionale Unterschiede. Vielleicht gibt es einzelne “Problembahnhöfe”, die den Durchschnitt nach oben ziehen? Oder sind die Verspätungen gleichmäßig über das Netz verteilt? Diese Frage ist wichtig, weil sie unterschiedliche Lösungsansätze impliziert: Bei wenigen Problembahnhöfen könnte die Bahn gezielt investieren, bei flächendeckenden Problemen bräuchten Sie systemische Lösungen.

Identifizieren Sie die 10 unpünktlichsten Bahnhöfe in Deutschland (mit mindestens 1.000 Halten im Monat). Nutzen Sie für diese Analyse den Datensatz bahn.

Erstellen Sie ein Balkendiagramm, das die durchschnittliche Verspätung dieser Bahnhöfe zeigt. Beschriften Sie die Balken mit den Verspätungswerten.

Beschreiben und interpretieren Sie ihre Grafik.

Sehen Sie ein geografisches Muster?
Handelt es sich um große Knotenbahnhöfe oder eher um kleinere Stationen?

Beschreibung der Grafik

Das Balkendiagramm zeigt die zehn Bahnhöfe in Deutschland mit den höchsten durchschnittlichen Verspätungen (zwischen ca. 12,3 und 14,7 Minuten), wobei nur Bahnhöfe mit mindestens 1.000 Halten berücksichtigt wurden. Die Bahnhöfe sind auf der y-Achse aufgelistet, die x-Achse zeigt die durchschnittliche Verspätung in Minuten.

Geografische Verteilung und Bundesländer

Die Mehrheit der Bahnhöfe (sieben von zehn) befindet sich in Nordrhein-Westfalen, was die starke Konzentration der Pünktlichkeitsprobleme in diesem Bundesland verdeutlicht. Zwei weitere Bahnhöfe (Bad Breisig und Sinzig (Rhein)) liegen in Rheinland-Pfalz, und ein Bahnhof befindet sich in Brandenburg. Die starke Ballung in Nordrhein-Westfalen spiegelt die besondere Bedeutung und hohe Verkehrsbelastung der Region wider, insbesondere im Ruhrgebiet und den angrenzenden Gebieten.

Zusammenhang mit den Hauptverkehrsstrecken

Die unpünktlichsten Bahnhöfe liegen hauptsächlich entlang zweier bedeutender Hauptstrecken:

Die linke Rheinstrecke

Diese Strecke führt von Köln über Bonn und Koblenz bis nach Mainz und zählt zu den meistbefahrenen Eisenbahnstrecken Deutschlands. Hier verkehren sowohl Fern- als auch Regionalzüge sowie ein hoher Anteil an Güterzügen, die wichtige Häfen an der Nordsee mit Süddeutschland verbinden. Die hohe Zugdichte auf dieser Strecke führt zu starken Kapazitätsgrenzen und erschwert den Pünktlichkeitsbetrieb, insbesondere, da kaum Ausweichstrecken vorhanden sind.
Das Rhein-Ruhr-Netz

Europas dichtestes Bahnnetz mit zahlreichen Knotenpunkten und Kreuzungen im Ruhrgebiet. ¹ Aufgrund der komplexen Infrastruktur und der Vielzahl an Verbindungen können sich Verspätungen hier schnell auf andere Züge und Bahnhöfe ausweiten. Dies erklärt die Häufung unpünktlicher Bahnhöfe im Ruhrgebiet, das Teil von Nordrhein-Westfalen ist.

Typische Bahnhöfe

Von den Top 10 sind die Meisten kleinere bis mittlere Stationen, die jedoch durch die Lage an den stark belasteten Hauptstrecken empfindlich auf Netzverzögerungen reagieren. Besonders Bahnhöfe wie Ennepetal (Gevelsberg), Brühl oder Rolandeck liegen an diesen dicht befahrenen Streckenabschnitten und zeigen, wie Verspätungen aus dem Gesamtnetz sich hier konzentrieren.

Verknüpfung mit Pendler- und Ballungsgebieten

Die Verteilung der unpünktlichsten Bahnhöfe korrespondiert mit den Ballungsräumen mit hohem Pendleraufkommen, insbesondere im Ruhrgebiet. Dort befinden sich auch wichtige Städte mit den meisten Pendlern, wie Köln, Düsseldorf und Essen. Die Kombination aus hoher Zugfrequenz, Güterverkehr und komplexer Streckenführung führt hier zu den größten Herausforderungen im Pünktlichkeitsmanagement.

Wo treffen viele Pendler auf eine unpünktliche Bahn?

Bisher haben Sie Pendler- und Bahndaten getrennt betrachtet. Aber die spannende Frage ist: Wo kommen beide Probleme zusammen? Eine Stadt mit vielen Pendlern und einer unpünktlichen Bahn hat ein größeres Problem als eine Stadt mit wenigen Pendlern und einer unpünktlichen Bahn.

Um diese Frage zu beantworten, müssen Sie die Datensätze verknüpfen. Das Problem: Die Bahndaten sind auf Bahnhofsebene, die Pendlerdaten auf Kreisebene. Sie benötigen ein Mapping, das Bahnhöfe den entsprechenden Kreisen zuordnet.

In dieser Aufgabe verknüpfen Sie die Bahn- und Pendlerdaten, um Städte mit Handlungsbedarf zu identifizieren. Nutzen Sie für ihre Analysen die Datensätze: bahn, pendler und bahnhof_mapping.

Das Mapping ordnet Bahnhöfe ihrem Landkreis zu (via AGS = Amtlicher Gemeindeschlüssel). Ihr Ziel: Identifizieren Sie Städte, in denen viele Pendler auf eine unpünktliche Bahn treffen.

Berechnen Sie für jeden Bahnhof die durchschnittliche Verspätung und die Anzahl der Halte.
Aggregation auf Kreisebene: Berechnen Sie für jeden Kreis die gewichtete durchschnittliche Verspätung. Gewichten Sie nach der Anzahl der Halte (ein Bahnhof mit 10.000 Halten zählt mehr als einer mit 100).
Verknüpfen Sie das Ergebnis mit den Pendlerdaten mittels left_join() über die Variable ags.
Problem-Score berechnen: Kombinieren Sie beide Dimensionen mit z-Standardisierung:

\[\text{Problem-Score} = z(\text{Einpendler}) + z(\text{Verspätung})\]

Die z-Standardisierung macht die Werte vergleichbar: \(z(x) = \frac{x - \bar{x}}{s_x}\), wobei \(\bar{x}\) der Mittelwert und \(s_x\) die Standardabweichung ist.

Interpretation: Ein hoher Problem-Score = Viele Pendler + hohe Verspätung = Handlungsbedarf.

Anschließend sollten Sie eine Tabelle der Top 10 Städte nach Problem-Score darstellen und diese kurz beschreiben.

Top 10 Städte/Kreise mit dem größten Handlungsbedarf im Bahnverkehr
Stadt / Kreis	Einpendler pro Tag	Durchschnittliche Verspätung (Minuten)	Zughalte im Monat	Handlungsbedarf-Score
München, Landeshauptstadt	455.645	5.98	55.032	3.45
Köln, Stadt	306.905	7.89	29.204	3.05
Düsseldorf, Stadt	284.696	7.33	42.508	2.55
Frankfurt am Main, Stadt	405.856	5.14	56.182	2.54
Berlin, Stadt	392.324	4.70	44.757	2.18
Hamburg, Freie und Hansestadt	392.951	4.44	57.256	2.05
Duisburg, Stadt	86.735	8.81	24.070	1.46
Hamm, Stadt	22.447	9.93	11.558	1.45
Stuttgart, Landeshauptstadt	274.442	5.30	46.961	1.38
Bonn, Stadt	112.607	8.00	8.087	1.28

Beschreibung

Die Tabelle „Top 10 Städte/Kreise mit dem größten Handlungsbedarf im Bahnverkehr“ identifiziert die Regionen, die im kombinierten Problem-Score aus Pendleraufkommen und gewichteter Durchschnittsverspätung die kritischsten Werte erzielen.

Analyse

Das Ranking wird nun von der Landeshauptstadt München angeführt, die mit einem Problem-Score von 3,45 den Spitzenplatz einnimmt. Dieses Ergebnis resultiert primär aus der extrem hohen Anzahl von 455 645 Einpendlern pro Tag in Kombination mit einer gewichteten Verspätung von 5,98 Minuten.

Auf den folgenden Plätzen bis Rang sechs rangieren weitere große Metropolen wie Köln, Düsseldorf, Frankfurt am Main, Berlin und Hamburg mit Scores zwischen 2,05 und 3,05. Innerhalb dieser Gruppe weist Köln mit 7,89 Minuten die höchste durchschnittliche Verspätung auf, während Düsseldorf trotz etwas geringerer Pendlerzahlen aufgrund einer Verspätung von 7,33 Minuten einen hohen Score von 2,55 erreicht. Hamburg bildet den Abschluss der oberen Tabellenhälfte mit einem Score von 2,05 bei einer vergleichsweise geringen Verspätung von 4,44 Minuten.

Im unteren Teil der Top 10 finden sich Städte wie Duisburg, Hamm, Stuttgart und Bonn mit Scores von 1,28 bis 1,46. Auffällig ist hier die Stadt Hamm, die trotz der mit Abstand geringsten Pendlerzahl im Ranking (22 447) aufgrund der höchsten durchschnittlichen Verspätung der gesamten Liste von 9,93 Minuten einen Score von 1,45 erreicht. Den Abschluss bildet die Stadt Bonn mit einem Score von 1,28. Die monatlichen Zughalte variieren in dieser Auswertung erheblich und reichen von rund 8 087 in Bonn bis zu über 56 182 in Frankfurt am Main.

Erstellen Sie ein Streudiagramm (Scatterplot), das die Beziehung zwischen Einpendlerzahl (x-Achse) und durchschnittlicher Verspätung (y-Achse) visualisiert.

Zeichnen Sie horizontale und vertikale Linien beim jeweiligen Mittelwert ein, um 4 Quadranten zu bilden
Färben Sie die Punkte nach Quadrant
Beschriften Sie die Städte mit den höchsten Problem-Scores
Nutzen Sie eine logarithmische Skala für die x-Achse

Beschreiben und iInterpretieren Sie die vier Quadranten:

Oben rechts: Viele Pendler + hohe Verspätung = ?
Oben links: Wenige Pendler + hohe Verspätung = ?
Unten rechts: Viele Pendler + niedrige Verspätung = ?
Unten links: Wenige Pendler + niedrige Verspätung = ?

Beantworten Sie dabei auch folgende Fragen:

Warum ist es sinnvoll die x-Achse zu logarithmieren?
Welche Städte liegen im kritischen Quadranten?
Was würden Sie der Deutschen Bahn empfehlen?

Beschreibung des Streudiagramms

Das Streudiagramm zeigt den Zusammenhang zwischen der Anzahl der Einpendler*innen (x-Achse) und der durchschnittlichen Verspätung im Bahnverkehr (y-Achse) für verschiedene deutsche Städte. Die x-Achse ist dabei logarithmisch skaliert, um große Unterschiede im Pendleraufkommen besser darzustellen und damit relative Unterschiede besser sichtbar zu machen. Die gestrichelten Linien stellen die jeweiligen Mittelwerte (Pendlerzahl und Verspätung) da und teilen das Streudiagramm damit in vier Quadranten. Die Punkte sind dabei farblich nach Quadrant codiert.

Interpretation der Quadranten

Der Quadrant oben rechts stellt den kritischen Quadranten dar. In diesen Städten pendeln besonders viele Menschen und gleichzeitig treten überdurchschnittlich hohe Verspätungen auf. Wie an den beschrifteten Punkten zu sehen ist, ist dies besonders in Metropolregionen wie Düsseldorf, Köln und München ein Problem. Hier trifft eine hohe Nachfrage auf eine überlastete Infrastruktur und Störungen wirken sich direkt auf besonders viele Fahrgäste aus.

In dem Quadranten oben links sind Städte abgebildet, die eher ein lokales Problem haben, da dort wenige Pendler sind, es aber trotzdem zu hohen Verspätungen kommt. Die Probleme liegen hier also weniger durch ein hohes Fahrgastaufkommen erklären, sondern durch lokale Faktoren wie Baustellen oder organisatorische Probleme.

Der Quadrant darunter zeigt die unauffälligen Regionen, die wenig Pendler und niedrige Verspätungen haben. In diesen Regionen ist die Bahninfrastruktur also stabil und es besteht kein (akuter) Handlungsbedarf.

Unten rechts werden die Städte dargestellt, die trotz vielen Pendlern nur geringe Verspätungen haben und damit schon gute Infrastrukturen und Abläufe haben. Zu ihnen gehören Städte wie Berlin, Hamburg oder Frankfurt, die zeigen, dass viele Pendler nicht automatisch zu hohen Verspätungen führen müssen.

Handlungsempfehlung für die DB

Um die Unzufriedenheit mit der Nutzung der deutschen Bahn zu verringern, sollten sie am Besten direkt im kritischen Quadrant beginnen, Änderungen vorzunehmen. Hierbei braucht es jedoch strukturelle Änderungen und gegebenenfalls auch Änderungen bei den Strecken, um die stark belasteten Bahnhöfe zu entlasten. Außerdem bräuchte es für die Probleme im linken oberen Quadranten eine bessere Planung und Koordinierung für lokale Probleme wie Baustellen.

Der Vergleich – Auto vs. Bahn

Sie haben nun identifiziert, wo die Bahn Probleme hat: Städte im kritischen Quadranten (viele Pendler + hohe Verspätungen) brauchen dringend Verbesserungen. Aber bevor Sie Empfehlungen aussprechen können, müssen Sie eine zentrale Frage beantworten:

Lohnt sich die Bahn überhaupt – oder ist das Auto trotz Stau schneller?

Denn selbst wenn die Bahn unpünktlich ist, könnte sie immer noch schneller sein als das Auto im Berufsverkehr. Umgekehrt: Eine pünktliche Bahn bringt wenig, wenn das Auto trotzdem schneller ist. Erst der direkte Vergleich zeigt uns, wo die Bahn wirklich konkurrenzfähig ist – und wo nicht.

Methodische Herausforderungen

Für einen fairen Vergleich sollten Sie “Äpfel mit Äpfeln” vergleichen:

Beim Auto muss der Stau berücksichtigt werden (nicht nur die theoretische Fahrzeit)
Bei der Bahn muss die Verspätung berücksichtigt werden (nicht nur der Fahrplan)
Beide Routen müssen dieselben Start- und Endpunkte haben

Für die Auto-Fahrtzeiten nutzen Sie OSRM (Open Source Routing Machine), das auf OpenStreetMap-Daten basiert. OSRM berechnet echte Straßenrouten, keine Luftlinien.

Erklären Sie in eigenen Worten:

Warum ist OSRM-Routing für diesen Vergleich besser geeignet als eine einfache Berechnung nach der Formel Distanz / Geschwindigkeit?
Welche Faktoren müssen zusätzlich berücksichtigt werden, um einen realistischen Vergleich zu ermöglichen? Denken Sie an:
- Tageszeit
- Parkplatzsuche
- Fußweg zum Ziel
- Wartezeit und Umsteigen bei der Bahn

Das OSRM-Routing stellt eine deutlich realistischere Alternative zur vereinfachten Formel Distanz / Geschwindigkeit dar, da es auf OpenStreetMap-Daten basiert. Somit werden die tatsächlichen Strukturen von Verkehrsnetzen und reale Verkehrsbedingungen beachtet.

Für einen fairen Vergleich müssen zusätzlich auch noch reale Zeitkomponenten einbezogen werden. Beim Auto sind dies insbesondere Stauzeiten, Parkplatzsuche und der daraus resultierende Fußweg zum Ziel. Bei der Bahn spielens Wartezeiten, Umstiege sowie Verzögerungen oder Verspätungen eine zentrale Rolle. Außerdem ist der Bahnhof selten das eigentliche Ziel, weshalb theoretisch auch noch die anschließende Nutzung des ÖPNV oder Fußwege beachtet werden müssten.

Diese zusätzlichen Komponenten sind jedoch nur eingeschränkt modellierbar. Deswegen ist es sinnvoll einen Bahnhof zu Bahnhof Vergleich zu betrachten. Dieser ermöglicht es, beide Verkhrsmittel mit identischen Start- und Endpunkten zu vergleichen, was methodisch sauberer und konsistenter ist.

Für die Top 10 Einpendler-Städte wurden typische Pendlerstrecken definiert (z.B. Dachau \(\rightarrow\) München, Neuss \(\rightarrow\) Düsseldorf). Die OSRM-Ergebnisse liegen bereits vor. Nutzen Sie für ihre Analyse den Datensatz fahrtzeit.

Erstellen Sie:

Eine Tabelle mit: Stadt, Strecke, Distanz (km), Auto-Fahrzeit (Hauptverkehrszeit), Bahn-Fahrzeit (real), Differenz
Berechnen Sie die jährliche Zeitersparnis bei 220 Arbeitstagen und 2x täglichem Pendeln.

Interpretieren Sie ihre Tabelle:

In wie vielen Fällen ist die Bahn schneller als das Auto?
Wie viele Stunden pro Jahr kann ein Pendler maximal sparen?
Gibt es Strecken, bei denen das Auto schneller ist? Woran könnte das liegen?

Zeitvergleich typischer Pendlerstrecken in Deutschland: Auto vs. Bahn
Stadt	Strecke	Distanz (km)	Auto-Fahrzeit (Hauptverkehrszeit, min)	Bahn-Fahrzeit (reale Fahrzeit, min)	Zeitdifferenz (Auto - Bahn, min)	Jährliche Zeitersparnis (Std/Jahr)
Berlin	Potsdam → Berlin	34.2	49.3	29.6	19.7	144.6
München	Dachau → München	19.1	40.2	26.1	14.1	103.5
Hannover	Celle → Hannover	42.2	54.4	40.8	13.6	99.8
Frankfurt	Darmstadt → Frankfurt	36.0	35.8	23.0	12.8	93.9
Düsseldorf	Neuss → Düsseldorf	12.1	27.1	17.1	10.0	73.3
Hamburg	Harburg → Hamburg	14.2	24.0	16.3	7.7	56.7
Stuttgart	Esslingen → Stuttgart	14.0	27.2	20.2	7.0	51.6
Nürnberg	Fürth → Nürnberg	10.4	18.9	12.9	6.0	44.4
Köln	Leverkusen → Köln	18.3	28.7	22.8	5.9	43.3
Essen	Mülheim → Essen	11.0	18.0	15.3	2.7	20.1
Ulm	Neu-Ulm → Ulm	3.7	8.1	8.9	-0.8	-5.8

Beschreibung

Die Tabelle vergleicht bei verschiedenen Pendlerrouten die Fahrzeiten mit der Bahn und dem Auto und berechnet schlussendlich die jährliche Zeitersparnis. Dabei wird davon ausgegangen, dass die Strecke zwei Mal pro Tag gefahren wird und das an 220 Arbeitstagen pro Jahr.

Interpretation

Die Interpretation der vorliegenden Ergebnisse verdeutlicht ein signifikantes Zeitersparnispotenzial des Schienenverkehrs gegenüber dem Individualverkehr während der Hauptverkehrszeiten.

Analyse der Reisezeiten und Einsparpotenziale Auf insgesamt 10 der 11 untersuchten Pendlerstrecken erweist sich die Bahn im realen Betrieb als das schnellere Verkehrsmittel. Besonders auf längeren Distanzen oder bei Fahrten in stark verdichtete Metropolräume wie Berlin oder München kann der Schienenverkehr seine systembedingten Vorteile – insbesondere die Unabhängigkeit vom Stauaufkommen auf stark belasteten Einfallstraßen – voll ausspielen.

Die maximale jährliche Zeitersparnis ergibt sich auf der Strecke Potsdam → Berlin mit 144,6 Stunden. Dies entspricht bei einer 40-Stunden-Arbeitswoche einer Einsparung von mehr als dreieinhalb Arbeitswochen an zusätzlicher Lebenszeit pro Jahr. Auch auf den Verbindungen nach München (103,5 Std.) und Hannover (99,8 Std.) liegen die Einsparungen bei rund 100 Stunden jährlich, was die Attraktivität der Bahn für mittel- bis langstreckige Pendler unterstreicht.

Ausnahmen und infrastrukturelle Ursachen

Eine Ausnahme bildet die Verbindung Neu-Ulm → Ulm. Hier ist das Auto mit einem geringen Vorsprung von 0,8 Minuten schneller, was bei Nutzung der Bahn einem rechnerischen Zeitverlust von 5,8 Stunden pro Jahr entspricht. Dieses Ergebnis lässt sich primär durch die sehr kurze Distanz von 3,7 Kilometern erklären, bei der fixe Zeitkomponenten des Schienenverkehrs (wie Zuwegung und Taktbindung) stärker ins Gewicht fallen als stauinduzierte Verzögerungen. Insgesamt zeigt die Analyse jedoch, dass der Zeitvorteil der Bahn mit zunehmender Pendlerdistanz und steigender Verkehrsbelastung der Zielstädte nahezu linear zunimmt.

Da Sie alle in Ulm studieren und eventuell aus dem Ulmer Umland einpendeln, sollten Sie die 5 wichtigsten Pendlerrouten nach Ulm näher analysieren. Stellen Sie in einem Dumbbell-Chart (oder Lollipop-Chart) die Unterschiede zwischen Auto- und Bahnzeiten visuell dar. Nutzen Sie für ihre Analyse den Datensatz ulm_routen.

Die 5 wichtigsten Pendlerrouten nach Ulm sind:

Neu-Ulm \(\rightarrow\) Ulm
Blaustein \(\rightarrow\) Ulm
Ehingen \(\rightarrow\) Ulm
Laupheim \(\rightarrow\) Ulm
Langenau \(\rightarrow\) Ulm

Markieren Sie, welche Orte keinen Bahnhof haben.

Beschreiben und interpretieren Sie ihre Grafik. Welche Besonderheiten zeigen die ländlichen Strecken?

Hinweis: Nutzen Sie geom_segment() und geom_point() für ihr Dumbbell-Chart oder Lollipop-Chart.

Beschreibung

Das vorliegende Dumbbell-Chart vergleicht die Fahrzeiten zwischen dem Individualverkehr (Auto während der Hauptverkehrszeit) und dem Schienenverkehr (reale Bahn-Fahrzeit) für die fünf wichtigsten Pendlerstrecken nach Ulm.

Analyse

Die Grafik verdeutlicht, dass die Bahn auf vier der fünf betrachteten Routen einen Zeitvorteil gegenüber dem Pkw bietet. Besonders markant ist die Zeitdifferenz auf der Strecke Ehingen (Donau) → Ulm, wo die Bahn mit ca. 26 Minuten gegenüber den etwa 34 Minuten des Pkws die größte absolute Ersparnis erzielt. Auch auf den Relationen von Langenau (ca. 10 Min. Differenz) und Laupheim (ca. 2 Min. Differenz) erweist sich der Schienenverkehr als das effizientere Mittel.

Eine wesentliche Besonderheit zeigt die Verbindung Blaustein → Ulm: Hier ist kein Vergleichswert für die Bahn hinterlegt, da Blaustein in diesem spezifischen Datensatz explizit als Ort ohne Bahnhof markiert ist. Folglich existiert für diese Route lediglich der Datenpunkt für den Pkw mit einer Fahrzeit von etwa 12 Minuten. Auf der kürzesten Strecke, Neu-Ulm → Ulm, liegen beide Verkehrsmittel mit ca. 6 bis 7 Minuten Fahrzeit nahezu gleichauf, wobei die Bahn auch hier einen minimalen Vorsprung hält.

Interpretation und Besonderheiten ländlicher Strecken

Die Analyse der Ulmer Umlandverbindungen offenbart strukturelle Unterschiede zwischen städtischen und ländlichen Pendlerwegen. Während im unmittelbaren Stadtverbund (Neu-Ulm) der Zeitvorteil der Bahn aufgrund der geringen Distanz marginal ist, zeigen die ländlichen Strecken (Ehingen, Langenau) eine deutlich höhere Effizienz des Schienenverkehrs. Dies liegt primär daran, dass die Bahn auf längeren Streckenabschnitten höhere Reisegeschwindigkeiten ohne staubedingte Unterbrechungen erreichen kann, während der Pkw-Verkehr insbesondere an den Engpässen der Ulmer Stadteinfahrten (z. B. B10 oder B28) massiv an Zeit verliert.

Die Route Blaustein → Ulm verdeutlicht jedoch die infrastrukturelle Grenze dieser Effizienz: Trotz der räumlichen Nähe zu Ulm sind Pendler ohne direkten Bahnhofsanschluss vollständig auf den Individualverkehr (oder den hier nicht dargestellten Busverkehr) angewiesen. Für das Umland bedeutet dies eine “binäre” Mobilitätssituation – Orte mit Gleisanschluss wie Ehingen oder Langenau profitieren massiv von der Schiene, während Orte ohne Anschluss trotz kurzer Distanzen in die Staustunden des Pkw-Verkehrs gezwungen werden.

Zusammenfassung

Zusammenfassend lässt sich interpretieren, dass die Bahn für das Ulmer Umland das primäre Instrument zur Umgehung der morgendlichen Verkehrsüberlastung darstellt. Je weiter die Pendlerstrecke in den ländlichen Raum hineinreicht, desto deutlicher wird die Bahn zur “Express-Option”, sofern die notwendige Infrastruktur (Bahnhof) vorhanden ist.

Die volkswirtschaftlichen Kosten

Verspätungen kosten nicht nur Nerven, sie haben einen realen volkswirtschaftlichen Preis. Jede Minute, die ein Pendler im verspäteten Zug wartet, ist verlorene Arbeitszeit.

Um diese Kosten etwas besser zu quantifizieren sollten Sie sich den Medianlohn der jeweiligen Städte herunterladen und näher analysieren.

Berechnen Sie die volkswirtschaftlichen Kosten der Bahnverspätungen für die 11 Städte.

Datensätze:

staedte_basis (aus Aufgabe 4) – enthält Einpendler, Medianlohn und Staudaten
Ergebnis aus Aufgabe 9: die gewichtete durchschnittliche Verspätung pro Stadt (in Minuten)

Nutzen Sie die folgenden Annahmen:

Annahmen:

220 Arbeitstage pro Jahr
2 Fahrten pro Tag (Hin + Zurück)
Ca. 8,4% der Pendler nutzen die Bahn (nationaler Durchschnitt laut MiD 2023 Kurzbericht)

Berechnen Sie für jede Stadt:

Anzahl der Bahnpendler (Einpendler × 8,4%)
Verspätungsstunden pro Jahr (Verspätung × 220 × 2 / 60)
Kosten pro Pendler (Verspätungsstunden × Stundenlohn)
Gesamtkosten der Stadt

Erstellen Sie auf Basis ihrer Berechnung eine Tabelle, welche die Anzahl der Bahnpendler, die Verspätungsstunden pro Jahr, die Kosten pro Pendler und die Gesamtkosten der Stadt anschaulich darstellt.

Beschreiben und interpretieren Sie ihre Tabelle. Gehen Sie dabei auch auf die Gesamtkosten der 11 Städte ein. Erklären Sie außerdem, warum der Medianlohn für diese Berechnung besser geeignet ist als der Durchschnittslohn.

Hinweis: Für die Umrechnung auf Stundenlohn: Monatsentgelt / 160 (bei 40h/Woche).

Volkswirtschaftliche Kosten der Bahnverspätungen
Stadt	Bahnpendler (8,4%)	Verspätungsstunden/Jahr	Kosten pro Pendler/Jahr	Gesamtkosten der Stadt/Jahr
München, Landeshauptstadt	38.274	43.9	€ 1.329	€ 50.857.934
Köln, Stadt	25.780	57.9	€ 1.591	€ 41.006.294
Frankfurt am Main, Stadt	34.092	37.7	€ 1.111	€ 37.878.234
Düsseldorf, Stadt	23.914	53.8	€ 1.520	€ 36.348.812
Hamburg, Freie und Hansestadt	33.008	32.6	€ 922	€ 30.437.681
Berlin, Stadt	32.955	34.5	€ 895	€ 29.510.477
Stuttgart, Landeshauptstadt	23.053	38.9	€ 1.139	€ 26.247.450
Essen, Stadt	11.869	54.6	€ 1.361	€ 16.153.949
Nürnberg, Stadt	13.902	37.1	€ 981	€ 13.633.810
Ulm, Universitätsstadt	5.741	29.5	€ 795	€ 4.565.660

Beschreibung der Tabelle

Die Tabelle zeigt die volkswirtschaftlichen Kosten der Bahnverspätungen für elf große deutsche Städte. Für jede Stadt werden die Anzahl der Bahnpendler, die durchschnittliche Verspätung in Minuten, die daraus resultierenden Verspätungsstunden pro Jahr, der Median-Stundenlohn sowie die Kosten pro Pendler und die Gesamtkosten der Stadt pro Jahr dargestellt. Die Berechnung basiert auf den Annahmen von 220 Arbeitstagen pro Jahr, zwei Pendelfahrten pro Tag und einem Bahnanteil von 8,4 % an den Einpendlern. So wird die Zeit berücksichtigt, die Pendler durch verspätete Züge jährlich verlieren.

Interpretation der Ergebnisse

München weist mit 38.274 Bahnpendlern die höchste Zahl an Betroffenen auf und verursacht mit 50.857.934 Euro die größten Gesamtkosten. Es folgen Köln mit 25.780 Pendlern und Gesamtkosten von 41.006.294 Euro sowie Frankfurt am Main mit 34.092 Pendlern und Kosten von 37.878.234 Euro. Städte wie Köln und Essen fallen besonders durch hohe Verspätungen von rund 7,9 beziehungsweise 7,45 Minuten auf, was sich trotz unterschiedlicher Pendlerzahlen in vergleichsweise hohen Kosten niederschlägt. Ulm hat mit 5.741 Bahnpendlern die wenigsten Betroffenen und verursacht mit 4.565.660 Euro die geringsten Gesamtkosten.

Der Median-Stundenlohn liegt zwischen 25,98 Euro in Berlin und 30,29 Euro in München, was die regionalen Unterschiede im Einkommensniveau abbildet und somit direkten Einfluss auf die Kosten pro Pendler und Gesamtkosten hat. Die Summe der volkswirtschaftlichen Kosten der Bahnverspätungen in den betrachteten elf Städten beträgt exakt 286.640.301 Euro pro Jahr. Diese immense Summe verdeutlicht eindrucksvoll den erheblichen wirtschaftlichen Schaden, den Zugverspätungen für Pendler und die Gesellschaft verursachen.

Bedeutung des Medianlohns

Der Medianlohn ist für diese Berechnung aussagekräftiger als der Durchschnittslohn, da er weniger durch Extremwerte verzerrt wird und somit ein realistisches Bild des typischen Einkommens der Pendler liefert. Dadurch lassen sich die volkswirtschaftlichen Kosten präziser abschätzen.

Setzen Sie die Kosten der Bahn (aus Aufgabe 14) den Kosten des Autos gegenüber. Vergleichen Sie diese in einer Szenario-Analyse mittels eines gestapelten Balkendiagramms. Nutzen Sie für ihre Analysen den Datensatz staedte_basis.

Berechnen Sie zuerst die Kosten des Autostaus pro Stadt:

Anzahl der Autopendler (Einpendler × 91,6%)
Staukosten pro Autopendler (Staustunden × Stundenlohn)
Gesamtkosten der Stadt durch Autostau

Führen Sie anschließend einen Szenario-Vergleich durch: Was passiert, wenn der Bahnanteil von 8,4% auf 20% steigt?

Berechnen Sie die Gesamtkosten (Bahn + Auto) für beide Szenarien
Annahme: Weniger Autos = weniger Stau (z.B. 20% weniger Stauzeit pro Autopendler)

Erstellen Sie ein gestapeltes Balkendiagramm nach Szenario. Beschreiben und intepretieren Sie ihre Grafik. Gehen Sie insbesondere auf die folgenden Fragen ein:

Wie verteilen sich die Kosten zwischen Bahn und Auto im Status quo?
Welches Verkehrsmittel verursacht den größeren volkswirtschaftlichen Schaden?
Was ist die Nettoersparnis bei 20% Bahnanteil?

Beschreibung

Die Graphik zeigt einen gestapelten Kostenvergleich zwischen den järlichen Staukosten des Autoverkehrs und den Verspätungskosten des Bahnverkehrs für zehn deutsche Städte. Dargestellt sind zwei Szenarien: der Status quo mit einem Bahnanteil von 8,4% und ein fiktives Szenario mit einem erhöhten Bahnanteil von 20% und der damit verbundenen Reduktion der Stauzeit.

Der Status Quo und ein mögliches Szenario

Der Status quo zeigt, dass der größte Anteil der volkswirtschaftlichen Kosten dem Autoverkehr zuzurechnen ist.In sämtlichen untersuchten Städten ist der Anteil staugebundener Verkehrszeiten deutlich höher als andere Anteile.Diese Verteilung tritt insbesondere in Großstädten wie München, Frankfurt und Berlin deutlich hervor.Die demgegenüber durch den Bahnverkehr entstehenden Kosten sind nur von nachrangiger Bedeutung. Dies verdeutlicht, dass die aktuellen Verkehrsprobleme und deren volkswirtschaftlichen Folgekosten hauptsächlich auf die hohe Belastung des Straßennetzes zurückzuführen ist.

Im Alternativszenario mit einem Bahnanteil von 20% verändert sich die Verteilung der Kosten sichtbar. In allen Städten verdoppeln sich die Bahnkosten während sich die Staukosten deutlich reduzieren. Insgesamt überkompensieren die Staukosten den Anstieg der Bahnkosten wodurch die Gesamtkosten deutlichen sinken. Insbesondere in großen Städten sieht man Einsparungen im neunstelligen Bereich, jedoch sind die Nettoersparnisse auch in den anderen Städten klar erkennbar.

Senkung der Kosten durch Umverlagerung Die Graphik macht deutlich, dass eine Verlagerung des Pendlerverkehrs auf die Bahn aus volkswirtschaftlicher sicht sinnvoll wäre. Obwohl dies zu zusätzlichen Kosten im Bahnverkehr führen würde, überwiegen die Gesamtersparnisse durch die Entlastung des Straßennetzes klar. Besonders in urbanen, hoch bevölkerten Regionen wäre dies sehr effizient.

Politikempfehlung – Ihre Synthese

Sie haben nun umfangreiche Analysen durchgeführt und viele Erkenntnisse über die Bahn gewonnen. Jetzt ist es Zeit, diese zu einer kohärenten Empfehlung zusammenzufügen.

Szenario: Sie sind Berater:in des Bundesministeriums für Digitales und Verkehr. Die Ministerin bittet Sie um eine evidenzbasierte Politikempfehlung zur Verbesserung des Pendlerverkehrs in Deutschland.

Formulieren Sie eine Politikempfehlung für das Bundesministerium für Digitales und Verkehr.

Schreiben Sie eine Executive Summary (max. 5 Sätze). Fassen Sie hierbei die wichtigsten Erkenntnisse aus ihrem Projekt zusammen. Was ist die zentrale Botschaft?

Formulieren Sie 3 konkrete Empfehlungen. Jede muss enthalten:

Ein konkretes Ziel (Was soll erreicht werden?)
Eine messbare Maßnahme (Wie wird es umgesetzt?)
Eine Begründung mit Zahlen aus Ihrer Analyse
Nennen Sie zwei Limitationen Ihrer Datengrundlage
Was würden Sie mit zusätzlichen Daten noch untersuchen?

Zusammenfassung unserer Analyse

Zusammenfassend zeigt unsere Analyse: Der Pendlerverkehr ist stark autozentriert, was zu erheblichen Zeitverlusten und Kosten führt. Die Bahn ist staufrei, aber ihre Pünktlichkeit und Zuverlässigkeit variieren stark, vor allem in stark belasteten Ballungsräumen. Volkswirtschaftlich wäre ein höherer Bahnanteil sinnvoll. Er entlastet Straßen, spart Zeit und Kosten und erhöht die Pendlerzufriedenheit, vorausgesetzt Pünktlichkeit, Kapazität und Infrastruktur werden verbessert.

Handlungsempfehlungen

Unsere Empfehlung lautet daher: gezielte Investitionen in Infrastruktur, Taktoptimierung und Pünktlichkeit, insbesondere an den kritischen Strecken, kombiniert mit Anreizen für Pendler, auf die Bahn umzusteigen.

Empfehlung 1: Bahnanteil in Metropolregionen gezielt erhöhen. Das Ziel muss sein den Bahnanteil unter den Pendlern in Deutschlands größten Städten deutlich zu steigern.Die Analysen zeigen, dass Städte mit hoher Stauanfälligkeit besonders stark von dieser Verlagerung profitieren können; bereits moderate Reduzierungen des Autoverkehrs haben historisch gesehen zu unverhältnismäßig großen Kostensenkungen geführt. Dies setzt den Ausbau der Kapazitäten, Investitionen in Hauptkorridoren sowie Fahrpreisermäßigungen für Pendler voraus. Eine Maßnahme wäre das Jobticket deutlich attraktiver zu gestalten. Schon zur Einführung des Deutschlandtickets konnte ein Sprunghafter Anstieg der Bahnfahrer verzeichnet werden. Einen ähnlichen Effekt könnte Preissenkung des Jobtickets haben. Allerdings ist die Beziehung zwischen dem Anteil des Schienenverkehrs und dem Stau nicht direkt linear, und Verhaltensanpassungen (z.B. induzierter Verkehr) können diese Beziehung beeinflussen. Zudem basieren die in diesem Projekt dargestellten Reisezeitvergleiche nicht vollständig auf Tür-zu-Tür-Reisezeiten, was zu individuellen Unterschieden in den Pendlererfahrungen führen kann. Eine genauere Metrik könnte durch zusätzliche Daten zur modalen Verteilung nach Korridoren und zu verschiedenen Tageszeiten sowie zu den Schienenkapazitäten erzielt werden.

Empfehlung 2: Park-and-Ride zur Entlastung der Hauptpendlerrouten Die zweite Empfehlung besteht darin, den Autoverkehrsstau durch den Ausbau von Park-and-Ride-Anlagen und die Verbesserung der Zubringer im Schienenverkehr zu reduzieren. Diese Maßnahmen zielen darauf ab, den Autoverkehr in stark überlasteten Innenstadtbereichen zu verringern, ohne Pendler aus angrenzenden Vororten zu benachteiligen. Dies beruht auf der Erkenntnis, dass bei einer geringfügigen Abweichung des Verkehrsvolumens von den verkehrsreichsten Zeiten erhebliche Effizienzen erreicht werden können. In unseren Analysen konnten wir sehen, dass Stauzeiten einen hohen Anteil an den gesamten Pendelkosten ausmachen und daher ein besonders geeigneter Punkt für politische Interventionen sind. Einschränkungen in den aggregierten Staudaten betreffen die unvollständige Abbildung lokaler Engpässe sowie potenzielle Rückflusseffekte, wenn zuvor freigegebene Straßenräume erneut genutzt werden. Weitere Informationen zu lokalen Verkehrsströmen, zur Nutzung von Park-and-Ride-Anlagen und zur Qualität der Zubringer könnten dazu beitragen, die Auswirkungen genauer zu messen.

Empfehlung 3: Verbesserung der Zuverlässigkeit Die dritte Empfehlung zielt darauf ab, die Zuverlässigkeit des Schienenverkehrs zu verbessern, um langfristige Vorteile für Verkehrsverlagerungen zu sichern. Hierbei soll der Anstieg der Verspätungskosten, der mit einem höheren Schienenanteil einhergeht, minimiert werden. Das Ziel ist es, die zunehmenden Verspätungen im Schienenverkehr zu reduzieren, um den Nettovorteil der Verlagerungsstrategie zu maximieren. Die Bewertungen zeigen, dass auf vielen bestehenden Pendelstrecken der Schienenverkehr mittlerweile eine wettbewerbsfähige (oder sogar günstigere) Reisezeitoption darstellt. Diese Vorteile können jedoch nur dann voll zur Geltung kommen, wenn eine hohe Zuverlässigkeit gewährleistet ist. Maßnahmen zur Wartung, zur Stabilisierung der Fahrpläne in den Hauptverkehrszeiten, zum Leistungsmanagement der Verbindungen und zur Stärkung des Schienenverkehrs sind daher entscheidend.

Die tatsächlichen Kosten von Verspätungen variieren erheblich je nach Bewertungsmethodik, und die zusätzliche Nachfrage führt nicht immer in gleichem Maße zu höheren Verspätungen. Zukünftige Untersuchungen, die detaillierte Pünktlichkeits- und Betriebsdaten für präzisere Ergebnisse nutzen, könnten gezielte Aufmerksamkeit auf die primären Störungsquellen lenken. Insgesamt zeigen die Ergebnisse, dass die größte Chance, die wirtschaftliche Belastung des Pendelns zu reduzieren, in einer integrierten Verkehrspolitik liegt, die Verkehrsverlagerung, Stauvermeidung und zuverlässigen Transport miteinander kombiniert.

Zusatzaufgaben (optional)

Bisher haben Sie zwei Dimensionen betrachtet: Zeit (Bahn ist schneller) und Geld (Verspätungen kosten). Aber es gibt einen dritten, oft vergessenen Aspekt: die Umwelt.

Das Auto ist nicht nur langsamer und teurer; es ist auch ein Klimakiller. Ein durchschnittlicher PKW emittiert z.B. etwa 150 g CO2 pro Personenkilometer.

Recherchieren Sie die CO2-Emissionsfaktoren und das Mobilitätsverhalten:

Erstellen Sie eine kleine Tabelle in der Sie die CO2-Emissionen (in g/Personenkilometer) für folgende Verkehrsmittel auflisten:
- PKW (Durchschnitt)
- PKW (Elektro, deutscher Strommix)
- ICE/IC (Fernverkehr)
- RE/RB (Nahverkehr)
- S-Bahn
Berechnen Sie einen gewichteten Durchschnitt für die Bahn, wenn 70% der Pendler Nahverkehr und 30% Fernverkehr nutzen.
Um wie viel Prozent sind die Bahn-Emissionen niedriger als beim Auto?

Hinweis: Nutzen Sie Daten vom Umweltbundesamt oder dem DB Umweltbericht.

CO₂-Emissionen nach Verkehrsmittel (g CO₂ / Personenkilometer)
Verkehrsmittel	CO₂-Emissionen (g/Pkm)
PKW (Durchschnitt)	164.0
PKW (Elektro, deutscher Strommix)	50.0
ICE / IC (Fernverkehr)	26.0
RE / RB (Nahverkehr)	44.0
S-Bahn	42.0
Bahn (gewichtet)	37.9

Quelle für die Daten ²

Die Studie “Mobilität in Deutschland” (MiD 2023) ist die wichtigste Datenquelle zum Mobilitätsverhalten in Deutschland. Sie ermöglicht einen Vergleich mit 2017 (vor Corona).

Lesen Sie den MiD 2023 Kurzbericht und beantworten Sie:

Modal Split: Wie hat sich der Anteil des öffentlichen Verkehrs (ÖV) am Gesamtverkehr zwischen 2017 und 2023 verändert?
Homeoffice-Effekt: Wie hat sich die durchschnittliche Tagesstrecke verändert? Was ist laut MiD der Hauptgrund für diese Veränderung?
Stadt vs. Land: Welchen Anteil hat das Deutschlandticket in Metropolen vs. ländlichen Räumen? Was bedeutet das für die Ulm-Region?
Implikation für CO2: Welche Schlussfolgerung ziehen Sie aus diesen Veränderungen für das CO2-Einsparpotenzial durch Bahnpendeln? (2-3 Sätze)

In dem MiD 2023-Kurzbericht wird der Modal Split der zurückgelegten Wege dargestellt. Dieser zeigt welchen Anteil verschiedenen Verkehrsmittel aber bspw. auch der Fußverkehr am gesamten Verkehrsaufkommen haben. Betrachtet man jetzt speziell den öffentlichen Verkehr aus Bus und Bahn sieht man 2017 auf 2023 eine Steigerung um 1% auf 11% am Gesamtverkehr für das Jahr 2023. Außerdem ist die durchschnittliche Tagesstrecke, die eine Person pro Tag zurückgelegt von 39 km im Jahr 2017 auf 35 km 2023 gesunken. In dem Bericht wird dies auf veränderte Alltagsabläufe zurückgeführt. Dazu gehört das in Teilen auf Homeoffice umgestellt. Es werden jedoch auch Umstellungen im Kaufverhalten der Menschen als Einflussfaktor angeführt. Da Online-Shopping sowie Lieferdienste zunehmend an Beliebtheit gewinnen. Die reduzierte Mobilität liegt also nicht nur an der Umstellung auf Home Office. Ein weiterer Grund für die leichte Verschiebung hin zu den öffentlichen Verkehrsmitteln ist das Deutschlandticket, welches 2024 fast von jedem sechsten Erwachsenen regelmäßig genutzt wurde. Eine örtliche Aufteilung nach den Wohnorten der Nutzer*innen ist in dem Bericht nicht gegegeben. Aus dem Schaubild auf Seite 19 des Kurzberichts geht hervor, dass in Metropolen der ÖPNV das meist genutzte Verkehrsmittel ist, während mit abnehmender Urbanisierung auch in der Stadtregion die wöchentliche PKW Nutzung, die ÖPNV Nutzung übersteigt. In den ländlichen Regionen ist die ÖPNV Orientierung dem Auto weit unterlegen. Jenachdem ob man zentrale Städte oder den dörflichen Raum in den lädnlichen Ragionen vergleicht, liegt die wöchentliche Pkw Nutzung bei über 50%. Die Nutzung der Öffis schwankt jeoch bei rund 5% bis zu 10% je nach Struktur. Die Verteilung der Deutschland Tickets könnte also ähnlich aussehen. Wenn man dies jetzt auf Ulm bezieht, kann man von einer ähnlichen Verteilung ausgehen. Sprich das in der direkten Stadt die Nutzung am höchsten ist und umso weiter wir uns von dem Zentrum entfernen und auf das Land gehen die Nutzung sinkt. Zu beachten sind dann die Pendler, die aus dem ländlichen Raum in die Stadt pendeln, um zu Arbeiten oder bspw. zur Uni zu gehen, welche typischerweise das Deutschlandticket nutzen.

Die leichten Verschiebungen im Modal Split hin zu mehr öffentlichen Verkehrsmitteln und die reduzierte durchschnittliche Tagesstrecke deuten darauf hin, dass Wege insgesamt kürzer und der ÖV-Anteil im Verkehr etwas höher ist als 2017. Das Deutschlandticket als vereinfachtes ÖPNV-Angebot kann diese Entwicklung – insbesondere in städtischen Räumen – weiter begünstigen. Für das CO₂-Einsparpotenzial durch Bahnpendeln bedeutet dies, dass ein verstärkter Verlagerungseffekt vom Pkw auf den ÖV, gerade in Pendelbeziehungen, langfristig zu relevanten Emissionsreduktionen beitragen kann.

Berechnen Sie die CO2-Ersparnis für die 11 analysierten Städte.

Datensatz: co2_analyse (aus Aufgabe 4) – enthält Streckenlängen, Einpendlerzahlen und vorberechnete Werte

Annahmen:

220 Arbeitstage pro Jahr
2 Fahrten pro Tag (Hin + Zurück)
CO2-Auto: 150 g/km, CO2-Bahn: 47 g/km (gewichteter Durchschnitt)

Berechnen Sie für jeden Umsteiger (Auto \(\rightarrow\) Bahn):

Jährliche Kilometer
CO2-Emissionen mit Auto (kg/Jahr)
CO2-Emissionen mit Bahn (kg/Jahr)
Ersparnis (kg/Jahr)

Nun sollten Sie eine Szenario Analyse ähnlich wie in Aufgabe 15 durchführen: Wenn sich der Bahnanteil von 8,4% auf 20% erhöht: wie viele Tonnen CO2 würden in den 11 Städten jährlich eingespart?

Visualisieren Sie die CO2-Ersparnis pro Stadt.

Stellen Sie die Ersparnis in Kontext, um die Ersparnis greifbarer zu machen, z.B. wie viele Mallorca-Flüge (hin + zurück, ~750 kg CO2) entspricht das?

Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (`bahnhof_ags_mapping.csv`)

Dieses Mapping ist essenziell für die Verknüpfung von Bahn- und Pendlerdaten. Die Bahndaten sind auf Bahnhofsebene (z.B. “München Hbf”), die Pendlerdaten auf Kreisebene (z.B. “München, Landeshauptstadt”). Der AGS (Amtlicher Gemeindeschlüssel) ist der Schlüssel, der beide Welten verbindet.

Wichtige Variablen:

station_name: Name des Bahnhofs
ags: Amtlicher Gemeindeschlüssel (5-stellig für Kreise)
kreis_name: Name des Landkreises/der kreisfreien Stadt

2. Fahrtzeit-Vergleich OSRM (`fahrtzeit_osrm_vergleich.csv`)

Für einen fairen Vergleich Auto vs. Bahn brauchen wir realistische Fahrtzeiten. OSRM (Open Source Routing Machine) berechnet echte Straßenrouten basierend auf OpenStreetMap – keine Luftlinien, sondern tatsächliche Straßenverbindungen mit Abbiegevorgängen, Geschwindigkeitsbegrenzungen und Straßentypen.

Wichtige Variablen:

stadt: Zielstadt der Pendlerstrecke
strecke_name: Beschreibung der Route (z.B. “Dachau \(\rightarrow\) München”)
auto_distanz_km: Fahrstrecke mit dem Auto in km
auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit (mit Staufaktor)
bahn_planzeit_min: Fahrzeit laut Fahrplan
bahn_verspaetung_min: Durchschnittliche Verspätung
bahn_real_min: Realistische Bahnfahrzeit (Fahrplan + Verspätung)

Wie wurde das Routing durchgeführt?

Koordinaten ermitteln: Für jede Pendlerstrecke wurden Start- und Zielkoordinaten definiert (z.B. Stadtzentrum Dachau \(\rightarrow\) München Hauptbahnhof).
OSRM-API abfragen: Über die öffentliche OSRM-Demo-API (router.project-osrm.org) wurden für jede Route Distanz und Fahrzeit abgefragt. Die API gibt die schnellste Route zurück, basierend auf dem aktuellen Straßennetz.
Staufaktor anwenden: Die OSRM-Basisfahrzeit entspricht einer Fahrt bei freiem Verkehr. Für die Hauptverkehrszeit (HVZ) wurde ein Staufaktor von 1,3-1,5 angewendet, basierend auf den INRIX-Daten der jeweiligen Stadt.
Bahn-Daten ergänzen: Die Bahnfahrzeiten stammen aus dem DB-Fahrplan, ergänzt um die durchschnittliche Verspätung aus unserer Analyse.

Weiterführende Links:

OSRM Projekt-Website – Dokumentation und Demo
OSRM API-Dokumentation – Technische Details zur API
OpenStreetMap – Die Kartendaten, auf denen OSRM basiert
R-Paket osrm – Für eigene OSRM-Abfragen in R

3. Ulm-Pendlerrouten (`ulm_pendlerrouten.csv`)

Da Sie in Ulm studieren, analysieren wir die wichtigsten Pendlerrouten in die Stadt genauer. Dieser Datensatz enthält die 5 wichtigsten Einpendler-Gemeinden mit detaillierten Informationen zur Erreichbarkeit.

Wichtige Variablen:

start_ort: Startgemeinde der Pendlerroute
ziel_ort: Zielort (Ulm)
auto_dauer_min: Fahrzeit mit dem Auto
auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit
bahn_fahrplan_min: Bahnfahrzeit laut Fahrplan
bahn_real_min: Realistische Bahnfahrzeit
hat_bahnhof: TRUE/FALSE – hat der Startort einen Bahnanschluss?
pendler_geschaetzt: Geschätzte Anzahl Pendler auf dieser Route

4. Entgeltstatistik (`ba_entgeltstatistik_2024.csv`)

Um die volkswirtschaftlichen Kosten von Verspätungen zu berechnen, brauchen wir regionale Lohndaten. Diese haben wir von der Bundesagentur für Arbeit heruntergeladen.

Wichtige Variablen:

kreis_name: Name des Kreises/der Stadt
ags: Amtlicher Gemeindeschlüssel
medianentgelt_brutto_monat: Median-Bruttomonatsentgelt in Euro

Quelle: Bundesagentur für Arbeit, Entgeltstatistik 2024

Pendeln in Deutschland

Zeit für die Bahn? – Eine datenbasierte Analyse

Motivation

Datengrundlage

Daten einlesen und verstehen

Die Pünktlichkeit der Deutschen Bahn

Von der Zeit zum Ort: Wo entstehen die Verspätungen?

Wo treffen viele Pendler auf eine unpünktliche Bahn?

Der Vergleich – Auto vs. Bahn

Methodische Herausforderungen

Die volkswirtschaftlichen Kosten

Politikempfehlung – Ihre Synthese

Zusatzaufgaben (optional)

Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (`bahnhof_ags_mapping.csv`)

2. Fahrtzeit-Vergleich OSRM (`fahrtzeit_osrm_vergleich.csv`)

3. Ulm-Pendlerrouten (`ulm_pendlerrouten.csv`)

4. Entgeltstatistik (`ba_entgeltstatistik_2024.csv`)

Pendeln in Deutschland

Zeit für die Bahn? – Eine datenbasierte Analyse

Motivation

Datengrundlage

Daten einlesen und verstehen

Die Pünktlichkeit der Deutschen Bahn

Von der Zeit zum Ort: Wo entstehen die Verspätungen?

Wo treffen viele Pendler auf eine unpünktliche Bahn?

Der Vergleich – Auto vs. Bahn

Methodische Herausforderungen

Die volkswirtschaftlichen Kosten

Politikempfehlung – Ihre Synthese

Zusatzaufgaben (optional)

Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (bahnhof_ags_mapping.csv)

2. Fahrtzeit-Vergleich OSRM (fahrtzeit_osrm_vergleich.csv)

3. Ulm-Pendlerrouten (ulm_pendlerrouten.csv)

4. Entgeltstatistik (ba_entgeltstatistik_2024.csv)

1. Bahnhof-Kreis-Mapping (`bahnhof_ags_mapping.csv`)

2. Fahrtzeit-Vergleich OSRM (`fahrtzeit_osrm_vergleich.csv`)

3. Ulm-Pendlerrouten (`ulm_pendlerrouten.csv`)

4. Entgeltstatistik (`ba_entgeltstatistik_2024.csv`)