Motivation

Jeden Morgen das gleiche Bild: Verstopfte Autobahnen, genervte Pendler, verlorene Zeit. 20,5 Millionen Menschen pendeln in Deutschland täglich zur Arbeit – die meisten davon mit dem Auto. Laut INRIX Traffic Scorecard 2024 verlieren Pendler in deutschen Großstädten zwischen 40 und 60 Stunden pro Jahr allein im Stau. Das entspricht fast einer kompletten Arbeitswoche, die im Nichts verpufft.

Die Idee liegt auf der Hand: Wer Bahn fährt, steht nicht im Stau. Aber wie schlägt sich die Bahn im Vergleich zum Auto? Ist sie wirklich schneller? Und wie zuverlässig ist sie eigentlich?

In diesem Projekt analysieren Sie Echtzeitdaten der Deutschen Bahn, Pendlerstatistiken der Bundesagentur für Arbeit, Staudaten von INRIX und die Entgeltstatistik der Bundesagentur für Arbeit. Sie werden herausfinden, dass die Antwort auf die Frage “Sollten mehr Menschen Bahn fahren?” komplexer ist, als man zunächst vermuten würde und dass sie wichtige Implikationen für die Verkehrspolitik hat.

Ihre zentrale Forschungsfrage lautet:

“Sollten mehr Menschen Bahn fahren – und was müsste sich dafür ändern?”

Datengrundlage

In diesem Projekt arbeiten Sie mit mehreren Datensätzen. Ein wichtiger Teil des Projekts ist das eigenständige Beschaffen von Primärdaten aus offiziellen Quellen.

Daten einlesen und verstehen

Bevor Sie mit der Analyse beginnen können, müssen Sie verschiedenste Datensätze einlesen und deren Struktur verstehen. Die Deutsche Bahn stellt über unterschiedliche Schnittstellen Echtzeitdaten für ihre Züge als open-source Daten zur Verfügung, welche per API-Calls geladen werden können. Jedoch gibt es von der Deutschen Bahn keine offizielle Seite, welche historische Daten zu Zugverspätungen, Ausfällen etc. für Fern- und Nahverkehrszüge sammelt. Da wir uns jedoch mit historischen Daten beschäftigen möchten, greifen wir auf Daten zurück, die von Piet Brömmel gesammelt wurden und bei Huggingface im Parquet-Format zur Verfügung gestellt wurden. Das Parquet-Format ist ein effizientes Datenformat und wird oft für große Datenmengen genutzt; in R können Sie diese Daten mit dem arrow-Paket einlesen.

Wie pünktlich ist die Bahn wirklich? Um diese Frage zu beantworten, brauchen Sie echte Verspätungsdaten – nicht nur Pressemitteilungen. Die Bahndaten bilden das Herzstück unserer Analyse: Mit ihnen können Sie berechnen, wie viel Zeit Bahnfahrer durch Verspätungen verlieren und später mit den Stauzeiten der Autofahrer vergleichen.

Die Deutsche Bahn stellt Echtzeitdaten als Open Data zur Verfügung. Das Projekt piebro/deutsche-bahn-data auf Huggingface sammelt diese Daten im Parquet-Format.

Laden Sie die Datei für November 2025 direkt von Huggingface herunter und lesen Sie diesen Datensatz als bahn in R ein.

Zeigen Sie die ersten 10 Zeilen des Datensatzes in einer Tabelle und beantworten Sie anschließend folgende Fragen:

Wie viele Beobachtungen enthält der Datensatz? Welche Variablen sind vorhanden?
Was stellt eine einzelne Beobachtung dar?

Hinweis 1: Sie können auf Huggingface die gesuchte Datei hier finden und direkt die URL zu der Datei in R mitgeben

Hinweis 2: Sie können die Parquet Datei entweder lokal speichern, oder immer direkt per URL einlesen. Falls Sie die Datei lokal speichern, so wird diese nicht auf GitHub Committet, da wir dies in der .gitignore entsprechend eingestellt haben. In diesem Fall sollten alle Teammitglieder die Datei lokal zur Verfügung haben.

Hinweis 3: Achten Sie bei allen Tabellen auf einer saubere Darstellung

Deutsche Bahn – Erste 10 Einträge (November 2025)
station_name	xml_station_name	eva	train_name	final_destination_station	delay_in_min	time	is_canceled	train_type	train_line_ride_id	train_line_station_num	arrival_planned_time	arrival_change_time	departure_planned_time	departure_change_time	id
Stuttgart Hbf	Stuttgart Hbf (tief)	08098096	S 2	Filderstadt	5	2025-11-01 01:00:00	FALSE	S		15	2025-11-01 00:55:00	2025-11-01 00:57:00	2025-11-01 00:55:00	2025-11-01 01:00:00	-1263112065111090114-2510312318-15
Halle (Saale) Hbf	Halle(Saale)Hbf	08010159	S 5	Leipzig Hbf (tief)	1	2025-11-01 01:00:00	FALSE	S		1	NA	NA	2025-11-01 00:59:00	2025-11-01 01:00:00	-2678885466088426112-2510312359-1
Karlsruhe Hbf	Karlsruhe Hbf	08000191	RE 1	Karlsruhe Hbf	95	2025-11-01 01:00:00	FALSE	RE		7	2025-10-31 23:25:00	2025-11-01 01:00:00	NA	NA	-2791458000270945298-2510312132-7
Regensburg Hbf	Regensburg Hbf	08000309	ALX RE25	München Hbf	11	2025-11-01 01:00:00	FALSE	ALX		4	2025-11-01 00:35:00	2025-11-01 00:52:00	2025-11-01 00:49:00	2025-11-01 01:00:00	-5065801516765768983-2510312301-4
Mannheim Hbf	Mannheim Hbf	08000244	ICE 775	Karlsruhe Hbf	1	2025-11-01 01:00:00	FALSE	ICE	5181720942697741094	8	2025-11-01 00:56:00	2025-11-01 00:58:00	2025-11-01 00:59:00	2025-11-01 01:00:00	5181720942697741094-2510311916-8
Flughafen BER	Flughafen BER (S-Bahn)	08089201	S 9	Flughafen BER	1	2025-11-01 01:00:00	FALSE	S	7409107008547428277	5	2025-11-01 00:59:00	2025-11-01 01:00:00	NA	NA	7409107008547428277-2510312346-5
Halle (Saale) Hbf	Halle(Saale)Hbf	08010159	S 8	Halle (Saale) Hbf	15	2025-11-01 01:00:00	FALSE	S	2442677234119162947	6	2025-11-01 00:45:00	2025-11-01 01:00:00	NA	NA	2442677234119162947-2510312324-6
München Hbf	München Hbf	08000261	RB 40	München Hbf	0	2025-11-01 01:00:00	FALSE	RB		8	2025-11-01 01:00:00	2025-11-01 01:00:00	NA	NA	-8549369502950901321-2510312246-8
Köln Hbf	Köln Hbf	08000207	IC 1952	Köln Hbf	40	2025-11-01 01:00:00	FALSE	IC	2365115903117509345	14	2025-11-01 00:20:00	2025-11-01 01:00:00	NA	NA	2365115903117509345-2510311747-14
Freiburg (Breisgau) Hbf	Freiburg(Breisgau) Hbf	08000107	S 1	Freiburg (Breisgau) Hbf	0	2025-11-01 01:00:00	FALSE	S		9	2025-11-01 01:00:00	2025-11-01 01:00:00	NA	NA	-2150665481183031960-2510312332-9

Beschreibung der Tabelle
Die Tabelle „Deutsche Bahn – Erste 10 Einträge (November 2025)” zeigt die ersten zehn Beobachtungen des Datensatzes mit Echtzeit-Betriebsdaten der Deutschen Bahn für den Monat November 2025. Jede Tabellenzeile repräsentiert einen einzelnen Halt eines Zuges an einem konkreten Bahnhof zu einem bestimmten Zeitpunkt.

Der Datensatz umfasst insgesamt 13.943.561 Beobachtungen und 16 Variablen. Enthalten sind unter anderem Informationen zum Bahnhof (station_name, eva), zur Zuglinie (train_name, train_type), zum geplanten und tatsächlichen Ankunfts- und Abfahrtszeitpunkt sowie zur Verspätung in Minuten (delay_in_min) und zu möglichen Zugausfällen (is_canceled).

Eine einzelne Beobachtung beschreibt somit einen konkreten Zughalt inklusive zeitlicher Abweichungen vom Fahrplan oder eines möglichen Ausfalls.

Erste deskriptive Beobachtungen
In den dargestellten zehn Beobachtungen variieren die ausgewiesenen Verspätungen zwischen 0 und 95 Minuten. Für keinen der gezeigten Halte ist ein Zugausfall vermerkt (is_canceled = FALSE). Zudem sind bei einzelnen Beobachtungen Zeitangaben für Ankunft oder Abfahrt als fehlend (NA) gekennzeichnet.

Einschränkungen
Die dargestellten zehn Zeilen stellen lediglich einen sehr kleinen Ausschnitt des gesamten Datensatzes dar und erlauben keine Rückschlüsse auf die allgemeine Pünktlichkeit der Deutschen Bahn. Aussagen zu systematischen Mustern oder zur Zuverlässigkeit des Bahnverkehrs sind erst auf Basis aggregierter Auswertungen des vollständigen Datensatzes möglich. Fehlende Zeitangaben müssen in den folgenden Analysen entsprechend berücksichtigt werden.

Die Analyse basiert auf historischen Echtzeitdaten der Deutschen Bahn (vgl. Brömmel, 2025).

Wohin pendeln die Menschen? Die Bahndaten zeigen ihnen die Pünktlichkeit der Züge – aber um zu verstehen, wo gute Bahnverbindungen besonders wichtig sind, müssen Sie wissen, wohin die Menschen pendeln. Die Pendlerstatistik der Bundesagentur für Arbeit zeigt genau das: Welche Städte sind die größten Arbeitgeber-Magneten?

Laden Sie den Datensatz pendler_kreise_aufbereitet.csv aus dem Ordner daten in R ein als Datensatz pendler.

Erstellen Sie eine Tabelle der Top 10 Städte nach Einpendlern mit den Spalten: Stadt (kreis_name), Einpendler, Auspendler, Pendlersaldo.

Interpretieren Sie kurz: Welche Städte sind die größten “Pendlermagneten” Deutschlands und warum?

Top 10 Städte in Deutschland nach Anzahl der Einpendler
Stadt	Einpendler	Auspendler	Pendlersaldo
München, Landeshauptstadt	455.645	202.756	252.889
Frankfurt am Main, Stadt	405.856	111.245	294.611
Hamburg, Freie und Hansestadt	392.951	147.328	245.623
Berlin, Stadt	392.324	219.898	172.426
Köln, Stadt	306.905	138.422	168.483
Düsseldorf, Stadt	284.696	97.326	187.370
Stuttgart, Landeshauptstadt	274.442	100.095	174.347
Nürnberg, Stadt	165.496	78.557	86.939
Essen, Stadt	141.296	90.906	50.390
Bremen, Stadt	129.769	50.782	78.987

Beschreibung der Tabelle
Die Tabelle „Top 10 Städte in Deutschland nach Anzahl der Einpendler“ zeigt die zehn größten Arbeitsort-Ziele auf Basis der Pendlerstatistik (Spalten: Einpendler, Auspendler, Pendlersaldo). Berücksichtigt werden dabei ausschließlich eindeutig zuordenbare Städte/Stadtkreise – der Landkreis München wird bewusst ausgeschlossen, damit München nicht doppelt vorkommt (Vorgabe der Tutorin). Damit ist die Tabelle als Überblick über die wichtigsten „Pendlermagneten“ für die nachfolgenden Bahn- und Stauvergleiche eigenständig interpretierbar.

Zentrale Beobachtungen
Die höchsten Einpendlerzahlen haben München (455.645), Frankfurt am Main (405.856) und Hamburg (392.951). Auch Berlin (392.324), Köln (306.905), Düsseldorf (284.696) und Stuttgart (274.442) liegen auf sehr hohem Niveau – das sind klare Großstadt-Arbeitsmärkte, die Beschäftigte aus einem großen Umland anziehen.

Alle aufgeführten Städte weisen einen positiven Pendlersaldo auf. Das bedeutet: In allen Fällen pendeln mehr Personen zur Arbeit hinein als hinaus – es handelt sich also durchgehend um Netto-Arbeitsstandorte. Gleichzeitig variiert die Stärke dieses Effekts deutlich (z. B. sehr hohe Salden bei Frankfurt am Main und München vs. geringere, aber weiterhin positive Salden bei Essen und Bremen).

Einordnung
Die Muster passen zu typischen Agglomerationseffekten: Große Städte bündeln Arbeitsplätze, Hochschulen/Behörden, Dienstleistungen und spezialisierte Branchen. Dadurch entstehen starke Einpendlerströme aus dem Umland. Für das Projekt ist das wichtig, weil genau in diesen Zentren (1) besonders viele Menschen von Verzögerungen betroffen sein können und (2) Verbesserungen im ÖPNV/Bahnnetz einen großen Hebel haben.

Was kostet das Auto? Sie haben jetzt Bahndaten und wissen, wohin die Menschen pendeln. Aber um fair vergleichen zu können, brauchen Sie auch die Alternative: Wie viel Zeit verlieren Autofahrer im Stau? Diese Daten liefert INRIX – ein Unternehmen, das weltweit Verkehrsdaten sammelt. Später werden Sie diese Staukosten mit den Bahnverspätungen vergleichen.

Besuchen Sie die INRIX Global Traffic Scorecard und suchen Sie die Stauzeiten für die Top 10 Städte aus Aufgabe 2 und zusätzlich die Stauzeiten für Ulm. INRIX misst, wie viele Stunden Autofahrer jährlich im Stau verlieren.

Erstellen Sie eine eigene CSV-Datei inrix_staedte_2024.csv mit folgenden Spalten für die geforderten Städte:
- stadt: Name der Stadt
- stau_stunden_jahr: Jährliche Staustunden pro Fahrer
- kosten_eur: Jährliche Kosten pro Fahrer (findet sich in der tiefergehenden Übersicht)
Berechnen Sie für jede Stadt, wie viele Arbeitstage pro Jahr im Stau verloren gehen. Annahme: Ein Arbeitstag = 8 Stunden.

Erstellen Sie anschließend eine schöne Tabelle mit: Stadt, Staustunden/Jahr, verlorene Arbeitstage und beschreiben diese. In welcher Stadt ist die Stausituation am schlimmsten? Wie viele Arbeitstage verliert ein typischer Pendler dort pro Jahr?

Hinweis: Auf der INRIX-Website können Sie nach bei “Jump to City Rankings” -> “Search the List” -> “Germany” oder der konkreten Stadt filtern.

Staubelastung in deutschen Städten – Staustunden, verlorene Arbeitstage und Kosten (INRIX 2024)
Stadt	Staustunden/Jahr	Verlorene Arbeitstage	Kosten/Jahr (€)
Köln	67	8,4	919
Düsseldorf	63	7,9	864
Berlin	60	7,5	823
Stuttgart	60	7,5	823
München	57	7,1	781
Frankfurt	55	6,9	754
Hamburg	46	5,8	631
Essen	42	5,2	576
Nürnberg	38	4,8	521
Ulm	30	3,8	411

Beschreibung der Tabelle
Die Tabelle „Staubelastung in deutschen Städten – Staustunden, verlorene Arbeitstage und Kosten (INRIX 2024)” zeigt für zehn ausgewählte deutsche Städte die durchschnittlich pro Autofahrer verlorenen Staustunden pro Jahr. Zusätzlich werden die daraus berechneten verlorenen Arbeitstage sowie die jährlichen Kosten pro Fahrer ausgewiesen.

Die Berechnung der verlorenen Arbeitstage erfolgt unter der Annahme, dass ein Arbeitstag acht Stunden umfasst. Grundlage der Daten sind die Staustundenangaben aus der INRIX Global Traffic Scorecard 2024. Die Städte sind absteigend nach der Anzahl der Staustunden pro Jahr sortiert, wodurch ein direkter Vergleich der Staubelastung möglich ist.

Zentrale Beobachtungen
Die höchste Staubelastung weist Köln mit durchschnittlich 67 Staustunden pro Jahr auf. Es folgen Düsseldorf mit 63 Stunden sowie Berlin und Stuttgart mit jeweils 60 Staustunden pro Jahr. Auch München und Frankfurt liegen mit 57 bzw. 55 Staustunden auf einem hohen Niveau.

Am unteren Ende der betrachteten Städte befinden sich Nürnberg mit 38 Staustunden und Ulm mit 30 Staustunden pro Jahr. In allen dargestellten Städten summieren sich die zeitlichen Verluste jedoch auf mehrere Arbeitstage pro Jahr.

Beantwortung der Leitfragen
In welcher Stadt ist die Stausituation am schlimmsten?
Die stärkste Staubelastung zeigt sich in Köln. Dort verlieren Autofahrer im Durchschnitt 67 Stunden pro Jahr im Stau, mehr als in allen anderen betrachteten Städten.

Wie viele Arbeitstage verliert ein typischer Pendler dort pro Jahr?
Unter der Annahme von acht Stunden pro Arbeitstag ergibt sich für Köln ein Verlust von:
67 ÷ 8 = 8,4 Arbeitstagen pro Jahr.

Einordnung für die weitere Analyse
Die Ergebnisse verdeutlichen, dass Autopendler in deutschen Großstädten erhebliche Zeitverluste durch Verkehrsstaus hinnehmen müssen. Diese Größenordnung bildet eine zentrale Vergleichsbasis für die anschließende Gegenüberstellung mit Zeitverlusten im Schienenverkehr und für die Bewertung alternativer Verkehrsmittel.

Einschränkungen
Die dargestellten Werte basieren auf durchschnittlichen Staustunden pro Fahrer und berücksichtigen keine individuellen Unterschiede hinsichtlich Fahrstrecke, Arbeitszeit oder Verkehrsmittelwahl. Zudem handelt es sich um aggregierte Stadtdaten, die innerstädtische Unterschiede nicht abbilden.

Für die weiteren Analysen stellen wir Ihnen fünf zusätzliche Datensätze bereit. Diese laden Sie jetzt, damit sie in allen folgenden Aufgaben direkt verfügbar sind.

Laden Sie die folgenden Datensätze aus dem Ordner daten und speichern Sie diese unter den angegebenen Variablennamen:

Datei	Variablenname	Verwendet in
`bahnhof_ags_mapping.csv`	`bahnhof_mapping`	Aufgabe 9-10
`fahrtzeit_osrm_vergleich.csv`	`fahrtzeit`	Aufgabe 12
`ulm_pendlerrouten.csv`	`ulm_routen`	Aufgabe 13
`ba_entgeltstatistik_2024.csv`	`entgelt`	für `staedte_basis`
`co2_analyse.csv`	`co2_analyse`	Aufgabe 19 (Bonus)

Verschaffen Sie sich einen ersten Überblick über die Struktur der Daten (z.B. mit glimpse(), dies sollte später in ihrem HTML Dokument nicht sichtbar sein!).

Erstellen Sie außerdem einen Master-Datensatz staedte_basis für die Top-11-Städte (Top 10 Pendlerstädte + Ulm), der die Daten aus pendler, entgelt und inrix kombiniert. Dieser Datensatz vereinfacht die späteren Analysen (ab Aufgabe 14), da alle relevanten Kennzahlen bereits zusammengeführt sind.

Der Master-Datensatz sollte folgende Spalten enthalten:

ags: Amtlicher Gemeindeschlüssel
stadt: Stadtname (Kurzform, z.B. “München”)
einpendler: Anzahl Einpendler
median_monat_eur: Medianlohn pro Monat
median_stunde_eur: Medianlohn pro Stunde (Monatslohn / 160)
stau_stunden_jahr: Stauzeit pro Jahr (aus INRIX)

Hinweis 1: Die Datensätze verwenden unterschiedliche Namensformate: pendler hat offizielle Namen (“München, Landeshauptstadt”), während entgelt und inrix Kurznamen (“München”) verwenden. Nutzen Sie den AGS als zuverlässigen Schlüssel für die Verknüpfung mit pendler. Tipp: entgelt enthält sowohl AGS als auch Kurznamen und eignet sich daher gut als Ausgangspunkt.

Hinweis 2: Eine ausführliche Beschreibung der Datensätze finden Sie im Anhang A.

Master-Datensatz: Top-11-Städte (Pendler, Entgelt, INRIX)
AGS	Stadt	Einpendler	Median/Monat (€)	Median/Stunde (€)	Staustunden/Jahr
09162	München	4.847	30,29	455.645	57
06412	Frankfurt	4.712	29,45	405.856	55
02000	Hamburg	4.527	28,29	392.951	46
11000	Berlin	4.156	25,98	392.324	60
05315	Köln	4.398	27,49	306.905	67
05111	Düsseldorf	4.523	28,27	284.696	63
08111	Stuttgart	4.689	29,31	274.442	60
09564	Nürnberg	4.234	26,46	165.496	38
05113	Essen	3.987	24,92	141.296	42
03241	Hannover	4.156	25,98	137.924	NA
08421	Ulm	4.312	26,95	68.341	30

Erstellung des Master-Datensatzes
Für die weiteren Analysen wurden zusätzlich fünf Datensätze geladen und unter den vorgegebenen Variablennamen im Arbeitsumfeld gespeichert. Diese Datensätze dienen als Grundlage für die nachfolgenden Aufgaben und ermöglichen eine konsistente Weiterverarbeitung der Daten.

Auf Basis der Datensätze pendler, entgelt und inrix wurde ein Master-Datensatz mit dem Namen staedte_basis erstellt. Dieser Datensatz umfasst die Top-10-Städte nach Einpendlerzahl sowie zusätzlich die Stadt Ulm und enthält alle zentralen Kennzahlen, die für die weiteren Analysen benötigt werden.

Struktur des Master-Datensatzes
Der Master-Datensatz enthält folgende Variablen:

ags: Amtlicher Gemeindeschlüssel der Stadt
stadt: Stadtname in Kurzform
einpendler: Anzahl der Einpendler
median_monat_eur: Medianlohn pro Monat in Euro
median_stunde_eur: Medianlohn pro Stunde in Euro (berechnet als Monatslohn dividiert durch 160 Arbeitsstunden)
stau_stunden_jahr: Jährliche Staustunden pro Fahrer aus der INRIX Global Traffic Scorecard

Verknüpfung der Datensätze
Da die Datensätze unterschiedliche Namensformate für die Städte verwenden, erfolgte die Zusammenführung der Daten über den amtlichen Gemeindeschlüssel (ags) als eindeutigen Identifikator. Der Datensatz entgelt, der sowohl AGS als auch Kurznamen der Städte enthält, diente dabei als Ausgangspunkt für die Verknüpfung mit den Pendler- und Staustatistiken.

Ergebnis
Der resultierende Master-Datensatz staedte_basis vereint Informationen zu Pendleraufkommen, Einkommensniveau und Staubelastung auf Stadtebene. Durch die zentrale Zusammenführung dieser Kennzahlen bildet er eine einheitliche und konsistente Grundlage für die weiteren Analysen ab Aufgabe 14.

Die Pünktlichkeit der Deutschen Bahn

Nachdem Sie nun einen Überblick über die Daten haben, welche wir in diesem Projekt verwenden möchten, tauchen Sie tiefer in die Bahndaten ein. Die zentrale Frage ist: Wie zuverlässig ist die Deutsche Bahn wirklich?

Die Bahn unterscheidet verschiedene Zugtypen, vom ICE über den RE bis zur S-Bahn. Jeder Zugtyp hat unterschiedliche Eigenschaften: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Aber welcher Zugtyp ist am pünktlichsten?

Welche Züge sind (un)pünktlich? Nicht alle Züge sind gleich: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Um später sinnvolle Empfehlungen geben zu können, müssen Sie verstehen, welche Zugtypen besonders problematisch sind. Dafür klassifizieren Sie die Züge anhand ihrer Namen. Nutzen Sie für diese Analyse den Datensatz bahn.

Die Variable train_name enthält den Zugnamen (z.B. “ICE 123”, “S 5”, “RE 8”).

Erstellen Sie eine neue Variable zugtyp mit folgenden Kategorien:

Zugtyp	Regel	Beispiel
ICE	beginnt mit “ICE”	ICE 123
IC/EC	beginnt mit “IC” oder “EC”	IC 2012, EC 6
IRE/RE	beginnt mit “RE” oder “IRE”	RE 5, IRE 200
RB	beginnt mit “RB”	RB 26
S-Bahn	beginnt mit “S” (mit Leerzeichen!)	S 5
Sonstige	alle anderen	U 6, STB 123

Erstellen Sie auf dieser Basis eine Tabelle, welche pro Zugtyp folgende Kennzahlen anschaulich darstellt:

Anzahl der Fahrten
Durchschnittliche Verspätung (in Minuten)
Anteil pünktlicher Züge (≤6 Min Verspätung)
Ausfallquote

Beschreiben und Interpretieren Sie die Tabelle.

Weiterhin sollten Sie ihre Ergebnisse verifizieren. Dafür können Sie auf die offizielle Pünktlichkeitswerte der Deutschen Bahn zurückgreifen (recherchieren Sie diese selbstständig).

Stimmen Ihre Ergebnisse mit den offiziellen Werten überein? Falls nicht: Welche methodischen Unterschiede könnten die Abweichung erklären?

Hinweis: Nutzen Sie str_detect() aus dem stringr-Paket. Achten Sie auf die Reihenfolge der Bedingungen!

Zusammenfassung der Bahnperformance nach Zugtyp (sortiert nach Ø Verspätung)
Zugtyp	Anzahl der Fahrten	Ø Verspätung (Min)	Anteil pünktlicher Züge (%)	Ausfallquote (%)
ICE	171.516	12,50	56,75	4,23
IC/EC	70.602	11,03	60,24	7,18
IRE/RE	1.673.555	6,06	74,13	3,62
RB	2.675.028	3,48	85,20	3,18
Sonstige	2.938.815	3,47	84,67	2,62
S-Bahn	6.414.045	2,94	87,41	5,48

Beschreibung der Tabelle
Die Tabelle „Zusammenfassung der Bahnperformance nach Zugtyp“ zeigt zentrale Kennzahlen zur Zuverlässigkeit verschiedener Zugtypen der Deutschen Bahn. Für jeden Zugtyp werden die Anzahl der beobachteten Fahrten, die durchschnittliche Verspätung in Minuten, der Anteil pünktlicher Züge (≤ 6 Minuten Verspätung) sowie die Ausfallquote ausgewiesen.

Die Zuordnung der Züge zu den einzelnen Zugtypen erfolgte anhand des Zugnamens (train_name) mittels String-Matching. Die Auswertung basiert auf allen im Datensatz enthaltenen Halten und ermöglicht einen systematischen Vergleich zwischen Fern- und Nahverkehr.

Zentrale Ergebnisse
Zwischen den einzelnen Zugtypen zeigen sich deutliche Unterschiede in der Pünktlichkeit. Die geringste durchschnittliche Verspätung weist die S-Bahn mit 2,94 Minuten auf, gefolgt von Regionalzügen (RB: 3,48 Minuten; IRE/RE: 6,06 Minuten). Gleichzeitig erreichen diese Zugtypen die höchsten Anteile pünktlicher Fahrten, insbesondere die S-Bahn mit 87,41 %.

Der Fernverkehr schneidet deutlich schlechter ab. ICE-Züge weisen mit durchschnittlich 12,50 Minuten die höchste Verspätung auf und erreichen nur einen Anteil pünktlicher Fahrten von 56,75 %. Auch IC/EC-Züge liegen mit 11,03 Minuten durchschnittlicher Verspätung und 60,24 % pünktlichen Fahrten klar unter den Werten des Nahverkehrs.

Die Ausfallquoten variieren zwischen den Zugtypen. Während der ICE eine Ausfallquote von 4,23 % aufweist, liegt diese bei der S-Bahn mit 5,48 % etwas höher. Insgesamt zeigen sich jedoch stärkere Unterschiede bei den Verspätungen als bei den Ausfällen.

Die ermittelten Pünktlichkeitsquoten liegen in einer ähnlichen Größenordnung wie die von der Deutschen Bahn veröffentlichten Kennzahlen (vgl. Deutsche Bahn AG, 2024).

Beantwortung der Leitfrage: Welche Zugtypen sind (un)pünktlich?
Die Analyse zeigt, dass insbesondere S-Bahn- und Regionalzüge vergleichsweise pünktlich verkehren, während der Fernverkehr deutlich höhere durchschnittliche Verspätungen aufweist. Der ICE stellt dabei den unpünktlichsten Zugtyp im Datensatz dar.

Abgleich mit offiziellen Pünktlichkeitswerten der Deutschen Bahn
Die Deutsche Bahn veröffentlicht regelmäßig offizielle Pünktlichkeitskennzahlen, insbesondere für den Fernverkehr. Diese liegen für ICE-Züge typischerweise im Bereich von etwa 60–65 % pünktlicher Fahrten (≤ 6 Minuten Verspätung). Der in dieser Analyse ermittelte Wert von 56,75 % liegt etwas darunter, bewegt sich jedoch in einer vergleichbaren Größenordnung.

Mögliche Abweichungen lassen sich methodisch erklären. In dieser Analyse wird jede Halteinformation als einzelne Beobachtung berücksichtigt, während die Deutsche Bahn in der Regel die Pünktlichkeit bei Ankunft am Endbahnhof misst. Zudem umfasst der Datensatz alle Tageszeiten sowie Störungs- und Ausfallsituationen und basiert auf nicht aggregierten Betriebsdaten.

Einordnung und Relevanz für die weitere Analyse
Die Ergebnisse verdeutlichen, dass die Zuverlässigkeit der Bahn stark vom jeweiligen Zugtyp abhängt. Während der Nahverkehr überwiegend stabil funktioniert, stellt der Fernverkehr den zentralen Problembereich dar. Diese Differenzierung ist für die weiteren Analysen von zentraler Bedeutung, insbesondere für den späteren Vergleich zwischen Bahn- und Autopendlern.

In Aufgabe 5 haben Sie gesehen, dass Fernverkehrszüge (ICE, IC/EC) deutlich höhere Verspätungen und Ausfallquoten haben als Nahverkehrszüge (IRE, RE, RB, S-Bahn). Aber wie relevant ist das für den typischen Pendler? Das hängt davon ab, wie viele Züge jeweils unterwegs sind. Nutzen Sie für diese Analyse den Datensatz bahn (mit der in Aufgabe 5 erstellten Variable zugtyp).

Klassifizieren Sie die Züge in zwei Kategorien:

Fernverkehr: ICE, IC/EC
Nahverkehr: IRE, RE, RB, S-Bahn

Erstellen Sie ein Liniendiagramm, das die durchschnittliche Anzahl der Fahrten pro Stunde im Tagesverlauf zeigt:

X-Achse: Uhrzeit (0-23 Uhr)
Y-Achse: Durchschnittliche Anzahl Fahrten pro Stunde
Zwei Linien: eine für Fernverkehr, eine für Nahverkehr (unterschiedliche Farben)

Tipp: Extrahieren Sie die Stunde aus der Variable time mit hour() aus dem lubridate-Paket. Berechnen Sie dann die durchschnittliche Anzahl Fahrten pro Stunde und Zugtyp.

Beschreiben und interpretieren Sie ihre Grafik. Beantworten Sie zusätzlich die folgenden Fragen:

Zu welchen Uhrzeiten fahren die meisten Züge?
Wie unterscheidet sich das Muster zwischen Fern- und Nahverkehr?
Warum ist diese Information wichtig, wenn wir später die Verspätungen analysieren?

Beschreibung der Grafik
Die Abbildung „Durchschnittliche Anzahl der Zugfahrten pro Stunde – Fernverkehr vs. Nahverkehr“ zeigt den durchschnittlichen Tagesverlauf der Zugaktivität getrennt nach Fern- und Nahverkehr. Auf der x-Achse ist die Uhrzeit (0–23 Uhr) dargestellt, auf der y-Achse die durchschnittliche Anzahl an beobachteten Fahrten pro Stunde. Die rote Linie repräsentiert den Nahverkehr, die graue Linie den Fernverkehr. Die Werte wurden über alle Kalendertage gemittelt und bilden damit ein typisches Tagesmuster ab.

Hinweis zur Berechnung
In dieser Auswertung wurde „Anzahl der Fahrten“ als Anzahl der im Datensatz enthaltenen Beobachtungen pro Stunde interpretiert. Da der Datensatz auf Halte-/Ereignisebene strukturiert ist (jede Zeile entspricht einem konkreten Ereignis/Halt eines Zuges an einem Bahnhof zu einem Zeitpunkt), wird pro Stunde die Anzahl dieser Ereignisse gezählt (n()) und anschließend über die Tage gemittelt. Eine alternative Berechnung (z.B. Zählen eindeutig identifizierter Zugläufe/Fahrten pro Stunde über eine eindeutige Fahrt-ID) kann zu anderen Werten führen. Die hier gewählte Berechnung folgt der Datenstruktur und der in der Aufgabe beschriebenen Aggregationslogik (Stunde extrahieren → Fahrten pro Stunde zählen → Mittelwert über Tage).

Zentrale Muster und Interpretation
Die Grafik zeigt deutliche Unterschiede zwischen Fern- und Nahverkehr. Der Nahverkehr dominiert den gesamten Tagesverlauf: Während im Fernverkehr selbst zu Spitzenzeiten nur etwa 120–150 Fahrten pro Stunde beobachtet werden, erreicht der Nahverkehr in den Hauptverkehrszeiten Werte von über 1.400 Fahrten pro Stunde.

Im Nahverkehr sind zwei ausgeprägte Spitzen erkennbar. Die erste liegt am Morgen zwischen etwa 6 und 9 Uhr mit einem Maximum um 8 Uhr. Eine zweite, breitere Spitze zeigt sich am Nachmittag und frühen Abend zwischen etwa 15 und 18 Uhr. In den Nacht- und frühen Morgenstunden (ca. 0–4 Uhr) ist die Aktivität deutlich geringer, fällt jedoch nicht vollständig auf null.

Der Fernverkehr weist insgesamt ein flacheres Profil auf. Die Anzahl der Fernverkehrsfahrten steigt am Morgen an und bleibt über den späten Vormittag und frühen Nachmittag (ca. 10–16 Uhr) auf einem vergleichsweise stabilen Niveau. Im Vergleich zum Nahverkehr sind die Schwankungen über den Tag hinweg deutlich geringer und es zeigen sich keine ausgeprägten Pendelspitzen.

Beantwortung der Leitfragen

Zu welchen Uhrzeiten fahren die meisten Züge?
Die höchste Zugaktivität tritt im Nahverkehr während der klassischen Pendelzeiten auf. Besonders viele Fahrten werden morgens zwischen 6 und 9 Uhr sowie am Nachmittag zwischen 15 und 18 Uhr beobachtet. Der Tageshöchstwert liegt im Nahverkehr um etwa 8 Uhr.

Wie unterscheidet sich das Muster zwischen Fern- und Nahverkehr?
Der Nahverkehr zeigt ein stark pendlergeprägtes Muster mit klaren Spitzen zu Arbeitsbeginn und -ende. Der Fernverkehr ist deutlich gleichmäßiger über den Tag verteilt und erreicht sein Maximum eher im späten Vormittag bzw. frühen Nachmittag. Zu allen Tageszeiten liegt die beobachtete Fahrtenzahl im Fernverkehr deutlich unter der des Nahverkehrs.

Warum ist diese Information wichtig, wenn wir später die Verspätungen analysieren?
Die Grafik zeigt, dass der Großteil der beobachteten Zugaktivität im Nahverkehr stattfindet – insbesondere während der Hauptverkehrszeiten. Für die Einordnung von Verspätungen ist daher entscheidend, wann viele Züge unterwegs sind: Verspätungen in Zeitfenstern mit hoher Zugaktivität betreffen potenziell besonders viele Pendler gleichzeitig. Deshalb sollten Verspätungen in den folgenden Analysen nicht nur nach Zugtyp, sondern auch nach Tageszeit betrachtet werden.

Einordnung im Kontext der Gesamtanalyse
Die dargestellten Tagesmuster liefern eine wichtige Kontextvariable für die weitere Auswertung: Sie helfen zu priorisieren, in welchen Zeitfenstern Verspätungen im Nahverkehr besonders relevant sind und wo eine vertiefte Analyse (z.B. nach Wochentagen oder in Hauptverkehrszeiten) sinnvoll ist.

Nachdem Sie in Aufgabe 6 herausgefunden haben, dass es deutlich mehr Nahverkehrszüge als Fernverkehrszüge gibt, und diese für Pendler wichtiger sind, sollten Sie sich die Verspätungen der Nahverkehrszüge über den Tag anschauen, da diese vermutlich nicht gleichmäßig über den Tag verteilt sind. Pendler erleben die Bahn vor allem in der Hauptverkehrszeit, d.h. morgens zwischen 7 und 9 Uhr und abends zwischen 16 und 19 Uhr. Aber ist die Bahn zu diesen Zeiten besonders unpünktlich?

Erstellen Sie zwei Heatmaps, die zeigen, wie sich die Verspätungen nach Tageszeit (Stunde) und Wochentag für die Nahverkehrszüge und die Fernverkehrszüge verteilen. Nutzen Sie für diese Analyse den Datensatz bahn.

Extrahieren Sie aus der Variable time die Stunde und den Wochentag.
Filtern Sie auf die relevanten Tageszeiten (5-23 Uhr), da nachts kaum Zugverkehr stattfindet.
Aggregieren Sie die durchschnittliche Verspätung pro Stunde und Wochentag für Nah- und Fernverkehrszüge separat.
Erstellen Sie eine Heatmap mit ggplot2 und geom_tile().

Tipp zur Farbskala: Da Fernverkehrszüge im Durchschnitt höhere Verspätungen haben als Nahverkehrszüge, können Sie unterschiedliche Farbskalen für die beiden Heatmaps verwenden (z.B. Blau-Töne für Nahverkehr, Rot-Töne für Fernverkehr). Dadurch werden die Muster innerhalb jeder Verkehrsart besser sichtbar.

Beschreiben und interpretieren Sie ihre Grafiken.

Wann sind die Verspätungen am höchsten?
Gibt es Unterschiede zwischen Werktagen und Wochenende?
Gibt es Unterschiede zwischen Nah- und Fernverkehrszügen?
Was bedeutet das für Pendler?

Beschreibung der Grafiken
Die beiden Heatmaps zeigen die durchschnittlichen Verspätungen von Zügen in Abhängigkeit von Tageszeit und Wochentag, getrennt nach Nahverkehr und Fernverkehr. Auf der x-Achse ist jeweils die Stunde des Tages (5–23 Uhr) dargestellt, auf der y-Achse die Wochentage von Montag bis Sonntag. Die Farbintensität gibt die durchschnittliche Verspätung in Minuten an, wobei dunklere Farben höhere Verspätungen kennzeichnen.

Die linke Heatmap stellt die durchschnittlichen Verspätungen im Nahverkehr dar und verwendet eine blaue Farbskala. Die rechte Heatmap zeigt die Verspätungen im Fernverkehr und nutzt eine separate rote Farbskala, um die innerhalb des Fernverkehrs bestehenden Muster trotz insgesamt höherer Verspätungsniveaus sichtbar zu machen. Beide Darstellungen basieren auf aggregierten Durchschnittswerten pro Stunde und Wochentag.

Zentrale Muster und Interpretation
Im Nahverkehr zeigen sich ausgeprägte zeitliche Muster. Die Verspätungen sind in den frühen Morgenstunden vergleichsweise gering und steigen ab etwa 7 Uhr deutlich an. Besonders während der Hauptverkehrszeiten am Morgen (ca. 7–9 Uhr) sowie am späten Nachmittag und frühen Abend (ca. 16–20 Uhr) treten erhöhte durchschnittliche Verspätungen auf. An Werktagen erreichen diese in den Abendstunden häufig Werte von rund 5 bis 6 Minuten. Nach 20 Uhr bleiben die Verspätungen zunächst erhöht und gehen erst spät abends wieder leicht zurück. Am Wochenende, insbesondere am Sonntag, sind die Verspätungen insgesamt geringer und gleichmäßiger über den Tag verteilt.

Der Fernverkehr weist insgesamt ein deutlich höheres Verspätungsniveau auf als der Nahverkehr. Bereits in den Morgenstunden liegen die durchschnittlichen Verspätungen häufig im zweistelligen Minutenbereich. Im Tagesverlauf nehmen die Verspätungen weiter zu und erreichen ihre höchsten Werte überwiegend am späten Nachmittag und Abend, insbesondere zwischen etwa 18 und 22 Uhr. An einzelnen Werktagen, vor allem zu Wochenbeginn und in der Wochenmitte, sind in diesen Zeitfenstern durchschnittliche Verspätungen von über 20 Minuten zu beobachten. Auch im Fernverkehr sind die Verspätungen am Wochenende tendenziell geringer, verbleiben jedoch deutlich über dem Niveau des Nahverkehrs.

Beantwortung der Leitfragen

Wann sind die Verspätungen am höchsten?
Die höchsten Verspätungen treten in beiden Verkehrsarten am späten Nachmittag und Abend auf. Im Nahverkehr liegen die problematischsten Zeiträume vor allem zwischen 16 und 20 Uhr, während im Fernverkehr die höchsten Werte überwiegend zwischen 18 und 22 Uhr beobachtet werden. Auch die morgendliche Hauptverkehrszeit ist von erhöhten Verspätungen geprägt, jedoch weniger stark als die Abendstunden.

Gibt es Unterschiede zwischen Werktagen und Wochenende?
Zwischen Werktagen und Wochenenden bestehen deutliche Unterschiede. An Werktagen sind die Verspätungen sowohl im Nah- als auch im Fernverkehr höher und zeigen ausgeprägtere zeitliche Spitzen. Am Wochenende, insbesondere am Sonntag, verlaufen die Verspätungen insgesamt niedriger und gleichmäßiger über den Tag, was auf ein geringeres Verkehrsaufkommen hindeutet.

Gibt es Unterschiede zwischen Nah- und Fernverkehrszügen?
Die Unterschiede zwischen den Verkehrsarten sind deutlich. Der Fernverkehr weist zu allen Tageszeiten erheblich höhere durchschnittliche Verspätungen auf als der Nahverkehr. Während sich die Verspätungen im Nahverkehr meist im Bereich weniger Minuten bewegen, liegen sie im Fernverkehr häufig im zweistelligen Minutenbereich. Zudem sind die zeitlichen Muster im Fernverkehr weniger stark an klassische Pendelzeiten gekoppelt und zeigen besonders hohe Werte in den Abendstunden.

Was bedeutet das für Pendler?
Für Pendler sind die Ergebnisse besonders relevant, da sie überwiegend den Nahverkehr nutzen und vor allem während der Hauptverkehrszeiten unterwegs sind. Genau in diesen Zeitfenstern treten im Nahverkehr die höchsten Verspätungen auf. Auch wenn die absoluten Verspätungen im Fernverkehr höher sind, betreffen diese deutlich weniger Fahrten. Für den Pendleralltag sind daher insbesondere Verspätungen im Nahverkehr während der Stoßzeiten von hoher praktischer Bedeutung, da sie zeitgleich sehr viele Personen betreffen.

Einordnung im Kontext der Gesamtanalyse
Die Heatmaps verdeutlichen, dass Verspätungen nicht gleichmäßig über den Tag verteilt sind, sondern sich auf bestimmte Zeitfenster konzentrieren. Für die weitere Analyse bedeutet dies, dass Verspätungen stets im Zusammenspiel von Zugtyp und Tageszeit betrachtet werden sollten, um die tatsächliche Belastung für Pendler realistisch abzubilden.

Von der Zeit zum Ort: Wo entstehen die Verspätungen?

In Aufgabe 7 haben Sie analysiert, wann die Verspätungen auftreten, nämlich vor allem zu den Hauptverkehrszeiten. Aber die nächste wichtige Frage ist: Wo entstehen diese Verspätungen?

Aggregierte Statistiken wie Durchschnittswerte über ganz Deutschland verbergen oft große regionale Unterschiede. Vielleicht gibt es einzelne “Problembahnhöfe”, die den Durchschnitt nach oben ziehen? Oder sind die Verspätungen gleichmäßig über das Netz verteilt? Diese Frage ist wichtig, weil sie unterschiedliche Lösungsansätze impliziert: Bei wenigen Problembahnhöfen könnte die Bahn gezielt investieren, bei flächendeckenden Problemen bräuchten Sie systemische Lösungen.

Identifizieren Sie die 10 unpünktlichsten Bahnhöfe in Deutschland (mit mindestens 1.000 Halten im Monat). Nutzen Sie für diese Analyse den Datensatz bahn.

Erstellen Sie ein Balkendiagramm, das die durchschnittliche Verspätung dieser Bahnhöfe zeigt. Beschriften Sie die Balken mit den Verspätungswerten.

Beschreiben und interpretieren Sie ihre Grafik.

Sehen Sie ein geografisches Muster?
Handelt es sich um große Knotenbahnhöfe oder eher um kleinere Stationen?

Beschreibung des Diagramms
Die Abbildung zeigt die zehn Bahnhöfe in Deutschland mit der höchsten durchschnittlichen Verspätung je Halt im betrachteten Zeitraum (November 2025). Berücksichtigt wurden ausschließlich Bahnhöfe mit mindestens 1.000 registrierten Halten, um Verzerrungen durch selten bediente Stationen zu vermeiden. Auf der horizontalen Achse ist die durchschnittliche Verspätung in Minuten dargestellt, auf der vertikalen Achse die jeweiligen Bahnhöfe. Die Balken sind absteigend nach Höhe der durchschnittlichen Verspätung sortiert, wobei die konkreten Verspätungswerte direkt an den Balken angegeben sind.

Zentrale Beobachtungen
Die höchsten durchschnittlichen Verspätungen weisen die Bahnhöfe Ennepetal (Gevelsberg) mit etwa 14,7 Minuten sowie Bad Breisig und Sinzig (Rhein) mit jeweils rund 14,5 Minuten pro Halt auf. Auch weitere Bahnhöfe wie Bornheim-Sechtem, Brühl und Roisdorf erreichen durchschnittliche Verspätungen von über 13 Minuten. Selbst der niedrigste Wert innerhalb der dargestellten Top-10 liegt mit etwa 12,3 Minuten noch deutlich über einer geringfügigen Verspätung. Insgesamt bewegen sich alle betrachteten Bahnhöfe in einem relativ engen, aber durchweg hohen Verspätungsbereich zwischen rund zwölf und fünfzehn Minuten.

Wo entstehen die Verspätungen?
Die Grafik verdeutlicht, dass Verspätungen im deutschen Bahnnetz nicht gleichmäßig über alle Bahnhöfe verteilt sind. Stattdessen konzentrieren sich besonders hohe durchschnittliche Verspätungen auf eine begrenzte Anzahl einzelner Stationen. Diese Bahnhöfe stellen lokale Auffälligkeiten dar und können aggregierte Durchschnittswerte auf Netzebene spürbar beeinflussen.

Geografische Einordnung
Ein geografisches Muster ist erkennbar: Mehrere der unpünktlichsten Bahnhöfe liegen im westdeutschen Raum. Die Grafik deutet damit auf regionale Schwerpunkte erhöhter Verspätungen hin, ohne jedoch eine vollständige flächendeckende Aussage über das gesamte Bundesgebiet zu erlauben.

Große Knotenbahnhöfe oder kleinere Stationen?
Auffällig ist, dass es sich bei den unpünktlichsten Bahnhöfen überwiegend nicht um große zentrale Knotenbahnhöfe handelt. Stattdessen dominieren kleinere bis mittelgroße Stationen, häufig im Umfeld größerer Ballungsräume oder entlang stark frequentierter Strecken. Hohe durchschnittliche Verspätungen treten damit nicht ausschließlich an großen Hauptbahnhöfen auf, sondern auch an weniger prominenten Stationen.

Einordnung und Implikationen
Die Ergebnisse zeigen, dass Verspätungen räumlich konzentriert auftreten und sich an einzelnen Bahnhöfen besonders stark manifestieren. Dies legt nahe, dass gezielte Maßnahmen an spezifischen Problembahnhöfen potenziell einen relevanten Beitrag zur Verbesserung der Pünktlichkeit leisten könnten. Gleichzeitig verdeutlichen die hohen durchschnittlichen Verspätungen, dass lokale Engpässe erhebliche Auswirkungen auf die Zuverlässigkeit des Gesamtnetzes haben können.

Wo treffen viele Pendler auf eine unpünktliche Bahn?

Bisher haben Sie Pendler- und Bahndaten getrennt betrachtet. Aber die spannende Frage ist: Wo kommen beide Probleme zusammen? Eine Stadt mit vielen Pendlern und einer unpünktlichen Bahn hat ein größeres Problem als eine Stadt mit wenigen Pendlern und einer unpünktlichen Bahn.

Um diese Frage zu beantworten, müssen Sie die Datensätze verknüpfen. Das Problem: Die Bahndaten sind auf Bahnhofsebene, die Pendlerdaten auf Kreisebene. Sie benötigen ein Mapping, das Bahnhöfe den entsprechenden Kreisen zuordnet.

In dieser Aufgabe verknüpfen Sie die Bahn- und Pendlerdaten, um Städte mit Handlungsbedarf zu identifizieren. Nutzen Sie für ihre Analysen die Datensätze: bahn, pendler und bahnhof_mapping.

Das Mapping ordnet Bahnhöfe ihrem Landkreis zu (via AGS = Amtlicher Gemeindeschlüssel). Ihr Ziel: Identifizieren Sie Städte, in denen viele Pendler auf eine unpünktliche Bahn treffen.

Berechnen Sie für jeden Bahnhof die durchschnittliche Verspätung und die Anzahl der Halte.
Aggregation auf Kreisebene: Berechnen Sie für jeden Kreis die gewichtete durchschnittliche Verspätung. Gewichten Sie nach der Anzahl der Halte (ein Bahnhof mit 10.000 Halten zählt mehr als einer mit 100).
Verknüpfen Sie das Ergebnis mit den Pendlerdaten mittels left_join() über die Variable ags.
Problem-Score berechnen: Kombinieren Sie beide Dimensionen mit z-Standardisierung:

\[\text{Problem-Score} = z(\text{Einpendler}) + z(\text{Verspätung})\]

Die z-Standardisierung macht die Werte vergleichbar: \(z(x) = \frac{x - \bar{x}}{s_x}\), wobei \(\bar{x}\) der Mittelwert und \(s_x\) die Standardabweichung ist.

Interpretation: Ein hoher Problem-Score = Viele Pendler + hohe Verspätung = Handlungsbedarf.

Anschließend sollten Sie eine Tabelle der Top 10 Städte nach Problem-Score darstellen und diese kurz beschreiben.

Top 10 Städte/Kreise nach Problem-Score: Viele Einpendler und hohe Bahnverspätungen
Stadt	Einpendler	Ø Verspätung (Min)	Problem-Score
München	455.645	5,98	3,45
Köln	306.905	7,89	3,05
Düsseldorf	284.696	7,33	2,55
Frankfurt am Main	405.856	5,14	2,54
Berlin	392.324	4,70	2,18
Hamburg	392.951	4,44	2,05
Duisburg	86.735	8,81	1,46
Hamm	22.447	9,93	1,45
Stuttgart	274.442	5,30	1,38
Bonn	112.607	8,00	1,28

Beschreibung der Tabelle
Die Tabelle zeigt die zehn Städte bzw. Kreise mit dem höchsten Problem-Score, der das Pendleraufkommen und die durchschnittliche Unpünktlichkeit des Bahnverkehrs kombiniert. Grundlage der Analyse ist eine Verknüpfung von Bahnverspätungsdaten auf Bahnhofsebene mit Pendlerdaten auf Kreisebene über den amtlichen Gemeindeschlüssel (ags).

Zunächst wurde für jeden Bahnhof die durchschnittliche Verspätung sowie die Anzahl der Halte berechnet. Anschließend erfolgte eine Aggregation auf Kreisebene, wobei die durchschnittliche Verspätung nach der Anzahl der Halte gewichtet wurde. Dadurch gehen Bahnhöfe mit hoher verkehrlicher Bedeutung stärker in den Kreiswert ein als selten bediente Stationen.

Zur Vergleichbarkeit der Dimensionen wurden sowohl die Einpendlerzahlen als auch die gewichteten durchschnittlichen Verspätungen z-standardisiert. Der Problem-Score ergibt sich als Summe der beiden standardisierten Größen. Die Tabelle ist absteigend nach dem Problem-Score sortiert, sodass Städte mit dem höchsten kombinierten Handlungsbedarf oben stehen.

Zentrale Ergebnisse
Die höchsten Problem-Scores weisen große Städte mit hohem Pendleraufkommen auf. An der Spitze steht München mit rund 455.645 Einpendlern, einer durchschnittlichen Verspätung von 5,98 Minuten und dem höchsten Problem-Score. Es folgen Köln und Düsseldorf, die trotz geringerer Einpendlerzahlen durch deutlich höhere durchschnittliche Verspätungen ebenfalls hohe Scores erreichen.

Auch Frankfurt am Main, Berlin und Hamburg rangieren weit oben in der Tabelle. In diesen Fällen wird der Problem-Score vor allem durch die sehr hohe Zahl an Einpendlern bestimmt, während die durchschnittlichen Verspätungen moderater ausfallen. Städte wie Duisburg, Hamm oder Bonn weisen zwar teils sehr hohe durchschnittliche Verspätungen auf, erreichen jedoch insgesamt niedrigere Problem-Scores, da dort vergleichsweise weniger Pendler betroffen sind.

Wo treffen viele Pendler auf eine unpünktliche Bahn?
Viele Pendler treffen insbesondere in großen deutschen Metropolen auf eine unzuverlässige Bahn. Städte wie München, Köln, Düsseldorf und Frankfurt am Main vereinen eine hohe Zahl an Einpendlern mit überdurchschnittlichen Bahnverspätungen. In diesen Städten wirken sich Unzuverlässigkeiten im Bahnverkehr auf besonders viele Personen im täglichen Berufsverkehr aus, was sich in hohen Problem-Scores widerspiegelt.

Pendler- oder Verspätungsproblem?
Die Ergebnisse zeigen, dass der Handlungsbedarf weder allein durch hohe Verspätungen noch allein durch hohe Pendlerzahlen bestimmt wird. Der größte Problemdruck entsteht dort, wo beide Faktoren zusammenkommen. Während kleinere Städte teilweise sehr hohe durchschnittliche Verspätungen aufweisen, bleibt der gesamtgesellschaftliche Effekt dort begrenzt. In großen Städten führen hingegen bereits moderat erhöhte Verspätungen zu erheblichen Zeitverlusten, da sie eine sehr große Zahl von Pendlern betreffen.

Einordnung und verkehrspolitische Implikationen
Die Analyse verdeutlicht, dass prioritäre Handlungsfelder insbesondere in großen Pendlerzentren liegen. Verbesserungen der Bahnzuverlässigkeit in Städten wie München, Köln oder Düsseldorf hätten potenziell eine besonders hohe Wirkung, da sie viele Pendler gleichzeitig entlasten würden. Der Problem-Score eignet sich damit als Instrument, um Regionen zu identifizieren, in denen verkehrspolitische Maßnahmen eine hohe gesamtgesellschaftliche Relevanz besitzen.

Erstellen Sie ein Streudiagramm (Scatterplot), das die Beziehung zwischen Einpendlerzahl (x-Achse) und durchschnittlicher Verspätung (y-Achse) visualisiert.

Zeichnen Sie horizontale und vertikale Linien beim jeweiligen Mittelwert ein, um 4 Quadranten zu bilden
Färben Sie die Punkte nach Quadrant
Beschriften Sie die Städte mit den höchsten Problem-Scores
Nutzen Sie eine logarithmische Skala für die x-Achse

Beschreiben und iInterpretieren Sie die vier Quadranten:

Oben rechts: Viele Pendler + hohe Verspätung = ?
Oben links: Wenige Pendler + hohe Verspätung = ?
Unten rechts: Viele Pendler + niedrige Verspätung = ?
Unten links: Wenige Pendler + niedrige Verspätung = ?

Beantworten Sie dabei auch folgende Fragen:

Warum ist es sinnvoll die x-Achse zu logarithmieren?
Welche Städte liegen im kritischen Quadranten?
Was würden Sie der Deutschen Bahn empfehlen?

Beschreibung der Grafik
Die Abbildung „Pendleraufkommen und Bahnverspätungen in deutschen Städten“ zeigt ein Streudiagramm auf Kreisebene, in dem das Einpendleraufkommen (x-Achse) der gewichteten durchschnittlichen Bahnverspätung (y-Achse, in Minuten) gegenübergestellt wird. Die x-Achse ist logarithmisch skaliert, um die großen Unterschiede in den Einpendlerzahlen zwischen kleineren und sehr großen Kreisen vergleichbar darzustellen.

Die gestrichelten Linien markieren jeweils den Mittelwert der Einpendlerzahlen sowie den Mittelwert der durchschnittlichen Verspätung und teilen die Darstellung in vier Quadranten. Die Punkte sind nach Quadrant eingefärbt und ausgewählte Städte mit hohen Problem-Scores sind beschriftet, um zentrale Handlungsräume sichtbar zu machen.

Interpretation der vier Quadranten
Oben rechts: Viele Pendler + hohe Verspätung (kritischer Quadrant)
Dieser Quadrant umfasst Kreise mit überdurchschnittlich vielen Einpendlern und gleichzeitig überdurchschnittlichen Bahnverspätungen. In diesem Bereich liegen u.a. Köln, Düsseldorf und München. In diesen Kreisen treffen hohe Pendlerzahlen auf erhöhte Verspätungen, sodass Unzuverlässigkeit im Bahnverkehr potenziell besonders viele Personen im Berufsverkehr betrifft. Aus verkehrspolitischer Sicht ist hier der kombinierte Handlungsdruck am höchsten.

Oben links: Wenige Pendler + hohe Verspätung (lokale Auffälligkeiten)
In diesem Quadranten liegen Kreise mit unterdurchschnittlichem Einpendleraufkommen, aber überdurchschnittlichen Verspätungen, z.B. Hamm und Duisburg. Hier ist die Zahl der potenziell betroffenen Pendler geringer als im kritischen Quadranten, die Verspätungen fallen jedoch relativ hoch aus. Der Quadrant weist damit auf lokale Schwerpunkte erhöhter Unpünktlichkeit hin.

Unten rechts: Viele Pendler + niedrige Verspätung (vergleichsweise gut bedient)
Dieser Quadrant umfasst Kreise mit hohem Einpendleraufkommen, aber unterdurchschnittlichen Verspätungen, z.B. Berlin, Hamburg und Frankfurt am Main. Diese Kreise zeigen, dass ein hohes Pendleraufkommen nicht zwangsläufig mit hohen Verspätungen einhergehen muss. Sie eignen sich als Referenzfälle für einen Vergleich der Rahmenbedingungen und Strukturen in späteren Diskussionen.

Unten links: Wenige Pendler + niedrige Verspätung (kein Fokus)
Hier befinden sich Kreise mit unterdurchschnittlichem Einpendleraufkommen und zugleich unterdurchschnittlichen Verspätungen. Aus Sicht der kombinierten Problemstellung ist der Handlungsdruck in diesem Quadranten am geringsten, da sowohl die Zahl potenziell Betroffener als auch das Verspätungsniveau niedrig ist.

Beantwortung der Leitfragen
Warum ist es sinnvoll, die x-Achse zu logarithmieren?
Die Einpendlerzahlen unterscheiden sich stark zwischen kleineren Kreisen und großen Metropolen. Eine logarithmische Skalierung reduziert die Dominanz sehr großer Werte, erhöht die Lesbarkeit im unteren Wertebereich und ermöglicht, Muster über die gesamte Spannweite der Einpendlerzahlen gleichzeitig zu erkennen.

Welche Städte liegen im kritischen Quadranten?
Im kritischen Quadranten (oben rechts) liegen insbesondere Köln, Düsseldorf und München. Diese Städte vereinen ein sehr hohes Einpendleraufkommen mit überdurchschnittlichen durchschnittlichen Bahnverspätungen.

Was würden Sie der Deutschen Bahn empfehlen?
Die Ergebnisse legen nahe, Maßnahmen zur Verbesserung der Pünktlichkeit und Betriebsstabilität prioritär in den Kreisen des kritischen Quadranten umzusetzen, da hier sowohl das Pendleraufkommen als auch das Verspätungsniveau erhöht sind. Für Kreise im oberen linken Quadranten bieten sich ergänzend lokal fokussierte Analysen und Maßnahmen an, da dort hohe Verspätungen bei geringerer Pendlerzahl auftreten. Kreise im unteren rechten Quadranten können als Vergleichsmaßstab dienen, um Faktoren zu identifizieren, die trotz hohen Pendleraufkommens mit geringeren Verspätungen einhergehen.

Der Vergleich – Auto vs. Bahn

Sie haben nun identifiziert, wo die Bahn Probleme hat: Städte im kritischen Quadranten (viele Pendler + hohe Verspätungen) brauchen dringend Verbesserungen. Aber bevor Sie Empfehlungen aussprechen können, müssen Sie eine zentrale Frage beantworten:

Lohnt sich die Bahn überhaupt – oder ist das Auto trotz Stau schneller?

Denn selbst wenn die Bahn unpünktlich ist, könnte sie immer noch schneller sein als das Auto im Berufsverkehr. Umgekehrt: Eine pünktliche Bahn bringt wenig, wenn das Auto trotzdem schneller ist. Erst der direkte Vergleich zeigt uns, wo die Bahn wirklich konkurrenzfähig ist – und wo nicht.

Methodische Herausforderungen

Für einen fairen Vergleich sollten Sie “Äpfel mit Äpfeln” vergleichen:

Beim Auto muss der Stau berücksichtigt werden (nicht nur die theoretische Fahrzeit)
Bei der Bahn muss die Verspätung berücksichtigt werden (nicht nur der Fahrplan)
Beide Routen müssen dieselben Start- und Endpunkte haben

Für die Auto-Fahrtzeiten nutzen Sie OSRM (Open Source Routing Machine), das auf OpenStreetMap-Daten basiert. OSRM berechnet echte Straßenrouten, keine Luftlinien.

Erklären Sie in eigenen Worten:

Warum ist OSRM-Routing für diesen Vergleich besser geeignet als eine einfache Berechnung nach der Formel Distanz / Geschwindigkeit?
Welche Faktoren müssen zusätzlich berücksichtigt werden, um einen realistischen Vergleich zu ermöglichen? Denken Sie an:
- Tageszeit
- Parkplatzsuche
- Fußweg zum Ziel
- Wartezeit und Umsteigen bei der Bahn

Warum ist OSRM-Routing besser geeignet als die Formel Distanz / Geschwindigkeit?
OSRM-Routing ist für den Vergleich von Auto- und Bahnfahrzeiten besser geeignet als eine einfache Berechnung nach der Formel Distanz / Geschwindigkeit, da es auf realen Straßendaten basiert. Während die vereinfachte Formel von einer direkten Strecke und einer konstanten Durchschnittsgeschwindigkeit ausgeht, berücksichtigt OSRM den tatsächlichen Verlauf des Straßennetzes. Dazu zählen unter anderem Straßenführungen, Kreuzungen, Einbahnstraßen, Abbiegebeschränkungen sowie unterschiedliche Tempolimits.

Dadurch bildet OSRM reale Fahrtrouten deutlich realistischer ab als eine theoretische Distanzberechnung. Insbesondere in urbanen Räumen mit komplexen Verkehrsstrukturen liefert OSRM eine wesentlich genauere Näherung der tatsächlichen Fahrzeit als einfache Modellannahmen.

Welche zusätzlichen Faktoren müssen für einen realistischen Vergleich berücksichtigt werden?
Für einen realistischen Vergleich zwischen Auto und Bahn reicht es nicht aus, lediglich die reine Fahrzeit zu betrachten. Stattdessen muss die gesamte Reisezeit von Tür zu Tür berücksichtigt werden.

Beim Auto spielt die Tageszeit eine zentrale Rolle, da das Verkehrsaufkommen insbesondere während der Hauptverkehrszeiten zu erheblichen Staus und damit zu verlängerten Fahrzeiten führen kann. Zusätzlich endet die Autofahrt nicht mit dem Erreichen des Zielgebiets, sondern umfasst auch die Parkplatzsuche sowie den anschließenden Fußweg zum eigentlichen Ziel.

Auch bei der Bahn ist die im Fahrplan angegebene Reisezeit allein nicht ausreichend. Für einen realistischen Vergleich müssen typische Verspätungen berücksichtigt werden, ebenso wie zusätzliche Wartezeiten und Puffer beim Umsteigen, um das Risiko verpasster Anschlüsse abzubilden. Da Bahnhöfe in der Regel nicht direkt am Start- oder Zielort liegen, sind außerdem die Wege zum und vom Bahnhof einzubeziehen, beispielsweise zu Fuß, mit dem Fahrrad oder mit anderen Verkehrsmitteln des öffentlichen Nahverkehrs.

Erst durch die Berücksichtigung all dieser Zeitanteile entsteht eine faire und nachvollziehbare Vergleichsgrundlage zwischen Auto und Bahn, die über idealisierte Fahrzeiten hinausgeht und den tatsächlichen Pendleralltag realistisch widerspiegelt.

Für die Top 10 Einpendler-Städte wurden typische Pendlerstrecken definiert (z.B. Dachau \(\rightarrow\) München, Neuss \(\rightarrow\) Düsseldorf). Die OSRM-Ergebnisse liegen bereits vor. Nutzen Sie für ihre Analyse den Datensatz fahrtzeit.

Erstellen Sie:

Eine Tabelle mit: Stadt, Strecke, Distanz (km), Auto-Fahrzeit (Hauptverkehrszeit), Bahn-Fahrzeit (real), Differenz
Berechnen Sie die jährliche Zeitersparnis bei 220 Arbeitstagen und 2x täglichem Pendeln.

Interpretieren Sie ihre Tabelle:

In wie vielen Fällen ist die Bahn schneller als das Auto?
Wie viele Stunden pro Jahr kann ein Pendler maximal sparen?
Gibt es Strecken, bei denen das Auto schneller ist? Woran könnte das liegen?

Auto vs. Bahn: Fahrzeitvergleich und Zeitersparnis für die Top-Einpendlerstädte und Ulm
Stadt	Strecke	Distanz (km)	Auto-Fahrzeit (Min, HVZ)	Bahn-Fahrzeit (Min, real)	Differenz (Min)	Zeitersparnis (h/Jahr)
München	Dachau → München	19,1	40,2	26,1	14,1	103,5
Frankfurt	Darmstadt → Frankfurt	36,0	35,8	23,0	12,8	93,9
Hamburg	Harburg → Hamburg	14,2	24,0	16,3	7,7	56,7
Berlin	Potsdam → Berlin	34,2	49,3	29,6	19,7	144,6
Köln	Leverkusen → Köln	18,3	28,7	22,8	5,9	43,3
Düsseldorf	Neuss → Düsseldorf	12,1	27,1	17,1	10,0	73,3
Stuttgart	Esslingen → Stuttgart	14,0	27,2	20,2	7,0	51,6
Nürnberg	Fürth → Nürnberg	10,4	18,9	12,9	6,0	44,4
Essen	Mülheim → Essen	11,0	18,0	15,3	2,7	20,1
Hannover	Celle → Hannover	42,2	54,4	40,8	13,6	99,8
Ulm	Neu-Ulm → Ulm	3,7	8,1	8,9	-0,8	-5,8

Beschreibung der Tabelle
Die Tabelle „Auto vs. Bahn: Fahrzeitvergleich und Zeitersparnis für die Top-Einpendlerstädte und Ulm“ stellt für ausgewählte typische Pendlerrelationen einen direkten Vergleich zwischen Auto- und Bahnfahrzeiten dar. Für jede Stadt werden die betrachtete Strecke, die Distanz in Kilometern, die durchschnittliche Autofahrzeit während der Hauptverkehrszeit sowie die reale Bahnfahrzeit ausgewiesen. Aus diesen Angaben wird die Zeitdifferenz zwischen beiden Verkehrsmitteln berechnet. Zusätzlich zeigt die Tabelle die daraus resultierende jährliche Zeitersparnis für Bahnpendler, basierend auf 220 Arbeitstagen und zweimal täglichem Pendeln.

Interpretation
Die Ergebnisse zeigen ein klares Muster: In nahezu allen untersuchten Relationen ist die Bahn schneller als das Auto. Besonders in großen Ballungsräumen verliert der Autoverkehr während der Hauptverkehrszeit deutlich an Effizienz, während die Bahn vergleichsweise stabile Reisezeiten bietet. Der Zeitvorteil der Bahn fällt vor allem auf längeren Pendelstrecken ins Gewicht. Verbindungen wie Potsdam → Berlin oder Celle → Hannover zeigen, dass sich durch die Nutzung der Bahn über ein Jahr hinweg erhebliche Zeitgewinne erzielen lassen. Bei mittleren Distanzen zwischen etwa zehn und zwanzig Kilometern ist der Vorteil zwar geringer, bleibt jedoch deutlich positiv und summiert sich im Jahresverlauf auf mehrere Dutzend Stunden.

Gleichzeitig wird sichtbar, dass der systemische Vorteil der Bahn bei sehr kurzen Distanzen abnimmt. Fixe Zeitkosten wie Wege zum Bahnhof, Wartezeiten oder ein geringerer Taktanteil wirken sich hier stärker aus als auf längeren Strecken. Dadurch kann sich der relative Vorteil zugunsten des Autos verschieben.

Beantwortung der Leitfragen
In wie vielen Fällen ist die Bahn schneller als das Auto?
In zehn von elf untersuchten Fällen ist die Bahn schneller als das Auto. Dies entspricht einem Anteil von rund 91 Prozent und unterstreicht die hohe Wettbewerbsfähigkeit der Bahn im Pendelverkehr großer Städte.

Wie viele Stunden pro Jahr kann ein Pendler maximal sparen?
Die maximale jährliche Zeitersparnis beträgt 144,6 Stunden auf der Relation Potsdam → Berlin. Umgerechnet entspricht dies etwa 18 vollen Acht-Stunden-Arbeitstagen, die ein Pendler pro Jahr durch die Nutzung der Bahn gewinnen kann.

Gibt es Strecken, bei denen das Auto schneller ist? Woran könnte das liegen?
Eine Ausnahme bildet die Strecke Neu-Ulm → Ulm, auf der das Auto geringfügig schneller ist. Mit einer Distanz von nur 3,7 Kilometern handelt es sich um eine sehr kurze Strecke, bei der Wege- und Wartezeiten der Bahn einen vergleichsweise großen Anteil an der Gesamtreisezeit haben. Zudem ermöglicht das Auto in einem eng verflochtenen Doppelzentrum wie Ulm/Neu-Ulm eine nahezu direkte Tür-zu-Tür-Verbindung. Auf solchen Kurzstrecken ist die Verkehrsbelastung häufig noch nicht so hoch, dass die Bahn ihren Vorteil einer staufreien Fahrt voll ausspielen kann.

Da Sie alle in Ulm studieren und eventuell aus dem Ulmer Umland einpendeln, sollten Sie die 5 wichtigsten Pendlerrouten nach Ulm näher analysieren. Stellen Sie in einem Dumbbell-Chart (oder Lollipop-Chart) die Unterschiede zwischen Auto- und Bahnzeiten visuell dar. Nutzen Sie für ihre Analyse den Datensatz ulm_routen.

Die 5 wichtigsten Pendlerrouten nach Ulm sind:

Neu-Ulm \(\rightarrow\) Ulm
Blaustein \(\rightarrow\) Ulm
Ehingen \(\rightarrow\) Ulm
Laupheim \(\rightarrow\) Ulm
Langenau \(\rightarrow\) Ulm

Markieren Sie, welche Orte keinen Bahnhof haben.

Beschreiben und interpretieren Sie ihre Grafik. Welche Besonderheiten zeigen die ländlichen Strecken?

Hinweis: Nutzen Sie geom_segment() und geom_point() für ihr Dumbbell-Chart oder Lollipop-Chart.

Beschreibung der Grafik
Die Grafik „Pendleranalyse Ulm: Auto vs. Bahn“ stellt die Realreisezeiten der fünf wichtigsten Einpendlerrouten nach Ulm gegenüber. Auf der vertikalen Achse sind die Herkunftsorte Ehingen (Donau), Langenau, Laupheim, Blaustein und Neu-Ulm aufgeführt, während die horizontale Achse die jeweilige Fahrzeit in Minuten zeigt. Graue Punkte repräsentieren die Pkw-Fahrzeiten während der Hauptverkehrszeit, rote Punkte die realen Reisezeiten mit der Bahn. Die Verbindungslinien zwischen den Punkten verdeutlichen die Zeitdifferenz zwischen den beiden Verkehrsmitteln.

Eine Besonderheit stellt Blaustein dar, das mit einem Sternchen gekennzeichnet ist. Für diese Relation existiert kein direkter Bahnanschluss, sodass ausschließlich die Autofahrzeit dargestellt wird. Dies macht infrastrukturelle Unterschiede zwischen den betrachteten Einzugsgebieten unmittelbar sichtbar.

Interpretation
Die Grafik zeigt, dass die Bahn im Ulmer Umland auf den meisten untersuchten Relationen zeitlich im Vorteil ist. Auf vier der fünf betrachteten Strecken ist die Bahn schneller als das Auto. Besonders ausgeprägt ist der Zeitnachteil des Autos auf der Relation Langenau → Ulm, wo das Auto mit 26 Minuten deutlich länger benötigt als die Bahn mit 15 Minuten. Auch auf der Strecke Ehingen → Ulm zeigt sich ein klarer Zeitvorteil von 8 Minuten zugunsten der Bahn. In Neu-Ulm sind die absoluten Reisezeiten insgesamt sehr kurz; dennoch ist die Bahn hier geringfügig schneller als das Auto. Die Zeitvorteile der Bahn liegen vor allem daran, dass Autos zur Hauptverkehrszeit häufig im Stau stehen, was bei Bahnstrecken nicht vorkommt.

Eine Ausnahme bildet die Relation Blaustein → Ulm. Da hier kein direkter Bahnanschluss besteht, haben Pendler keine Wahlmöglichkeit und sind auf den Pkw angewiesen.

Welche Besonderheiten zeigen die ländlichen Strecken?
Die Analyse der ländlichen Relationen verdeutlicht eine Polarisierung: Wo Schieneninfrastruktur existiert - wie in Langenau oder Ehingen -, ist die Bahn hochgradig vorteilhaft. Besonders auf längeren Distanzen profitiert sie von der Unabhängigkeit vom Staugeschehen, was zu Zeitersparnissen von bis zu 11 Minuten führt. Fehlt jedoch eine solche direkte und gut ausgebaute Verbindung, bleibt das Auto für Pendler mangels Alternativen das dominierende Verkehrsmittel.

Die volkswirtschaftlichen Kosten

Verspätungen kosten nicht nur Nerven, sie haben einen realen volkswirtschaftlichen Preis. Jede Minute, die ein Pendler im verspäteten Zug wartet, ist verlorene Arbeitszeit.

Um diese Kosten etwas besser zu quantifizieren sollten Sie sich den Medianlohn der jeweiligen Städte herunterladen und näher analysieren.

Berechnen Sie die volkswirtschaftlichen Kosten der Bahnverspätungen für die 11 Städte.

Datensätze:

staedte_basis (aus Aufgabe 4) – enthält Einpendler, Medianlohn und Staudaten
Ergebnis aus Aufgabe 9: die gewichtete durchschnittliche Verspätung pro Stadt (in Minuten)

Nutzen Sie die folgenden Annahmen:

Annahmen:

220 Arbeitstage pro Jahr
2 Fahrten pro Tag (Hin + Zurück)
Ca. 8,4% der Pendler nutzen die Bahn (nationaler Durchschnitt laut MiD 2023 Kurzbericht)

Berechnen Sie für jede Stadt:

Anzahl der Bahnpendler (Einpendler × 8,4%)
Verspätungsstunden pro Jahr (Verspätung × 220 × 2 / 60)
Kosten pro Pendler (Verspätungsstunden × Stundenlohn)
Gesamtkosten der Stadt

Erstellen Sie auf Basis ihrer Berechnung eine Tabelle, welche die Anzahl der Bahnpendler, die Verspätungsstunden pro Jahr, die Kosten pro Pendler und die Gesamtkosten der Stadt anschaulich darstellt.

Beschreiben und interpretieren Sie ihre Tabelle. Gehen Sie dabei auch auf die Gesamtkosten der 11 Städte ein. Erklären Sie außerdem, warum der Medianlohn für diese Berechnung besser geeignet ist als der Durchschnittslohn.

Hinweis: Für die Umrechnung auf Stundenlohn: Monatsentgelt / 160 (bei 40h/Woche).

Jährliche volkswirtschaftliche Kosten durch Bahnverspätungen
Stadt	Bahnpendler	Ø Verspätung (h/Jahr)	Kosten/Pendler (€)	Gesamtkosten (Mio. €)
München, Landeshauptstadt	38.274	43,9	1.328,8	50,86
Köln, Stadt	25.780	57,9	1.590,6	41,01
Frankfurt am Main, Stadt	34.092	37,7	1.111,1	37,88
Düsseldorf, Stadt	23.914	53,8	1.520,0	36,35
Hamburg, Freie und Hansestadt	33.008	32,6	922,1	30,44
Berlin, Stadt	32.955	34,5	895,5	29,51
Stuttgart, Landeshauptstadt	23.053	38,9	1.138,6	26,25
Essen, Stadt	11.869	54,6	1.361,0	16,15
Nürnberg, Stadt	13.902	37,1	980,7	13,63
Region Hannover	11.586	43,8	1.137,8	13,18
Ulm, Universitätsstadt	5.741	29,5	795,3	4,57

Beschreibung der Tabelle
Die Tabelle „Jährliche volkswirtschaftliche Kosten durch Bahnverspätungen“ zeigt für die zehn einpendlerstärksten Städte Deutschlands sowie ergänzend Ulm die geschätzten ökonomischen Verluste, die durch Bahnverspätungen entstehen. Dargestellt werden die geschätzte Anzahl der Bahnpendler (basierend auf einem Anteil von 8,4 % der Einpendler), die durchschnittliche jährliche Verspätungsdauer pro Pendler in Stunden, die daraus resultierenden Kosten pro Pendler sowie die aggregierten Gesamtkosten je Stadt in Millionen Euro. Die Berechnungen basieren auf 220 Arbeitstagen pro Jahr, zwei täglichen Fahrten sowie dem jeweiligen Medianstundenlohn der Städte.

Für die Berechnung der volkswirtschaftlichen Kosten wird ein Bahnanteil von 8,4 % angenommen, entsprechend dem bundesweiten Durchschnitt (vgl. Mobilität in Deutschland, 2023).

Interpretation
Die Ergebnisse verdeutlichen, dass Bahnverspätungen erhebliche volkswirtschaftliche Kosten verursachen. Über alle elf betrachteten Städte summieren sich die jährlichen Gesamtkosten auf deutlich über 300 Millionen Euro. Besonders hohe Kosten entstehen in großen Metropolen mit hohem Pendleraufkommen und vergleichsweise hohen Löhnen. München weist mit rund 50,9 Millionen Euro die höchsten Gesamtkosten auf. Ausschlaggebend ist hier das Zusammenspiel aus einer großen Zahl von Bahnpendlern und einem hohen Medianlohnniveau.

Der Vergleich einzelner Städte zeigt, dass nicht allein die Anzahl der Bahnpendler ausschlaggebend ist. Düsseldorf verursacht mit rund 36,4 Millionen Euro höhere Gesamtkosten als Hamburg (30,4 Millionen Euro), obwohl Hamburg mehr Bahnpendler aufweist. Der Unterschied erklärt sich durch eine deutlich höhere jährliche Verspätungsdauer pro Pendler in Düsseldorf. Köln fällt insbesondere durch sehr hohe Kosten pro Pendler auf, während Frankfurt am Main trotz hoher Pendlerzahlen vergleichsweise moderate Pro-Kopf-Kosten aufweist. Insgesamt zeigt sich, dass der volkswirtschaftliche Schaden aus dem Zusammenwirken von Pendlerzahl, Zuverlässigkeit des Bahnverkehrs und lokalem Einkommensniveau entsteht.

Gesamtkosten im Überblick
Addiert über alle betrachteten Städte ergibt sich ein jährlicher volkswirtschaftlicher Schaden von mehr als 300 Millionen Euro allein durch Bahnverspätungen. Diese Größenordnung verdeutlicht, dass Verspätungen nicht nur ein individuelles Ärgernis darstellen, sondern auch gesamtwirtschaftlich relevant sind. Selbst moderate Verbesserungen der Pünktlichkeit könnten daher erhebliche ökonomische Entlastungseffekte erzeugen.

Warum ist der Medianlohn besser geeignet als der Durchschnittslohn?
Für die Berechnung der volkswirtschaftlichen Kosten wurde bewusst der Medianlohn anstelle des Durchschnittslohns verwendet. Der Medianlohn beschreibt das Einkommen des „typischen“ Arbeitnehmers, da er die Einkommensverteilung exakt in zwei gleich große Hälften teilt. Der Durchschnittslohn hingegen kann durch wenige sehr hohe Einkommen stark nach oben verzerrt werden und würde die tatsächlichen Zeitkosten für die Mehrheit der Pendler überschätzen.

Die Verwendung des Medianlohns führt somit zu einer konservativen und realistischeren Schätzung der ökonomischen Verluste. Dadurch wird vermieden, dass die Kosten künstlich aufgebläht werden, und es entsteht eine belastbare Grundlage für eine sachliche verkehrsökonomische Bewertung von Bahnverspätungen.

Setzen Sie die Kosten der Bahn (aus Aufgabe 14) den Kosten des Autos gegenüber. Vergleichen Sie diese in einer Szenario-Analyse mittels eines gestapelten Balkendiagramms. Nutzen Sie für ihre Analysen den Datensatz staedte_basis.

Berechnen Sie zuerst die Kosten des Autostaus pro Stadt:

Anzahl der Autopendler (Einpendler × 91,6%)
Staukosten pro Autopendler (Staustunden × Stundenlohn)
Gesamtkosten der Stadt durch Autostau

Führen Sie anschließend einen Szenario-Vergleich durch: Was passiert, wenn der Bahnanteil von 8,4% auf 20% steigt?

Berechnen Sie die Gesamtkosten (Bahn + Auto) für beide Szenarien
Annahme: Weniger Autos = weniger Stau (z.B. 20% weniger Stauzeit pro Autopendler)

Erstellen Sie ein gestapeltes Balkendiagramm nach Szenario. Beschreiben und intepretieren Sie ihre Grafik. Gehen Sie insbesondere auf die folgenden Fragen ein:

Wie verteilen sich die Kosten zwischen Bahn und Auto im Status quo?
Welches Verkehrsmittel verursacht den größeren volkswirtschaftlichen Schaden?
Was ist die Nettoersparnis bei 20% Bahnanteil?

Beschreibung der Grafiken
Die Abbildungen vergleichen die volkswirtschaftlichen Gesamtkosten des Pendelverkehrs für die betrachteten elf Städte in zwei Szenarien: dem Status quo mit einem Bahnanteil von 8,4 % sowie einem Szenario mit einem erhöhten Bahnanteil von 20 %. Die Gesamtkosten setzen sich aus (1) Zeitkosten durch Autostau und (2) Zeitkosten durch Bahnverspätungen zusammen und werden als gestapelte Balken dargestellt. Graue Balkenanteile repräsentieren die Kosten des Autoverkehrs, rote Balkenanteile die Kosten des Bahnverkehrs. Die y-Achse zeigt die Gesamtkosten pro Jahr in Millionen Euro.

Zusätzlich wird die Gesamtsumme über alle Städte in einer aggregierten Darstellung gegenübergestellt, wodurch die gesamtwirtschaftliche Größenordnung der beiden Szenarien direkt vergleichbar wird.

Interpretation
Im Status quo entfällt der überwiegende Teil der volkswirtschaftlichen Kosten auf den Autoverkehr. Die stauinduzierten Zeitverluste der Autopendler dominieren die Gesamtkosten deutlich, während die Kosten durch Bahnverspätungen im Vergleich einen kleineren Anteil ausmachen. Damit entstehen die größten Effizienzverluste im Pendelverkehr in diesem Datenausschnitt primär durch den Straßenverkehr.

Im Szenario mit einem Bahnanteil von 20 % verschiebt sich die Kostenstruktur sichtbar. Die Bahnkosten steigen, da mehr Pendler die Bahn nutzen und damit mehr Personen von Verspätungen betroffen sind. Gleichzeitig sinken die Autokosten deutlich, da bei einer geringeren Autonutzung unterstellt wird, dass die Stauzeit pro Autopendler um 20 % zurückgeht. In den dargestellten Ergebnissen überwiegt der Rückgang der Autokosten den Anstieg der Bahnkosten, sodass die Gesamtkosten im Szenario insgesamt niedriger ausfallen als im Status quo.

Die aggregierte Darstellung über alle Städte verdeutlicht diesen Effekt: Die Gesamtkosten sinken von rund 4.400,8 Mio. € im Status quo auf rund 3.557,0 Mio. € im Szenario. Daraus ergibt sich eine Nettoersparnis von etwa 843,8 Mio. € pro Jahr.

Beantwortung der Leitfragen
Wie verteilen sich die Kosten zwischen Bahn und Auto im Status quo?
Im Status quo entsteht der größte Anteil der Gesamtkosten durch Autostau. Die Bahnkosten durch Verspätungen sind sichtbar, machen aber im Vergleich einen deutlich kleineren Anteil der Gesamtkosten aus.

Welches Verkehrsmittel verursacht den größeren volkswirtschaftlichen Schaden?
In den betrachteten Städten verursacht der Autoverkehr den größeren volkswirtschaftlichen Schaden, da die stauinduzierten Zeitverluste im Status quo den Kostenbeitrag der Bahn deutlich übersteigen.

Was ist die Nettoersparnis bei 20 % Bahnanteil?
Die Nettoersparnis im Szenario mit 20 % Bahnanteil beträgt rund 843,8 Mio. € pro Jahr. Sie ergibt sich daraus, dass der Rückgang der Staukosten im Autoverkehr den gleichzeitigen Anstieg der Bahnkosten überkompensiert, sofern die angenommene Reduktion der Stauzeit pro Autopendler eintritt.

Einordnung
Die Szenarioanalyse macht deutlich, dass eine Verschiebung des Modal Split zugunsten der Bahn nicht nur individuelle Reisezeiten betrifft, sondern auch systemische Effekte im Verkehrsnetz auslösen kann. Unter der getroffenen Annahme „weniger Autos = weniger Stau“ können gesamtwirtschaftliche Zeitkosten deutlich sinken. Gleichzeitig ist zu beachten, dass die Ergebnisse von den Modellannahmen abhängen (insbesondere von der angenommenen Stauentlastung) und daher als indikative Abschätzung zu interpretieren sind.

Politikempfehlung – Ihre Synthese

Sie haben nun umfangreiche Analysen durchgeführt und viele Erkenntnisse über die Bahn gewonnen. Jetzt ist es Zeit, diese zu einer kohärenten Empfehlung zusammenzufügen.

Szenario: Sie sind Berater:in des Bundesministeriums für Digitales und Verkehr. Die Ministerin bittet Sie um eine evidenzbasierte Politikempfehlung zur Verbesserung des Pendlerverkehrs in Deutschland.

Formulieren Sie eine Politikempfehlung für das Bundesministerium für Digitales und Verkehr.

Schreiben Sie eine Executive Summary (max. 5 Sätze). Fassen Sie hierbei die wichtigsten Erkenntnisse aus ihrem Projekt zusammen. Was ist die zentrale Botschaft?

Formulieren Sie 3 konkrete Empfehlungen. Jede muss enthalten:

Ein konkretes Ziel (Was soll erreicht werden?)
Eine messbare Maßnahme (Wie wird es umgesetzt?)
Eine Begründung mit Zahlen aus Ihrer Analyse
Nennen Sie zwei Limitationen Ihrer Datengrundlage
Was würden Sie mit zusätzlichen Daten noch untersuchen?

Executive Summary (max. 5 Sätze)
Die Analyse der Top-10-Einpendlerstädte plus Ulm zeigt, dass die volkswirtschaftlichen Zeitkosten im Pendelverkehr im Status quo überwiegend durch Autostau entstehen, während Bahnverspätungen zwar relevant sind, aber einen deutlich kleineren Anteil ausmachen. Gleichzeitig konzentriert sich der Handlungsdruck auf Städte im kritischen Quadranten (viele Einpendler + überdurchschnittliche Bahnverspätung), insbesondere Köln, Düsseldorf und München. In 10 von 11 untersuchten Pendlerrelationen ist die Bahn zudem schneller als das Auto in der Hauptverkehrszeit, mit einer maximalen Zeitersparnis von 144,6 Stunden pro Jahr (Potsdam → Berlin). Ein Szenario mit 20 % Bahnanteil reduziert unter der Annahme von 20 % weniger Stauzeit die Gesamtkosten von rund 4.400,8 Mio. € auf 3.557,0 Mio. € und ergibt eine Nettoersparnis von etwa 843,8 Mio. € pro Jahr. Die zentrale Botschaft lautet: Ein gezielter Ausbau und eine Stabilisierung der Bahn in Pendlerzentren sind volkswirtschaftlich besonders wirksam, weil sie den deutlich größeren Kostentreiber „Stau“ reduzieren.

Empfehlung 1: Maßnahmen nach Problemdruck priorisieren (kritischer Quadrant)
Ziel: Zeitverluste dort senken, wo viele Pendler auf eine überdurchschnittlich unzuverlässige Bahn treffen.
Maßnahme (messbar): Prioritäres „Pendel-Pünktlichkeitsprogramm“ für Kreise im kritischen Quadranten (u.a. Köln, Düsseldorf, München) mit verbindlichen Zielwerten: Reduktion der gewichteten durchschnittlichen Verspätung auf Kreisebene und Erhöhung des Anteils pünktlicher Fahrten (≤ 6 Minuten) innerhalb eines definierten Zeitfensters (z.B. 24 Monate).
Begründung mit Zahlen: Der Problem-Score identifiziert Köln, Düsseldorf und München als höchste Handlungspriorität (hohe Einpendlerzahlen + überdurchschnittliche Verspätungen). Allein die Bahnverspätungen verursachen in den betrachteten 11 Städten volkswirtschaftliche Kosten von deutlich über 300 Mio. € pro Jahr, mit besonders hohen Gesamtkosten in München (50,86 Mio. €). Maßnahmen in diesen Zentren haben daher einen hohen Hebel, weil viele Pendler betroffen sind und zugleich hohe Zeitkosten pro Stunde entstehen.
Limitationen (2): (1) Die Verspätung wird aus Haltedaten abgeleitet und anschließend auf Kreisebene aggregiert; dies bildet nicht zwingend die Endbahnhof-Pünktlichkeit ab. (2) Das Bahnhof–Kreis-Mapping kann lokale Verzerrungen erzeugen, wenn Bahnhöfe nicht dem tatsächlichen Pendlerstrom entsprechen.
Zusätzliche Daten (weiter untersuchen): Störungsursachen (Infrastruktur, Baustellen, Stellwerk, Personal), punktgenaue Knoten-/Streckenengpässe sowie Zugauslastung, um Maßnahmen kausal auf „Hotspots“ zurückzuführen und den größten Effekt pro investiertem Euro zu identifizieren.

Empfehlung 2: Pendlerrelevanten Nahverkehr in der HVZ stabilisieren
Ziel: Zuverlässigkeit genau dann erhöhen, wenn die meisten Pendler unterwegs sind (Hauptverkehrszeiten).
Maßnahme (messbar): HVZ-Stabilitätsstrategie im Nahverkehr (Taktrobustheit, Konfliktauflösung an Knotenpunkten, Puffer/Reserven in Umläufen) mit Monitoring nach Stunde und Wochentag; Ziel: messbare Reduktion der durchschnittlichen Nahverkehrsverspätung in den HVZ-Zeitfenstern (z.B. 7–9 Uhr und 16–19 Uhr) sowie Verringerung der „Hot-Heatmap“-Zellen (Stunden/Wochentage mit höchsten Mittelwerten).
Begründung mit Zahlen: Der Nahverkehr dominiert die tatsächliche Pendlerrealität: In der Tagesganglinie liegen die Spitzen bei über 1.400 Nahverkehr-Fahrten pro Stunde, während der Fernverkehr zahlenmäßig deutlich geringer ist. Die Heatmaps zeigen zudem, dass Verspätungen im Nahverkehr insbesondere in den pendlerrelevanten Zeitfenstern an Werktagen ansteigen; kleine Verbesserungen wirken deshalb auf sehr viele Fahrten gleichzeitig.
Limitationen (2): (1) „Fahrten“ werden im Datensatz über Ereignisse/Halte gezählt und nicht über tatsächlich betroffene Personen, wodurch die Pendlerbetroffenheit nur indirekt abgebildet wird. (2) Ohne Auslastungsdaten kann nicht beurteilt werden, ob die größten Verspätungsfenster auch die höchsten Passagiermengen betreffen.
Zusätzliche Daten (weiter untersuchen): Auslastung und Boarding-Zahlen nach Linie/Zeitfenster sowie Anschlussdaten (Umstiege, verpasste Anschlüsse), um die Verspätungswirkung für Pendler (verlorene Anschlüsse, Wartezeiten) genauer zu quantifizieren.

Empfehlung 3: Modal-Shift als volkswirtschaftlichen Hebel nutzen (Staukosten senken)
Ziel: Den größten Kostentreiber „Autostau“ reduzieren, ohne die Gesamtkosten durch Bahnverspätungen unverhältnismäßig steigen zu lassen.
Maßnahme (messbar): Maßnahmenmix zur Erhöhung des Bahnanteils auf 20 % in Pendlerregionen (Kapazitätsausbau, Angebotsqualität, intermodale Anbindung/First-&-Last-Mile) gekoppelt an Zielgrößen: Anteil Bahnpendler, Stauzeit pro Autopendler sowie Pünktlichkeitskennzahlen. Im Szenario wird eine Reduktion der Stauzeit pro Autopendler um 20 % als Zielwirkung angenommen und als KPI überprüft.
Begründung mit Zahlen: Die Szenarioanalyse zeigt, dass sich die Gesamtkosten (Auto + Bahn) bei 20 % Bahnanteil von rund 4.400,8 Mio. € auf 3.557,0 Mio. € reduzieren können; die Nettoersparnis beträgt etwa 843,8 Mio. € pro Jahr (für die 11 Städte). Gleichzeitig ist die Bahn in 10 von 11 untersuchten Pendlerrelationen schneller als das Auto in der HVZ; die maximale individuelle Zeitersparnis liegt bei 144,6 Stunden/Jahr (Potsdam → Berlin). Damit ist Modal-Shift nicht nur verkehrlich plausibel, sondern auch volkswirtschaftlich potenziell hochwirksam.
Limitationen (2): (1) Die Stauentlastung (20 % weniger Stauzeit) ist eine Modellannahme und keine empirisch geschätzte Elastizität. (2) Die Rechnung berücksichtigt primär Zeitkosten; weitere externe Effekte (z.B. Emissionen, Unfälle, Lärm) sind nicht Bestandteil der monetären Bilanz.
Zusätzliche Daten (weiter untersuchen): Empirische Zusammenhänge zwischen Verkehrsaufkommen und Stauzeit (Elastizitäten), differenzierte Modal-Split-Daten nach Stadtteil und Tageszeit sowie reale Tür-zu-Tür-Reisezeiten (inkl. Zugang/Abgang), um die Szenarioeffekte belastbar zu kalibrieren und robuste Policy-Zielwerte abzuleiten.

Literatur

Brömmel, P. (2025): Deutsche Bahn – historische Verspätungsdaten. Huggingface Dataset. Verfügbar unter: https://huggingface.co/datasets/piebro/deutsche-bahn-data

Bundesagentur für Arbeit (2024): Pendlerstatistik – Kreisebene. Nürnberg.

Mobilität in Deutschland (MiD) (2023): Kurzbericht 2023. Bundesministerium für Digitales und Verkehr.

Deutsche Bahn AG (2024): Pünktlichkeit im Fernverkehr. Geschäftsbericht.

Zusatzaufgaben (optional)

Bisher haben Sie zwei Dimensionen betrachtet: Zeit (Bahn ist schneller) und Geld (Verspätungen kosten). Aber es gibt einen dritten, oft vergessenen Aspekt: die Umwelt.

Das Auto ist nicht nur langsamer und teurer; es ist auch ein Klimakiller. Ein durchschnittlicher PKW emittiert z.B. etwa 150 g CO2 pro Personenkilometer.

Recherchieren Sie die CO2-Emissionsfaktoren und das Mobilitätsverhalten:

Erstellen Sie eine kleine Tabelle in der Sie die CO2-Emissionen (in g/Personenkilometer) für folgende Verkehrsmittel auflisten:
- PKW (Durchschnitt)
- PKW (Elektro, deutscher Strommix)
- ICE/IC (Fernverkehr)
- RE/RB (Nahverkehr)
- S-Bahn
Berechnen Sie einen gewichteten Durchschnitt für die Bahn, wenn 70% der Pendler Nahverkehr und 30% Fernverkehr nutzen.
Um wie viel Prozent sind die Bahn-Emissionen niedriger als beim Auto?

Hinweis: Nutzen Sie Daten vom Umweltbundesamt oder dem DB Umweltbericht.

CO₂-Emissionen nach Verkehrsmittel
Verkehrsmittel	CO2-Emissionen (g/Pkm)
PKW (Durchschnitt)	164
PKW (Elektro, deutscher Strommix)	70
ICE/IC (Fernverkehr)	26
RE/RB (Nahverkehr)	44
S-Bahn	42
Quelle: Umweltbundesamt (2024), unter: https://www.umweltbundesamt.de/themen/verkehr/emissionsdaten#verkehrsmittelvergleich-personenverkehr-tabelle

Beschreibung der Tabelle
Die Tabelle „CO₂-Emissionen nach Verkehrsmittel“ zeigt die CO₂-Emissionen in g/Personenkilometer für den PKW (Durchschnitt), PKW (Elektro, deutscher Strommix), ICE/IC (Fernverkehr) sowie RE/RB (Nahverkehr) und S-Bahn. Zu beachten ist, dass im Wert für die S-Bahn auch Daten für Stadt- und U-Bahnen enthalten sind. Die Daten basieren auf den Berechnungen des Umweltbundesamtes für das Bezugsjahr 2024.

Interpretation der Tabelle
Die vorliegenden Daten verdeutlichen das erhebliche CO₂-Einsparpotenzial, das sich durch die Wahl des Verkehrsmittels ergibt. Besonders deutlich wird dabei die hohe Emissionsintensität des PKW: Mit durchschnittlich 164 g/Pkm CO₂ emittiert er mehr als doppelt so viel wie ein Elektro-PKW und ein Vielfaches der schienengebundenen Verkehrsmittel.

Zwar stellt der Elektro-PKW mit 70 g/Pkm CO₂ unter Berücksichtigung des aktuellen deutschen Strommixes eine deutliche Verbesserung gegenüber dem konventionellen PKW dar, erreicht jedoch nicht das Emissionsniveau des öffentlichen Verkehrs. Dies verdeutlicht, dass ein bloßer Antriebswechsel im Individualverkehr nicht ausreicht, um die Klimavorteile kollektiver Verkehrsmittel zu erreichen.

Innerhalb des Schienenverkehrs weist der Fernverkehr (ICE/IC) mit 26 g CO₂ pro Personenkilometer die niedrigsten Emissionen auf. Der Schienen-Nahverkehr (RE/RB) sowie S-, Stadt- und U-Bahnen liegen mit 42 und 44 g/Pkm CO₂ etwas höher, was unter anderem auf häufigere Halte und Anfahrvorgänge zurückzuführen ist. Insgesamt bleiben jedoch alle schienengebundenen Verkehrsmittel deutlich emissionsärmer als jede Form der PKW-Nutzung.

Wie hoch ist der gewichtete Durchschnitt für die Bahn, wenn 70% der Pendler Nahverkehr und 30% Fernverkehr nutzen?
Die Berechnung eines Pendler-Szenarios, bei dem 70 % der zurückgelegten Strecke im Nahverkehr und 30 % im Fernverkehr erfolgen, ergibt einen gewichteten Emissionswert von 38,6 g/Pkm CO₂. Dieser Wert bildet die durchschnittliche Emissionsbelastung von Bahnnutzern realitätsnah ab, da er die im Alltag typische Kombination aus Regional- und Fernverkehr berücksichtigt.

Um wie viel Prozent sind die Bahn-Emissionen niedriger als beim Auto?
Im Vergleich zum motorisierten Individualverkehr zeigt sich ein erhebliches Einsparpotenzial: Gegenüber einem durchschnittlichen PKW mit 164 g CO₂ pro Personenkilometer entspricht dies einer Treibhausgasreduktion von 76,46 %. Damit stellt der Schienenverkehr eine besonders effektive Option zur Reduktion verkehrsbedingter Emissionen dar.

Für die Verkehrswende bedeutet dies, dass bereits eine teilweise Verlagerung vom PKW auf die Schiene einen signifikanten Beitrag zur Emissionsminderung leisten kann. Die Differenz zwischen 164 g/Pkm und 38,6 g/Pkm verdeutlicht eines der größten alltagsrelevanten Einsparpotenziale im Mobilitätssektor.

Die Studie “Mobilität in Deutschland” (MiD 2023) ist die wichtigste Datenquelle zum Mobilitätsverhalten in Deutschland. Sie ermöglicht einen Vergleich mit 2017 (vor Corona).

Lesen Sie den MiD 2023 Kurzbericht und beantworten Sie:

Modal Split: Wie hat sich der Anteil des öffentlichen Verkehrs (ÖV) am Gesamtverkehr zwischen 2017 und 2023 verändert?
Homeoffice-Effekt: Wie hat sich die durchschnittliche Tagesstrecke verändert? Was ist laut MiD der Hauptgrund für diese Veränderung?
Stadt vs. Land: Welchen Anteil hat das Deutschlandticket in Metropolen vs. ländlichen Räumen? Was bedeutet das für die Ulm-Region?
Implikation für CO2: Welche Schlussfolgerung ziehen Sie aus diesen Veränderungen für das CO2-Einsparpotenzial durch Bahnpendeln? (2-3 Sätze)

Modal Split: Wie hat sich der Anteil des öffentlichen Verkehrs (ÖV) am Gesamtverkehr zwischen 2017 und 2023 verändert?
Die Mobilitätsdaten zeigen eine ambivalente Entwicklung des öffentlichen Verkehrs (ÖV) 2023 im Vergleich zum Vor-Corona-Jahr 2017. Während die Relevanz des ÖV im Alltag leicht zunahm - erkennbar am Anstieg des Anteils an den täglichen Wegen von 10 % auf 11 % - blieb sein relativer Anteil an der gesamten Verkehrsleistung mit 19 % der Personenkilometer konstant. Trotz dieses stabilen Anteils verzeichnete der Sektor jedoch einen absoluten Rückgang: Die täglich im ÖV zurückgelegten Kilometer sanken von 605 Millionen auf 564 Millionen.¹

Homeoffice-Effekt: Wie hat sich die durchschnittliche Tagesstrecke verändert? Was ist laut MiD der Hauptgrund für diese Veränderung?
Die durchschnittliche Tagesstrecke pro Person hat sich von 39 Kilometern im Jahr 2017 auf 35 Kilometer im Jahr 2023 verringert.² Der Hauptgrund hierfür ist laut MiD der Trend zum Homeoffice, durch den tägliche Pendlerwege komplett entfallen. Ergänzend wird die Zunahme digitaler Aktivitäten als Faktor für eingesparte Wege genannt.³

Stadt vs. Land: Welchen Anteil hat das Deutschlandticket in Metropolen vs. ländlichen Räumen? Was bedeutet das für die Ulm-Region?
In den Metropolen nutzen etwa 33 % der Menschen das Deutschlandticket als übliches Ticket, während es in ländlichen Räumen nur 8 % sind.⁴

Überträgt man dies auf die Region, bedeutet es: Während Ulm als Stadtkreis von der hohen urbanen Akzeptanz profitiert, steht das Umland (Alb-Donau-Kreis) vor der Herausforderung, dass das Ticket aufgrund der geringeren ÖV-Dichte weniger verbreitet ist. Eine Mobilitätswende erfordert hier einen massiven Ausbau des Netzes in die Fläche.

Implikation für CO2: Welche Schlussfolgerung ziehen Sie aus diesen Veränderungen für das CO2-Einsparpotenzial durch Bahnpendeln?
Die Kombination aus Homeoffice und Bahnnutzung verändert das CO2-Einsparpotenzial grundlegend. Da durch das Arbeiten von zu Hause bereits viele Fahrten komplett entfallen, konzentriert sich der Klimaschutz nun auf die verbleibenden Präsenztage im Büro. Wenn diese gezielten Fahrten durch das Deutschlandticket konsequent vom Auto auf die Schiene verlagert werden, können die Pro-Kopf-Emissionen im Berufsverkehr massiv gesenkt werden. Das Einsparpotenzial liegt somit nicht mehr in der Masse der täglichen Wege, sondern in der konsequenten Dekarbonisierung der noch notwendigen Pendelfahrten.

Quellen

¹Vgl. MiD 2023 Kurzbericht, S. 15. Online verfügbar unter: https://www.mobilitaet-in-deutschland.de/pdf/MiD2023_Kurzbericht.pdf

²Vgl. ebd., S. 11

³Vgl. ebd., S. 10

⁴Vgl. MiD 2023 - Deutschlandticket, S. 5. Online verfügbar unter https://www.mobilitaet-in-deutschland.de/pdf/MiD2023_Vortrag_Deutschlandticket.pdf

Berechnen Sie die CO2-Ersparnis für die 11 analysierten Städte.

Datensatz: co2_analyse (aus Aufgabe 4) – enthält Streckenlängen, Einpendlerzahlen und vorberechnete Werte

Annahmen:

220 Arbeitstage pro Jahr
2 Fahrten pro Tag (Hin + Zurück)
CO2-Auto: 150 g/km, CO2-Bahn: 47 g/km (gewichteter Durchschnitt)

Berechnen Sie für jeden Umsteiger (Auto \(\rightarrow\) Bahn):

Jährliche Kilometer
CO2-Emissionen mit Auto (kg/Jahr)
CO2-Emissionen mit Bahn (kg/Jahr)
Ersparnis (kg/Jahr)

Nun sollten Sie eine Szenario Analyse ähnlich wie in Aufgabe 15 durchführen: Wenn sich der Bahnanteil von 8,4% auf 20% erhöht: wie viele Tonnen CO2 würden in den 11 Städten jährlich eingespart?

Visualisieren Sie die CO2-Ersparnis pro Stadt.

Stellen Sie die Ersparnis in Kontext, um die Ersparnis greifbarer zu machen, z.B. wie viele Mallorca-Flüge (hin + zurück, ~750 kg CO2) entspricht das?

Beschreibung der Grafik
Das Balkendiagramm mit dem Titel „Jährliche CO₂-Ersparnis pro Stadt“ visualisiert das ökologische Potenzial einer Verkehrsverlagerung für elf deutsche Großstädte. Auf der vertikalen Achse sind die Städte von Frankfurt bis Ulm aufgeführt, während die horizontale Achse die eingesparten Tonnen CO₂ pro Jahr in einem Bereich von 0 bis 80.000 angibt. Die Grafik basiert auf einer Szenario-Analyse, die untersucht, wie sich eine Steigerung des Bahnanteils am Pendlerverkehr von derzeit 8,4 % auf 20 % auswirken würde. Die Berechnung berücksichtigt dabei 220 Arbeitstage pro Jahr sowie die Emissionsdifferenz zwischen Pkw (150 g/km) und Bahn (47 g/km) für jeden zusätzlichen Umsteiger. Die im Untertitel bezifferte Gesamtersparnis von 339.416 Tonnen wird zur Veranschaulichung mit etwa 452.554 Flügen nach Mallorca verglichen.

Interpretation der Grafik
Die Ergebnisse verdeutlichen eine massive Hebelwirkung in den großen Metropolen: Frankfurt führt das Ranking mit einer jährlichen Ersparnis von über 75.000 Tonnen CO₂ an, gefolgt von Berlin (ca. 71.000) und München (ca. 45.000). Diese Dominanz resultiert aus der Kombination hoher Einpendlerzahlen und weiter Pendlerdistanzen in diesen Ballungsräumen. Insgesamt summiert sich die CO₂-Reduktion über alle betrachteten Städte auf beachtliche 339.416 Tonnen pro Jahr. Um diese abstrakte Menge greifbar zu machen, setzt die Grafik die Ersparnis in einen anschaulichen Kontext: Das Volumen entspricht jährlich etwa 452.554 Urlaubsflügen nach Mallorca und zurück. Damit wird deutlich, dass bereits eine moderate Erhöhung des Bahnanteils einen signifikanten Beitrag zur Klimabilanz leistet.

Am unteren Ende der Skala rangiert Ulm mit einem geringeren absoluten Einsparpotenzial, was primär auf die kleinere Stadtgröße und die geringere Gesamtzahl der Pendler zurückzuführen ist. Dennoch unterstreicht die Analyse in Kombination mit den Realreisezeiten, dass die ökologische Entlastung hier Hand in Hand mit einer individuellen Zeitersparnis geht, was die Attraktivität der Verkehrsverlagerung auch in kleineren Großstädten untermauert.

Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (`bahnhof_ags_mapping.csv`)

Dieses Mapping ist essenziell für die Verknüpfung von Bahn- und Pendlerdaten. Die Bahndaten sind auf Bahnhofsebene (z.B. “München Hbf”), die Pendlerdaten auf Kreisebene (z.B. “München, Landeshauptstadt”). Der AGS (Amtlicher Gemeindeschlüssel) ist der Schlüssel, der beide Welten verbindet.

Wichtige Variablen:

station_name: Name des Bahnhofs
ags: Amtlicher Gemeindeschlüssel (5-stellig für Kreise)
kreis_name: Name des Landkreises/der kreisfreien Stadt

2. Fahrtzeit-Vergleich OSRM (`fahrtzeit_osrm_vergleich.csv`)

Für einen fairen Vergleich Auto vs. Bahn brauchen wir realistische Fahrtzeiten. OSRM (Open Source Routing Machine) berechnet echte Straßenrouten basierend auf OpenStreetMap – keine Luftlinien, sondern tatsächliche Straßenverbindungen mit Abbiegevorgängen, Geschwindigkeitsbegrenzungen und Straßentypen.

Wichtige Variablen:

stadt: Zielstadt der Pendlerstrecke
strecke_name: Beschreibung der Route (z.B. “Dachau \(\rightarrow\) München”)
auto_distanz_km: Fahrstrecke mit dem Auto in km
auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit (mit Staufaktor)
bahn_planzeit_min: Fahrzeit laut Fahrplan
bahn_verspaetung_min: Durchschnittliche Verspätung
bahn_real_min: Realistische Bahnfahrzeit (Fahrplan + Verspätung)

Wie wurde das Routing durchgeführt?

Koordinaten ermitteln: Für jede Pendlerstrecke wurden Start- und Zielkoordinaten definiert (z.B. Stadtzentrum Dachau \(\rightarrow\) München Hauptbahnhof).
OSRM-API abfragen: Über die öffentliche OSRM-Demo-API (router.project-osrm.org) wurden für jede Route Distanz und Fahrzeit abgefragt. Die API gibt die schnellste Route zurück, basierend auf dem aktuellen Straßennetz.
Staufaktor anwenden: Die OSRM-Basisfahrzeit entspricht einer Fahrt bei freiem Verkehr. Für die Hauptverkehrszeit (HVZ) wurde ein Staufaktor von 1,3-1,5 angewendet, basierend auf den INRIX-Daten der jeweiligen Stadt.
Bahn-Daten ergänzen: Die Bahnfahrzeiten stammen aus dem DB-Fahrplan, ergänzt um die durchschnittliche Verspätung aus unserer Analyse.

Weiterführende Links:

OSRM Projekt-Website – Dokumentation und Demo
OSRM API-Dokumentation – Technische Details zur API
OpenStreetMap – Die Kartendaten, auf denen OSRM basiert
R-Paket osrm – Für eigene OSRM-Abfragen in R

3. Ulm-Pendlerrouten (`ulm_pendlerrouten.csv`)

Da Sie in Ulm studieren, analysieren wir die wichtigsten Pendlerrouten in die Stadt genauer. Dieser Datensatz enthält die 5 wichtigsten Einpendler-Gemeinden mit detaillierten Informationen zur Erreichbarkeit.

Wichtige Variablen:

start_ort: Startgemeinde der Pendlerroute
ziel_ort: Zielort (Ulm)
auto_dauer_min: Fahrzeit mit dem Auto
auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit
bahn_fahrplan_min: Bahnfahrzeit laut Fahrplan
bahn_real_min: Realistische Bahnfahrzeit
hat_bahnhof: TRUE/FALSE – hat der Startort einen Bahnanschluss?
pendler_geschaetzt: Geschätzte Anzahl Pendler auf dieser Route

4. Entgeltstatistik (`ba_entgeltstatistik_2024.csv`)

Um die volkswirtschaftlichen Kosten von Verspätungen zu berechnen, brauchen wir regionale Lohndaten. Diese haben wir von der Bundesagentur für Arbeit heruntergeladen.

Wichtige Variablen:

kreis_name: Name des Kreises/der Stadt
ags: Amtlicher Gemeindeschlüssel
medianentgelt_brutto_monat: Median-Bruttomonatsentgelt in Euro

Quelle: Bundesagentur für Arbeit, Entgeltstatistik 2024

Pendeln in Deutschland

Zeit für die Bahn? – Eine datenbasierte Analyse

Motivation

Datengrundlage

Daten einlesen und verstehen

Die Pünktlichkeit der Deutschen Bahn

Von der Zeit zum Ort: Wo entstehen die Verspätungen?

Wo treffen viele Pendler auf eine unpünktliche Bahn?

Der Vergleich – Auto vs. Bahn

Methodische Herausforderungen

Die volkswirtschaftlichen Kosten

Politikempfehlung – Ihre Synthese

Literatur

Zusatzaufgaben (optional)

Quellen

Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (`bahnhof_ags_mapping.csv`)

2. Fahrtzeit-Vergleich OSRM (`fahrtzeit_osrm_vergleich.csv`)

3. Ulm-Pendlerrouten (`ulm_pendlerrouten.csv`)

4. Entgeltstatistik (`ba_entgeltstatistik_2024.csv`)

Pendeln in Deutschland

Zeit für die Bahn? – Eine datenbasierte Analyse

Motivation

Datengrundlage

Daten einlesen und verstehen

Die Pünktlichkeit der Deutschen Bahn

Von der Zeit zum Ort: Wo entstehen die Verspätungen?

Wo treffen viele Pendler auf eine unpünktliche Bahn?

Der Vergleich – Auto vs. Bahn

Methodische Herausforderungen

Die volkswirtschaftlichen Kosten

Politikempfehlung – Ihre Synthese

Literatur

Zusatzaufgaben (optional)

Quellen

Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (bahnhof_ags_mapping.csv)

2. Fahrtzeit-Vergleich OSRM (fahrtzeit_osrm_vergleich.csv)

3. Ulm-Pendlerrouten (ulm_pendlerrouten.csv)

4. Entgeltstatistik (ba_entgeltstatistik_2024.csv)

1. Bahnhof-Kreis-Mapping (`bahnhof_ags_mapping.csv`)

2. Fahrtzeit-Vergleich OSRM (`fahrtzeit_osrm_vergleich.csv`)

3. Ulm-Pendlerrouten (`ulm_pendlerrouten.csv`)

4. Entgeltstatistik (`ba_entgeltstatistik_2024.csv`)