Motivation

Jeden Morgen das gleiche Bild: Verstopfte Autobahnen, genervte Pendler, verlorene Zeit. 20,5 Millionen Menschen pendeln in Deutschland täglich zur Arbeit – die meisten davon mit dem Auto. Laut INRIX Traffic Scorecard 2024 verlieren Pendler in deutschen Großstädten zwischen 40 und 60 Stunden pro Jahr allein im Stau. Das entspricht fast einer kompletten Arbeitswoche, die im Nichts verpufft.

Die Idee liegt auf der Hand: Wer Bahn fährt, steht nicht im Stau. Aber wie schlägt sich die Bahn im Vergleich zum Auto? Ist sie wirklich schneller? Und wie zuverlässig ist sie eigentlich?

In diesem Projekt analysieren Sie Echtzeitdaten der Deutschen Bahn, Pendlerstatistiken der Bundesagentur für Arbeit, Staudaten von INRIX und die Entgeltstatistik der Bundesagentur für Arbeit. Sie werden herausfinden, dass die Antwort auf die Frage “Sollten mehr Menschen Bahn fahren?” komplexer ist, als man zunächst vermuten würde und dass sie wichtige Implikationen für die Verkehrspolitik hat.

Ihre zentrale Forschungsfrage lautet:

“Sollten mehr Menschen Bahn fahren – und was müsste sich dafür ändern?”

Datengrundlage

In diesem Projekt arbeiten Sie mit mehreren Datensätzen. Ein wichtiger Teil des Projekts ist das eigenständige Beschaffen von Primärdaten aus offiziellen Quellen.

Daten einlesen und verstehen

Bevor Sie mit der Analyse beginnen können, müssen Sie verschiedenste Datensätze einlesen und deren Struktur verstehen. Die Deutsche Bahn stellt über unterschiedliche Schnittstellen Echtzeitdaten für ihre Züge als open-source Daten zur Verfügung, welche per API-Calls geladen werden können. Jedoch gibt es von der Deutschen Bahn keine offizielle Seite, welche historische Daten zu Zugverspätungen, Ausfällen etc. für Fern- und Nahverkehrszüge sammelt. Da wir uns jedoch mit historischen Daten beschäftigen möchten, greifen wir auf Daten zurück, die von Piet Brömmel gesammelt wurden und bei Huggingface im Parquet-Format zur Verfügung gestellt wurden. Das Parquet-Format ist ein effizientes Datenformat und wird oft für große Datenmengen genutzt; in R können Sie diese Daten mit dem arrow-Paket einlesen.

Wie pünktlich ist die Bahn wirklich? Um diese Frage zu beantworten, brauchen Sie echte Verspätungsdaten – nicht nur Pressemitteilungen. Die Bahndaten bilden das Herzstück unserer Analyse: Mit ihnen können Sie berechnen, wie viel Zeit Bahnfahrer durch Verspätungen verlieren und später mit den Stauzeiten der Autofahrer vergleichen.

Die Deutsche Bahn stellt Echtzeitdaten als Open Data zur Verfügung. Das Projekt piebro/deutsche-bahn-data auf Huggingface sammelt diese Daten im Parquet-Format.

Laden Sie die Datei für November 2025 direkt von Huggingface herunter und lesen Sie diesen Datensatz als bahn in R ein.

Zeigen Sie die ersten 10 Zeilen des Datensatzes in einer Tabelle und beantworten Sie anschließend folgende Fragen:

Wie viele Beobachtungen enthält der Datensatz? Welche Variablen sind vorhanden?
Was stellt eine einzelne Beobachtung dar?

Hinweis 1: Sie können auf Huggingface die gesuchte Datei hier finden und direkt die URL zu der Datei in R mitgeben

Hinweis 2: Sie können die Parquet Datei entweder lokal speichern, oder immer direkt per URL einlesen. Falls Sie die Datei lokal speichern, so wird diese nicht auf GitHub Committet, da wir dies in der .gitignore entsprechend eingestellt haben. In diesem Fall sollten alle Teammitglieder die Datei lokal zur Verfügung haben.

Hinweis 3: Achten Sie bei allen Tabellen auf einer saubere Darstellung

Echtzeitdaten November 2025
station_name	xml_station_name	eva	train_name	final_destination_station	delay_in_min	time	is_canceled	train_type	train_line_ride_id	train_line_station_num	arrival_planned_time	arrival_change_time	departure_planned_time	departure_change_time	id
Stuttgart Hbf	Stuttgart Hbf (tief)	08098096	S 2	Filderstadt	5	2025-11-01 01:00:00	FALSE	S		15	2025-11-01 00:55:00	2025-11-01 00:57:00	2025-11-01 00:55:00	2025-11-01 01:00:00	-1263112065111090114-2510312318-15
Halle (Saale) Hbf	Halle(Saale)Hbf	08010159	S 5	Leipzig Hbf (tief)	1	2025-11-01 01:00:00	FALSE	S		1	NA	NA	2025-11-01 00:59:00	2025-11-01 01:00:00	-2678885466088426112-2510312359-1
Karlsruhe Hbf	Karlsruhe Hbf	08000191	RE 1	Karlsruhe Hbf	95	2025-11-01 01:00:00	FALSE	RE		7	2025-10-31 23:25:00	2025-11-01 01:00:00	NA	NA	-2791458000270945298-2510312132-7
Regensburg Hbf	Regensburg Hbf	08000309	ALX RE25	München Hbf	11	2025-11-01 01:00:00	FALSE	ALX		4	2025-11-01 00:35:00	2025-11-01 00:52:00	2025-11-01 00:49:00	2025-11-01 01:00:00	-5065801516765768983-2510312301-4
Mannheim Hbf	Mannheim Hbf	08000244	ICE 775	Karlsruhe Hbf	1	2025-11-01 01:00:00	FALSE	ICE	5181720942697741094	8	2025-11-01 00:56:00	2025-11-01 00:58:00	2025-11-01 00:59:00	2025-11-01 01:00:00	5181720942697741094-2510311916-8
Flughafen BER	Flughafen BER (S-Bahn)	08089201	S 9	Flughafen BER	1	2025-11-01 01:00:00	FALSE	S	7409107008547428277	5	2025-11-01 00:59:00	2025-11-01 01:00:00	NA	NA	7409107008547428277-2510312346-5
Halle (Saale) Hbf	Halle(Saale)Hbf	08010159	S 8	Halle (Saale) Hbf	15	2025-11-01 01:00:00	FALSE	S	2442677234119162947	6	2025-11-01 00:45:00	2025-11-01 01:00:00	NA	NA	2442677234119162947-2510312324-6
München Hbf	München Hbf	08000261	RB 40	München Hbf	0	2025-11-01 01:00:00	FALSE	RB		8	2025-11-01 01:00:00	2025-11-01 01:00:00	NA	NA	-8549369502950901321-2510312246-8
Köln Hbf	Köln Hbf	08000207	IC 1952	Köln Hbf	40	2025-11-01 01:00:00	FALSE	IC	2365115903117509345	14	2025-11-01 00:20:00	2025-11-01 01:00:00	NA	NA	2365115903117509345-2510311747-14
Freiburg (Breisgau) Hbf	Freiburg(Breisgau) Hbf	08000107	S 1	Freiburg (Breisgau) Hbf	0	2025-11-01 01:00:00	FALSE	S		9	2025-11-01 01:00:00	2025-11-01 01:00:00	NA	NA	-2150665481183031960-2510312332-9

Beobachtungen und Variablen

Im Datensatz bahn befinden sich 13.943.561 Beobachtungen und 16 Variablen: station_name, xml_station_name, eva, train_name, final_destination_station, delay_in_min, time, is_canceled, train_type, train_line_ride_id, train_line_station_num, arrival_planned_time, arrival_change_time, departure_planned_time, departure_change_time und id.

Was stellt eine einzelne Beobachtung dar?

Bei einer einzelnen Beobachtung wird festgehalten, welcher Zug an welchem Bahnhof zu welcher Zeit unterwegs war und welche Betriebsinformationen dazu gehören, insbesondere die Verspätung in Minuten und ob der Zug oder dieser Halt ausgefallen ist. Beispielsweise beschreibt eine Beobachtung die Ankunft der S-Bahn S2 am Hauptbahnhof in Stuttgart am 01.11.2025 um 01:00 Uhr. Die S-Bahn kam mit einer Verspätung von 5 Minuten an und war auf dem Weg nach Filderstadt.

Wohin pendeln die Menschen? Die Bahndaten zeigen ihnen die Pünktlichkeit der Züge – aber um zu verstehen, wo gute Bahnverbindungen besonders wichtig sind, müssen Sie wissen, wohin die Menschen pendeln. Die Pendlerstatistik der Bundesagentur für Arbeit zeigt genau das: Welche Städte sind die größten Arbeitgeber-Magneten?

Laden Sie den Datensatz pendler_kreise_aufbereitet.csv aus dem Ordner daten in R ein als Datensatz pendler.

Erstellen Sie eine Tabelle der Top 10 Städte nach Einpendlern mit den Spalten: Stadt (kreis_name), Einpendler, Auspendler, Pendlersaldo.

Interpretieren Sie kurz: Welche Städte sind die größten “Pendlermagneten” Deutschlands und warum?

Top 10 Städte nach Einpendlern
Stadt	Einpendler	Auspendler	Pendlersaldo
München, Landeshauptstadt	455.645	202.756	252.889
Frankfurt am Main, Stadt	405.856	111.245	294.611
Hamburg, Freie und Hansestadt	392.951	147.328	245.623
Berlin, Stadt	392.324	219.898	172.426
Köln, Stadt	306.905	138.422	168.483
Düsseldorf, Stadt	284.696	97.326	187.370
Stuttgart, Landeshauptstadt	274.442	100.095	174.347
Nürnberg, Stadt	165.496	78.557	86.939
Essen, Stadt	141.296	90.906	50.390
Region Hannover	137.924	69.974	67.950

Welche Städte sind die größten Pendlermagnete und warum?

Die größten Pendlermagnete Deutschlands sind München, Frankfurt, Hamburg und Berlin. Diese Städte haben viele hochqualifizierte Arbeitsplätze, Unternehmenszentralen, Finanz- und Dienstleistungssektoren und große Industrie- und Forschungsstandorte gemein. Außerdem haben diese Städte eine hohe Arbeitsplatzdichte und sehr teuren Wohnraum, weshalb leistungsfähige Bahnverbindungen besonders wichtig sind, um die hunderttausend Menschen ein- und auszupendeln.

Was kostet das Auto? Sie haben jetzt Bahndaten und wissen, wohin die Menschen pendeln. Aber um fair vergleichen zu können, brauchen Sie auch die Alternative: Wie viel Zeit verlieren Autofahrer im Stau? Diese Daten liefert INRIX – ein Unternehmen, das weltweit Verkehrsdaten sammelt. Später werden Sie diese Staukosten mit den Bahnverspätungen vergleichen.

Besuchen Sie die INRIX Global Traffic Scorecard und suchen Sie die Stauzeiten für die Top 10 Städte aus Aufgabe 2 und zusätzlich die Stauzeiten für Ulm. INRIX misst, wie viele Stunden Autofahrer jährlich im Stau verlieren.

Erstellen Sie eine eigene CSV-Datei inrix_staedte_2024.csv mit folgenden Spalten für die geforderten Städte:
- stadt: Name der Stadt
- stau_stunden_jahr: Jährliche Staustunden pro Fahrer
- kosten_eur: Jährliche Kosten pro Fahrer (findet sich in der tiefergehenden Übersicht)
Berechnen Sie für jede Stadt, wie viele Arbeitstage pro Jahr im Stau verloren gehen. Annahme: Ein Arbeitstag = 8 Stunden.

Erstellen Sie anschließend eine schöne Tabelle mit: Stadt, Staustunden/Jahr, verlorene Arbeitstage und beschreiben diese. In welcher Stadt ist die Stausituation am schlimmsten? Wie viele Arbeitstage verliert ein typischer Pendler dort pro Jahr?

Hinweis: Auf der INRIX-Website können Sie nach bei “Jump to City Rankings” -> “Search the List” -> “Germany” oder der konkreten Stadt filtern.

Staustunden und verlorene Arbeitstage pro Jahr
Stadt	Staustunden pro Jahr	Kosten (€)	Verlorene Arbeitstage
Köln	67	919	8,38
Düsseldorf	63	864	7,88
Berlin	60	823	7,50
Stuttgart	60	823	7,50
München	57	781	7,12
Frankfurt	55	754	6,88
Hamburg	46	631	5,75
Essen	46	631	5,75
Nürnberg	38	521	4,75
Ulm	30	411	3,75

Beschreibung der Tabelle

Die Tabelle zeigt für zehn deutsche Städte die jährlichen Staustunden pro Fahrer, die daraus resultierenden Kosten sowie die daraus berechneten verlorenen Arbeitstage. Hier ist Köln besonders stark betroffen mit 67 Staustunden pro Jahr. In anderen Großstädten wie Berlin oder Stuttgart liegt man mit rund 60 Staustunden und mehr als sieben verlorenen Arbeitstagen auch hier auf hohem Niveau. In kleineren Städten wie Ulm fallen die Stunden im Stau pro Jahr deutlich geringer aus, bei nur 30. Fehlende Werte wie bei Essen zeigen, dass für diese Werte keine vollständigen Staudaten vorliegen.

In welcher Stadt ist die Stausituation am schlimmsten?

Die schlimmste Stausituation herrscht in Köln mit 67 Staustunden pro Jahr.

Wie viele Arbeitstage verliert ein typischer Pendler dort pro Jahr?

Ein Pendler verliert dort etwa 8,4 Arbeitstage pro Jahr im Stau. Somit geht in Köln mehr als eine Woche jährlich allein durch Verkehrsstaus verloren.

Für die weiteren Analysen stellen wir Ihnen fünf zusätzliche Datensätze bereit. Diese laden Sie jetzt, damit sie in allen folgenden Aufgaben direkt verfügbar sind.

Laden Sie die folgenden Datensätze aus dem Ordner daten und speichern Sie diese unter den angegebenen Variablennamen:

Datei	Variablenname	Verwendet in
`bahnhof_ags_mapping.csv`	`bahnhof_mapping`	Aufgabe 9-10
`fahrtzeit_osrm_vergleich.csv`	`fahrtzeit`	Aufgabe 12
`ulm_pendlerrouten.csv`	`ulm_routen`	Aufgabe 13
`ba_entgeltstatistik_2024.csv`	`entgelt`	für `staedte_basis`
`co2_analyse.csv`	`co2_analyse`	Aufgabe 19 (Bonus)

Verschaffen Sie sich einen ersten Überblick über die Struktur der Daten (z.B. mit glimpse(), dies sollte später in ihrem HTML Dokument nicht sichtbar sein!).

Erstellen Sie außerdem einen Master-Datensatz staedte_basis für die Top-11-Städte (Top 10 Pendlerstädte + Ulm), der die Daten aus pendler, entgelt und inrix kombiniert. Dieser Datensatz vereinfacht die späteren Analysen (ab Aufgabe 14), da alle relevanten Kennzahlen bereits zusammengeführt sind.

Der Master-Datensatz sollte folgende Spalten enthalten:

ags: Amtlicher Gemeindeschlüssel
stadt: Stadtname (Kurzform, z.B. “München”)
einpendler: Anzahl Einpendler
median_monat_eur: Medianlohn pro Monat
median_stunde_eur: Medianlohn pro Stunde (Monatslohn / 160)
stau_stunden_jahr: Stauzeit pro Jahr (aus INRIX)

Hinweis 1: Die Datensätze verwenden unterschiedliche Namensformate: pendler hat offizielle Namen (“München, Landeshauptstadt”), während entgelt und inrix Kurznamen (“München”) verwenden. Nutzen Sie den AGS als zuverlässigen Schlüssel für die Verknüpfung mit pendler. Tipp: entgelt enthält sowohl AGS als auch Kurznamen und eignet sich daher gut als Ausgangspunkt.

Hinweis 2: Eine ausführliche Beschreibung der Datensätze finden Sie im Anhang A.

Master-Datensatz (Top-11 Städte: Pendler + Entgelt + INRIX)
AGS	Stadt	Einpendler	Median/Monat (€)	Median/Stunde (€)	Staustunden/Jahr
09162	München	455.645	4.847	30,29	57
06412	Frankfurt	405.856	4.712	29,45	55
02000	Hamburg	392.951	4.527	28,29	46
11000	Berlin	392.324	4.156	25,98	60
05315	Köln	306.905	4.398	27,49	67
05111	Düsseldorf	284.696	4.523	28,27	63
08111	Stuttgart	274.442	4.689	29,31	60
09564	Nürnberg	165.496	4.234	26,46	38
05113	Essen	141.296	3.987	24,92	NA
08421	Ulm	68.341	4.312	26,95	30

Die Pünktlichkeit der Deutschen Bahn

Nachdem Sie nun einen Überblick über die Daten haben, welche wir in diesem Projekt verwenden möchten, tauchen Sie tiefer in die Bahndaten ein. Die zentrale Frage ist: Wie zuverlässig ist die Deutsche Bahn wirklich?

Die Bahn unterscheidet verschiedene Zugtypen, vom ICE über den RE bis zur S-Bahn. Jeder Zugtyp hat unterschiedliche Eigenschaften: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Aber welcher Zugtyp ist am pünktlichsten?

Welche Züge sind (un)pünktlich? Nicht alle Züge sind gleich: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Um später sinnvolle Empfehlungen geben zu können, müssen Sie verstehen, welche Zugtypen besonders problematisch sind. Dafür klassifizieren Sie die Züge anhand ihrer Namen. Nutzen Sie für diese Analyse den Datensatz bahn.

Die Variable train_name enthält den Zugnamen (z.B. “ICE 123”, “S 5”, “RE 8”).

Erstellen Sie eine neue Variable zugtyp mit folgenden Kategorien:

Zugtyp	Regel	Beispiel
ICE	beginnt mit “ICE”	ICE 123
IC/EC	beginnt mit “IC” oder “EC”	IC 2012, EC 6
IRE/RE	beginnt mit “RE” oder “IRE”	RE 5, IRE 200
RB	beginnt mit “RB”	RB 26
S-Bahn	beginnt mit “S” (mit Leerzeichen!)	S 5
Sonstige	alle anderen	U 6, STB 123

Erstellen Sie auf dieser Basis eine Tabelle, welche pro Zugtyp folgende Kennzahlen anschaulich darstellt:

Anzahl der Fahrten
Durchschnittliche Verspätung (in Minuten)
Anteil pünktlicher Züge (≤6 Min Verspätung)
Ausfallquote

Beschreiben und Interpretieren Sie die Tabelle.

Weiterhin sollten Sie ihre Ergebnisse verifizieren. Dafür können Sie auf die offizielle Pünktlichkeitswerte der Deutschen Bahn zurückgreifen (recherchieren Sie diese selbstständig).

Stimmen Ihre Ergebnisse mit den offiziellen Werten überein? Falls nicht: Welche methodischen Unterschiede könnten die Abweichung erklären?

Hinweis: Nutzen Sie str_detect() aus dem stringr-Paket. Achten Sie auf die Reihenfolge der Bedingungen!

Pünktlichkeit und Ausfälle nach Zugtyp
Zugtyp	Anzahl der Fahrten	Ø Verspätung (Min)	Anteil pünktlich (≤ 6 Min) [%]	Ausfallquote [%]
S-Bahn	6.414.045	2,94	87,41	5,48
Sonstige	2.938.815	3,47	84,67	2,62
RB	2.675.028	3,48	85,20	3,18
IRE/RE	1.673.555	6,06	74,13	3,62
ICE	171.516	12,50	56,75	4,23
IC/EC	70.602	11,03	60,24	7,18

Beschreibung der Tabelle

Die Tabelle zeigt die Verspätungen und Ausfälle der verschiedenen Zugtypen im November 2025. Man erkennt deutliche Unterschiede in der Zuverlässigkeit zwischen Nah- und Fernverkehrszügen. Besonders auffällig ist, dass die S-Bahn die meisten Fahrten aufweist und gleichzeitig die geringste durchschnittliche Verspätung mit ungefähr 3 Minuten sowie den höchsten Anteil pünktlicher Züge mit ungefähr 87 % hat. Auch die sonstigen Zugtypen und die RB sind vergleichsweise zuverlässig mit einer durchschnittlichen Verspätung von ca. 3,5 Minuten und einem Pünktlichkeitsanteil von rund 85 %. Der IRE/RE hat bereits höhere durchschnittliche Verspätungen mit rund 6 Minuten und einen spürbar geringeren Pünktlichkeitsanteil mit ca. 74 %. Der Fernverkehr (ICE und IC/EC) schneidet insgesamt am schlechtesten ab: Die durchschnittlichen Verspätungen liegen hier bei 12,5 bzw. rund 11 Minuten. Nur ungefähr 57 % beim ICE und 60 % beim IC/EC gelten als pünktlich. Gleichzeitig sind die Ausfallquoten bei IC/EC mit rund 7 % am höchsten.

Interpretation

Diese Ergebnisse sind gut erklärbar: Fernverkehrszüge legen sehr lange Strecken über das gesamte Bundesgebiet zurück und durchfahren dabei zahlreiche stark ausgelastete Knotenbahnhöfe. Sie teilen sich die Infrastruktur mit vielen anderen Zügen und sind dadurch besonders anfällig für Störungen, beispielsweise durch Verspätungen anderer Züge, Überholungen, Baustellen oder technische Probleme. Eine kleine Verzögerung am Anfang der Strecke kann sich im weiteren Verlauf aufschaukeln und an nachfolgende Abschnitte weitergegeben werden.

Nahverkehrszüge hingegen verkehren auf deutlich kürzeren Strecken und in einem dichteren, meist regelmäßigeren Takt. Dadurch besteht eher die Möglichkeit, kleinere Verspätungen im Betriebsablauf wieder abzubauen, zum Beispiel durch kurze Standzeiten oder Puffer im Fahrplan. Außerdem sind sie stärker regional organisiert und weniger von Störungen im bundesweiten Netz abhängig.

Vergleich mit den offiziellen Werten

Ein Vergleich mit den offiziellen Pünktlichkeitsstatistiken der Deutschen Bahn zeigt, dass die Ergebnisse in ihrer grundsätzlichen Tendenz mit den offiziellen Pünktlichkeitswerten übereinstimmen. Auch dort ist der Fernverkehr mit einem Pünktlichkeitsanteil von 54,5 % deutlich unpünktlicher als der Nahverkehr mit 85,2 %.¹

Quantitativ weichen die exakten Prozentwerte jedoch etwas voneinander ab. Diese Abweichungen lassen sich durch methodische Unterschiede erklären. Die DB misst die betriebliche Pünktlichkeit auf Basis kompletter Zugfahrten und bewertet, ob ein Zug am Endbahnhof mit weniger als 6 Minuten Verspätung ankommt. In bahn hingegen stellt jede Beobachtung einen einzelnen Halt eines Zuges an einem bestimmten Bahnhof zu einem bestimmten Zeitpunkt dar mit einer Grenze von ≤ 6 Minuten. Zusätzlich werden in den Statistiken der DB die Pünktlichkeitswerte nur nach Fernverkehr und Nahverkehr zusammengefasst. In unserer Auswertung werden einzelne Zugtypen (ICE, IC/EC, IRE/RE, RB, S-Bahn) und noch eine Kategorie “Sonstige” unterschieden. Da sich die Pünktlichkeit zwischen S-Bahn, “Sonstige”, Regionalbahn und Regionalexpress unterscheidet, kann der zusammengefasste Durchschnitt der DB von unseren berechneten Einzelwerten abweichen.²

Insgesamt stimmen die qualitativen Aussagen überein, während die quantitativen Abweichungen auf die unterschiedliche Definition der Beobachtungseinheit und auf unterschiedliche Pünktlichkeitsdefinitionen zurückzuführen sind.

In Aufgabe 5 haben Sie gesehen, dass Fernverkehrszüge (ICE, IC/EC) deutlich höhere Verspätungen und Ausfallquoten haben als Nahverkehrszüge (IRE, RE, RB, S-Bahn). Aber wie relevant ist das für den typischen Pendler? Das hängt davon ab, wie viele Züge jeweils unterwegs sind. Nutzen Sie für diese Analyse den Datensatz bahn (mit der in Aufgabe 5 erstellten Variable zugtyp).

Klassifizieren Sie die Züge in zwei Kategorien:

Fernverkehr: ICE, IC/EC
Nahverkehr: IRE, RE, RB, S-Bahn

Erstellen Sie ein Liniendiagramm, das die durchschnittliche Anzahl der Fahrten pro Stunde im Tagesverlauf zeigt:

X-Achse: Uhrzeit (0-23 Uhr)
Y-Achse: Durchschnittliche Anzahl Fahrten pro Stunde
Zwei Linien: eine für Fernverkehr, eine für Nahverkehr (unterschiedliche Farben)

Tipp: Extrahieren Sie die Stunde aus der Variable time mit hour() aus dem lubridate-Paket. Berechnen Sie dann die durchschnittliche Anzahl Fahrten pro Stunde und Zugtyp.

Beschreiben und interpretieren Sie ihre Grafik. Beantworten Sie zusätzlich die folgenden Fragen:

Zu welchen Uhrzeiten fahren die meisten Züge?
Wie unterscheidet sich das Muster zwischen Fern- und Nahverkehr?
Warum ist diese Information wichtig, wenn wir später die Verspätungen analysieren?

Beschreibung

Die Grafik stellt den durchschnittlichen Tagesverlauf der Zugfahrten pro Stunde im November 2025 dar und unterscheidet dabei zwischen Fernverkehr und Nahverkehr. Auf der x-Achse ist die Uhrzeit von 0 bis 23 Uhr abgetragen, auf der y-Achse die durchschnittliche Anzahl der Fahrten pro Stunde. Für beide Verkehrsarten, aber besonders für den Nahverkehr, zeigt sich ein klarer Tagesrhythmus: In den Nachtstunden fahren nur sehr wenige Züge, ab den frühen Morgenstunden steigt es stark an, tagsüber bleibt es auf hohem Niveau und nimmt am späten Abend wieder ab. Der Fernverkehr weist jedoch insgesamt einen deutlich stetigeren Verlauf der Linie auf, was sich durch die vergleichsweise geringe Anzahl der Fahrten erklären lässt.

Interpretation

Der Verlauf spiegelt typische Alltags- und Pendlerströme wider. In den frühen Morgenstunden beginnt der Berufs- und Schülerverkehr, wodurch die Zahl der Züge stark zunimmt. Tagsüber bleibt das Angebot hoch, weil sowohl Berufstätige, Studierende als auch Freizeit- und Geschäftsreisende unterwegs sind. Am späten Nachmittag und frühen Abend kommt es erneut zu einer Spitze durch den Feierabendverkehr. In der Nacht hingegen ist die Nachfrage gering, weshalb der Fahrplan ausgedünnt wird.

Zu welchen Uhrzeiten fahren die meisten Züge?

Die höchsten Werte treten morgens etwa zwischen 7 und 9 Uhr sowie nachmittags bzw. abends zwischen ca. 16 und 19 Uhr auf. In diesen Zeiträumen erreichen sowohl Nah- als auch Fernverkehr ihre Maxima, wobei der Anstieg im Nahverkehr besonders stark ausgeprägt ist.

Wie unterscheidet sich das Muster zwischen Fern- und Nahverkehr?

Der Nahverkehr zeigt sehr ausgeprägte Spitzen zu den klassischen Pendlerzeiten und einen starken Rückgang in der Nacht. Beim Fernverkehr sind die Schwankungen geringer, da Fernverkehrszüge weniger strikt an Arbeitszeiten gebunden sind und den ganzen Tag über relativ regelmäßig verkehren.

Relevanz für die spätere Verspätungsanalyse

In Zeiten mit hohem Verkehrsaufkommen ist die Infrastruktur stark beansprucht, Verspätungen können sich leichter fortpflanzen und Konflikte auf der Strecke oder in Knotenbahnhöfen häufen sich. Wenn später Verspätungen untersucht werden, ist es daher entscheidend zu wissen, ob sie vor allem in diesen Spitzenzeiten auftreten oder auch in verkehrsarmen Phasen, da dies Rückschlüsse auf die Ursachen erlaubt.

Nachdem Sie in Aufgabe 6 herausgefunden haben, dass es deutlich mehr Nahverkehrszüge als Fernverkehrszüge gibt, und diese für Pendler wichtiger sind, sollten Sie sich die Verspätungen der Nahverkehrszüge über den Tag anschauen, da diese vermutlich nicht gleichmäßig über den Tag verteilt sind. Pendler erleben die Bahn vor allem in der Hauptverkehrszeit, d.h. morgens zwischen 7 und 9 Uhr und abends zwischen 16 und 19 Uhr. Aber ist die Bahn zu diesen Zeiten besonders unpünktlich?

Erstellen Sie zwei Heatmaps, die zeigen, wie sich die Verspätungen nach Tageszeit (Stunde) und Wochentag für die Nahverkehrszüge und die Fernverkehrszüge verteilen. Nutzen Sie für diese Analyse den Datensatz bahn.

Extrahieren Sie aus der Variable time die Stunde und den Wochentag.
Filtern Sie auf die relevanten Tageszeiten (5-23 Uhr), da nachts kaum Zugverkehr stattfindet.
Aggregieren Sie die durchschnittliche Verspätung pro Stunde und Wochentag für Nah- und Fernverkehrszüge separat.
Erstellen Sie eine Heatmap mit ggplot2 und geom_tile().

Tipp zur Farbskala: Da Fernverkehrszüge im Durchschnitt höhere Verspätungen haben als Nahverkehrszüge, können Sie unterschiedliche Farbskalen für die beiden Heatmaps verwenden (z.B. Blau-Töne für Nahverkehr, Rot-Töne für Fernverkehr). Dadurch werden die Muster innerhalb jeder Verkehrsart besser sichtbar.

Beschreiben und interpretieren Sie ihre Grafiken.

Wann sind die Verspätungen am höchsten?
Gibt es Unterschiede zwischen Werktagen und Wochenende?
Gibt es Unterschiede zwischen Nah- und Fernverkehrszügen?
Was bedeutet das für Pendler?

Beschreibung

Die Heatmaps zeigen die Verspätungen nach Tageszeit und Wochentag für die Nahverkehrszüge und die Fernverkehrszüge im November 2025. Auffällig ist, dass beim Nahverkehr die intensivste Einfärbung ungefähr 5 Minuten und beim Fernverkehr über 20 Minuten durchschnittliche Verspätung entspricht. Im Nahverkehr färben sich die Kästchen besonders morgens und abends an Werktagen sehr stark ein. Über den Tag verteilt bleiben die Verspätungen im Nahverkehr meist im Bereich weniger Minuten. Im Fernverkehr liegen die durchschnittlichen Verspätungen deutlich höher als im Nahverkehr. Die Farben werden im Tagesverlauf zunehmend intensiver, besonders ab dem späten Nachmittag und in den Abendstunden mit über 20 Minuten durchschnittlicher Verspätung.

Interpretation

Die Verspätungen variieren im Tagesverlauf und zwischen den Wochentagen deutlich. Besonders in den Hauptverkehrszeiten steigen sie spürbar an, was auf die hohe Auslastung des Netzes zurückzuführen ist. Im Fernverkehr fallen die Verzögerungen insgesamt stärker aus, da sich Störungen über lange Strecken und Umläufe fortsetzen. An Wochenenden sind die Verspätungen im Durchschnitt geringer und gleichmäßiger verteilt, weil das Verkehrsaufkommen niedriger ist.

Wann sind die Verspätungen am höchsten?

Im Nahverkehr steigen die Verspätungen vor allem während der Hauptverkehrszeiten an. Morgens zwischen 7 und 10 Uhr sowie ab dem frühen Abend zwischen 17 und 20 Uhr sind die Farben am dunkelsten. Das sind typische Pendlerzeiten, in denen das Netz mit vielen Zügen und hohen Fahrgastzahlen besonders stark ausgelastet ist, was die Anfälligkeit für kleine Störungen, die sich schnell in Verspätungen niederschlagen, erhöht. Im Fernverkehr nehmen die Verspätungen im Tagesverlauf stärker zu. Besonders am späten Nachmittag und Abend ab etwa 18 bis 23 Uhr erreichen sie ihre höchsten Werte. Fernverkehrszüge legen im Gegensatz zum Nahverkehr lange Strecken zurück und durchqueren viele stark belastete Knotenbahnhöfe. Störungen, die morgens oder mittags auftreten, können sich im Laufe des Tages aufaddieren und bis in den Abend wirken. Das erklärt, warum die Verspätungen mit zunehmender Tageszeit ansteigen.

Gibt es Unterschiede zwischen Werktagen und Wochenende?

Ja, es zeigen sich klare Unterschiede. An Werktagen sind die Verspätungen im Berufsverkehr am ausgeprägtesten, vor allem morgens und abends. Am Wochenende sind die Farben insgesamt heller, insbesondere im Nahverkehr. Das deutet darauf hin, dass der geringere Berufsverkehr zu einer geringeren Netzauslastung und damit zu stabileren Fahrplänen führt. Im Fernverkehr ist der Unterschied zwischen Werktagen und Wochenenden weniger ausgeprägt, aber dennoch klar erkennbar.

Gibt es Unterschiede zwischen Nah- und Fernverkehrszügen?

Die Unterschiede sind klar ersichtlich, wenn man die verschiedenen Skalen beachtet. Im Nahverkehr liegen die durchschnittlichen Verspätungen meist nur im Bereich weniger Minuten und zeigen vor allem zu den Stoßzeiten moderate Anstiege. Die Verspätungen bleiben insgesamt also relativ niedrig, was zeigt, dass der Nahverkehr trotz hoher Belastung meist gut getaktet und robust organisiert ist. Im Fernverkehr hingegen sind die durchschnittlichen Verspätungen deutlich höher und variieren stärker über den Tag. Besonders abends sind die Werte im Fernverkehr wesentlich größer als im Nahverkehr mit durchschnittlichen Verspätungen von über 20 Minuten. Verspätungen eines Zuges wirken sich hier auch besonders auf nachfolgende Fahrten und Anschlussverbindungen aus, was das gesamte System anfälliger macht. Die stärkeren Verspätungen entstehen somit aus der größeren Netzabhängigkeit, der längeren Fahrdauer und der höheren Komplexität des Fernverkehrsbetriebs.

Was bedeutet das für Pendler?

Für Pendler ist vor allem der Nahverkehr relevant. Diese Heatmap zeigt, dass gerade zu den klassischen Pendelzeiten die Verspätungen am höchsten sind, was den täglichen Arbeitsweg besonders unberechenbar macht. Gleichzeitig bleiben die Verspätungen im Nahverkehr im Durchschnitt relativ begrenzt, was auf eine grundsätzliche Stabilität des Systems hinweist. Für Reisende im Fernverkehr bedeutet das Muster jedoch, dass Fahrten am späten Nachmittag und Abend mit einem erhöhten Verspätungsrisiko verbunden sind. Insgesamt machen die Grafiken deutlich, dass Zeit und Verkehrsart entscheidend dafür sind, wie zuverlässig eine Fahrt ist.

Von der Zeit zum Ort: Wo entstehen die Verspätungen?

In Aufgabe 7 haben Sie analysiert, wann die Verspätungen auftreten, nämlich vor allem zu den Hauptverkehrszeiten. Aber die nächste wichtige Frage ist: Wo entstehen diese Verspätungen?

Aggregierte Statistiken wie Durchschnittswerte über ganz Deutschland verbergen oft große regionale Unterschiede. Vielleicht gibt es einzelne “Problembahnhöfe”, die den Durchschnitt nach oben ziehen? Oder sind die Verspätungen gleichmäßig über das Netz verteilt? Diese Frage ist wichtig, weil sie unterschiedliche Lösungsansätze impliziert: Bei wenigen Problembahnhöfen könnte die Bahn gezielt investieren, bei flächendeckenden Problemen bräuchten Sie systemische Lösungen.

Identifizieren Sie die 10 unpünktlichsten Bahnhöfe in Deutschland (mit mindestens 1.000 Halten im Monat). Nutzen Sie für diese Analyse den Datensatz bahn.

Erstellen Sie ein Balkendiagramm, das die durchschnittliche Verspätung dieser Bahnhöfe zeigt. Beschriften Sie die Balken mit den Verspätungswerten.

Beschreiben und interpretieren Sie ihre Grafik.

Sehen Sie ein geografisches Muster?
Handelt es sich um große Knotenbahnhöfe oder eher um kleinere Stationen?

Beschreibung der Grafik

Die Grafik zeigt die zehn Bahnhöfe in Deutschland mit der höchsten durchschnittlichen Verspätung im November 2025. Hierbei werden nur Stationen mit mindestens 1.000 Halten pro Monat berücksichtigt. Der Bahnhof mit der größten durchschnittlichen Verspätung ist Ennepetal (Gevelsberg) mit 14,7 Minuten, dicht gefolgt von Bad Breisig und Sinzig (Rhein) mit 14,5 Minuten durchschnittlicher Verspätung. Platz 10 belegt Zeesen mit durchschnittlich 12,3 Minuten Verspätung.

Interpretation

Die Grafik verdeutlicht, dass Unpünktlichkeit nicht nur ein Problem großer Verkehrsknoten ist. Die relativ hohen Durchschnittswerte deuten darauf hin, dass Verspätungen hier häufig ankommen und weitergegeben werden. Dies spricht für strukturelle Engpässe auf den Strecken.

Geografisches Muster

Ein eindeutiges geografisches Muster ist in der Verteilung der unpünktlichsten Bahnhöfe nicht erkennbar. Dennoch fällt auf, dass mehrere der betroffenen Stationen im Westen Deutschlands liegen, insbesondere im Rheinland und in Nordrhein-Westfalen (z. B. Brühl, Roisdorf, Bornheim-Sechtem, Sinzig, Rolandseck, Bad Breisig). Diese Region ist durch ein besonders dichtes Schienennetz geprägt, auf dem sowohl intensiver Regional- als auch Fernverkehr stattfindet.

Größe der Bahnhöfe

Auffällig ist, dass es sich bei den unpünktlichsten Stationen überwiegend nicht um große Verkehrsknoten handelt, sondern um kleinere bis mittelgroße Bahnhöfe. Diese liegen häufig an stark belasteten Hauptachsen und dienen als Zwischenhalte im Regional- und Fernverkehr. Gerade solche Stationen sind besonders von Verspätungen betroffen, die aus dem Gesamtnetz übernommen werden. Gleichzeitig verfügen sie im Vergleich zu großen Knotenbahnhöfen meist über weniger infrastrukturelle und betriebliche Möglichkeiten, um Störungen abzufedern oder Züge neu zu disponieren. Dadurch wirken sich Verspätungen hier besonders deutlich in den gemessenen Ankunftszeiten aus.

Wo treffen viele Pendler auf eine unpünktliche Bahn?

Bisher haben Sie Pendler- und Bahndaten getrennt betrachtet. Aber die spannende Frage ist: Wo kommen beide Probleme zusammen? Eine Stadt mit vielen Pendlern und einer unpünktlichen Bahn hat ein größeres Problem als eine Stadt mit wenigen Pendlern und einer unpünktlichen Bahn.

Um diese Frage zu beantworten, müssen Sie die Datensätze verknüpfen. Das Problem: Die Bahndaten sind auf Bahnhofsebene, die Pendlerdaten auf Kreisebene. Sie benötigen ein Mapping, das Bahnhöfe den entsprechenden Kreisen zuordnet.

In dieser Aufgabe verknüpfen Sie die Bahn- und Pendlerdaten, um Städte mit Handlungsbedarf zu identifizieren. Nutzen Sie für ihre Analysen die Datensätze: bahn, pendler und bahnhof_mapping.

Das Mapping ordnet Bahnhöfe ihrem Landkreis zu (via AGS = Amtlicher Gemeindeschlüssel). Ihr Ziel: Identifizieren Sie Städte, in denen viele Pendler auf eine unpünktliche Bahn treffen.

Berechnen Sie für jeden Bahnhof die durchschnittliche Verspätung und die Anzahl der Halte.
Aggregation auf Kreisebene: Berechnen Sie für jeden Kreis die gewichtete durchschnittliche Verspätung. Gewichten Sie nach der Anzahl der Halte (ein Bahnhof mit 10.000 Halten zählt mehr als einer mit 100).
Verknüpfen Sie das Ergebnis mit den Pendlerdaten mittels left_join() über die Variable ags.
Problem-Score berechnen: Kombinieren Sie beide Dimensionen mit z-Standardisierung:

\[\text{Problem-Score} = z(\text{Einpendler}) + z(\text{Verspätung})\]

Die z-Standardisierung macht die Werte vergleichbar: \(z(x) = \frac{x - \bar{x}}{s_x}\), wobei \(\bar{x}\) der Mittelwert und \(s_x\) die Standardabweichung ist.

Interpretation: Ein hoher Problem-Score = Viele Pendler + hohe Verspätung = Handlungsbedarf.

Anschließend sollten Sie eine Tabelle der Top 10 Städte nach Problem-Score darstellen und diese kurz beschreiben.

Top 10 Kreise mit dem höchsten Problem-Score
Kreis / Stadt	AGS	Einpendler	Ø Verspätung (Min)	Problem-Score
München, Landeshauptstadt	09162	455.645	5,98	3,45
Köln, Stadt	05315	306.905	7,89	3,05
Düsseldorf, Stadt	05111	284.696	7,33	2,55
Frankfurt am Main, Stadt	06412	405.856	5,14	2,54
Berlin, Stadt	11000	392.324	4,70	2,18
Hamburg, Freie und Hansestadt	02000	392.951	4,44	2,05
Duisburg, Stadt	05112	86.735	8,81	1,46
Hamm, Stadt	05915	22.447	9,93	1,45
Stuttgart, Landeshauptstadt	08111	274.442	5,30	1,38
Bonn, Stadt	05314	112.607	8,00	1,28

Beschreibung

Die Tabelle zeigt die zehn Kreise bzw. Städte mit dem höchsten sogenannten Problem-Score, also mit dem größten Handlungbedarf. Zusätzlich werden noch die Anzahl der Einpendler und die durchschnittliche Verspätung der Bahn dargestellt. Auffällig ist, dass vor allem große Metropolräume wie München, Köln, Hamburg und Berlin in den Top 10 stehen. Diese Regionen vereinen sehr hohe Pendlerzahlen mit spürbaren durchschnittlichen Verspätungen, wodurch sich eine besonders hohe Belastung für viele Berufspendler ergibt.

Der Problem-Score kombiniert zwei zentrale Belastungsfaktoren des regionalen Bahnverkehrs: Einpendler als Maß für die verkehrliche Bedeutung der Region und die gewichtete Verspätung.
Ein hoher Problem-Score zeigt Regionen, in denen besonders viele Menschen von einem unzuverlässigen Bahnverkehr betroffen sind.

Erstellen Sie ein Streudiagramm (Scatterplot), das die Beziehung zwischen Einpendlerzahl (x-Achse) und durchschnittlicher Verspätung (y-Achse) visualisiert.

Zeichnen Sie horizontale und vertikale Linien beim jeweiligen Mittelwert ein, um 4 Quadranten zu bilden
Färben Sie die Punkte nach Quadrant
Beschriften Sie die Städte mit den höchsten Problem-Scores
Nutzen Sie eine logarithmische Skala für die x-Achse

Beschreiben und interpretieren Sie die vier Quadranten:

Oben rechts: Viele Pendler + hohe Verspätung = ?
Oben links: Wenige Pendler + hohe Verspätung = ?
Unten rechts: Viele Pendler + niedrige Verspätung = ?
Unten links: Wenige Pendler + niedrige Verspätung = ?

Beantworten Sie dabei auch folgende Fragen:

Warum ist es sinnvoll die x-Achse zu logarithmieren?
Welche Städte liegen im kritischen Quadranten?
Was würden Sie der Deutschen Bahn empfehlen?

Beschreibung

Das Streudiagramm zeigt für alle Kreise die Beziehung zwischen der Einpendlerzahl (x-Achse, logarithmiert) und der gewichteten durchschnittlichen Bahnverspätung (y-Achse). Die gestrichelten Linien markieren jeweils den Mittelwert der Einpendler bzw. der Verspätung und teilen die Grafik in vier Quadranten. Dadurch wird sichtbar, in welchen Regionen viele Pendler auf eine besonders unzuverlässige Bahn treffen und wo die Bahn trotz hoher Pendlerzahlen vergleichsweise gut funktioniert.

Interpretation

Besonders problematisch sind die Regionen im rechten oberen Quadranten: Hier treffen viele Pendler auf überdurchschnittliche Verspätungen. Diese Kreise vereinen also eine hohe Nachfrage mit einer vergleichsweise schlechten Pünktlichkeit und weisen entsprechend hohe Problem-Scores auf. Kreise mit vielen Pendlern, aber niedrigeren Verspätungen (rechter unterer Quadrant) sind zwar stark belastet, schneiden jedoch hinsichtlich der Pünktlichkeit besser ab. Regionen mit wenigen Pendlern und hohen Verspätungen (linker oberer Quadrant) zeigen, dass auch weniger nachfragestarke Gebiete punktuell stark von Störungen betroffen sein können.

Warum ist es sinnvoll, die x-Achse zu logarithmieren?

Die Einpendlerzahlen unterscheiden sich extrem stark: Metropolen liegen oft bei hunderttausenden Einpendlern, viele Kreise aber deutlich darunter. Ohne Log-Skala würden die großen Städte die Darstellung dominieren und kleinere/mittlere Kreise würden im Plot “zusammengedrückt” erscheinen. Die Logarithmierung macht die Verteilung besser vergleichbar und erlaubt es, Muster über alle Kreise hinweg sinnvoll zu erkennen.

Welche Städte/Kreise liegen im kritischen Quadranten?

Im kritischen Quadranten liegen alle Punkte oben rechts (rechts vom Einpendler-Mittelwert und oberhalb des Verspätungs-Mittelwerts). Besonders relevant sind die beschrifteten Kreise mit den höchsten Problem-Scores, wie Köln, Düsseldorf und München, weil sie gleichzeitig sehr hohe Pendlerzahlen und hohe Verspätungswerte kombinieren und damit den größten Handlungsbedarf anzeigen.

Empfehlung für die Deutsche Bahn

Aus der Quadrantenanalyse ergibt sich eine klare Priorisierung: Investitionen zuerst in den oben-rechts-Quadranten, weil dort die Verspätungen die meisten Pendler betreffen und der Nutzen von Verbesserungen am größten ist. Engpassbeseitigung und Stabilität statt Symbolprojekte: Ausbau von Knotenbahnhöfen, Modernisierung von Stellwerken/Signaltechnik, zusätzliche Weichen/Überholmöglichkeiten und robustere Taktplanung. Pendlerzeiten absichern: Maßnahmen sollten besonders auf die Hauptverkehrszeiten ausgerichtet werden (z.B. mehr Puffer, bessere Anschlusssicherung, störungsresiliente Umläufe), weil dort Verspätungen für Pendler am stärksten ins Gewicht fallen.

Der Vergleich – Auto vs. Bahn

Sie haben nun identifiziert, wo die Bahn Probleme hat: Städte im kritischen Quadranten (viele Pendler + hohe Verspätungen) brauchen dringend Verbesserungen. Aber bevor Sie Empfehlungen aussprechen können, müssen Sie eine zentrale Frage beantworten:

Lohnt sich die Bahn überhaupt – oder ist das Auto trotz Stau schneller?

Denn selbst wenn die Bahn unpünktlich ist, könnte sie immer noch schneller sein als das Auto im Berufsverkehr. Umgekehrt: Eine pünktliche Bahn bringt wenig, wenn das Auto trotzdem schneller ist. Erst der direkte Vergleich zeigt uns, wo die Bahn wirklich konkurrenzfähig ist – und wo nicht.

Methodische Herausforderungen

Für einen fairen Vergleich sollten Sie “Äpfel mit Äpfeln” vergleichen:

Beim Auto muss der Stau berücksichtigt werden (nicht nur die theoretische Fahrzeit)
Bei der Bahn muss die Verspätung berücksichtigt werden (nicht nur der Fahrplan)
Beide Routen müssen dieselben Start- und Endpunkte haben

Für die Auto-Fahrtzeiten nutzen Sie OSRM (Open Source Routing Machine), das auf OpenStreetMap-Daten basiert. OSRM berechnet echte Straßenrouten, keine Luftlinien.

Erklären Sie in eigenen Worten:

Warum ist OSRM-Routing für diesen Vergleich besser geeignet als eine einfache Berechnung nach der Formel Distanz / Geschwindigkeit?
Welche Faktoren müssen zusätzlich berücksichtigt werden, um einen realistischen Vergleich zu ermöglichen? Denken Sie an:
- Tageszeit
- Parkplatzsuche
- Fußweg zum Ziel
- Wartezeit und Umsteigen bei der Bahn

OSRM-Routing

Ein Vergleich zwischen Auto und Bahn ergibt nur dann wirklich Sinn, wenn man mit realistischen Bedingungen arbeitet. Die einfache Berechnung der Strecke durch die Geschwindigkeit zeigt, wie es wäre, ohne Unterbrechung mit gleichbleibendem Tempo auf einer geraden Linie zu fahren. In Wirklichkeit gibt es aber Ampeln, Kreuzungen, Tempolimits, Baustellen und vor allem Staus, die den Verkehr abbremsen.

Genau hier ist OSRM im Vorteil: Das System nutzt echte Kartendaten und berechnet Routen so, wie sie auch tatsächlich gefahren werden. Dadurch entstehen Fahrzeiten, die viel näher an der Realität liegen als eine theoretische Durchschnittsgeschwindigkeit. Man bekommt also eine realistische Einschätzung, wie lange eine Autofahrt unter normalen Bedingungen ungefähr dauert.

Trotzdem reicht auch das noch nicht für einen fairen Vergleich. Entscheidend ist die gesamte Reise von der Haustür bis zum Ziel. Beim Auto gehören dazu nicht nur die Fahrzeit, sondern auch Staus je nach Tageszeit, die oft mühsame Parkplatzsuche und der Fußweg vom Parkplatz. Bei der Bahn kommen Wartezeiten, Umstiege, mögliche Verspätungen und ebenfalls der Weg vom Bahnhof zum eigentlichen Ziel hinzu. Erst wenn man all diese Punkte berücksichtigt, vergleicht man Auto und Bahn wirklich unter gleichen Bedingungen und kann einschätzen, welches Verkehrsmittel im Alltag tatsächlich verlässlicher oder schneller ist.

Für die Top 10 Einpendler-Städte wurden typische Pendlerstrecken definiert (z.B. Dachau \(\rightarrow\) München, Neuss \(\rightarrow\) Düsseldorf). Die OSRM-Ergebnisse liegen bereits vor. Nutzen Sie für ihre Analyse den Datensatz fahrtzeit.

Erstellen Sie:

Eine Tabelle mit: Stadt, Strecke, Distanz (km), Auto-Fahrzeit (Hauptverkehrszeit), Bahn-Fahrzeit (real), Differenz
Berechnen Sie die jährliche Zeitersparnis bei 220 Arbeitstagen und 2x täglichem Pendeln.

Interpretieren Sie ihre Tabelle:

In wie vielen Fällen ist die Bahn schneller als das Auto?
Wie viele Stunden pro Jahr kann ein Pendler maximal sparen?
Gibt es Strecken, bei denen das Auto schneller ist? Woran könnte das liegen?

Pendlerstrecken: Auto vs. Bahn (OSRM) und jährliche Zeitersparnis
Stadt	Strecke	Distanz (km)	Auto-Fahrzeit (Min)	Bahn-Fahrzeit (Min)	Differenz (Min)	Zeitersparnis pro Jahr (Std)
München	Dachau → München	19.1	40.2	26.1	14.1	103.5
Frankfurt	Darmstadt → Frankfurt	36.0	35.8	23.0	12.8	93.9
Hamburg	Harburg → Hamburg	14.2	24.0	16.3	7.7	56.7
Berlin	Potsdam → Berlin	34.2	49.3	29.6	19.7	144.6
Köln	Leverkusen → Köln	18.3	28.7	22.8	5.9	43.3
Düsseldorf	Neuss → Düsseldorf	12.1	27.1	17.1	10.0	73.3
Stuttgart	Esslingen → Stuttgart	14.0	27.2	20.2	7.0	51.6
Nürnberg	Fürth → Nürnberg	10.4	18.9	12.9	6.0	44.4
Essen	Mülheim → Essen	11.0	18.0	15.3	2.7	20.1
Hannover	Celle → Hannover	42.2	54.4	40.8	13.6	99.8
Ulm	Neu-Ulm → Ulm	3.7	8.1	8.9	-0.8	-5.8

In wie vielen Fällen ist die Bahn schneller als das Auto?

In der Mehrheit der Fälle ist die Bahn schneller als das Auto. Die positive Differenz (Auto_Fahrzeit - Bahn_Fahrzeit) zeigt, dass die Bahn besonders auf stark belasteten Strecken der Großstädte deutliche Zeitvorteile bietet.

Wie viele Stunden pro Jahr kann ein Pendler maximal sparen?

Die maximale jährliche Zeitersparnis liegt bei ungefähr 100-150 Stunden pro Jahr. Das sind ungefähr 12-19 Arbeitstage bei einem Arbeitstag von acht Stunden.

Gibt es Strecken, bei denen das Auto schneller ist? Woran könnte das liegen?

Es gibt Strecken, bei denen das Auto schneller ist als die Bahn. Zum Beispiel die Strecke Neu-Ulm -> Ulm. Mögliche Gründe könnten ungünstige Bahnverbindungen sein: z. B. viele Umstiege oder lange Fahrtzeiten. Auch könnten Verspätungen ein Grund sein: die reale Bahnfahrzeit berücksichtigt Verzögerungen, die den Zeitvorteil verringern können. Ein anderer Grund könnte eine geringe Stauanfälligkeit sein: wenig belastete Autobahnabschnitte oder Bundesstraßen können schneller sein. Im Beispiel der Neu-Ulm -> Ulm Strecke könnte der Grund für ein schnelleres Auto sein, dass Ulm keine Metropole ist wie München oder Berlin. Außerdem sind die Zufahrtsstraßen weniger überlastet, was einen konstanteren Berufsverkehr ermöglicht.

Da Sie alle in Ulm studieren und eventuell aus dem Ulmer Umland einpendeln, sollten Sie die 5 wichtigsten Pendlerrouten nach Ulm näher analysieren. Stellen Sie in einem Dumbbell-Chart (oder Lollipop-Chart) die Unterschiede zwischen Auto- und Bahnzeiten visuell dar. Nutzen Sie für ihre Analyse den Datensatz ulm_routen.

Die 5 wichtigsten Pendlerrouten nach Ulm sind:

Neu-Ulm \(\rightarrow\) Ulm
Blaustein \(\rightarrow\) Ulm
Ehingen \(\rightarrow\) Ulm
Laupheim \(\rightarrow\) Ulm
Langenau \(\rightarrow\) Ulm

Markieren Sie, welche Orte keinen Bahnhof haben.

Beschreiben und interpretieren Sie ihre Grafik. Welche Besonderheiten zeigen die ländlichen Strecken?

Hinweis: Nutzen Sie geom_segment() und geom_point() für ihr Dumbbell-Chart oder Lollipop-Chart.

Beschreibung der Grafik

Die Grafik zeigt für die fünf wichtigsten Pendlerrouten nach Ulm die Fahrzeiten mit dem Auto (Hauptverkehrszeit) und mit der Bahn (real) in Form eines Dumbbell-Charts. Die roten Punkte markieren die Auto-Fahrzeit und die grünen Punkte die Bahn-Fahrzeit. Die graue Linie dazwischen zeigt anschaulich die Zeitdifferenz. Zusätzlich ist die exakte Differenz in Minuten pro Strecke angegeben.

Interpretation

Auf längeren Strecken ist die Bahn deutlich schneller als das Auto. Grund dafür könnten direkte, schnelle Regional- und Fahrbahnachsen Richtung Ulm sein. Viele Orte im Umland liegen auf gut ausgebauten Schienennetzen. Das bedeutet: wenige Stopps, höhere Geschwindigkeiten und stabile Bahnstrecken.

Auch wenn der Großteil der Autostrecke ländlich ist, verliert das Auto viel Zeit bei der Einfahrt nach Ulm (Stadtverkehr, Ampeln, etc.). Bei den kurzen Strecken kann jedoch das Auto im Vorteil sein, obwohl sich auf diesen Strecken (z. B. Neu-Ulm-> Ulm) die Bahn und das Auto kaum unterscheiden. Hier kann die Wartezeit oder der Weg zum Bahnhof entscheidend sein. Denn diese Zeit wird auf der Strecke nicht mehr von der Bahn reingeholt. Außerdem kann die Bahn auf kurzen Strecken kaum höhere Geschwindigkeiten erreichen als das Auto.

Die volkswirtschaftlichen Kosten

Verspätungen kosten nicht nur Nerven, sie haben einen realen volkswirtschaftlichen Preis. Jede Minute, die ein Pendler im verspäteten Zug wartet, ist verlorene Arbeitszeit.

Um diese Kosten etwas besser zu quantifizieren sollten Sie sich den Medianlohn der jeweiligen Städte herunterladen und näher analysieren.

Berechnen Sie die volkswirtschaftlichen Kosten der Bahnverspätungen für die 11 Städte.

Datensätze:

staedte_basis (aus Aufgabe 4) – enthält Einpendler, Medianlohn und Staudaten
Ergebnis aus Aufgabe 9: die gewichtete durchschnittliche Verspätung pro Stadt (in Minuten)

Nutzen Sie die folgenden Annahmen:

Annahmen:

220 Arbeitstage pro Jahr
2 Fahrten pro Tag (Hin + Zurück)
Ca. 8,4% der Pendler nutzen die Bahn (nationaler Durchschnitt laut MiD 2023 Kurzbericht)

Berechnen Sie für jede Stadt:

Anzahl der Bahnpendler (Einpendler × 8,4%)
Verspätungsstunden pro Jahr (Verspätung × 220 × 2 / 60)
Kosten pro Pendler (Verspätungsstunden × Stundenlohn)
Gesamtkosten der Stadt

Erstellen Sie auf Basis ihrer Berechnung eine Tabelle, welche die Anzahl der Bahnpendler, die Verspätungsstunden pro Jahr, die Kosten pro Pendler und die Gesamtkosten der Stadt anschaulich darstellt.

Beschreiben und interpretieren Sie ihre Tabelle. Gehen Sie dabei auch auf die Gesamtkosten der 11 Städte ein. Erklären Sie außerdem, warum der Medianlohn für diese Berechnung besser geeignet ist als der Durchschnittslohn.

Hinweis: Für die Umrechnung auf Stundenlohn: Monatsentgelt / 160 (bei 40h/Woche).

Volkswirtschaftliche Kosten der Bahnverspätungen (11 Städte)
Stadt	Bahnpendler	Verspätungsstunden / Jahr	Kosten pro Pendler (in €)	Gesamtkosten / Jahr (in €)
München	38.274	43,86	1.328,78	50.857.933,82
Frankfurt	34.092	37,73	1.111,06	37.878.233,76
Hamburg	33.008	32,59	922,13	30.437.680,53
Berlin	32.955	34,47	895,47	29.510.477,19
Köln	25.780	57,87	1.590,62	41.006.294,08
Düsseldorf	23.914	53,77	1.519,95	36.348.812,29
Stuttgart	23.053	38,85	1.138,56	26.247.450,27
Nürnberg	13.902	37,06	980,73	13.633.810,17
Essen	11.869	54,62	1.361,04	16.153.949,50
Ulm	5.741	29,51	795,32	4.565.659,86

Beschreibung

Die Tabelle zeigt die geschätzten volkswirtschaftlichen Kosten der Bahnverspätungen für die 11 untersuchten Städte. Grundlage sind die gewichteten durchschnittlichen Verspätungen, die Anzahl der Einpendler, der angenommene Bahnanteil von 8,4 % sowie der jeweilige Medianstundenlohn. Die Stadt mit den meisten Pendlern und den höchsten Gesamtkosten pro Jahr ist München mit 50.857.933,82 €. Die höchsten Kosten pro Pendler hat Köln mit 1.590,62 € pro Jahr.

Interpretation

In Städten mit vielen Einpendlern und hohen durchschnittlichen Verspätungen entstehen besonders hohe Gesamtkosten. Diese resultieren nicht aus extremen Kosten pro Pendler, sondern aus der großen Zahl betroffener Personen. Selbst moderate Verspätungen summieren sich bei 220 Arbeitstagen und zwei Fahrten pro Tag zu mehreren Dutzend Verspätungsstunden pro Pendler und Jahr.

Über alle 11 Städte hinweg entstehen so jährliche volkswirtschaftliche Kosten in dreistelliger Millionenhöhe. Die Ergebnisse verdeutlichen, dass Bahnverspätungen nicht nur ein Komfortproblem darstellen, sondern einen messbaren wirtschaftlichen Schaden verursachen, der insbesondere in großen Pendlerstädten erheblich ist.

Der Medianlohn ist robuster gegenüber Extremwerten als der Durchschnittslohn. Sehr hohe Einkommen einzelner Personen würden den Durchschnitt nach oben verzerren und die tatsächlichen Kosten für den „typischen Pendler“ überschätzen. Da Verspätungen alle Einkommensgruppen betreffen, liefert der Median eine realistischere und fairere Schätzung der volkswirtschaftlichen Kosten.

Setzen Sie die Kosten der Bahn (aus Aufgabe 14) den Kosten des Autos gegenüber. Vergleichen Sie diese in einer Szenario-Analyse mittels eines gestapelten Balkendiagramms. Nutzen Sie für ihre Analysen den Datensatz staedte_basis.

Berechnen Sie zuerst die Kosten des Autostaus pro Stadt:

Anzahl der Autopendler (Einpendler × 91,6%)
Staukosten pro Autopendler (Staustunden × Stundenlohn)
Gesamtkosten der Stadt durch Autostau

Führen Sie anschließend einen Szenario-Vergleich durch: Was passiert, wenn der Bahnanteil von 8,4% auf 20% steigt?

Berechnen Sie die Gesamtkosten (Bahn + Auto) für beide Szenarien
Annahme: Weniger Autos = weniger Stau (z.B. 20% weniger Stauzeit pro Autopendler)

Erstellen Sie ein gestapeltes Balkendiagramm nach Szenario. Beschreiben und intepretieren Sie ihre Grafik. Gehen Sie insbesondere auf die folgenden Fragen ein:

Wie verteilen sich die Kosten zwischen Bahn und Auto im Status quo?
Welches Verkehrsmittel verursacht den größeren volkswirtschaftlichen Schaden?
Was ist die Nettoersparnis bei 20% Bahnanteil?

Beschreibung der Grafik

Die beiden Balkendiagramme stellen die jährlichen volkswirtschaftlichen Gesamtkosten des Pendelverkehrs für die elf betrachteten Städte dar und unterscheiden dabei zwischen Autokosten durch Stau und Bahnkosten durch Verspätungen. Abgebildet sind zwei Szenarien mit unterschiedlichen Anteilen von Auto- und Bahnpendlern. Im Szenario 1 (Status quo) wird der aktuelle Modal Split gezeigt, bei dem rund 91,6 % der Pendler das Auto und 8,4 % die Bahn nutzen. Die Balken setzen sich aus den Staukosten des Autoverkehrs (grün) und den Kosten durch Bahnverspätungen (blau) zusammen. Im Szenario 2 wird ein alternatives Szenario betrachtet, in dem der Bahnanteil auf 20 % steigt. Gleichzeitig wird angenommen, dass sich die Stauzeiten pro Autopendler um 20 % reduzieren. Zusätzlich ist in diesem Diagramm eine rosa eingefärbte Fläche dargestellt, welche die Einsparungen gegenüber dem Status quo visualisiert. Die Städte sind jeweils nach der Höhe der Gesamtkosten sortiert, sodass Städte mit besonders hohen Pendelkosten oben erscheinen.

Interpretation

Die Grafik zeigt deutlich, dass im Status quo die Autokosten den größten Anteil der volkswirtschaftlichen Gesamtkosten verursachen. Obwohl Bahnverspätungen für die betroffenen Pendler spürbar sind, fallen die Gesamtkosten der Bahn im Vergleich geringer aus, da der überwiegende Teil der Pendler weiterhin mit dem Auto unterwegs ist. Besonders in großen Pendlerstädten wie München, Frankfurt oder Berlin dominieren die Staukosten klar das Kostenbild. Im zweiten Szenario wird sichtbar, dass bereits ein moderater Anstieg des Bahnanteils zu einer deutlichen Reduktion der Gesamtkosten führt. Zwar steigen die absoluten Bahnkosten durch die höhere Zahl an Bahnpendlern leicht an, dieser Effekt wird jedoch durch die sinkenden Autokosten infolge geringerer Stauzeiten mehr als ausgeglichen. Die rosa markierten Balkenanteile verdeutlichen das erhebliche Einsparpotenzial gegenüber dem Status quo. Insgesamt zeigt die Szenarioanalyse, dass eine Verlagerung vom Auto zur Bahn nicht nur aus ökologischer Sicht sinnvoll ist, sondern auch volkswirtschaftliche Vorteile mit sich bringt. Der größte Hebel zur Kostensenkung liegt dabei weniger in der vollständigen Vermeidung von Bahnverspätungen, sondern in der Reduktion des Autoverkehrs und der damit verbundenen Staukosten. Bereits vergleichsweise kleine Veränderungen im Modal Split können somit zu Einsparungen in dreistelliger Millionenhöhe führen.

Politikempfehlung – Ihre Synthese

Sie haben nun umfangreiche Analysen durchgeführt und viele Erkenntnisse über die Bahn gewonnen. Jetzt ist es Zeit, diese zu einer kohärenten Empfehlung zusammenzufügen.

Szenario: Sie sind Berater:in des Bundesministeriums für Digitales und Verkehr. Die Ministerin bittet Sie um eine evidenzbasierte Politikempfehlung zur Verbesserung des Pendlerverkehrs in Deutschland.

Formulieren Sie eine Politikempfehlung für das Bundesministerium für Digitales und Verkehr.

Schreiben Sie eine Executive Summary (max. 5 Sätze). Fassen Sie hierbei die wichtigsten Erkenntnisse aus ihrem Projekt zusammen. Was ist die zentrale Botschaft?

Formulieren Sie 3 konkrete Empfehlungen. Jede muss enthalten:

Ein konkretes Ziel (Was soll erreicht werden?)
Eine messbare Maßnahme (Wie wird es umgesetzt?)
Eine Begründung mit Zahlen aus Ihrer Analyse
Nennen Sie zwei Limitationen Ihrer Datengrundlage
Was würden Sie mit zusätzlichen Daten noch untersuchen?

Executive Summary

Die Analyse zeigt, dass Bahnverspätungen in Deutschland zeitabhängig sind und sich besonders in den Hauptverkehrszeiten sowie im Fernverkehr zu hohen durchschnittlichen Verzögerungen aufsummieren. In Regionen mit vielen Einpendlern und zugleich hoher gewichteter Verspätung entstehen die größten Belastungen, was sich in den Metropolräumen wie München, Frankfurt oder Köln widerspiegelt. Die volkswirtschaftlichen Gesamtkosten der Bahnverspätungen erreichen in den untersuchten 11 Städten sehr hohe Beträge. Gleichzeitig verursacht der Autoverkehr insgesamt noch höhere Staukosten, sodass eine Verlagerung auf die Bahn trotz bestehender Verspätungen zu einer Nettoersparnis führen kann. Die Verbesserung der Zuverlässigkeit der Bahn, insbesondere in Pendlerregionen und zu Spitzenzeiten, ist wirksam, um Zeitverluste und volkswirtschaftliche Kosten deutlich zu senken.

Empfehlung 1: Kapazitäts- und Zuverlässigkeitsausbau

Das Ziel ist die Reduktion der durchschnittlichen Verspätung im Nahverkehr in den Hauptverkehrszeiten. Die Maßnahme wäre der Ausbau von Überholgleisen, dichtere Taktung und priorisierte Instandhaltung bei Metropolräumen mit hohem Problem-Score wie z. B. München. Begründungen sind die Verspätungen in den Spitzenzeiten (7-10 Uhr, 17-20 Uhr) im Nahverkehr, die rund 4-6 Minuten betragen, während im Fernverkehr abends Werte über 20 Minuten auftreten. Städte mit vielen Einpendlern und hoher gewichteter Verspätung verursachen die höchsten volkswirtschaftlichen Kosten, wie München mit ca. 50,9 Mio. € pro Jahr. Limitationen sind die Verspätungsdaten von November 2025, da sie saisonale Effekte nur begrenzt abbilden. Außerdem verdeckt die Aggregation auf Kreis-/Stadtebene streckenspezifische Engpässe. Zusätzliche Daten wären beispielsweise Zugfolgezeiten, Baustellen und Störungen, um Engpässe präzise zu lokalisieren.

Empfehlung 2: Stärkung des Fernverkehrs-Betriebsmanagements

Das Ziel ist die Senkung der abendlichen Durchschnittsverspätung im Fernverkehr. Maßnahmen hierfür wären Einführungen stabilerer Umlaufpläne, größere Pufferzeiten an Knotenbahnhöfen und priorisierte Abwicklungen von verspäteten Zügen, besonders in den Zeitfenstern von 18-23 Uhr. Begründungen sind die Werte der Heatmap für den Fernverkehr, die zeigen, dass die durchschnittlichen Verspätungen abends deutlich ansteigen und teils über 20 Minuten erreichen, während sie im Nahverkehr im Minutenbereich bleiben. Die höhere Netzabhängigkeit führt zu Häufungen von Störungen über den Tag hinweg. Limitationen sind, dass es keine Trennung nach Zuglinien und konkreten Knotenbahnhöfen gibt. Dadurch sind eindeutige Schwachstellen schwieriger zu lokalisieren. Auch fehlen Informationen zu Ursachen wie die Infrastruktur, Personal oder Wetterverhältnisse. Zusätzliche Daten wären Betriebs- und Störungsdaten wie z. B. Ursachen, Dauer und Orte zur Identifikation systemischer Schwachstellen im Fernverkehr.

Empfehlung 3: Attraktivitätssteigerung des Schienenverkehrs

Das Ziel ist die Erhöhung des Bahnanteils im Pendlerverkehr. Die Maßnahme wäre eine Kombination aus Angebotsausbau, Pünktlichkeitsgarantien und Preisanreizen sowie Maßnahmen zur Reduktion des Autoverkehrs. Begründungen sind einerseits der Autoverkehr, der aufgrund seines hohen Anteils mit 91,6 % den größten volkswirtschaftlichen Schaden durch Stau verursacht, und andererseits die Erhöhung des Bahnanteils auf 20 % bei gleichzeitiger Reduktion der Stauzeit, was eine positive Nettoersparnis erzeugt. Trotz Bahnverspätungen überwiegt der gesamtwirtschaftliche Nutzen einer Verlagerung auf die Schiene. Limitationen sind Annahmen zu konstanten Reisezeiten und linearen Stau-Reduktionen, die vereinfacht sind, und die geringe Berücksichtigung von Kapazitätsgrenzen der Bahn bei stark steigendem Nachfrageanteil. Zusätzliche Daten wären Verkehrsmodelle mit Nachfrageelastizitäten und Umweltindikatoren, um Wirkungen der Priorisierung des Bahn-Pendelverkehrs realistisch zu simulieren.

Zusatzaufgaben (optional)

Bisher haben Sie zwei Dimensionen betrachtet: Zeit (Bahn ist schneller) und Geld (Verspätungen kosten). Aber es gibt einen dritten, oft vergessenen Aspekt: die Umwelt.

Das Auto ist nicht nur langsamer und teurer; es ist auch ein Klimakiller. Ein durchschnittlicher PKW emittiert z.B. etwa 150 g CO2 pro Personenkilometer.

Recherchieren Sie die CO2-Emissionsfaktoren und das Mobilitätsverhalten:

Erstellen Sie eine kleine Tabelle in der Sie die CO2-Emissionen (in g/Personenkilometer) für folgende Verkehrsmittel auflisten:
- PKW (Durchschnitt)
- PKW (Elektro, deutscher Strommix)
- ICE/IC (Fernverkehr)
- RE/RB (Nahverkehr)
- S-Bahn
Berechnen Sie einen gewichteten Durchschnitt für die Bahn, wenn 70% der Pendler Nahverkehr und 30% Fernverkehr nutzen.
Um wie viel Prozent sind die Bahn-Emissionen niedriger als beim Auto?

Hinweis: Nutzen Sie Daten vom Umweltbundesamt oder dem DB Umweltbericht.

CO2-Emissionsfaktoren (g/Personenkilometer)
Verkehrsmittel	CO2 (g/Pkm)
PKW (Durchschnitt)	164.0
PKW (Elektro, deutscher Strommix)	70.0
ICE/IC (Fernverkehr)	26.0
RE/RB (Nahverkehr)	44.0
S-Bahn	42.0
Bahn (gewichtet: 70% Nah / 30% Fern)	38.6

Um wie viel Prozent sind die Bahn-Emissionen niedriger als beim Auto?

Der gewichtete Bahn Durchschnitt beträgt 38,6 CO2 (g/Pkm). Dadurch ergibt sich, dass die Bahn-Emissionen damit rund 76,5% niedriger als beim durchschnittlichen PKW sind.

Die Studie “Mobilität in Deutschland” (MiD 2023) ist die wichtigste Datenquelle zum Mobilitätsverhalten in Deutschland. Sie ermöglicht einen Vergleich mit 2017 (vor Corona).

Lesen Sie den MiD 2023 Kurzbericht und beantworten Sie:

Modal Split: Wie hat sich der Anteil des öffentlichen Verkehrs (ÖV) am Gesamtverkehr zwischen 2017 und 2023 verändert?
Homeoffice-Effekt: Wie hat sich die durchschnittliche Tagesstrecke verändert? Was ist laut MiD der Hauptgrund für diese Veränderung?
Stadt vs. Land: Welchen Anteil hat das Deutschlandticket in Metropolen vs. ländlichen Räumen? Was bedeutet das für die Ulm-Region?
Implikation für CO2: Welche Schlussfolgerung ziehen Sie aus diesen Veränderungen für das CO2-Einsparpotenzial durch Bahnpendeln? (2-3 Sätze)

Wie hat sich der Anteil des öffentlichen Verkehrs (ÖV) am Gesamtverkehr zwischen 2017 und 2023 verändert?

Laut MiD Kurzbericht 2023 hat sich der Anteil des öffentlichen Verkehrs zwischen 2017 und 2023 leicht erhöht. 2017 waren es 10% der Wege, die auf den öffentlichen Verkehr fielen. 2023 waren es 11%.

Wie hat sich die durchschnittliche Tagesstrecke verändert? Was ist laut MiD der Hauptgrund für diese Veränderung?

Die durchschnittliche Tagesstrecke ist von 2017 bis 2023 um ungefähr 4km gesunken. 2017 waren es noch 39km während es 2023 35km waren. Der MiD-Bericht führt die Reduktion vor allem auf den Homeoffice-Trend zurück. Beschäftigte im Homeoffice kommen auf eine mittlere Tagesstrecke von 20km während Beschäftigte ohne Homeoffice auf 60km kommen. Das Homeoffice ist somit zum Teil für die reduzierte Verkehrleistung verantwortlich.

Welchen Anteil hat das Deutschlandticket in Metropolen vs. ländlichen Räumen? Was bedeutet das für die Ulm-Region?

In Metropolen nutzen 33% der Menschen das Deutschlandticket. In ländlichen Regionen liegt der Anteil bei etwa 10%. Das Deutschlandticket hat somit einen deutlich größeren Anteil in Stadtgebieten als in ländlichen Regionen. Im städtischen Bereich Ulms ist die ÖPNV Nutzung relativ hoch, da Pendler viele Verbindungen haben und das Deutschlandticket so attraktiver wird. In ländlichen Regionen Ulms kommt es zu einer gerigeren Nutzung was daraufhin deutet, dass das ÖPNV-Angebot weniger atrraktiv ist. Der Grubd dafür könnten ungünstige Fahrzeiten oder wenige Anschlüsse sein. Für das Beispiel Ulm bedeutet das, dass ein Angebotsausbau nötig ist, um mehr Menschen zum Umstieg vom Auto zum ÖPNV zu bewegen.

Welche Schlussfolgerung ziehen Sie aus diesen Veränderungen für das CO2-Einsparpotenzial durch Bahnpendeln?

Die steigende Nutzung des ÖPNV - insbesondere in Städten durch z.B. das Deutschlandticket erhöhen das CO2-Einsparpotenzial des Bahnpendelns deutlich. Gleichzeitig begrenzt die geringe Nutzung in ländlichen Rämen das Potenzial noch. Das größte Einsparpotenzial liegt in einer Kombination aus besserem ÖPNV-Angeboten im Umland und weiterer Verlagerung von PKW-Pendlern auf die Bahn.

Berechnen Sie die CO2-Ersparnis für die 11 analysierten Städte.

Datensatz: co2_analyse (aus Aufgabe 4) – enthält Streckenlängen, Einpendlerzahlen und vorberechnete Werte

Annahmen:

220 Arbeitstage pro Jahr
2 Fahrten pro Tag (Hin + Zurück)
CO2-Auto: 150 g/km, CO2-Bahn: 47 g/km (gewichteter Durchschnitt)

Berechnen Sie für jeden Umsteiger (Auto \(\rightarrow\) Bahn):

Jährliche Kilometer
CO2-Emissionen mit Auto (kg/Jahr)
CO2-Emissionen mit Bahn (kg/Jahr)
Ersparnis (kg/Jahr)

Nun sollten Sie eine Szenario Analyse ähnlich wie in Aufgabe 15 durchführen: Wenn sich der Bahnanteil von 8,4% auf 20% erhöht: wie viele Tonnen CO2 würden in den 11 Städten jährlich eingespart?

Visualisieren Sie die CO2-Ersparnis pro Stadt.

Stellen Sie die Ersparnis in Kontext, um die Ersparnis greifbarer zu machen, z.B. wie viele Mallorca-Flüge (hin + zurück, ~750 kg CO2) entspricht das?

CO2-Ersparnis Szenario (Bahnanteil 8,4% → 20%) – 11 Städte
Stadt	Distanz (km)	Zusätzliche Umsteiger	Ersparnis pro Umsteiger (kg/Jahr)	CO2-Ersparnis Stadt (t/Jahr)	Mallorca-Flüge (≈)
Frankfurt	36,0	47.079	1.632	76.810,8	102.414,4
Berlin	34,2	45.510	1.550	70.537,3	94.049,7
München	19,1	52.855	866	45.751,8	61.002,4
Hannover	42,2	15.999	1.913	30.598,5	40.798,0
Köln	18,3	35.601	829	29.525,9	39.367,8
Hamburg	14,2	45.582	644	29.334,2	39.112,3
Stuttgart	14,0	31.835	634	20.198,8	26.931,8
Düsseldorf	12,1	33.025	548	18.109,8	24.146,5
Nürnberg	10,4	19.198	471	9.048,3	12.064,4
Essen	11,0	16.390	499	8.170,9	10.894,5
Ulm	3,7	7.928	168	1.329,3	1.772,4

Gesamte CO2-Ersparnis (11 Städte) im Szenario: 339.415,8 t CO2/Jahr (≈ 452.554,3 Mallorca-Flüge hin & zurück)

Beschreibung der Ergebnisse

Die CO₂-Analyse zeigt die potenzielle jährliche Einsparung von Treibhausgasemissionen für die elf betrachteten Städte, wenn Pendler vom Auto auf die Bahn umsteigen. Grundlage der Berechnung sind die angenommenen 220 Arbeitstage pro Jahr, zwei Fahrten pro Tag (Hin- und Rückfahrt) sowie durchschnittliche Emissionsfaktoren von 150 g CO₂ pro Kilometer für den PKW und 47 g CO₂ pro Kilometer für die Bahn. Zunächst wird für einen einzelnen Umsteiger die jährliche Fahrleistung berechnet und daraus die CO₂-Emissionen bei Nutzung des Autos und der Bahn gegenübergestellt. Die Differenz ergibt die CO₂-Ersparnis pro Pendler und Jahr. Aufbauend darauf wird ein Szenario betrachtet, in dem sich der Bahnanteil von 8,4 % auf 20 % erhöht. Auf dieser Basis wird die gesamte jährliche CO₂-Ersparnis für jede Stadt sowie für alle elf Städte zusammen berechnet und grafisch dargestellt. Zur besseren Einordnung wird die Gesamtersparnis zusätzlich in Relation gesetzt, indem sie in Äquivalente von Flugreisen umgerechnet wird (z. B. Hin- und Rückflug nach Mallorca mit ca. 750 kg CO₂).

Interpretation

Die Ergebnisse zeigen, dass bereits der Umstieg eines einzelnen Pendler vom Auto auf die Bahn zu einer erheblichen CO₂-Ersparnis pro Jahr führt. Da Pendelstrecken täglich und über das gesamte Jahr hinweg zurückgelegt werden, summieren sich selbst moderate Einsparungen pro Kilometer zu mehreren hundert Kilogramm CO₂ pro Person und Jahr. Im Szenario mit einem erhöhten Bahnanteil wird deutlich, dass sich diese individuellen Einsparungen auf sehr hohe Gesamteffekte auf Stadtebene addieren. Besonders in Städten mit vielen Einpendlern entstehen jährliche CO₂-Einsparungen in der Größenordnung von mehreren tausend Tonnen. Über alle elf Städte hinweg ergibt sich somit ein erhebliches Klimaschutzpotenzial. Die Umrechnung in Flugäquivalente verdeutlicht die Größenordnung der Einsparung: Die jährliche CO₂-Reduktion entspricht mehreren tausend Kurz- und Mittelstreckenflügen. Dies macht anschaulich, dass eine Verlagerung vom Auto zur Bahn im Pendelverkehr einen substanziellen Beitrag zur Erreichung der Klimaziele leisten kann. Insgesamt unterstreicht die Analyse, dass Maßnahmen zur Förderung des Bahnpendelns nicht nur verkehrs- und volkswirtschaftlich sinnvoll sind, sondern auch einen direkten und messbaren Beitrag zur Reduktion von Treibhausgasemissionen leisten. Gerade im täglichen Pendelverkehr liegt damit ein großes, bislang nicht vollständig ausgeschöpftes Potenzial für den Klimaschutz.

Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (`bahnhof_ags_mapping.csv`)

Dieses Mapping ist essenziell für die Verknüpfung von Bahn- und Pendlerdaten. Die Bahndaten sind auf Bahnhofsebene (z.B. “München Hbf”), die Pendlerdaten auf Kreisebene (z.B. “München, Landeshauptstadt”). Der AGS (Amtlicher Gemeindeschlüssel) ist der Schlüssel, der beide Welten verbindet.

Wichtige Variablen:

station_name: Name des Bahnhofs
ags: Amtlicher Gemeindeschlüssel (5-stellig für Kreise)
kreis_name: Name des Landkreises/der kreisfreien Stadt

2. Fahrtzeit-Vergleich OSRM (`fahrtzeit_osrm_vergleich.csv`)

Für einen fairen Vergleich Auto vs. Bahn brauchen wir realistische Fahrtzeiten. OSRM (Open Source Routing Machine) berechnet echte Straßenrouten basierend auf OpenStreetMap – keine Luftlinien, sondern tatsächliche Straßenverbindungen mit Abbiegevorgängen, Geschwindigkeitsbegrenzungen und Straßentypen.

Wichtige Variablen:

stadt: Zielstadt der Pendlerstrecke
strecke_name: Beschreibung der Route (z.B. “Dachau \(\rightarrow\) München”)
auto_distanz_km: Fahrstrecke mit dem Auto in km
auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit (mit Staufaktor)
bahn_planzeit_min: Fahrzeit laut Fahrplan
bahn_verspaetung_min: Durchschnittliche Verspätung
bahn_real_min: Realistische Bahnfahrzeit (Fahrplan + Verspätung)

Wie wurde das Routing durchgeführt?

Koordinaten ermitteln: Für jede Pendlerstrecke wurden Start- und Zielkoordinaten definiert (z.B. Stadtzentrum Dachau \(\rightarrow\) München Hauptbahnhof).
OSRM-API abfragen: Über die öffentliche OSRM-Demo-API (router.project-osrm.org) wurden für jede Route Distanz und Fahrzeit abgefragt. Die API gibt die schnellste Route zurück, basierend auf dem aktuellen Straßennetz.
Staufaktor anwenden: Die OSRM-Basisfahrzeit entspricht einer Fahrt bei freiem Verkehr. Für die Hauptverkehrszeit (HVZ) wurde ein Staufaktor von 1,3-1,5 angewendet, basierend auf den INRIX-Daten der jeweiligen Stadt.
Bahn-Daten ergänzen: Die Bahnfahrzeiten stammen aus dem DB-Fahrplan, ergänzt um die durchschnittliche Verspätung aus unserer Analyse.

Weiterführende Links:

OSRM Projekt-Website – Dokumentation und Demo
OSRM API-Dokumentation – Technische Details zur API
OpenStreetMap – Die Kartendaten, auf denen OSRM basiert
R-Paket osrm – Für eigene OSRM-Abfragen in R

3. Ulm-Pendlerrouten (`ulm_pendlerrouten.csv`)

Da Sie in Ulm studieren, analysieren wir die wichtigsten Pendlerrouten in die Stadt genauer. Dieser Datensatz enthält die 5 wichtigsten Einpendler-Gemeinden mit detaillierten Informationen zur Erreichbarkeit.

Wichtige Variablen:

start_ort: Startgemeinde der Pendlerroute
ziel_ort: Zielort (Ulm)
auto_dauer_min: Fahrzeit mit dem Auto
auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit
bahn_fahrplan_min: Bahnfahrzeit laut Fahrplan
bahn_real_min: Realistische Bahnfahrzeit
hat_bahnhof: TRUE/FALSE – hat der Startort einen Bahnanschluss?
pendler_geschaetzt: Geschätzte Anzahl Pendler auf dieser Route

4. Entgeltstatistik (`ba_entgeltstatistik_2024.csv`)

Um die volkswirtschaftlichen Kosten von Verspätungen zu berechnen, brauchen wir regionale Lohndaten. Diese haben wir von der Bundesagentur für Arbeit heruntergeladen.

Wichtige Variablen:

kreis_name: Name des Kreises/der Stadt
ags: Amtlicher Gemeindeschlüssel
medianentgelt_brutto_monat: Median-Bruttomonatsentgelt in Euro

Quelle: Bundesagentur für Arbeit, Entgeltstatistik 2024

Pendeln in Deutschland

Zeit für die Bahn? – Eine datenbasierte Analyse

Motivation

Datengrundlage

Daten einlesen und verstehen

Die Pünktlichkeit der Deutschen Bahn

Von der Zeit zum Ort: Wo entstehen die Verspätungen?

Wo treffen viele Pendler auf eine unpünktliche Bahn?

Der Vergleich – Auto vs. Bahn

Methodische Herausforderungen

Die volkswirtschaftlichen Kosten

Politikempfehlung – Ihre Synthese

Zusatzaufgaben (optional)

Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (`bahnhof_ags_mapping.csv`)

2. Fahrtzeit-Vergleich OSRM (`fahrtzeit_osrm_vergleich.csv`)

3. Ulm-Pendlerrouten (`ulm_pendlerrouten.csv`)

4. Entgeltstatistik (`ba_entgeltstatistik_2024.csv`)

Quellenverzeichnis

Pendeln in Deutschland

Zeit für die Bahn? – Eine datenbasierte Analyse

Motivation

Datengrundlage

Daten einlesen und verstehen

Die Pünktlichkeit der Deutschen Bahn

Von der Zeit zum Ort: Wo entstehen die Verspätungen?

Wo treffen viele Pendler auf eine unpünktliche Bahn?

Der Vergleich – Auto vs. Bahn

Methodische Herausforderungen

Die volkswirtschaftlichen Kosten

Politikempfehlung – Ihre Synthese

Zusatzaufgaben (optional)

Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (bahnhof_ags_mapping.csv)

2. Fahrtzeit-Vergleich OSRM (fahrtzeit_osrm_vergleich.csv)

3. Ulm-Pendlerrouten (ulm_pendlerrouten.csv)

4. Entgeltstatistik (ba_entgeltstatistik_2024.csv)

Quellenverzeichnis

1. Bahnhof-Kreis-Mapping (`bahnhof_ags_mapping.csv`)

2. Fahrtzeit-Vergleich OSRM (`fahrtzeit_osrm_vergleich.csv`)

3. Ulm-Pendlerrouten (`ulm_pendlerrouten.csv`)

4. Entgeltstatistik (`ba_entgeltstatistik_2024.csv`)