Motivation

Jeden Morgen das gleiche Bild: Verstopfte Autobahnen, genervte Pendler, verlorene Zeit. 20,5 Millionen Menschen pendeln in Deutschland täglich zur Arbeit – die meisten davon mit dem Auto. Laut INRIX Traffic Scorecard 2024 verlieren Pendler in deutschen Großstädten zwischen 40 und 60 Stunden pro Jahr allein im Stau. Das entspricht fast einer kompletten Arbeitswoche, die im Nichts verpufft.

Die Idee liegt auf der Hand: Wer Bahn fährt, steht nicht im Stau. Aber wie schlägt sich die Bahn im Vergleich zum Auto? Ist sie wirklich schneller? Und wie zuverlässig ist sie eigentlich?

In diesem Projekt analysieren Sie Echtzeitdaten der Deutschen Bahn, Pendlerstatistiken der Bundesagentur für Arbeit, Staudaten von INRIX und die Entgeltstatistik der Bundesagentur für Arbeit. Sie werden herausfinden, dass die Antwort auf die Frage “Sollten mehr Menschen Bahn fahren?” komplexer ist, als man zunächst vermuten würde und dass sie wichtige Implikationen für die Verkehrspolitik hat.

Ihre zentrale Forschungsfrage lautet:

“Sollten mehr Menschen Bahn fahren – und was müsste sich dafür ändern?”

Datengrundlage

In diesem Projekt arbeiten Sie mit mehreren Datensätzen. Ein wichtiger Teil des Projekts ist das eigenständige Beschaffen von Primärdaten aus offiziellen Quellen.

Daten einlesen und verstehen

Bevor Sie mit der Analyse beginnen können, müssen Sie verschiedenste Datensätze einlesen und deren Struktur verstehen. Die Deutsche Bahn stellt über unterschiedliche Schnittstellen Echtzeitdaten für ihre Züge als open-source Daten zur Verfügung, welche per API-Calls geladen werden können. Jedoch gibt es von der Deutschen Bahn keine offizielle Seite, welche historische Daten zu Zugverspätungen, Ausfällen etc. für Fern- und Nahverkehrszüge sammelt. Da wir uns jedoch mit historischen Daten beschäftigen möchten, greifen wir auf Daten zurück, die von Piet Brömmel gesammelt wurden und bei Huggingface im Parquet-Format zur Verfügung gestellt wurden. Das Parquet-Format ist ein effizientes Datenformat und wird oft für große Datenmengen genutzt; in R können Sie diese Daten mit dem arrow-Paket einlesen.

Wie pünktlich ist die Bahn wirklich? Um diese Frage zu beantworten, brauchen Sie echte Verspätungsdaten – nicht nur Pressemitteilungen. Die Bahndaten bilden das Herzstück unserer Analyse: Mit ihnen können Sie berechnen, wie viel Zeit Bahnfahrer durch Verspätungen verlieren und später mit den Stauzeiten der Autofahrer vergleichen.

Die Deutsche Bahn stellt Echtzeitdaten als Open Data zur Verfügung. Das Projekt piebro/deutsche-bahn-data auf Huggingface sammelt diese Daten im Parquet-Format.

Laden Sie die Datei für November 2025 direkt von Huggingface herunter und lesen Sie diesen Datensatz als bahn in R ein.

Zeigen Sie die ersten 10 Zeilen des Datensatzes in einer Tabelle und beantworten Sie anschließend folgende Fragen:

Wie viele Beobachtungen enthält der Datensatz? Welche Variablen sind vorhanden?
Was stellt eine einzelne Beobachtung dar?

Hinweis 1: Sie können auf Huggingface die gesuchte Datei hier finden und direkt die URL zu der Datei in R mitgeben

Hinweis 2: Sie können die Parquet Datei entweder lokal speichern, oder immer direkt per URL einlesen. Falls Sie die Datei lokal speichern, so wird diese nicht auf GitHub Committet, da wir dies in der .gitignore entsprechend eingestellt haben. In diesem Fall sollten alle Teammitglieder die Datei lokal zur Verfügung haben.

Hinweis 3: Achten Sie bei allen Tabellen auf einer saubere Darstellung

Auszug aus den Echtzeitdaten der Deutschen Bahn (November 2025)

Bahnhof	Bahnhof (XML)	Stationsnummer	Zugname	Zielbahnhof	Verspätung (Min.)	Zeitstempel	Ausgefallen	Zugtyp	Fahrt-ID	Stationsfolge	Geplante Ankunftszeit	Geänderte Ankunftszeit	Geplante Abfahrtszeit	Geänderte Abfahrtszeit	Datensatz-ID
Stuttgart Hbf	Stuttgart Hbf (tief)	08098096	S 2	Filderstadt	5	2025-11-01 01:00:00	FALSE	S		15	2025-11-01 00:55:00	2025-11-01 00:57:00	2025-11-01 00:55:00	2025-11-01 01:00:00	-1263112065111090114-2510312318-15
Halle (Saale) Hbf	Halle(Saale)Hbf	08010159	S 5	Leipzig Hbf (tief)	1	2025-11-01 01:00:00	FALSE	S		1	NA	NA	2025-11-01 00:59:00	2025-11-01 01:00:00	-2678885466088426112-2510312359-1
Karlsruhe Hbf	Karlsruhe Hbf	08000191	RE 1	Karlsruhe Hbf	95	2025-11-01 01:00:00	FALSE	RE		7	2025-10-31 23:25:00	2025-11-01 01:00:00	NA	NA	-2791458000270945298-2510312132-7
Regensburg Hbf	Regensburg Hbf	08000309	ALX RE25	München Hbf	11	2025-11-01 01:00:00	FALSE	ALX		4	2025-11-01 00:35:00	2025-11-01 00:52:00	2025-11-01 00:49:00	2025-11-01 01:00:00	-5065801516765768983-2510312301-4
Mannheim Hbf	Mannheim Hbf	08000244	ICE 775	Karlsruhe Hbf	1	2025-11-01 01:00:00	FALSE	ICE	5181720942697741094	8	2025-11-01 00:56:00	2025-11-01 00:58:00	2025-11-01 00:59:00	2025-11-01 01:00:00	5181720942697741094-2510311916-8
Flughafen BER	Flughafen BER (S-Bahn)	08089201	S 9	Flughafen BER	1	2025-11-01 01:00:00	FALSE	S	7409107008547428277	5	2025-11-01 00:59:00	2025-11-01 01:00:00	NA	NA	7409107008547428277-2510312346-5
Halle (Saale) Hbf	Halle(Saale)Hbf	08010159	S 8	Halle (Saale) Hbf	15	2025-11-01 01:00:00	FALSE	S	2442677234119162947	6	2025-11-01 00:45:00	2025-11-01 01:00:00	NA	NA	2442677234119162947-2510312324-6
München Hbf	München Hbf	08000261	RB 40	München Hbf	0	2025-11-01 01:00:00	FALSE	RB		8	2025-11-01 01:00:00	2025-11-01 01:00:00	NA	NA	-8549369502950901321-2510312246-8
Köln Hbf	Köln Hbf	08000207	IC 1952	Köln Hbf	40	2025-11-01 01:00:00	FALSE	IC	2365115903117509345	14	2025-11-01 00:20:00	2025-11-01 01:00:00	NA	NA	2365115903117509345-2510311747-14
Freiburg (Breisgau) Hbf	Freiburg(Breisgau) Hbf	08000107	S 1	Freiburg (Breisgau) Hbf	0	2025-11-01 01:00:00	FALSE	S		9	2025-11-01 01:00:00	2025-11-01 01:00:00	NA	NA	-2150665481183031960-2510312332-9

Der Datensatz für November 2025 mit Echtzeitdaten der Deutschen Bahn enthält 13.943.561 Beobachtungen bei 16 Variabeln: station_name; xml_station_name; eva; train_name; final_destination_station; delay_in_min; time; is_canceled; train_type; train_line_ride_id; train_line_station_num; arrival_planned_time; arrival_change_time; departure_planned_time_departure_change_time; id. Dabei stellt eine einzelne Beobachtung (Zeile) ein konkretes Zugereignis an einem bestimmten Bahnhof zu einem bestimmten Zeitpunkt dar. Darüber hinaus werden geplante und tatsächliche Zeitpunkte erfasst, sodass sich hieraus eine Verspätung kalkulieren lässt. Jede Zeile beschreibt somit einen spezifischen Halt bzw. Ankunft oder Abfahrt eines Zuges und bildet deshalb die kleinste Analyseeinheit des Datensatzes.

Wohin pendeln die Menschen? Die Bahndaten zeigen ihnen die Pünktlichkeit der Züge – aber um zu verstehen, wo gute Bahnverbindungen besonders wichtig sind, müssen Sie wissen, wohin die Menschen pendeln. Die Pendlerstatistik der Bundesagentur für Arbeit zeigt genau das: Welche Städte sind die größten Arbeitgeber-Magneten?

Laden Sie den Datensatz pendler_kreise_aufbereitet.csv aus dem Ordner daten in R ein als Datensatz pendler.

Erstellen Sie eine Tabelle der Top 10 Städte nach Einpendlern mit den Spalten: Stadt (kreis_name), Einpendler, Auspendler, Pendlersaldo.

Interpretieren Sie kurz: Welche Städte sind die größten “Pendlermagneten” Deutschlands und warum?

AGS	Stadt	Einpendler	Auspendler	Pendlersaldo
Top-10 Städte nach Einpendlerzahl
09162	München, Landeshauptstadt	455.645	202.756	252.889
06412	Frankfurt am Main, Stadt	405.856	111.245	294.611
02000	Hamburg, Freie und Hansestadt	392.951	147.328	245.623
11000	Berlin, Stadt	392.324	219.898	172.426
05315	Köln, Stadt	306.905	138.422	168.483
05111	Düsseldorf, Stadt	284.696	97.326	187.370
08111	Stuttgart, Landeshauptstadt	274.442	100.095	174.347
09564	Nürnberg, Stadt	165.496	78.557	86.939
05113	Essen, Stadt	141.296	90.906	50.390
03241	Region Hannover	137.924	69.974	67.950

Die größten Pendler-Magneten Deutschlands sind München, Frankfurt am Main, Hamburg und Berlin, da sie die höchsten Einpendlerzahlen und zugleich deutlich positive Pendlersalden aufweisen. Diese Städte fungieren als zentrale Arbeits- und Wirtschaftszentren mit hoher Arbeitsplatzdichte in Branchen wie Dienstleistungen, Industrie, Verwaltung und Finanzwirtschaft. Gleichzeitig führen hohe Mieten und Lebenshaltungskosten dazu, dass viele Beschäftigte im Umland wohnen und täglich in diese Städte einpendeln.

Was kostet das Auto? Sie haben jetzt Bahndaten und wissen, wohin die Menschen pendeln. Aber um fair vergleichen zu können, brauchen Sie auch die Alternative: Wie viel Zeit verlieren Autofahrer im Stau? Diese Daten liefert INRIX – ein Unternehmen, das weltweit Verkehrsdaten sammelt. Später werden Sie diese Staukosten mit den Bahnverspätungen vergleichen.

Besuchen Sie die INRIX Global Traffic Scorecard und suchen Sie die Stauzeiten für die Top 10 Städte aus Aufgabe 2 und zusätzlich die Stauzeiten für Ulm. INRIX misst, wie viele Stunden Autofahrer jährlich im Stau verlieren.

Erstellen Sie eine eigene CSV-Datei inrix_staedte_2024.csv mit folgenden Spalten für die geforderten Städte:
- stadt: Name der Stadt
- stau_stunden_jahr: Jährliche Staustunden pro Fahrer
- kosten_eur: Jährliche Kosten pro Fahrer (findet sich in der tiefergehenden Übersicht)
Berechnen Sie für jede Stadt, wie viele Arbeitstage pro Jahr im Stau verloren gehen. Annahme: Ein Arbeitstag = 8 Stunden.

Erstellen Sie anschließend eine schöne Tabelle mit: Stadt, Staustunden/Jahr, verlorene Arbeitstage und beschreiben diese. In welcher Stadt ist die Stausituation am schlimmsten? Wie viele Arbeitstage verliert ein typischer Pendler dort pro Jahr?

Hinweis: Auf der INRIX-Website können Sie nach bei “Jump to City Rankings” -> “Search the List” -> “Germany” oder der konkreten Stadt filtern.

Rang (DE)	Stadt	Staustunden pro Jahr	Kosten pro Jahr (€)	Arbeitstage pro Jahr
Jährliche Staukosten in deutschen Großstädten
INRIX-Daten 2025
1	Köln	67	919	8,38
2	Berlin	60	823	7,50
3	Düsseldorf	63	864	7,88
4	München	57	781	7,13
5	Stuttgart	60	823	7,50
6	Frankfurt am Main	55	754	6,88
7	Hannover	54	740	6,75
8	Hamburg	46	631	5,75
13	Wuppertal	46	631	5,75
24	Nürnberg	38	521	4,75
40	Ulm	30	411	3,75
Hinweis: Für Essen liegen in den INRIX-Daten keine Werte vor. Die Stadt erscheint daher nicht in der Tabelle und stattdessen Wuppertal.

Die Tabelle zeigt für ausgewählte deutsche Städte die jährlich verlorenen Staustunden pro Autofahrer sowie die daraus abgeleiteten verlorenen Arbeitstage, wobei ein Arbeitstag mit acht Stunden angesetzt wird. Die Werte basieren auf den Daten der INRIX Global Traffic Scorecard und verdeutlichen erhebliche Unterschiede in der Staubelastung zwischen den Städten. Besonders in großen Metropolen fallen die Staustunden deutlich höher aus als in kleineren Städten wie Ulm. Die schlimmste Stausituation weist Köln auf. Dort verlieren Autofahrer im Durchschnitt 67 Staustunden pro Jahr, was etwa 8,4 verlorenen Arbeitstagen entspricht und Kosten i.H.v 919 Euro pro Jahr bei einem stadtesüblichen Lohn verursacht. Damit liegt Köln im betrachteten Vergleich deutlich vor anderen Großstädten wie Düsseldorf, Berlin oder München und weist die höchste zeitliche Belastung durch Staus auf.

Für die weiteren Analysen stellen wir Ihnen fünf zusätzliche Datensätze bereit. Diese laden Sie jetzt, damit sie in allen folgenden Aufgaben direkt verfügbar sind.

Laden Sie die folgenden Datensätze aus dem Ordner daten und speichern Sie diese unter den angegebenen Variablennamen:

Datei	Variablenname	Verwendet in
`bahnhof_ags_mapping.csv`	`bahnhof_mapping`	Aufgabe 9-10
`fahrtzeit_osrm_vergleich.csv`	`fahrtzeit`	Aufgabe 12
`ulm_pendlerrouten.csv`	`ulm_routen`	Aufgabe 13
`ba_entgeltstatistik_2024.csv`	`entgelt`	für `staedte_basis`
`co2_analyse.csv`	`co2_analyse`	Aufgabe 19 (Bonus)

Verschaffen Sie sich einen ersten Überblick über die Struktur der Daten (z.B. mit glimpse(), dies sollte später in ihrem HTML Dokument nicht sichtbar sein!).

Erstellen Sie außerdem einen Master-Datensatz staedte_basis für die Top-11-Städte (Top 10 Pendlerstädte + Ulm), der die Daten aus pendler, entgelt und inrix kombiniert. Dieser Datensatz vereinfacht die späteren Analysen (ab Aufgabe 14), da alle relevanten Kennzahlen bereits zusammengeführt sind.

Der Master-Datensatz sollte folgende Spalten enthalten:

ags: Amtlicher Gemeindeschlüssel
stadt: Stadtname (Kurzform, z.B. “München”)
einpendler: Anzahl Einpendler
median_monat_eur: Medianlohn pro Monat
median_stunde_eur: Medianlohn pro Stunde (Monatslohn / 160)
stau_stunden_jahr: Stauzeit pro Jahr (aus INRIX)

Hinweis 1: Die Datensätze verwenden unterschiedliche Namensformate: pendler hat offizielle Namen (“München, Landeshauptstadt”), während entgelt und inrix Kurznamen (“München”) verwenden. Nutzen Sie den AGS als zuverlässigen Schlüssel für die Verknüpfung mit pendler. Tipp: entgelt enthält sowohl AGS als auch Kurznamen und eignet sich daher gut als Ausgangspunkt.

Hinweis 2: Eine ausführliche Beschreibung der Datensätze finden Sie im Anhang A.

AGS	Stadt	Median Monatsentgelt (€)	Einpendler	Median Stundenentgelt (€)	Staustunden pro Jahr
Master-Datensatz: Staedte_basis (Top-10 Pendlerstädte & Ulm)
09162	München	4.847	455.645	30,29	57
06412	Frankfurt	4.712	405.856	29,45	55
02000	Hamburg	4.527	392.951	28,29	46
11000	Berlin	4.156	392.324	25,98	60
05315	Köln	4.398	306.905	27,49	67
05111	Düsseldorf	4.523	284.696	28,27	63
08111	Stuttgart	4.689	274.442	29,31	60
09564	Nürnberg	4.234	165.496	26,46	38
05113	Essen	3.987	141.296	24,92	46
03241	Hannover	4.156	137.924	25,98	54
08421	Ulm	4.312	68.341	26,95	30

Die Pünktlichkeit der Deutschen Bahn

Nachdem Sie nun einen Überblick über die Daten haben, welche wir in diesem Projekt verwenden möchten, tauchen Sie tiefer in die Bahndaten ein. Die zentrale Frage ist: Wie zuverlässig ist die Deutsche Bahn wirklich?

Die Bahn unterscheidet verschiedene Zugtypen, vom ICE über den RE bis zur S-Bahn. Jeder Zugtyp hat unterschiedliche Eigenschaften: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Aber welcher Zugtyp ist am pünktlichsten?

Welche Züge sind (un)pünktlich? Nicht alle Züge sind gleich: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Um später sinnvolle Empfehlungen geben zu können, müssen Sie verstehen, welche Zugtypen besonders problematisch sind. Dafür klassifizieren Sie die Züge anhand ihrer Namen. Nutzen Sie für diese Analyse den Datensatz bahn.

Die Variable train_name enthält den Zugnamen (z.B. “ICE 123”, “S 5”, “RE 8”).

Erstellen Sie eine neue Variable zugtyp mit folgenden Kategorien:

Zugtyp	Regel	Beispiel
ICE	beginnt mit “ICE”	ICE 123
IC/EC	beginnt mit “IC” oder “EC”	IC 2012, EC 6
IRE/RE	beginnt mit “RE” oder “IRE”	RE 5, IRE 200
RB	beginnt mit “RB”	RB 26
S-Bahn	beginnt mit “S” (mit Leerzeichen!)	S 5
Sonstige	alle anderen	U 6, STB 123

Erstellen Sie auf dieser Basis eine Tabelle, welche pro Zugtyp folgende Kennzahlen anschaulich darstellt:

Anzahl der Fahrten
Durchschnittliche Verspätung (in Minuten)
Anteil pünktlicher Züge (≤6 Min Verspätung)
Ausfallquote

Beschreiben und Interpretieren Sie die Tabelle.

Weiterhin sollten Sie ihre Ergebnisse verifizieren. Dafür können Sie auf die offizielle Pünktlichkeitswerte der Deutschen Bahn zurückgreifen (recherchieren Sie diese selbstständig).

Stimmen Ihre Ergebnisse mit den offiziellen Werten überein? Falls nicht: Welche methodischen Unterschiede könnten die Abweichung erklären?

Hinweis: Nutzen Sie str_detect() aus dem stringr-Paket. Achten Sie auf die Reihenfolge der Bedingungen!

Zugtyp	Anzahl Fahrten	Ø Verspätung (Min)	Anteil pünktlich (≤ 6 Min)	Ausfallquote
Pünktlichkeit nach Zugtyp (November 2025)
S-Bahn	6.414.157	2,94	87.4%	5.5%
Sonstige	2.944.355	3,47	84.7%	2.6%
RB	2.675.020	3,48	85.2%	3.2%
IRE/RE	1.669.947	6,06	74.1%	3.6%
ICE	171.516	12,50	56.7%	4.2%
IC/EC	68.566	11,06	60.4%	7.4%

Die Tabelle „Pünktlichkeit nach Zugtyp (November 2025)“ stellt für verschiedene Zugtypen die Anzahl der erfassten Fahrten, die durchschnittliche Verspätung in Minuten, den Anteil pünktlicher Züge (definiert als maximal sechs Minuten Verspätung) sowie die Ausfallquote dar. Die Zeilen unterscheiden zwischen S-Bahn, sonstigen Zügen, Regionalbahn (RB), Regionalexpress/Interregio-Express (IRE/RE) sowie den Fernverkehrszügen ICE und IC/EC. Alle Kennzahlen beziehen sich auf den Monat November 2025 und erlauben einen quantitativen Vergleich der Pünktlichkeit zwischen den einzelnen Zugtypen.

Auf Basis der November-2025-Daten zeigen sich Unterschiede in der Pünktlichkeit der verschiedenen Zugtypen. Insbesondere S-Bahnen sowie Regionalzüge (RB und RE/IRE) stellen den Großteil der Fahrten und weisen vergleichsweise geringe durchschnittliche Verspätungen sowie hohe Pünktlichkeitsanteile von über 70 % bis 87 % auf. Fernverkehrszüge wie ICE und IC/EC sind deutlich seltener unterwegs und zeigen höhere durchschnittliche Verspätungen sowie niedrigere Pünktlichkeitswerte zwischen rund 57 % und 60 %.

Ein Vergleich mit den offiziellen Pünktlichkeitswerten der Deutschen Bahn für November 2025 zeigt eine hohe Übereinstimmung. Laut Deutsche Bahn lag die Pünktlichkeit im Fernverkehr in diesem Monat bei rund 54 %, gemessen als Anteil der Züge mit weniger als sechs Minuten Verspätung. Auch die hohen Pünktlichkeitswerte im Nahverkehr entsprechen den offiziellen Angaben, die für den Personenverkehr insgesamt Werte von deutlich über 80 % ausweisen (Quelle: Deutsche Bahn, November 2025).

Geringe Abweichungen zwischen den eigenen Ergebnissen und den offiziellen Werten lassen sich methodisch erklären. Die Deutsche Bahn nutzt interne Betriebsdaten und unterscheidet zwischen betrieblicher und reisendenbezogener Pünktlichkeit, während diese Analyse auf externen Echtzeitdaten basiert und jede Fahrt gleich gewichtet. Zudem können Unterschiede in der Berücksichtigung von Zugausfällen und Anschlussverspätungen zu leicht variierenden Kennzahlen führen.

Quelle: https://www.deutschebahn.com/de/konzern/konzernprofil/zahlen_fakten/puenktlichkeitswerte-6878476

In Aufgabe 5 haben Sie gesehen, dass Fernverkehrszüge (ICE, IC/EC) deutlich höhere Verspätungen und Ausfallquoten haben als Nahverkehrszüge (IRE, RE, RB, S-Bahn). Aber wie relevant ist das für den typischen Pendler? Das hängt davon ab, wie viele Züge jeweils unterwegs sind. Nutzen Sie für diese Analyse den Datensatz bahn (mit der in Aufgabe 5 erstellten Variable zugtyp).

Klassifizieren Sie die Züge in zwei Kategorien:

Fernverkehr: ICE, IC/EC
Nahverkehr: IRE, RE, RB, S-Bahn

Erstellen Sie ein Liniendiagramm, das die durchschnittliche Anzahl der Fahrten pro Stunde im Tagesverlauf zeigt:

X-Achse: Uhrzeit (0-23 Uhr)
Y-Achse: Durchschnittliche Anzahl Fahrten pro Stunde
Zwei Linien: eine für Fernverkehr, eine für Nahverkehr (unterschiedliche Farben)

Tipp: Extrahieren Sie die Stunde aus der Variable time mit hour() aus dem lubridate-Paket. Berechnen Sie dann die durchschnittliche Anzahl Fahrten pro Stunde und Zugtyp.

Beschreiben und interpretieren Sie ihre Grafik. Beantworten Sie zusätzlich die folgenden Fragen:

Zu welchen Uhrzeiten fahren die meisten Züge?
Wie unterscheidet sich das Muster zwischen Fern- und Nahverkehr?
Warum ist diese Information wichtig, wenn wir später die Verspätungen analysieren?

Die Grafik zeigt ein Liniendiagramm zur durchschnittlichen Anzahl von Zugfahrten pro Stunde im Tagesverlauf. Auf der x-Achse ist die Uhrzeit von 0 bis 23 Uhr abgetragen, auf der y-Achse die durchschnittliche Anzahl der Fahrten pro Stunde. Dargestellt sind zwei Linien, die den Fernverkehr und den Nahverkehr unterscheiden. Die Werte basieren auf Daten der Deutschen Bahn für den Monat November 2025 und ermöglichen einen direkten Vergleich des zeitlichen Verkehrsaufkommens beider Verkehrsarten.

Die meisten Nah- und Fernverkehrszüge verkehren überwiegend während des Tages, mit klaren Spitzen in den frühen Morgenstunden. Ab etwa 4 Uhr steigt die Zahl der Fahrten stark an und erreicht ihr Maximum zwischen 7 und 9 Uhr, was zeitlich mit dem Berufs- und Pendlerverkehr zusammenfällt. Ein weiteres hohes Niveau hält sich über den gesamten Vormittag und Nachmittag, bevor die Anzahl der Fahrten ab den späten Abendstunden (ab ca. 20–21 Uhr) wieder deutlich zurückgeht. In den Nachtstunden zwischen etwa 2 und 4 Uhr ist das Verkehrsaufkommen am geringsten.

Zwischen Fern- und Nahverkehr zeigen sich dabei klare Unterschiede im Muster. Der Nahverkehr dominiert zu allen Tageszeiten deutlich und weist sehr ausgeprägte Spitzen am Morgen sowie ein durchgehend hohes Niveau über den Tag hinweg auf. Das ist typisch für S-Bahnen, Regionalzüge und Pendlerverkehre, die in kurzen Takten fahren. Der Fernverkehr hingegen bewegt sich auf einem wesentlich niedrigeren Niveau, zeigt aber ebenfalls einen Anstieg ab dem Morgen. Seine Verteilung ist gleichmäßiger, mit weniger starken Schwankungen, da Fernzüge seltener verkehren und stärker an feste Fahrpläne gebunden sind.

Diese Information ist besonders wichtig für die spätere Analyse von Verspätungen, weil das Verkehrsaufkommen einen direkten Einfluss auf die Betriebsstabilität hat. Zeiten mit vielen Fahrten – insbesondere im Nahverkehr während der Hauptverkehrszeiten – sind anfälliger für Störungen, da sich kleine Verzögerungen schnell auf viele Züge übertragen können. Ohne die Kenntnis dieser zeitlichen Muster könnte man Verspätungen falsch interpretieren, etwa indem hohe Verspätungswerte auf schlechte Leistung zurückgeführt werden, obwohl sie teilweise durch ein besonders hohes Verkehrsaufkommen erklärbar sind.

Nachdem Sie in Aufgabe 6 herausgefunden haben, dass es deutlich mehr Nahverkehrszüge als Fernverkehrszüge gibt, und diese für Pendler wichtiger sind, sollten Sie sich die Verspätungen der Nahverkehrszüge über den Tag anschauen, da diese vermutlich nicht gleichmäßig über den Tag verteilt sind. Pendler erleben die Bahn vor allem in der Hauptverkehrszeit, d.h. morgens zwischen 7 und 9 Uhr und abends zwischen 16 und 19 Uhr. Aber ist die Bahn zu diesen Zeiten besonders unpünktlich?

Erstellen Sie zwei Heatmaps, die zeigen, wie sich die Verspätungen nach Tageszeit (Stunde) und Wochentag für die Nahverkehrszüge und die Fernverkehrszüge verteilen. Nutzen Sie für diese Analyse den Datensatz bahn.

Extrahieren Sie aus der Variable time die Stunde und den Wochentag.
Filtern Sie auf die relevanten Tageszeiten (5-23 Uhr), da nachts kaum Zugverkehr stattfindet.
Aggregieren Sie die durchschnittliche Verspätung pro Stunde und Wochentag für Nah- und Fernverkehrszüge separat.
Erstellen Sie eine Heatmap mit ggplot2 und geom_tile().

Tipp zur Farbskala: Da Fernverkehrszüge im Durchschnitt höhere Verspätungen haben als Nahverkehrszüge, können Sie unterschiedliche Farbskalen für die beiden Heatmaps verwenden (z.B. Blau-Töne für Nahverkehr, Rot-Töne für Fernverkehr). Dadurch werden die Muster innerhalb jeder Verkehrsart besser sichtbar.

Beschreiben und interpretieren Sie ihre Grafiken.

Wann sind die Verspätungen am höchsten?
Gibt es Unterschiede zwischen Werktagen und Wochenende?
Gibt es Unterschiede zwischen Nah- und Fernverkehrszügen?
Was bedeutet das für Pendler?

Die Abbildung besteht aus zwei Heatmaps, die die durchschnittlichen Zugverspätungen nach Tageszeit und Wochentag darstellen. Die obere Heatmap bezieht sich auf den Fernverkehr, die untere auf den Nahverkehr. Auf der x-Achse ist jeweils die Uhrzeit (Stunden des Tages), auf der y-Achse der Wochentag von Montag bis Sonntag abgetragen. Die Farbintensität gibt die Höhe der durchschnittlichen Verspätung in Minuten an, wobei für Fern- und Nahverkehr jeweils eigene Farbskalen verwendet werden. Die dargestellten Werte basieren auf aggregierten Daten und erlauben einen zeitlichen Vergleich der Verspätungsmuster beider Verkehrsarten.

Auf Basis der beiden Heatmaps zeigen sich zeitliche Unterschiede in den durchschnittlichen Verspätungen. Höhere Verspätungswerte treten vor allem am späten Nachmittag und in den Abendstunden auf. Im Fernverkehr liegen erhöhte Verspätungen insbesondere zwischen etwa 17 und 22 Uhr, mit einem erhöhten Niveau um die Abendstunden. Im Nahverkehr steigen die Verspätungen ebenfalls in den Abendstunden an, erreichen jedoch insgesamt niedrigere Werte als im Fernverkehr. Auffällig ist zudem, dass im Nahverkehr auch während der morgendlichen Hauptverkehrszeit erhöhte Verspätungen auftreten, diese jedoch zeitlich begrenzter sind als die abendlichen Verzögerungen.

Zwischen Werktagen und Wochenende lassen sich ebenfalls Unterschiede erkennen. An Montag bis Freitag sind die Verspätungen insgesamt höher und klarer strukturiert, insbesondere während der klassischen Pendelzeiten am Morgen und vor allem am Abend. Am Wochenende (Samstag und Sonntag) sind die Verspätungen in beiden Verkehrsarten spürbar geringer und gleichmäßiger verteilt, was auf geringere Netzauslastung und Störungen hindeutet.

Ein deutlicher Unterschied zeigt sich zwischen Nah- und Fernverkehr. Der Fernverkehr weist über den gesamten Tag hinweg höhere durchschnittliche Verspätungen auf, mit besonders starken Ausschlägen in den Abendstunden. Der Nahverkehr ist insgesamt stabiler, mit niedrigeren Verzögerungen und weniger extremen Spitzen. Dies steht im Einklang mit der stärkeren Anfälligkeit des Fernverkehrs für Ketteneffekte auf Langstrecken, etwa durch längere Strecken, Netzabhängigkeiten und Verspätungsübertragungen.

Für Pendler bedeutet dies, dass vor allem die abendliche Rückfahrt ein erhöhtes Verspätungsrisiko birgt, insbesondere im Fernverkehr. Wer regelmäßig pendelt, ist im Nahverkehr tendenziell verlässlicher unterwegs, sollte aber auch hier in den Abendstunden mit Verzögerungen rechnen. Die Ergebnisse unterstreichen, dass Analysen von Verspätungen immer im Kontext von Tageszeit und Verkehrsart erfolgen sollten, da die Belastung des Netzes einen entscheidenden Einfluss auf die Zuverlässigkeit hat.

Von der Zeit zum Ort: Wo entstehen die Verspätungen?

In Aufgabe 7 haben Sie analysiert, wann die Verspätungen auftreten, nämlich vor allem zu den Hauptverkehrszeiten. Aber die nächste wichtige Frage ist: Wo entstehen diese Verspätungen?

Aggregierte Statistiken wie Durchschnittswerte über ganz Deutschland verbergen oft große regionale Unterschiede. Vielleicht gibt es einzelne “Problembahnhöfe”, die den Durchschnitt nach oben ziehen? Oder sind die Verspätungen gleichmäßig über das Netz verteilt? Diese Frage ist wichtig, weil sie unterschiedliche Lösungsansätze impliziert: Bei wenigen Problembahnhöfen könnte die Bahn gezielt investieren, bei flächendeckenden Problemen bräuchten Sie systemische Lösungen.

Identifizieren Sie die 10 unpünktlichsten Bahnhöfe in Deutschland (mit mindestens 1.000 Halten im Monat). Nutzen Sie für diese Analyse den Datensatz bahn.

Erstellen Sie ein Balkendiagramm, das die durchschnittliche Verspätung dieser Bahnhöfe zeigt. Beschriften Sie die Balken mit den Verspätungswerten.

Beschreiben und interpretieren Sie ihre Grafik.

Sehen Sie ein geografisches Muster?
Handelt es sich um große Knotenbahnhöfe oder eher um kleinere Stationen?

Die Abbildung zeigt die zehn unpünktlichsten Bahnhöfe Deutschlands im November 2025, gemessen an der durchschnittlichen Verspätung pro Halt. In die Analyse wurden ausschließlich Bahnhöfe mit mindestens 1.000 Halten einbezogen, um Verzerrungen durch selten bediente Stationen zu vermeiden.

Die Bahnhöfe sind nach Höhe der durchschnittlichen Verspätung absteigend sortiert. Die Werte reichen von 14,7 Minuten in Ennepetal bis 12,3 Minuten in Zeesen, wobei die exakten Verspätungswerte direkt an den Balken ausgewiesen sind. Die Grafik erlaubt damit sowohl einen Vergleich der relativen Betroffenheit einzelner Stationen als auch eine Einschätzung der absoluten Größenordnung der Verspätungen im Regionalverkehr.

Homogenität der Verspätungswerte

Ein zentrales Ergebnis der Analyse ist die geringe Spannweite der durchschnittlichen Verspätungen. Zwischen dem unpünktlichsten Bahnhof (Ennepetal) und dem zehntplatzierten Bahnhof (Zeesen) liegen lediglich 2,4 Minuten. Dies deutet darauf hin, dass es sich nicht um einzelne extreme Ausreißer handelt, sondern um eine Gruppe von Bahnhöfen mit strukturell vergleichbaren Problemen. Die Verspätungen sind somit kein isoliertes Phänomen einzelner Standorte, sondern Ausdruck systematischer Belastungen.

Konzentration entlang der Rheinschiene

Besonders auffällig ist die starke räumliche Ballung der unpünktlichsten Bahnhöfe in Nordrhein-Westfalen. Sieben der zehn Stationen liegen in diesem Bundesland. Innerhalb dieser Gruppe konzentrieren sich wiederum fünf Bahnhöfe entlang der links- und rechtsrheinischen Achse zwischen Köln und Koblenz (Bad Breisig, Sinzig, Bornheim-Sechtem, Brühl und Roisdorf).

Diese Strecke zählt zu den meistbefahrenen Nahverkehrskorridoren Deutschlands und ist durch eine enge Verzahnung von Regional-, Fern- und Güterverkehr gekennzeichnet. Die verbleibenden nordrhein-westfälischen Bahnhöfe (Ennepetal, Hochneukirch, Rheydt-Odenkirchen) liegen ebenfalls auf hochfrequentierten regionalen Achsen. Außerhalb dieses Clusters erscheinen lediglich Rolandseck in Rheinland-Pfalz sowie Zeesen im südlichen Umland Berlins.

Die ausgeprägte regionale Häufung spricht für infrastrukturelle Engpässe, die nicht lokal, sondern streckenbezogen wirken. Historisch gewachsene Verkehrsachsen wie die Rheinschiene tragen heute eine Verkehrslast, für die ihre teilweise über hundert Jahre alte Infrastruktur nicht ausgelegt ist.

Kleine Bahnhöfe als systemische Engpässe

Entgegen der weit verbreiteten Annahme, dass Verspätungen vor allem an großen Fernverkehrsknoten entstehen, zeigt die Analyse ein gegenteiliges Bild. Keiner der identifizierten Bahnhöfe ist ein zentraler Metropolknoten wie Frankfurt (Main) Hbf, Köln Hbf oder München Hbf. Stattdessen handelt es sich überwiegend um kleine bis mittlere Regionalbahnhöfe, die als Durchgangsstationen fungieren und nur über begrenzte infrastrukturelle Reserven verfügen.

Charakteristisch für die identifizierten Bahnhöfe ist ihre Lage auf hochfrequentierten Regionalstrecken mit ein- oder zweigleisiger Infrastruktur. Auf diesen Strecken existieren kaum Überholmöglichkeiten oder betriebliche Puffer. Bereits geringe Verzögerungen können daher nicht ausgeglichen werden, sondern wirken sich unmittelbar auf nachfolgende Züge aus. Die Verspätungen pflanzen sich entlang der Strecke fort und werden an regelmäßig bedienten Stationen wie Sinzig oder Bad Breisig sichtbar. Diese Bahnhöfe sind somit nicht die Ursache, sondern die Orte, an denen sich systemische Störungen bündeln.

Die Ergebnisse weisen insgesamt auf ein strukturelles Kapazitätsproblem im deutschen Bahnnetz hin. Die sehr ähnlichen Verspätungswerte über verschiedene Regionen hinweg zeigen, dass das System bereits nahe an seiner Leistungsgrenze betrieben wird. Insbesondere im Regionalverkehr fehlen ausreichende zeitliche Puffer und infrastrukturelle Redundanzen, um Störungen zuverlässig abzufedern.

Für Pendlerinnen und Pendler sind durchschnittliche Verspätungen von zwölf bis fünfzehn Minuten besonders problematisch, da sie bei kurzen Fahrzeiten einen erheblichen Anteil der Reisezeit ausmachen. Die hohe Verspätungsanfälligkeit zentraler Pendlerachsen mindert somit spürbar die Zuverlässigkeit des Schienenverkehrs und stellt ein wesentliches Hindernis für eine stärkere Nutzung der Bahn dar.

Wo treffen viele Pendler auf eine unpünktliche Bahn?

Bisher haben Sie Pendler- und Bahndaten getrennt betrachtet. Aber die spannende Frage ist: Wo kommen beide Probleme zusammen? Eine Stadt mit vielen Pendlern und einer unpünktlichen Bahn hat ein größeres Problem als eine Stadt mit wenigen Pendlern und einer unpünktlichen Bahn.

Um diese Frage zu beantworten, müssen Sie die Datensätze verknüpfen. Das Problem: Die Bahndaten sind auf Bahnhofsebene, die Pendlerdaten auf Kreisebene. Sie benötigen ein Mapping, das Bahnhöfe den entsprechenden Kreisen zuordnet.

In dieser Aufgabe verknüpfen Sie die Bahn- und Pendlerdaten, um Städte mit Handlungsbedarf zu identifizieren. Nutzen Sie für ihre Analysen die Datensätze: bahn, pendler und bahnhof_mapping.

Das Mapping ordnet Bahnhöfe ihrem Landkreis zu (via AGS = Amtlicher Gemeindeschlüssel). Ihr Ziel: Identifizieren Sie Städte, in denen viele Pendler auf eine unpünktliche Bahn treffen.

Berechnen Sie für jeden Bahnhof die durchschnittliche Verspätung und die Anzahl der Halte.
Aggregation auf Kreisebene: Berechnen Sie für jeden Kreis die gewichtete durchschnittliche Verspätung. Gewichten Sie nach der Anzahl der Halte (ein Bahnhof mit 10.000 Halten zählt mehr als einer mit 100).
Verknüpfen Sie das Ergebnis mit den Pendlerdaten mittels left_join() über die Variable ags.
Problem-Score berechnen: Kombinieren Sie beide Dimensionen mit z-Standardisierung:

\[\text{Problem-Score} = z(\text{Einpendler}) + z(\text{Verspätung})\]

Die z-Standardisierung macht die Werte vergleichbar: \(z(x) = \frac{x - \bar{x}}{s_x}\), wobei \(\bar{x}\) der Mittelwert und \(s_x\) die Standardabweichung ist.

Interpretation: Ein hoher Problem-Score = Viele Pendler + hohe Verspätung = Handlungsbedarf.

Anschließend sollten Sie eine Tabelle der Top 10 Städte nach Problem-Score darstellen und diese kurz beschreiben.

AGS	Stadt	Einpendler	Ø Verspätung (gewichtet, Min)	Problem-Score
Top-10 Städte mit hohem Handlungsbedarf
Kombination aus Pendleraufkommen und Bahnverspätungen
09162	München, Landeshauptstadt	455.645	5,98	3.45
05315	Köln, Stadt	306.905	7,89	3.05
05111	Düsseldorf, Stadt	284.696	7,33	2.55
06412	Frankfurt am Main, Stadt	405.856	5,14	2.54
11000	Berlin, Stadt	392.324	4,70	2.18
02000	Hamburg, Freie und Hansestadt	392.951	4,44	2.05
05112	Duisburg, Stadt	86.735	8,81	1.46
05915	Hamm, Stadt	22.447	9,93	1.45
08111	Stuttgart, Landeshauptstadt	274.442	5,30	1.38
05314	Bonn, Stadt	112.607	8,00	1.28

Struktur

Die Tabelle zeigt die Top-10 Städte mit dem höchsten Handlungsbedarf, gemessen an einer Kombination aus Pendleraufkommen und Bahnverspätungen. Jede Zeile steht für eine Stadt bzw. einen Kreis, identifiziert über den AGS. Neben der absoluten Zahl der Einpendler wird die durchschnittliche, nach Halten gewichtete Verspätung dargestellt. Um beide Größen vergleichbar zu machen, werden sie z-standardisiert; der daraus gebildete Problem-Score ist die Summe aus Einpendler und Verspätung. Ein hoher Wert bedeutet somit, dass viele Pendler von überdurchschnittlichen Verspätungen betroffen sind.

Beschreibung

Inhaltlich zeigt sich, dass München den höchsten Problem-Score aufweist. Ausschlaggebend ist hier vor allem das sehr hohe Pendleraufkommen, das selbst moderate Verspätungen zu einem großen gesamtgesellschaftlichen Problem macht. Köln und Düsseldorf folgen, da sie sowohl viele Einpendler als auch deutlich erhöhte Verspätungen haben. Städte wie Frankfurt, Berlin und Hamburg liegen ebenfalls weit oben, profitieren jedoch von vergleichsweise geringeren Verspätungen, wodurch ihr Problem-Score niedriger ausfällt. Auffällig ist, dass auch kleinere Städte wie Hamm oder Duisburg in den Top-10 erscheinen: Hier sind es vor allem sehr hohe Verspätungswerte, die trotz geringerer Pendlerzahlen zu einem relevanten Handlungsbedarf führen.

Kernergebnis

Insgesamt verdeutlicht diese Darstellung, dass Probleme im Bahnverkehr besonders dort gravierend sind, wo hohe Nachfrage und Unzuverlässigkeit zusammenkommen. Der Problem-Score ermöglicht damit eine differenzierte Priorisierung von Städten, in denen Verbesserungen im Bahnverkehr besonders viele Pendler entlasten würden.

Erstellen Sie ein Streudiagramm (Scatterplot), das die Beziehung zwischen Einpendlerzahl (x-Achse) und durchschnittlicher Verspätung (y-Achse) visualisiert.

Zeichnen Sie horizontale und vertikale Linien beim jeweiligen Mittelwert ein, um 4 Quadranten zu bilden
Färben Sie die Punkte nach Quadrant
Beschriften Sie die Städte mit den höchsten Problem-Scores
Nutzen Sie eine logarithmische Skala für die x-Achse

Beschreiben und iInterpretieren Sie die vier Quadranten:

Oben rechts: Viele Pendler + hohe Verspätung = ?
Oben links: Wenige Pendler + hohe Verspätung = ?
Unten rechts: Viele Pendler + niedrige Verspätung = ?
Unten links: Wenige Pendler + niedrige Verspätung = ?

Beantworten Sie dabei auch folgende Fragen:

Warum ist es sinnvoll die x-Achse zu logarithmieren?
Welche Städte liegen im kritischen Quadranten?
Was würden Sie der Deutschen Bahn empfehlen?

Die Grafik ist ein Streudiagramm, das den Zusammenhang zwischen der Anzahl der Einpendler und der durchschnittlichen Bahnverspätung für ausgewählte deutsche Städte darstellt. Auf der x-Achse ist die Einpendlerzahl in logarithmischer Skalierung abgebildet, auf der y-Achse die durchschnittliche Verspätung in Minuten. Gestrichelte horizontale und vertikale Linien markieren jeweils den Mittelwert der beiden Variablen und teilen die Grafik in vier Quadranten. Die Datenpunkte repräsentieren einzelne Städte, sind farblich nach Quadrant kategorisiert und Top-Städte aus der vorherigen Analyse mit dem höchsten Handlungsbedarf wurden mit Städtenamen beschriftet.

Logarithmus

Die Einpendlerzahlen unterscheiden sich stark zwischen den Städten und reichen von deutlich unter 100.000 (min(einpendler) = 19.105) bis über 400.000 (max(einpendler) = 455.645). Eine logarithmische Skala sorgt dafür, dass diese großen Unterschiede übersichtlich dargestellt werden und sowohl kleinere als auch sehr große Städte vergleichbar bleiben. Ohne Logarithmierung würden Städte mit geringeren Pendlerzahlen optisch stark zusammengedrückt und kaum interpretierbar sein.

Interpretation der Quadranten

Oben rechts (viele Pendler, hohe Verspätung): Dieser Quadrant stellt den kritischsten Bereich dar, da hier viele Menschen regelmäßig von überdurchschnittlichen Verspätungen betroffen sind. Städte wie München, Köln, Düsseldorf und Bonn liegen in diesem Feld. Beispielsweise weist München sowohl die höchste Einpendlerzahl als auch eine überdurchschnittliche mittlere Verspätung von rund sechs Minuten auf. In diesen Städten multipliziert sich das Problem der Unzuverlässigkeit durch das hohe Pendleraufkommen, was erhebliche wirtschaftliche und gesellschaftliche Folgekosten nach sich zieht.

Oben links (wenige Pendler, hohe Verspätung): Hier befinden sich Städte mit vergleichsweise geringem Pendleraufkommen, aber auffällig hohen Verspätungen. Die absolute Zahl der Betroffenen ist niedriger als im kritischen Quadranten, dennoch deuten die hohen Verspätungswerte auf strukturelle oder betriebliche Probleme hin. Für diese Städte ist weniger die gesamtwirtschaftliche Relevanz ausschlaggebend, sondern vielmehr die Effizienz und Qualität des Angebots für eine kleinere, aber stark belastete Nutzergruppe.

Unten rechts (viele Pendler, niedrige Verspätung): Dieser Quadrant kann als positiver Referenzbereich interpretiert werden. Städte wie Hamburg oder Berlin weisen hohe Einpendlerzahlen auf, liegen aber unterhalb der durchschnittlichen Verspätung. Trotz hoher Nachfrage gelingt es dort offenbar, den Bahnbetrieb vergleichsweise stabil zu organisieren. Diese Städte liefern wichtige Best-Practice-Beispiele dafür, wie leistungsfähige Infrastruktur und Betriebssteuerung auch bei hoher Auslastung zu akzeptabler Pünktlichkeit führen können.

Unten links (wenige Pendler, niedrige Verspätung): In diesem Quadranten liegen Städte mit geringem Pendleraufkommen und gleichzeitig niedrigen Verspätungen. Hier ist der Bahnbetrieb insgesamt wenig belastet, was sich in einer hohen Zuverlässigkeit widerspiegelt. Der Handlungsdruck ist in diesem Bereich am geringsten, da sowohl die absolute Zahl der Betroffenen als auch die Verspätungsintensität niedrig sind.

Kritischer Bereich

Im kritischen Quadranten (viele Pendler und überdurchschnittlich hohe Verspätungen) liegen insbesondere München, Düsseldorf, Köln und Bonn. In diesen Städten treffen ein hohes Pendleraufkommen und erhöhte durchschnittliche Verspätungen zusammen, wodurch besonders viele Pendler potenziell von Unzuverlässigkeit betroffen sind. Diese Kombination deutet auf einen erhöhten verkehrlichen und gesellschaftlichen Handlungsdruck hin.

Handlungsempfehlung

Die Deutsche Bahn sollte ihre Maßnahmen prioritär auf Städte im kritischen Quadranten konzentrieren. Dazu gehören gezielte Investitionen in Infrastruktur, Kapazitätserweiterungen und betriebliche Stabilisierung, insbesondere in stark frequentierten Knotenpunkten. Parallel sollten erfolgreiche Beispiele aus Städten mit vielen Pendlern, aber vergleichsweise niedrigen Verspätungen (z. B. Hamburg), analysiert und auf andere Ballungsräume übertragen werden, um die Pünktlichkeit dort nachhaltig zu verbessern.

Der Vergleich – Auto vs. Bahn

Sie haben nun identifiziert, wo die Bahn Probleme hat: Städte im kritischen Quadranten (viele Pendler + hohe Verspätungen) brauchen dringend Verbesserungen. Aber bevor Sie Empfehlungen aussprechen können, müssen Sie eine zentrale Frage beantworten:

Lohnt sich die Bahn überhaupt – oder ist das Auto trotz Stau schneller?

Denn selbst wenn die Bahn unpünktlich ist, könnte sie immer noch schneller sein als das Auto im Berufsverkehr. Umgekehrt: Eine pünktliche Bahn bringt wenig, wenn das Auto trotzdem schneller ist. Erst der direkte Vergleich zeigt uns, wo die Bahn wirklich konkurrenzfähig ist – und wo nicht.

Methodische Herausforderungen

Für einen fairen Vergleich sollten Sie “Äpfel mit Äpfeln” vergleichen:

Beim Auto muss der Stau berücksichtigt werden (nicht nur die theoretische Fahrzeit)
Bei der Bahn muss die Verspätung berücksichtigt werden (nicht nur der Fahrplan)
Beide Routen müssen dieselben Start- und Endpunkte haben

Für die Auto-Fahrtzeiten nutzen Sie OSRM (Open Source Routing Machine), das auf OpenStreetMap-Daten basiert. OSRM berechnet echte Straßenrouten, keine Luftlinien.

Erklären Sie in eigenen Worten:

Warum ist OSRM-Routing für diesen Vergleich besser geeignet als eine einfache Berechnung nach der Formel Distanz / Geschwindigkeit?
Welche Faktoren müssen zusätzlich berücksichtigt werden, um einen realistischen Vergleich zu ermöglichen? Denken Sie an:
- Tageszeit
- Parkplatzsuche
- Fußweg zum Ziel
- Wartezeit und Umsteigen bei der Bahn

Ein einfacher Fahrzeitvergleich nach der Formel Distanz / Geschwindigkeit bildet die Realität nur unzureichend ab, da er weder den tatsächlichen Straßenverlauf noch Verkehrsinfrastruktur oder Abbiegevorgänge berücksichtigt. OSRM (Open Source Routing Machine) ist für diesen Vergleich deutlich besser geeignet, da es reale Straßenrouten auf Basis von OpenStreetMap-Daten berechnet. Dabei werden unter anderem Straßentypen, Geschwindigkeitsbegrenzungen und Kreuzungen einbezogen. Dadurch entstehen realistische Fahrzeiten, die näher an der tatsächlichen Pendelerfahrung liegen als rein theoretische Berechnungen.

Für einen realistischen Vergleich müssen zusätzlich mehrere Faktoren berücksichtigt werden. Beim Auto spielen insbesondere Tageszeit und Verkehrsaufkommen eine zentrale Rolle, da sich Fahrzeiten während der Hauptverkehrszeiten durch Stau deutlich verlängern. Deshalb wird die OSRM-Basisfahrzeit in der Analyse um einen Staufaktor ergänzt. Darüber hinaus entstehen zusätzliche Zeitverluste durch Parkplatzsuche und dem Fußweg zum Ziel. Auch bei der Bahn sind reale Zusatzzeiten relevant, etwa durch Wege zum Bahnhof, Wartezeiten beim Umsteigen sowie Verspätungen. Diese Faktoren werden in der Analyse berücksichtigt, indem zur Fahrplanzeit die durchschnittliche Verspätung aus den Echtzeitdaten der Deutschen Bahn addiert wird.

Der Vergleich zwischen Auto und Bahn ist in dieser Form fair und sinnvoll, da für beide Verkehrsmittel realistische Bedingungen angesetzt werden. Beim Auto werden reale Fahrzeiten inklusive Stau berücksichtigt, bei der Bahn Fahrplanzeiten inklusive durchschnittlicher Verspätungen. Zudem beginnen und enden beide Routen an denselben Start- und Zielpunkten. Dadurch werden Verzerrungen vermieden und ein realistischer Vergleich der tatsächlichen Pendelzeiten ermöglicht, der belastbare Aussagen über die Alltagstauglichkeit beider Verkehrsmittel zulässt.

Quellen:

Open Source Routing Machine (OSRM): Project OSRM – Routing Engine for OpenStreetMap Data. https://project-osrm.org/

OpenStreetMap Foundation: OpenStreetMap – Open Data for the World. https://www.openstreetmap.org/

Für die Top 10 Einpendler-Städte wurden typische Pendlerstrecken definiert (z.B. Dachau \(\rightarrow\) München, Neuss \(\rightarrow\) Düsseldorf). Die OSRM-Ergebnisse liegen bereits vor. Nutzen Sie für ihre Analyse den Datensatz fahrtzeit.

Erstellen Sie:

Eine Tabelle mit: Stadt, Strecke, Distanz (km), Auto-Fahrzeit (Hauptverkehrszeit), Bahn-Fahrzeit (real), Differenz
Berechnen Sie die jährliche Zeitersparnis bei 220 Arbeitstagen und 2x täglichem Pendeln.

Interpretieren Sie ihre Tabelle:

In wie vielen Fällen ist die Bahn schneller als das Auto?
Wie viele Stunden pro Jahr kann ein Pendler maximal sparen?
Gibt es Strecken, bei denen das Auto schneller ist? Woran könnte das liegen?

Zielstadt	Pendlerstrecke	Distanz (in km)	Auto-Fahrzeit (in Min.)	Bahn-Fahrzeit (in Min.)	Differenz	Jährliche Zeitersparnis (in Std.)
Fahrzeitvergleich KfZ vs. Bahn typischer Pendlerstrecken
OSRM-Routing & realistische Bahnfahrzeiten in der Hauptverkehrszeit
München	Dachau → München	19,1	40,2	26,1	14,1	103,5
Frankfurt	Darmstadt → Frankfurt	36,0	35,8	23,0	12,8	93,9
Hamburg	Harburg → Hamburg	14,2	24,0	16,3	7,7	56,7
Berlin	Potsdam → Berlin	34,2	49,3	29,6	19,7	144,6
Köln	Leverkusen → Köln	18,3	28,7	22,8	5,9	43,3
Düsseldorf	Neuss → Düsseldorf	12,1	27,1	17,1	10,0	73,3
Stuttgart	Esslingen → Stuttgart	14,0	27,2	20,2	7,0	51,6
Nürnberg	Fürth → Nürnberg	10,4	18,9	12,9	6,0	44,4
Essen	Mülheim → Essen	11,0	18,0	15,3	2,7	20,1
Hannover	Celle → Hannover	42,2	54,4	40,8	13,6	99,8
Ulm	Neu-Ulm → Ulm	3,7	8,1	8,9	−0,8	−5,8
Berechnung der jährlichen Zeitersparnis: 220 Arbeitstage × 2 Fahrten pro Tag. Autozeiten: OSRM (HVZ, inkl. Staufaktor), Bahnzeiten: Fahrplan inkl. durchschnittliche Verspätung.

In den betrachteten Pendlerrelationen ist die Bahn in 10 von 11 Fällen schneller als das Auto während der Hauptverkehrszeit. Lediglich auf einer Strecke zeigt sich ein Vorteil für den Pkw, alle übrigen Verbindungen weisen eine positive Zeitdifferenz zugunsten der Bahn auf. Das zeigt, dass insbesondere in stark belasteten Regionen der Schienenverkehr zeitlich meist konkurrenzfähig oder überlegen ist.

Extremfall

Die maximal mögliche jährliche Zeitersparnis ergibt sich auf der Relation Potsdam → Berlin. Hier spart ein Pendler rund 145 Stunden pro Jahr, wenn er an 220 Arbeitstagen jeweils zweimal täglich die Bahn statt des Autos nutzt. Das entspricht knapp vier vollen Arbeitswochen und verdeutlicht das erhebliche Zeitpotenzial, das sich durch die Vermeidung von Staus im Berufsverkehr ergeben kann.

Ausnahme

Ja, es gibt eine Strecke, auf der das Auto schneller ist, nämlich Neu-Ulm → Ulm. Der Zeitvorteil des Pkw lässt sich speziell auf dieser Strecke sehr plausibel durch die kurze Distanz erklären, bei der Umstiegszeiten, Wartezeiten und innerstädtische Wege zur Bahn stärker ins Gewicht fallen als mögliche Staus. Auf kurzen Relationen mit direkter Straßenanbindung und geringem Verkehrsaufkommen kann das Auto daher trotz Hauptverkehrszeit im Vorteil sein.

Da Sie alle in Ulm studieren und eventuell aus dem Ulmer Umland einpendeln, sollten Sie die 5 wichtigsten Pendlerrouten nach Ulm näher analysieren. Stellen Sie in einem Dumbbell-Chart (oder Lollipop-Chart) die Unterschiede zwischen Auto- und Bahnzeiten visuell dar. Nutzen Sie für ihre Analyse den Datensatz ulm_routen.

Die 5 wichtigsten Pendlerrouten nach Ulm sind:

Neu-Ulm \(\rightarrow\) Ulm
Blaustein \(\rightarrow\) Ulm
Ehingen \(\rightarrow\) Ulm
Laupheim \(\rightarrow\) Ulm
Langenau \(\rightarrow\) Ulm

Markieren Sie, welche Orte keinen Bahnhof haben.

Beschreiben und interpretieren Sie ihre Grafik. Welche Besonderheiten zeigen die ländlichen Strecken?

Hinweis: Nutzen Sie geom_segment() und geom_point() für ihr Dumbbell-Chart oder Lollipop-Chart.

Die Grafik vergleicht die Pendelzeiten nach Ulm für fünf Herkunftsorte und stellt die Reisezeiten mit dem Auto in der Hauptverkehrszeit und der Bahn (reale Zeiten) gegenüber. Auf der x-Achse ist die Zeit in Minuten (einfache Strecke), auf der y-Achse sind die Orte aufgeführt. Pro Ort zeigen farbige Punkte die jeweilige Pendelzeit; graue Verbindungslinien verdeutlichen den Unterschied zwischen Auto und Bahn.

Auffällig ist zunächst, dass die Pendelzeiten mit zunehmender Entfernung von Ulm klar ansteigen, dies jedoch nicht für alle Verkehrsmittel in gleichem Maße. Für Neu-Ulm als stadtnahen Standort sind Auto und Bahn nahezu gleich schnell. Beide Verkehrsmittel benötigen nur wenige Minuten, was auf kurze Distanzen und eine sehr gute infrastrukturelle Anbindung hinweist. In diesem Fall sind die Gruppen sehr ähnlich, es zeigt sich kein relevanter Unterschied zwischen den Verkehrsmitteln.

In den ländlicheren Gemeinden ergeben sich stärkere Unterschiede. In Blaustein ist das Auto schneller als die Bahn, was insbesondere durch das Fehlen eines Bahnhofs und zusätzliche Wege im öffentlichen Verkehr erklärbar ist. Laupheim stellt eine Ausnahme dar, da Auto und Bahn hier ähnlich lange Pendelzeiten aufweisen und die Bahn trotz ländlicher Lage konkurrenzfähig ist.

Besonders auffällig ist Langenau, wo die Bahn deutlich schneller ist als das Auto. Dies deutet auf Stauanfälligkeit des Autoverkehrs in der Hauptverkehrszeit und eine effiziente Bahnverbindung hin. In Ehingen (Donau) sind die Pendelzeiten insgesamt am höchsten, wobei die Bahn auch hier einen Zeitvorteil gegenüber dem Auto aufweist.

Insgesamt zeigt die Grafik, dass ländliche Strecken kein einheitliches Muster aufweisen. Nicht die Entfernung allein, sondern vor allem Infrastrukturqualität und Verkehrssituation bestimmen die relative Attraktivität von Auto und Bahn.

Die volkswirtschaftlichen Kosten

Verspätungen kosten nicht nur Nerven, sie haben einen realen volkswirtschaftlichen Preis. Jede Minute, die ein Pendler im verspäteten Zug wartet, ist verlorene Arbeitszeit.

Um diese Kosten etwas besser zu quantifizieren sollten Sie sich den Medianlohn der jeweiligen Städte herunterladen und näher analysieren.

Berechnen Sie die volkswirtschaftlichen Kosten der Bahnverspätungen für die 11 Städte.

Datensätze:

staedte_basis (aus Aufgabe 4) – enthält Einpendler, Medianlohn und Staudaten
Ergebnis aus Aufgabe 9: die gewichtete durchschnittliche Verspätung pro Stadt (in Minuten)

Nutzen Sie die folgenden Annahmen:

Annahmen:

220 Arbeitstage pro Jahr
2 Fahrten pro Tag (Hin + Zurück)
Ca. 8,4% der Pendler nutzen die Bahn (nationaler Durchschnitt laut MiD 2023 Kurzbericht)

Berechnen Sie für jede Stadt:

Anzahl der Bahnpendler (Einpendler × 8,4%)
Verspätungsstunden pro Jahr (Verspätung × 220 × 2 / 60)
Kosten pro Pendler (Verspätungsstunden × Stundenlohn)
Gesamtkosten der Stadt

Erstellen Sie auf Basis ihrer Berechnung eine Tabelle, welche die Anzahl der Bahnpendler, die Verspätungsstunden pro Jahr, die Kosten pro Pendler und die Gesamtkosten der Stadt anschaulich darstellt.

Beschreiben und interpretieren Sie ihre Tabelle. Gehen Sie dabei auch auf die Gesamtkosten der 11 Städte ein. Erklären Sie außerdem, warum der Medianlohn für diese Berechnung besser geeignet ist als der Durchschnittslohn.

Hinweis: Für die Umrechnung auf Stundenlohn: Monatsentgelt / 160 (bei 40h/Woche).

Stadt	Anzahl Bahnpendler	Verspätungsstunden pro Pendler / Jahr	Kosten pro Pendler (€ / Jahr)	Gesamtkosten der Stadt (€ / Jahr)
Volkswirtschaftliche Kosten von Bahnverspätungen
Basierend auf Pendleraufkommen, Medianlohn und durchschnittlicher Verspätung
München	38.274	43,86	€1.329	€50.857.934
Köln	25.780	57,87	€1.591	€41.006.294
Frankfurt	34.092	37,73	€1.111	€37.878.234
Düsseldorf	23.914	53,77	€1.520	€36.348.812
Hamburg	33.008	32,59	€922	€30.437.681
Berlin	32.955	34,47	€895	€29.510.477
Stuttgart	23.053	38,85	€1.139	€26.247.450
Essen	11.869	54,62	€1.361	€16.153.949
Nürnberg	13.902	37,06	€981	€13.633.810
Hannover	11.586	43,81	€1.138	€13.182.690
Ulm	5.741	29,51	€795	€4.565.660
∑	254.174	NA	NA	€299.822.991
Annahmen: 220 Arbeitstage · 2 Fahrten/Tag · 8,4 % Bahnanteil. Stundenlohn = Median-Monatsentgelt / 160. Verspätung = gewichtete Durchschnittsverspätung pro Stadt.

Die Tabelle „Volkswirtschaftliche Kosten von Bahnverspätungen“ zeigt für ausgewählte Großstädte die Anzahl der Bahnpendler, die durchschnittlichen Verspätungsstunden pro Pendler und Jahr, die daraus resultierenden jährlichen Kosten pro Pendler sowie die daraus berechneten Gesamtkosten pro Stadt und Jahr. Alle monetären Angaben sind in Euro ausgewiesen. Die Berechnung basiert auf dem jeweiligen Pendleraufkommen, dem Medianlohn sowie der durchschnittlichen Verspätung und ermöglicht einen quantitativen Vergleich der volkswirtschaftlichen Belastung durch Bahnverspätungen zwischen den betrachteten Städten.

Die Tabelle zeigt, dass Bahnverspätungen in großen Pendlerstädten erhebliche volkswirtschaftliche Kosten verursachen. Besonders hohe Gesamtkosten entstehen dort, wo hohes Pendleraufkommen, überdurchschnittliche Verspätungen und ein hohes Lohnniveau zusammenkommen. München weist mit rund 51 Mio. € pro Jahr die höchsten Gesamtkosten auf, gefolgt von Köln und Frankfurt. Obwohl Städte wie Berlin oder Hamburg ähnlich viele Einpendler haben, fallen ihre Gesamtkosten geringer aus, da entweder die durchschnittliche Verspätung oder der Medianlohn niedriger ist. Insgesamt summieren sich die jährlichen Kosten der elf betrachteten Städte auf einen mittleren bis hohen dreistelligen Millionenbetrag, was verdeutlicht, dass Bahnverspätungen nicht nur ein individuelles Ärgernis, sondern ein relevantes gesamtwirtschaftliches Problem darstellen. Ulm fällt in der Gesamtkostenbetrachtung deutlich geringer aus, da dort vergleichsweise eine geringe Anzahl an Einpendlern vorliegt, zeigt aber dennoch, dass selbst bei geringeren Verspätungen pro Pendler relevante Zeit- und volkswirtschaftliche Geldverluste entstehen können.

Für diese monetäre Bewertung der verlorenen Zeit ist der Medianlohn besser geeignet als der Durchschnittslohn, da er robuster gegenüber Extremwerten ist. In Großstädten mit sehr hohen Einkommen einzelner Berufsgruppen würde der Durchschnittslohn die Kosten systematisch überschätzen, da er stark nach oben verzerrt ist. Der Medianlohn bildet hingegen das typische Einkommen eines Pendlers realistischer ab und führt somit zu einer plausibleren und sozial ausgewogeneren Schätzung der volkswirtschaftlichen Kosten von Bahnverspätungen.

Setzen Sie die Kosten der Bahn (aus Aufgabe 14) den Kosten des Autos gegenüber. Vergleichen Sie diese in einer Szenario-Analyse mittels eines gestapelten Balkendiagramms. Nutzen Sie für ihre Analysen den Datensatz staedte_basis.

Berechnen Sie zuerst die Kosten des Autostaus pro Stadt:

Anzahl der Autopendler (Einpendler × 91,6%)
Staukosten pro Autopendler (Staustunden × Stundenlohn)
Gesamtkosten der Stadt durch Autostau

Führen Sie anschließend einen Szenario-Vergleich durch: Was passiert, wenn der Bahnanteil von 8,4% auf 20% steigt?

Berechnen Sie die Gesamtkosten (Bahn + Auto) für beide Szenarien
Annahme: Weniger Autos = weniger Stau (z.B. 20% weniger Stauzeit pro Autopendler)

Erstellen Sie ein gestapeltes Balkendiagramm nach Szenario. Beschreiben und intepretieren Sie ihre Grafik. Gehen Sie insbesondere auf die folgenden Fragen ein:

Wie verteilen sich die Kosten zwischen Bahn und Auto im Status quo?
Welches Verkehrsmittel verursacht den größeren volkswirtschaftlichen Schaden?
Was ist die Nettoersparnis bei 20% Bahnanteil?

Die Grafik zeigt ein horizontales, gestapeltes Balkendiagramm zu den volkswirtschaftlichen Gesamtkosten des Verkehrs für ausgewählte Städte. Dargestellt sind zwei Szenarien: der Status quo mit einem Bahnanteil von 8,4 % sowie ein alternatives Szenario mit einem Bahnanteil von 20 %. Für jede Stadt werden die jährlichen Gesamtkosten getrennt nach den Verkehrsmitteln Auto und Bahn ausgewiesen. Die x-Achse zeigt die Gesamtkosten pro Jahr in Euro, die y-Achse listet die betrachteten Städte. Zusätzlich sind für beide Szenarien die aggregierten Gesamtkosten über alle Städte angegeben.

Im Status quo mit 8,4 % Bahnanteil wird deutlich, dass der überwiegende Teil der volkswirtschaftlichen Kosten durch den Autoverkehr verursacht wird. In allen betrachteten Städten dominiert der rote Balken (Auto) die Gesamthöhe der Kosten, während die Bahn lediglich einen vergleichsweise kleinen Anteil beiträgt. Dies steht im Zusammenhang mit der hohen Zahl an Autopendlern sowie den erheblichen Staustunden, die sich – multipliziert mit dem Stundenlohn – zu hohen jährlichen Produktivitätsverlusten summieren. Die Kosten durch Bahnverspätungen sind zwar vorhanden, fallen aber aufgrund des geringen Bahnanteils deutlich geringer aus.

Über alle Städte hinweg verursacht damit eindeutig der Autoverkehr den größeren volkswirtschaftlichen Schaden. Selbst in Städten mit hohem Bahnaufkommen bleiben die Autokosten der dominante Kostenblock. Die Grafik macht deutlich, dass Stauzeiten ein zentraler Kostentreiber sind und dass kleine Verzögerungen, wenn sie viele Pendler betreffen, erhebliche gesamtwirtschaftliche Auswirkungen haben. Bahnverspätungen wirken sich ebenfalls negativ aus, erreichen jedoch nicht annähernd das Ausmaß der durch den Autoverkehr verursachten Kosten.

Im Szenario mit 20 % Bahnanteil zeigt sich eine klare Nettoersparnis gegenüber dem Status quo (~ 883 Mio. Euro). Zwar steigen die Bahnkosten moderat an, da mehr Pendler die Bahn nutzen, dieser Effekt wird jedoch deutlich überkompensiert durch den starken Rückgang der Autokosten. Die angenommene Reduktion der Staustunden pro Autopendler führt dazu, dass die Gesamtkosten des Autoverkehrs erheblich sinken. In der Summe über alle Städte ergibt sich somit eine substanzielle volkswirtschaftliche Entlastung, was zeigt, dass eine Verlagerung vom Auto zur Bahn nicht nur verkehrspolitisch, sondern auch ökonomisch sinnvoll ist.

Politikempfehlung – Ihre Synthese

Sie haben nun umfangreiche Analysen durchgeführt und viele Erkenntnisse über die Bahn gewonnen. Jetzt ist es Zeit, diese zu einer kohärenten Empfehlung zusammenzufügen.

Szenario: Sie sind Berater:in des Bundesministeriums für Digitales und Verkehr. Die Ministerin bittet Sie um eine evidenzbasierte Politikempfehlung zur Verbesserung des Pendlerverkehrs in Deutschland.

Formulieren Sie eine Politikempfehlung für das Bundesministerium für Digitales und Verkehr.

Schreiben Sie eine Executive Summary (max. 5 Sätze). Fassen Sie hierbei die wichtigsten Erkenntnisse aus ihrem Projekt zusammen. Was ist die zentrale Botschaft?

Formulieren Sie 3 konkrete Empfehlungen. Jede muss enthalten:

Ein konkretes Ziel (Was soll erreicht werden?)
Eine messbare Maßnahme (Wie wird es umgesetzt?)
Eine Begründung mit Zahlen aus Ihrer Analyse
Nennen Sie zwei Limitationen Ihrer Datengrundlage
Was würden Sie mit zusätzlichen Daten noch untersuchen?

Executive Summary

Die Analyse zeigt, dass der Pendlerverkehr in deutschen Großstädten erhebliche volkswirtschaftliche Kosten verursacht, wobei der Autoverkehr den mit Abstand größten Anteil ausmacht. Staus im Straßenverkehr führen – gemessen an Zeitverlusten und Medianlöhnen – zu jährlichen Kosten in dreistelliger Millionenhöhe pro Stadt, während die Kosten durch Bahnverspätungen im Status quo deutlich geringer ausfallen. Szenarioanalysen belegen, dass eine Erhöhung des Bahnanteils von 8,4 % auf 20 % die Gesamtkosten spürbar senkt und gleichzeitig CO₂-Emissionen reduziert. Besonders pendlerstarke Städte wie München, Frankfurt oder Köln profitieren überproportional von einer Verkehrsverlagerung. Die zentrale Botschaft lautet: Eine gezielte Stärkung des Bahnpendelverkehrs ist sowohl volkswirtschaftlich als auch klimapolitisch klar vorteilhaft.

Empfehlung 1: Verlagerung vom Auto auf die Bahn im Pendlerverkehr

Ziel: Reduktion der volkswirtschaftlichen Kosten des Pendlerverkehrs durch Verringerung von Staus im Straßenverkehr.
Maßnahme: Erhöhung des Bahnanteils im Berufsverkehr von derzeit 8,4 % auf mindestens 20 % durch Ausbau von Taktfrequenzen, Park-and-Ride-Angeboten und vergünstigte Pendlerabonnements.
Begründung mit Zahlen: Die Szenarioanalyse zeigt, dass bei einem Bahnanteil von 20 % die Gesamtkosten (Auto + Bahn) in allen betrachteten Städten sinken, da die Einsparungen im Autoverkehr die steigenden Bahnkosten deutlich übersteigen. In Städten wie München oder Frankfurt ergibt sich eine Nettoersparnis von mehreren hundert Millionen Euro pro Jahr.
Limitationen: Erstens basieren die Berechnungen auf durchschnittlichen Staustunden und berücksichtigen keine tageszeitliche oder saisonale Variation. Zweitens wird angenommen, dass zusätzliche Bahnpendler die Verspätungssituation nicht überproportional verschlechtern.
Zusätzliche Daten: Detaillierte Nachfrage- und Kapazitätsdaten des Schienenverkehrs könnten zeigen, ab welchem Punkt zusätzliche Investitionen notwendig werden, um Qualitätseinbußen zu vermeiden.

Empfehlung 2: Priorisierung von Investitionen in besonders belasteten Pendlerregionen

Ziel: Maximierung der volkswirtschaftlichen Effizienz öffentlicher Investitionen im Verkehrssektor.
Maßnahme: Gezielte Investitionen in Städte mit hohem Pendleraufkommen und hohen Zeitkosten, identifiziert über die Kombination aus Einpendlerzahlen und durchschnittlichen Verzögerungen.
Begründung mit Zahlen: Die Analyse zeigt, dass Städte mit vielen Einpendlern und hohem Medianlohn besonders hohe Kosten durch Zeitverluste verursachen. Bereits moderate Reduktionen der Staustunden führen dort zu überdurchschnittlich hohen Einsparungen pro Jahr.
Limitationen: Erstens werden regionale Unterschiede innerhalb der Städte (z. B. einzelne Korridore) nicht abgebildet. Zweitens beruhen die Lohnkosten auf Medianwerten und nicht auf individuellen Einkommensstrukturen.
Zusätzliche Daten: Feinräumige Verkehrsdaten auf Streckenebene könnten helfen, Investitionen noch zielgerichteter auf besonders problematische Pendlerachsen zu lenken.

Empfehlung 3: Integration von Verkehrs- und Klimapolitik

Ziel: Gleichzeitige Reduktion von volkswirtschaftlichen Kosten und CO₂-Emissionen im Pendlerverkehr.
Maßnahme: Förderung der Verkehrsverlagerung auf die Bahn als explizite Klimaschutzmaßnahme, etwa durch CO₂-abhängige Abgaben auf den Autopendelverkehr und zweckgebundene Reinvestition in den ÖPNV.
Begründung mit Zahlen: Die CO₂-Analyse zeigt, dass zusätzliche Bahnpendler bei einem Anstieg des Bahnanteils auf 20 % jährlich mehrere tausend Tonnen CO₂ einsparen, insbesondere in großen Städten. Diese Emissionsreduktionen gehen gleichzeitig mit geringeren Staukosten einher.
Limitationen: Erstens werden nur direkte Emissionen aus dem Betrieb betrachtet, nicht jedoch Infrastruktur- oder Fahrzeugherstellung. Zweitens wird von konstanten Emissionsfaktoren pro Kilometer ausgegangen.
Zusätzliche Daten: Lebenszyklusanalysen von Verkehrsmitteln und detaillierte Emissionsdaten nach Energiequelle könnten die Klimawirkung noch präziser quantifizieren.

Zusatzaufgaben (optional)

Bisher haben Sie zwei Dimensionen betrachtet: Zeit (Bahn ist schneller) und Geld (Verspätungen kosten). Aber es gibt einen dritten, oft vergessenen Aspekt: die Umwelt.

Das Auto ist nicht nur langsamer und teurer; es ist auch ein Klimakiller. Ein durchschnittlicher PKW emittiert z.B. etwa 150 g CO2 pro Personenkilometer.

Recherchieren Sie die CO2-Emissionsfaktoren und das Mobilitätsverhalten:

Erstellen Sie eine kleine Tabelle in der Sie die CO2-Emissionen (in g/Personenkilometer) für folgende Verkehrsmittel auflisten:
- PKW (Durchschnitt)
- PKW (Elektro, deutscher Strommix)
- ICE/IC (Fernverkehr)
- RE/RB (Nahverkehr)
- S-Bahn
Berechnen Sie einen gewichteten Durchschnitt für die Bahn, wenn 70% der Pendler Nahverkehr und 30% Fernverkehr nutzen.
Um wie viel Prozent sind die Bahn-Emissionen niedriger als beim Auto?

Hinweis: Nutzen Sie Daten vom Umweltbundesamt oder dem DB Umweltbericht.

Verkehrsmittel	CO₂-Emissionen (g / Personenkilometer)
CO₂-Emissionen verschiedener Verkehrsmittel
Angaben in Gramm pro Personenkilometer
PKW (Durchschnitt)	164
PKW (Elektro, dt. Strommix)	70
ICE/IC (Fernverkehr)	26
RE/RB (Nahverkehr)	44
S-Bahn	42
Quelle: Umweltbundesamt, Deutsche Bahn (gerundete Durchschnittswerte)

Die gewichteten CO₂-Emissionen der Bahn betragen 38,6 g pro Personenkilometer und liegen damit deutlich unter denen eines durchschnittlichen PKW mit 164 g CO₂ pro Personenkilometer. Daraus ergibt sich, dass Bahnpendeln rund 76,46 % weniger CO₂-Emissionen verursacht als Autofahren. Die Verlagerung von Pendelwegen auf die Bahn bietet somit ein erhebliches CO₂-Einsparpotenzial.

Quelle: https://www.umweltbundesamt.de/themen/verkehr/emissionsdaten#tremod

Die Studie “Mobilität in Deutschland” (MiD 2023) ist die wichtigste Datenquelle zum Mobilitätsverhalten in Deutschland. Sie ermöglicht einen Vergleich mit 2017 (vor Corona).

Lesen Sie den MiD 2023 Kurzbericht und beantworten Sie:

Modal Split: Wie hat sich der Anteil des öffentlichen Verkehrs (ÖV) am Gesamtverkehr zwischen 2017 und 2023 verändert?
Homeoffice-Effekt: Wie hat sich die durchschnittliche Tagesstrecke verändert? Was ist laut MiD der Hauptgrund für diese Veränderung?
Stadt vs. Land: Welchen Anteil hat das Deutschlandticket in Metropolen vs. ländlichen Räumen? Was bedeutet das für die Ulm-Region?
Implikation für CO2: Welche Schlussfolgerung ziehen Sie aus diesen Veränderungen für das CO2-Einsparpotenzial durch Bahnpendeln? (2-3 Sätze)

Modal Split:

Der Anteil des öffentlichen Verkehrs (ÖV) am Gesamtverkehrsaufkommen (auf die Wege bezogen) hat sich zwischen 2017 und 2023 leicht verbessert und stieg von 10 Prozentpunkten auf 11 % an. Wenn es um die Verkehrsleistung in Personenkilometern geht, liegt der Anteil des ÖV im Jahr 2023 bei einem knappen Fünftel.

Homeoffice-Effekt:

Die durchschnittliche Tagesstrecke pro Person hat sich von knapp 40 Kilometern (2017) auf rund 35 Kilometern (2023) reduziert. Laut MiD ist der Hauptgrund für diese Veränderung Trends in Richtung Homeoffice und Online-Aktivitäten, insbesondere in ökonomisch besser befindlichen Menschengruppen. Während Beschäftigte ohne Homeoffice an Werktagen eine mittlere Tagesstrecke von rund 60 Kilometern zurücklegen, beträgt dieser Wert bei Befragten im Homeoffice nur 20 Kilometer.

Stadt vs. Land (alle Angaben in % beziehen sich auf die Bevölkerung ab 14 Jahren):

Im Einführungsjahr 2023 nutzen bundesweit 16 % das Deutschlandticket als Ihr übliches Ticket. Obwohl der Bericht festhält, dass das Auto außerhalb der Großstädte mit Abstand der wichtigste Verkehrsträger bleibt, ist die Region Ulm in den Karten des Berichts als “zentrale Stadt” innerhalb einer ländlichen Region klassifiziert. So ist beispielsweise in Metropolen angegeben, dass 35 % ein Deutschlandticket nutzen. In der ländlichen Region hängt es jedoch von dem spezifischen Raumtyp ab: Während in zentralen Städten (wie oben genannt: Ulm) der Anteil bei 17 % liegt, beträgt er in Mittel-Städten (städtisch geprägter, ländlicher Raum) nur bei 17 %. In Kleinstädten (bzw. döflich ländlichem Raum) nuten lediglich 6 % das Deutschlandticket.

Implikation für CO2:

Die Kombination aus sinkender Pkw-Nutzung und der massiven Kilometerreduktion durch Homeoffice deutet auf ein erhebliches CO2-Einsparpotenzial hin, da der verkehrsbedingte CO2-Fußabdruck direkt an die zurückgelegten Kilometer gekoppelt ist. Da komfortable Bahnen als Rückgrat einer nachhaltigen Mobilität gelten, kann das Bahnpendeln wesentlich dazu beitragen, die verbleibende Verkehrsleitstung klimafreundlicher zu gestalten.

Berechnen Sie die CO2-Ersparnis für die 11 analysierten Städte.

Datensatz: co2_analyse (aus Aufgabe 4) – enthält Streckenlängen, Einpendlerzahlen und vorberechnete Werte

Annahmen:

220 Arbeitstage pro Jahr
2 Fahrten pro Tag (Hin + Zurück)
CO2-Auto: 150 g/km, CO2-Bahn: 47 g/km (gewichteter Durchschnitt)

Berechnen Sie für jeden Umsteiger (Auto \(\rightarrow\) Bahn):

Jährliche Kilometer
CO2-Emissionen mit Auto (kg/Jahr)
CO2-Emissionen mit Bahn (kg/Jahr)
Ersparnis (kg/Jahr)

Nun sollten Sie eine Szenario Analyse ähnlich wie in Aufgabe 15 durchführen: Wenn sich der Bahnanteil von 8,4% auf 20% erhöht: wie viele Tonnen CO2 würden in den 11 Städten jährlich eingespart?

Visualisieren Sie die CO2-Ersparnis pro Stadt.

Stellen Sie die Ersparnis in Kontext, um die Ersparnis greifbarer zu machen, z.B. wie viele Mallorca-Flüge (hin + zurück, ~750 kg CO2) entspricht das?

Stadt	Kilometer pro Jahr	CO2 Auto (kg/Jahr)	CO2 Bahn (kg/Jahr)	CO2-Ersparnis (kg/Jahr)
Jährliche CO2-Emissionen pro Umsteiger (Auto → Bahn)
Annahmen: 220 Arbeitstage, 2 Fahrten pro Tag
München	16.808	2.521	790	1.731
Frankfurt	31.680	4.752	1.489	3.263
Hamburg	12.496	1.874	587	1.287
Berlin	30.096	4.514	1.415	3.100
Köln	16.104	2.416	757	1.659
Düsseldorf	10.648	1.597	500	1.097
Stuttgart	12.320	1.848	579	1.269
Nürnberg	9.152	1.373	430	943
Essen	9.680	1.452	455	997
Hannover	37.136	5.570	1.745	3.825
Ulm	3.256	488	153	335

Stadt	Zusätzliche Umsteiger (Personen)	CO2-Ersparnis (t/Jahr)
Zusätzliche jährliche CO2-Ersparnis bei 20 % Bahnanteil
Szenarioanalyse für 11 Städte
München	52.855	91.503.8
Frankfurt	47.079	153.620.7
Hamburg	45.582	58.668.0
Berlin	45.510	141.075.9
Köln	35.601	59.051.8
Düsseldorf	33.025	36.220.0
Stuttgart	31.835	40.397.3
Nürnberg	19.198	18.097.1
Essen	16.390	16.341.5
Hannover	15.999	61.196.3
Ulm	7.928	2.658.8

Stadt	Entsprechende Mallorca-Flüge
CO2-Ersparnis im Vergleich zu Mallorca-Flügen
Gesamtersparnis entspricht ca. 905.108 Mallorca-Flügen (Hin- & Rückflug)
München	122.005
Frankfurt	204.828
Hamburg	78.224
Berlin	188.101
Köln	78.736
Düsseldorf	48.293
Stuttgart	53.863
Nürnberg	24.129
Essen	21.789
Hannover	81.595
Ulm	3.545

Datenquelle	Website
Quellen und Annahmen
CO2-Emissionsfaktoren Verkehr (UBA)	https://www.umweltbundesamt.de/daten/verkehr/emissionen-des-verkehrs
CO2-Emissionen von Flugreisen (atmosfair)	https://www.atmosfair.de/de/kompensieren/flug/

Vorgehen

In Aufgabe 19 wurde zunächst berechnet, wie viele Kilometer ein durchschnittlicher Einpendler pro Jahr zurücklegt (220 Arbeitstage, 2 Fahrten pro Tag). Auf dieser Basis wurden die jährlichen CO₂-Emissionen für Auto (150 g/km) und Bahn (47 g/km) bestimmt und daraus die CO₂-Ersparnis pro Umsteiger berechnet. Anschließend wurde eine Szenarioanalyse durchgeführt, in der der Bahnanteil von 8,4 % auf 20 % erhöht wurde. Das zentrale Ergebnis ist, dass bereits diese moderate Verlagerung zu sehr hohen absoluten CO₂-Einsparungen führt, insbesondere in Städten mit vielen Pendlern und langen Pendeldistanzen.

Städtevergleich und Größenordnungen

Die höchsten CO₂-Einsparungen entstehen in Frankfurt (ca. 153.600 t/Jahr) und Berlin (ca. 141.100 t/Jahr), was vor allem auf lange Pendelstrecken und hohe Pendlerzahlen zurückzuführen ist. München folgt mit rund 91.500 t/Jahr, hier wirkt insbesondere die große Zahl zusätzlicher Bahnpendler (über 50.000 Personen). Kleinere Städte wie Nürnberg (ca. 18.100 t/Jahr) oder Essen (ca. 16.300 t/Jahr) erzielen geringere absolute Werte, tragen aber zusammen dennoch relevant zur Gesamtersparnis bei. Insgesamt zeigt der Vergleich, dass sowohl die Pendeldistanz als auch die Anzahl der Umsteiger entscheidend für die Höhe der Einsparung sind.

Einordnung

Um die Einsparungen greifbarer zu machen, wurden sie in Mallorca-Flüge (Hin- und Rückflug ≈ 750 kg CO₂) umgerechnet. Die Gesamtersparnis aller 11 Städte entspricht rund 905.000 Mallorca-Flügen pro Jahr; allein Frankfurt kommt auf etwa 205.000, Berlin auf 188.000 und München auf 122.000 Flüge. Empirisch lässt sich daraus schließen, dass eine Erhöhung des Bahnanteils auf 20 % keinen marginalen Effekt darstellt, sondern einer massiven Reduktion von Emissionen im Umfang hunderttausender Langstreckenflüge entspricht. Der Ausbau und die Attraktivitätssteigerung des Bahnverkehrs ist damit eine der wirkungsvollsten kurzfristig realisierbaren Maßnahmen zur Senkung der CO₂-Emissionen im Pendlerverkehr.

Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (`bahnhof_ags_mapping.csv`)

Dieses Mapping ist essenziell für die Verknüpfung von Bahn- und Pendlerdaten. Die Bahndaten sind auf Bahnhofsebene (z.B. “München Hbf”), die Pendlerdaten auf Kreisebene (z.B. “München, Landeshauptstadt”). Der AGS (Amtlicher Gemeindeschlüssel) ist der Schlüssel, der beide Welten verbindet.

Wichtige Variablen:

station_name: Name des Bahnhofs
ags: Amtlicher Gemeindeschlüssel (5-stellig für Kreise)
kreis_name: Name des Landkreises/der kreisfreien Stadt

2. Fahrtzeit-Vergleich OSRM (`fahrtzeit_osrm_vergleich.csv`)

Für einen fairen Vergleich Auto vs. Bahn brauchen wir realistische Fahrtzeiten. OSRM (Open Source Routing Machine) berechnet echte Straßenrouten basierend auf OpenStreetMap – keine Luftlinien, sondern tatsächliche Straßenverbindungen mit Abbiegevorgängen, Geschwindigkeitsbegrenzungen und Straßentypen.

Wichtige Variablen:

stadt: Zielstadt der Pendlerstrecke
strecke_name: Beschreibung der Route (z.B. “Dachau \(\rightarrow\) München”)
auto_distanz_km: Fahrstrecke mit dem Auto in km
auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit (mit Staufaktor)
bahn_planzeit_min: Fahrzeit laut Fahrplan
bahn_verspaetung_min: Durchschnittliche Verspätung
bahn_real_min: Realistische Bahnfahrzeit (Fahrplan + Verspätung)

Wie wurde das Routing durchgeführt?

Koordinaten ermitteln: Für jede Pendlerstrecke wurden Start- und Zielkoordinaten definiert (z.B. Stadtzentrum Dachau \(\rightarrow\) München Hauptbahnhof).
OSRM-API abfragen: Über die öffentliche OSRM-Demo-API (router.project-osrm.org) wurden für jede Route Distanz und Fahrzeit abgefragt. Die API gibt die schnellste Route zurück, basierend auf dem aktuellen Straßennetz.
Staufaktor anwenden: Die OSRM-Basisfahrzeit entspricht einer Fahrt bei freiem Verkehr. Für die Hauptverkehrszeit (HVZ) wurde ein Staufaktor von 1,3-1,5 angewendet, basierend auf den INRIX-Daten der jeweiligen Stadt.
Bahn-Daten ergänzen: Die Bahnfahrzeiten stammen aus dem DB-Fahrplan, ergänzt um die durchschnittliche Verspätung aus unserer Analyse.

Weiterführende Links:

OSRM Projekt-Website – Dokumentation und Demo
OSRM API-Dokumentation – Technische Details zur API
OpenStreetMap – Die Kartendaten, auf denen OSRM basiert
R-Paket osrm – Für eigene OSRM-Abfragen in R

3. Ulm-Pendlerrouten (`ulm_pendlerrouten.csv`)

Da Sie in Ulm studieren, analysieren wir die wichtigsten Pendlerrouten in die Stadt genauer. Dieser Datensatz enthält die 5 wichtigsten Einpendler-Gemeinden mit detaillierten Informationen zur Erreichbarkeit.

Wichtige Variablen:

start_ort: Startgemeinde der Pendlerroute
ziel_ort: Zielort (Ulm)
auto_dauer_min: Fahrzeit mit dem Auto
auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit
bahn_fahrplan_min: Bahnfahrzeit laut Fahrplan
bahn_real_min: Realistische Bahnfahrzeit
hat_bahnhof: TRUE/FALSE – hat der Startort einen Bahnanschluss?
pendler_geschaetzt: Geschätzte Anzahl Pendler auf dieser Route

4. Entgeltstatistik (`ba_entgeltstatistik_2024.csv`)

Um die volkswirtschaftlichen Kosten von Verspätungen zu berechnen, brauchen wir regionale Lohndaten. Diese haben wir von der Bundesagentur für Arbeit heruntergeladen.

Wichtige Variablen:

kreis_name: Name des Kreises/der Stadt
ags: Amtlicher Gemeindeschlüssel
medianentgelt_brutto_monat: Median-Bruttomonatsentgelt in Euro

Quelle: Bundesagentur für Arbeit, Entgeltstatistik 2024

Pendeln in Deutschland

Zeit für die Bahn? – Eine datenbasierte Analyse

Motivation

Datengrundlage

Daten einlesen und verstehen

Auszug aus den Echtzeitdaten der Deutschen Bahn (November 2025)

Die Pünktlichkeit der Deutschen Bahn

Von der Zeit zum Ort: Wo entstehen die Verspätungen?

Wo treffen viele Pendler auf eine unpünktliche Bahn?

Der Vergleich – Auto vs. Bahn

Methodische Herausforderungen

Die volkswirtschaftlichen Kosten

Politikempfehlung – Ihre Synthese

Zusatzaufgaben (optional)

Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (`bahnhof_ags_mapping.csv`)

2. Fahrtzeit-Vergleich OSRM (`fahrtzeit_osrm_vergleich.csv`)

3. Ulm-Pendlerrouten (`ulm_pendlerrouten.csv`)

4. Entgeltstatistik (`ba_entgeltstatistik_2024.csv`)

Pendeln in Deutschland

Zeit für die Bahn? – Eine datenbasierte Analyse

Motivation

Datengrundlage

Daten einlesen und verstehen

Auszug aus den Echtzeitdaten der Deutschen Bahn (November 2025)

Die Pünktlichkeit der Deutschen Bahn

Von der Zeit zum Ort: Wo entstehen die Verspätungen?

Wo treffen viele Pendler auf eine unpünktliche Bahn?

Der Vergleich – Auto vs. Bahn

Methodische Herausforderungen

Die volkswirtschaftlichen Kosten

Politikempfehlung – Ihre Synthese

Zusatzaufgaben (optional)

Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (bahnhof_ags_mapping.csv)

2. Fahrtzeit-Vergleich OSRM (fahrtzeit_osrm_vergleich.csv)

3. Ulm-Pendlerrouten (ulm_pendlerrouten.csv)

4. Entgeltstatistik (ba_entgeltstatistik_2024.csv)

1. Bahnhof-Kreis-Mapping (`bahnhof_ags_mapping.csv`)

2. Fahrtzeit-Vergleich OSRM (`fahrtzeit_osrm_vergleich.csv`)

3. Ulm-Pendlerrouten (`ulm_pendlerrouten.csv`)

4. Entgeltstatistik (`ba_entgeltstatistik_2024.csv`)