Motivation

Jeden Morgen das gleiche Bild: Verstopfte Autobahnen, genervte Pendler, verlorene Zeit. 20,5 Millionen Menschen pendeln in Deutschland täglich zur Arbeit – die meisten davon mit dem Auto. Laut INRIX Traffic Scorecard 2024 verlieren Pendler in deutschen Großstädten zwischen 40 und 60 Stunden pro Jahr allein im Stau. Das entspricht fast einer kompletten Arbeitswoche, die im Nichts verpufft.

Die Idee liegt auf der Hand: Wer Bahn fährt, steht nicht im Stau. Aber wie schlägt sich die Bahn im Vergleich zum Auto? Ist sie wirklich schneller? Und wie zuverlässig ist sie eigentlich?

In diesem Projekt analysieren Sie Echtzeitdaten der Deutschen Bahn, Pendlerstatistiken der Bundesagentur für Arbeit, Staudaten von INRIX und die Entgeltstatistik der Bundesagentur für Arbeit. Sie werden herausfinden, dass die Antwort auf die Frage “Sollten mehr Menschen Bahn fahren?” komplexer ist, als man zunächst vermuten würde und dass sie wichtige Implikationen für die Verkehrspolitik hat.

Ihre zentrale Forschungsfrage lautet:

“Sollten mehr Menschen Bahn fahren – und was müsste sich dafür ändern?”

Datengrundlage

In diesem Projekt arbeiten Sie mit mehreren Datensätzen. Ein wichtiger Teil des Projekts ist das eigenständige Beschaffen von Primärdaten aus offiziellen Quellen.

Daten einlesen und verstehen

Bevor Sie mit der Analyse beginnen können, müssen Sie verschiedenste Datensätze einlesen und deren Struktur verstehen. Die Deutsche Bahn stellt über unterschiedliche Schnittstellen Echtzeitdaten für ihre Züge als open-source Daten zur Verfügung, welche per API-Calls geladen werden können. Jedoch gibt es von der Deutschen Bahn keine offizielle Seite, welche historische Daten zu Zugverspätungen, Ausfällen etc. für Fern- und Nahverkehrszüge sammelt. Da wir uns jedoch mit historischen Daten beschäftigen möchten, greifen wir auf Daten zurück, die von Piet Brömmel gesammelt wurden und bei Huggingface im Parquet-Format zur Verfügung gestellt wurden. Das Parquet-Format ist ein effizientes Datenformat und wird oft für große Datenmengen genutzt; in R können Sie diese Daten mit dem arrow-Paket einlesen.

Wie pünktlich ist die Bahn wirklich? Um diese Frage zu beantworten, brauchen Sie echte Verspätungsdaten – nicht nur Pressemitteilungen. Die Bahndaten bilden das Herzstück unserer Analyse: Mit ihnen können Sie berechnen, wie viel Zeit Bahnfahrer durch Verspätungen verlieren und später mit den Stauzeiten der Autofahrer vergleichen.

Die Deutsche Bahn stellt Echtzeitdaten als Open Data zur Verfügung. Das Projekt piebro/deutsche-bahn-data auf Huggingface sammelt diese Daten im Parquet-Format.

Laden Sie die Datei für November 2025 direkt von Huggingface herunter und lesen Sie diesen Datensatz als bahn in R ein.

Zeigen Sie die ersten 10 Zeilen des Datensatzes in einer Tabelle und beantworten Sie anschließend folgende Fragen:

Wie viele Beobachtungen enthält der Datensatz? Welche Variablen sind vorhanden?
Was stellt eine einzelne Beobachtung dar?

Hinweis 1: Sie können auf Huggingface die gesuchte Datei hier finden und direkt die URL zu der Datei in R mitgeben

Hinweis 2: Sie können die Parquet Datei entweder lokal speichern, oder immer direkt per URL einlesen. Falls Sie die Datei lokal speichern, so wird diese nicht auf GitHub Committet, da wir dies in der .gitignore entsprechend eingestellt haben. In diesem Fall sollten alle Teammitglieder die Datei lokal zur Verfügung haben.

Hinweis 3: Achten Sie bei allen Tabellen auf einer saubere Darstellung

Erste zehn Beobachtungen des Bahndatensatzes November 2025
Bahnhof	Zugname	Zielbahnhof	Verspätung in Minuten	Zug ausgefallen	Zugtyp	Erfassungszeitpunkt
Stuttgart Hbf	S 2	Filderstadt	5	Nein	S	2025-11-01 01:00:00
Halle (Saale) Hbf	S 5	Leipzig Hbf (tief)	1	Nein	S	2025-11-01 01:00:00
Karlsruhe Hbf	RE 1	Karlsruhe Hbf	95	Nein	RE	2025-11-01 01:00:00
Regensburg Hbf	ALX RE25	München Hbf	11	Nein	ALX	2025-11-01 01:00:00
Mannheim Hbf	ICE 775	Karlsruhe Hbf	1	Nein	ICE	2025-11-01 01:00:00
Flughafen BER	S 9	Flughafen BER	1	Nein	S	2025-11-01 01:00:00
Halle (Saale) Hbf	S 8	Halle (Saale) Hbf	15	Nein	S	2025-11-01 01:00:00
München Hbf	RB 40	München Hbf	0	Nein	RB	2025-11-01 01:00:00
Köln Hbf	IC 1952	Köln Hbf	40	Nein	IC	2025-11-01 01:00:00
Freiburg (Breisgau) Hbf	S 1	Freiburg (Breisgau) Hbf	0	Nein	S	2025-11-01 01:00:00

Wie viele Beobachtungen enthält der Datensatz?

Der verwendete Datensatz basiert auf den von der Deutschen Bahn als Open Data bereitgestellten Echtzeitinformationen zu Zugverbindungen und Verspätungen. Eingelesen wurde die Datei für den Monat November 2025, die insgesamt 13 943 561 Beobachtungen enthält. Jede Beobachtung stellt ein einzelnes Zugereignis dar, das sich auf einen konkreten Zug an einem bestimmten Bahnhof zu einem bestimmten Zeitpunkt bezieht.

Welche Variablen sind im Datensatz vorhanden?

Der Datensatz enthält 16 Variablen, in denen sowohl strukturelle als auch zeitliche Informationen zum Bahnverkehr abgebildet sind. Erfasst werden unter anderem der Klarname des Bahnhofs sowie ein technischer Stationsname, eine eindeutige Zugnummer und der Name des Zuges, ergänzt durch Angaben zum Zielbahnhof der jeweiligen Verbindung und zum Zeitpunkt der Datenerfassung. Darüber hinaus enthält der Datensatz Informationen darüber, ob ein Zug ausgefallen ist und welchem Zugtyp er zuzuordnen ist, sowie zentrale Variablen zur Analyse der Pünktlichkeit, insbesondere die Verspätung in Minuten und die geplanten Ankunfts und Abfahrtszeiten. Zusätzlich werden Abweichungen von diesen geplanten Zeiten dokumentiert, während eindeutige Identifikationsnummern für Zugfahrten und Linien eine präzise Zuordnung einzelner Ereignisse ermöglichen.

Was stellt eine einzelne Beobachtung dar?

Eine einzelne Beobachtung stellt ein konkretes Zugereignis dar, das sich auf einen bestimmten Zug an einem bestimmten Bahnhof zu einem festgelegten Zeitpunkt der Datenerfassung bezieht. Sie beschreibt, ob der Zug planmäßig verkehrt oder ausgefallen ist und in welchem Umfang eine Verspätung vorliegt. Durch die Kombination aus Zeitinformationen, Verspätungsangaben und Identifikationsmerkmalen lässt sich der Zustand des Bahnverkehrs detailliert analysieren. Der Datensatz bildet damit eine belastbare empirische Grundlage, um Zeitverluste von Bahnreisenden zu quantifizieren und diese im weiteren Verlauf mit alternativen Verkehrsmitteln wie dem Auto zu vergleichen.

Wohin pendeln die Menschen? Die Bahndaten zeigen ihnen die Pünktlichkeit der Züge – aber um zu verstehen, wo gute Bahnverbindungen besonders wichtig sind, müssen Sie wissen, wohin die Menschen pendeln. Die Pendlerstatistik der Bundesagentur für Arbeit zeigt genau das: Welche Städte sind die größten Arbeitgeber-Magneten?

Laden Sie den Datensatz pendler_kreise_aufbereitet.csv aus dem Ordner daten in R ein als Datensatz pendler.

Erstellen Sie eine Tabelle der Top 10 Städte nach Einpendlern mit den Spalten: Stadt (kreis_name), Einpendler, Auspendler, Pendlersaldo.

Interpretieren Sie kurz: Welche Städte sind die größten “Pendlermagneten” Deutschlands und warum?

Top 10 Städte nach Einpendlern
Stadt	Einpendler	Auspendler	Pendlersaldo
München	455.645	202.756	252.889
Frankfurt am Main	405.856	111.245	294.611
Hamburg	392.951	147.328	245.623
Berlin	392.324	219.898	172.426
Köln	306.905	138.422	168.483
Düsseldorf	284.696	97.326	187.370
Stuttgart	274.442	100.095	174.347
Nürnberg	165.496	78.557	86.939
Essen	141.296	90.906	50.390
Hannover	137.924	69.974	67.950

Interpretation:

Die größten Pendlermagneten Deutschlands sind vor allem München, Frankfurt am Main, Hamburg und Berlin. Diese Städte weisen besonders hohe Einpendlerzahlen sowie deutlich positive Pendlersalden auf. Sie ziehen somit wesentlich mehr Arbeitskräfte an, als sie an andere Regionen abgeben, und fungieren als zentrale Arbeitsmarktstandorte.

München stellt den stärksten Pendlermagneten dar. Mit der höchsten Einpendlerzahl in der Tabelle und einem sehr hohen positiven Pendlersaldo ist die Stadt das wichtigste Ziel für Berufspendler in Deutschland. Ursache hierfür ist die hohe Konzentration hochwertiger Arbeitsplätze in Industrie, Technologie, Dienstleistungen und Forschung sowie die Rolle Münchens als wirtschaftliches Zentrum Süddeutschlands.

Frankfurt am Main folgt als weiterer bedeutender Pendlermagnet. Die Stadt profitiert insbesondere von ihrer Funktion als internationales Finanzzentrum, Sitz zahlreicher Banken, Unternehmen und Dienstleister sowie von ihrer Rolle als zentraler Verkehrs- und Flughafenstandort. Der hohe Pendlersaldo unterstreicht die starke Anziehungskraft des Frankfurter Arbeitsmarktes.

Auch Hamburg und Berlin weisen sehr hohe Einpendlerzahlen auf. Hamburg zieht Pendler vor allem durch seinen Hafen, die Logistikbranche, Medienunternehmen und den Handel an. Berlin profitiert als Hauptstadt von einem breiten Mix aus öffentlicher Verwaltung, Wissenschaft, Kultur sowie einem dynamisch wachsenden Dienstleistungs- und Start-up-Sektor.

Städte wie Köln, Düsseldorf und Stuttgart fungieren als wichtige regionale Arbeitsmarktzentren. Sie profitieren von ihrer Lage in wirtschaftsstarken Regionen wie dem Rhein-Ruhr-Gebiet bzw. Südwestdeutschland und ziehen zahlreiche Pendler aus dem Umland an, erreichen jedoch nicht die Anziehungskraft der größten Metropolen.

Insgesamt zeigt die Analyse, dass Städte mit hoher Arbeitsplatzdichte, wirtschaftlicher Zentralität und spezialisierten Branchen besonders starke Pendlermagneten darstellen. Sie bündeln Beschäftigungsmöglichkeiten auf engem Raum und erzeugen dadurch intensive tägliche Pendlerströme aus dem umliegenden Raum.

Was kostet das Auto? Sie haben jetzt Bahndaten und wissen, wohin die Menschen pendeln. Aber um fair vergleichen zu können, brauchen Sie auch die Alternative: Wie viel Zeit verlieren Autofahrer im Stau? Diese Daten liefert INRIX – ein Unternehmen, das weltweit Verkehrsdaten sammelt. Später werden Sie diese Staukosten mit den Bahnverspätungen vergleichen.

Besuchen Sie die INRIX Global Traffic Scorecard und suchen Sie die Stauzeiten für die Top 10 Städte aus Aufgabe 2 und zusätzlich die Stauzeiten für Ulm. INRIX misst, wie viele Stunden Autofahrer jährlich im Stau verlieren.

Erstellen Sie eine eigene CSV-Datei inrix_staedte_2024.csv mit folgenden Spalten für die geforderten Städte:
- stadt: Name der Stadt
- stau_stunden_jahr: Jährliche Staustunden pro Fahrer
- kosten_eur: Jährliche Kosten pro Fahrer (findet sich in der tiefergehenden Übersicht)
Berechnen Sie für jede Stadt, wie viele Arbeitstage pro Jahr im Stau verloren gehen. Annahme: Ein Arbeitstag = 8 Stunden.

Erstellen Sie anschließend eine schöne Tabelle mit: Stadt, Staustunden/Jahr, verlorene Arbeitstage und beschreiben diese. In welcher Stadt ist die Stausituation am schlimmsten? Wie viele Arbeitstage verliert ein typischer Pendler dort pro Jahr?

Hinweis: Auf der INRIX-Website können Sie nach bei “Jump to City Rankings” -> “Search the List” -> “Germany” oder der konkreten Stadt filtern.

INRIX 2025: Jährliche Staustunden, verlorene Arbeitstage und Kosten pro Autofahrer, für die zehn ausgewählten Städte plus Ulm
Stadt	Staustunden pro Jahr	Verlorene Arbeitstage pro Jahr	Kosten pro Jahr (€)
Köln	67	8,4	919
Düsseldorf	63	7,9	864
Berlin	60	7,5	823
Stuttgart	60	7,5	823
München	57	7,1	781
Frankfurt am Main	55	6,9	754
Hannover	54	6,8	740
Hamburg	46	5,8	631
Essen (Daten: Wuppertal)	46	5,8	631
Nürnberg	38	4,8	521
Ulm	30	3,8	411

Beschreibung:

Die Tabelle zeigt für ausgewählte deutsche Städte die jährlichen Staustunden pro Autofahrer sowie die daraus abgeleiteten verlorenen Arbeitstage. Grundlage der Daten ist die INRIX Traffic Scorecard 2025, die jährlich erfasst, wie viel Zeit Autofahrer im Stau verlieren. Die verlorenen Arbeitstage wurden berechnet, indem die Staustunden durch einen angenommenen Arbeitstag von acht Stunden geteilt wurden. Die Tabelle umfasst die Top-10-Städte aus Aufgabe 2 sowie zusätzlich Ulm. Da für Essen keine INRIX-Daten verfügbar waren, wurden die fehlenden Angaben durch Werte aus Wuppertal ersetzt. Diese Substitution erfolgt als Proxy und beruht auf der Annahme einer ähnlichen Verkehrssituation aufgrund der räumlichen Nähe beider Städte. Insgesamt verdeutlichen die Daten deutliche Unterschiede in der Verkehrsbelastung zwischen den Städten.

In welcher Stadt ist die Stausituation am schlimmsten?

Die stärkste Staubelastung weist Köln auf. Mit 67 Staustunden pro Jahr liegt die Stadt an der Spitze der betrachteten Städte und ist damit am stärksten vom Stau betroffen. Köln übertrifft damit unter anderem Düsseldorf, Berlin und Stuttgart und nimmt innerhalb der Tabelle eine klare Spitzenposition ein.

Wie viele Arbeitstage verliert ein typischer Pendler dort pro Jahr?

Ein typischer Autofahrer in Köln verliert durch Verkehrsstaus rund 8,4 Arbeitstage pro Jahr. Damit geht dort mehr als eine volle Arbeitswoche jährlich allein durch Staus im Straßenverkehr verloren. Dies verdeutlicht, dass Verkehrsstaus nicht nur eine individuelle Belastung für Pendler darstellen, sondern auch erhebliche Auswirkungen auf Produktivität und Zeitnutzung haben, insbesondere in stark frequentierten Großstädten.

Für die weiteren Analysen stellen wir Ihnen fünf zusätzliche Datensätze bereit. Diese laden Sie jetzt, damit sie in allen folgenden Aufgaben direkt verfügbar sind.

Laden Sie die folgenden Datensätze aus dem Ordner daten und speichern Sie diese unter den angegebenen Variablennamen:

Datei	Variablenname	Verwendet in
`bahnhof_ags_mapping.csv`	`bahnhof_mapping`	Aufgabe 9-10
`fahrtzeit_osrm_vergleich.csv`	`fahrtzeit`	Aufgabe 12
`ulm_pendlerrouten.csv`	`ulm_routen`	Aufgabe 13
`ba_entgeltstatistik_2024.csv`	`entgelt`	für `staedte_basis`
`co2_analyse.csv`	`co2_analyse`	Aufgabe 19 (Bonus)

Verschaffen Sie sich einen ersten Überblick über die Struktur der Daten (z.B. mit glimpse(), dies sollte später in ihrem HTML Dokument nicht sichtbar sein!).

Erstellen Sie außerdem einen Master-Datensatz staedte_basis für die Top-11-Städte (Top 10 Pendlerstädte + Ulm), der die Daten aus pendler, entgelt und inrix kombiniert. Dieser Datensatz vereinfacht die späteren Analysen (ab Aufgabe 14), da alle relevanten Kennzahlen bereits zusammengeführt sind.

Der Master-Datensatz sollte folgende Spalten enthalten:

ags: Amtlicher Gemeindeschlüssel
stadt: Stadtname (Kurzform, z.B. “München”)
einpendler: Anzahl Einpendler
median_monat_eur: Medianlohn pro Monat
median_stunde_eur: Medianlohn pro Stunde (Monatslohn / 160)
stau_stunden_jahr: Stauzeit pro Jahr (aus INRIX)

Hinweis 1: Die Datensätze verwenden unterschiedliche Namensformate: pendler hat offizielle Namen (“München, Landeshauptstadt”), während entgelt und inrix Kurznamen (“München”) verwenden. Nutzen Sie den AGS als zuverlässigen Schlüssel für die Verknüpfung mit pendler. Tipp: entgelt enthält sowohl AGS als auch Kurznamen und eignet sich daher gut als Ausgangspunkt.

Hinweis 2: Eine ausführliche Beschreibung der Datensätze finden Sie im Anhang A.

Master-Datensatz: Top-11 Städte (Top 10 Pendlerstädte + Ulm)
AGS	Stadt	Einpendler	Medianlohn pro Monat (€)	Medianlohn pro Stunde (€)	Staustunden pro Jahr (h)
09162	München	455.645	4.847	30,29	57
06412	Frankfurt	405.856	4.712	29,45	55
02000	Hamburg	392.951	4.527	28,29	46
11000	Berlin	392.324	4.156	25,98	60
05315	Köln	306.905	4.398	27,49	67
05111	Düsseldorf	284.696	4.523	28,27	63
08111	Stuttgart	274.442	4.689	29,31	60
09564	Nürnberg	165.496	4.234	26,46	38
05113	Essen	141.296	3.987	24,92	46
03241	Hannover	137.924	4.156	25,98	54
08421	Ulm	68.341	4.312	26,95	30

Die Pünktlichkeit der Deutschen Bahn

Nachdem Sie nun einen Überblick über die Daten haben, welche wir in diesem Projekt verwenden möchten, tauchen Sie tiefer in die Bahndaten ein. Die zentrale Frage ist: Wie zuverlässig ist die Deutsche Bahn wirklich?

Die Bahn unterscheidet verschiedene Zugtypen, vom ICE über den RE bis zur S-Bahn. Jeder Zugtyp hat unterschiedliche Eigenschaften: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Aber welcher Zugtyp ist am pünktlichsten?

Welche Züge sind (un)pünktlich? Nicht alle Züge sind gleich: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Um später sinnvolle Empfehlungen geben zu können, müssen Sie verstehen, welche Zugtypen besonders problematisch sind. Dafür klassifizieren Sie die Züge anhand ihrer Namen. Nutzen Sie für diese Analyse den Datensatz bahn.

Die Variable train_name enthält den Zugnamen (z.B. “ICE 123”, “S 5”, “RE 8”).

Erstellen Sie eine neue Variable zugtyp mit folgenden Kategorien:

Zugtyp	Regel	Beispiel
ICE	beginnt mit “ICE”	ICE 123
IC/EC	beginnt mit “IC” oder “EC”	IC 2012, EC 6
IRE/RE	beginnt mit “RE” oder “IRE”	RE 5, IRE 200
RB	beginnt mit “RB”	RB 26
S-Bahn	beginnt mit “S” (mit Leerzeichen!)	S 5
Sonstige	alle anderen	U 6, STB 123

Erstellen Sie auf dieser Basis eine Tabelle, welche pro Zugtyp folgende Kennzahlen anschaulich darstellt:

Anzahl der Fahrten
Durchschnittliche Verspätung (in Minuten)
Anteil pünktlicher Züge (≤6 Min Verspätung)
Ausfallquote

Beschreiben und Interpretieren Sie die Tabelle.

Weiterhin sollten Sie ihre Ergebnisse verifizieren. Dafür können Sie auf die offizielle Pünktlichkeitswerte der Deutschen Bahn zurückgreifen (recherchieren Sie diese selbstständig).

Stimmen Ihre Ergebnisse mit den offiziellen Werten überein? Falls nicht: Welche methodischen Unterschiede könnten die Abweichung erklären?

Hinweis: Nutzen Sie str_detect() aus dem stringr-Paket. Achten Sie auf die Reihenfolge der Bedingungen!

Pünktlichkeit und Ausfälle je Zugtyp
Zugtyp	Anzahl der Fahrten	Ø Verspätung (Min)	Anteil pünktlich (≤ 6 Min)	Ausfallquote
S-Bahn	6.414.045	2,9	87,4%	5,5%
Sonstige	2.938.815	3,5	84,7%	2,6%
RB	2.675.028	3,5	85,2%	3,2%
IRE/RE	1.673.555	6,1	74,1%	3,6%
ICE	171.516	12,5	56,7%	4,2%
IC/EC	70.602	11,0	60,2%	7,2%

Beschreibung:

Die vorliegende Tabelle stellt die Anzahl der Fahrten, die durchschnittliche Verspätung in Minuten, den Anteil pünktlicher Züge sowie die jeweilige Ausfallquote der verschiedenen Zugtypen vergleichend dar. Die Ergebnisse zeigen, dass die Pünktlichkeitswerte und durchschnittlichen Verspätungen je nach Zugtyp deutlich variieren. Die höchsten Verspätungen sind demnach bei den Fernverkehrszügen, wie ICE und IC/EC, mit vergleichsweise niedrigen Pünktlichkeitsanteilen zu beobachten. Regionalzüge, insbesondere die S-Bahn, weisen hingegen höhere Pünktlichkeitsquoten sowie deutlich geringere durchschnittliche Verspätungen auf.

Interpretation:

Die vergleichsweise hohe Unpünktlichkeit des Fernverkehrs lässt sich durch die längeren Fahrstrecken sowie die stärkere Abhängigkeit von stark ausgelasteten Knotenbahnhöfen erklären, wodurch Störungen über den gesamten Streckenverlauf schneller entstehen können. Die kürzeren Entfernungen und dichter getakteten Strecken im Regionalverkehr ermöglichen dagegen insgesamt zuverlässigere Pünktlichkeitswerte, da schneller auf Störungen reagiert und der Betrieb stabilisiert werden kann. Die beobachteten Unterschiede verdeutlichen somit die strukturellen Probleme des deutschen Bahnnetzes, insbesondere im Fernverkehr, und spiegeln zugleich die spezifischen Eigenschaften der jeweiligen Zugtypen wider.

Übereinstimmung mit offiziellen Werten:

Die Ergebnisse stimmen in ihrer Tendenz mit den offiziellen Werten der Deutschen Bahn überein. Dennoch treten leichte Abweichungen in den exakten Prozentwerten auf. Diese lassen sich vor allem durch methodische Unterschiede erklären. Zum einen basiert die eigene Analyse lediglich auf einer Stichprobe, während die Deutsche Bahn auf vollständige und bereinigte Betriebsdaten zurückgreift. Zum anderen können unterschiedliche zeitliche Abgrenzungen sowie spezifische Bereinigungsregeln zu Abweichungen führen. Denn wir rechnen deutlich detaillierter, durch die getrennte Betrachtung der verschiedenen Zugtypen. Darüber hinaus werden in der offiziellen Statistik Pünktlichkeitswerte pro Halt gemessen, während im vorliegenden Datensatz mehrere Messpunkte pro Zug enthalten sein können. Daher sind kleinere Differenzen zwischen den Ergebnissen methodisch nachvollziehbar.

In Aufgabe 5 haben Sie gesehen, dass Fernverkehrszüge (ICE, IC/EC) deutlich höhere Verspätungen und Ausfallquoten haben als Nahverkehrszüge (IRE, RE, RB, S-Bahn). Aber wie relevant ist das für den typischen Pendler? Das hängt davon ab, wie viele Züge jeweils unterwegs sind. Nutzen Sie für diese Analyse den Datensatz bahn (mit der in Aufgabe 5 erstellten Variable zugtyp).

Klassifizieren Sie die Züge in zwei Kategorien:

Fernverkehr: ICE, IC/EC
Nahverkehr: IRE, RE, RB, S-Bahn

Erstellen Sie ein Liniendiagramm, das die durchschnittliche Anzahl der Fahrten pro Stunde im Tagesverlauf zeigt:

X-Achse: Uhrzeit (0-23 Uhr)
Y-Achse: Durchschnittliche Anzahl Fahrten pro Stunde
Zwei Linien: eine für Fernverkehr, eine für Nahverkehr (unterschiedliche Farben)

Tipp: Extrahieren Sie die Stunde aus der Variable time mit hour() aus dem lubridate-Paket. Berechnen Sie dann die durchschnittliche Anzahl Fahrten pro Stunde und Zugtyp.

Beschreiben und interpretieren Sie ihre Grafik. Beantworten Sie zusätzlich die folgenden Fragen:

Zu welchen Uhrzeiten fahren die meisten Züge?
Wie unterscheidet sich das Muster zwischen Fern- und Nahverkehr?
Warum ist diese Information wichtig, wenn wir später die Verspätungen analysieren?

Beschreibung:

Das Liniendiagramm zeigt den durchschnittlichen Tagesverlauf der Anzahl von Zugfahrten pro Stunde, wobei Fern- und Nahverkehr farblich unterschiedlich dargestellt sind. Auf der Y-Achse ist die durchschnittliche Anzahl der Fahrten und auf der X-Achse die Uhrzeit von 0 bis 23 Uhr chronologisch abgebildet. Für beide Verkehrsarten ist ein Tagesrhythmus erkennbar, der beim Nahverkehr jedoch noch ausgeprägter ist, da nachts deutlich weniger Züge unterwegs sind und sich der Verkehr in den Morgen- und Abendstunden stark erhöht.

Interpretation:

Interpretationsmäßig zeigt die Grafik den typischen Tagesrhythmus des Bahnverkehrs und verdeutlicht, zu welchen Uhrzeiten das Bahnnetz besonders stark belastet ist. Durch die ausgeprägten Spitzen in den Morgen- und Abendstunden lässt sich zudem der intensive Pendlerverkehr gut nachvollziehen. Durch die erhöhte Anzahl an Zügen in den Stoßzeiten, kommt es zu mehr Konflikten im Betrieb, was eine höhere Verspätungsanfälligkeit mit sich bringt.

Zu welchen Uhrzeiten fahren die meisten Züge?

Die höchste Zugdichte ist entsprechend morgens (zwischen 6 und 9 Uhr) sowie nachmittags und abends (zwischen 16 und 19 Uhr) zu verzeichnen. In diesen Zeiträumen erreichen sowohl der Nah- als auch der Fernverkehr ihre höchsten Fahrtenzahlen.

Wie unterscheidet sich das Muster zwischen Fern- und Nahverkehr?

Zwischen den beiden Verkehrsarten bestehen deutliche Unterschiede. Während der Fernverkehr relativ gleichmäßig über den gesamten Tag verteilt ist und nur schwächere Ausschläge aufweist, zeigt der Nahverkehr ein stark ausgeprägtes Pendlerprofil mit deutlichen Spitzen zu den Hauptverkehrszeiten und deutlich geringeren Zugzahlen außerhalb dieser Zeitfenster. Dies verdeutlicht die unterschiedliche Nutzung der beiden Verkehrssysteme: Der Nahverkehr wird vor allem von Schülern und Berufspendlern genutzt, während sich der Fernverkehr gleichmäßiger über den Tag verteilt.

Warum ist diese Information wichtig für die Analyse von Verspätungen?

Diese Information ist für die spätere Analyse der Verspätungen besonders wichtig, da die Zugdichte eine entscheidende Rolle bei der Entstehung und Ausbreitung von Verspätungen spielt. Eine hohe Zugdichte führt zu komplexeren betrieblichen Abläufen und erhöht die Anfälligkeit für Störungen. Insbesondere in den Stoßzeiten ist das Schienennetz stark ausgelastet, wodurch sich Verspätungen leichter auf andere Züge übertragen und größere Auswirkungen auf den gesamten Betrieb haben können. Dies beeinflusst letztlich auch die Bewertung der Zuverlässigkeit des Bahnverkehrs.

Nachdem Sie in Aufgabe 6 herausgefunden haben, dass es deutlich mehr Nahverkehrszüge als Fernverkehrszüge gibt, und diese für Pendler wichtiger sind, sollten Sie sich die Verspätungen der Nahverkehrszüge über den Tag anschauen, da diese vermutlich nicht gleichmäßig über den Tag verteilt sind. Pendler erleben die Bahn vor allem in der Hauptverkehrszeit, d.h. morgens zwischen 7 und 9 Uhr und abends zwischen 16 und 19 Uhr. Aber ist die Bahn zu diesen Zeiten besonders unpünktlich?

Erstellen Sie zwei Heatmaps, die zeigen, wie sich die Verspätungen nach Tageszeit (Stunde) und Wochentag für die Nahverkehrszüge und die Fernverkehrszüge verteilen. Nutzen Sie für diese Analyse den Datensatz bahn.

Extrahieren Sie aus der Variable time die Stunde und den Wochentag.
Filtern Sie auf die relevanten Tageszeiten (5-23 Uhr), da nachts kaum Zugverkehr stattfindet.
Aggregieren Sie die durchschnittliche Verspätung pro Stunde und Wochentag für Nah- und Fernverkehrszüge separat.
Erstellen Sie eine Heatmap mit ggplot2 und geom_tile().

Tipp zur Farbskala: Da Fernverkehrszüge im Durchschnitt höhere Verspätungen haben als Nahverkehrszüge, können Sie unterschiedliche Farbskalen für die beiden Heatmaps verwenden (z.B. Blau-Töne für Nahverkehr, Rot-Töne für Fernverkehr). Dadurch werden die Muster innerhalb jeder Verkehrsart besser sichtbar.

Beschreiben und interpretieren Sie ihre Grafiken.

Wann sind die Verspätungen am höchsten?
Gibt es Unterschiede zwischen Werktagen und Wochenende?
Gibt es Unterschiede zwischen Nah- und Fernverkehrszügen?
Was bedeutet das für Pendler?

Beschreibung:

Es werden zwei Heatmaps dargestellt, die farblich die durchschnittlichen Verspätungen der Züge in Abhängigkeit von Tageszeit und Wochentag zeigen. Dabei wird getrennt nach Nahverkehr und Fernverkehr unterschieden. Die Stunde und der Wochentag wurden aus der Variable time extrahiert. Es wurden nur die relevanten Tageszeiten von 5 bis 23 Uhr berücksichtigt, da nachts kaum Zugverkehr stattfindet. Die Farbflächen repräsentieren die mittlere Verspätung in einer bestimmten Stunde an einem bestimmten Wochentag, wobei eine dunklere Farbnuance eine höhere Verspätung kennzeichnet. Die Heatmaps wurden mit ggplot2 und geom_tile() erstellt. Da der Fernverkehr im Durchschnitt höhere Verspätungen hat als der Nahverkehr, wurden unterschiedliche Farbskalen verwendet, damit die Muster innerhalb jeder Verkehrsart besser sichtbar sind.

Interpretation:

Wie bereits in den vorherigen Aufgaben verdeutlichen auch diese Heatmaps, dass die Verspätungen nicht gleichmäßig über den Tag und die Woche verteilt sind, sondern sich besonders in den Stoßzeiten konzentrieren. Sowohl im Nahverkehr als auch im Fernverkehr treten in den Hauptverkehrszeiten sowie an Werktagen erhöhte Verspätungen auf, während spätere Randzeiten und das Wochenende tendenziell geringere Werte aufweisen. Zusätzlich lässt sich vor allem im Fernverkehr häufig erkennen, dass die Verspätungen im Tagesverlauf ansteigen, was darauf hindeutet, dass sich Störungen über den Tag hinweg aufbauen und weitertragen können.

Wann sind die Verspätungen am höchsten?

Die höchsten durchschnittlichen Verspätungen treten während der Hauptverkehrszeiten auf, also morgens zwischen 7 und 9 Uhr sowie nachmittags und abends zwischen 16 und 19 Uhr.

Gibt es Unterschiede zwischen Werktagen und Wochenende?

Ja, an Werktagen sind die Verspätungen insgesamt höher und zeigen deutlichere Spitzen, insbesondere zu den Pendelzeiten. Am Wochenende sind die Muster gleichmäßiger und die Verspätungen im Durchschnitt geringer, was mit dem niedrigeren Verkehrsaufkommen zusammenhängt, da Schul und Pendlerverkehr weitgehend wegfallen.

Gibt es Unterschiede zwischen Nah und Fernverkehrszügen?

Der Fernverkehr weist insgesamt deutlich höhere durchschnittliche Verspätungen auf als der Nahverkehr und zeigt zudem stärkere zeitliche Schwankungen. Der Nahverkehr ist zwar ebenfalls in den Stoßzeiten stärker betroffen, bleibt insgesamt jedoch auf einem deutlich niedrigeren Verspätungsniveau.

Was bedeutet das für Pendler?

Für Pendler sind die hohen Verspätungen besonders relevant, da sie genau in den Zeiten auftreten, in denen sie das Bahnnetz hauptsächlich nutzen. Dadurch wirken sich die zeitlichen Verzögerungen auf besonders viele Fahrgäste aus, die auf die Bahn angewiesen sind, und verstärken den Eindruck der Unzuverlässigkeit. Gleichzeitig wird Pendeln schwerer planbar, weil Verspätungen in Stoßzeiten häufiger Anschlussprobleme verursachen können, was den Umstieg auf alternative Verkehrsmittel wahrscheinlicher macht.

Von der Zeit zum Ort: Wo entstehen die Verspätungen?

In Aufgabe 7 haben Sie analysiert, wann die Verspätungen auftreten, nämlich vor allem zu den Hauptverkehrszeiten. Aber die nächste wichtige Frage ist: Wo entstehen diese Verspätungen?

Aggregierte Statistiken wie Durchschnittswerte über ganz Deutschland verbergen oft große regionale Unterschiede. Vielleicht gibt es einzelne “Problembahnhöfe”, die den Durchschnitt nach oben ziehen? Oder sind die Verspätungen gleichmäßig über das Netz verteilt? Diese Frage ist wichtig, weil sie unterschiedliche Lösungsansätze impliziert: Bei wenigen Problembahnhöfen könnte die Bahn gezielt investieren, bei flächendeckenden Problemen bräuchten Sie systemische Lösungen.

Identifizieren Sie die 10 unpünktlichsten Bahnhöfe in Deutschland (mit mindestens 1.000 Halten im Monat). Nutzen Sie für diese Analyse den Datensatz bahn.

Erstellen Sie ein Balkendiagramm, das die durchschnittliche Verspätung dieser Bahnhöfe zeigt. Beschriften Sie die Balken mit den Verspätungswerten.

Beschreiben und interpretieren Sie ihre Grafik.

Sehen Sie ein geografisches Muster?
Handelt es sich um große Knotenbahnhöfe oder eher um kleinere Stationen?

Beschreibung:

Das vorliegende Balkendiagramm zeigt die zehn Bahnhöfe mit der höchsten durchschnittlichen Verspätung im betrachteten Monat, wobei nur Stationen mit mindestens 1.000 Halten berücksichtigt wurden. Auf der X Achse stehen die Bahnhofsnamen, auf der Y Achse die durchschnittliche Verspätung in Minuten. Dadurch lassen sich die Verspätungsniveaus direkt vergleichen. Der unpünktlichste Bahnhof ist Ennepetal (Gevelsberg) mit rund 14,7 Minuten durchschnittlicher Verspätung, während Zeesen den zehnten Platz einnimmt.

Interpretation:

Das Diagramm zeigt, dass sehr hohe durchschnittliche Verspätungen nicht zwingend an den größten Hauptbahnhöfen entstehen, sondern auch an kleineren Stationen auftreten können. Gerade kleinere Stationen können hohe Durchschnittswerte bekommen, wenn sie auf stark belasteten Strecken liegen und Verspätungen aus dem restlichen Netz “durchgereicht” werden. Gleichzeitig ist wichtig, dass hier Durchschnittswerte betrachtet werden, die in einem Monat auch durch einzelne Störungslagen oder Baustellenphasen sichtbar beeinflusst sein können.

Sehen Sie ein geografisches Muster?

Ein klares bundesweites Muster im Sinne einer einzelnen Region lässt sich nur eingeschränkt ableiten, aber es fällt auf, dass mehrere der unpünktlichsten Bahnhöfe in dicht befahrenen Räumen und entlang wichtiger Korridore liegen. Das spricht dafür, dass starke Netzauslastung und Störanfälligkeit auf Hauptstrecken eine Rolle spielen. Für eine belastbare Aussage bräuchte man zusätzlich die Lage der Bahnhöfe im Netz, also auf welchen Linien und Korridoren sie liegen und ob es dort Baustellen oder Kapazitätsengpässe gab.

Handelt es sich um große Knotenbahnhöfe oder eher um kleinere Stationen?

Es handelt sich überwiegend um kleinere Stationen, obwohl sie trotzdem viele Halte pro Monat haben können, zum Beispiel durch häufige Regional oder S Bahn Verbindungen. Solche Stationen haben oft weniger Ausweichmöglichkeiten im Betrieb, etwa weniger Gleise oder geringere Flexibilität beim Überholen und Umleiten. Wenn es auf einer stark genutzten Strecke zu Störungen kommt, können sich Verspätungen dort besonders hartnäckig halten und im weiteren Verlauf auf nachfolgende Züge übertragen.

Wo treffen viele Pendler auf eine unpünktliche Bahn?

Bisher haben Sie Pendler- und Bahndaten getrennt betrachtet. Aber die spannende Frage ist: Wo kommen beide Probleme zusammen? Eine Stadt mit vielen Pendlern und einer unpünktlichen Bahn hat ein größeres Problem als eine Stadt mit wenigen Pendlern und einer unpünktlichen Bahn.

Um diese Frage zu beantworten, müssen Sie die Datensätze verknüpfen. Das Problem: Die Bahndaten sind auf Bahnhofsebene, die Pendlerdaten auf Kreisebene. Sie benötigen ein Mapping, das Bahnhöfe den entsprechenden Kreisen zuordnet.

In dieser Aufgabe verknüpfen Sie die Bahn- und Pendlerdaten, um Städte mit Handlungsbedarf zu identifizieren. Nutzen Sie für ihre Analysen die Datensätze: bahn, pendler und bahnhof_mapping.

Das Mapping ordnet Bahnhöfe ihrem Landkreis zu (via AGS = Amtlicher Gemeindeschlüssel). Ihr Ziel: Identifizieren Sie Städte, in denen viele Pendler auf eine unpünktliche Bahn treffen.

Berechnen Sie für jeden Bahnhof die durchschnittliche Verspätung und die Anzahl der Halte.
Aggregation auf Kreisebene: Berechnen Sie für jeden Kreis die gewichtete durchschnittliche Verspätung. Gewichten Sie nach der Anzahl der Halte (ein Bahnhof mit 10.000 Halten zählt mehr als einer mit 100).
Verknüpfen Sie das Ergebnis mit den Pendlerdaten mittels left_join() über die Variable ags.
Problem-Score berechnen: Kombinieren Sie beide Dimensionen mit z-Standardisierung:

\[\text{Problem-Score} = z(\text{Einpendler}) + z(\text{Verspätung})\]

Die z-Standardisierung macht die Werte vergleichbar: \(z(x) = \frac{x - \bar{x}}{s_x}\), wobei \(\bar{x}\) der Mittelwert und \(s_x\) die Standardabweichung ist.

Interpretation: Ein hoher Problem-Score = Viele Pendler + hohe Verspätung = Handlungsbedarf.

Anschließend sollten Sie eine Tabelle der Top 10 Städte nach Problem-Score darstellen und diese kurz beschreiben.

Die 10 Städte mit den höchsten Problem Scores
Stadt	Einpendler	Problemscore	Durchschnittliche Verspätung (in Min)
München, Landeshauptstadt	455.645	3,45	5,98
Köln, Stadt	306.905	3,05	7,89
Düsseldorf, Stadt	284.696	2,55	7,33
Frankfurt am Main, Stadt	405.856	2,54	5,14
Berlin, Stadt	392.324	2,18	4,70
Hamburg, Freie und Hansestadt	392.951	2,05	4,44
Duisburg, Stadt	86.735	1,46	8,81
Hamm, Stadt	22.447	1,45	9,93
Stuttgart, Landeshauptstadt	274.442	1,38	5,30
Bonn, Stadt	112.607	1,28	8,00

Beschreibung:

Die Tabelle zeigt die zehn Städte in Deutschland mit dem höchsten Problem-Score. Dieser Problem-Score ist eine gewichtete Kennzahl, die sowohl die Anzahl der Einpendler als auch die durchschnittliche Verspätung der Bahn berücksichtigt. Dabei wirken sich sowohl hohe Verspätungen als auch hohe Einpendlerzahlen überproportional auf den Score aus. Entsprechend ist es nicht überraschend, dass sich in der Tabelle fast ausschließlich Großstädte wiederfinden, da dort besonders viele Pendler auf den Bahnverkehr angewiesen sind. Auffällig ist jedoch die Stadt Hamm: Obwohl dort mit etwa 22.500 Einpendlern deutlich weniger Pendler als in den übrigen Top-10-Städten verzeichnet werden, weist Hamm mit fast 10 Minuten die höchste durchschnittliche Verspätung in dieser Liste auf. Im Gegensatz dazu steht Hamburg: Dort ist die durchschnittliche Verspätung mit rund 4,5 Minuten vergleichsweise gering, allerdings gibt es mit fast 400.000 Einpendlern die mit Abstand höchste Zahl an Berufspendlern. Dadurch erreicht auch Hamburg einen hohen Problem-Score, da sich selbst moderate Verspätungen bei sehr vielen betroffenen Personen stark auswirken.

Erstellen Sie ein Streudiagramm (Scatterplot), das die Beziehung zwischen Einpendlerzahl (x-Achse) und durchschnittlicher Verspätung (y-Achse) visualisiert.

Zeichnen Sie horizontale und vertikale Linien beim jeweiligen Mittelwert ein, um 4 Quadranten zu bilden
Färben Sie die Punkte nach Quadrant
Beschriften Sie die Städte mit den höchsten Problem-Scores
Nutzen Sie eine logarithmische Skala für die x-Achse

Beschreiben und Interpretieren Sie die vier Quadranten:

Oben rechts: Viele Pendler + hohe Verspätung = ?
Oben links: Wenige Pendler + hohe Verspätung = ?
Unten rechts: Viele Pendler + niedrige Verspätung = ?
Unten links: Wenige Pendler + niedrige Verspätung = ?

Beantworten Sie dabei auch folgende Fragen:

Warum ist es sinnvoll die x-Achse zu logarithmieren?
Welche Städte liegen im kritischen Quadranten?
Was würden Sie der Deutschen Bahn empfehlen?

Beschreibung:

Jeder Punkt repräsentiert eine Beobachtung, also eine Stadt. Die Punkte sind in einem Koordinatensystem angeordnet. Die x-Koordinate gibt dabei an, wie viele Einpendler eine Stadt besitzt, während die y-Koordinate die durchschnittliche Verspätung der Züge repräsentiert. Die x-Achse ist hierbei logarithmisch skaliert. Der Ursprung des Koordinatensystems steht repräsentativ für eine Beobachtung, bei der die Anzahl der Einpendler dem Mittelwert aller gemessenen Werte entspricht. Gleiches gilt für die durchschnittliche Verspätung. Zusätzlich sind die einzelnen Beobachtungen entsprechend des Quadranten eingefärbt, in dem sie liegen.

Interpretation und Beschreibung der Quadranten:

Im ersten Quadranten (Rot) befinden sich Bahnhöfe, die eine sehr hohe Einpendlerzahl und eine hohe durchschnittliche Verspätung aufweisen. Im zweiten Quadranten (Blau) gibt es ebenfalls hohe Verspätungen, allerdings pendeln dort vergleichsweise weniger Personen. Der dritte Quadrant (Grün) weist sowohl eine geringe Zahl an Pendlern als auch niedrige Verspätungen auf. Der vierte Quadrant (Orange) hat im Vergleich zum dritten Quadranten höhere Pendlerzahlen. Wir sehen, dass sich lediglich fünf Beobachtungen im vierten Quadranten befinden. Ein möglicher Grund dafür könnte sein, dass die Pendlerzahl und die durchschnittliche Verspätung positiv miteinander korrelieren. Außerdem ist erkennbar, dass der Großteil der Beobachtungen eine verhältnismäßig geringe Anzahl an Pendlern besitzt, da die meisten Punkte links von der y-Achse liegen. In diesem Bereich sind die Punkte jedoch stark ober- und unterhalb der x-Achse verteilt. Eine geringe Pendlerzahl scheint also nicht automatisch pünktliche Züge zu garantieren.

Kritischer Quadrant:

Der erste Quadrant stellt hierbei einen besonders kritischen Bereich dar. An diesen Bahnhöfen müssen besonders viele Pendler besonders hohe Verspätungen in Kauf nehmen. Bei den Städten handelt es sich ausschließlich um Großstädte (Berlin, Köln, München etc.). Daher ist es nicht verwunderlich, dass einige Städte wie München, Düsseldorf und Köln, die in diesem Quadranten liegen, auch in den Top 10 der Städte mit dem höchsten Problem-Score zu finden sind.

Handlungsempfehlungen für die Bahn:

Aus der Grafik gehen zwei zentrale Probleme der Bahn hervor. Erstens scheint die Bahn in Großstädten erhebliche Zuverlässigkeitsprobleme zu haben. Es wäre sinnvoll zu prüfen, wie das hohe Zugaufkommen in diesen Regionen besser gesteuert werden kann, um Wartezeiten (z. B. durch bessere Überholmöglichkeiten) zu minimieren. Ein zweites Problem ist die Inkonsistenz in weniger stark genutzten Regionen. Dort gibt es zwar viele pünktliche, aber auch sehr viele unpünktliche Bahnhöfe. Es bietet sich an, diese Regionen auf strukturelle Unterschiede zu untersuchen. Eine mögliche Erkenntnis wäre, dass Faktoren wie Netzausbau, Elektrifizierung von Strecken oder Signaltechnik einen positiven oder negativen Einfluss auf die Pünktlichkeit der Züge haben.

Logarithmische Skalierung:

In dieser Grafik ist eine logarithmische Skalierung sinnvoll. Es zeigt sich, dass fast alle Beobachtungen auf der x-Achse unter 100.000 Einpendlern liegen und nur wenige zwischen 200.000 und 300.000. Wäre die Skalierung linear geblieben, hätten sich die Punkte stark zusammengedrängt, während im Bereich zwischen 100.000 und 300.000 nur sehr wenige Beobachtungen sichtbar gewesen wären, was das Streudiagramm deutlich unübersichtlicher gemacht hätte. Zwar geht mit der logarithmischen Skalierung das exakte Verhältnis einzelner Abstände auf der x-Achse verloren, dafür lassen sich die Punkte besser vergleichen, da sie näher beieinander liegen. Zusätzlich ermöglicht die farbliche Kennzeichnung der Quadranten eine klare visuelle Abgrenzung der Beobachtungen.

Der Vergleich – Auto vs. Bahn

Sie haben nun identifiziert, wo die Bahn Probleme hat: Städte im kritischen Quadranten (viele Pendler + hohe Verspätungen) brauchen dringend Verbesserungen. Aber bevor Sie Empfehlungen aussprechen können, müssen Sie eine zentrale Frage beantworten:

Lohnt sich die Bahn überhaupt – oder ist das Auto trotz Stau schneller?

Denn selbst wenn die Bahn unpünktlich ist, könnte sie immer noch schneller sein als das Auto im Berufsverkehr. Umgekehrt: Eine pünktliche Bahn bringt wenig, wenn das Auto trotzdem schneller ist. Erst der direkte Vergleich zeigt uns, wo die Bahn wirklich konkurrenzfähig ist – und wo nicht.

Methodische Herausforderungen

Für einen fairen Vergleich sollten Sie “Äpfel mit Äpfeln” vergleichen:

Beim Auto muss der Stau berücksichtigt werden (nicht nur die theoretische Fahrzeit)
Bei der Bahn muss die Verspätung berücksichtigt werden (nicht nur der Fahrplan)
Beide Routen müssen dieselben Start- und Endpunkte haben

Für die Auto-Fahrtzeiten nutzen Sie OSRM (Open Source Routing Machine), das auf OpenStreetMap-Daten basiert. OSRM berechnet echte Straßenrouten, keine Luftlinien.

Erklären Sie in eigenen Worten:

Warum ist OSRM-Routing für diesen Vergleich besser geeignet als eine einfache Berechnung nach der Formel Distanz / Geschwindigkeit?
Welche Faktoren müssen zusätzlich berücksichtigt werden, um einen realistischen Vergleich zu ermöglichen? Denken Sie an:
- Tageszeit
- Parkplatzsuche
- Fußweg zum Ziel
- Wartezeit und Umsteigen bei der Bahn

Warum ist OSRM-Routing für diesen Vergleich besser geeignet als eine einfache Berechnung mit Distanz / Geschwindigkeit?

OSRM ist aus einem einfachen Grund besser geeignet, da es im Gegensatz zur reinen Distanz-/Geschwindigkeitsformel, die von direkten Verbindungen und einer konstanten Durchschnittsgeschwindigkeit ausgeht, reale Straßenrouten und Verkehrsführungen berücksichtigt. Die Annahme, das gesamte Verkehrsgeschehen mit einer solchen Formel abzubilden, ist nämlich relativ realitätsfern, da weder Ampeln, Kreuzungen noch andere verkehrsbedingte Einschränkungen einbezogen werden. Daher ist OSRM für diesen Vergleich deutlich besser geeignet, da es das tatsächliche Autofahren durch die Abbildung realistischer Gegebenheiten wesentlich genauer widerspiegelt als eine einfache Durchschnittsberechnung.

Welche Faktoren müssen zusätzlich berücksichtigt werden, um einen realistischen Vergleich zu ermöglichen?

Um den Vergleich möglichst realitätsnah zu gestalten, muss die gesamte Reisezeit von Tür zu Tür betrachtet werden. Es gibt zahlreiche Einflussfaktoren, die das Verkehrsgeschehen wesentlich prägen. Beim Auto hat insbesondere die Tageszeit einen starken Einfluss, da Staus und erhöhtes Verkehrsaufkommen im Berufsverkehr zur Normalität gehören. Auch die Parkplatzsuche sowie der anschließende Fußweg zum eigentlichen Ziel zählen zur realistischen Reisezeit und müssen daher berücksichtigt werden. Doch auch bei der Bahn müssen weit mehr Aspekte einbezogen werden als nur die planmäßige Fahrzeit. Wartezeiten bis zur Abfahrt, Verspätungen sowie mögliche Anschlussverluste sind nur einige Faktoren, die die tatsächliche Reisezeit erheblich beeinflussen. Ebenso spielt, wie beim Auto, die Tageszeit eine entscheidende Rolle, da Auslastung und Störanfälligkeit insbesondere zu den Hauptverkehrszeiten deutlich höher sind. Erst wenn all diese Einflussfaktoren berücksichtigt werden, lässt sich sinnvoll beurteilen, ob die Bahn dem Auto im Alltag tatsächlich überlegen ist oder welches Verkehrsmittel insgesamt die effizientere Fortbewegungsform darstellt.

Für die Top 10 Einpendler-Städte wurden typische Pendlerstrecken definiert (z.B. Dachau \(\rightarrow\) München, Neuss \(\rightarrow\) Düsseldorf). Die OSRM-Ergebnisse liegen bereits vor. Nutzen Sie für ihre Analyse den Datensatz fahrtzeit.

Erstellen Sie:

Eine Tabelle mit: Stadt, Strecke, Distanz (km), Auto-Fahrzeit (Hauptverkehrszeit), Bahn-Fahrzeit (real), Differenz
Berechnen Sie die jährliche Zeitersparnis bei 220 Arbeitstagen und 2x täglichem Pendeln.

Interpretieren Sie ihre Tabelle:

In wie vielen Fällen ist die Bahn schneller als das Auto?
Wie viele Stunden pro Jahr kann ein Pendler maximal sparen?
Gibt es Strecken, bei denen das Auto schneller ist? Woran könnte das liegen?

Vergleich Auto- und Bahnpendeln: Fahrzeiten und jährliche Zeitersparnis (220 Arbeitstage)
Stadt	Pendlerstrecke	Distanz (km)	Auto-Fahrzeit (HVZ, min)	Bahn-Fahrzeit (real, min)	Zeitdifferenz (Auto − Bahn, min)	Jährliche Zeitersparnis (Std.)
München	Dachau → München	19.1	40.2	26.1	14.1	103.5
Frankfurt	Darmstadt → Frankfurt	36.0	35.8	23.0	12.8	93.9
Hamburg	Harburg → Hamburg	14.2	24.0	16.3	7.7	56.7
Berlin	Potsdam → Berlin	34.2	49.3	29.6	19.7	144.6
Köln	Leverkusen → Köln	18.3	28.7	22.8	5.9	43.3
Düsseldorf	Neuss → Düsseldorf	12.1	27.1	17.1	10.0	73.3
Stuttgart	Esslingen → Stuttgart	14.0	27.2	20.2	7.0	51.6
Nürnberg	Fürth → Nürnberg	10.4	18.9	12.9	6.0	44.4
Essen	Mülheim → Essen	11.0	18.0	15.3	2.7	20.1
Hannover	Celle → Hannover	42.2	54.4	40.8	13.6	99.8
Ulm	Neu-Ulm → Ulm	3.7	8.1	8.9	-0.8	-5.8

Interpretation:

Die Tabelle zeigt einen systematischen Vergleich zwischen Auto- und Bahnpendeln für typische Pendlerstrecken in großen deutschen Städten. Betrachtet werden die Fahrzeiten des Autos in der Hauptverkehrszeit sowie die realen Bahnfahrzeiten inklusive Verspätungen. Auf dieser Basis wird berechnet, wie viel Zeit Pendlerinnen und Pendler bei regelmäßiger Nutzung der Bahn im Jahresverlauf einsparen können. Insgesamt wird deutlich, dass die Wahl des Verkehrsmittels einen erheblichen Einfluss auf den täglichen Zeitaufwand hat.

Bahn schneller als Auto?

In 10 von 11 untersuchten Städten ist die Bahn schneller als das Auto. Besonders in den großen Metropolregionen wie Berlin, München oder Frankfurt zeigt sich ein klarer Zeitvorteil der Bahn. Dort wirken sich Staus im Straßenverkehr stark auf die Auto-Fahrzeiten aus, während der Schienenverkehr vergleichsweise stabil bleibt.

Maximale jährliche Zeitersparnis:

Die größte jährliche Zeitersparnis ergibt sich in Berlin. Auf der dort betrachteten Pendlerstrecke können Autofahrer durch den Umstieg auf die Bahn rund 145 Stunden pro Jahr einsparen. Auch in anderen Städten liegen die Einsparungen auf einem sehr hohen Niveau: In München, Frankfurt und Hannover lassen sich jeweils rund 90 bis 105 Stunden pro Jahr gewinnen. Das entspricht mehreren vollen Arbeitstagen und verdeutlicht das große Zeitpotenzial des Bahnpendelns.

Strecken, auf denen das Auto schneller ist, und mögliche Gründe:

Es gibt eine Strecke, auf der das Auto schneller ist als die Bahn: Ulm. Hier fällt die Distanz besonders kurz aus, sodass das Auto kaum durch Staus beeinträchtigt wird. Gleichzeitig wirken sich bei der Bahn selbst kleine Verspätungen oder Wartezeiten relativ stark auf die Gesamtfahrzeit aus. Solche Fälle treten vor allem bei kurzen innerstädtischen Strecken auf, bei denen der Bahnverkehr weniger dicht getaktet ist oder zusätzliche Umstiege erforderlich sind.

Da Sie alle in Ulm studieren und eventuell aus dem Ulmer Umland einpendeln, sollten Sie die 5 wichtigsten Pendlerrouten nach Ulm näher analysieren. Stellen Sie in einem Dumbbell-Chart (oder Lollipop-Chart) die Unterschiede zwischen Auto- und Bahnzeiten visuell dar. Nutzen Sie für ihre Analyse den Datensatz ulm_routen.

Die 5 wichtigsten Pendlerrouten nach Ulm sind:

Neu-Ulm \(\rightarrow\) Ulm
Blaustein \(\rightarrow\) Ulm
Ehingen \(\rightarrow\) Ulm
Laupheim \(\rightarrow\) Ulm
Langenau \(\rightarrow\) Ulm

Markieren Sie, welche Orte keinen Bahnhof haben.

Beschreiben und interpretieren Sie ihre Grafik. Welche Besonderheiten zeigen die ländlichen Strecken?

Hinweis: Nutzen Sie geom_segment() und geom_point() für ihr Dumbbell-Chart oder Lollipop-Chart.

Beschreibung:

Die Grafik stellt die Fahrzeiten von Auto und Bahn auf fünf zentralen Pendlerrouten aus dem Ulmer Umland während der Hauptverkehrszeit dar. Für jede Strecke werden die Auto-Fahrzeit sowie die reale Bahn-Fahrzeit inklusive Verspätungen gezeigt. Die Verbindungslinien zwischen den Punkten verdeutlichen den zeitlichen Unterschied zwischen beiden Verkehrsmitteln und ermöglichen einen direkten Vergleich ihrer Effizienz.

Interpretation:

Auf den meisten untersuchten Strecken ist die Bahn schneller als das Auto. Besonders auf längeren Relationen wie Ehingen–Ulm, Langenau–Ulm und Laupheim–Ulm zeigt sich ein klarer Zeitvorteil zugunsten des Schienenverkehrs. Ursache hierfür ist vor allem die hohe Stauanfälligkeit des Straßenverkehrs in der Hauptverkehrszeit, während die Bahn vergleichsweise konstante Fahrzeiten bietet. Dadurch stellt sie für viele Pendlerinnen und Pendler eine zeitsparende Alternative zum Auto dar.

Besonderheiten der ländlichen Strecken?

Eine auffällige Ausnahme bildet die Strecke Blaustein–Ulm. Da Blaustein über keinen eigenen Bahnhof verfügt, ist die Bahn hier langsamer als das Auto, obwohl die Distanz vergleichsweise kurz ist. Zusätzliche Wege, Umstiege und Wartezeiten verlängern die Bahnfahrzeit deutlich. Dies verdeutlicht, dass in ländlichen Regionen nicht allein die Entfernung entscheidend ist, sondern vor allem die Verfügbarkeit und Qualität der Bahninfrastruktur. Fehlt eine direkte Anbindung, verliert der öffentliche Verkehr selbst auf kurzen Strecken an Attraktivität.

Die volkswirtschaftlichen Kosten

Verspätungen kosten nicht nur Nerven, sie haben einen realen volkswirtschaftlichen Preis. Jede Minute, die ein Pendler im verspäteten Zug wartet, ist verlorene Arbeitszeit.

Um diese Kosten etwas besser zu quantifizieren sollten Sie sich den Medianlohn der jeweiligen Städte herunterladen und näher analysieren.

Berechnen Sie die volkswirtschaftlichen Kosten der Bahnverspätungen für die 11 Städte.

Datensätze:

staedte_basis (aus Aufgabe 4) – enthält Einpendler, Medianlohn und Staudaten
Ergebnis aus Aufgabe 9: die gewichtete durchschnittliche Verspätung pro Stadt (in Minuten)

Nutzen Sie die folgenden Annahmen:

Annahmen:

220 Arbeitstage pro Jahr
2 Fahrten pro Tag (Hin + Zurück)
Ca. 8,4% der Pendler nutzen die Bahn (nationaler Durchschnitt laut MiD 2023 Kurzbericht)

Berechnen Sie für jede Stadt:

Anzahl der Bahnpendler (Einpendler × 8,4%)
Verspätungsstunden pro Jahr (Verspätung × 220 × 2 / 60)
Kosten pro Pendler (Verspätungsstunden × Stundenlohn)
Gesamtkosten der Stadt

Erstellen Sie auf Basis ihrer Berechnung eine Tabelle, welche die Anzahl der Bahnpendler, die Verspätungsstunden pro Jahr, die Kosten pro Pendler und die Gesamtkosten der Stadt anschaulich darstellt.

Beschreiben und interpretieren Sie ihre Tabelle. Gehen Sie dabei auch auf die Gesamtkosten der 11 Städte ein. Erklären Sie außerdem, warum der Medianlohn für diese Berechnung besser geeignet ist als der Durchschnittslohn.

Hinweis: Für die Umrechnung auf Stundenlohn: Monatsentgelt / 160 (bei 40h/Woche).

Volkswirtschaftliche Kosten von Bahnpendlern
Stadt	Anzahl Bahnpendler	Verspätung pro Jahr (in h)	Kosten pro Pendler (in €)	Gesamtkosten (in €)
München	38.274	43,9	1.328,78	50.857.934
Frankfurt	34.092	37,7	1.111,06	37.878.234
Hamburg	33.008	32,6	922,13	30.437.681
Berlin	32.955	34,5	895,47	29.510.477
Köln	25.780	57,9	1.590,62	41.006.294
Düsseldorf	23.914	53,8	1.519,95	36.348.812
Stuttgart	23.053	38,9	1.138,56	26.247.450
Nürnberg	13.902	37,1	980,73	13.633.810
Essen	11.869	54,6	1.361,04	16.153.949
Hannover	11.586	43,8	1.137,85	13.182.690
Ulm	5.741	29,5	795,32	4.565.660

Beschreibung:

Die Tabelle zeigt für die 11 Städte die Anzahl der Bahnpendler, die jährlichen Verspätungsstunden, die daraus resultierenden Kosten pro Pendler sowie die Gesamtkosten pro Stadt. Die Anzahl der Bahnpendler wird dabei als Einpendlerzahl multipliziert mit dem angenommenen Bahnanteil von 8,4 Prozent berechnet. Die Verspätungsstunden pro Jahr ergeben sich aus der durchschnittlichen Verspätung in Minuten, hochgerechnet auf 220 Arbeitstage und zwei Fahrten pro Tag. Die Kosten pro Pendler entstehen, indem diese Verspätungsstunden mit dem medianen Stundenlohn der Stadt multipliziert werden, wobei der Stundenlohn als Monatsmedian geteilt durch 160 Stunden berechnet wird. Die Gesamtkosten pro Stadt ergeben sich anschließend aus Kosten pro Pendler mal Anzahl Bahnpendler, wodurch die Größenordnung der Zeitverluste in Euro sichtbar wird.

Interpretation:

Die Ergebnisse zeigen, dass die volkswirtschaftlichen Kosten vor allem dort hoch sind, wo viele Bahnpendler auf hohe Verspätungen treffen. München verursacht mit rund 50,9 Mio. Euro die höchsten Gesamtkosten, weil dort die meisten Bahnpendler betroffen sind. Köln und Düsseldorf fallen durch besonders hohe jährliche Verspätungsstunden auf, nämlich 57,9 beziehungsweise 53,8 Stunden, wodurch auch die Kosten pro Pendler stark steigen. München hat zwar nicht die höchsten Verspätungsstunden, aber die höchsten Kosten pro Pendler mit 1.328,78 Euro, was auf das höhere Lohnniveau zurückzuführen ist. Insgesamt summieren sich die Kosten über alle 11 Städte auf einen hohen zweistelligen bis niedrigen dreistelligen Millionenbetrag und zeigen, dass Verspätungen nicht nur ein Komfortproblem sind, sondern messbare wirtschaftliche Verluste erzeugen.

Warum Medianlohn?

Der Medianlohn ist für diese Berechnung besser geeignet als der Durchschnittslohn, weil Einkommen typischerweise schief verteilt sind und wenige sehr hohe Einkommen den Durchschnitt stark nach oben ziehen können. Der Median bildet eher den typischen Pendlerlohn ab und führt dadurch zu robusteren und realistischeren Kostenschätzungen, besonders beim Vergleich zwischen Städten.

Setzen Sie die Kosten der Bahn (aus Aufgabe 14) den Kosten des Autos gegenüber. Vergleichen Sie diese in einer Szenario-Analyse mittels eines gestapelten Balkendiagramms. Nutzen Sie für ihre Analysen den Datensatz staedte_basis.

Berechnen Sie zuerst die Kosten des Autostaus pro Stadt:

Anzahl der Autopendler (Einpendler × 91,6%)
Staukosten pro Autopendler (Staustunden × Stundenlohn)
Gesamtkosten der Stadt durch Autostau

Führen Sie anschließend einen Szenario-Vergleich durch: Was passiert, wenn der Bahnanteil von 8,4% auf 20% steigt?

Berechnen Sie die Gesamtkosten (Bahn + Auto) für beide Szenarien
Annahme: Weniger Autos = weniger Stau (z.B. 20% weniger Stauzeit pro Autopendler)

Erstellen Sie ein gestapeltes Balkendiagramm nach Szenario. Beschreiben und intepretieren Sie ihre Grafik. Gehen Sie insbesondere auf die folgenden Fragen ein:

Wie verteilen sich die Kosten zwischen Bahn und Auto im Status quo?
Welches Verkehrsmittel verursacht den größeren volkswirtschaftlichen Schaden?
Was ist die Nettoersparnis bei 20% Bahnanteil?

Beschreibung:

Die ersten beiden Grafiken zeigen für die Top-10-Städte plus Ulm, wie sich die volkswirtschaftlichen Kosten zwischen Autofahrern und Bahnfahrern aufteilen. Jeder Balken besitzt einen grünen sowie einen blau gefärbten Teil. Der blaue Teil repräsentiert die volkswirtschaftlichen Kosten, die durch Bahnfahrer verursacht werden, während der grüne Balken jene der Autofahrer widerspiegelt. In der ersten Grafik wird davon ausgegangen, dass 91 Prozent der Pendler mit dem Auto fahren und 9 Prozent die Bahn nutzen. In der zweiten Grafik erhöht sich der Anteil der Bahnfahrer auf 20 Prozent, während der der Autofahrer auf 80 Prozent sinkt. Zusätzlich zeigt ein pinkfarbener Balken die Differenz der Gesamtkosten im Vergleich zu Szenario 1. Da dieser bei jeder Beobachtung positiv ist, lässt sich festhalten, dass sich im zweiten Szenario die Gesamtkosten in allen betrachteten Städten verringert haben. Somit ist es nicht verwunderlich, dass ein Wechsel von Szenario 1 zu Szenario 2 eine gesamte Ersparnis von über 880 Mio. Euro bewirken würde.

Verteilung der Kosten zwischen Bahn und Auto:

Anhand der Färbung ist gut zu erkennen, dass der Anteil der Kosten, der durch Bahnfahrer verursacht wird, in beiden Szenarien stets geringer ist als jener der Autofahrer. Da die Gesamtkosten von Szenario 1 zu Szenario 2 gesunken sind, lässt sich daraus schließen, dass die Kosten pro Autofahrer höher sind als die der Bahnpendler. Wären die Kosten pro Bahnpendler genauso hoch oder höher als die der Autofahrer, hätte ein Szenarienwechsel in jeder Stadt zu einer Erhöhung oder zumindest zu keiner Veränderung der Gesamtkosten geführt. Eine Erklärung für die höheren Kosten bei Autofahrern könnten stärkere Stauwirkungen sein: Bildet sich beispielsweise ein Stau auf der Autobahn, verlängert sich die Stauzeit mit jedem weiteren Fahrzeug, das auf das Stauende auffährt. Ist hingegen ein Zug verspätet, betrifft dies alle Fahrgäste gleichermaßen. Eine höhere Fahrgastanzahl hat hier keine, beziehungsweise eine deutlich geringere, zusätzliche Auswirkung auf die Verspätung.

Allerdings muss angemerkt werden, dass in diesen Berechnungen eine mögliche Mehrbelastung des Bahnverkehrs nicht berücksichtigt wurde. Die Analyse basiert auf der Annahme, dass die durchschnittliche Verspätung pro Pendler sowohl bei einem Bahnanteil von 9 Prozent als auch bei 20 Prozent identisch bleibt. In der Praxis wäre jedoch zu erwarten, dass eine steigende Zahl an Bahnpendlern auch zu höheren durchschnittlichen Verspätungen pro Kopf führt. Dieser Effekt würde die berechnete Ersparnis tendenziell verringern.

Politikempfehlung – Ihre Synthese

Sie haben nun umfangreiche Analysen durchgeführt und viele Erkenntnisse über die Bahn gewonnen. Jetzt ist es Zeit, diese zu einer kohärenten Empfehlung zusammenzufügen.

Szenario: Sie sind Berater:in des Bundesministeriums für Digitales und Verkehr. Die Ministerin bittet Sie um eine evidenzbasierte Politikempfehlung zur Verbesserung des Pendlerverkehrs in Deutschland.

Formulieren Sie eine Politikempfehlung für das Bundesministerium für Digitales und Verkehr.

Schreiben Sie eine Executive Summary (max. 5 Sätze). Fassen Sie hierbei die wichtigsten Erkenntnisse aus ihrem Projekt zusammen. Was ist die zentrale Botschaft?

Formulieren Sie 3 konkrete Empfehlungen. Jede muss enthalten:

Ein konkretes Ziel (Was soll erreicht werden?)
Eine messbare Maßnahme (Wie wird es umgesetzt?)
Eine Begründung mit Zahlen aus Ihrer Analyse
Nennen Sie zwei Limitationen Ihrer Datengrundlage
Was würden Sie mit zusätzlichen Daten noch untersuchen?

Executive Summary:

Unsere Analysen zeigen, dass die Bahn im Pendelverkehr häufig die bessere Alternative zum Auto ist. In 10 von 11 untersuchten Städten ist die Bahn schneller, mit einer maximalen Zeitersparnis von rund 145 Stunden pro Jahr auf der Strecke Potsdam → Berlin. Gleichzeitig verlieren Autofahrer in Großstädten erheblich Zeit im Stau, zum Beispiel 67 Staustunden pro Jahr in Köln, das entspricht rund 8,4 Arbeitstagen. Dieses Potenzial wird jedoch durch Zuverlässigkeitsprobleme begrenzt, insbesondere im Fernverkehr, wo ICE nur zu 56,7 Prozent und IC/EC zu 60,4 Prozent pünktlich sind bei einer Pünktlichkeitsdefinition von bis zu 6 Minuten. Klimapolitisch ist der Hebel eindeutig, denn Bahnfahren verursacht im Vergleich zum Auto rund 76,5 Prozent weniger CO₂e pro Personenkilometer, 38,6 gegenüber 164 Gramm.

Empfehlung 1: Fernverkehr zuverlässig machen

Ziel: Die Pünktlichkeit und Zuverlässigkeit im Fernverkehr so verbessern, dass Bahnpendeln auch über längere Distanzen wieder planbar wird.

Maßnahme: Programm „Pünktlichkeit zuerst“ auf stark belasteten Fernverkehrskorridoren mit priorisierter Instandhaltung, besserer Baustellenkoordination und Engpassbeseitigung mit dem messbaren Ziel, die Pünktlichkeit um 10 Prozentpunkte innerhalb von 24 Monaten zu steigern.

Begründung mit Zahlen: Der Fernverkehr zeigt in den Daten deutlich schwächere Werte als der Nahverkehr. ICE sind nur zu 56,7 Prozent pünktlich und IC/EC zu 60,4 Prozent, gleichzeitig liegen die durchschnittlichen Verspätungen bei 12,5 beziehungsweise 11,1 Minuten, was Vertrauen in die Bahn schwächt und Umstieg hemmt.

Empfehlung 2: Nahverkehr und Anschlüsse in der Hauptverkehrszeit stabilisieren

Ziel: Pendeln im Alltag verlässlicher machen, besonders morgens und abends, damit Zeitvorteile der Bahn auch tatsächlich ankommen.

Maßnahme: Verbindliche Anschlussstandards an zentralen Knoten mit realistischen Umsteigepuffern und Anschlusssicherung, ergänzt durch gezielte Taktverdichtung auf Pendlerachsen mit dem messbaren Ziel, die Pünktlichkeit im IRE/RE um 5 Prozentpunkte innerhalb eines Jahres zu erhöhen.

Begründung mit Zahlen: Der Nahverkehr ist für Pendler entscheidend, weist aber je nach Produkt deutliche Unterschiede auf. IRE/RE sind nur zu 74,1 Prozent pünktlich, während die S Bahn 87,4 Prozent erreicht, gleichzeitig zeigen die Tagesmuster erhöhte Verspätungen genau in den Pendelzeiten, wodurch besonders viele Personen betroffen sind.

Empfehlung 3: Letzte Meile im Umland ausbauen

Ziel: Den Umstieg im suburbanen und ländlichen Raum erleichtern, damit die Bahn nicht an fehlender Anbindung scheitert.

Maßnahme: Ausbau von Zubringerangeboten und Bahnhofsanbindung durch Bus und On Demand, Park and Ride sowie Bike and Ride mit einem messbaren Ziel, dass ein höherer Anteil der Einpendler den nächsten Bahnhof innerhalb von 15 Minuten erreicht, regional operationalisiert und jährlich berichtet.

Begründung mit Zahlen: Die Auswertung zu Ulm zeigt, dass fehlende Infrastruktur den Bahn Vorteil aushebeln kann. Die Route Blaustein → Ulm ist unattraktiver, weil kein Bahnhof vorhanden ist, während die Bahn insgesamt in 10 von 11 Städten schneller ist und teils sehr große jährliche Zeitgewinne ermöglicht.

Zwei Limitationen der Datengrundlage:

Erstens basiert die Verspätungsanalyse auf einem Monat, November 2025, wodurch saisonale Effekte wie Wetter, Baustellenphasen oder Ferien die Ergebnisse verzerren können.

Zweitens unterscheiden sich offizielle Pünktlichkeitsdefinitionen teilweise vom verwendeten Messansatz, sodass Abweichungen zwischen eigenen Ergebnissen und offiziellen Kennzahlen methodisch erklärbar sind. Zusätzlich beruhen Kosten und Szenarien auf vereinfachenden Annahmen wie 8,4 Prozent Bahnanteil, 220 Arbeitstage und einer Standard Umrechnung des Stundenlohns, wodurch regionale und berufsspezifische Unterschiede nur begrenzt abgebildet werden.

Was mit zusätzlichen Daten noch untersucht werden sollte:

Mit zusätzlichen Betriebs und Infrastrukturdaten sollten Verspätungen ursachen und korridorbezogen analysiert werden, etwa nach Baustellen, Stellwerksstörungen, Fahrzeugverfügbarkeit und Engpässen, um Maßnahmen gezielter zu priorisieren. Außerdem sollten Tür zu Tür Daten einbezogen werden, insbesondere Zubringer, Wartezeiten, Umstiege und Parkplatzsuche, um zu erkennen, wo der Umstieg im Alltag tatsächlich scheitert. Schließlich sollten Maßnahmen in einem Vorher Nachher Design mit Fahrgast und Ticketdaten evaluiert werden, um Effekte auf Umstieg, Zeitgewinne und CO₂ Einsparungen belastbar zu quantifizieren.

Zusatzaufgaben (optional)

Bisher haben Sie zwei Dimensionen betrachtet: Zeit (Bahn ist schneller) und Geld (Verspätungen kosten). Aber es gibt einen dritten, oft vergessenen Aspekt: die Umwelt.

Das Auto ist nicht nur langsamer und teurer; es ist auch ein Klimakiller. Ein durchschnittlicher PKW emittiert z.B. etwa 150 g CO2 pro Personenkilometer.

Recherchieren Sie die CO2-Emissionsfaktoren und das Mobilitätsverhalten:

Erstellen Sie eine kleine Tabelle in der Sie die CO2-Emissionen (in g/Personenkilometer) für folgende Verkehrsmittel auflisten:
- PKW (Durchschnitt)
- PKW (Elektro, deutscher Strommix)
- ICE/IC (Fernverkehr)
- RE/RB (Nahverkehr)
- S-Bahn
Berechnen Sie einen gewichteten Durchschnitt für die Bahn, wenn 70% der Pendler Nahverkehr und 30% Fernverkehr nutzen.
Um wie viel Prozent sind die Bahn-Emissionen niedriger als beim Auto?

Hinweis: Nutzen Sie Daten vom Umweltbundesamt oder dem DB Umweltbericht.

CO2-Emissionsfaktoren (g pro Personenkilometer)
Verkehrsmittel	CO2e (g/Pkm)
PKW (Durchschnitt)	164
PKW (Elektro, deutscher Strommix)	70
ICE/IC (Fernverkehr)	26
RE/RB (Nahverkehr)	44
S-Bahn	42

Gewichteter Durchschnitt der Bahn-Emissionen
Kennzahl	CO2e (g/Pkm)
Gewichteter Durchschnitt Bahn (70% Nah, 30% Fern)	38.6

Die gewichteten Bahn-Emissionen (38,6 g CO₂e pro Personenkilometer bei 70% Nahverkehr und 30% Fernverkehr) liegen deutlich unter den Emissionen eines durchschnittlichen PKW (164 g CO₂e pro Personenkilometer). Damit verursacht die Bahn auf derselben Strecke rund 76,5% weniger CO₂e als das Auto. Anders gesagt: Pro gefahrenem Personenkilometer ist die Klimabelastung bei der Bahn nur etwa ein Viertel so hoch wie beim durchschnittlichen PKW.

Die Studie “Mobilität in Deutschland” (MiD 2023) ist die wichtigste Datenquelle zum Mobilitätsverhalten in Deutschland. Sie ermöglicht einen Vergleich mit 2017 (vor Corona).

Lesen Sie den MiD 2023 Kurzbericht und beantworten Sie:

Modal Split: Wie hat sich der Anteil des öffentlichen Verkehrs (ÖV) am Gesamtverkehr zwischen 2017 und 2023 verändert?
Homeoffice-Effekt: Wie hat sich die durchschnittliche Tagesstrecke verändert? Was ist laut MiD der Hauptgrund für diese Veränderung?
Stadt vs. Land: Welchen Anteil hat das Deutschlandticket in Metropolen vs. ländlichen Räumen? Was bedeutet das für die Ulm-Region?
Implikation für CO2: Welche Schlussfolgerung ziehen Sie aus diesen Veränderungen für das CO2-Einsparpotenzial durch Bahnpendeln? (2-3 Sätze)

Modal Split (ÖV 2017 → 2023):

Der Anteil des öffentlichen Verkehrs (ÖV) am gesamten Wegeaufkommen ist zwischen 2017 und 2023 nur sehr leicht gestiegen. Im MiD-Kurzbericht steht explizit, dass sich der ÖV-Anteil von 10% (2017) auf 11% (2023) verbessert hat, also einem Prozentpunkt.

Homeoffice-Effekt (Tagesstrecke & Hauptgrund):

Die durchschnittliche Tagesstrecke pro Person ist von knapp 40 km (2017) auf rund 35 km (2023) gesunken. Laut MiD hängt das vor allem damit zusammen, dass insgesamt weniger Menschen an einem durchschnittlichen Tag unterwegs sind (sinkende Mobilitätsquote). Dabei wird als wichtiges Muster außerdem hervorgehoben, dass Homeoffice die tägliche Mobilität deutlich senkt, denn an Werktagen legen Beschäftigte ohne Homeoffice im Durchschnitt etwa 60 km zurück, während Beschäftigte im Homeoffice nur auf rund 20 km kommen. .

Stadt vs. Land (Deutschlandticket) & Bedeutung für Ulm:

Beim Deutschlandticket zeigt sich ein klarer Stadt-Land-Unterschied, denn in Metropolen ist es für 33% das „übliche Ticket“, während der Anteil in ländlichen beziehungsweise kleinstädtisch-dörflichen Räumen je nach Regionstyp nur bei etwa 8–10% liegt. Für die Ulm-Region bedeutet das, dass eher von einer mittleren Verbreitung auszugehen ist, typischerweise eher im Bereich von rund 10–14% statt 33%, sodass zwar ein Potenzial besteht, dieses aber meist weniger stark ausfällt als in Metropolen.

Implikation für CO₂:

Wenn der ÖV-Anteil leicht steigt und gleichzeitig die Tagesstrecken sinken, spricht das insgesamt für ein reales CO₂-Einsparpotenzial, weil weniger Auto-Kilometer anfallen und ein Teil der Wege häufiger mit Bahn oder ÖV zurückgelegt wird. Wie groß der Effekt durch Bahnpendeln tatsächlich ist, hängt jedoch stark von der Region ab, denn dort, wo das Deutschlandticket und ein gutes ÖV-Angebot stärker genutzt werden, ist das Verlagerungspotenzial in der Regel höher als in ländlicheren Räumen. Damit dieses Potenzial breiter wirksam wird, ist es wichtig, die Anschlüsse und die gesamte ÖPNV-Struktur so auszubauen, dass möglichst viele Menschen den ÖV als alltagstaugliche Alternative wahrnehmen und nutzen.

Quellen

Berechnen Sie die CO2-Ersparnis für die 11 analysierten Städte.

Datensatz: co2_analyse (aus Aufgabe 4) – enthält Streckenlängen, Einpendlerzahlen und vorberechnete Werte

Annahmen:

220 Arbeitstage pro Jahr
2 Fahrten pro Tag (Hin + Zurück)
CO2-Auto: 150 g/km, CO2-Bahn: 47 g/km (gewichteter Durchschnitt)

Berechnen Sie für jeden Umsteiger (Auto \(\rightarrow\) Bahn):

Jährliche Kilometer
CO2-Emissionen mit Auto (kg/Jahr)
CO2-Emissionen mit Bahn (kg/Jahr)
Ersparnis (kg/Jahr)

Nun sollten Sie eine Szenario Analyse ähnlich wie in Aufgabe 15 durchführen: Wenn sich der Bahnanteil von 8,4% auf 20% erhöht: wie viele Tonnen CO2 würden in den 11 Städten jährlich eingespart?

Visualisieren Sie die CO2-Ersparnis pro Stadt.

Stellen Sie die Ersparnis in Kontext, um die Ersparnis greifbarer zu machen, z.B. wie viele Mallorca-Flüge (hin + zurück, ~750 kg CO2) entspricht das?

Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (`bahnhof_ags_mapping.csv`)

Dieses Mapping ist essenziell für die Verknüpfung von Bahn- und Pendlerdaten. Die Bahndaten sind auf Bahnhofsebene (z.B. “München Hbf”), die Pendlerdaten auf Kreisebene (z.B. “München, Landeshauptstadt”). Der AGS (Amtlicher Gemeindeschlüssel) ist der Schlüssel, der beide Welten verbindet.

Wichtige Variablen:

station_name: Name des Bahnhofs
ags: Amtlicher Gemeindeschlüssel (5-stellig für Kreise)
kreis_name: Name des Landkreises/der kreisfreien Stadt

2. Fahrtzeit-Vergleich OSRM (`fahrtzeit_osrm_vergleich.csv`)

Für einen fairen Vergleich Auto vs. Bahn brauchen wir realistische Fahrtzeiten. OSRM (Open Source Routing Machine) berechnet echte Straßenrouten basierend auf OpenStreetMap – keine Luftlinien, sondern tatsächliche Straßenverbindungen mit Abbiegevorgängen, Geschwindigkeitsbegrenzungen und Straßentypen.

Wichtige Variablen:

stadt: Zielstadt der Pendlerstrecke
strecke_name: Beschreibung der Route (z.B. “Dachau \(\rightarrow\) München”)
auto_distanz_km: Fahrstrecke mit dem Auto in km
auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit (mit Staufaktor)
bahn_planzeit_min: Fahrzeit laut Fahrplan
bahn_verspaetung_min: Durchschnittliche Verspätung
bahn_real_min: Realistische Bahnfahrzeit (Fahrplan + Verspätung)

Wie wurde das Routing durchgeführt?

Koordinaten ermitteln: Für jede Pendlerstrecke wurden Start- und Zielkoordinaten definiert (z.B. Stadtzentrum Dachau \(\rightarrow\) München Hauptbahnhof).
OSRM-API abfragen: Über die öffentliche OSRM-Demo-API (router.project-osrm.org) wurden für jede Route Distanz und Fahrzeit abgefragt. Die API gibt die schnellste Route zurück, basierend auf dem aktuellen Straßennetz.
Staufaktor anwenden: Die OSRM-Basisfahrzeit entspricht einer Fahrt bei freiem Verkehr. Für die Hauptverkehrszeit (HVZ) wurde ein Staufaktor von 1,3-1,5 angewendet, basierend auf den INRIX-Daten der jeweiligen Stadt.
Bahn-Daten ergänzen: Die Bahnfahrzeiten stammen aus dem DB-Fahrplan, ergänzt um die durchschnittliche Verspätung aus unserer Analyse.

Weiterführende Links:

OSRM Projekt-Website – Dokumentation und Demo
OSRM API-Dokumentation – Technische Details zur API
OpenStreetMap – Die Kartendaten, auf denen OSRM basiert
R-Paket osrm – Für eigene OSRM-Abfragen in R

3. Ulm-Pendlerrouten (`ulm_pendlerrouten.csv`)

Da Sie in Ulm studieren, analysieren wir die wichtigsten Pendlerrouten in die Stadt genauer. Dieser Datensatz enthält die 5 wichtigsten Einpendler-Gemeinden mit detaillierten Informationen zur Erreichbarkeit.

Wichtige Variablen:

start_ort: Startgemeinde der Pendlerroute
ziel_ort: Zielort (Ulm)
auto_dauer_min: Fahrzeit mit dem Auto
auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit
bahn_fahrplan_min: Bahnfahrzeit laut Fahrplan
bahn_real_min: Realistische Bahnfahrzeit
hat_bahnhof: TRUE/FALSE – hat der Startort einen Bahnanschluss?
pendler_geschaetzt: Geschätzte Anzahl Pendler auf dieser Route

4. Entgeltstatistik (`ba_entgeltstatistik_2024.csv`)

Um die volkswirtschaftlichen Kosten von Verspätungen zu berechnen, brauchen wir regionale Lohndaten. Diese haben wir von der Bundesagentur für Arbeit heruntergeladen.

Wichtige Variablen:

kreis_name: Name des Kreises/der Stadt
ags: Amtlicher Gemeindeschlüssel
medianentgelt_brutto_monat: Median-Bruttomonatsentgelt in Euro

Quelle: Bundesagentur für Arbeit, Entgeltstatistik 2024

Pendeln in Deutschland

Zeit für die Bahn? – Eine datenbasierte Analyse

Motivation

Datengrundlage

Daten einlesen und verstehen

Die Pünktlichkeit der Deutschen Bahn

Von der Zeit zum Ort: Wo entstehen die Verspätungen?

Wo treffen viele Pendler auf eine unpünktliche Bahn?

Der Vergleich – Auto vs. Bahn

Methodische Herausforderungen

Die volkswirtschaftlichen Kosten

Politikempfehlung – Ihre Synthese

Zusatzaufgaben (optional)

Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (`bahnhof_ags_mapping.csv`)

2. Fahrtzeit-Vergleich OSRM (`fahrtzeit_osrm_vergleich.csv`)

3. Ulm-Pendlerrouten (`ulm_pendlerrouten.csv`)

4. Entgeltstatistik (`ba_entgeltstatistik_2024.csv`)

Pendeln in Deutschland

Zeit für die Bahn? – Eine datenbasierte Analyse

Motivation

Datengrundlage

Daten einlesen und verstehen

Die Pünktlichkeit der Deutschen Bahn

Von der Zeit zum Ort: Wo entstehen die Verspätungen?

Wo treffen viele Pendler auf eine unpünktliche Bahn?

Der Vergleich – Auto vs. Bahn

Methodische Herausforderungen

Die volkswirtschaftlichen Kosten

Politikempfehlung – Ihre Synthese

Zusatzaufgaben (optional)

Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (bahnhof_ags_mapping.csv)

2. Fahrtzeit-Vergleich OSRM (fahrtzeit_osrm_vergleich.csv)

3. Ulm-Pendlerrouten (ulm_pendlerrouten.csv)

4. Entgeltstatistik (ba_entgeltstatistik_2024.csv)

1. Bahnhof-Kreis-Mapping (`bahnhof_ags_mapping.csv`)

2. Fahrtzeit-Vergleich OSRM (`fahrtzeit_osrm_vergleich.csv`)

3. Ulm-Pendlerrouten (`ulm_pendlerrouten.csv`)

4. Entgeltstatistik (`ba_entgeltstatistik_2024.csv`)