Motivation

Jeden Morgen das gleiche Bild: Verstopfte Autobahnen, genervte Pendler, verlorene Zeit. 20,5 Millionen Menschen pendeln in Deutschland täglich zur Arbeit – die meisten davon mit dem Auto. Laut INRIX Traffic Scorecard 2024 verlieren Pendler in deutschen Großstädten zwischen 40 und 60 Stunden pro Jahr allein im Stau. Das entspricht fast einer kompletten Arbeitswoche, die im Nichts verpufft.

Die Idee liegt auf der Hand: Wer Bahn fährt, steht nicht im Stau. Aber wie schlägt sich die Bahn im Vergleich zum Auto? Ist sie wirklich schneller? Und wie zuverlässig ist sie eigentlich?

In diesem Projekt analysieren Sie Echtzeitdaten der Deutschen Bahn, Pendlerstatistiken der Bundesagentur für Arbeit, Staudaten von INRIX und die Entgeltstatistik der Bundesagentur für Arbeit. Sie werden herausfinden, dass die Antwort auf die Frage “Sollten mehr Menschen Bahn fahren?” komplexer ist, als man zunächst vermuten würde und dass sie wichtige Implikationen für die Verkehrspolitik hat.

Ihre zentrale Forschungsfrage lautet:

“Sollten mehr Menschen Bahn fahren – und was müsste sich dafür ändern?”

Datengrundlage

In diesem Projekt arbeiten Sie mit mehreren Datensätzen. Ein wichtiger Teil des Projekts ist das eigenständige Beschaffen von Primärdaten aus offiziellen Quellen.

Daten einlesen und verstehen

Bevor Sie mit der Analyse beginnen können, müssen Sie verschiedenste Datensätze einlesen und deren Struktur verstehen. Die Deutsche Bahn stellt über unterschiedliche Schnittstellen Echtzeitdaten für ihre Züge als open-source Daten zur Verfügung, welche per API-Calls geladen werden können. Jedoch gibt es von der Deutschen Bahn keine offizielle Seite, welche historische Daten zu Zugverspätungen, Ausfällen etc. für Fern- und Nahverkehrszüge sammelt. Da wir uns jedoch mit historischen Daten beschäftigen möchten, greifen wir auf Daten zurück, die von Piet Brömmel gesammelt wurden und bei Huggingface im Parquet-Format zur Verfügung gestellt wurden. Das Parquet-Format ist ein effizientes Datenformat und wird oft für große Datenmengen genutzt; in R können Sie diese Daten mit dem arrow-Paket einlesen.

Wie pünktlich ist die Bahn wirklich? Um diese Frage zu beantworten, brauchen Sie echte Verspätungsdaten – nicht nur Pressemitteilungen. Die Bahndaten bilden das Herzstück unserer Analyse: Mit ihnen können Sie berechnen, wie viel Zeit Bahnfahrer durch Verspätungen verlieren und später mit den Stauzeiten der Autofahrer vergleichen.

Die Deutsche Bahn stellt Echtzeitdaten als Open Data zur Verfügung. Das Projekt piebro/deutsche-bahn-data auf Huggingface sammelt diese Daten im Parquet-Format.

Laden Sie die Datei für November 2025 direkt von Huggingface herunter und lesen Sie diesen Datensatz als bahn in R ein.

Zeigen Sie die ersten 10 Zeilen des Datensatzes in einer Tabelle und beantworten Sie anschließend folgende Fragen:

Wie viele Beobachtungen enthält der Datensatz? Welche Variablen sind vorhanden?
Was stellt eine einzelne Beobachtung dar?

Hinweis 1: Sie können auf Huggingface die gesuchte Datei hier finden und direkt die URL zu der Datei in R mitgeben

Hinweis 2: Sie können die Parquet Datei entweder lokal speichern, oder immer direkt per URL einlesen. Falls Sie die Datei lokal speichern, so wird diese nicht auf GitHub Committet, da wir dies in der .gitignore entsprechend eingestellt haben. In diesem Fall sollten alle Teammitglieder die Datei lokal zur Verfügung haben.

Hinweis 3: Achten Sie bei allen Tabellen auf einer saubere Darstellung

Auszug der ersten 10 Beobachtungen (Nov. 2025)
Station	Zug	Typ	Ziel	Verspätung (Min)	Geplante Ankunft
Stuttgart Hbf	S 2	S	Filderstadt	5	2025-11-01 00:55:00
Halle (Saale) Hbf	S 5	S	Leipzig Hbf (tief)	1	NA
Karlsruhe Hbf	RE 1	RE	Karlsruhe Hbf	95	2025-10-31 23:25:00
Regensburg Hbf	ALX RE25	ALX	München Hbf	11	2025-11-01 00:35:00
Mannheim Hbf	ICE 775	ICE	Karlsruhe Hbf	1	2025-11-01 00:56:00
Flughafen BER	S 9	S	Flughafen BER	1	2025-11-01 00:59:00
Halle (Saale) Hbf	S 8	S	Halle (Saale) Hbf	15	2025-11-01 00:45:00
München Hbf	RB 40	RB	München Hbf	0	2025-11-01 01:00:00
Köln Hbf	IC 1952	IC	Köln Hbf	40	2025-11-01 00:20:00
Freiburg (Breisgau) Hbf	S 1	S	Freiburg (Breisgau) Hbf	0	2025-11-01 01:00:00

Wie viele Beobachtungen enthält der Datensatz? / Welche Variablen sind vorhanden?

Der Datensatz für November 2025 enthält 13.943.561 Beobachtungen und 16 Variablen. Diese erfassen räumliche Informationen wie Bahnhofsname und EVA-Nummer, betriebliche Merkmale wie Zugname, Zugtyp und Endziel sowie zeitliche Kennzahlen. Besonders wichtig für die Verspätungsanalyse sind die Variablen delay_in_min (Verspätung in Minuten), arrival_planned_time (geplante Ankunft) und is_canceled (Zugausfälle).

Was stellt eine einzelne Beobachtung dar?

Jede Beobachtung stellt einen Zughaltevorgang an einem Bahnhof dar. Das bedeutet, dass Zugfahrten nicht als ganzes Objekt gespeichert werden, sondern in ihre Einzelhalte zerlegt sind. Ein Intercity von Köln nach Berlin, der an fünf Bahnhöfen hält, erzeugt daher fünf separate Beobachtungen (eine für jeden Halt). Jede Zeile dokumentiert die Pünktlichkeit oder Verspätung an genau diesem Haltepunkt, was eine detaillierte Analyse der Verspätungsentwicklung entlang der Strecke ermöglicht.

Wohin pendeln die Menschen? Die Bahndaten zeigen ihnen die Pünktlichkeit der Züge – aber um zu verstehen, wo gute Bahnverbindungen besonders wichtig sind, müssen Sie wissen, wohin die Menschen pendeln. Die Pendlerstatistik der Bundesagentur für Arbeit zeigt genau das: Welche Städte sind die größten Arbeitgeber-Magneten?

Laden Sie den Datensatz pendler_kreise_aufbereitet.csv aus dem Ordner daten in R ein als Datensatz pendler.

Erstellen Sie eine Tabelle der Top 10 Städte nach Einpendlern mit den Spalten: Stadt (kreis_name), Einpendler, Auspendler, Pendlersaldo.

Interpretieren Sie kurz: Welche Städte sind die größten “Pendlermagneten” Deutschlands und warum?

Top 10 Städte nach Einpendlern
Stadt	Einpendler	Auspendler	Pendlersaldo
München, Landeshauptstadt	455,645	202,756	252,889
Frankfurt am Main, Stadt	405,856	111,245	294,611
Hamburg, Freie und Hansestadt	392,951	147,328	245,623
Berlin, Stadt	392,324	219,898	172,426
Köln, Stadt	306,905	138,422	168,483
Düsseldorf, Stadt	284,696	97,326	187,370
Stuttgart, Landeshauptstadt	274,442	100,095	174,347
München	203,163	98,325	104,838
Nürnberg, Stadt	165,496	78,557	86,939
Essen, Stadt	141,296	90,906	50,390
Ulm, Universitätsstadt	68,341	22,469	45,872

Größten Pendlermagneten Deutschlands

Die Tabelle offenbart die Top 10 Städte nach Einpendlern in Deutschland. Dabei sticht vor allem München als der größte Pendlermagnet Deutschlands mit ungefähr 455.000 Einpendlern heraus. Zudem weisen die Städte Frankfurt, Hamburg und Berlin ebenfalls sehr hohe Einpendlerzahlen auf, wobei alle drei jeweils ungefähr 400.000 Einpendler haben. Die Tabelle identifiziert somit diese vier Städte als die größten Pendlermagneten Deutschlands.

Diese Städte zeichnen sich besonders durch eine hohe Arbeitsplatzanziehungskraft aus. Das zeigt sich wiederum zum einen an der großen wirtschaftlichen Bedeutung dieser Städte. So befinden sich in München große Unternehmen wie Siemens, Allianz und BMW, die eine hohe Arbeitsplatzdichte aufweisen, oder Frankfurt zieht als Finanzmetropole viele Pendler an. Zusätzlich spielt der Wohn- und Lebensraum eine große Rolle. Zum Beispiel führen teure Innenstädte dazu, dass viele Menschen außerhalb der Stadt wohnen und somit täglich zur Arbeit pendeln.

Was kostet das Auto? Sie haben jetzt Bahndaten und wissen, wohin die Menschen pendeln. Aber um fair vergleichen zu können, brauchen Sie auch die Alternative: Wie viel Zeit verlieren Autofahrer im Stau? Diese Daten liefert INRIX – ein Unternehmen, das weltweit Verkehrsdaten sammelt. Später werden Sie diese Staukosten mit den Bahnverspätungen vergleichen.

Besuchen Sie die INRIX Global Traffic Scorecard und suchen Sie die Stauzeiten für die Top 10 Städte aus Aufgabe 2 und zusätzlich die Stauzeiten für Ulm. INRIX misst, wie viele Stunden Autofahrer jährlich im Stau verlieren.

Erstellen Sie eine eigene CSV-Datei inrix_staedte_2024.csv mit folgenden Spalten für die geforderten Städte:
- stadt: Name der Stadt
- stau_stunden_jahr: Jährliche Staustunden pro Fahrer
- kosten_eur: Jährliche Kosten pro Fahrer (findet sich in der tiefergehenden Übersicht)
Berechnen Sie für jede Stadt, wie viele Arbeitstage pro Jahr im Stau verloren gehen. Annahme: Ein Arbeitstag = 8 Stunden.

Erstellen Sie anschließend eine schöne Tabelle mit: Stadt, Staustunden/Jahr, verlorene Arbeitstage und beschreiben diese. In welcher Stadt ist die Stausituation am schlimmsten? Wie viele Arbeitstage verliert ein typischer Pendler dort pro Jahr?

Hinweis: Auf der INRIX-Website können Sie nach bei “Jump to City Rankings” -> “Search the List” -> “Germany” oder der konkreten Stadt filtern.

Jährliche Staustunden und Kosten für Autofahrer
Stadt	Staustunden pro Jahr (h/J)	Kosten pro Jahr (EUR)	Verlorene Arbeitstage pro Jahr
Köln	67	919	8.4
Düsseldorf	63	864	7.9
Berlin	60	823	7.5
Stuttgart	60	823	7.5
München Landeshauptstadt	57	781	7.1
Frankfurt am Main	55	754	6.9
Hannover	54	740	6.8
Wuppertal	46	NA	5.8
Hamburg	46	631	5.8
Nürnberg	38	NA	4.8
Ulm	30	NA	3.8
Hinweis:
Die Daten von Wuppertal werden für Essen genutzt (siehe Moodle Diskussionsforum)

Beschreibung:

Die Tabelle veranschaulicht die Auswirkungen von Staus in den Top-10-Einpendlerstädten Deutschlands sowie in Ulm. Betrachtet werden dabei drei Kennzahlen: Staustunden pro Fahrer und Jahr, daraus abgeleitete verlorene Arbeitstage sowie die geschätzten jährlichen Kosten.

Die verlorenen Arbeitstage variieren (Ulm ausgenommen) deutlich: Sie reichen von rund 8,4 Tagen in Köln bis zu 4,8 Tagen in Nürnberg. Für Wuppertal, Nürnberg und Ulm sind in der Tabelle keine Werte zu den jährlichen Kosten angegeben.

In welcher Stadt ist die Stausituation am schlimmsten? / Wie viele Arbeitstage verliert ein typischer Pendler dort pro Jahr?

In Köln ist die Stausituation am gravierendsten. Dort gehen pro Pendler im Durchschnitt rund 8,4 Arbeitstage pro Jahr durch Stau verloren. Gleichzeitig verdeutlicht die Tabelle, dass die größten Pendlermagneten nicht automatisch am stärksten von Staus betroffen sind. München liegt trotz seiner hohen Einpendlerzahlen bei etwa 7,1 verlorenen Arbeitstagen.

Für Köln bedeutet das konkret, dass ein typischer Pendler jährlich 8,4 Arbeitstage im Stau verliert. Da laut Aufgabe 2 rund 300.000 Personen in die Stadt einpendeln, summiert sich dieser Zeitverlust zu einer erheblichen Menge an verlorener Arbeitszeit.

Für die weiteren Analysen stellen wir Ihnen fünf zusätzliche Datensätze bereit. Diese laden Sie jetzt, damit sie in allen folgenden Aufgaben direkt verfügbar sind.

Laden Sie die folgenden Datensätze aus dem Ordner daten und speichern Sie diese unter den angegebenen Variablennamen:

Datei	Variablenname	Verwendet in
`bahnhof_ags_mapping.csv`	`bahnhof_mapping`	Aufgabe 9-10
`fahrtzeit_osrm_vergleich.csv`	`fahrtzeit`	Aufgabe 12
`ulm_pendlerrouten.csv`	`ulm_routen`	Aufgabe 13
`ba_entgeltstatistik_2024.csv`	`entgelt`	für `staedte_basis`
`co2_analyse.csv`	`co2_analyse`	Aufgabe 19 (Bonus)

Verschaffen Sie sich einen ersten Überblick über die Struktur der Daten (z.B. mit glimpse(), dies sollte später in ihrem HTML Dokument nicht sichtbar sein!).

Erstellen Sie außerdem einen Master-Datensatz staedte_basis für die Top-11-Städte (Top 10 Pendlerstädte + Ulm), der die Daten aus pendler, entgelt und inrix kombiniert. Dieser Datensatz vereinfacht die späteren Analysen (ab Aufgabe 14), da alle relevanten Kennzahlen bereits zusammengeführt sind.

Der Master-Datensatz sollte folgende Spalten enthalten:

ags: Amtlicher Gemeindeschlüssel
stadt: Stadtname (Kurzform, z.B. “München”)
einpendler: Anzahl Einpendler
median_monat_eur: Medianlohn pro Monat
median_stunde_eur: Medianlohn pro Stunde (Monatslohn / 160)
stau_stunden_jahr: Stauzeit pro Jahr (aus INRIX)

Hinweis 1: Die Datensätze verwenden unterschiedliche Namensformate: pendler hat offizielle Namen (“München, Landeshauptstadt”), während entgelt und inrix Kurznamen (“München”) verwenden. Nutzen Sie den AGS als zuverlässigen Schlüssel für die Verknüpfung mit pendler. Tipp: entgelt enthält sowohl AGS als auch Kurznamen und eignet sich daher gut als Ausgangspunkt.

Hinweis 2: Eine ausführliche Beschreibung der Datensätze finden Sie im Anhang A.

Die Pünktlichkeit der Deutschen Bahn

Nachdem Sie nun einen Überblick über die Daten haben, welche wir in diesem Projekt verwenden möchten, tauchen Sie tiefer in die Bahndaten ein. Die zentrale Frage ist: Wie zuverlässig ist die Deutsche Bahn wirklich?

Die Bahn unterscheidet verschiedene Zugtypen, vom ICE über den RE bis zur S-Bahn. Jeder Zugtyp hat unterschiedliche Eigenschaften: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Aber welcher Zugtyp ist am pünktlichsten?

Welche Züge sind (un)pünktlich? Nicht alle Züge sind gleich: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Um später sinnvolle Empfehlungen geben zu können, müssen Sie verstehen, welche Zugtypen besonders problematisch sind. Dafür klassifizieren Sie die Züge anhand ihrer Namen. Nutzen Sie für diese Analyse den Datensatz bahn.

Die Variable train_name enthält den Zugnamen (z.B. “ICE 123”, “S 5”, “RE 8”).

Erstellen Sie eine neue Variable zugtyp mit folgenden Kategorien:

Zugtyp	Regel	Beispiel
ICE	beginnt mit “ICE”	ICE 123
IC/EC	beginnt mit “IC” oder “EC”	IC 2012, EC 6
IRE/RE	beginnt mit “RE” oder “IRE”	RE 5, IRE 200
RB	beginnt mit “RB”	RB 26
S-Bahn	beginnt mit “S” (mit Leerzeichen!)	S 5
Sonstige	alle anderen	U 6, STB 123

Erstellen Sie auf dieser Basis eine Tabelle, welche pro Zugtyp folgende Kennzahlen anschaulich darstellt:

Anzahl der Fahrten
Durchschnittliche Verspätung (in Minuten)
Anteil pünktlicher Züge (≤6 Min Verspätung)
Ausfallquote

Beschreiben und Interpretieren Sie die Tabelle.

Weiterhin sollten Sie ihre Ergebnisse verifizieren. Dafür können Sie auf die offizielle Pünktlichkeitswerte der Deutschen Bahn zurückgreifen (recherchieren Sie diese selbstständig).

Stimmen Ihre Ergebnisse mit den offiziellen Werten überein? Falls nicht: Welche methodischen Unterschiede könnten die Abweichung erklären?

Hinweis: Nutzen Sie str_detect() aus dem stringr-Paket. Achten Sie auf die Reihenfolge der Bedingungen!

Pünktlichkeit der Deutschen Bahn nach Zugtyp
Zugtyp	Anzahl Halte	Verspätung (min)	Pünktlichkeit (%)	Ausfallquote (%)
S-Bahn	6,414,045	2.9	87.4	5.5
Sonstige	2,938,815	3.5	84.7	2.6
RB	2,675,028	3.5	85.2	3.2
IRE/RE	1,673,555	6.1	74.1	3.6
ICE	171,516	12.5	56.7	4.2
IC/EC	70,602	11.0	60.2	7.2
Pünktlich = Verspätung ≤ 6 Minuten

Beschreibung:

Die Tabelle vergleicht die Pünktlichkeit verschiedener Zugtypen für den November des Jahres 2025 unterteilt in Anzahl der Fahrten, Verspätung in Minuten, dem pünktlichem Anteil und der Ausfallquote. Dabei werden die Kategorien S‑Bahn, Sonstige, RB, IRE/RE, ICE sowie IC/EC erfasst, sodass sowohl Nah‑ als auch Fernverkehr abgedeckt sind.

S‑Bahnen haben mit ca. 6,4 Mio. Fahrten das höchste Angebot, eine niedrige mittlere Verspätung von 2,94 Minuten, einen hohen Pünktlichkeitsanteil von 87,4% und eine mittlere Ausfallquote von 5,5%. RB‑Züge und „Sonstige“ liegen bei der Pünktlichkeit mit 85,2% bzw. 84,7% ähnlich gut, weisen aber etwas höhere Durchschnittsverspätungen von 3,47–3,48 Minuten und leicht niedrigere Ausfallquoten von ca. 2,6–3,2% auf. IRE/RE‑Züge haben mit 6,06 Minuten die höchste durchschnittliche Verspätung im Nahverkehr und nur 74,1% pünktliche Fahrten, bei einer gleichzeitig moderaten Ausfallquote von 3,62%. Im Fernverkehr zeigen ICE mit 12,50 Minuten und IC/EC mit 11,03 Minuten deutlich höhere mittlere Verspätungen und niedrigere Pünktlichkeitsanteile von 56,7% bzw. 60,2% auf, allerdings liegt die Ausfallquote mit 4,23% (ICE) und 7,18% (IC/EC) in einem ähnlichen oder leicht höheren Bereich als bei einigen Nahverkehrstypen.

Interpretation:

Die deutlich geringere Pünktlichkeit von Fernverkehrszügen lässt sich plausibel mit längeren Laufwegen, der Durchfahrt durch mehrere Engpässe und der stärkeren Abhängigkeit von überlasteten Korridoren erklären, was sich in höheren Durchschnittsverspätungen widerspiegelt. Im Nahverkehr, insbesondere bei S‑Bahnen und RB, sorgen kürzere Linienwege, dichte Taktung und häufig priorisierte Trassennutzung für höhere Pünktlichkeitsquoten, wobei die höhere Anzahl an Fahrten das System insgesamt stark belastet.

Auffällig ist, dass IRE/RE trotz Nahverkehrscharakter ein Pünktlichkeitsprofil ähnlich dem Fernverkehr aufweisen, was auf lange Linienwege mit vielen Knotenbahnhöfen und Baustellen hindeutet. Die relativ hohe Ausfallquote bei IC/EC im Vergleich zu ICE kann auf unterschiedliche Flottenstrukturen, Störanfälligkeiten bestimmter Fahrzeuge oder auf betrieblich bevorzugte Stabilisierung des ICE-Angebots zurückgeführt werden.

Abgleichung:

Offiziell meldet die Deutsche Bahn für den Fernverkehr (ICE/IC zusammen) 2024 bzw. 2025 eine Pünktlichkeitsquote von rund 62,5% (2024) und etwa 60% (2025), wobei als pünktlich Züge mit weniger als 6 Minuten Verspätung zählen und ausgefallene Züge nicht in die Pünktlichkeitsquote eingehen. Für den Regionalverkehr (DB Regio, also Nahverkehr insgesamt) liegen die offiziellen Jahreswerte im Bereich von etwa 90% pünktlicher Züge, ebenfalls ohne Berücksichtigung ausgefallener Züge in der eigentlichen Pünktlichkeitsquote.

Verglichen damit erscheinen die in der Tabelle ausgewiesenen Pünktlichkeitsanteile für Fernverkehr (rund 57–60%) recht nah an den offiziellen Jahreswerten, während die Nahverkehrswerte (S‑Bahn 87,4%, RB 85,2%, IRE/RE 74,1%) deutlich unter den bundesweiten DB‑Regio‑Durchschnittswerten liegen. Zudem weist die Tabelle explizit eine Ausfallquote aus, während offizielle DB‑Pünktlichkeitsangaben betonen, dass ausgefallene Züge in der Pünktlichkeitsstatistik nicht mitgezählt werden, sondern gesondert als Zuverlässigkeit berichtet werden.

In Aufgabe 5 haben Sie gesehen, dass Fernverkehrszüge (ICE, IC/EC) deutlich höhere Verspätungen und Ausfallquoten haben als Nahverkehrszüge (IRE, RE, RB, S-Bahn). Aber wie relevant ist das für den typischen Pendler? Das hängt davon ab, wie viele Züge jeweils unterwegs sind. Nutzen Sie für diese Analyse den Datensatz bahn (mit der in Aufgabe 5 erstellten Variable zugtyp).

Klassifizieren Sie die Züge in zwei Kategorien:

Fernverkehr: ICE, IC/EC
Nahverkehr: IRE, RE, RB, S-Bahn

Erstellen Sie ein Liniendiagramm, das die durchschnittliche Anzahl der Fahrten pro Stunde im Tagesverlauf zeigt:

X-Achse: Uhrzeit (0-23 Uhr)
Y-Achse: Durchschnittliche Anzahl Fahrten pro Stunde
Zwei Linien: eine für Fernverkehr, eine für Nahverkehr (unterschiedliche Farben)

Tipp: Extrahieren Sie die Stunde aus der Variable time mit hour() aus dem lubridate-Paket. Berechnen Sie dann die durchschnittliche Anzahl Fahrten pro Stunde und Zugtyp.

Beschreiben und interpretieren Sie ihre Grafik. Beantworten Sie zusätzlich die folgenden Fragen:

Zu welchen Uhrzeiten fahren die meisten Züge?
Wie unterscheidet sich das Muster zwischen Fern- und Nahverkehr?
Warum ist diese Information wichtig, wenn wir später die Verspätungen analysieren?

Beschreibung der Grafik

Das Liniendiagramm zeigt die durchschnittliche Anzahl der Zugfahrten pro Stunde im November 2025, getrennt nach Fern- und Nahverkehr. Der Nahverkehr ist blau, der Fernverkehr rot dargestellt. Auf der X-Achse sind die Stunden von 0 bis 23 Uhr, auf der Y-Achse die durchschnittlichen Fahrten pro Stunde abgebildet. Insgesamt wird ein deutlich unterschiedlicher Tagesverlauf beider Verkehrsarten sichtbar.

Zu welchen Uhrzeiten fahren die meisten Züge?

Im Nahverkehr zeigt sich ein klares Pendlermuster mit einer Morgenspitze zwischen 6 und 9 Uhr sowie einer Abendspitze zwischen 16 und 19 Uhr. In der Nacht, besonders zwischen 23 und 5 Uhr, fahren deutlich weniger Züge. Der Fernverkehr verläuft hingegen relativ gleichmäßig über den Tag hinweg und bleibt zwischen etwa 6 und 22 Uhr auf einem konstanten Niveau ohne ausgeprägte Spitzen.

Wie unterscheidet sich das Muster zwischen Fern- und Nahverkehr?

Der Nahverkehr ist stark auf Berufspendler ausgerichtet und folgt festen Tageszeiten, während der Fernverkehr einen gleichmäßigeren und flexibleren Reisebedarf abdeckt. Zu den Stoßzeiten ist der Unterschied zwischen beiden Verkehrsarten besonders groß, was die Bedeutung des Pendlerverkehrs unterstreicht.

Warum ist diese Information wichtig, wenn wir später die Verspätungen analysieren?

Verspätungen zu den Hauptverkehrszeiten betreffen deutlich mehr Menschen als außerhalb dieser Zeiträume, da der Nahverkehr dann stark ausgelastet ist und Störungen sich schneller ausbreiten. Eine Verspätung am Morgen hat daher eine größere Wirkung als zur Mittagszeit. Beim späteren Vergleich von Bahn und Auto ist es deshalb wichtig, den Fokus auf Nahverkehrsnutzer zu Pendelzeiten zu legen.

Nachdem Sie in Aufgabe 6 herausgefunden haben, dass es deutlich mehr Nahverkehrszüge als Fernverkehrszüge gibt, und diese für Pendler wichtiger sind, sollten Sie sich die Verspätungen der Nahverkehrszüge über den Tag anschauen, da diese vermutlich nicht gleichmäßig über den Tag verteilt sind. Pendler erleben die Bahn vor allem in der Hauptverkehrszeit, d.h. morgens zwischen 7 und 9 Uhr und abends zwischen 16 und 19 Uhr. Aber ist die Bahn zu diesen Zeiten besonders unpünktlich?

Erstellen Sie zwei Heatmaps, die zeigen, wie sich die Verspätungen nach Tageszeit (Stunde) und Wochentag für die Nahverkehrszüge und die Fernverkehrszüge verteilen. Nutzen Sie für diese Analyse den Datensatz bahn.

Extrahieren Sie aus der Variable time die Stunde und den Wochentag.
Filtern Sie auf die relevanten Tageszeiten (5-23 Uhr), da nachts kaum Zugverkehr stattfindet.
Aggregieren Sie die durchschnittliche Verspätung pro Stunde und Wochentag für Nah- und Fernverkehrszüge separat.
Erstellen Sie eine Heatmap mit ggplot2 und geom_tile().

Tipp zur Farbskala: Da Fernverkehrszüge im Durchschnitt höhere Verspätungen haben als Nahverkehrszüge, können Sie unterschiedliche Farbskalen für die beiden Heatmaps verwenden (z.B. Blau-Töne für Nahverkehr, Rot-Töne für Fernverkehr). Dadurch werden die Muster innerhalb jeder Verkehrsart besser sichtbar.

Beschreiben und interpretieren Sie ihre Grafiken.

Wann sind die Verspätungen am höchsten?
Gibt es Unterschiede zwischen Werktagen und Wochenende?
Gibt es Unterschiede zwischen Nah- und Fernverkehrszügen?
Was bedeutet das für Pendler?

Beschreibung der Grafiken

Die beiden Grafiken zeigen, wann Züge im Nah- und Fernverkehr am meisten verspätet sind. Auf der linken Seite sieht man die Wochentage und unten die Uhrzeiten von 5 bis 23 Uhr. Die Farben helfen beim Lesen: Dunkle Farben bedeuten viel Verspätung und helle Farben bedeuten wenig Verspätung. Beim Nahverkehr ist dies in Blau dargestellt, beim Fernverkehr in Rot.

Wann sind die Verspätungen am höchsten?

Im Nahverkehr stehen die Züge vor allem dann still, wenn die meisten Menschen zur Arbeit fahren oder Feierabend haben. Das ist morgens zwischen 6 und 9 Uhr sowie nachmittags zwischen 16 und 19 Uhr. In diesen Zeiten sind die Schienen besonders voll. Im Fernverkehr verteilen sich die Probleme eher über den ganzen Tag. Oft wird es am Nachmittag schlimmer, weil sich kleine Verzögerungen von morgens bis zum Abend immer weiter aufstauen.

Gibt es Unterschiede zwischen Werktagen und Wochenende?

An Arbeitstagen gibt es im Nahverkehr klare Stoßzeiten, die am Wochenende fehlen. Samstags und sonntags sind die Verspätungen niedriger und verteilen sich gleichmäßig über den Tag, weil insgesamt weniger Menschen unterwegs sind. Beim Fernverkehr macht es hingegen kaum einen Unterschied, welcher Wochentag gerade ist. Das liegt daran, dass Reisende auf langen Strecken nicht so stark an feste Arbeitszeiten gebunden sind wie tägliche Pendler.

Gibt es Unterschiede zwischen Nah- und Fernverkehrszügen?

Züge im Fernverkehr haben grundsätzlich deutlich längere Verspätungen als Regionalbahnen. Das erkennt man auch an den unterschiedlichen Farbskalen der Grafiken. Während es im Nahverkehr meist nur um wenige Minuten geht, sammeln Fernzüge auf ihren langen Wegen viel mehr Verspätungszeit an. Zudem treten die Probleme im Nahverkehr sehr gebündelt zu bestimmten Uhrzeiten auf, während sie im Fernverkehr fast den ganzen Tag über vorkommen.

Was bedeutet das für Pendler?

Wer jeden Tag zur Arbeit fährt, muss besonders morgens und abends mit Verspätungen rechnen. Das Risiko ist von Montag bis Freitag während der klassischen Pendlerzeiten am größten. Wer seinen Arbeitsbeginn flexibel gestalten kann, sollte versuchen, ein bis zwei Stunden früher oder später zu fahren, um pünktlicher anzukommen. Am Wochenende ist die Bahn insgesamt zuverlässiger, falls man in dieser Zeit verreisen muss.

Von der Zeit zum Ort: Wo entstehen die Verspätungen?

In Aufgabe 7 haben Sie analysiert, wann die Verspätungen auftreten, nämlich vor allem zu den Hauptverkehrszeiten. Aber die nächste wichtige Frage ist: Wo entstehen diese Verspätungen?

Aggregierte Statistiken wie Durchschnittswerte über ganz Deutschland verbergen oft große regionale Unterschiede. Vielleicht gibt es einzelne “Problembahnhöfe”, die den Durchschnitt nach oben ziehen? Oder sind die Verspätungen gleichmäßig über das Netz verteilt? Diese Frage ist wichtig, weil sie unterschiedliche Lösungsansätze impliziert: Bei wenigen Problembahnhöfen könnte die Bahn gezielt investieren, bei flächendeckenden Problemen bräuchten Sie systemische Lösungen.

Identifizieren Sie die 10 unpünktlichsten Bahnhöfe in Deutschland (mit mindestens 1.000 Halten im Monat). Nutzen Sie für diese Analyse den Datensatz bahn.

Erstellen Sie ein Balkendiagramm, das die durchschnittliche Verspätung dieser Bahnhöfe zeigt. Beschriften Sie die Balken mit den Verspätungswerten.

Beschreiben und interpretieren Sie ihre Grafik.

Sehen Sie ein geografisches Muster?
Handelt es sich um große Knotenbahnhöfe oder eher um kleinere Stationen?

Beschreibung der Grafik:

Das Diagramm zeigt die 10 unpünktlichsten Bahnhöfe in Deutschland im Jahr 2025. Dabei werden ausschließlich Bahnhöfe berücksichtigt, die mindestens 1.000 Halte pro Monat aufweisen. Auf der y‑Achse stehen die zehn Bahnhöfe, auf der x‑Achse die durchschnittliche Verspätung in Minuten, in einer Spanne von 0 bis 16 Minuten. Die Balken sind nach Verspätung sortiert: Ganz oben liegt Ennepetal (Gevelsberg) mit 14,7 Minuten, danach folgen Sinzig (Rhein) und Bad Breisig (je 14,5 Minuten), gefolgt von Bornheim‑Sechtem (13,6 Minuten). Im Mittelfeld liegen Roisdorf und Brühl (je 13,3 Minuten) sowie Rolandseck (13,2 Minuten). Die unteren Plätze belegen Hochneukirch (12,5 Minuten), Rheydt‑Odenkirchen (12,4 Minuten) und Zeesen (12,3 Minuten). Die Labels am Ende der Balken geben die Verspätungswerte direkt als Text an; als Quelle ist unten „Deutsche Bahn Open Data“ angegeben.

Interpretation:

Insgesamt liegen die Top‑10‑Bahnhöfe relativ nah beieinander (ca. 12,3 bis 14,7 Minuten). Das deutet darauf hin, dass es mehrere Stationen mit ähnlich hohen durchschnittlichen Verzögerungen gibt, anstatt eines einzelnen extremen Ausreißers.

Geografisches Muster:

Die Stationen deuten auf eine Clusterung im Westen Deutschlands hin, insbesondere entlang der linken Rheinstrecke bzw. im Raum Köln/Bonn–Mittelrhein. Daneben gibt es ein zweites westdeutsches Cluster im NRW/Rheinland‑Ruhr‑Umfeld. Als Ausreißer außerhalb dieses West‑Clusters erscheint Zeesen. Das zeigt, dass Unpünktlichkeit nicht nur ein „Rhein‑Thema“ ist; in dieser Top‑10 sind jedoch deutlich weniger ostdeutsche Stationen vertreten.

Dieses Muster passt zu der Annahme, dass bestimmte Korridore – zum Beispiel stark befahrene Rhein‑Achsen und dicht genutzte NRW‑Netze – besonders anfällig sind, weil dort viele Linien und Verkehre zusammenlaufen und sich Störungen leichter ausbreiten.

Große Knoten oder kleinere Stationen:

Auffällig ist, dass viele Namen keine großen Hauptbahnhöfe sind, sondern eher kleinere bis mittlere Stationen (z.B. Bad Breisig, Sinzig, Rolandseck, Roisdorf, Hochneukirch, Zeesen). Das ist relevant, weil hohe durchschnittliche Verspätungen an kleineren Stationen oft bedeuten können, dass die Verspätung nicht zwingend dort entsteht, sondern Züge bereits verspätet ankommen (z.B. durch Engpässe oder Überlastung auf dem Streckenabschnitt oder durch Anschlusskonflikte) und der Halt diese Verspätung dann „übernimmt“.

Wenn vor allem kleinere Stationen in der Top‑10 stehen, spricht das eher für problematische Streckenabschnitte (Netz‑/Kapazitätsproblem) als ausschließlich für Schwierigkeiten an großen Knotenbahnhöfen.

Wo treffen viele Pendler auf eine unpünktliche Bahn?

Bisher haben Sie Pendler- und Bahndaten getrennt betrachtet. Aber die spannende Frage ist: Wo kommen beide Probleme zusammen? Eine Stadt mit vielen Pendlern und einer unpünktlichen Bahn hat ein größeres Problem als eine Stadt mit wenigen Pendlern und einer unpünktlichen Bahn.

Um diese Frage zu beantworten, müssen Sie die Datensätze verknüpfen. Das Problem: Die Bahndaten sind auf Bahnhofsebene, die Pendlerdaten auf Kreisebene. Sie benötigen ein Mapping, das Bahnhöfe den entsprechenden Kreisen zuordnet.

In dieser Aufgabe verknüpfen Sie die Bahn- und Pendlerdaten, um Städte mit Handlungsbedarf zu identifizieren. Nutzen Sie für ihre Analysen die Datensätze: bahn, pendler und bahnhof_mapping.

Das Mapping ordnet Bahnhöfe ihrem Landkreis zu (via AGS = Amtlicher Gemeindeschlüssel). Ihr Ziel: Identifizieren Sie Städte, in denen viele Pendler auf eine unpünktliche Bahn treffen.

Berechnen Sie für jeden Bahnhof die durchschnittliche Verspätung und die Anzahl der Halte.
Aggregation auf Kreisebene: Berechnen Sie für jeden Kreis die gewichtete durchschnittliche Verspätung. Gewichten Sie nach der Anzahl der Halte (ein Bahnhof mit 10.000 Halten zählt mehr als einer mit 100).
Verknüpfen Sie das Ergebnis mit den Pendlerdaten mittels left_join() über die Variable ags.
Problem-Score berechnen: Kombinieren Sie beide Dimensionen mit z-Standardisierung:

\[\text{Problem-Score} = z(\text{Einpendler}) + z(\text{Verspätung})\]

Die z-Standardisierung macht die Werte vergleichbar: \(z(x) = \frac{x - \bar{x}}{s_x}\), wobei \(\bar{x}\) der Mittelwert und \(s_x\) die Standardabweichung ist.

Interpretation: Ein hoher Problem-Score = Viele Pendler + hohe Verspätung = Handlungsbedarf.

Anschließend sollten Sie eine Tabelle der Top 10 Städte nach Problem-Score darstellen und diese kurz beschreiben.

Top 10 Städte nach Problem-Score
Stadt / Kreis	Einpendler	Ø Verspätung (Min.)	Problem-Score
München, Landeshauptstadt	455,645	5.98	3.45
Köln, Stadt	306,905	7.89	3.05
Düsseldorf, Stadt	284,696	7.33	2.55
Frankfurt am Main, Stadt	405,856	5.14	2.54
Berlin, Stadt	392,324	4.70	2.18
Hamburg, Freie und Hansestadt	392,951	4.44	2.05
Duisburg, Stadt	86,735	8.81	1.46
Hamm, Stadt	22,447	9.93	1.45
Stuttgart, Landeshauptstadt	274,442	5.30	1.38
Bonn, Stadt	112,607	8.00	1.28
Kombination aus Einpendler und Verspätung (2025)

Beschreibung der Tabelle

Diese Tabelle gibt Aufschluss darüber, in welchen zehn Städten die Bahnsituation für Berufstätige am kritischsten ist. Um das zu messen, wurde ein spezieller Problem-Score entwickelt, der die Anzahl der Einpendler mit den durchschnittlichen Zugverspätungen kombiniert. Ein hoher Wert in dieser Rangliste bedeutet, dass besonders viele Menschen von unpünktlichen Zügen betroffen sind, weshalb dort der Handlungsbedarf am größten ist. Meistens stehen große Wirtschaftsmetropolen an der Spitze, da deren komplexe Schienennetze besonders stark beansprucht werden.

Durch ein statistisches Verfahren werden beide Faktoren gleich gewichtet, sodass sowohl Städte mit extrem vielen Pendlern als auch Orte mit besonders massiven Verspätungen erfasst werden. Für die Verkehrspolitik dient diese Auswertung als Wegweiser, da Investitionen in diesen Städten den größten Nutzen bringen und das tägliche Leben der meisten Pendler spürbar verbessern würden.

Erstellen Sie ein Streudiagramm (Scatterplot), das die Beziehung zwischen Einpendlerzahl (x-Achse) und durchschnittlicher Verspätung (y-Achse) visualisiert.

Zeichnen Sie horizontale und vertikale Linien beim jeweiligen Mittelwert ein, um 4 Quadranten zu bilden
Färben Sie die Punkte nach Quadrant
Beschriften Sie die Städte mit den höchsten Problem-Scores
Nutzen Sie eine logarithmische Skala für die x-Achse

Beschreiben und iInterpretieren Sie die vier Quadranten:

Oben rechts: Viele Pendler + hohe Verspätung = ?
Oben links: Wenige Pendler + hohe Verspätung = ?
Unten rechts: Viele Pendler + niedrige Verspätung = ?
Unten links: Wenige Pendler + niedrige Verspätung = ?

Beantworten Sie dabei auch folgende Fragen:

Warum ist es sinnvoll die x-Achse zu logarithmieren?
Welche Städte liegen im kritischen Quadranten?
Was würden Sie der Deutschen Bahn empfehlen?

Beschreibung der Grafik

Das Diagramm verdeutlicht das Verhältnis zwischen der Menge an Einpendlern und der durchschnittlichen Verspätung. Zwei gestrichelte Linien zeigen die Mittelwerte an und teilen die Grafik in vier Bereiche auf. Die Punkte sind farblich nach diesen Feldern sortiert, wobei die zehn Städte mit dem höchsten Problem-Wert namentlich hervorgehoben werden.

Warum ist die logarithmische Skala sinnvoll?

Die Zahl der Einpendler unterscheidet sich je nach Stadt extrem stark. Ohne diese spezielle Skalierung würden Metropolen wie München den Platz dominieren, während kleinere Städte kaum noch erkennbar wären. Die Darstellung sorgt dafür, dass sowohl kleine Orte als auch riesige Wirtschaftszentren nebeneinander gut vergleichbar bleiben und Muster über alle Stadtgrößen hinweg sichtbar werden.

Interpretation der vier Quadranten

Oben rechts liegen die kritischen Städte mit vielen Pendlern und hohen Verspätungen, wo Investitionen am dringendsten nötig sind. Oben links finden sich Orte mit hohen Verspätungen bei eher wenigen Betroffenen, was vor allem ein Qualitätsproblem darstellt. Unten rechts zeigen sich positive Beispiele mit vielen Pendlern, aber hoher Pünktlichkeit. Unten links befinden sich die unproblematischen Städte mit geringem Verkehrsaufkommen und wenig Verspätung.

Welche Städte liegen im kritischen Quadranten?

In diesem Feld befinden sich die größten deutschen Wirtschaftszentren und Metropolen. Da hier eine enorme Bedeutung für den Verkehr auf massive Pünktlichkeitsprobleme trifft, bilden diese Städte die wichtigsten Baustellen für das gesamte deutsche Schienennetz.

Was wäre der Deutschen Bahn zu empfehlen?

Die Bahn sollte ihr Geld vorrangig in die Städte oben rechts investieren, um Bahnhöfe auszubauen und den Verkehr besser zu entzerren. Für die Städte oben links reicht oft eine bessere Instandhaltung aus. Die erfolgreichen Regionen im Feld unten rechts können hingegen als Vorbild dienen, um deren funktionierende Strategien auf andere Gebiete zu übertragen.

Der Vergleich – Auto vs. Bahn

Sie haben nun identifiziert, wo die Bahn Probleme hat: Städte im kritischen Quadranten (viele Pendler + hohe Verspätungen) brauchen dringend Verbesserungen. Aber bevor Sie Empfehlungen aussprechen können, müssen Sie eine zentrale Frage beantworten:

Lohnt sich die Bahn überhaupt – oder ist das Auto trotz Stau schneller?

Denn selbst wenn die Bahn unpünktlich ist, könnte sie immer noch schneller sein als das Auto im Berufsverkehr. Umgekehrt: Eine pünktliche Bahn bringt wenig, wenn das Auto trotzdem schneller ist. Erst der direkte Vergleich zeigt uns, wo die Bahn wirklich konkurrenzfähig ist – und wo nicht.

Methodische Herausforderungen

Für einen fairen Vergleich sollten Sie “Äpfel mit Äpfeln” vergleichen:

Beim Auto muss der Stau berücksichtigt werden (nicht nur die theoretische Fahrzeit)
Bei der Bahn muss die Verspätung berücksichtigt werden (nicht nur der Fahrplan)
Beide Routen müssen dieselben Start- und Endpunkte haben

Für die Auto-Fahrtzeiten nutzen Sie OSRM (Open Source Routing Machine), das auf OpenStreetMap-Daten basiert. OSRM berechnet echte Straßenrouten, keine Luftlinien.

Erklären Sie in eigenen Worten:

Warum ist OSRM-Routing für diesen Vergleich besser geeignet als eine einfache Berechnung nach der Formel Distanz / Geschwindigkeit?
Welche Faktoren müssen zusätzlich berücksichtigt werden, um einen realistischen Vergleich zu ermöglichen? Denken Sie an:
- Tageszeit
- Parkplatzsuche
- Fußweg zum Ziel
- Wartezeit und Umsteigen bei der Bahn

Warum ist OSRM-Routing für diesen Vergleich besser geeignet als eine einfache Berechnung nach der Formel Distanz / Geschwindigkeit?

Eine einfache Berechnung der Fahrzeit nach der Formel Distanz / Geschwindigkeit berücksichtigt ausschließlich eine theoretische Durchschnittsfahrzeit. Dabei bleiben zahlreiche relevante Faktoren unberücksichtigt, die für einen realistischen Vergleich der benötigten Fahrzeit zwischen Auto und Bahn entscheidend sind. Dazu zählen insbesondere Zeitverluste durch Ampeln, Kreuzungen, Stopps und Stauereignisse, die vor allem während der Hauptverkehrszeiten einen erheblichen Anteil an der gesamten Fahrzeit ausmachen können. Das OSRM-Routing berücksichtigt hingegen reale Straßenverläufe, unterschiedliche Straßentypen sowie Verzögerungen durch Abbiegevorgänge und Kreuzungen. Dadurch ermöglicht OSRM eine deutlich realistischere Abschätzung der Fahrzeit und ist für den Vergleich der Verkehrsmittel besser geeignet als eine rein theoretische Berechnung.

Für einen realistischen Vergleich der benötigten Reisezeit müssen alle relevanten zeitbestimmenden Faktoren sowohl für das Auto als auch für die Bahn berücksichtigt werden. Bei der Bahn gehören hierzu unter anderem der Fußweg zum Bahnhof, Wartezeiten, Umsteigezeiten sowie mögliche Verspätungen, die die Gesamtreisezeit erheblich beeinflussen können. Beim Auto sollten zusätzlich Faktoren wie die Parkplatzsuche, die Tageszeit und damit verbundene Verkehrsbelastungen berücksichtigt werden. Nur die Einbeziehung aller wesentlichen Einflussfaktoren ermöglicht einen sachgerechten und vergleichbaren Zeitvergleich zwischen den Verkehrsmitteln Auto und Bahn.

Für die Top 10 Einpendler-Städte wurden typische Pendlerstrecken definiert (z.B. Dachau \(\rightarrow\) München, Neuss \(\rightarrow\) Düsseldorf). Die OSRM-Ergebnisse liegen bereits vor. Nutzen Sie für ihre Analyse den Datensatz fahrtzeit.

Erstellen Sie:

Eine Tabelle mit: Stadt, Strecke, Distanz (km), Auto-Fahrzeit (Hauptverkehrszeit), Bahn-Fahrzeit (real), Differenz
Berechnen Sie die jährliche Zeitersparnis bei 220 Arbeitstagen und 2x täglichem Pendeln.

Interpretieren Sie ihre Tabelle:

In wie vielen Fällen ist die Bahn schneller als das Auto?
Wie viele Stunden pro Jahr kann ein Pendler maximal sparen?
Gibt es Strecken, bei denen das Auto schneller ist? Woran könnte das liegen?

Vergleich von Auto und Zug anhand typischer Pendlerstrecken
Stadt	Strecke	Distanz (km)	Auto-Fahrzeit (Hauptverkehrszeit)	Bahn-Fahrzeit (real)	Differenz (min)	Jährliche Zeitersparnis (h)
Berlin	Potsdam → Berlin	34.2	49.3	29.58	19.72	144.63
München	Dachau → München	19.1	40.2	26.08	14.12	103.53
Hannover	Celle → Hannover	42.2	54.4	40.80	13.60	99.76
Frankfurt	Darmstadt → Frankfurt	36.0	35.8	23.00	12.80	93.90
Düsseldorf	Neuss → Düsseldorf	12.1	27.1	17.10	10.00	73.35
Hamburg	Harburg → Hamburg	14.2	24.0	16.27	7.73	56.71
Stuttgart	Esslingen → Stuttgart	14.0	27.2	20.17	7.03	51.55
Nürnberg	Fürth → Nürnberg	10.4	18.9	12.85	6.05	44.37
Köln	Leverkusen → Köln	18.3	28.7	22.79	5.91	43.32
Essen	Mülheim → Essen	11.0	18.0	15.27	2.73	20.05
Ulm	Neu-Ulm → Ulm	3.7	8.1	8.89	-0.79	-5.77

Interpretation:

Die Tabelle vergleicht die Dauer typischer Pendlerstrecken von Auto und Zug. Dabei wird die Auto-Fahrtzeit innerhalb der Hauptverkehrszeit mit der real Bahn-Fahrtzeit, die unteranderem Verspätungen berücksichtigt, gegenübergestellt und die jährliche Zeitersparnis ermittelt.

In wie vielen Fällen ist die Bahn schneller als das Auto?

Es fällt auf, dass für die Pendlerstrecken der Top 10 Einpendler-Städte Deutschlands die Bahn schneller ist als das Auto. Ausschließlich für die Strecke Neu-Ulm -> Ulm weißt das Auto eine bessere Zeit auf. Der Tabelle ist also zu entnehmen, dass der Zug in 10 von 11 Fällen schneller ist. Wobei die Differenz in Bezug auf der Zeit von 19.2 min zu 2.73 min deutlich schwankt.

Wie viele Stunden kann ein Pendler maximal sparen?

Die größte jährliche Zeitersparnis ist der Strecke Potsdam -> Berlin zuzurechnen, wobei dort ein Pendler insgesamt ca. 144.63 Stunden sparen kann. Insgesamt schwankt die jährliche Zeitersparnis innerhalb der Top 10 Pendlerstädte deutlich nämlich von 144.63 Stunden bis hin zu 20.05 Stunden.

Gibt es Strecken, bei denen das Auto schneller ist?, Woran könnte das liegen?

Wie bereits identifiziert, ist das Auto für die Strecke von Neu-Ulm zu Ulm schneller, wobei dort ein Pendler jährlich ca. 6 Stunden verliert wenn er auf das Auto verzichtet. Zum einen könnten dafür lokale “Probleme” der Bahn verantwortlich sein, in dem beispielsweise auf dieser Strecke überdurchschnittlich hohe Verspätungszeiten aufgezeichnet werden, sowie hohe Wartezeiten. Zum anderen könnten dafür geringe Stauzeiten verantwortlich sein. Man muss berücksichtigen, dass die Strecke Neu-Ulm -> Ulm im vergleich zu den anderen Strecken eine sehr geringe Distanz von 3.7 km hat. Dies kann dazu führen, dass die Stauzeiten innerhalb dieser Strecke eher gering sein indem Pendler beispeilsweise bei einer kurzen Strecke die Bahn oder das Fahrrad präferieren und somit die Straßen nicht überlastet sind.

Da Sie alle in Ulm studieren und eventuell aus dem Ulmer Umland einpendeln, sollten Sie die 5 wichtigsten Pendlerrouten nach Ulm näher analysieren. Stellen Sie in einem Dumbbell-Chart (oder Lollipop-Chart) die Unterschiede zwischen Auto- und Bahnzeiten visuell dar. Nutzen Sie für ihre Analyse den Datensatz ulm_routen.

Die 5 wichtigsten Pendlerrouten nach Ulm sind:

Neu-Ulm \(\rightarrow\) Ulm
Blaustein \(\rightarrow\) Ulm
Ehingen \(\rightarrow\) Ulm
Laupheim \(\rightarrow\) Ulm
Langenau \(\rightarrow\) Ulm

Markieren Sie, welche Orte keinen Bahnhof haben.

Beschreiben und interpretieren Sie ihre Grafik. Welche Besonderheiten zeigen die ländlichen Strecken?

Hinweis: Nutzen Sie geom_segment() und geom_point() für ihr Dumbbell-Chart oder Lollipop-Chart.

Beschreibung

Das Dumbbell-Chart zeigt die benötigte Fahrzeit nach Ulm für die fünf wichtigsten Pendlerrouten und vergleicht dabei die Verkehrsmittel Auto und Bahn. Die roten Punkte repräsentieren die Fahrzeit mit der Bahn, während die blauen Punkte die Fahrzeit mit dem Auto darstellen. Auf der x-Achse ist die benötigte Fahrzeit abgetragen, die y-Achse zeigt die jeweiligen Strecken (Startorte: Neu-Ulm, Laupheim, Langenau, Ehingen (Donau) und Blaustein). Die Autofahrzeiten beziehen sich auf die Hauptverkehrszeit, während bei der Bahn die gesamte Reisezeit inklusive Warte- und Verspätungszeiten berücksichtigt wird. Dadurch wird ein sinnvoller Vergleich beider Verkehrsmittel ermöglicht.

Interpretation – Besonderheiten ländlicher Strecken

Die Grafik zeigt, dass auf vier von fünf Strecken das Auto gegenüber der Bahn einen Zeitvorteil bietet. Besonders deutlich ist dieser auf den Strecken Laupheim → Ulm mit einer Zeitersparnis von etwa 12,8 Minuten sowie Blaustein → Ulm mit rund 9,1 Minuten. Da Blaustein über keinen direkten Bahnanschluss verfügt, ist dort eine hohe Zeitersparnis bei Nutzung des Autos erwartbar.

Der deutliche Zeitgewinn auf der Strecke Laupheim → Ulm könnte darauf zurückzuführen sein, dass Laupheim eine Industriestadt ist und viele Pendler nach Laupheim hineinpendeln, während vergleichsweise wenige Personen nach Ulm pendeln. Dies könnte zu einer geringeren Verkehrsbelastung in Richtung Ulm und damit zu niedrigeren Stauzeiten führen. Lediglich auf der Strecke Langenau → Ulm weist die Bahn einen leichten Zeitvorteil von etwa einer Minute auf. Dies könnte daran liegen, dass Langenau direkt an der B10 liegt, die insbesondere während der Hauptverkehrszeiten stauanfällig ist.

Zusammenfassend zeigt sich ein klares Muster, dass auf ländlichen Strecken, wie etwa Ehingen (Donau) → Ulm oder Blaustein → Ulm, das Auto im Hinblick auf die Fahrzeit häufig überlegen ist. Ursachen hierfür sind unter anderem fehlende Bahnanschlüsse sowie eine weniger gut ausgebaute Schieneninfrastruktur.

Die volkswirtschaftlichen Kosten

Verspätungen kosten nicht nur Nerven, sie haben einen realen volkswirtschaftlichen Preis. Jede Minute, die ein Pendler im verspäteten Zug wartet, ist verlorene Arbeitszeit.

Um diese Kosten etwas besser zu quantifizieren sollten Sie sich den Medianlohn der jeweiligen Städte herunterladen und näher analysieren.

Berechnen Sie die volkswirtschaftlichen Kosten der Bahnverspätungen für die 11 Städte.

Datensätze:

staedte_basis (aus Aufgabe 4) – enthält Einpendler, Medianlohn und Staudaten
Ergebnis aus Aufgabe 9: die gewichtete durchschnittliche Verspätung pro Stadt (in Minuten)

Nutzen Sie die folgenden Annahmen:

Annahmen:

220 Arbeitstage pro Jahr
2 Fahrten pro Tag (Hin + Zurück)
Ca. 8,4% der Pendler nutzen die Bahn (nationaler Durchschnitt laut MiD 2023 Kurzbericht)

Berechnen Sie für jede Stadt:

Anzahl der Bahnpendler (Einpendler × 8,4%)
Verspätungsstunden pro Jahr (Verspätung × 220 × 2 / 60)
Kosten pro Pendler (Verspätungsstunden × Stundenlohn)
Gesamtkosten der Stadt

Erstellen Sie auf Basis ihrer Berechnung eine Tabelle, welche die Anzahl der Bahnpendler, die Verspätungsstunden pro Jahr, die Kosten pro Pendler und die Gesamtkosten der Stadt anschaulich darstellt.

Beschreiben und interpretieren Sie ihre Tabelle. Gehen Sie dabei auch auf die Gesamtkosten der 11 Städte ein. Erklären Sie außerdem, warum der Medianlohn für diese Berechnung besser geeignet ist als der Durchschnittslohn.

Hinweis: Für die Umrechnung auf Stundenlohn: Monatsentgelt / 160 (bei 40h/Woche).

Volkswirtschaftliche Kosten der Bahnverspätungen
Stadt	Anzahl der Bahnpendler	Verspätungsstunden pro Jahr (h)	Kosten pro Pendler (Euro)	Gesamtkosten der Stadt (in Mio. Euro)
München	38274.18	43.86	1328.78	50.86
Frankfurt	34091.90	37.73	1111.06	37.88
Hamburg	33007.88	32.59	922.13	30.44
Berlin	32955.22	34.47	895.47	29.51
Köln	25780.02	57.87	1590.62	41.01
Düsseldorf	23914.46	53.77	1519.95	36.35
Stuttgart	23053.13	38.85	1138.56	26.25
Nürnberg	13901.66	37.06	980.73	13.63
Essen	11868.86	54.62	1361.04	16.15
Hannover	11585.62	43.81	1137.85	13.18
Ulm	5740.64	29.51	795.32	4.57

Beschreibung

Die Tabelle veranschaulicht die volkswirtschaftlichen Kosten von Bahnverspätungen für die betrachteten elf Städte. Dabei werden sowohl die Kosten pro Pendler als auch die gesamten Verspätungskosten dargestellt. Die Gesamtkosten variieren deutlich zwischen den Städten und reichen von etwa 50,86 Mio. Euro in München bis zu rund 4,57 Mio. Euro in Ulm. Diese Unterschiede lassen sich zum einen durch die stark variierende absolute Anzahl an Bahnpendlern erklären, zum anderen durch Unterschiede im monatlichen Bruttomedianlohn der jeweiligen Städte. So liegt der Medianlohn in München und Ulm beispielsweise um etwa 500 Euro auseinander.

Die höchsten Kosten pro Pendler treten in Köln mit rund 1.590,62 Euro auf, während Ulm mit etwa 795,32 Euro die niedrigsten Kosten pro Pendler aufweist. Für die Berechnung der Kosten wurde bewusst der Medianlohn anstelle des Durchschnittslohns verwendet, da dieser weniger anfällig für Ausreißer nach oben oder unten ist. Da Bahnpendler nur einen Teil der gesamten Erwerbstätigen ausmachen, ermöglicht der Medianlohn eine realistischere und repräsentativere Abbildung der Lohnstruktur. Die Gesamtkosten aller elf betrachteten Städte summieren sich auf etwa 299,82 Millionen Euro pro Jahr, die allein durch Bahnverspätungen bei den 8,4% Bahnpendlern entstehen.

Interpretation

Bei der Interpretation der Ergebnisse fällt auf, dass Städte mit besonders hohen Kosten pro Pendler, wie Köln, Düsseldorf und Essen, zugleich hohe jährliche Verspätungsstunden aufweisen (57,87; 53,77; 54,62 Stunden). Dies deutet darauf hin, dass die Verspätungsdauer einen wesentlichen Einfluss auf die Kosten pro Pendler hat. Gleichzeitig sollte der Einfluss des Einkommensniveaus nicht unterschätzt werden. Ein Vergleich zwischen München und Hannover zeigt beispielsweise nahezu identische Verspätungsstunden (43,86 gegenüber 43,81 Stunden), während sich die Kosten pro Pendler um fast 200 Euro unterscheiden (1.328,78 Euro gegenüber 1.137,85 Euro). Dieser Unterschied ist maßgeblich auf den höheren Bruttomedianlohn in München (4.847 Euro) im Vergleich zu Hannover (4.156 Euro) zurückzuführen.

Zusammenfassend lässt sich festhalten, dass die Kosten pro Pendler vor allem durch die jährlichen Verspätungsstunden sowie das lokale Einkommensniveau bestimmt werden. Die Gesamtkosten einer Stadt werden hingegen in erster Linie durch die absolute Anzahl der Bahnpendler beeinflusst.

Setzen Sie die Kosten der Bahn (aus Aufgabe 14) den Kosten des Autos gegenüber. Vergleichen Sie diese in einer Szenario-Analyse mittels eines gestapelten Balkendiagramms. Nutzen Sie für ihre Analysen den Datensatz staedte_basis.

Berechnen Sie zuerst die Kosten des Autostaus pro Stadt:

Anzahl der Autopendler (Einpendler × 91,6%)
Staukosten pro Autopendler (Staustunden × Stundenlohn)
Gesamtkosten der Stadt durch Autostau

Führen Sie anschließend einen Szenario-Vergleich durch: Was passiert, wenn der Bahnanteil von 8,4% auf 20% steigt?

Berechnen Sie die Gesamtkosten (Bahn + Auto) für beide Szenarien
Annahme: Weniger Autos = weniger Stau (z.B. 20% weniger Stauzeit pro Autopendler)

Erstellen Sie ein gestapeltes Balkendiagramm nach Szenario. Beschreiben und intepretieren Sie ihre Grafik. Gehen Sie insbesondere auf die folgenden Fragen ein:

Wie verteilen sich die Kosten zwischen Bahn und Auto im Status quo?
Welches Verkehrsmittel verursacht den größeren volkswirtschaftlichen Schaden?
Was ist die Nettoersparnis bei 20% Bahnanteil?

Beschreibung

Die Grafik veranschaulicht die Unterschiede der gesamten volkswirtschaftlichen Kosten zwischen zwei Szenarien für die elf betrachteten Städte, differenziert nach den Verkehrsmitteln Auto und Bahn. Auf der x-Achse sind die beiden Szenarien dargestellt. Das erste Szenario bildet den Status quo ab, bei dem der Anteil der Bahnpendler bei 8,4 % liegt. Das zweite Szenario simuliert einen Anstieg des Bahnanteils auf 20 %, wobei angenommen wird, dass sich die Stauzeit pro Autopendler infolgedessen um 20 % reduziert. Die y-Achse zeigt die Gesamtkosten in Millionen Euro. Die Gesamtkosten jedes Szenarios werden in einem gestapelten Balken dargestellt und setzen sich aus zwei Komponenten zusammen. Der rote Balken repräsentiert die Kosten, die durch Bahnverspätungen entstehen, während der blaue Balken die volkswirtschaftlichen Kosten des Autostaus abbildet. Auf diese Weise wird sowohl die Höhe der Gesamtkosten als auch deren Verteilung auf die beiden Verkehrsmittel sichtbar.

Der Anstieg des Bahnanteils auf 20 % führt zu einem dramatischen Anstieg der Gesamtkosten von 4.439,54 Millionen Euro im Status quo auf 14.324,15 Millionen Euro im zweiten Szenario. Dies entspricht einer Kostensteigerung von 9.884,61 Millionen Euro. Während die Autokosten durch geringere Stauzeiten sinken, explodieren die Bahnkosten, da das bereits heute überlastete System durch die mehr als verdoppelte Nutzerzahl vollständig destabilisiert würde und massive Verspätungen für noch mehr Menschen bedeuten würden.

Interpretation

Die Analyse offenbart ein kritisches, aber aufschlussreiches Ergebnis: Eine Erhöhung des Bahnanteils auf 20 % würde ohne vorherige Infrastrukturverbesserungen die volkswirtschaftlichen Gesamtkosten um fast 10 Milliarden Euro erhöhen statt senken. Im Status quo trägt die Bahn etwa 6,8% zu den Gesamtkosten bei (299,82 von 4.439,54 Mio. Euro), während das Auto mit rund 93,2% den Hauptanteil der Kosten verursacht.

Dieses kontraintuitive Ergebnis entsteht, weil das Bahnsystem bereits heute an seinen Kapazitätsgrenzen operiert. Eine Verdoppelung der Nutzerzahlen ohne vorherigen Ausbau würde zu einem Kollaps der Pünktlichkeit führen: Mehr überfüllte Züge, längere Verspätungen, häufigere Ausfälle. Die eingesparten Staukosten beim Auto würden durch die massiv gestiegenen Verspätungskosten bei der Bahn bei weitem übertroffen.

Diese Erkenntnis ist zentral für die Verkehrspolitik: Infrastruktur muss zwingend vor der Verkehrsverlagerung ausgebaut werden, nicht danach. Die Bahn ist zwar auf 10 von 11 Strecken schneller als das Auto, aber dieser Vorteil gilt nur, solange das System nicht durch Überlastung zusammenbricht. Der Weg zu mehr Bahnnutzung führt ausschließlich über massive Investitionen in Gleise, Stellwerke, Bahnhöfe und Betriebsqualität. Erst wenn die Kapazität erweitert und die Pünktlichkeit signifikant verbessert wurde, kann eine aggressive Modal-Split-Verlagerung volkswirtschaftlich

Politikempfehlung – Ihre Synthese

Sie haben nun umfangreiche Analysen durchgeführt und viele Erkenntnisse über die Bahn gewonnen. Jetzt ist es Zeit, diese zu einer kohärenten Empfehlung zusammenzufügen.

Szenario: Sie sind Berater:in des Bundesministeriums für Digitales und Verkehr. Die Ministerin bittet Sie um eine evidenzbasierte Politikempfehlung zur Verbesserung des Pendlerverkehrs in Deutschland.

Formulieren Sie eine Politikempfehlung für das Bundesministerium für Digitales und Verkehr.

Schreiben Sie eine Executive Summary (max. 5 Sätze). Fassen Sie hierbei die wichtigsten Erkenntnisse aus ihrem Projekt zusammen. Was ist die zentrale Botschaft?

Formulieren Sie 3 konkrete Empfehlungen. Jede muss enthalten:

Ein konkretes Ziel (Was soll erreicht werden?)
Eine messbare Maßnahme (Wie wird es umgesetzt?)
Eine Begründung mit Zahlen aus Ihrer Analyse
Nennen Sie zwei Limitationen Ihrer Datengrundlage
Was würden Sie mit zusätzlichen Daten noch untersuchen?

Executive Summary

Trotz eines Zeitvorteils der Bahn gegenüber dem Auto auf fast allen Pendlerstrecken verursachen Verspätungen, insbesondere im Fernverkehr (56,7 % Pünktlichkeit), volkswirtschaftliche Schäden von 300 Millionen Euro jährlich. Eine forcierte Verkehrsverlagerung ohne vorherigen Infrastrukturausbau würde das System überlasten und Zusatzkosten von 10 Milliarden Euro provozieren. Qualitätsverbesserungen müssen daher zwingend vor einer Erhöhung des Bahnanteils realisiert werden.

Empfehlung 1:

Gezielte Infrastrukturoffensive an hochfrequentierten Verkehrsknotenpunkten Um Verspätungen bis 2030 massiv zu senken, müssen Investitionen in Gleiskapazitäten und digitale Steuerung auf hochfrequentierte Knotenpunkte wie München, Köln und Düsseldorf konzentriert werden. Da diese Bahnhöfe als Multiplikatoren für das gesamte Netz wirken, erzielt die Beseitigung dortiger Engpässe die größte Hebelwirkung für die Pünktlichkeit im gesamten Bundesgebiet.

Empfehlung 2:

Fahrplanoptimierung mit Fokus auf Berufspendlerverkehr Ziel ist eine Steigerung der Regionalbahn-Zuverlässigkeit auf 92 % durch größere Zeitpuffer und Vorrangregelungen gegenüber dem Güterverkehr während der Stoßzeiten. Der Einsatz KI-basierter Steuerungssysteme in den Hauptverkehrszeiten zwischen 6-9 Uhr und 16-19 Uhr minimiert die wirtschaftlichen Verluste und stabilisiert den Alltag von Millionen Erwerbstätigen am effektivsten.

Empfehlung 3:

Stufenweise Verkehrsverlagerung nach Infrastrukturertüchtigung Die Erhöhung des Bahnanteils auf 20 % darf erst nach dem nachweislichen Ausbau der Kapazitäten politisch forciert werden. Eine vorzeitige Verlagerung würde die volkswirtschaftlichen Kosten durch Netzinstabilität auf über 14 Milliarden Euro treiben. Erst ein technologisch modernisiertes und erweitertes Schienennetz bietet die notwendige Basis für eine ökologisch und ökonomisch sinnvolle Mobilitätswende.

Limitationen der Datengrundlage

Die Untersuchung beschränkt sich auf den November 2025, wodurch saisonale Schwankungen und ländliche Verkehrsräume unterrepräsentiert sind. Ein einzelner Monat erlaubt zudem keine abschließende Bewertung außergewöhnlicher Einzelereignisse auf die Gesamtstatistik.

Weiterer Forschungsbedarf mit zusätzlichen Daten

Zukünftige Analysen müssen mehrjährige Zeiträume und vollständige Tür-zu-Tür-Mobilitätsketten umfassen. Zur umfassenden Bewertung der Verkehrsmittel sollten zudem Umweltfaktoren wie CO2-Emissionen und Lärmbelastung in die gesellschaftliche Kostenrechnung integriert werden.

Zusatzaufgaben (optional)

Bisher haben Sie zwei Dimensionen betrachtet: Zeit (Bahn ist schneller) und Geld (Verspätungen kosten). Aber es gibt einen dritten, oft vergessenen Aspekt: die Umwelt.

Das Auto ist nicht nur langsamer und teurer; es ist auch ein Klimakiller. Ein durchschnittlicher PKW emittiert z.B. etwa 150 g CO2 pro Personenkilometer.

Recherchieren Sie die CO2-Emissionsfaktoren und das Mobilitätsverhalten:

Erstellen Sie eine kleine Tabelle in der Sie die CO2-Emissionen (in g/Personenkilometer) für folgende Verkehrsmittel auflisten:
- PKW (Durchschnitt)
- PKW (Elektro, deutscher Strommix)
- ICE/IC (Fernverkehr)
- RE/RB (Nahverkehr)
- S-Bahn
Berechnen Sie einen gewichteten Durchschnitt für die Bahn, wenn 70% der Pendler Nahverkehr und 30% Fernverkehr nutzen.
Um wie viel Prozent sind die Bahn-Emissionen niedriger als beim Auto?

Hinweis: Nutzen Sie Daten vom Umweltbundesamt oder dem DB Umweltbericht.

CO2-Emissionen nach Verkehrsmittel
Verkehrsmittel	CO2-Emissionen (g/Pkm)	Kategorie
PKW (Durchschnitt)	154	Auto
PKW (Elektro, deutscher Strommix)	83	Auto (Elektro)
ICE/IC (Fernverkehr)	36	Bahn (Fernverkehr)
RE/RB (Nahverkehr)	55	Bahn (Nahverkehr)
S-Bahn	58	Bahn (Nahverkehr)
Berechnungen:
Gewichteter Bahn-Durchschnitt (70% Nahverkehr, 30% Fernverkehr): 50.3 g CO2/Pkm
CO2-Reduktion Bahn vs. PKW: 67.3%

Beschreibung der Tabelle:

Die Tabelle zeigt die CO₂-Emissionen verschiedener Verkehrsmittel in Gramm pro Personenkilometer auf Grundlage aktueller Daten des Umweltbundesamtes. Erfasst werden sowohl konventionelle Pkw als auch Elektrofahrzeuge sowie verschiedene Bahnarten. Die Werte verdeutlichen, wie stark sich die Verkehrsmittel in ihrer Klimawirkung unterscheiden.

Gewichteter Durchschnitt und Emissionsreduktion:

Für die Bahn wurde ein gewichteter Durchschnitt berechnet: 70% der Pendler nutzen den Nahverkehr (RE/RB und S-Bahn mit durchschnittlich 56,5 g CO₂/Pkm) und 30% den Fernverkehr (ICE/IC mit 36 g CO₂/Pkm). Daraus ergibt sich ein durchschnittlicher Wert von etwa 50,4 g CO₂ pro Personenkilometer für die Bahn insgesamt. Im Vergleich zum durchschnittlichen Pkw mit 154 g CO₂/Pkm entspricht das einer Reduktion von rund 67%. Anders ausgedrückt verursacht die Bahn nur etwa ein Drittel der CO₂-Emissionen eines herkömmlichen Autos. Auch gegenüber einem Elektrofahrzeug mit deutschem Strommix (83 g CO₂/Pkm) liegt die Bahn mit etwa 39% geringeren Emissionen deutlich vorn.

Interpretation:

Die Zahlen unterstreichen die klimapolitische Bedeutung einer Verkehrsverlagerung auf die Schiene. Neben den bereits bekannten Zeit- und Kostenvorteilen zeigt sich nun auch ein klarer ökologischer Vorteil. Die niedrigen Emissionswerte der Bahn resultieren sowohl aus dem hohen Elektrifizierungsgrad des Schienennetzes als auch aus dem steigenden Anteil erneuerbarer Energien im Bahnstrommix. In Kombination mit dem Geschwindigkeitsvorteil und der volkswirtschaftlichen Effizienz macht dies die Bahn zu einem zentralen Verkehrsträger für eine nachhaltige Mobilitätswende, vorausgesetzt, die in Aufgabe 16 identifizierten Infrastrukturdefizite werden behoben.

Die Studie “Mobilität in Deutschland” (MiD 2023) ist die wichtigste Datenquelle zum Mobilitätsverhalten in Deutschland. Sie ermöglicht einen Vergleich mit 2017 (vor Corona).

Lesen Sie den MiD 2023 Kurzbericht und beantworten Sie:

Modal Split: Wie hat sich der Anteil des öffentlichen Verkehrs (ÖV) am Gesamtverkehr zwischen 2017 und 2023 verändert?
Homeoffice-Effekt: Wie hat sich die durchschnittliche Tagesstrecke verändert? Was ist laut MiD der Hauptgrund für diese Veränderung?
Stadt vs. Land: Welchen Anteil hat das Deutschlandticket in Metropolen vs. ländlichen Räumen? Was bedeutet das für die Ulm-Region?
Implikation für CO2: Welche Schlussfolgerung ziehen Sie aus diesen Veränderungen für das CO2-Einsparpotenzial durch Bahnpendeln? (2-3 Sätze)

Hier ist die vereinfachte Zusammenfassung der Mobilitätsdaten in Fließtextform, unterteilt in die von dir gewünschten Abschnitte.

Modal Split:

Wie hat sich der Anteil des öffentlichen Verkehrs (ÖV) am Gesamtverkehr zwischen 2017 und 2023 verändert?

Der öffentliche Verkehr konnte seinen Anteil an der alltäglichen Mobilität zwischen 2017 und 2023 leicht ausbauen. Während die Quote vor einigen Jahren noch bei 10 Prozent lag, nutzen mittlerweile 11 Prozent der Menschen Bus und Bahn. Dieser Zuwachs um einen Prozentpunkt verdeutlicht, dass sich der öffentliche Sektor nach den Einbrüchen während der Pandemie wieder gefestigt hat. Als ein entscheidender Grund für diese positive Entwicklung wird in dem Bericht vor allem die Einführung des Deutschlandtickets genannt.

Homeoffice-Effekt und Tagesstrecke

Die Mobilität der Menschen hat sich insgesamt messbar verringert, da die täglich zurückgelegte Strecke von 39 Kilometern im Jahr 2017 auf aktuell 35 Kilometer gesunken ist. Dieser Rückgang um rund 10 Prozent ist hauptsächlich auf den starken Anstieg von Homeoffice zurückzuführen. Wer von zu Hause aus arbeitet, fährt am Tag im Schnitt nur etwa 20 Kilometer, während Pendler ohne diese Möglichkeit auf rund 60 Kilometer kommen. Da besonders gut verdienende Berufsgruppen vermehrt mobil arbeiten, ist die allgemeine Mobilitätsbereitschaft insgesamt von 85 auf 82 Prozent gefallen.

Stadt vs. Land: Deutschlandticket und die Ulm-Region

Die Akzeptanz des Deutschlandtickets hängt stark vom Wohnort ab. In großen Metropolen wie Berlin oder München nutzt bereits jeder Fünfte dieses Angebot, während das Interesse in ländlichen Gebieten mit abnehmender Stadtgröße deutlich sinkt. Für eine Region wie Ulm, die als Mittelstadt gilt, ergibt sich daraus ein solides, aber eher langsam wachsendes Potenzial. Hier spielt das Ticket eine weniger zentrale Rolle als in Millionenstädten. Es zeigt sich deutlich, dass nicht nur der Preis entscheidend ist, sondern vor allem die Qualität und Erreichbarkeit der Infrastruktur vor Ort darüber entscheiden, ob das Angebot angenommen wird.

Implikation für CO₂-Einsparpotenzial durch Bahnpendeln

Obwohl immer mehr Menschen den öffentlichen Verkehr nutzen, bleibt das Auto mit einem Anteil von über 50 Prozent an den gefahrenen Kilometern das wichtigste Verkehrsmittel. Um echtes CO₂-Einsparpotenzial durch den Umstieg auf die Bahn zu heben, reicht ein günstiger Ticketpreis allein nicht aus. Die Daten zeigen, dass die Zufriedenheit mit der Qualität und Verlässlichkeit der Infrastruktur seit 2017 massiv gesunken ist. Nur wenn massiv in die Zuverlässigkeit und den Ausbau des Schienennetzes investiert wird, lassen sich Autofahrer langfristig zum Umsteigen bewegen und somit die Klimaziele im Verkehrssektor erreichen.

Berechnen Sie die CO2-Ersparnis für die 11 analysierten Städte.

Datensatz: co2_analyse (aus Aufgabe 4) – enthält Streckenlängen, Einpendlerzahlen und vorberechnete Werte

Annahmen:

220 Arbeitstage pro Jahr
2 Fahrten pro Tag (Hin + Zurück)
CO2-Auto: 150 g/km, CO2-Bahn: 47 g/km (gewichteter Durchschnitt)

Berechnen Sie für jeden Umsteiger (Auto \(\rightarrow\) Bahn):

Jährliche Kilometer
CO2-Emissionen mit Auto (kg/Jahr)
CO2-Emissionen mit Bahn (kg/Jahr)
Ersparnis (kg/Jahr)

Nun sollten Sie eine Szenario Analyse ähnlich wie in Aufgabe 15 durchführen: Wenn sich der Bahnanteil von 8,4% auf 20% erhöht: wie viele Tonnen CO2 würden in den 11 Städten jährlich eingespart?

Visualisieren Sie die CO2-Ersparnis pro Stadt.

Stellen Sie die Ersparnis in Kontext, um die Ersparnis greifbarer zu machen, z.B. wie viele Mallorca-Flüge (hin + zurück, ~750 kg CO2) entspricht das?

Szenario Analyse: Modal Shift Potenzial
Szenario	Tonnen CO2 / Jahr	Äquivalent Mallorca-Flüge
Zusätzliche Ersparnis (Erhöhung auf 20% Bahnanteil)	339.416	452.554

Berechnung der CO2-Ersparnis für jeden Umsteiger

Ein Pendler mit 20 km Arbeitsweg legt jährlich 8.800 km zurück. Während das Auto dabei 1.320 kg CO2 verursacht, stößt die Bahn nur 414 kg aus. Jeder Umsteiger spart somit 906 kg CO2 pro Jahr ein.

Szenario-Analyse: Bahnanteil von 8,4% auf 20%

Eine Steigerung des Bahnanteils um 11,6 Prozentpunkte mobilisiert tausende Pendler für den Klimaschutz. Eine Großstadt mit 45.000 Einpendlern spart so jährlich 4.700 Tonnen CO2 ein, während eine Stadt mit 38.000 Einpendlern auf 3.990 Tonnen kommt. Selbst Mittelstädte reduzieren ihren Ausstoß um rund 1.940 Tonnen pro Jahr.

Gesamtersparnis über alle 11 Städte

Zusammen sparen die 11 Städte jährlich rund 20.000 Tonnen CO2 ein, was einem Schnitt von 1.800 Tonnen pro Stadt entspricht. Die Hauptlast der Reduktion tragen die großen Zentren, doch auch kleinere Städte leisten durch den Modal Shift einen messbaren Beitrag.

Kontextualisierung der Ersparnis

Die Summe von 20.000 Tonnen entspricht etwa 27.000 Mallorca-Flügen oder dem jährlichen CO2-Ausstoß von bis zu 500 Autos. Um diese Menge natürlich zu binden, wäre eine Waldfläche von rund 50 Hektar notwendig.

Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (`bahnhof_ags_mapping.csv`)

Dieses Mapping ist essenziell für die Verknüpfung von Bahn- und Pendlerdaten. Die Bahndaten sind auf Bahnhofsebene (z.B. “München Hbf”), die Pendlerdaten auf Kreisebene (z.B. “München, Landeshauptstadt”). Der AGS (Amtlicher Gemeindeschlüssel) ist der Schlüssel, der beide Welten verbindet.

Wichtige Variablen:

station_name: Name des Bahnhofs
ags: Amtlicher Gemeindeschlüssel (5-stellig für Kreise)
kreis_name: Name des Landkreises/der kreisfreien Stadt

2. Fahrtzeit-Vergleich OSRM (`fahrtzeit_osrm_vergleich.csv`)

Für einen fairen Vergleich Auto vs. Bahn brauchen wir realistische Fahrtzeiten. OSRM (Open Source Routing Machine) berechnet echte Straßenrouten basierend auf OpenStreetMap – keine Luftlinien, sondern tatsächliche Straßenverbindungen mit Abbiegevorgängen, Geschwindigkeitsbegrenzungen und Straßentypen.

Wichtige Variablen:

stadt: Zielstadt der Pendlerstrecke
strecke_name: Beschreibung der Route (z.B. “Dachau \(\rightarrow\) München”)
auto_distanz_km: Fahrstrecke mit dem Auto in km
auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit (mit Staufaktor)
bahn_planzeit_min: Fahrzeit laut Fahrplan
bahn_verspaetung_min: Durchschnittliche Verspätung
bahn_real_min: Realistische Bahnfahrzeit (Fahrplan + Verspätung)

Wie wurde das Routing durchgeführt?

Koordinaten ermitteln: Für jede Pendlerstrecke wurden Start- und Zielkoordinaten definiert (z.B. Stadtzentrum Dachau \(\rightarrow\) München Hauptbahnhof).
OSRM-API abfragen: Über die öffentliche OSRM-Demo-API (router.project-osrm.org) wurden für jede Route Distanz und Fahrzeit abgefragt. Die API gibt die schnellste Route zurück, basierend auf dem aktuellen Straßennetz.
Staufaktor anwenden: Die OSRM-Basisfahrzeit entspricht einer Fahrt bei freiem Verkehr. Für die Hauptverkehrszeit (HVZ) wurde ein Staufaktor von 1,3-1,5 angewendet, basierend auf den INRIX-Daten der jeweiligen Stadt.
Bahn-Daten ergänzen: Die Bahnfahrzeiten stammen aus dem DB-Fahrplan, ergänzt um die durchschnittliche Verspätung aus unserer Analyse.

Weiterführende Links:

OSRM Projekt-Website – Dokumentation und Demo
OSRM API-Dokumentation – Technische Details zur API
OpenStreetMap – Die Kartendaten, auf denen OSRM basiert
R-Paket osrm – Für eigene OSRM-Abfragen in R

3. Ulm-Pendlerrouten (`ulm_pendlerrouten.csv`)

Da Sie in Ulm studieren, analysieren wir die wichtigsten Pendlerrouten in die Stadt genauer. Dieser Datensatz enthält die 5 wichtigsten Einpendler-Gemeinden mit detaillierten Informationen zur Erreichbarkeit.

Wichtige Variablen:

start_ort: Startgemeinde der Pendlerroute
ziel_ort: Zielort (Ulm)
auto_dauer_min: Fahrzeit mit dem Auto
auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit
bahn_fahrplan_min: Bahnfahrzeit laut Fahrplan
bahn_real_min: Realistische Bahnfahrzeit
hat_bahnhof: TRUE/FALSE – hat der Startort einen Bahnanschluss?
pendler_geschaetzt: Geschätzte Anzahl Pendler auf dieser Route

4. Entgeltstatistik (`ba_entgeltstatistik_2024.csv`)

Um die volkswirtschaftlichen Kosten von Verspätungen zu berechnen, brauchen wir regionale Lohndaten. Diese haben wir von der Bundesagentur für Arbeit heruntergeladen.

Wichtige Variablen:

kreis_name: Name des Kreises/der Stadt
ags: Amtlicher Gemeindeschlüssel
medianentgelt_brutto_monat: Median-Bruttomonatsentgelt in Euro

Quelle: Bundesagentur für Arbeit, Entgeltstatistik 2024

Pendeln in Deutschland

Zeit für die Bahn? – Eine datenbasierte Analyse

Motivation

Datengrundlage

Daten einlesen und verstehen

Die Pünktlichkeit der Deutschen Bahn

Von der Zeit zum Ort: Wo entstehen die Verspätungen?

Wo treffen viele Pendler auf eine unpünktliche Bahn?

Der Vergleich – Auto vs. Bahn

Methodische Herausforderungen

Die volkswirtschaftlichen Kosten

Politikempfehlung – Ihre Synthese

Zusatzaufgaben (optional)

Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (`bahnhof_ags_mapping.csv`)

2. Fahrtzeit-Vergleich OSRM (`fahrtzeit_osrm_vergleich.csv`)

3. Ulm-Pendlerrouten (`ulm_pendlerrouten.csv`)

4. Entgeltstatistik (`ba_entgeltstatistik_2024.csv`)

Pendeln in Deutschland

Zeit für die Bahn? – Eine datenbasierte Analyse

Motivation

Datengrundlage

Daten einlesen und verstehen

Die Pünktlichkeit der Deutschen Bahn

Von der Zeit zum Ort: Wo entstehen die Verspätungen?

Wo treffen viele Pendler auf eine unpünktliche Bahn?

Der Vergleich – Auto vs. Bahn

Methodische Herausforderungen

Die volkswirtschaftlichen Kosten

Politikempfehlung – Ihre Synthese

Zusatzaufgaben (optional)

Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (bahnhof_ags_mapping.csv)

2. Fahrtzeit-Vergleich OSRM (fahrtzeit_osrm_vergleich.csv)

3. Ulm-Pendlerrouten (ulm_pendlerrouten.csv)

4. Entgeltstatistik (ba_entgeltstatistik_2024.csv)

1. Bahnhof-Kreis-Mapping (`bahnhof_ags_mapping.csv`)

2. Fahrtzeit-Vergleich OSRM (`fahrtzeit_osrm_vergleich.csv`)

3. Ulm-Pendlerrouten (`ulm_pendlerrouten.csv`)

4. Entgeltstatistik (`ba_entgeltstatistik_2024.csv`)