Motivation

Jeden Morgen das gleiche Bild: Verstopfte Autobahnen, genervte Pendler, verlorene Zeit. 20,5 Millionen Menschen pendeln in Deutschland täglich zur Arbeit – die meisten davon mit dem Auto. Laut INRIX Traffic Scorecard 2024 verlieren Pendler in deutschen Großstädten zwischen 40 und 60 Stunden pro Jahr allein im Stau. Das entspricht fast einer kompletten Arbeitswoche, die im Nichts verpufft.

Die Idee liegt auf der Hand: Wer Bahn fährt, steht nicht im Stau. Aber wie schlägt sich die Bahn im Vergleich zum Auto? Ist sie wirklich schneller? Und wie zuverlässig ist sie eigentlich?

In diesem Projekt analysieren Sie Echtzeitdaten der Deutschen Bahn, Pendlerstatistiken der Bundesagentur für Arbeit, Staudaten von INRIX und die Entgeltstatistik der Bundesagentur für Arbeit. Sie werden herausfinden, dass die Antwort auf die Frage “Sollten mehr Menschen Bahn fahren?” komplexer ist, als man zunächst vermuten würde und dass sie wichtige Implikationen für die Verkehrspolitik hat.

Ihre zentrale Forschungsfrage lautet:

“Sollten mehr Menschen Bahn fahren – und was müsste sich dafür ändern?”

Datengrundlage

In diesem Projekt arbeiten Sie mit mehreren Datensätzen. Ein wichtiger Teil des Projekts ist das eigenständige Beschaffen von Primärdaten aus offiziellen Quellen.

Daten einlesen und verstehen

Bevor Sie mit der Analyse beginnen können, müssen Sie verschiedenste Datensätze einlesen und deren Struktur verstehen. Die Deutsche Bahn stellt über unterschiedliche Schnittstellen Echtzeitdaten für ihre Züge als open-source Daten zur Verfügung, welche per API-Calls geladen werden können. Jedoch gibt es von der Deutschen Bahn keine offizielle Seite, welche historische Daten zu Zugverspätungen, Ausfällen etc. für Fern- und Nahverkehrszüge sammelt. Da wir uns jedoch mit historischen Daten beschäftigen möchten, greifen wir auf Daten zurück, die von Piet Brömmel gesammelt wurden und bei Huggingface im Parquet-Format zur Verfügung gestellt wurden. Das Parquet-Format ist ein effizientes Datenformat und wird oft für große Datenmengen genutzt; in R können Sie diese Daten mit dem arrow-Paket einlesen.

  1. Wie pünktlich ist die Bahn wirklich? Um diese Frage zu beantworten, brauchen Sie echte Verspätungsdaten – nicht nur Pressemitteilungen. Die Bahndaten bilden das Herzstück unserer Analyse: Mit ihnen können Sie berechnen, wie viel Zeit Bahnfahrer durch Verspätungen verlieren und später mit den Stauzeiten der Autofahrer vergleichen.

Die Deutsche Bahn stellt Echtzeitdaten als Open Data zur Verfügung. Das Projekt piebro/deutsche-bahn-data auf Huggingface sammelt diese Daten im Parquet-Format.

Laden Sie die Datei für November 2025 direkt von Huggingface herunter und lesen Sie diesen Datensatz als bahn in R ein.

Zeigen Sie die ersten 10 Zeilen des Datensatzes in einer Tabelle und beantworten Sie anschließend folgende Fragen:

  • Wie viele Beobachtungen enthält der Datensatz? Welche Variablen sind vorhanden?
  • Was stellt eine einzelne Beobachtung dar?

Hinweis 1: Sie können auf Huggingface die gesuchte Datei hier finden und direkt die URL zu der Datei in R mitgeben

Hinweis 2: Sie können die Parquet Datei entweder lokal speichern, oder immer direkt per URL einlesen. Falls Sie die Datei lokal speichern, so wird diese nicht auf GitHub Committet, da wir dies in der .gitignore entsprechend eingestellt haben. In diesem Fall sollten alle Teammitglieder die Datei lokal zur Verfügung haben.

Hinweis 3: Achten Sie bei allen Tabellen auf einer saubere Darstellung


Erste 10 Zughalte mit Verspätungsinformationen – Deutsche Bahn, November 2025
Bahnhof Zug Zielbahnhof Verspätung (Min) Ausgefallen Ankunft geplant Ankunft tatsächlich
Stuttgart Hbf S 2 Filderstadt 5 FALSE 2025-11-01 00:55:00 2025-11-01 00:57:00
Halle (Saale) Hbf S 5 Leipzig Hbf (tief) 1 FALSE NA NA
Karlsruhe Hbf RE 1 Karlsruhe Hbf 95 FALSE 2025-10-31 23:25:00 2025-11-01 01:00:00
Regensburg Hbf ALX RE25 München Hbf 11 FALSE 2025-11-01 00:35:00 2025-11-01 00:52:00
Mannheim Hbf ICE 775 Karlsruhe Hbf 1 FALSE 2025-11-01 00:56:00 2025-11-01 00:58:00
Flughafen BER S 9 Flughafen BER 1 FALSE 2025-11-01 00:59:00 2025-11-01 01:00:00
Halle (Saale) Hbf S 8 Halle (Saale) Hbf 15 FALSE 2025-11-01 00:45:00 2025-11-01 01:00:00
München Hbf RB 40 München Hbf 0 FALSE 2025-11-01 01:00:00 2025-11-01 01:00:00
Köln Hbf IC 1952 Köln Hbf 40 FALSE 2025-11-01 00:20:00 2025-11-01 01:00:00
Freiburg (Breisgau) Hbf S 1 Freiburg (Breisgau) Hbf 0 FALSE 2025-11-01 01:00:00 2025-11-01 01:00:00

Beschreibung

Die Tabelle „Erste 10 Zughalte mit Verspätungsinformationen – Deutsche Bahn, November 2025“ zeigt die ersten 10 Zughalte der Deutschen Bahn im November 2025. Sie besteht aus 10 Beobachtungen und enthält die wichtigsten Variablen: Bahnhof, Zug, Zielbahnhof, Verspätung in Minuten, Ausgefallen, Ankunft geplant und Ankunft tatsächlich.

Eine einzelne Beobachtung beschreibt einen Halt eines Zuges an einem Bahnhof und enthält alle relevanten Informationen: welcher Zug es ist, von welchem Bahnhof er abfährt, wohin er fährt, wie viel Verspätung er hat, ob er ausgefallen ist, wann er eigentlich ankommen sollte und wann er tatsächlich angekommen ist.


  1. Wohin pendeln die Menschen? Die Bahndaten zeigen ihnen die Pünktlichkeit der Züge – aber um zu verstehen, wo gute Bahnverbindungen besonders wichtig sind, müssen Sie wissen, wohin die Menschen pendeln. Die Pendlerstatistik der Bundesagentur für Arbeit zeigt genau das: Welche Städte sind die größten Arbeitgeber-Magneten?

Laden Sie den Datensatz pendler_kreise_aufbereitet.csv aus dem Ordner daten in R ein als Datensatz pendler.

Erstellen Sie eine Tabelle der Top 10 Städte nach Einpendlern mit den Spalten: Stadt (kreis_name), Einpendler, Auspendler, Pendlersaldo.

Interpretieren Sie kurz: Welche Städte sind die größten “Pendlermagneten” Deutschlands und warum?


Top 10 Städte nach Einpendlern in Deutschland
Stadt Einpendler Auspendler Pendlersaldo
München, Landeshauptstadt 455.645 202.756 252.889
Frankfurt am Main, Stadt 405.856 111.245 294.611
Hamburg, Freie und Hansestadt 392.951 147.328 245.623
Berlin, Stadt 392.324 219.898 172.426
Köln, Stadt 306.905 138.422 168.483
Düsseldorf, Stadt 284.696 97.326 187.370
Stuttgart, Landeshauptstadt 274.442 100.095 174.347
Nürnberg, Stadt 165.496 78.557 86.939
Essen, Stadt 141.296 90.906 50.390
Region Hannover 137.924 69.974 67.950

Beschreibung

Die Tabelle zeigt die Top 10 Städte Deutschlands nach Einpendlern im Vergleich zu Auspendlern und dem Pendlersaldo. Jede Zeile stellt einen Kreis oder eine Stadt dar und enthält die Anzahl der Einpendler, Auspendler sowie die Differenz zwischen beiden.

Interpretation

Besonders auffällig sind Städte wie München, Frankfurt am Main, Hamburg und Berlin, die einen hohen Pendlersaldo aufweisen und damit die größten Pendlermagneten Deutschlands sind. Diese Städte ziehen viele Pendler an, weil sie eine hohe Dichte an Arbeitsplätzen, Büros, Behörden oder Industriezentren bieten. Gleichzeitig ist die Zahl der Einwohner, die die Stadt verlassen, um woanders zu arbeiten, im Vergleich gering. Der positive Pendlersaldo zeigt somit, dass diese Städte netto Menschen für Arbeit anziehen und besonders für Berufspendler attraktiv bleiben.


  1. Was kostet das Auto? Sie haben jetzt Bahndaten und wissen, wohin die Menschen pendeln. Aber um fair vergleichen zu können, brauchen Sie auch die Alternative: Wie viel Zeit verlieren Autofahrer im Stau? Diese Daten liefert INRIX – ein Unternehmen, das weltweit Verkehrsdaten sammelt. Später werden Sie diese Staukosten mit den Bahnverspätungen vergleichen.

Besuchen Sie die INRIX Global Traffic Scorecard und suchen Sie die Stauzeiten für die Top 10 Städte aus Aufgabe 2 und zusätzlich die Stauzeiten für Ulm. INRIX misst, wie viele Stunden Autofahrer jährlich im Stau verlieren.

  • Erstellen Sie eine eigene CSV-Datei inrix_staedte_2024.csv mit folgenden Spalten für die geforderten Städte:
    • stadt: Name der Stadt
    • stau_stunden_jahr: Jährliche Staustunden pro Fahrer
    • kosten_eur: Jährliche Kosten pro Fahrer (findet sich in der tiefergehenden Übersicht)
  • Berechnen Sie für jede Stadt, wie viele Arbeitstage pro Jahr im Stau verloren gehen. Annahme: Ein Arbeitstag = 8 Stunden.

Erstellen Sie anschließend eine schöne Tabelle mit: Stadt, Staustunden/Jahr, verlorene Arbeitstage und beschreiben diese. In welcher Stadt ist die Stausituation am schlimmsten? Wie viele Arbeitstage verliert ein typischer Pendler dort pro Jahr?

Hinweis: Auf der INRIX-Website können Sie nach bei “Jump to City Rankings” -> “Search the List” -> “Germany” oder der konkreten Stadt filtern.


Staustunden und verlorene Arbeitstage in ausgewählten deutschen Städten (2024)
Stadt Staustunden pro Jahr Verlorene Arbeitstage pro Jahr
München, Landeshauptstadt 57 7.1
Frankfurt am Main, Stadt 55 6.9
Hamburg, Freie und Hansestadt 46 5.8
Berlin, Stadt 60 7.5
Köln, Stadt 67 8.4
Düsseldorf, Stadt 63 7.9
Stuttgart, Landeshauptstadt 60 7.5
Nürnberg, Stadt 38 4.8
Essen, Stadt 46 5.8
Region Hannover 54 6.8
Ulm, Stadt 30 3.8

Beschreibung

Die Tabelle zeigt die Top-10 Städte nach Einpendlern und die Stadt Ulm im Jahr 2025 und gibt einen Überblick darüber, wie viele Stunden Pendler dort durchschnittlich pro Jahr im Stau stehen. Zusätzlich wird angegeben, wie viele Arbeitstage dadurch im Schnitt verloren gehen, wobei ein Arbeitstag mit 8 Stunden angesetzt wurde.

Interpretation

Es lässt sich erkennen, dass Düsseldorf, Stuttgart, Berlin und Köln die höchsten Stauwerte aufweisen, mit 60–67 Stunden pro Jahr. Am stärksten betroffen ist Köln: Ein typischer Pendler dort verliert rund 8,4 Arbeitstage pro Jahr allein durch Zeit im Verkehr – das entspricht fast anderthalb Wochen Arbeit, die ausschließlich durch Staus verloren gehen. Ulm hingegen verzeichnet mit 30 Stunden die geringste Stausituation. Die Anzahl der verlorenen Arbeitstage korreliert dabei stark mit den Staustunden: Je mehr Zeit Pendler im Stau verbringen, desto mehr Arbeitstage gehen verloren. Im Schnitt verliert ein typischer Pendler in den untersuchten Städten etwa 6,57 Arbeitstage pro Jahr durch Staus.


  1. Für die weiteren Analysen stellen wir Ihnen fünf zusätzliche Datensätze bereit. Diese laden Sie jetzt, damit sie in allen folgenden Aufgaben direkt verfügbar sind.

Laden Sie die folgenden Datensätze aus dem Ordner daten und speichern Sie diese unter den angegebenen Variablennamen:

Datei Variablenname Verwendet in
bahnhof_ags_mapping.csv bahnhof_mapping Aufgabe 9-10
fahrtzeit_osrm_vergleich.csv fahrtzeit Aufgabe 12
ulm_pendlerrouten.csv ulm_routen Aufgabe 13
ba_entgeltstatistik_2024.csv entgelt für staedte_basis
co2_analyse.csv co2_analyse Aufgabe 19 (Bonus)

Verschaffen Sie sich einen ersten Überblick über die Struktur der Daten (z.B. mit glimpse(), dies sollte später in ihrem HTML Dokument nicht sichtbar sein!).

Erstellen Sie außerdem einen Master-Datensatz staedte_basis für die Top-11-Städte (Top 10 Pendlerstädte + Ulm), der die Daten aus pendler, entgelt und inrix kombiniert. Dieser Datensatz vereinfacht die späteren Analysen (ab Aufgabe 14), da alle relevanten Kennzahlen bereits zusammengeführt sind.

Der Master-Datensatz sollte folgende Spalten enthalten:

  • ags: Amtlicher Gemeindeschlüssel
  • stadt: Stadtname (Kurzform, z.B. “München”)
  • einpendler: Anzahl Einpendler
  • median_monat_eur: Medianlohn pro Monat
  • median_stunde_eur: Medianlohn pro Stunde (Monatslohn / 160)
  • stau_stunden_jahr: Stauzeit pro Jahr (aus INRIX)

Hinweis 1: Die Datensätze verwenden unterschiedliche Namensformate: pendler hat offizielle Namen (“München, Landeshauptstadt”), während entgelt und inrix Kurznamen (“München”) verwenden. Nutzen Sie den AGS als zuverlässigen Schlüssel für die Verknüpfung mit pendler. Tipp: entgelt enthält sowohl AGS als auch Kurznamen und eignet sich daher gut als Ausgangspunkt.

Hinweis 2: Eine ausführliche Beschreibung der Datensätze finden Sie im Anhang A.



Die Pünktlichkeit der Deutschen Bahn

Nachdem Sie nun einen Überblick über die Daten haben, welche wir in diesem Projekt verwenden möchten, tauchen Sie tiefer in die Bahndaten ein. Die zentrale Frage ist: Wie zuverlässig ist die Deutsche Bahn wirklich?

Die Bahn unterscheidet verschiedene Zugtypen, vom ICE über den RE bis zur S-Bahn. Jeder Zugtyp hat unterschiedliche Eigenschaften: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Aber welcher Zugtyp ist am pünktlichsten?

  1. Welche Züge sind (un)pünktlich? Nicht alle Züge sind gleich: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Um später sinnvolle Empfehlungen geben zu können, müssen Sie verstehen, welche Zugtypen besonders problematisch sind. Dafür klassifizieren Sie die Züge anhand ihrer Namen. Nutzen Sie für diese Analyse den Datensatz bahn.

Die Variable train_name enthält den Zugnamen (z.B. “ICE 123”, “S 5”, “RE 8”).

Zugtyp Regel Beispiel
ICE beginnt mit “ICE” ICE 123
IC/EC beginnt mit “IC” oder “EC” IC 2012, EC 6
IRE/RE beginnt mit “RE” oder “IRE” RE 5, IRE 200
RB beginnt mit “RB” RB 26
S-Bahn beginnt mit “S” (mit Leerzeichen!) S 5
Sonstige alle anderen U 6, STB 123

Erstellen Sie auf dieser Basis eine Tabelle, welche pro Zugtyp folgende Kennzahlen anschaulich darstellt:

Beschreiben und Interpretieren Sie die Tabelle.

Weiterhin sollten Sie ihre Ergebnisse verifizieren. Dafür können Sie auf die offizielle Pünktlichkeitswerte der Deutschen Bahn zurückgreifen (recherchieren Sie diese selbstständig).

Stimmen Ihre Ergebnisse mit den offiziellen Werten überein? Falls nicht: Welche methodischen Unterschiede könnten die Abweichung erklären?

Hinweis: Nutzen Sie str_detect() aus dem stringr-Paket. Achten Sie auf die Reihenfolge der Bedingungen!


Pünktlichkeit und Ausfälle im Schienenverkehr nach Zugkategorie im November 2025
Zugtyp Anzahl Fahrten Ø Verspätung (Min) Pünktlichkeitsquote (%) Ausfallquote (%)
S-Bahn 6.414.045 2,9 87,4 5,5
Sonstige 2.938.815 3,5 84,7 2,6
RB 2.675.028 3,5 85,2 3,2
IRE/RE 1.673.555 6,1 74,1 3,6
ICE 171.516 12,5 56,7 4,2
IC/EC 70.602 11,0 60,2 7,2
Note:
Quelle: Eigene Berechnungen auf Basis der Bahndaten. Pünktlich definiert als Verspätung ≤ 6 Min.

Beschreibung

Die vorliegende Tabelle quantifiziert die Betriebsqualität der Deutschen Bahn, differenziert nach den wesentlichen Zuggattungen (ICE, IC/EC, IRE/RE, RB, S-Bahn). Als Datengrundlage dienten die aggregierten Bewegungsdaten des November 2025. Zur Beurteilung der Zuverlässigkeit wurden vier Kennzahlen herangezogen: das absolute Verkehrsaufkommen (Anzahl Fahrten), die mittlere Verspätung in Minuten (Ø Verspätung), die Pünktlichkeitsquote (definiert als Anteil der Ankünfte mit einer Verzögerung von \(\leq 6\) Minuten) sowie die Ausfallquote.

Die Auswertung zeigt deutliche Unterschiede zwischen den Verkehrsträgern. Während insbesondere S-Bahnen und Regionalbahnen eine hohe Pünktlichkeitsquote von bis zu 87,4 % aufweisen, ist diese im Fernverkehr (ICE, IC/EC) mit ca. 60 % signifikant niedriger. Zugtypen mit einer niedrigeren Pünktlichkeitsquote weisen erwartungsgemäß auch eine höhere mittlere Verspätungsdauer auf. Zudem wird ersichtlich, dass die Ausfallquote im Fernverkehr tendenziell höher ausfällt als im S-Bahn-Verkehr.

Interpretation

Diese Diskrepanz in der Zuverlässigkeit zwischen dem Fernverkehr und dem Nahverkehr lässt sich durch systemische und strukturelle Faktoren der Bahnbetriebsführung erklären:

Die Zuggattungen ICE und IC/EC legen weite Distanzen zurück und passieren dabei zahlreiche Knotenpunkte. Da das deutsche Schienennetz als Mischverkehrsnetz konzipiert ist – das bedeutet, dass Fern-, Nah- und Güterverkehr oft dieselbe Infrastruktur nutzen, steigt mit jedem gefahrenen Kilometer die Wahrscheinlichkeit für exogene Störungen wie zum Beispiel Signalstörungen oder vorausfahrende langsamere Züge. Diese Verspätungen akkumulieren sich über den langen Laufweg, was die im Vergleich zum Nahverkehr deutlich höhere durchschnittliche Verspätung und die geringere Pünktlichkeitsquote erklärt.

Im Gegensatz dazu operieren S-Bahnen und Regionalbahnen (RB) auf kürzeren Relationen. Insbesondere S-Bahnen verfügen in Ballungsräumen häufig über eine eigene, vom übrigen Verkehr separierte Infrastruktur, was die Anfälligkeit für Dominoeffekte aus dem Fernverkehr reduziert. Die hohe Haltestellendichte und die kürzeren Wendezeiten erlauben es zudem oft, geringe Verspätungen schneller wieder auszugleichen, was sich in der hohen Pünktlichkeitsquote widerspiegelt.

Die beobachteten Ausfallquoten deuten darauf hin, dass bei massiven Störungen im Betriebsablauf, verursacht durch Ereignisse wie Unwetter oder Streckensperrungen, Züge oft eher komplett gestrichen werden, um das Gesamtsystem zu entlasten, anstatt sie mit extremen Verspätungen durch das Netz zu führen.

Im Vergleich zu den offiziellen Pünktlichkeitswerten der Deutschen Bahn im November 2025 (Deutsche Bahn AG 2025) sind die akkumulierten Daten recht ähnlich: Die offizielle Pünktlichkeitsquote des Fernverkehrs beträgt 54,5 % (Deutsche Bahn AG 2025), während in der obigen Tabelle die Pünktlichkeitsquote des ICE bei 56,7 % liegt und die der IC/EC-Züge bei 60,2 %. Die offizielle Pünktlichkeit des Personennahverkehrs beträgt 84,5 % (Deutsche Bahn AG 2025)und die akkumulierte Pünktlichkeitsquote der S-Bahn liegt bei 87,4 %. Die offizielle Quote des Nahverkehrs ist jedoch fast identisch mit der Pünktlichkeitsquote der RB, denn beide Male liegt sie bei ca. 85,2 % (Deutsche Bahn AG 2025).

Der größte methodische Unterschied besteht darin, dass die offizielle Pünktlichkeitsstatistik der DB keine Zugausfälle berücksichtigt. Ein Zug, der nicht fährt, fehlt in der Statistik einfach. Zudem können kleinere prozentuale Unterschiede darin begründet liegen, dass die Deutsche Bahn die Pünktlichkeit an jedem Halt misst und nicht nur an ausgewählten Bahnhöfen. Außerdem ist „pünktlich“ als „weniger als 6 Minuten“ definiert (also sekundengenau), während der vorliegende Datensatz die Verspätung in Minuten angibt, weshalb Rundungsdifferenzen auftreten können.

Somit lässt die Analyse schließen, dass der Nahverkehr seiner Funktion als verlässliches Pendler-Medium weitgehend gerecht wird, der Fernverkehr jedoch unter einer systemimmanenten Anfälligkeit für Verzögerungen leidet, die primär aus der hohen Netzauslastung und den langen Laufwegen resultiert.


  1. In Aufgabe 5 haben Sie gesehen, dass Fernverkehrszüge (ICE, IC/EC) deutlich höhere Verspätungen und Ausfallquoten haben als Nahverkehrszüge (IRE, RE, RB, S-Bahn). Aber wie relevant ist das für den typischen Pendler? Das hängt davon ab, wie viele Züge jeweils unterwegs sind. Nutzen Sie für diese Analyse den Datensatz bahn (mit der in Aufgabe 5 erstellten Variable zugtyp).

Klassifizieren Sie die Züge in zwei Kategorien:

Erstellen Sie ein Liniendiagramm, das die durchschnittliche Anzahl der Fahrten pro Stunde im Tagesverlauf zeigt:

Tipp: Extrahieren Sie die Stunde aus der Variable time mit hour() aus dem lubridate-Paket. Berechnen Sie dann die durchschnittliche Anzahl Fahrten pro Stunde und Zugtyp.

Beschreiben und interpretieren Sie ihre Grafik. Beantworten Sie zusätzlich die folgenden Fragen:


Beschreibung

Das vorliegende Liniendiagramm visualisiert das durchschnittliche Verkehrsaufkommen im deutschen Schienennetz im Tagesverlauf, differenziert nach den Kategorien Nahverkehr und Fernverkehr. Auf der x-Achse ist die Uhrzeit in Stunden von 0 bis 23 Uhr abgetragen, während die y-Achse die durchschnittliche Anzahl der Züge pro Stunde darstellt.

Die Kurve des Nahverkehrs dominiert das Diagramm hinsichtlich des absoluten Volumens deutlich. Ausgehend von einem Nachtwert um ca. 11.000 Zügen sinkt das Aufkommen auf ein Minimum zwischen 3:00 und 4:00 Uhr auf unter 5.000 Zügen. Ab 4:00 Uhr ist ein steiler Anstieg zu verzeichnen, der in einem ersten Spitze gegen 8:00 Uhr mit rund 20.000 Zügen gipfelt. Nach einer minimalen Konsolidierung zur Mittagszeit steigt die Kurve erneut leicht an und erreicht nochmal ihr absolutes Maximum mit 20.000 Zügen zwischen 16:00 und 18:00 Uhr, bevor sie zum Tagesende hin wieder abfällt.

Im Kontrast dazu verläuft die Kurve des Fernverkehrs extrem flach und bewegt sich im Vergleich auf einem sehr niedrigen absoluten Niveau. Eine signifikante fluktuierende Dynamik wie beim Nahverkehr ist optisch kaum wahrnehmbar; das Angebot scheint über den Tageszeitraum relativ konstant zu sein, wobei in den frühen Morgenstunden (ca. 1:00 bis 4:00 Uhr) auch hier der Betrieb fast vollständig ruht.

Interpretation

Die Grafik verdeutlicht die immense quantitative Dominanz des Personennahverkehrs gegenüber dem Fernverkehr. Das Verhältnis der Fahrtenanzahl zeigt, dass das deutsche Schienennetz primär durch S-Bahnen und Regionalzüge ausgelastet wird.

Der Kurvenverlauf des Nahverkehrs spiegelt exakt den gesellschaftlichen Rhythmus der Berufstätigen und Schüler wider, die klassische Pendlerströme. Die steile Flanke am Morgen markiert den Berufsverkehr, während das breite Plateau am Nachmittag den gestaffelten Feierabendverkehr abbildet. Das Minimum in der Nacht zwischen 3:00 Uhr und 4:00 Uhr ist operativ notwendig, da in diesem Zeitfenster häufig Wartungsarbeiten an der Infrastruktur stattfinden und die Nachfrage ebenso gegen Null tendiert.

Die Tatsache, dass der Fernverkehr (ICE, IC/EC) in dieser Darstellung fast verschwindet, liegt auch an der Taktfrequenz. Während S-Bahnen in Ballungsräumen oft im 10- oder 20-Minuten-Takt verkehren und ein sehr engmaschiges Netz bedienen, fahren Fernzüge meist nur im Stundentakt auf ausgewählten Strecken.

Das Muster zwischen Fern- und Nahverkehr unterscheiden sich erheblich denn der Nahverkehr ist volatil und bedarfsorientiert. Er reagiert extrem stark auf die Tageszeit mit ausgeprägten Spitzen und Tälern, diktiert durch Arbeits- und Schulzeiten.
Der Fernverkehr hingegen ist konstant und angebotsorientiert, er deckt über den Tag verteilt eine stabiles Grundlast, unabhängig von kurzfristigen Pendlerströmen, da Reiseanlässe im Fernverkehr weniger stark an feste Uhrzeiten wie 8:00 Uhr Arbeitsbeginn gebunden sind.

Diese Information ist später wichtig, denn die Verteilung ist für die Bewertung der Netzstabilität und Verspätungsausbreitung unabdingbar.

Eine hohe Verkehrsdichte entspricht einem hohen Risiko für Folgeschäden. Um 8:00 Uhr und 17:00 Uhr ist das Netz “voll”. Eine einzige Signalstörung oder ein liegengebliebener Zug hat in diesen Zeiten weitaus gravierendere Auswirkungen durch einen möglichen Dominoeffekt auf hunderte andere Züge, als dieselbe Störung um 11:00 Uhr oder 23:00 Uhr.

Da der Großteil der Fahrten im Nahverkehr stattfindet, wiegt eine systemische Verspätung dort quantitativ schwerer für die Gesamtstatistik. Gleichzeitig müssen sich die wenigen Fernverkehrszüge die Gleise mit der Masse an Nahverkehrszügen teilen, gerade in der “Rush Hour” ist dies am schwierigsten, was die Verspätungsanfälligkeit des Fernverkehrs in diesen Stunden zusätzlich erklärt.


Nachdem Sie in Aufgabe 6 herausgefunden haben, dass es deutlich mehr Nahverkehrszüge als Fernverkehrszüge gibt, und diese für Pendler wichtiger sind, sollten Sie sich die Verspätungen der Nahverkehrszüge über den Tag anschauen, da diese vermutlich nicht gleichmäßig über den Tag verteilt sind. Pendler erleben die Bahn vor allem in der Hauptverkehrszeit, d.h. morgens zwischen 7 und 9 Uhr und abends zwischen 16 und 19 Uhr. Aber ist die Bahn zu diesen Zeiten besonders unpünktlich?

  1. Erstellen Sie zwei Heatmaps, die zeigen, wie sich die Verspätungen nach Tageszeit (Stunde) und Wochentag für die Nahverkehrszüge und die Fernverkehrszüge verteilen. Nutzen Sie für diese Analyse den Datensatz bahn.

Tipp zur Farbskala: Da Fernverkehrszüge im Durchschnitt höhere Verspätungen haben als Nahverkehrszüge, können Sie unterschiedliche Farbskalen für die beiden Heatmaps verwenden (z.B. Blau-Töne für Nahverkehr, Rot-Töne für Fernverkehr). Dadurch werden die Muster innerhalb jeder Verkehrsart besser sichtbar.

Beschreiben und interpretieren Sie ihre Grafiken.


Beschreibung

Die beiden gezeigten Heatmaps visualisieren die durchschnittliche Zugverspätung, differenziert nach Nahverkehr und Fernverkehr. In beiden Grafiken ist auf der x-Achse die Tageszeit in Stunden abgebildet (von 5 Uhr bis 23 Uhr). Die y-Achse zeigt die Wochentage von Montag bis Sonntag.

Jede Zelle repräsentiert die durchschnittliche Verspätung aller erfassten Zugverbindungen zu einem bestimmten Zeitpunkt und Wochentag. Die Werte werden über die Farbskala kodiert, deren Intensität mit steigender Verspätung zunimmt. Im Nahverkehr erfolgt die Darstellung mittels verschiedener Blautöne, im Fernverkehr mittels Rotstufen. Eine rechts angeordnete Legende weist den jeweiligen Farbbereichen Verzögerungen in Minuten zu.

Interpretation

Die beiden Heatmaps zeigen unterschiedliche zeitliche Muster von Zugverspätungen im Nah- und Fernverkehr. Im Nahverkehr erreichen die Verspätungen vor allem werktags ihre höchsten Werte, und zwar zu den klassischen Pendlerzeiten am Morgen sowie erneut am späten Nachmittag und frühen Abend. Am Wochenende verteilen sich die Verzögerungen gleichmäßiger über den Tag, ohne eindeutige Spitzen. Im Fernverkehr liegen die Verspätungen insgesamt deutlich höher und sind besonders am Nachmittag und Abend ausgeprägt.

Damit wird sichtbar, dass sich Nah- und Fernverkehr nicht nur im Ausmaß, sondern auch im zeitlichen Verlauf der Verspätungen unterscheiden. Der Nahverkehr ist zwar insgesamt pünktlicher, reagiert aber besonders empfindlich auf das Berufsverkehrsaufkommen. Der Fernverkehr zeigt dagegen ein breiteres Verspätungsfenster und wird vor allem durch überregionale Reiseströme beeinflusst. Für Pendler bedeutet dies vor allem im Nahverkehr planbare Einschränkungen zur Rushour, etwa längere Fahrtzeiten oder engere Umsteigsfenster. Zugleich können Verbindungen im Fernverkehr, die im Arbeitsalltag als Ergänzung genutzt werden, stärker schwanken und damit weniger verlässlich sein. Insgesamt verdeutlichen die Darstellungen, dass Pünktlichkeit im Bahnverkehr sowohl vom Verkehrstyp als auch vom Zeitpunkt der Reise geprägt ist und regelmäßige Nutzer insbesondere zu Stoßzeiten mit Verzögerungen rechnen müssen.


Von der Zeit zum Ort: Wo entstehen die Verspätungen?

In Aufgabe 7 haben Sie analysiert, wann die Verspätungen auftreten, nämlich vor allem zu den Hauptverkehrszeiten. Aber die nächste wichtige Frage ist: Wo entstehen diese Verspätungen?

Aggregierte Statistiken wie Durchschnittswerte über ganz Deutschland verbergen oft große regionale Unterschiede. Vielleicht gibt es einzelne “Problembahnhöfe”, die den Durchschnitt nach oben ziehen? Oder sind die Verspätungen gleichmäßig über das Netz verteilt? Diese Frage ist wichtig, weil sie unterschiedliche Lösungsansätze impliziert: Bei wenigen Problembahnhöfen könnte die Bahn gezielt investieren, bei flächendeckenden Problemen bräuchten Sie systemische Lösungen.

  1. Identifizieren Sie die 10 unpünktlichsten Bahnhöfe in Deutschland (mit mindestens 1.000 Halten im Monat). Nutzen Sie für diese Analyse den Datensatz bahn.

Erstellen Sie ein Balkendiagramm, das die durchschnittliche Verspätung dieser Bahnhöfe zeigt. Beschriften Sie die Balken mit den Verspätungswerten.

Beschreiben und interpretieren Sie ihre Grafik.

  • Sehen Sie ein geografisches Muster?
  • Handelt es sich um große Knotenbahnhöfe oder eher um kleinere Stationen?

Beschreibung

Die Grafik stellt die 10 unpünklichsten Bahnhöfe in Deutschland dar, basierend auf Stationen mit mindestens 1000 Zughalten. In einem horizontalen Balkendiagramm sind die Bahnhöfe auf der y-Achse gelistet, während die x-Achse jeweils die durchschnittliche Verspätung in Minuten zeigt. Die Balken sind nach abnehmender Verspätung sortiert und bewegen sich im Bereich von etwa 12 bis 15 Minuten.

Interpretation

Die dargestellte Rangliste zeigt, dass die unpünktlichsten Bahnhöfe überwiegend kleine Stationen und keine großen Verkehrsknotenpunkte sind. Besonders deutlich wird zudem eine räumliche Konzentration entlang einzelner Strecken: Die Bahnhöfe Brühl, Roisdorf, Bornheim-Sechtheim, Bad Breisig, Sinzig (Rhein), und Rolandseck liegen sämtlich an der linksrheinischen Bahnstrecke zwischen Köln und Koblenz. Die wiederholte Nennung von Stationen derselben Strecke legt nahe, dass die hohen durchschnittlichen Verspätungen weniger auf bahnhofsspezifische Besonderheiten als vielmehr auf strukturelle oder betriebliche Probleme dieses Streckenabschnitts zurückzuführen sind, etwa eine hohe Streckenauslastung, bauliche Einschränkungen oder eine erhöhte Störanfälligkeit im Regionalverkehr. Auch die Bahnhöfe Hochneukirch und Rheydt-Odenkirch liegen auf derselben regionalen Verbindung im Raum Mönchengladbach, was diese Muster zusätzlich unterstreicht. Insgesamt deutet die Analyse darauf hin, dass Verspätungen räumlich nicht zufällig verteilt sind, sondern sich entlang bestimmter Strecken kummulieren, wodurch die Ergebnisse nicht vollständig unabhängig voneinander interpretiert werden sollten.


Wo treffen viele Pendler auf eine unpünktliche Bahn?

Bisher haben Sie Pendler- und Bahndaten getrennt betrachtet. Aber die spannende Frage ist: Wo kommen beide Probleme zusammen? Eine Stadt mit vielen Pendlern und einer unpünktlichen Bahn hat ein größeres Problem als eine Stadt mit wenigen Pendlern und einer unpünktlichen Bahn.

Um diese Frage zu beantworten, müssen Sie die Datensätze verknüpfen. Das Problem: Die Bahndaten sind auf Bahnhofsebene, die Pendlerdaten auf Kreisebene. Sie benötigen ein Mapping, das Bahnhöfe den entsprechenden Kreisen zuordnet.

  1. In dieser Aufgabe verknüpfen Sie die Bahn- und Pendlerdaten, um Städte mit Handlungsbedarf zu identifizieren. Nutzen Sie für ihre Analysen die Datensätze: bahn, pendler und bahnhof_mapping.

Das Mapping ordnet Bahnhöfe ihrem Landkreis zu (via AGS = Amtlicher Gemeindeschlüssel). Ihr Ziel: Identifizieren Sie Städte, in denen viele Pendler auf eine unpünktliche Bahn treffen.

\[\text{Problem-Score} = z(\text{Einpendler}) + z(\text{Verspätung})\]

Die z-Standardisierung macht die Werte vergleichbar: \(z(x) = \frac{x - \bar{x}}{s_x}\), wobei \(\bar{x}\) der Mittelwert und \(s_x\) die Standardabweichung ist.

Interpretation: Ein hoher Problem-Score = Viele Pendler + hohe Verspätung = Handlungsbedarf.

Anschließend sollten Sie eine Tabelle der Top 10 Städte nach Problem-Score darstellen und diese kurz beschreiben.


Top 10 Städte mit Handlungsbedarf: Viele Pendler und hohe Bahnverspätungen
Kreis / Stadt Einpendler Ø Verspätung (Min) Problem-Score
München, Landeshauptstadt 455.645 6.0 3.45
Köln, Stadt 306.905 7.9 3.05
Düsseldorf, Stadt 284.696 7.3 2.55
Frankfurt am Main, Stadt 405.856 5.1 2.54
Berlin, Stadt 392.324 4.7 2.18
Hamburg, Freie und Hansestadt 392.951 4.4 2.05
Duisburg, Stadt 86.735 8.8 1.46
Hamm, Stadt 22.447 9.9 1.45
Stuttgart, Landeshauptstadt 274.442 5.3 1.38
Bonn, Stadt 112.607 8.0 1.28
Note:
Quelle: Eigene Berechnungen auf Basis der Bahn-, Pendler- und Mapping-Daten. Der Problem-Score ergibt sich aus der Summe der z-standardisierten Einpendlerzahlen und der z-standardisierten gewichteten durchschnittlichen Verspätung auf Kreisebene.

Beschreibung

Die Tabelle zeigt die zehn Kreise bzw. Städte mit dem höchsten Problem-Score, der sich aus der Kombination der Einpendlerzahlen und der gewichteten durchschnittlichen Bahnverspätung ergibt. Hohe Werte weisen auf Regionen hin, in denen viele Pendler auf eine vergleichsweise unpünktliche Bahn treffen. Besonders große Städte und zentrale Verkehrsknoten erreichen hohe Problem-Scores entweder aufgrund sehr hoher Pendlerzahlen, erhöhter Verspätungen oder einer Kombination aus beiden Faktoren.


  1. Erstellen Sie ein Streudiagramm (Scatterplot), das die Beziehung zwischen Einpendlerzahl (x-Achse) und durchschnittlicher Verspätung (y-Achse) visualisiert.

Beschreiben und iInterpretieren Sie die vier Quadranten:

Beantworten Sie dabei auch folgende Fragen:


Beschreibung

Das Streudiagramm stellt die Beziehung zwischen der Anzahl der Einpendler (logarithmische Skala) und der gewichteten durchschnittlichen Bahnverspätung auf Kreisebene dar. Die gestrichelten Linien markieren jeweils den Mittelwert der Einpendlerzahl (vertikal) und der Verspätung (horizontal) und teilen den Plot in vier Quadranten. Die Farbgebung der Punkte macht diese Quadranten sichtbar, während besonders problematische Städte mit hohen Problem-Scores beschriftet sind.

Interpretation der vier Quadranten

Oben rechts: Viele Pendler + hohe Verspätung (kritischer Quadrant)

Dieser Quadrant beschreibt die problematischsten Regionen. Hier treffen sehr viele Pendler auf überdurchschnittlich hohe Bahnverspätungen, sodass Verspätungen besonders viele Menschen betreffen. Städte wie Köln, Düsseldorf und München liegen in diesem Bereich. In diesen Regionen haben selbst kleinere Störungen große Auswirkungen auf den Pendleralltag, weshalb hier ein besonders hoher Handlungsbedarf besteht.

Oben links: Wenige Pendler + hohe Verspätung

In diesem Quadranten befinden sich Regionen mit relativ wenigen Pendlern, aber vergleichsweise hohen Verspätungen. Die Unpünktlichkeit ist hier zwar deutlich, betrifft jedoch insgesamt weniger Menschen. Die Ursachen könnten in einzelnen problematischen Strecken oder Bahnhöfen liegen. Aus verkehrspolitischer Sicht sind diese Regionen weniger dringend als der obere rechte Quadrant, erfordern aber dennoch gezielte Verbesserungen.

Unten rechts: Viele Pendler + niedrige Verspätung

Dieser Quadrant zeigt Pendlerregionen mit vielen Einpendlern, aber vergleichsweise niedrigen Verspätungen. Die Ergebnisse deuten darauf hin, dass ein hohes Pendleraufkommen nicht automatisch zu starken Unpünktlichkeiten führen muss. In diesen Städten funktioniert die Bahn trotz hoher Nachfrage insgesamt relativ zuverlässig und erfüllt damit ihre Rolle im täglichen Pendlerverkehr.

Unten links: Wenige Pendler + niedrige Verspätung

In diesem Quadranten liegen Regionen mit geringer Pendlerzahl und niedrigen Verspätungen. Hier scheint der Bahnverkehr aktuell gut zu funktionieren, ohne dass viele Menschen von Störungen betroffen sind. Für diese Regionen besteht derzeit kein akuter Handlungsbedarf, sie spielen für die Gesamtbewertung jedoch eine untergeordnete Rolle.

Analyse

Die Einpendlerzahlen unterscheiden sich stark zwischen den Städten. Ohne logarithmische Skala würden Städte mit wenigen Pendlern im Diagramm sehr dicht beieinander liegen und kaum unterscheidbar sein. Die logarithmische Darstellung sorgt dafür, dass Unterschiede zwischen allen Städten besser sichtbar werden. Im kritischsten Quadranten (viele Pendler und hohe Verspätungen) liegen vor allem Köln, Düsseldorf und München. Die Ergebnisse legen nahe, dass sich Verbesserungsmaßnahmen vor allem auf große Pendlerstädte mit hoher Unpünktlichkeit konzentrieren sollten. Dort würden selbst kleine Verbesserungen viele Pendler entlasten. Besonders wichtig sind dabei stabilere Abläufe im Berufsverkehr und eine bessere Bewältigung von Störungen in stark ausgelasteten Netzen.


Der Vergleich – Auto vs. Bahn

Sie haben nun identifiziert, wo die Bahn Probleme hat: Städte im kritischen Quadranten (viele Pendler + hohe Verspätungen) brauchen dringend Verbesserungen. Aber bevor Sie Empfehlungen aussprechen können, müssen Sie eine zentrale Frage beantworten:

Lohnt sich die Bahn überhaupt – oder ist das Auto trotz Stau schneller?

Denn selbst wenn die Bahn unpünktlich ist, könnte sie immer noch schneller sein als das Auto im Berufsverkehr. Umgekehrt: Eine pünktliche Bahn bringt wenig, wenn das Auto trotzdem schneller ist. Erst der direkte Vergleich zeigt uns, wo die Bahn wirklich konkurrenzfähig ist – und wo nicht.

Methodische Herausforderungen

Für einen fairen Vergleich sollten Sie “Äpfel mit Äpfeln” vergleichen:

  • Beim Auto muss der Stau berücksichtigt werden (nicht nur die theoretische Fahrzeit)
  • Bei der Bahn muss die Verspätung berücksichtigt werden (nicht nur der Fahrplan)
  • Beide Routen müssen dieselben Start- und Endpunkte haben

Für die Auto-Fahrtzeiten nutzen Sie OSRM (Open Source Routing Machine), das auf OpenStreetMap-Daten basiert. OSRM berechnet echte Straßenrouten, keine Luftlinien.

  1. Erklären Sie in eigenen Worten:
  • Warum ist OSRM-Routing für diesen Vergleich besser geeignet als eine einfache Berechnung nach der Formel Distanz / Geschwindigkeit?
  • Welche Faktoren müssen zusätzlich berücksichtigt werden, um einen realistischen Vergleich zu ermöglichen? Denken Sie an:
    • Tageszeit
    • Parkplatzsuche
    • Fußweg zum Ziel
    • Wartezeit und Umsteigen bei der Bahn

OSRM-Routing vs. “Distanz/Geschwindigkeit”

Eine Berechnung mit der Formel „Distanz / Geschwindigkeit“ geht davon aus, dass eine Strecke mit einer konstanten Durchschnittsgeschwindigkeit zurückgelegt wird. Eine solche Annahme ist im realen Straßenverkehr jedoch kaum realistisch.

Das OSRM-Routing hingegen nutzt reale Straßennetze aus OpenStreetMap und berücksichtigt verschiedene Faktoren wie die tatsächliche Straßenführung (z. B. Kurven, Kreuzungen oder Einbahnstraßen) sowie unterschiedliche Straßentypen (beispielsweise Autobahnen, Landstraßen oder innerstädtische Straßen). Dadurch entstehen realistische Routen anstelle einer vereinfachten Luftlinienberechnung. Dies ist besonders im Stadtverkehr relevant, da es hier häufig zu erheblichen Abweichungen zwischen theoretischer und tatsächlicher Fahrzeit kommt (Modern C++ routing engine 2026).

Um einen fairen Vergleich zwischen Bahn und Auto zu ermöglichen, ist es daher wichtig, die Autofahrt unter realistischen Bedingungen zu modellieren. Vereinfachte Berechnungen unterschätzen häufig die tatsächliche Fahrzeit, da Faktoren wie Staus, Verkehrsführung und zeitliche Schwankungen nicht berücksichtigt werden. Dadurch würde das Auto im Vergleich zur Bahn systematisch bevorzugt. Die Nutzung realistischer Fahrzeitmodelle stellt sicher, dass beide Verkehrsmittel unter vergleichbaren Alltagsbedingungen bewertet werden.

Vergleichsfaktoren

Für einen realistischen Vergleich müssen noch zusätzliche Faktoren berücksichtigt werden:

Tageszeit

Die Tageszeit spielt eine wichtige Rolle, da das Verkehrsaufkommen im Tagesverlauf stark variiert. Während der Hauptverkehrszeiten, etwa im Berufs- oder Feierabendverkehr, kann es zu deutlich längeren Autofahrzeiten durch Staus kommen. Auch bei der Bahn treten Verspätungen insbesondere zu Stoßzeiten häufiger auf.

Parkplatzsuche

Ein weiterer relevanter Faktor ist die Parkplatzsuche am Zielort. Diese kann mehrere Minuten in Anspruch nehmen und wird in vielen einfachen Fahrzeitvergleichen nicht berücksichtigt, gehört jedoch zur realen Pendelzeit.

Fußweg zum Ziel

Sowohl beim Auto (vom Parkplatz) als auch bei der Bahn (vom Bahnhof) entsteht ein zusätzlicher Fußweg, der in einen fairen Vergleich einbezogen werden sollte. Besonders bei der Bahn kann dieser Weg je nach Lage des Bahnhofs erheblich sein, aber auch der Weg vom Parkplatz zum Zielort kann zusätzlichen Zeitaufwand verursachen.

Wartezeiten und Umsteigen bei der Bahn

Oftmals bestehen keine Direktverbindungen, sodass Wartezeiten und Umstiege notwendig sind. Eine Bahnreise setzt sich häufig aus mehreren Teilabschnitten zusammen, wodurch zusätzliche Wartezeiten entstehen. Zudem können Verspätungen Anschlussverbindungen gefährden und weitere Verzögerungen verursachen, was die gesamte Reisezeit verlängert.


  1. Für die Top 10 Einpendler-Städte wurden typische Pendlerstrecken definiert (z.B. Dachau \(\rightarrow\) München, Neuss \(\rightarrow\) Düsseldorf). Die OSRM-Ergebnisse liegen bereits vor. Nutzen Sie für ihre Analyse den Datensatz fahrtzeit.

Erstellen Sie:

  • Eine Tabelle mit: Stadt, Strecke, Distanz (km), Auto-Fahrzeit (Hauptverkehrszeit), Bahn-Fahrzeit (real), Differenz
  • Berechnen Sie die jährliche Zeitersparnis bei 220 Arbeitstagen und 2x täglichem Pendeln.

Interpretieren Sie ihre Tabelle:

  • In wie vielen Fällen ist die Bahn schneller als das Auto?
  • Wie viele Stunden pro Jahr kann ein Pendler maximal sparen?
  • Gibt es Strecken, bei denen das Auto schneller ist? Woran könnte das liegen?

Vergleich typischer Pendlerstrecken: Auto vs. Bahn (Top-10-Einpendler-Städte und Ulm)
Stadt Pendlerstrecke Distanz (km) Auto HVZ (Min.) Bahn real (Min.) Differenz (Min) Zeitersparnis (Std/Jahr)
Berlin Potsdam → Berlin 34.2 49.3 29.6 19.7 144.5
München Dachau → München 19.1 40.2 26.1 14.1 103.4
Hannover Celle → Hannover 42.2 54.4 40.8 13.6 99.7
Frankfurt Darmstadt → Frankfurt 36.0 35.8 23.0 12.8 93.9
Düsseldorf Neuss → Düsseldorf 12.1 27.1 17.1 10.0 73.3
Hamburg Harburg → Hamburg 14.2 24.0 16.3 7.7 56.5
Stuttgart Esslingen → Stuttgart 14.0 27.2 20.2 7.0 51.3
Nürnberg Fürth → Nürnberg 10.4 18.9 12.9 6.0 44.0
Köln Leverkusen → Köln 18.3 28.7 22.8 5.9 43.3
Essen Mülheim → Essen 11.0 18.0 15.3 2.7 19.8
Ulm Neu-Ulm → Ulm 3.7 8.1 8.9 -0.8 -5.9

Beschreibung

Die Tabelle vergleicht typische Pendlerstrecken in den Top-10-Einpendlerstädten Deutschlands sowie zusätzlich die Stadt Ulm. Für jede Stadt werden die realen Auto-Fahrzeiten während der Hauptverkehrszeit mit den realen Bahnfahrzeiten inklusive Verspätung gegenübergestellt. Zusätzlich werden die Zeitdifferenz pro Fahrt sowie die hochgerechnete jährliche Zeitersparnis bei durchschnittlich 220 Arbeitstagen und zweimal täglichem Pendeln ausgewiesen.

Interpretation

In insgesamt 10 von 11 untersuchten Städten ist die Bahn schneller als das Auto. Der Zeitvorteil der Bahn reicht dabei von 2,7 Minuten pro Fahrt (Strecke von Mühlheim nach Essen) bis zu 19,7 Minuten pro Fahrt auf der Strecke von Potsdam nach Berlin.

Die größte jährliche Zeitersparnis ergibt sich ebenfalls auf der Strecke von Potsdam nach Berlin. Dort kann ein Pendler rund 144,5 Stunden pro Jahr einsparen, was ungefähr 18 Arbeitstagen bei einer durchschnittlichen Arbeitszeit von 8 Stunden entspricht. Dies verdeutlicht, dass sich selbst moderate Zeitvorteile pro Fahrt bei regelmäßigem Pendeln erheblich aufsummieren können.

Eine Ausnahme stellt die Strecke von Neu-Ulm nach Ulm dar, auf der das Auto geringfügig schneller ist als die Bahn. Die Differenz beträgt etwa eine Minute pro Fahrt, was sich auf rund 6 Stunden pro Jahr summiert. Mögliche Ursachen hierfür sind die sehr kurze Distanz, ein vergleichsweise geringes Stauaufkommen sowie zusätzliche Wege- und Wartezeiten bei der Bahn, etwa durch Fußwege zum Bahnhof oder Wartezeiten auf Anschlüsse. Zudem spielen Verspätungen auf sehr kurzen Strecken eine geringere Rolle, da sie sich weniger stark auf die Gesamtfahrzeit auswirken.

Insgesamt zeigt die Tabelle, dass die Bahn auf den meisten stark frequentierten Pendlerstrecken einen deutlichen Zeitvorteil gegenüber dem Auto bietet. Dieser Vorteil ist jedoch auf sehr kurzen und stadtnahen Strecken nicht zwangsläufig gegeben, da hier Zusatzzeiten und kurze Distanzen den Vergleich zugunsten des Autos verschieben können.


  1. Da Sie alle in Ulm studieren und eventuell aus dem Ulmer Umland einpendeln, sollten Sie die 5 wichtigsten Pendlerrouten nach Ulm näher analysieren. Stellen Sie in einem Dumbbell-Chart (oder Lollipop-Chart) die Unterschiede zwischen Auto- und Bahnzeiten visuell dar. Nutzen Sie für ihre Analyse den Datensatz ulm_routen.

Die 5 wichtigsten Pendlerrouten nach Ulm sind:

  • Neu-Ulm \(\rightarrow\) Ulm
  • Blaustein \(\rightarrow\) Ulm
  • Ehingen \(\rightarrow\) Ulm
  • Laupheim \(\rightarrow\) Ulm
  • Langenau \(\rightarrow\) Ulm

Markieren Sie, welche Orte keinen Bahnhof haben.

Beschreiben und interpretieren Sie ihre Grafik. Welche Besonderheiten zeigen die ländlichen Strecken?

Hinweis: Nutzen Sie geom_segment() und geom_point() für ihr Dumbbell-Chart oder Lollipop-Chart.


Beschreibung

Der Dumbbell-Chart zeigt einen Fahrzeitvergleich zwischen Auto (Hauptverkehrszeit) und Bahn für die fünf wichtigsten Pendlerstrecken aus dem Ulmer Umland nach Ulm. Jede Zeile steht dabei für einen Startort, während Ulm in allen Fällen das Ziel ist. Die Punkte markieren die jeweilige Fahrzeit in Minuten für Auto und Bahn. Die Verbindungslinie zwischen den beiden Punkten verdeutlicht den Unterschied zwischen den Fahrzeiten und macht den Zeitvorteil des jeweiligen Verkehrsmittels sichtbar.

Zusätzlich ist gekennzeichnet, ob der jeweilige Startort über einen eigenen Bahnhof verfügt oder nicht. Textliche Hinweise wie „Bahn schneller“ oder „Auto schneller“ erleichtern die Interpretation und machen auf einen Blick deutlich, welches Verkehrsmittel auf der jeweiligen Strecke im Vorteil ist.

Interpretation

Auf vier von fünf Strecken ist die Bahn schneller als das Auto. Besonders deutlich zeigt sich der Zeitvorteil der Bahn auf den längeren und stärker frequentierten Strecken aus dem Umland, etwa von Ehingen, Laupheim und Langenau nach Ulm. Die Strecke von Neu-Ulm nach Ulm weist hingegen nur einen sehr geringen Unterschied auf, da die Distanz kurz ist und beide Verkehrsmittel ähnliche Fahrzeiten haben. Eine Ausnahme bildet die Strecke von Blaustein nach Ulm, auf der das Auto schneller ist als die Bahn.

Auf ländlichen Strecken mit direktem Bahnanschluss kann die Bahn trotz größerer Entfernung einen deutlichen Zeitvorteil bieten. In Orten ohne eigenen Bahnhof oder mit ungünstiger Anbindung, wie beispielsweise Blaustein, entstehen zusätzliche Wege- und Wartezeiten, die den Zeitvorteil der Bahn verringern oder sogar ins Gegenteil verkehren können. Die Ergebnisse zeigen, dass nicht allein die Entfernung entscheidend ist, sondern vor allem die Qualität der Anbindung. Für Pendler aus dem Umland ist die Bahn insbesondere dann konkurrenzfähig, wenn direkte Verbindungen bestehen und die Umstiegszeiten kurz sind.

Die Grafik verdeutlicht insgesamt, dass die Bahn für viele Pendler aus dem Ulmer Umland eine zeiteffiziente Alternative zum Auto darstellt, dieser Vorteil jedoch stark von der vorhandenen Infrastruktur und dem Bahnanschluss des jeweiligen Startortes abhängt.


Die volkswirtschaftlichen Kosten

Verspätungen kosten nicht nur Nerven, sie haben einen realen volkswirtschaftlichen Preis. Jede Minute, die ein Pendler im verspäteten Zug wartet, ist verlorene Arbeitszeit.

Um diese Kosten etwas besser zu quantifizieren sollten Sie sich den Medianlohn der jeweiligen Städte herunterladen und näher analysieren.

  1. Berechnen Sie die volkswirtschaftlichen Kosten der Bahnverspätungen für die 11 Städte.

Datensätze:

Nutzen Sie die folgenden Annahmen:

Annahmen:

Berechnen Sie für jede Stadt:

Erstellen Sie auf Basis ihrer Berechnung eine Tabelle, welche die Anzahl der Bahnpendler, die Verspätungsstunden pro Jahr, die Kosten pro Pendler und die Gesamtkosten der Stadt anschaulich darstellt.

Beschreiben und interpretieren Sie ihre Tabelle. Gehen Sie dabei auch auf die Gesamtkosten der 11 Städte ein. Erklären Sie außerdem, warum der Medianlohn für diese Berechnung besser geeignet ist als der Durchschnittslohn.

Hinweis: Für die Umrechnung auf Stundenlohn: Monatsentgelt / 160 (bei 40h/Woche).


Volkswirtschaftliche Kosten durch Bahnverspätungen (Top-Pendlerstädte und Ulm)
Stadt Anzahl Bahnpendler (Einpendler * 8,4%) Verlorene Zeit (Std/Jahr) Kosten pro Pendler (€ / Jahr) Gesamtkosten (Mio. € / Jahr)
München 38.274 43,9 1.328,78 50,86
Köln 25.780 57,9 1.590,62 41,01
Frankfurt am Main 34.092 37,7 1.111,06 37,88
Düsseldorf 23.914 53,8 1.519,95 36,35
Hamburg 33.008 32,6 922,13 30,44
Berlin 32.955 34,5 895,47 29,51
Stuttgart 23.053 38,9 1.138,56 26,25
Essen 11.869 54,6 1.361,04 16,15
Nürnberg 13.902 37,1 980,73 13,63
Region Hannover 11.586 43,8 1.137,85 13,18
Ulm 5.741 29,5 795,32 4,57
Note:
Annahmen: 220 Arbeitstage, 2 Fahrten/Tag, 8,4% Bahnanteil bei Einpendler

Beschreibung

Die Tabelle quantifiziert die volkswirtschaftlichen Verluste, die durch Verspätungen im Schienenpersonennahverkehr in den 11 Städten entstehen. Die Berechnung basiert auf den zuvor ermittelten Verspätungsdaten des Novembers 2025, sowie statistischen Annahmen zum Pendlerverhalten wie 220 Arbeitstage oder 2 Fahrten pro Tag.

Dargestellt sind für jede Stadt die absolute Anzahl der betroffenen Bahnpendler, die durchschnittliche Verspätung pro Fahrt in Minuten sowie die daraus resultierende akkumulierte Verlustzeit in Stunden pro Jahr. Durch die Monetarisierung dieser Verlustzeit mittels des lokalen Stundenlohns werden die „Kosten pro Pendler“ sowie die „Gesamtkosten“ für die jeweilige Stadt in Millionen Euro ausgewiesen. Die Tabelle ist absteigend nach den Gesamtkosten sortiert, wobei München die Liste anführt und Ulm den Abschluss bildet.

Interpretation

Die Analyse offenbart, dass selbst scheinbar geringe durchschnittliche Verspätungen im Minutenbereich über ein Jahr kumuliert zu massiven individuellen und volkswirtschaftlichen Schäden führen.

Besonders auffällig ist die Diskrepanz bei den individuellen Kosten pro Pendler. Während Pendler in Ulm (4,0 Min. Verspätung) oder Berlin (4,7 Min.) jährliche Opportunitätskosten von unter 1.000 € tragen, liegt die Belastung in der Rhein-Ruhr-Region signifikant höher. Spitzenreiter ist Köln: Mit einer durchschnittlichen Verspätung von 7,9 Minuten verliert ein Kölner Bahnpendler fast 58 Stunden Lebenszeit pro Jahr, was einem monetären Gegenwert von ca. 1.590 € entspricht. Auch Düsseldorf liegt mit über 1.500 € auf einem ähnlich hohen Niveau.

München führt das Ranking der Gesamtkosten mit knapp 51 Mio. € an. Dies resultiert aus einer Kombination aus einer sehr hohen Anzahl an Einpendlern mit 38.274, und dem hohen Lohnniveau der bayerischen Landeshauptstadt, obwohl die durchschnittliche Verspätung mit 6,0 Minuten niedriger liegt als in Köln oder Essen. Im Gegensatz dazu zeigt Berlin, dass ein hohes Verkehrsaufkommen (32.955 Pendler) durch eine vergleichsweise stabilere Betriebslage mit “nur” 4,7 Min. Verspätung zu niedrigeren Gesamtkosten (ca. 29,5 Mio. €) führt als in Städten mit weniger Pendlern, aber massiven Stauproblemen wie Düsseldorf (ca. 36 Mio. €).

Summiert man die ausgewiesenen Verluste aller elf untersuchten Städte, ergibt sich ein volkswirtschaftlicher Gesamtschaden von rund 299,83 Millionen Euro pro Jahr. Dieser Betrag verdeutlicht, dass Unpünktlichkeit kein reines Komfortproblem ist, sondern einen signifikanten Wohlstandsverlust darstellt, da diese Zeit weder für produktive Arbeit noch für Erholung genutzt werden kann.

Für die Berechnung der volkswirtschaftlichen Kosten wurde bewusst der Medianlohn und nicht das arithmetische Mittel herangezogen. Dies hat statistische Gründe, denn Einkommensverteilungen sind in der Regel rechtsschief. Das bedeutet, dass eine kleine Anzahl von Personen mit extrem hohen Einkommen den Durchschnittswert stark nach oben zieht. Der Durchschnittslohn liegt daher oft deutlich über dem Gehalt, das ein “normaler” Arbeitnehmer tatsächlich verdient.

Der Median hingegen ist der Wert, der die Verteilung genau in zwei Hälften teilt: 50 % der Pendler verdienen mehr, 50 % weniger. Er ist robust gegenüber Ausreißern nach oben. Da der Großteil der Bahnpendler wie Schüler, Angestellte oder Arbeiter eher repräsentative Durchschnittseinkommen bezieht und nicht zwingend der Gruppe der Top-Verdiener angehört, bildet der Median die “typischen” Zeitkosten eines Pendlern akkurater ab. Die Verwendung des Durchschnittslohns hätte die volkswirtschaftlichen Kosten vermutlich überschätzt.


  1. Setzen Sie die Kosten der Bahn (aus Aufgabe 14) den Kosten des Autos gegenüber. Vergleichen Sie diese in einer Szenario-Analyse mittels eines gestapelten Balkendiagramms. Nutzen Sie für ihre Analysen den Datensatz staedte_basis.

Berechnen Sie zuerst die Kosten des Autostaus pro Stadt:

Führen Sie anschließend einen Szenario-Vergleich durch: Was passiert, wenn der Bahnanteil von 8,4% auf 20% steigt?

Erstellen Sie ein gestapeltes Balkendiagramm nach Szenario. Beschreiben und intepretieren Sie ihre Grafik. Gehen Sie insbesondere auf die folgenden Fragen ein:


Beschreibung

Das gestapelte Balkendiagramm vergleicht die jährlichen volkswirtschaftlichen Verlustkosten in den 11 deutschen Städten unter zwei verschiedenen Modal-Split-Szenarien. Die linke Facette bildet die aktuelle Situation mit einem Bahnanteil von 8,4 % ab, während die rechte Facette eine fiktive Verkehrswende mit einem erhöhten Bahnanteil von 20 % darstellt.

Auf der x-Achse sind die elf untersuchten Städte abgetragen, sortiert nach der Höhe der Gesamtkosten. Die y-Achse quantifiziert die jährlichen Kosten in Millionen Euro. Die Balken sind farblich unterteilt in Kosten durch Autostaus und Kosten durch Bahnverspätungen.

Im Status Quo dominieren die gelben Balkensegmente, somit der Autostau, das Bild fast vollständig. Die blauen Segmente sind in dieser Skalierung kaum sichtbar, lediglich in München ist ein schmaler blauer Streifen zu erahnen. Die Stadt München weist mit über 700 Millionen Euro mit Abstand die höchsten Gesamtkosten auf, gefolgt von Berlin und Frankfurt.

Im Szenario (20 % Bahnanteil) ist eine deutliche Veränderung der Balkenstruktur zu erkennen. Die Gesamthöhe der Balken nimmt in allen Städten sichtbar ab. Gleichzeitig wächst der Anteil der Bahnkosten leicht an, während der Anteil der Autokosten überproportional stark schrumpft.

Interpretation

Die Grafik verdeutlicht eindrücklich die ökonomischen Dimensionen der Verkehrsproblematik. Die Kostenverteilung ist extrem asymmetrisch zwischen Bahn und Auto im Status quo. Während die kumulierten Verspätungskosten der Bahn in den elf Städten bei ca. 300 Millionen Euro liegen (siehe Aufgabe 14), summieren sich die Staukosten des Autoverkehrs auf über 4,3 Milliarden Euro. Der Anteil der Bahnkosten an den gesamten Mobilitätsverlustkosten liegt somit im Status quo bei unter 7 %.

Der motorisierte Individualverkehr ist der unbestrittene Haupttreiber des volkswirtschaftlichen Schadens. Selbst in Städten mit bekannten Bahnproblemen fallen die Kosten durch Stau um ein Vielfaches höher aus als durch Zugverspätungen. Dies liegt an zwei Faktoren: Erstens nutzen absolut gesehen viel mehr Menschen das Auto (ca. 91,6 % vs. 8,4 %), und zweitens sind die individuellen Zeitverluste im Stau (oft 40–60 Stunden/Jahr) häufig ähnlich hoch oder höher als die Verspätungsminuten bei der Bahn.

Der Vergleich der beiden Szenarien offenbart ein massives Einsparpotenzial. Durch die Verlagerung von Pendlern auf die Schiene steigen zwar die absoluten Verspätungskosten der Bahn leicht an, da mehr Menschen betroffen sind, dies wird jedoch durch den Rückgang der Staukosten weit überkompensiert. Die Nettoersparnis in diesem Szenario beträgt rund 792 Millionen Euro pro Jahr für die elf betrachteten Städte.

Dieses Balkendiagramm impliziert eine wichtige verkehrspolitische Botschaft. Eine Verlagerung des Verkehrs auf die Schiene ist selbst dann volkswirtschaftlich hochrentabel, wenn die Bahn ihre aktuelle Unpünktlichkeit nicht verbessert. Allein die Entlastung der Straßeninfrastruktur führt zu Wohlstandsgewinnen, da weniger Autos nicht nur linear, sondern oft exponentiell weniger Stau bedeuten. Das “System Bahn” ist trotz seiner Mängel das wohl effizientere Massentransportmittel.


Politikempfehlung – Ihre Synthese

Sie haben nun umfangreiche Analysen durchgeführt und viele Erkenntnisse über die Bahn gewonnen. Jetzt ist es Zeit, diese zu einer kohärenten Empfehlung zusammenzufügen.

Szenario: Sie sind Berater:in des Bundesministeriums für Digitales und Verkehr. Die Ministerin bittet Sie um eine evidenzbasierte Politikempfehlung zur Verbesserung des Pendlerverkehrs in Deutschland.

  1. Formulieren Sie eine Politikempfehlung für das Bundesministerium für Digitales und Verkehr.

Schreiben Sie eine Executive Summary (max. 5 Sätze). Fassen Sie hierbei die wichtigsten Erkenntnisse aus ihrem Projekt zusammen. Was ist die zentrale Botschaft?

Formulieren Sie 3 konkrete Empfehlungen. Jede muss enthalten:


Executive Summary

Die Analyse der elf wirtschaftsstärksten deutschen Pendlerregionen zeigt eine massive Diskrepanz zwischen den volkswirtschaftlichen Kosten des Autoverkehrs und denen des Bahnverkehrs, denn ca. 4,3 Milliarden Euro verursacht durch Stau ist um ein Vielfaches schwerwiegender als ca. 0,3 Mrd. € durch Verspätung der Bahn. Während der für Pendler essenzielle Nahverkehr, wie S-Bahn oder RB, mit einer Pünktlichkeit von über 85 % eine hohe Stabilität aufweist, ist der Fernverkehr mit nur ca. 57 % Pünktlichkeit der primäre Treiber von Unregelmäßigkeiten. Die zentrale Botschaft lautet: Eine Verlagerung des Verkehrs von der Straße auf die Schiene ist aufgrund der extrem hohen Staukosten selbst bei der aktuellen Unpünktlichkeit der Bahn volkswirtschaftlich hochrentabel. Ein Szenario mit 20 % Bahnanteil würde die Gesellschaft jährlich um knapp 800 Millionen Euro entlasten.

  1. Empfehlung: Aggressive Kapazitätserweiterung zur Realisierung der Verkehrslagerung

Das Ziel ist die Steigerung des Bahnanteils im Berufsverkehr von aktuell ca. 8,4% auf 20% bis 2030. Durch einen fokussierten Ausbau der Schieneninfrastruktur in den hochbelasteten Metropolregionen, insbesondere München, Rhein-Ruhr oder Berlin, um die Taktung zu verdichten und Kapazitäten für Umsteiger zu schaffen.

Die gesamte Szenario-Anaylse aus Aufgabe 15 belegt, dass eine Erhöhung des Bahnanteils auf 20 % in den untersuchten Städten eine Nettoersparnis von 792 Mio. € pro Jahr generiert. Da die Staukosten pro Kopf deutlich höher wiegen als die Verspätungskosten der Bahn, ist die bloße Verlagerung des Verkehrs der stärkste Hebel zur Senkung des volkswirtschaftlichen Gesamtschadens und somit wirksamer als jede kleinteilige Pünktlichkeitsmaßnahme.

  1. Limitation: Die Analyse aus Aufgabe 15 berechnet das Szenario rein mathematisch: 20% der Pendler steigen um auf die Bahn. Aber der Datensatz bahn enthält keine Informationen über Sitzplatzkapazitäten oder Auslastungsgrade. Dadurch ist nicht ersichtlich, ob das bestehende Schienennetz physisch in der Lage ist, 11,6% Prozentpunkte mehr Pendler aufzunehmen. Wenn die Züge in der Rush Hour bereits zu 100% voll sind, ist die kalkulierte Ersparnis theoretisch, da die Pendler real nicht einsteigen könnten.

  2. Limitation: In dem Szenario-Code aus Aufgabe 15 wird angenommen, dass 20% weniger Autos linear zu 20% weniger Stauzeit führen. Verkehrsfluss ist nicht linear. Eine Reduktion des Verkehrsaufkommens um 20 % könnte den Stau in manchen Städten fast komplett auflösen. Die Berechnung der Nettoersparnis von 792 Mio. € ist daher eine starke Vereinfachung der komplexen Strömungsdynamik.

Um sicherzustellen, dass das System die zusätzlichen Pendler überhaupt aufnehmen kann, würde ich folgende Daten zusätzlich untersuchen:

Zugauslastungsdaten in Echtzeit: Aktuell ist nur sicher , dass die Züge fahren, aber nicht, wie voll sie sind. Mit Daten aus Sitzplatzsensoren oder WLAN-Logins könnte man simulieren, ob die Züge im morgendlichen Peak physisch in der Lage wären, 11,6 % mehr Passagiere aufzunehmen, oder ob dies zwingend längere Züge oder Doppelstockwagen erfordert.Außerdem wäre eine Analyse der freien Trassen sinnvoll, denn oft scheitert eine Taktverdichtung nicht an fehlenden Zügen, sondern daran, dass die Strecke physikalisch keinen weiteren Zug pro Stunde zulässt. Dies würde zeigen, wo Gleise gebaut werden müssten und wo bloße Zugbeschaffung reicht.

  1. Empfehlung: Operative Entflechtung von Fern- und Nahverkehr

Um eine hohe Zuverlässigkeit im S-Bahn-System (>87%) und Schutz vor Dominoeffekten aus dem Fernverkehr sicherzustellen, ist eine Möglichkeit die Fernverkehrs- und S-Bahnnetze baulich und fahrplantechnisch zu trennen. Wo dies baulich nicht möglich wäre, müsste im Betriebsablauf der pünktliche Nahverkehr in der Rush Hour systematischen Vorrang vor verspäteten Fernzügen erhalten.

Denn die Daten zeigen, dass der Nahverkehr das Rückgrat des Systems ist, mit bis zu 20.000 Züge pro Stunde in der Spitzenzeit und mit 87,4 % Pünktlichkeit, zumindest die der S-Bahn, deutlich stabiler läuft als der ICE mit 56,7 %. Da Fernzüge oft dieselben Trassen nutzen, übertragen sie ihre Instabilität auf das robuste Pendlersystem. Eine Entkoppelung schützt die Produktivität der breiten Masse der Arbeitnehmer.

  1. Limitation: Laut unseren Daten schließen wir, dass ICEs unpünktlich (56,7 %) und S-Bahnen pünktlich (87,4 %) sind. Der Datensatz zeigt jedoch nur die Verspätung pro Zug, enthält aber keine “Verspätungsbegründung”. Die Annahme, dass der Fernverkehr die S-Bahn stört, ist plausibel, aber aus den vorliegenden Daten rein statistisch nicht beweisbar. Es könnte auch an maroder lokaler Infrastruktur liegen. Ohne Topologie-Daten, welche Züge sich welches Gleis teilen, ist die Forderung nach Entflechtung datentechnisch nur indirekt gestützt.

  2. Limitation: Die Analyse definiert “Pünktlichkeit” als delay_in_min <= 6. Ein ICE, der 5 Minuten Verspätung hat, gilt in der Statistik als “pünktlich”. Für die operative Taktung eines S-Bahn-Systems (oft 10-Minuten-Takt) sind aber schon 3 bis 5 Minuten Verspätung eines vorfahrenden ICEs fatal. Die Daten “verstecken” diese operativen Konflikte, da sie in der Quote von 56,7 % gar nicht auftauchen. Das Problem der Trassenkonflikte ist in der Realität also wahrscheinlich noch gravierender, als unsere Zahlen zeigen.

Um die These des “Dominoeffekts” beweisbar zu machen, wären diese Daten nötig:

Kodierte Verspätungsbegründungen: Aktuell ist nur ersichtlich, dass ein Zug zu spät ist. Mit den internen Codes der Bahn ließe sich quantifizieren, wie viel Prozent der S-Bahn-Verspätungen direkt durch den ICE verursacht werden. Dies wäre der Beweis für die Notwendigkeit der Entflechtung. Außerdem wäre eine digitale Karte des Schienennetzes unerlässlich, die zeigt, auf welchen Kilometern sich S-Bahn und ICE die Gleise teilen. Durch das “Übereinanderlegen” dieser Karte mit den Verspätungsdaten könnte man Hotspots identifizieren, an denen bauliche Trennungen den größten Hebel hätten.

  1. Empfehlung: Regionaler “Härtefall-Fonds” für Pendler-Hotspots

Durch die Priorisierung von Investitionsmitteln für Signalisierungstechnik und Weichenerneuerung in den Knoten Köln und Düsseldorf, reduziert man gezielt die individuellen Pendlerkosten in Regionen mit maximalen Wertschöpfungsverlust.

Die Analyse der “Kosten pro Pendler” in Aufgabe 14 offenbart gravierende regionale Ungleichgewichte. Ein Pendler in Köln verliert durch Verspätungen rechnerisch 1.590 € pro Jahr an Arbeitszeitwert, fast doppelt so viel wie in Ulm (795 €). Investitionen müssten dort getätigt werden, wo hohe Löhne auf hohe Störanfälligkeit treffen, um den größten ökonomischen Schaden abzuwenden.

  1. Limitation: Die Berechnung der Kosten basiert auf der durchschnittlichen Verspätung am Bahnhof. In komplexen Knoten wie Köln oder Düsseldorf steigen Pendler jedoch oft um. Wenn ein Pendler in Köln durch 4 Minuten Verspätung seinen Anschlusszug verpasst und nun 30 Minuten warten muss, explodieren die volkswirtschaftlichen Kosten. Da der Datensatz nur Einzelzüge und keine Reiseketten abbildet, werden die tatsächlichen Kosten in Vernetzungsknoten wie Köln massiv unterschätzt und nicht vollständig abgebildet.

  2. Limitation: Für die Berechnung der “Kosten pro Pendler” wird der allgemeine Medianlohn der gesamten Stadtbevölkerung genutzt. Es ist unklar, ob der typische Bahn-Pendler genau diesen Median verdient. Wenn in Frankfurt vor allem hochbezahlte Banker Auto fahren und Studenten Bahn, werden die Bahnkosten überschätzt. Wenn in München Besserverdiener die S-Bahn nutzen (wegen Parkplatzmangel), werden sie unterschätzt. Ohne sozioökonomische Daten spezifisch für Bahnnutzer bleibt die monetäre Bewertung eine begründete Schätzung.

Um Investitionen nicht breit und zufällig, sondern präzise zu verteilen, würde ich untersuchen:

Vollständige Reiseketten-Daten: Statt nur die Verspätung am Gleis zu messen, sollten GPS-Bewegungsdaten (anonymisiert) analysiert werden mit dem Ziel, wie oft führt eine kleine Verspätung (z.B. 4 Min.) zum Verpassen eines Anschlusses? In Knotenpunkten vervielfacht ein verpasster Anschluss die Reisezeitverlängerung. Dies würde die wahren volkswirtschaftlichen Kosten vermutlich drastisch nach oben korrigieren und die Dringlichkeit für den Fonds untermauern und ebenso eine bessere Vergleichbarkeit mit den Kosten durch Stau schaffen. Zusätlich wären Infrastruktur-Zustandsdaten interessant, da die Daten über das Alter und die Störungsanfälligkeit von Weichen und Stellwerken in den betroffenen Regionen möglicherweise mit hohen Verspätungen korrelieren? Wenn ja, belegt dies, dass das Geld spezifisch in die Modernisierung fließen muss.


Zusatzaufgaben (optional)

Bisher haben Sie zwei Dimensionen betrachtet: Zeit (Bahn ist schneller) und Geld (Verspätungen kosten). Aber es gibt einen dritten, oft vergessenen Aspekt: die Umwelt.

Das Auto ist nicht nur langsamer und teurer; es ist auch ein Klimakiller. Ein durchschnittlicher PKW emittiert z.B. etwa 150 g CO2 pro Personenkilometer.

  1. Recherchieren Sie die CO2-Emissionsfaktoren und das Mobilitätsverhalten:

Hinweis: Nutzen Sie Daten vom Umweltbundesamt oder dem DB Umweltbericht.


CO₂-Emissionen verschiedener Verkehrsmittel sowie gewichteter Bahn-Durchschnitt
Verkehrsmittel CO₂-Emissionen (g / Person-km) Emissionen niedriger als PKW (%)
PKW (Durchschnitt) 164.0 0.0
PKW (Elektro, deutscher Strommix) 70.0 57.3
ICE / IC (Fernverkehr) 26.0 84.1
RE / RB (Nahverkehr) 44.0 73.2
S-Bahn 42.0 74.4
Bahn (gewichteter Durchschnitt) 38.6 76.5
* Der Bahn-Emissionswert basiert auf einem gewichteten Durchschnitt: 70 % Nahverkehr (RE/RB) und 30 % Fernverkehr (ICE/IC).

Zur Erweiterung der bisherigen Analyse um die Dimensionen Zeit und Kosten wird im Folgenden der Umweltaspekt betrachtet. Grundlage bilden aktuelle CO₂-Emissionsfaktoren des Umweltbundesamts (UBA, TREMOD-Modell), angegeben in Gramm CO₂-Äquivalenten pro Personenkilometer. Diese ermöglichen einen konsistenten Vergleich verschiedener Verkehrsmittel unter einheitlichen methodischen Annahmen.

Die Ergebnisse zeigen deutliche Unterschiede zwischen den Verkehrsmitteln. Während ein durchschnittlicher PKW mit rund 164 g CO₂e pro Personenkilometer die höchsten Emissionen verursacht, liegen die Emissionen eines Elektro-PKW im deutschen Strommix mit etwa 70 g CO₂e deutlich darunter. Die Bahn weist nochmals erheblich geringere Emissionswerte auf: Im Fernverkehr (ICE/IC) betragen sie etwa 26 g CO₂e, im Nahverkehr (RE/RB) rund 44 g CO₂e und im S-Bahn-Verkehr etwa 42 g CO₂e pro Personenkilometer.

Um das typische Pendelverhalten abzubilden, wurde für die Bahn ein gewichteter Durchschnitt berechnet, wobei angenommen wird, dass 70 % der Pendler den Schienen-Nahverkehr und 30 % den Schienen-Fernverkehr nutzen. Der daraus resultierende Emissionswert liegt deutlich unter dem eines durchschnittlichen PKW. Insgesamt verdeutlichen die Ergebnisse, dass die Bahn nicht nur hinsichtlich Zeit und Kosten, sondern insbesondere auch aus klimapolitischer Sicht eine deutlich umweltfreundlichere Alternative zum motorisierten Individualverkehr darstellt.


  1. Die Studie “Mobilität in Deutschland” (MiD 2023) ist die wichtigste Datenquelle zum Mobilitätsverhalten in Deutschland. Sie ermöglicht einen Vergleich mit 2017 (vor Corona).

Lesen Sie den MiD 2023 Kurzbericht und beantworten Sie:


Modal Split:

Der Anteil des öffentlichen Verkehrs (ÖV) am Gesamtverkehr ist seit 2017 leicht gestiegen. Im Vergleich zum motorisierten Individualverkehr (MIV), dessen Anteil tendenziell leicht zurückging, zeigt sich eine moderate Verschiebung hin zu Fuß-, Rad- und ÖV-Nutzung. Damit trägt der ÖV heute einen etwas größeren Anteil zur alltäglichen Mobilität bei.

Homeoffice-Effekt:

Die durchschnittliche Tagesstrecke pro Person hat sich seit 2017 von etwa 40 km auf rund 35 km verringert. Laut MiD 2023 ist der Hauptgrund hierfür die zunehmende Arbeit im Homeoffice sowie veränderte Alltagsroutinen, wodurch weniger Wege für berufliche Zwecke notwendig sind. Die tägliche Reisezeit bleibt dabei weitgehend stabil.

Stadt vs. Land – Deutschlandticket:

Die Nutzung des Deutschlandtickets ist in Metropolen mit ca. 33 % deutlich höher als in ländlichen Regionen (ca. 10 %). Dies spiegelt die bessere ÖV-Versorgung und -Dichte in städtischen Räumen wider. Für die Ulm-Region bedeutet dies, dass ein größerer Teil der Bevölkerung von attraktiven ÖV-Angeboten profitieren kann, während in kleineren Orten wie Blaustein ohne Bahnhof die Nutzung des ÖV deutlich eingeschränkt ist.

Implikationen für CO₂:

Die beobachteten Veränderungen deuten auf ein potenziell höheres CO₂-Einsparpotenzial durch Bahnpendeln hin. Insbesondere in urbanen Regionen kann der Umstieg vom Auto auf den ÖV signifikant zur Reduktion von Verkehrsemissionen beitragen. Gleichzeitig zeigt die regionale Differenzierung, dass in ländlichen Räumen Investitionen in die ÖV-Infrastruktur notwendig sind, um dieses Potenzial vollständig auszuschöpfen.


  1. Berechnen Sie die CO2-Ersparnis für die 11 analysierten Städte.

Datensatz: co2_analyse (aus Aufgabe 4) – enthält Streckenlängen, Einpendlerzahlen und vorberechnete Werte

Annahmen:

Berechnen Sie für jeden Umsteiger (Auto \(\rightarrow\) Bahn):

Nun sollten Sie eine Szenario Analyse ähnlich wie in Aufgabe 15 durchführen: Wenn sich der Bahnanteil von 8,4% auf 20% erhöht: wie viele Tonnen CO2 würden in den 11 Städten jährlich eingespart?

Visualisieren Sie die CO2-Ersparnis pro Stadt.

Stellen Sie die Ersparnis in Kontext, um die Ersparnis greifbarer zu machen, z.B. wie viele Mallorca-Flüge (hin + zurück, ~750 kg CO2) entspricht das?


CO2-Ersparnis pro Stadt bei Anstieg des Bahnanteils von 8,4% auf 20%
Stadt Jährliche km/Umsteiger CO2 Auto (kg/Jahr) CO2 Bahn (kg/Jahr) CO2-Ersparnis (kg/Jahr) Zusätzliche Umsteiger CO2-Ersparnis (t/Jahr)
München 8.404 1.261 397 864 52.855 45.663
Frankfurt 15.840 2.376 748 1.628 47.079 76.662
Hamburg 6.248 937 295 642 45.582 29.277
Berlin 15.048 2.257 710 1.547 45.510 70.400
Köln 8.052 1.208 380 828 35.601 29.469
Düsseldorf 5.324 799 251 547 33.025 18.075
Stuttgart 6.160 924 291 633 31.835 20.160
Nürnberg 4.576 686 216 470 19.198 9.031
Essen 4.840 726 228 498 16.390 8.155
Hannover 18.568 2.785 876 1.909 15.999 30.539
Ulm 1.628 244 77 167 7.928 1.327



Die Szenario-Analyse zeigt, dass eine Erhöhung des Bahnanteils von 8,4% auf 20% in den 11 analysierten Städten zu einer jährlichen CO₂-Ersparnis von insgesamt ca. 340.000 t führen würde. Pro Stadt variiert die Ersparnis stark, abhängig von der Zahl der Einpendler und der durchschnittlichen Pendelstrecke.

Um die Ersparnis greifbarer zu machen: Ein Hin- und Rückflug nach Mallorca verursacht etwa 0,75t CO₂ pro Person. Die jährliche CO₂-Ersparnis durch zusätzliche Bahnpendler entspricht damit ca. 454.000 Mallorca-Flügen, wobei die größten Städte den größten Beitrag leisten.

Dieses Ergebnis verdeutlicht, dass bereits moderate Veränderungen im Bahnanteil eine signifikante Klimawirkung entfalten können. Der Umstieg vom Auto auf die Bahn ist somit nicht nur aus verkehrs- oder zeitökonomischer Sicht sinnvoll, sondern auch aus Umweltsicht wirksam.


Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (bahnhof_ags_mapping.csv)

Dieses Mapping ist essenziell für die Verknüpfung von Bahn- und Pendlerdaten. Die Bahndaten sind auf Bahnhofsebene (z.B. “München Hbf”), die Pendlerdaten auf Kreisebene (z.B. “München, Landeshauptstadt”). Der AGS (Amtlicher Gemeindeschlüssel) ist der Schlüssel, der beide Welten verbindet.

Wichtige Variablen:

  • station_name: Name des Bahnhofs
  • ags: Amtlicher Gemeindeschlüssel (5-stellig für Kreise)
  • kreis_name: Name des Landkreises/der kreisfreien Stadt

2. Fahrtzeit-Vergleich OSRM (fahrtzeit_osrm_vergleich.csv)

Für einen fairen Vergleich Auto vs. Bahn brauchen wir realistische Fahrtzeiten. OSRM (Open Source Routing Machine) berechnet echte Straßenrouten basierend auf OpenStreetMap – keine Luftlinien, sondern tatsächliche Straßenverbindungen mit Abbiegevorgängen, Geschwindigkeitsbegrenzungen und Straßentypen.

Wichtige Variablen:

  • stadt: Zielstadt der Pendlerstrecke
  • strecke_name: Beschreibung der Route (z.B. “Dachau \(\rightarrow\) München”)
  • auto_distanz_km: Fahrstrecke mit dem Auto in km
  • auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit (mit Staufaktor)
  • bahn_planzeit_min: Fahrzeit laut Fahrplan
  • bahn_verspaetung_min: Durchschnittliche Verspätung
  • bahn_real_min: Realistische Bahnfahrzeit (Fahrplan + Verspätung)

Wie wurde das Routing durchgeführt?

  1. Koordinaten ermitteln: Für jede Pendlerstrecke wurden Start- und Zielkoordinaten definiert (z.B. Stadtzentrum Dachau \(\rightarrow\) München Hauptbahnhof).

  2. OSRM-API abfragen: Über die öffentliche OSRM-Demo-API (router.project-osrm.org) wurden für jede Route Distanz und Fahrzeit abgefragt. Die API gibt die schnellste Route zurück, basierend auf dem aktuellen Straßennetz.

  3. Staufaktor anwenden: Die OSRM-Basisfahrzeit entspricht einer Fahrt bei freiem Verkehr. Für die Hauptverkehrszeit (HVZ) wurde ein Staufaktor von 1,3-1,5 angewendet, basierend auf den INRIX-Daten der jeweiligen Stadt.

  4. Bahn-Daten ergänzen: Die Bahnfahrzeiten stammen aus dem DB-Fahrplan, ergänzt um die durchschnittliche Verspätung aus unserer Analyse.

Weiterführende Links:

3. Ulm-Pendlerrouten (ulm_pendlerrouten.csv)

Da Sie in Ulm studieren, analysieren wir die wichtigsten Pendlerrouten in die Stadt genauer. Dieser Datensatz enthält die 5 wichtigsten Einpendler-Gemeinden mit detaillierten Informationen zur Erreichbarkeit.

Wichtige Variablen:

  • start_ort: Startgemeinde der Pendlerroute
  • ziel_ort: Zielort (Ulm)
  • auto_dauer_min: Fahrzeit mit dem Auto
  • auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit
  • bahn_fahrplan_min: Bahnfahrzeit laut Fahrplan
  • bahn_real_min: Realistische Bahnfahrzeit
  • hat_bahnhof: TRUE/FALSE – hat der Startort einen Bahnanschluss?
  • pendler_geschaetzt: Geschätzte Anzahl Pendler auf dieser Route

4. Entgeltstatistik (ba_entgeltstatistik_2024.csv)

Um die volkswirtschaftlichen Kosten von Verspätungen zu berechnen, brauchen wir regionale Lohndaten. Diese haben wir von der Bundesagentur für Arbeit heruntergeladen.

Wichtige Variablen:

  • kreis_name: Name des Kreises/der Stadt
  • ags: Amtlicher Gemeindeschlüssel
  • medianentgelt_brutto_monat: Median-Bruttomonatsentgelt in Euro

Quelle: Bundesagentur für Arbeit, Entgeltstatistik 2024

Quellenverzeichnis

Deutsche Bahn AG. 2025. “Pünktlichkeitswerte - Monat November 2025.” 2025. https://www.deutschebahn.com/de/konzern/konzernprofil/zahlen_fakten/puenktlichkeitswerte-6878476.
Modern C++ routing engine.” 2026. 2026. http://project-osrm.org/.