Motivation

Jeden Morgen das gleiche Bild: Verstopfte Autobahnen, genervte Pendler, verlorene Zeit. 20,5 Millionen Menschen pendeln in Deutschland täglich zur Arbeit – die meisten davon mit dem Auto. Laut INRIX Traffic Scorecard 2024 verlieren Pendler in deutschen Großstädten zwischen 40 und 60 Stunden pro Jahr allein im Stau. Das entspricht fast einer kompletten Arbeitswoche, die im Nichts verpufft.

Die Idee liegt auf der Hand: Wer Bahn fährt, steht nicht im Stau. Aber wie schlägt sich die Bahn im Vergleich zum Auto? Ist sie wirklich schneller? Und wie zuverlässig ist sie eigentlich?

In diesem Projekt analysieren Sie Echtzeitdaten der Deutschen Bahn, Pendlerstatistiken der Bundesagentur für Arbeit, Staudaten von INRIX und die Entgeltstatistik der Bundesagentur für Arbeit. Sie werden herausfinden, dass die Antwort auf die Frage “Sollten mehr Menschen Bahn fahren?” komplexer ist, als man zunächst vermuten würde und dass sie wichtige Implikationen für die Verkehrspolitik hat.

Ihre zentrale Forschungsfrage lautet:

“Sollten mehr Menschen Bahn fahren – und was müsste sich dafür ändern?”

Datengrundlage

In diesem Projekt arbeiten Sie mit mehreren Datensätzen. Ein wichtiger Teil des Projekts ist das eigenständige Beschaffen von Primärdaten aus offiziellen Quellen.

Daten einlesen und verstehen

Bevor Sie mit der Analyse beginnen können, müssen Sie verschiedenste Datensätze einlesen und deren Struktur verstehen. Die Deutsche Bahn stellt über unterschiedliche Schnittstellen Echtzeitdaten für ihre Züge als open-source Daten zur Verfügung, welche per API-Calls geladen werden können. Jedoch gibt es von der Deutschen Bahn keine offizielle Seite, welche historische Daten zu Zugverspätungen, Ausfällen etc. für Fern- und Nahverkehrszüge sammelt. Da wir uns jedoch mit historischen Daten beschäftigen möchten, greifen wir auf Daten zurück, die von Piet Brömmel gesammelt wurden und bei Huggingface im Parquet-Format zur Verfügung gestellt wurden. Das Parquet-Format ist ein effizientes Datenformat und wird oft für große Datenmengen genutzt; in R können Sie diese Daten mit dem arrow-Paket einlesen.

  1. Wie pünktlich ist die Bahn wirklich? Um diese Frage zu beantworten, brauchen Sie echte Verspätungsdaten – nicht nur Pressemitteilungen. Die Bahndaten bilden das Herzstück unserer Analyse: Mit ihnen können Sie berechnen, wie viel Zeit Bahnfahrer durch Verspätungen verlieren und später mit den Stauzeiten der Autofahrer vergleichen.

Die Deutsche Bahn stellt Echtzeitdaten als Open Data zur Verfügung. Das Projekt piebro/deutsche-bahn-data auf Huggingface sammelt diese Daten im Parquet-Format.

Laden Sie die Datei für November 2025 direkt von Huggingface herunter und lesen Sie diesen Datensatz als bahn in R ein.

Zeigen Sie die ersten 10 Zeilen des Datensatzes in einer Tabelle und beantworten Sie anschließend folgende Fragen:

  • Wie viele Beobachtungen enthält der Datensatz? Welche Variablen sind vorhanden?
  • Was stellt eine einzelne Beobachtung dar?

Hinweis 1: Sie können auf Huggingface die gesuchte Datei hier finden und direkt die URL zu der Datei in R mitgeben

Hinweis 2: Sie können die Parquet Datei entweder lokal speichern, oder immer direkt per URL einlesen. Falls Sie die Datei lokal speichern, so wird diese nicht auf GitHub Committet, da wir dies in der .gitignore entsprechend eingestellt haben. In diesem Fall sollten alle Teammitglieder die Datei lokal zur Verfügung haben.

Hinweis 3: Achten Sie bei allen Tabellen auf einer saubere Darstellung


Ausschnitt der Deutschen-Bahn-Echtzeitdaten (November 2025)
Erste 10 Beobachtungen – ausgewählte relevante Variablen
station_name train_name final_destination_station delay_in_min time is_canceled
Stuttgart Hbf S 2 Filderstadt 5 2025-11-01 01:00:00 FALSE
Halle (Saale) Hbf S 5 Leipzig Hbf (tief) 1 2025-11-01 01:00:00 FALSE
Karlsruhe Hbf RE 1 Karlsruhe Hbf 95 2025-11-01 01:00:00 FALSE
Regensburg Hbf ALX RE25 München Hbf 11 2025-11-01 01:00:00 FALSE
Mannheim Hbf ICE 775 Karlsruhe Hbf 1 2025-11-01 01:00:00 FALSE
Flughafen BER S 9 Flughafen BER 1 2025-11-01 01:00:00 FALSE
Halle (Saale) Hbf S 8 Halle (Saale) Hbf 15 2025-11-01 01:00:00 FALSE
München Hbf RB 40 München Hbf 0 2025-11-01 01:00:00 FALSE
Köln Hbf IC 1952 Köln Hbf 40 2025-11-01 01:00:00 FALSE
Freiburg (Breisgau) Hbf S 1 Freiburg (Breisgau) Hbf 0 2025-11-01 01:00:00 FALSE
## [1] 13943561
##  [1] "station_name"              "xml_station_name"         
##  [3] "eva"                       "train_name"               
##  [5] "final_destination_station" "delay_in_min"             
##  [7] "time"                      "is_canceled"              
##  [9] "train_type"                "train_line_ride_id"       
## [11] "train_line_station_num"    "arrival_planned_time"     
## [13] "arrival_change_time"       "departure_planned_time"   
## [15] "departure_change_time"     "id"

Wie viele Beobachtungen enthält der Datensatz?

Der Datensatz „Bahn November 2025“ enthält 13.943.561 Beobachtungen und ist damit ein ziemlich großer Datensatz.

Welche Variablen sind vorhanden?

Der Datensatz enthält insgesamt die 16 folgenden Variablen:

  1. station_name: Name der Station, z.B. „Stuttgart Hbf“.
  2. xml_station_name: Die technische Bezeichnung des Bahnhofs aus dem internen Bahnsystem.
  3. eva: Die EVA-Nummer: Eindeutige 7- bis 8-stellige Identifikationsnummer für Bahnhöfe in Europa.
  4. train_name: Name des Zuges, z.B. „ICE 1024“.
  5. final_destination_station: Endhaltestation des Zuges.
  6. delay_in_min: Die berechnete Verspätung in Minuten.
  7. time: Datum und Uhrzeit der Beobachtung.
  8. is_canceled: Gibt an, ob der Zug ausfällt (TRUE/FALSE).
  9. train_type: Art des Zuges bzw. Zuggattung (IC, ICE, S, RE, B …).
  10. train_line_ride_id: Kombiniert die Linie und eine eindeutige Fahrt-ID, damit man genau diesen einen Zug auf seiner gesamten Reise identifizieren kann.
  11. train_line_station_number: Stationsnummer innerhalb der Linie.
  12. arrival_plan_time: Geplante Ankunftszeit (Datum + Uhrzeit).
  13. arrival_change_time: Tatsächliche Änderung der Ankunftszeit (Datum + Uhrzeit).
  14. departure_plan_time: Geplante Abfahrtszeit (Datum + Uhrzeit).
  15. departure_change_time: Tatsächliche Änderung der Abfahrtszeit (Datum + Uhrzeit).
  16. ID: Eindeutige Zeilen-/Beobachtungs-ID.

Was stellt eine einzelne Beobachtung dar?

Eine Beobachtung ist ein einzelner, spezifischer Halt eines Zuges an einem Bahnhof. Jede Zeile zeigt also, wann ein bestimmter Zug, z.B. der ICE 775 in Mannheim, an einem bestimmten Bahnhof ankommen und abfahren sollte, wann er tatsächlich angekommen ist, wie viel Verspätung er hatte und weitere Merkmale wie Zugtyp oder Linie.


  1. Wohin pendeln die Menschen? Die Bahndaten zeigen ihnen die Pünktlichkeit der Züge – aber um zu verstehen, wo gute Bahnverbindungen besonders wichtig sind, müssen Sie wissen, wohin die Menschen pendeln. Die Pendlerstatistik der Bundesagentur für Arbeit zeigt genau das: Welche Städte sind die größten Arbeitgeber-Magneten?

Laden Sie den Datensatz pendler_kreise_aufbereitet.csv aus dem Ordner daten in R ein als Datensatz pendler.

Erstellen Sie eine Tabelle der Top 10 Städte nach Einpendlern mit den Spalten: Stadt (kreis_name), Einpendler, Auspendler, Pendlersaldo.

Interpretieren Sie kurz: Welche Städte sind die größten “Pendlermagneten” Deutschlands und warum?


Interpretation (als normaler Fließtext, kein Code): - Wie viele Beobachtungen / welche Variablen? → wird oben automatisch ausgegeben.
- Was ist eine Beobachtung? In den monthly_processed_data handelt es sich typischerweise um ein Ereignis an einem Halt (z. B. Ankunft/Abfahrt eines konkreten Zuges an einem konkreten Bahnhof zu einem konkreten Zeitpunkt), inkl. planmäßiger Zeit und tatsächlicher Zeit bzw. abgeleiteter Verspätungsinformation. Damit kann man Verspätungen/Ausfälle über Züge, Bahnhöfe und Zeit aggregieren. :contentReferenceoaicite:2

(Hinweis: Je nach Schema des Parquet-Files kannst du den Beobachtungsbegriff noch präziser formulieren, sobald du die Variablennamen siehst; z. B. wenn Felder wie station_name, train_name, time, delay/cancelled enthalten sind.)


Top 10 Städte nach Einpendlern
Pendlerstatistik der Bundesagentur für Arbeit
Stadt Einpendler Auspendler Pendlersaldo
München, Landeshauptstadt 455,645 202,756 252,889
Frankfurt am Main, Stadt 405,856 111,245 294,611
Hamburg, Freie und Hansestadt 392,951 147,328 245,623
Berlin, Stadt 392,324 219,898 172,426
Köln, Stadt 306,905 138,422 168,483
Düsseldorf, Stadt 284,696 97,326 187,370
Stuttgart, Landeshauptstadt 274,442 100,095 174,347
Nürnberg, Stadt 165,496 78,557 86,939
Essen, Stadt 141,296 90,906 50,390
Region Hannover 137,924 69,974 67,950

Interpretation: Welche Städte sind die größten “Pendlermagneten” Deutschlands und warum?

Die größten Pendlermagneten Deutschlands sind Großstädte wie München, Frankfurt, Hamburg, Berlin und Köln. Diese Städte ziehen besonders viele Pendler an, weil sie einwohnerreich sind, große Arbeitsmärkte bieten und gut vernetzt sind. In diesen Städten gibt es oft deutlich mehr Arbeitsplätze, als es erwerbstätige Einwohner gibt. Das führt dazu, dass viele Menschen aus dem günstigeren Umland täglich in die Stadt fahren.

Sie sind wirtschaftliche Zentren und Standorte für Großunternehmen, Banken, Konzerne und wichtige Behörden und bieten damit überregional viele Arbeitsplätze. So ist München das wirtschaftliche Zentrum Bayerns mit vielen Unternehmen und Technologiefirmen, während Frankfurt als Finanzplatz mit Börse und großen Banken zahlreiche Pendler aus dem Umland anzieht.

Darüber hinaus sind Städte wie München, Hamburg oder Frankfurt große Verkehrsknotenpunkte, die sowohl gut an das Bahnnetz als auch an wichtige Autobahnen angebunden sind. Alle regionalen Bahnlinien laufen auf diese Zentren zu, wodurch die Städte aus der Umgebung gut erreichbar sind. Zusätzlich verstärken die hohen Mietpreise in den Zentren den Effekt, da viele Beschäftigte auf den kostengünstigeren Wohnraum im Umland ausweichen müssen.

Diese Kombination aus wirtschaftlicher Attraktivität und hoher Verkehrsanbindung macht das Pendeln in diese Städte besonders attraktiv.


  1. Was kostet das Auto? Sie haben jetzt Bahndaten und wissen, wohin die Menschen pendeln. Aber um fair vergleichen zu können, brauchen Sie auch die Alternative: Wie viel Zeit verlieren Autofahrer im Stau? Diese Daten liefert INRIX – ein Unternehmen, das weltweit Verkehrsdaten sammelt. Später werden Sie diese Staukosten mit den Bahnverspätungen vergleichen.

Besuchen Sie die INRIX Global Traffic Scorecard und suchen Sie die Stauzeiten für die Top 10 Städte aus Aufgabe 2 und zusätzlich die Stauzeiten für Ulm. INRIX misst, wie viele Stunden Autofahrer jährlich im Stau verlieren.

  • Erstellen Sie eine eigene CSV-Datei inrix_staedte_2024.csv mit folgenden Spalten für die geforderten Städte:
    • stadt: Name der Stadt
    • stau_stunden_jahr: Jährliche Staustunden pro Fahrer
    • kosten_eur: Jährliche Kosten pro Fahrer (findet sich in der tiefergehenden Übersicht)
  • Berechnen Sie für jede Stadt, wie viele Arbeitstage pro Jahr im Stau verloren gehen. Annahme: Ein Arbeitstag = 8 Stunden.

Erstellen Sie anschließend eine schöne Tabelle mit: Stadt, Staustunden/Jahr, verlorene Arbeitstage und beschreiben diese. In welcher Stadt ist die Stausituation am schlimmsten? Wie viele Arbeitstage verliert ein typischer Pendler dort pro Jahr?

Hinweis: Auf der INRIX-Website können Sie nach bei “Jump to City Rankings” -> “Search the List” -> “Germany” oder der konkreten Stadt filtern.


Jährliche Stauzeiten und Kosten für Autofahrer
INRIX Global Traffic Scorecard: Deutschland (2025)
Stadt Staustunden pro Jahr (h/J) Kosten pro Jahr (EUR) Verlorene Arbeitstage pro Jahr
Köln 67.0 919 8.4
Düsseldorf 63.0 864 7.9
Berlin 60.0 823 7.5
Stuttgart 60.0 823 7.5
München 57.0 781 7.1
Frankfurt 55.0 754 6.9
Hamburg 46.0 631 5.8
Essen 46.0 631 5.8
Nürnberg 38.0 521 4.8
Ulm 30.0 411 3.8

Beschreibung

Die Tabelle zeigt die jährlichen Stauzeiten und Staukosten für Autofahrer in den zehn größten Pendlerstädten Deutschlands sowie zusätzlich für Ulm. Für jede Stadt werden die durchschnittlichen Staustunden pro Fahrer und Jahr, die daraus entstehenden jährlichen Kosten in Euro sowie die daraus berechneten verlorenen Arbeitstage dargestellt.

Alle Daten beziehen sich jeweils auf einen einzelnen Fahrer und nicht auf die gesamte Stadtbevölkerung, also beispielsweise darauf, wie viele Stunden ein Autofahrer in München pro Jahr im Stau steht. Die verlorenen Arbeitstage wurden berechnet, indem die jährlichen Staustunden durch acht Stunden pro Arbeitstag geteilt wurden. Die Städte sind absteigend nach den jährlichen Staustunden sortiert, sodass Städte mit besonders hoher Staubelastung oben in der Tabelle stehen.

An erster Stelle liegt Köln, wo Autofahrer im Durchschnitt 67 Stunden pro Jahr im Stau stehen, was etwa 8,4 verlorenen Arbeitstagen entspricht; außerdem entstehen dort mit 919 Euro die höchsten jährlichen Kosten. Im Vergleich dazu liegt Ulm am unteren Ende der Skala: Dort verlieren Autofahrer durchschnittlich 30 Stunden pro Jahr im Stau, was etwa 3,8 Arbeitstagen entspricht.


  1. Für die weiteren Analysen stellen wir Ihnen fünf zusätzliche Datensätze bereit. Diese laden Sie jetzt, damit sie in allen folgenden Aufgaben direkt verfügbar sind.

Laden Sie die folgenden Datensätze aus dem Ordner daten und speichern Sie diese unter den angegebenen Variablennamen:

Datei Variablenname Verwendet in
bahnhof_ags_mapping.csv bahnhof_mapping Aufgabe 9-10
fahrtzeit_osrm_vergleich.csv fahrtzeit Aufgabe 12
ulm_pendlerrouten.csv ulm_routen Aufgabe 13
ba_entgeltstatistik_2024.csv entgelt für staedte_basis
co2_analyse.csv co2_analyse Aufgabe 19 (Bonus)

Verschaffen Sie sich einen ersten Überblick über die Struktur der Daten (z.B. mit glimpse(), dies sollte später in ihrem HTML Dokument nicht sichtbar sein!).

Erstellen Sie außerdem einen Master-Datensatz staedte_basis für die Top-11-Städte (Top 10 Pendlerstädte + Ulm), der die Daten aus pendler, entgelt und inrix kombiniert. Dieser Datensatz vereinfacht die späteren Analysen (ab Aufgabe 14), da alle relevanten Kennzahlen bereits zusammengeführt sind.

Der Master-Datensatz sollte folgende Spalten enthalten:

  • ags: Amtlicher Gemeindeschlüssel
  • stadt: Stadtname (Kurzform, z.B. “München”)
  • einpendler: Anzahl Einpendler
  • median_monat_eur: Medianlohn pro Monat
  • median_stunde_eur: Medianlohn pro Stunde (Monatslohn / 160)
  • stau_stunden_jahr: Stauzeit pro Jahr (aus INRIX)

Hinweis 1: Die Datensätze verwenden unterschiedliche Namensformate: pendler hat offizielle Namen (“München, Landeshauptstadt”), während entgelt und inrix Kurznamen (“München”) verwenden. Nutzen Sie den AGS als zuverlässigen Schlüssel für die Verknüpfung mit pendler. Tipp: entgelt enthält sowohl AGS als auch Kurznamen und eignet sich daher gut als Ausgangspunkt.

Hinweis 2: Eine ausführliche Beschreibung der Datensätze finden Sie im Anhang A.



Die Pünktlichkeit der Deutschen Bahn

Nachdem Sie nun einen Überblick über die Daten haben, welche wir in diesem Projekt verwenden möchten, tauchen Sie tiefer in die Bahndaten ein. Die zentrale Frage ist: Wie zuverlässig ist die Deutsche Bahn wirklich?

Die Bahn unterscheidet verschiedene Zugtypen, vom ICE über den RE bis zur S-Bahn. Jeder Zugtyp hat unterschiedliche Eigenschaften: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Aber welcher Zugtyp ist am pünktlichsten?

  1. Welche Züge sind (un)pünktlich? Nicht alle Züge sind gleich: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Um später sinnvolle Empfehlungen geben zu können, müssen Sie verstehen, welche Zugtypen besonders problematisch sind. Dafür klassifizieren Sie die Züge anhand ihrer Namen. Nutzen Sie für diese Analyse den Datensatz bahn.

Die Variable train_name enthält den Zugnamen (z.B. “ICE 123”, “S 5”, “RE 8”).

Zugtyp Regel Beispiel
ICE beginnt mit “ICE” ICE 123
IC/EC beginnt mit “IC” oder “EC” IC 2012, EC 6
IRE/RE beginnt mit “RE” oder “IRE” RE 5, IRE 200
RB beginnt mit “RB” RB 26
S-Bahn beginnt mit “S” (mit Leerzeichen!) S 5
Sonstige alle anderen U 6, STB 123

Erstellen Sie auf dieser Basis eine Tabelle, welche pro Zugtyp folgende Kennzahlen anschaulich darstellt:

Beschreiben und Interpretieren Sie die Tabelle.

Weiterhin sollten Sie ihre Ergebnisse verifizieren. Dafür können Sie auf die offizielle Pünktlichkeitswerte der Deutschen Bahn zurückgreifen (recherchieren Sie diese selbstständig).

Stimmen Ihre Ergebnisse mit den offiziellen Werten überein? Falls nicht: Welche methodischen Unterschiede könnten die Abweichung erklären?

Hinweis: Nutzen Sie str_detect() aus dem stringr-Paket. Achten Sie auf die Reihenfolge der Bedingungen!


Pünktlichkeit der Deutschen Bahn nach Zugtyp
November 2025 · Pünktlich = Verspätung ≤ 6 Minuten
Zugtyp Anzahl Halte Ø Verspätung (MIN) Pünktlichkeit (%) Ausfallquote (%)
S-Bahn 6,414,045 2.9 87.4 5.5
Sonstige 2,938,815 3.5 84.7 2.6
RB 2,675,028 3.5 85.2 3.2
IRE/RE 1,673,555 6.1 74.1 3.6
ICE 171,516 12.5 56.7 4.2
IC/EC 70,602 11.0 60.2 7.2

Beschreibung

Die Tabelle gibt einen Überblick über zentrale Kennzahlen zur Pünktlichkeit der Deutschen Bahn, differenziert nach verschiedenen Zugtypen. Untersucht werden insgesamt sechs Kategorien: ICE, IC/EC, IRE/RE, RB, S-Bahn sowie “Sonstige Züge”. Für jeden Zugtyp sind die Anzahl der erfassten Fahrten, die durchschnittliche Verspätung in Minuten, der Anteil pünktlicher Züge (definiert als Fahrten mit maximal sechs Minuten Verspätung) sowie die durchschnittliche Ausfallquote aufgeführt.

Die Tabelle ist absteigend nach der Anzahl der Fahrten sortiert. Dabei zeigt sich, dass die S-Bahn mit etwa 6,4 Millionen erfassten Fahrten den größten Anteil ausmacht. Auf den hinteren Plätzen befinden sich ICE und IC/EC-Züge. Diese beiden Zugarten weisen zugleich mit mehr als 10 Minuten die höchste durchschnittliche Verspätung sowie mit circa 60 % die geringste Pünktlichkeit auf. Darüber hinaus zeigen sie zusammen mit der S-Bahn die höchste Ausfallquote.


Interpretation

Viele Fahrten der S-Bahn
Die S-Bahn hat mit über 6,4 Millionen die mit Abstand meisten Fahrten, was sich durch ihren Einsatz im städtischen Nahverkehr erklären lässt. S-Bahnen fahren kurze Strecken, oft im 10-Minuten-Takt, und bedienen viele Haltestellen, vor allem in Großstädten wie Berlin oder München, wodurch sich automatisch eine hohe Frequenz ergibt. Außerdem macht der Schienenpersonennahverkehr, also S-Bahn und Regionalbahn, in Deutschland über 90 % des gesamten Zugverkehrs aus, was die hohe Anzahl der Fahrten zusätzlich erklärt.

Verspätungen im Fernverkehr
ICE- und IC/EC-Züge liegen dagegen auf den hinteren Plätzen bei der Anzahl der Fahrten, da sie als Fernverkehrszüge lange Strecken bedienen. Ihre höhere durchschnittliche Verspätung lässt sich unter anderem dadurch erklären, dass diese Züge viele unterschiedliche Streckenabschnitte durchqueren und aufeinander warten müssen, damit Anschlussverbindungen für die Reisenden gesichert sind. Verspätungen eines Zuges wirken sich dadurch häufig auf nachfolgende Verbindungen aus und da sie längere Strecken unterwegs sind, summieren sich kleine Verzögerungen dabei schnell zu größeren Zeitverlusten. Gleichzeitig trägt die große Streckenlänge und die Vielzahl der befahrenen Abschnitte dazu bei, dass technische Probleme oder wetterbedingte Störungen häufiger auftreten, was die vergleichsweise hohe Ausfallquote erklärt.

Hohe Ausfallquote
Die Ausfallquote bei der S-Bahn ist trotz der vielen Fahrten mit 5,5 % vergleichsweise hoch. Das liegt zum Teil daran, dass ein einziger technischer Defekt oder Personalmangel schnell mehrere Fahrten hintereinander beeinträchtigen kann, da die Züge in kurzen Abständen verkehren. Zudem werden verspätete Fahrten manchmal komplett ausfallen gelassen, weil der nächste Zug ohnehin kurz darauf fährt und den Anschluss übernimmt.

Die Regionalzüge und sonstigen Züge liegen bei allen Kennzahlen meist im Mittelfeld, da sie weder ausschließlich kurze innerstädtische Strecken noch lange Fernverkehrsstrecken bedienen, sondern eine Mischung aus beiden darstellen.

Die 6-Minuten-Regel
Besonders bei Kurzstrecken führt diese Regel zu geschönten Zahlen: Kommt eine S-Bahn fünf Minuten zu spät, gilt sie offiziell noch als pünktlich, obwohl Fahrgäste ihren Anschluss eventuell bereits verpasst haben. Bei einer 20-minütigen Fahrt sind diese fünf Minuten jedoch schon ein erheblicher Anteil. Bei Fernverkehrszügen macht die Regel statistisch mehr Sinn, die Auswirkungen einer Verspätung sind hier jedoch deutlich gravierender, da man teilweise Stunden auf den nächsten Anschluss warten muss.

Fazit
Insgesamt zeigt sich, dass die Art des Zuges einen entscheidenden Einfluss auf Pünktlichkeit, Verspätung und Ausfallquote hat. Nahverkehrszüge wie die S-Bahn sind in der Regel zuverlässig, während Fernverkehrszüge lange Strecken und verschiedene Abschnitte bewältigen müssen, wodurch Störungen größere Auswirkungen haben. Regional- bzw. Mischzüge liegen meist im Mittelfeld.


Offizielle DB-Pünktlichkeitswerte Die DB unterscheidet zwischen betrieblicher Pünktlichkeit (Ankunft mit maximal 5:59 Minuten Verspätung) und Reisendenpünktlichkeit (Ankunft der Fahrgäste am Zielbahnhof mit maximal 14:59 Minuten Verspätung).

Für November weist die Deutsche Bahn folgende Werte aus:
DB Personenverkehr (betriebliche Pünktlichkeit): 84,5 %
DB Regio (betriebliche Pünktlichkeit): 85,2 %
DB Fernverkehr (betriebliche Pünktlichkeit): 54,5 %
DB Fernverkehr (Reisendenpünktlichkeit): 61,9 %

Übereinstimmung: Die Ergebnisse der eigenen Auswertung stimmen in ihrer grundsätzlichen Tendenz mit den offiziellen Pünktlichkeitswerten der Deutschen Bahn überein. Sowohl in den DB-Daten als auch in der eigenen Analyse zeigt sich, dass der Nahverkehr deutlich höhere Pünktlichkeitswerte aufweist als der Fernverkehr. Zudem liegen die ermittelten Prozentwerte der einzelnen Zugtypen insgesamt nah an den offiziellen Angaben, sodass nur geringe Abweichungen von wenigen Prozentpunkten auftreten.

Abweichungen: Die verbleibenden Unterschiede in den exakten Pünktlichkeitswerten lassen sich vor allem durch methodische Faktoren erklären. Die Deutsche Bahn fasst mehrere Zugarten zu übergeordneten Kategorien wie „DB Regio“ oder „DB Fernverkehr“ zusammen und berechnet ihre Pünktlichkeitswerte auf Grundlage gewichteter Fahrtenzahlen. In unserer eigenen Auswertung werden die Pünktlichkeitswerte zunächst getrennt für einzelne Zugtypen ausgewiesen und bei einer Zusammenfassung zu größeren Kategorien kann sich der Einfluss der jeweiligen Zugarten je nach Anzahl der erfassten Fahrten unterschiedlich stark auswirken.

Darüber hinaus könnte die Abweichung auch daran liegen, dass Totalausfälle möglicherweise nicht immer gleich erfasst werden, einzelne Messpunkte unterschiedlich gewichtet sein könnten oder kleinere Störungen an Zügen in der offiziellen DB-Auswertung anders behandelt werden.


  1. In Aufgabe 5 haben Sie gesehen, dass Fernverkehrszüge (ICE, IC/EC) deutlich höhere Verspätungen und Ausfallquoten haben als Nahverkehrszüge (IRE, RE, RB, S-Bahn). Aber wie relevant ist das für den typischen Pendler? Das hängt davon ab, wie viele Züge jeweils unterwegs sind. Nutzen Sie für diese Analyse den Datensatz bahn (mit der in Aufgabe 5 erstellten Variable zugtyp).

Klassifizieren Sie die Züge in zwei Kategorien:

Erstellen Sie ein Liniendiagramm, das die durchschnittliche Anzahl der Fahrten pro Stunde im Tagesverlauf zeigt:

Tipp: Extrahieren Sie die Stunde aus der Variable time mit hour() aus dem lubridate-Paket. Berechnen Sie dann die durchschnittliche Anzahl Fahrten pro Stunde und Zugtyp.

Beschreiben und interpretieren Sie ihre Grafik. Beantworten Sie zusätzlich die folgenden Fragen:


Beschreibung
Das vorliegende Liniendiagramm stellt die durchschnittliche Anzahl der Zugfahrten pro Stunde im Tagesverlauf dar. Die Daten basieren auf einem Zeitraum von 30 Tagen. Unterschieden wird zwischen Fernverkehr, dargestellt durch eine rote Linie, und Nahverkehr, dargestellt durch eine blaue Linie. Auf der x-Achse ist die durchschnittliche Anzahl der Fahrten pro Stunde abgetragen, während die y-Achse die Uhrzeit von 0 bis 23 Uhr zeigt. Ziel des Diagramms ist es, den Verlauf des Zugverkehrs über einen gesamten Tag hinweg zu veranschaulichen.

Fernverkehr
Die rote Linie des Fernverkehrs verläuft über den gesamten Tagesverlauf hinweg auf einem sehr niedrigen Niveau. Die Anzahl der Fahrten pro Stunde bleibt nahezu konstant und schwankt fast gar nicht. Ab den frühen Morgenstunden bis in den Nachmittag hinein ist ein leichter Anstieg zu erkennen, der jedoch insgesamt sehr gering ausfällt. Ab etwa 20 Uhr sinkt die Anzahl der Fernverkehrsfahrten wieder leicht ab.

Nahverkehr
Im Gegensatz dazu zeigt die blaue Linie des Nahverkehrs deutlich stärkere Schwankungen und liegt zu jeder Tageszeit deutlich über der roten Linie. Zu Beginn des Tages, um 0 Uhr, ist die Anzahl der Fahrten relativ hoch, sinkt jedoch bis etwa 4 Uhr morgens deutlich ab. Anschließend steigt sie kontinuierlich an und erreicht gegen 8 Uhr morgens einen ersten Höhepunkt von rund 20.000 Fahrten pro Stunde. Danach nimmt die Anzahl bis etwa 12 Uhr leicht ab, bevor sie im weiteren Tagesverlauf erneut ansteigt. Der höchste Wert wird am frühen Abend, etwa gegen 18 Uhr, erreicht und liegt bei über 20.000 Fahrten pro Stunde. Im Anschluss daran fällt die Anzahl der Fahrten wieder ab.

Interpretation
Der deutliche Unterschied in der Anzahl der Fahrten zwischen Nah- und Fernverkehr entsteht, weil deutlich mehr Menschen regelmäßig kurze, regionale Strecken zurücklegen als lange Fernstrecken.

Hauptverkehrszeiten
Deutlichen Schwankungen im Nahverkehr lassen sich vor allem durch Pendlerströme erklären. Die oben beschriebenen Spitzenzeiten spiegeln die Hauptverkehrszeiten wider, in denen viele Menschen zur Arbeit, zur Schule oder zur Universität fahren und am späten Nachmittag wieder zurückkehren. Die starke Dynamik zeigt, dass der Nahverkehr bedarfsorientiert ist, weil die Zahl der Fahrten an die Tageszeit und die Pendlerströme angepasst wird, da viele Menschen regelmäßig regional unterwegs sind.

Getakteter Verkehr
Der Fernverkehr hingegen ist getaktet und weniger stark von Pendlerströmen abhängig, weshalb die Anzahl der Fahrten über den Tagesverlauf eher konstant bleibt. Fernzüge sichern die grundlegende Verbindung zwischen Städten und verkehren unabhängig von den typischen “Rush-Hour-Zeiten”. Daher treten im Fernverkehr keine ausgeprägten Spitzen auf.

Warum ist diese Information wichtig, wenn wir später die Verspätungen analysieren?
Die dargestellten Fahrtenzahlen und deren Verteilung über den Tagesverlauf geben Aufschluss darüber, welche Zeiten für den Zugverkehr besonders anfällig sind. In den Spitzenzeiten des Nahverkehrs ist das Schienennetz stark ausgelastet. Kleine Störungen, wie verspätete Züge oder technische Probleme, können schnell zu Folgeverspätungen und einer Art Dominoeffekt führen.

Zudem müssen Fern- und Nahverkehr oft dasselbe Gleisnetz nutzen, wodurch in Spitzenzeiten das Risiko von Verzögerungen steigt. Die Grafik liefert damit einen klaren Hinweis, wann das System besonders anfällig für Verspätungen ist und welche Tageszeiten entscheidend für die Planung von Fahrplänen und Kapazitäten sind.


Nachdem Sie in Aufgabe 6 herausgefunden haben, dass es deutlich mehr Nahverkehrszüge als Fernverkehrszüge gibt, und diese für Pendler wichtiger sind, sollten Sie sich die Verspätungen der Nahverkehrszüge über den Tag anschauen, da diese vermutlich nicht gleichmäßig über den Tag verteilt sind. Pendler erleben die Bahn vor allem in der Hauptverkehrszeit, d.h. morgens zwischen 7 und 9 Uhr und abends zwischen 16 und 19 Uhr. Aber ist die Bahn zu diesen Zeiten besonders unpünktlich?

  1. Erstellen Sie zwei Heatmaps, die zeigen, wie sich die Verspätungen nach Tageszeit (Stunde) und Wochentag für die Nahverkehrszüge und die Fernverkehrszüge verteilen. Nutzen Sie für diese Analyse den Datensatz bahn.

Tipp zur Farbskala: Da Fernverkehrszüge im Durchschnitt höhere Verspätungen haben als Nahverkehrszüge, können Sie unterschiedliche Farbskalen für die beiden Heatmaps verwenden (z.B. Blau-Töne für Nahverkehr, Rot-Töne für Fernverkehr). Dadurch werden die Muster innerhalb jeder Verkehrsart besser sichtbar.

Beschreiben und interpretieren Sie ihre Grafiken.


Beschreibung

Die beiden Heatmaps zeigen die durchschnittliche Verspätung von Zügen in Abhängigkeit von der Tageszeit und dem Wochentag, getrennt nach Nah- und Fernverkehr. Grundlage der Darstellung ist der Datensatz “bahn”. Berücksichtigt werden ausschließlich die Tageszeiten zwischen 5 und 23 Uhr, da außerhalb dieses Zeitraums nur geringer Zugverkehr stattfindet.

Auf der x-Achse ist jeweils die Uhrzeit in Stunden dargestellt, auf der y-Achse die Wochentage von Montag bis Sonntag. Die einzelnen Felder der Heatmaps repräsentieren die durchschnittliche Verspätung in Minuten für die jeweilige Kombination aus Stunde und Wochentag.

Nahverkehr
Die obere Heatmap zeigt die Verteilung der durchschnittlichen Verspätungen im Nahverkehr. Die Farbskala ist in Blautönen gehalten und reicht von sehr hellen Farben für geringe durchschnittliche Verspätungen bis zu dunkleren Blautönen für höhere Verspätungswerte von bis zu etwa fünf Minuten. Die Intensität der Farbgebung variiert sowohl im Tagesverlauf als auch zwischen den einzelnen Wochentagen. Zwischen 7 und 11 Uhr sowie zwischen 17 und 23 Uhr sind von Montag bis Freitag vermehrt dunklere Farbbereiche zu erkennen. In den frühen Morgenstunden um 5 und 6 Uhr dominieren an allen Wochentagen sehr helle Farbtöne, während am Sonntag über den gesamten Tagesverlauf hinweg überwiegend helle Farbwerte sichtbar sind.

Fernverkehr
Die untere Heatmap stellt die Verteilung der durchschnittlichen Verspätungen im Fernverkehr dar. Es wird eine separate Farbskala in Rottönen verwendet, die bei etwa fünf Minuten durchschnittlicher Verspätung beginnt und bis zu rund zwanzig Minuten reicht (von hellrot bis dunkelrot). Die Farbverteilung zeigt über die Wochentage hinweg ein weitgehend ähnliches Muster. In den frühen Morgenstunden um 5 Uhr sind vereinzelt dunklere Farbfelder zu erkennen. Zwischen etwa 6 und 9 Uhr dominieren überwiegend helle Farbtöne. Im weiteren Tagesverlauf bleibt die Farbintensität weitgehend konstant, bevor sie in den Abendstunden zunimmt. Die dunkelsten Farbtöne treten vor allem zwischen etwa 22 und 23 Uhr auf.

Vergleich
Im Vergleich der beiden Heatmaps zeigt sich, dass sich die Farbintensität im Nahverkehr je nach Wochentag unterscheidet, während im Fernverkehr das Muster über die Wochentage hinweg weitgehend konstant bleibt. Darüber hinaus weist die blaue Heatmap insgesamt mehr dunkle Farbfelder auf.

Interpretation

Gesamtübersicht

Die durchschnittlichen Verspätungen variieren je nach Verkehrsart, Tageszeit und Wochentag. Die dunkleren Farbfelder im Nahverkehr wirken intensiver, obwohl die Verspätungen tatsächlich niedriger sind, da die Farbskala hier nur bis maximal fünf Minuten geht, während sie im Fernverkehr von fünf bis 20 Minuten reicht. Wie bereits in den vorherigen Aufgaben genauer erläutert, liegen die höheren Verspätungen im Fernverkehr unter anderem daran, dass die Züge viele unterschiedliche Streckenabschnitte durchqueren und oft auf Anschlusszüge gewartet werden muss.

Nahverkehr
Die höchsten Verspätungen treten hier an Werktagen in den Hauptverkehrszeiten zwischen 7 und 11 Uhr sowie zwischen 17 und 23 Uhr auf. Dies entspricht den Stoßzeiten der Pendler, die zur Arbeit, zur Schule oder zur Universität unterwegs sind. In diesen Zeitfenstern ist das Fahrgastaufkommen hoch, und die Züge verkehren eng getaktet. Kleine Verzögerungen können daher schnell auf nachfolgende Züge übertragen werden. Zusätzlich kann es vorkommen, dass Regionalzüge auf Fernzüge (z.B. ICE) warten müssen, damit diese ihre Pünktlichkeit halten.

In den frühen Morgenstunden um 5 und 6 Uhr sind die Verspätungen an allen Wochentagen gering, da zu diesen Zeiten nur wenige Fahrten stattfinden, wie in der vorherigen Aufgabe zu sehen war. Am Sonntag bleiben die Verspätungen über den gesamten Tagesverlauf niedrig, da an diesem Tag generell weniger Pendler unterwegs sind, weil es kein Werkt- oder Schultag ist.

Fernverkehr
Die gleichmäßige Verteilung der Verspätungen im Fernverkehr lässt sich dadurch erklären, dass Fernzüge überwiegend von Reisenden und nicht von Pendlern genutzt werden. Dadurch gibt es keine ausgeprägten Stoßzeiten wie im Nahverkehr an den Werktagen. Die leichten Schwankungen der Verspätungen im Fernverkehr sind nicht auf eine höhere Anzahl von Fahrten zurückzuführen, da die Zahl der Züge über den Tag hinweg weitgehend konstant ist (vgl. Aufgabe 6). Die etwas höheren Verspätungen am Abend zwischen 20 und 23 Uhr entstehen, weil sich kleine Verzögerungen aus dem Tagesverlauf über die Umläufe der Züge aufsummieren. Frühmorgens um 5 Uhr sind vereinzelt Verspätungen auf operative Vorbereitungen zurückzuführen, etwa die Bereitstellung der Züge aus Depots, technische Kontrollen oder noch laufende Nachtbaustellen.

Bedeutung für Pendler
Für Pendler im Nahverkehr sind Verzögerungen während der Hauptverkehrszeiten an den Werktagen besonders relevant. In diesen Zeitfenstern sind besonders viele Fahrten geplant, eben weil so viele Menschen pendeln und genau diese hohe Anzahl an Fahrten führt dazu, dass in diesen Zeiträumen auch die meisten Verspätungen auftreten. Selbst kleine Verzögerungen von wenigen Minuten können für Pendler besonders gravierend sein, da sie dadurch Anschlussverbindungen verpassen und später am Arbeitsplatz oder in der Schule ankommen. Verspätungen im Fernverkehr sind für Pendler praktisch irrelevant, da diese Züge fast ausschließlich von Reisenden genutzt werden und auch die Verspätungen am Wochenende beeinflussen Pendler eigentlich gar nicht. Abendreisende, egal ob im Nah- oder Fernverkehr, müssen jedoch mit der höchsten Wahrscheinlichkeit für Verzögerungen rechnen, da die Züge die Verspätungen des gesamten Tages „mittragen“ und somit späte Anschlussverbindungen besonders gefährdet sind.

Fazit: Die hohen Verspätungen in den Stoßzeiten entstehen direkt durch die hohe Anzahl an Fahrten, die durch das starke Pendleraufkommen notwendig sind. Pendler sind also gleichzeitig die Hauptnutzer und indirekt auch der Grund für die vielen Verzögerungen.


Von der Zeit zum Ort: Wo entstehen die Verspätungen?

In Aufgabe 7 haben Sie analysiert, wann die Verspätungen auftreten, nämlich vor allem zu den Hauptverkehrszeiten. Aber die nächste wichtige Frage ist: Wo entstehen diese Verspätungen?

Aggregierte Statistiken wie Durchschnittswerte über ganz Deutschland verbergen oft große regionale Unterschiede. Vielleicht gibt es einzelne “Problembahnhöfe”, die den Durchschnitt nach oben ziehen? Oder sind die Verspätungen gleichmäßig über das Netz verteilt? Diese Frage ist wichtig, weil sie unterschiedliche Lösungsansätze impliziert: Bei wenigen Problembahnhöfen könnte die Bahn gezielt investieren, bei flächendeckenden Problemen bräuchten Sie systemische Lösungen.

  1. Identifizieren Sie die 10 unpünktlichsten Bahnhöfe in Deutschland (mit mindestens 1.000 Halten im Monat). Nutzen Sie für diese Analyse den Datensatz bahn.

Erstellen Sie ein Balkendiagramm, das die durchschnittliche Verspätung dieser Bahnhöfe zeigt. Beschriften Sie die Balken mit den Verspätungswerten.

Beschreiben und interpretieren Sie ihre Grafik.

  • Sehen Sie ein geografisches Muster?
  • Handelt es sich um große Knotenbahnhöfe oder eher um kleinere Stationen?

Beschreibung
Das Balkendiagramm zeigt die 10 unpünktlichsten Bahnhöfe in Deutschland im Jahr 2025. Berücksichtigt werden dabei ausschließlich Bahnhöfe, die mindestens 1.000 Halte pro Monat verzeichnen. Auf der Y-Achse sind die jeweiligen Bahnhöfe aufgelistet, die nach absteigender durchschnittlicher Verspätung sortiert sind. Die X-Achse gibt die durchschnittliche Verspätung in Minuten an.

Werte
Die Spitzenposition nimmt der Bahnhof Ennepetal (Gevelsberg) mit einer durchschnittlichen Verspätung von 14,7 Minuten ein, während Zeesen mit einer durchschnittlichen Verspätung von 12,3 Minuten das Schlusslicht der Top-10 bildet. Die Werte liegen insgesamt eng beieinander, sodass keine auffälligen Ausreißer erkennbar sind.

Interpretation

Geografisches Muster
Fast alle der aufgeführten unpünktlichsten Bahnhöfe liegen konkret im Westen Deutschlands, und zwar in einer klar erkennbaren räumlichen Konzentration entlang des Rheinlands und der stark genutzten linken Rheinstrecke zwischen Koblenz, Bonn und Köln.

Diese Häufung ist kein Zufall, sondern hängt eng mit der Verkehrsstruktur und der Infrastruktur auf diesen Linien zusammen. Viele der westdeutschen Bahnhöfe liegen auf stark befahrenen Strecken, auf denen Regionalzüge denselben Gleisen folgen wie Fern- oder Güterzüge. Auf manchen Abschnitten gibt es nur ein Gleis, sodass Verspätungen kaum ausgeglichen werden können. Wenn ein Zug verspätet ist, müssen die nachfolgenden Züge oft warten, und schon breiten sich die Verzögerungen entlang der Strecke aus. Kleine Störungen wirken so deutlich stärker als auf weniger dicht befahrenen Linien.

Ein weiterer Faktor ist die hohe Verkehrsdichte im Westen, besonders im Rheinland. Viele Züge fahren auf engem Raum, und selbst kleinere Abweichungen vom Fahrplan übertragen sich schnell auf andere Verbindungen.

Außerdem ist die Infrastruktur an vielen Stellen älter und noch nicht vollständig modernisiert. Neue Anlagen, wie sie nach der Wende in weiten Teilen Ostdeutschlands gebaut wurden, sorgen dort dafür, dass Störungen seltener auftreten. Zudem ist der Platz für zusätzliche Gleise in Westdeutschland oft begrenzt, etwa weil Strecken zwischen Flüssen und Bergen eingeengt sind, sodass das Netz weniger Puffer für verspätete Züge bietet.


Handelt es sich um große Knotenbahnhöfe oder eher um kleinere Stationen?
Interessanterweise handelt es sich bei den unpünktlichsten Bahnhöfen fast ausschließlich nicht um große Knotenpunkte, sondern um kleinere Regionalstationen. Die Voraussetzung von mindestens 1.000 Halten pro Monat entspricht lediglich etwa 33 Halten pro Tag und liegt damit deutlich unter dem Verkehrsaufkommen großer Hauptbahnhöfe wie dem Münchener Hauptbahnhof, der über 1.000 Halte täglich verzeichnet. Dadurch können grundsätzlich auch kleinere Stationen in die Auswertung einbezogen werden.

Auffällig ist jedoch, dass die Top-10 fast ausschließlich aus solchen kleineren Regionalstationen besteht. Dies lässt sich dadurch erklären, dass Verspätungen an kleinen Bahnhöfen einen deutlich stärkeren Einfluss auf den Durchschnitt haben: Da dort weniger Züge halten, schlägt bereits ein einzelner verspäteter Regionalzug stark zu Buche.

Zudem verfügen diese Stationen meist über eine einfache Infrastruktur mit wenigen Gleisen und kaum betrieblichen Pufferzeiten, sodass Verspätungen nur schwer ausgeglichen werden können. Große Knotenbahnhöfe hingegen besitzen mehr Gleiskapazitäten, flexiblere Betriebsabläufe und zeitliche Reserven, wodurch einzelne Verspätungen statistisch und betrieblich besser abgefedert werden.

Spitzenreiter
Dass die Top-10-Werte relativ nah beieinanderliegen, ist kein Zufall, sondern deutet darauf hin, dass es sich um ein systematisches Problem im Regionalverkehr handelt. Am Beispiel des unpünktlichsten Bahnhofs lässt sich die Wirkung der zuvor erläuterten Faktoren besonders gut nachvollziehen. Der Spitzenreiter ist Ennepetal (Gevelsberg), der im nordrhein-westfälischen Ennepe-Ruhr-Kreis liegt. Es handelt sich um einen kleinen Regionalbahnhof, der ausschließlich vom Regionalverkehr bedient wird und nur wenige Gleise besitzt.

Durch diese einfache Infrastruktur und die Lage auf einer stark getakteten Regionalstrecke lassen sich die zuvor beschriebenen Verzögerungseffekte besonders deutlich beobachten. Dies führt dazu, dass sich selbst kleine Verspätungen schnell aufsummieren und Ennepetal die höchste durchschnittliche Verspätung unter den Top-10-Bahnhöfen erreicht.


Wo treffen viele Pendler auf eine unpünktliche Bahn?

Bisher haben Sie Pendler- und Bahndaten getrennt betrachtet. Aber die spannende Frage ist: Wo kommen beide Probleme zusammen? Eine Stadt mit vielen Pendlern und einer unpünktlichen Bahn hat ein größeres Problem als eine Stadt mit wenigen Pendlern und einer unpünktlichen Bahn.

Um diese Frage zu beantworten, müssen Sie die Datensätze verknüpfen. Das Problem: Die Bahndaten sind auf Bahnhofsebene, die Pendlerdaten auf Kreisebene. Sie benötigen ein Mapping, das Bahnhöfe den entsprechenden Kreisen zuordnet.

  1. In dieser Aufgabe verknüpfen Sie die Bahn- und Pendlerdaten, um Städte mit Handlungsbedarf zu identifizieren. Nutzen Sie für ihre Analysen die Datensätze: bahn, pendler und bahnhof_mapping.

Das Mapping ordnet Bahnhöfe ihrem Landkreis zu (via AGS = Amtlicher Gemeindeschlüssel). Ihr Ziel: Identifizieren Sie Städte, in denen viele Pendler auf eine unpünktliche Bahn treffen.

\[\text{Problem-Score} = z(\text{Einpendler}) + z(\text{Verspätung})\]

Die z-Standardisierung macht die Werte vergleichbar: \(z(x) = \frac{x - \bar{x}}{s_x}\), wobei \(\bar{x}\) der Mittelwert und \(s_x\) die Standardabweichung ist.

Interpretation: Ein hoher Problem-Score = Viele Pendler + hohe Verspätung = Handlungsbedarf.

Anschließend sollten Sie eine Tabelle der Top 10 Städte nach Problem-Score darstellen und diese kurz beschreiben.


Top 10 Städte nach Problem-Score (2025)
Kombination aus vielen Pendlern und hoher Verspätung
Stadt / Kreis Einpendler Ø Verspätung (Min) Problem-Score
München, Landeshauptstadt 455,645 5.98 3.45
Köln, Stadt 306,905 7.89 3.05
Düsseldorf, Stadt 284,696 7.33 2.55
Frankfurt am Main, Stadt 405,856 5.14 2.54
Berlin, Stadt 392,324 4.70 2.18
Hamburg, Freie und Hansestadt 392,951 4.44 2.05
Duisburg, Stadt 86,735 8.81 1.46
Hamm, Stadt 22,447 9.93 1.45
Stuttgart, Landeshauptstadt 274,442 5.30 1.38
Bonn, Stadt 112,607 8.00 1.28

Beschreibung

Die vorliegende Tabelle zeigt die zehn verkehrlich problematischsten Städte und Landkreise in Deutschland, sortiert nach ihrem Problemscore. Dabei werden für jeden Landkreis beziehungsweise jede kreisfreie Stadt die Anzahl der Einpendler, die durchschnittliche Verspätung der Züge in Minuten sowie der Problemscore aufgeführt. Letzterer ergibt sich aus einer Kombination der beiden Dimensionen Einpendlerzahl und durchschnittliche Verspätung. Außerdem ist die Tabelle absteigend nach dem Problemscore geordnet.

Hoher Problem-Score
An der Spitze der Liste steht München mit einem Problemscore von 3,45. Die Stadt weist mit etwa 455.000 Einpendlern die höchste Anzahl auf und eine durchschnittliche Verspätung von fast sechs Minuten. Auf dem zweiten Platz folgt Köln mit einem Score von 3,05, rund 306.000 Einpendlern und einer Verspätung von etwa 7,8 Minuten. Die vorderen Plätze zeichnen sich insgesamt durch hohe Pendlerzahlen aus.

Niedriger Problem-Score
Am unteren Ende der Rangliste liegt Bonn mit einem Problemscore von 1,28, etwa 112.000 Einpendlern und einer durchschnittlichen Verspätung von acht Minuten.
Auffällig ist außerdem Hamm: Die Stadt weist mit rund 22.000 Einpendlern den niedrigsten Wert im Datensatz auf. Gleichzeitig beträgt die durchschnittliche Zugverspätung 9,9 Minuten und stellt damit den höchsten Wert dar. Der Problemscore liegt bei 1,45.


  1. Erstellen Sie ein Streudiagramm (Scatterplot), das die Beziehung zwischen Einpendlerzahl (x-Achse) und durchschnittlicher Verspätung (y-Achse) visualisiert.

Beschreiben und iInterpretieren Sie die vier Quadranten:

Beantworten Sie dabei auch folgende Fragen:


Beschreibung
Die vorliegende Grafik ist ein Streudiagramm, das den Zusammenhang zwischen dem Pendleraufkommen und der durchschnittlichen Verspätung im Schienenverkehr für verschiedene deutsche Städte darstellt. Auf der x-Achse wird die Anzahl der Einpendler dargestellt, wobei eine logarithmische Skalierung gewählt wurde. Die y-Achse zeigt die durchschnittliche Verspätung in Minuten.

Zwei gestrichelte Linien markieren die Durchschnittswerte:
Ein vertikaler Strich bei 100.000 Einpendlern trennt Städte mit niedriger (links) und hoher (rechts) Pendlerzahl.
Ein horizontaler Strich bei knapp unter 6 Minuten trennt Städte mit niedriger (unten) und hoher (oben) durchschnittlicher Verspätung.

Die Striche teilen das Diagramm in vier Quadranten:

Handlungsbedarf (oben rechts, rot)
• Städte mit hoher Pendlerzahl und hoher Verspätung. Betroffene Städte sind explizit ausgewiesen z.B. Bonn, Düsseldorf, Köln, München

Lokalproblem (oben links, gelb)
• Städte mit niedriger Pendlerzahl, aber hoher Verspätung

Robust (unten rechts, grün)
• Städte mit hoher Pendlerzahl, aber niedriger Verspätung

Unauffällig (unten links, grau)
• Städte mit niedriger Pendlerzahl und niedriger Verspätung


Interpretation

Skalierung
Ein wesentliches Merkmal der vorliegenden Grafik ist die logarithmierte Skala für die x-Achse. Sie ist besonders sinnvoll, da sie es ermöglicht, eine enorme Spannweite von Werten von etwa 30.000 bis über 300.000 Pendlern übersichtlich in einem Diagramm darzustellen, ohne dass die Datenpunkte kleinerer Städte optisch zusammengedrückt werden. Zusätzlich erleichtert die logarithmische Darstellung, exponentielle Unterschiede zwischen kleinen und großen Städten direkt zu vergleichen.

Handlungsbedarf
Der Quadrant oben rechts wird als Handlungsbedarf eingestuft, da hier eine hohe Belastung des Schienennetzes durch massive Pendlerströme mit einer mangelnden Zuverlässigkeit zusammenfällt. In Städten wie Köln oder Düsseldorf führt die Kombination aus einer extrem dichten Zugfolge und einer bereits überlasteten Infrastruktur dazu, dass das System keine Puffer für Störungen mehr besitzt. Jede kleine Verzögerung hat hier fatale Auswirkungen, da sie sich aufgrund der hohen Fahrgastzahlen und der engen Taktung sofort auf eine Vielzahl nachfolgender Züge überträgt. Oft handelt es sich um zentral gelegene Knotenpunkte, die sowohl Fern- als auch Regionalverkehr bedienen. Dies zeigt klar, dass in diesen Regionen dringend Maßnahmen erforderlich sind, um Kapazitätsengpässe zu beheben und die Zuverlässigkeit des Netzes zu sichern.

Lokalproblem
Im Gegensatz dazu stehen die Städte im Quadranten oben links, die als „Lokalproblem“ charakterisiert werden. Hier zeigt sich ein interessantes Phänomen: Obwohl das Pendleraufkommen vergleichsweise moderat ist, weisen diese Städte überdurchschnittlich hohe Verspätungswerte auf. Da die Ursache hier nicht in der schieren Masse der Fahrgäste liegen kann, deutet dieses Muster auf spezifische, strukturelle Defizite hin. Diese Städte liegen oft nicht an den Hauptachsen, sodass einzelne Engpässe – etwa veraltete Stellwerkstechniken oder langwierige Großbaustellen – einen disproportional großen Einfluss auf den Betriebsablauf haben.

Robuster Quadrant
Ein positives Gegenbeispiel bilden die „robusten“ Städte im Quadranten unten rechts.Trotz eines hohen Pendleraufkommens gelingt es diesen Städten, die durchschnittliche Verspätung unter dem Gesamtdurchschnitt zu halten. Dies lässt auf eine hochgradig effiziente Organisation, redundante Gleise und gut getaktete Fahrpläne schließen, die speziell darauf ausgelegt sind, Massenbewegungen abzufangen. Es zeigt zudem, dass ein hohes Verkehrsaufkommen nicht zwangsläufig in Unpünktlichkeit münden muss, wenn die entsprechenden Kapazitäten und Ausweichmöglichkeiten vorhanden sind.

Unauffälliger Quadrant
Zuletzt umfasst der Quadrant unten links jene Städte, die als „unauffällig“ gelten. In diesen Kommunen herrscht ein stabiler Regelbetrieb, da weder ein übermäßiger Druck durch Pendlerströme existiert noch signifikante infrastrukturelle Engpässe vorliegen. Das System ist hier gut ausgeglichen, da Angebot und Nachfrage aufeinander abgestimmt sind, was vor allem für mittelgroße und kleinere Städte eine effiziente Nutzung der vorhandenen Infrastruktur ermöglicht.

Empfehlung

Die Daten identifizieren das Rheinland mit den Großstädten Köln und Düsseldorf als das kritischste Gebiet im deutschen Schienennetz. Hier zeigt sich eine hohe Belastung durch dichte Pendlerströme und ein begrenztes Pufferangebot für Störungen, was regelmäßig zu Verspätungen führt.

Zur Verbesserung empfiehlt sich eine Netztrennung von Fern- und Güterverkehr sowie ein gezielter Ausbau kritischer Knotenpunkte, etwa durch zusätzliche Gleise oder entflechtete Streckenführungen. Dabei kann man sich an Maßnahmen orientieren, die in den robusten Städten umgesetzt werden, etwa durch bessere Taktung und zusätzliche Ausweichkapazitäten.

In den Städten, die dem Quadranten „Lokalproblem“ zugeordnet sind, weisen die Daten trotz moderatem Pendleraufkommen überdurchschnittliche Verspätungen auf. Dies deutet auf infrastrukturelle Mängel hin. Engpässe durch veraltete Stellwerke oder Baustellen sind hier wahrscheinlich die Hauptursache. Gezielte Modernisierungen der Knotenpunkte sind in diesen Fällen effizienter und kostengünstiger als großflächige Neubauten.


Der Vergleich – Auto vs. Bahn

Sie haben nun identifiziert, wo die Bahn Probleme hat: Städte im kritischen Quadranten (viele Pendler + hohe Verspätungen) brauchen dringend Verbesserungen. Aber bevor Sie Empfehlungen aussprechen können, müssen Sie eine zentrale Frage beantworten:

Lohnt sich die Bahn überhaupt – oder ist das Auto trotz Stau schneller?

Denn selbst wenn die Bahn unpünktlich ist, könnte sie immer noch schneller sein als das Auto im Berufsverkehr. Umgekehrt: Eine pünktliche Bahn bringt wenig, wenn das Auto trotzdem schneller ist. Erst der direkte Vergleich zeigt uns, wo die Bahn wirklich konkurrenzfähig ist – und wo nicht.

Methodische Herausforderungen

Für einen fairen Vergleich sollten Sie “Äpfel mit Äpfeln” vergleichen:

  • Beim Auto muss der Stau berücksichtigt werden (nicht nur die theoretische Fahrzeit)
  • Bei der Bahn muss die Verspätung berücksichtigt werden (nicht nur der Fahrplan)
  • Beide Routen müssen dieselben Start- und Endpunkte haben

Für die Auto-Fahrtzeiten nutzen Sie OSRM (Open Source Routing Machine), das auf OpenStreetMap-Daten basiert. OSRM berechnet echte Straßenrouten, keine Luftlinien.

  1. Erklären Sie in eigenen Worten:
  • Warum ist OSRM-Routing für diesen Vergleich besser geeignet als eine einfache Berechnung nach der Formel Distanz / Geschwindigkeit?
  • Welche Faktoren müssen zusätzlich berücksichtigt werden, um einen realistischen Vergleich zu ermöglichen? Denken Sie an:
    • Tageszeit
    • Parkplatzsuche
    • Fußweg zum Ziel
    • Wartezeit und Umsteigen bei der Bahn

Warum ist OSRM-Routing besser geeignet als eine einfache Berechnung mit Distanz / Geschwindigkeit?
Eine einfache Berechnung der Fahrzeit anhand von Distanz geteilt durch Geschwindigkeit liefert keine realistischen Ergebnisse, da sie von idealisierten Bedingungen ausgeht: gerader Strecke, konstanter Geschwindigkeit und ohne äußere Einflüsse. Dadurch wirkt das Auto in solchen Berechnungen oft schneller, als es tatsächlich im realen Straßenverkehr ist.

OSRM-Routing hingegen basiert auf realen Straßennetzen aus OpenStreetMap und berechnet konkrete Routen, die tatsächlich befahren werden können. Dabei werden Kurven, Kreuzungen, Einbahnstraßen, Autobahnen, Ortsdurchfahrten und Umwege berücksichtigt. Dadurch entstehen realistische Fahrzeiten, die näher an der tatsächlichen Autofahrt liegen als eine theoretische Durchschnittsrechnung.

Für den Vergleich zwischen Auto und Bahn ist OSRM daher besser geeignet, weil es reale Verkehrswege und typische Fahrbedingungen abbildet und somit eine faire Grundlage für den Zeitvergleich schafft.

Welche zusätzlichen Faktoren müssen für einen realistischen Vergleich berücksichtigt werden?

Um einen fairen und realistischen Vergleich zwischen Auto und Bahn zu ermöglichen, müssen mehrere zusätzliche Faktoren einbezogen werden:

Tageszeit
Die Reisezeit hängt stark von der Tageszeit ab. Im Berufsverkehr führen Stoßzeiten morgens und abends zu Staus im Autoverkehr, während bei der Bahn die Verspätungswahrscheinlichkeit ebenfalls höher sein kann. Ein Vergleich ohne Berücksichtigung der Tageszeit wäre daher verzerrt.

Parkplatzsuche (Auto)
Die Fahrtzeit mit dem Auto endet nicht mit dem Erreichen des Ziels, sondern erst nach erfolgreicher Parkplatzsuche. In Innenstädten kann diese mehrere Minuten dauern und sollte daher zur Fahrzeit hinzugerechnet werden.

Fußweg zum Ziel
Sowohl beim Auto als auch bei der Bahn ist meist ein Fußweg notwendig – vom Parkplatz oder vom Bahnhof bis zum eigentlichen Ziel. Dieser letzte Wegabschnitt beeinflusst die Gesamtzeit und muss berücksichtigt werden.

Wartezeit und Umsteigen bei der Bahn
Bei der Bahn entstehen zusätzliche Zeiten durch Wartezeiten vor der Abfahrt sowie durch Umstiege. Ohne diese Faktoren würde die Bahn unrealistisch schnell erscheinen. Witterungs- und Straßenbedingungen besonders im Winter oder bei starker Wetterlage (Schnee, Eis, Nebel, Starkregen) verlängert sich die Fahrtzeit mit dem Auto deutlich. Die Bahn ist davon weniger stark betroffen, solange der Zug fährt, da Schienen weniger wetteranfällig sind.

Ampeln und Kreuzungen (Auto)
Vor allem in der Innenstadt kann die Zeit, die man an Ampeln und Kreuzungen verliert, erheblich sein. Mehrere Stopps können mehrere Minuten extra bedeuten.

Von der Haustür zum Verkehrsmittel
Ein weiterer wichtiger Punkt im Vergleich: Während das Auto meistens direkt vor der Haustür startet, muss man bei der Bahn zunächst zum Bahnhof gelangen. Auch nach Ankunft am Zielbahnhof ist oft noch ein Fußweg nötig, um das eigentliche Ziel zu erreichen.


  1. Für die Top 10 Einpendler-Städte wurden typische Pendlerstrecken definiert (z.B. Dachau \(\rightarrow\) München, Neuss \(\rightarrow\) Düsseldorf). Die OSRM-Ergebnisse liegen bereits vor. Nutzen Sie für ihre Analyse den Datensatz fahrtzeit.

Erstellen Sie:

  • Eine Tabelle mit: Stadt, Strecke, Distanz (km), Auto-Fahrzeit (Hauptverkehrszeit), Bahn-Fahrzeit (real), Differenz
  • Berechnen Sie die jährliche Zeitersparnis bei 220 Arbeitstagen und 2x täglichem Pendeln.

Interpretieren Sie ihre Tabelle:

  • In wie vielen Fällen ist die Bahn schneller als das Auto?
  • Wie viele Stunden pro Jahr kann ein Pendler maximal sparen?
  • Gibt es Strecken, bei denen das Auto schneller ist? Woran könnte das liegen?

Analyse der jährlichen Zeitersparnis für die Top 10 Pendlerstrecken
Vergleich der Reisezeiten (Auto vs. Bahn)
Stadt Strecke Distanz (km) Auto HVZ (Min) Bahn real (Min) Differenz (Min) Zeitersparnis/Jahr (Std)
Berlin Potsdam → Berlin 34 49 30 20 145
München Dachau → München 19 40 26 14 104
Hannover Celle → Hannover 42 54 41 14 100
Frankfurt Darmstadt → Frankfurt 36 36 23 13 94
Düsseldorf Neuss → Düsseldorf 12 27 17 10 73
Hamburg Harburg → Hamburg 14 24 16 8 57
Stuttgart Esslingen → Stuttgart 14 27 20 7 52
Nürnberg Fürth → Nürnberg 10 19 13 6 44
Köln Leverkusen → Köln 18 29 23 6 43
Essen Mülheim → Essen 11 18 15 3 20
Ulm Neu-Ulm → Ulm 4 8 9 −1 −6

Interpretation der Tabelle

In wie vielen Fällen ist die Bahn schneller als das Auto?
In 10 von 11 untersuchten Fällen typischer Pendlerstrecken der Top-Einpendlerstädte ist die Bahn während der Hauptverkehrszeit schneller als das Auto.

Ein zentraler Grund dafür ist, dass Autofahrten im Berufsverkehr häufig durch Staus, Ampeln und hohes Verkehrsaufkommen verzögert werden. Die Bahn ist davon nicht betroffen, da sie auf eigenen Schienen fährt und unabhängig vom Straßenverkehr unterwegs ist.

Wie viele Stunden pro Jahr kann ein Pendler maximal sparen?
Die größte Zeitersparnis ergibt sich auf der Strecke von Potsdam nach Berlin. Auf der rund 34,2 km langen Strecke kann ein Pendler etwa 144,6 Stunden pro Jahr einsparen. Das entspricht einer Zeitersparnis von rund 20 Minuten pro Fahrt, die sich über das Jahr hinweg zu einem erheblichen Zeitgewinn summiert. Gerade auf längeren Pendlerstrecken wirken sich die Vorteile der Bahn besonders deutlich aus. Durch direkte Streckenführungen, gleichmäßige Geschwindigkeiten und eine gut getaktete Zugverbindung ohne Umstieg können Verzögerungen vermieden werden, während sich Staus und Verkehrsbelastungen im Individualverkehr mit zunehmender Streckenlänge stärker bemerkbar machen.

Gibt es Strecken, bei denen das Auto schneller ist? Woran könnte das liegen?
Ja, auf der Strecke von Neu-Ulm nach Ulm ist das Auto laut Tabelle geringfügig schneller als die Bahn. Das Auto benötigt etwa 8 Minuten, während die Bahn rund 9 Minuten braucht, wodurch sich eine Zeitdifferenz von etwa einer Minute ergibt. Die Entfernung zwischen den beiden Städten beträgt nur ungefähr 4 Kilometer und ist damit sehr kurz. Auf so kurzen Strecken machen bei der Bahn feste Zeitanteile wie Haltezeiten sowie das Ein- und Aussteigen einen vergleichsweise großen Teil der Gesamtfahrzeit aus. Dadurch kann die Bahn keinen nennenswerten Geschwindigkeitsvorteil aufbauen.


  1. Da Sie alle in Ulm studieren und eventuell aus dem Ulmer Umland einpendeln, sollten Sie die 5 wichtigsten Pendlerrouten nach Ulm näher analysieren. Stellen Sie in einem Dumbbell-Chart (oder Lollipop-Chart) die Unterschiede zwischen Auto- und Bahnzeiten visuell dar. Nutzen Sie für ihre Analyse den Datensatz ulm_routen.

Die 5 wichtigsten Pendlerrouten nach Ulm sind:

  • Neu-Ulm \(\rightarrow\) Ulm
  • Blaustein \(\rightarrow\) Ulm
  • Ehingen \(\rightarrow\) Ulm
  • Laupheim \(\rightarrow\) Ulm
  • Langenau \(\rightarrow\) Ulm

Markieren Sie, welche Orte keinen Bahnhof haben.

Beschreiben und interpretieren Sie ihre Grafik. Welche Besonderheiten zeigen die ländlichen Strecken?

Hinweis: Nutzen Sie geom_segment() und geom_point() für ihr Dumbbell-Chart oder Lollipop-Chart.


Beschreibung

Der vorliegende Dumbbell-Chart zeigt die Fahrzeiten für Auto und Bahn anhand der Top-5-Pendlerrouten in Ulm und vergleicht die Zeitdifferenzen zwischen den beiden Verkehrsmitteln. Auf der Y-Achse sind die fünf Orte von oben nach unten aufgelistet: Neu-Ulm, Blaustein, Laupheim, Langenau und Ehingen (Donau). Die X-Achse stellt die Fahrzeit in Minuten dar, von 0 bis 40 in 5er-Schritten. Außerdem erläutert eine Fußnote rechts unten das Sternchen bei Blaustein mit dem Hinweis „ kein Bahnhof“.
Jeder Ort ist durch zwei farbige Punkte dargestellt, rot für die Bahn und blau für das Auto, wobei über jedem Punkt die jeweilige Fahrzeit in Minuten angezeigt wird. Die Punkte sind durch eine Linie verbunden, die die Zeitdifferenz zwischen Auto und Bahn veranschaulicht. Unterhalb der Linie ist die Differenz in Minuten mit einem kleinen Dreieck angegeben.

Vergleich der Fahrzeiten
Bei Neu-Ulm, der kürzesten Strecke, beträgt die Differenz zwischen Bahn und Auto nur 1 Minute. Die größte Differenz von 11 Minuten zeigt sich bei Langenau, mit Fahrzeiten von etwa 15 Minuten für die Bahn und 26 Minuten für das Auto. Die zweitgrößte Differenz von 8 Minuten liegt bei Ehingen, wobei die Fahrzeiten hier mit 26 Minuten für die Bahn und 34 Minuten für das Auto am längsten sind. Insgesamt benötigt bei vier der fünf Orte das Auto länger als die Bahn nach Ulm.


Interpretation

Geringe Zeitunterschiede auf kurzen Strecken
Tendenziell zeigt sich, dass auf kurzen Strecken zwischen dem Stadtgebiet und dem Umland kaum Unterschiede zwischen Bahn und Auto bestehen, sodass die Wahl des Verkehrsmittels hier eher von Faktoren wie Parkplatzverfügbarkeit oder direkter Erreichbarkeit des Ziels abhängt. Ein Grund dafür ist, dass auf kurzen Distanzen die Wege zum Bahnhof, eventuelle Wartezeiten und Umstiege einen vergleichsweise größeren Anteil der Gesamtfahrtzeit ausmachen, sodass der Vorteil der höheren Geschwindigkeit der Bahn kaum ins Gewicht fällt.

Zeitvorteil der Bahn
Auf den längeren Strecken zeigt sich dagegen ein klarer Vorteil der Bahn. Grundsätzlich ist sie auf vier der fünf untersuchten Routen schneller, besonders deutlich bei Langenau und Ehingen. Dieser Zeitvorteil entsteht, weil die Bahn auf großen Teilen der Strecke deutlich höhere Geschwindigkeiten fahren kann und eigene Trassen nutzt, wodurch Staus und Ampelstopps für Autos umgangen werden. Je länger die Strecke, desto stärker kommt dieser Vorteil zum Tragen, da sich der Geschwindigkeitsunterschied über die gesamte Fahrt summiert. So erreicht die Bahn in Langenau das Ziel fast doppelt so schnell wie das Auto. Diese Unterschiede lassen sich zusätzlich auf die Vermeidung von Verkehrsbehinderungen und die direkte Streckenführung im Vergleich zum straßengebundenen Berufsverkehr zurückführen.

Ausnahme Blaustein: Einfluss struktureller Gegebenheiten
Die Route Blaustein bildet die Ausnahme, da hier das Auto schneller ist. Grund dafür ist, dass Blaustein keinen zentralen Bahnhof im Stadtzentrum hat. Pendler müssen zunächst zum Bahnhof im Teilort Herrlingen oder auf den Bus umsteigen, wodurch zusätzliche Zeit entsteht. Im Gegensatz zu den anderen Strecken, bei denen die Bahnhöfe direkt in den Ortskernen liegen, wird die Nutzung der Bahn für das Zentrum von Blaustein dadurch zeitlich unattraktiver. Die Ausnahme verdeutlicht, dass strukturelle Gegebenheiten der Orte den Zeitvorteil der Bahn beeinflussen können.


Die volkswirtschaftlichen Kosten

Verspätungen kosten nicht nur Nerven, sie haben einen realen volkswirtschaftlichen Preis. Jede Minute, die ein Pendler im verspäteten Zug wartet, ist verlorene Arbeitszeit.

Um diese Kosten etwas besser zu quantifizieren sollten Sie sich den Medianlohn der jeweiligen Städte herunterladen und näher analysieren.

  1. Berechnen Sie die volkswirtschaftlichen Kosten der Bahnverspätungen für die 11 Städte.

Datensätze:

Nutzen Sie die folgenden Annahmen:

Annahmen:

Berechnen Sie für jede Stadt:

Erstellen Sie auf Basis ihrer Berechnung eine Tabelle, welche die Anzahl der Bahnpendler, die Verspätungsstunden pro Jahr, die Kosten pro Pendler und die Gesamtkosten der Stadt anschaulich darstellt.

Beschreiben und interpretieren Sie ihre Tabelle. Gehen Sie dabei auch auf die Gesamtkosten der 11 Städte ein. Erklären Sie außerdem, warum der Medianlohn für diese Berechnung besser geeignet ist als der Durchschnittslohn.

Hinweis: Für die Umrechnung auf Stundenlohn: Monatsentgelt / 160 (bei 40h/Woche).


Volkswirtschaftliche Kosten der Bahnverspätungen (2025)
Analyse der Standorte Berlin, Düsseldorf, Essen, Frankfurt am Main, Hamburg, Hannover, Köln, München, Nürnberg, Stuttgart und Ulm
Stadt Einpendler Bahnpendler Verspätungsstunden/Jahr Kosten pro Pendler (Tsd. €) Gesamtkosten (Mio. €)
München 455.645 38.274 43,9 1,33 50,86
Köln 306.905 25.780 57,9 1,59 41,01
Frankfurt am Main 405.856 34.092 37,7 1,11 37,88
Düsseldorf 284.696 23.914 53,8 1,52 36,35
Hamburg 392.951 33.008 32,6 0,92 30,44
Berlin 392.324 32.955 34,5 0,90 29,51
Stuttgart 274.442 23.053 38,9 1,14 26,25
Essen 141.296 11.869 54,6 1,36 16,15
Nürnberg 165.496 13.902 37,1 0,98 13,63
Region Hannover 137.924 11.586 43,8 1,14 13,18
Ulm 68.341 5.741 29,5 0,80 4,57

Beschreibung

Die vorliegende Tabelle analysiert die volkswirtschaftlichen Kosten von Bahnverspätungen in zehn deutschen Großstädten sowie Ulm. Berücksichtigt werden die Standorte München, Köln, Frankfurt am Main, Düsseldorf, Hamburg, Berlin, Stuttgart, Essen, Nürnberg, Hannover und Ulm. Neben dem Namen der Stadt werden jeweils die Anzahl der Einpendler und Bahnpendler, die jährlich verlorenen Stunden pro Pendler, die Kosten pro Pendler sowie die daraus resultierenden Gesamtkosten pro Stadt dargestellt. Die Tabelle ist absteigend nach den Gesamtkosten sortiert, sodass die Städte mit den höchsten volkswirtschaftlichen Verlusten oben stehen.

Die Berechnung der Kosten erfolgt auf der Grundlage von 220 Arbeitstagen pro Jahr, zwei Fahrten pro Tag und einer Bahnquote von 8,4 % der Pendler (nationaler Durchschnitt laut MiD 2023 Kurzbericht). Als Basis für die Gesamtkosten diente der Medianlohn.

München weist mit rund 5,05 Millionen Euro die höchsten Gesamtkosten auf und steht an erster Stelle der Tabelle. Gleichzeitig verzeichnet die Stadt mit rund 38.000 Personen die höchste Anzahl an Bahnpendlern unter den betrachteten Standorten. Köln folgt mit Gesamtkosten von rund 4,1 Millionen Euro. Dabei verzeichnet die Stadt mit durchschnittlich 7,9 Minuten Verspätung sowie 57,9 verlorene Tage im Jahr und 1.590 Euro Kosten pro Pendler die Spitzenwerte in den anderen drei Kategorien.

Interpretation

Die Tabelle macht deutlich, dass die Gesamtkosten von Bahnverspätungen stark mit der absoluten Zahl der Pendler zusammenhängen. Städte mit vielen Bahnpendlern weisen insgesamt höhere volkswirtschaftliche Verluste auf, weshalb München an erster Stelle steht. Die Höhe der Gesamtkosten lässt sich hier primär durch die große Zahl betroffener Personen erklären, weniger durch außergewöhnlich hohe Verspätungszeiten.

Strukturelle Engpässe am Beispiel Köln

Gleichzeitig wird deutlich, dass die weiteren Kostenindikatoren wie durchschnittliche Verspätung, verlorene Stunden und Kosten pro Pendler nicht mit der Pendleranzahl korrelieren. Besonders auffällig ist hierbei Köln: Trotz einer deutlich geringeren Zahl an Bahnpendlern als etwa München oder Frankfurt weist die Stadt sehr hohe Gesamtkosten auf. Ausschlaggebend dafür sind die überdurchschnittlich hohen Verspätungszeiten, die sich direkt in hohen individuellen Zeitverlusten und Kosten pro Pendler niederschlagen.

Wie bereits in Aufgabe 8 zu den unpünktlichsten Bahnhöfen gezeigt wurde, konzentrieren sich viele besonders störanfällige Strecken und Knotenpunkte im Raum Köln sowie entlang des Rhein-Korridors. Der stark belastete Bahnknoten Köln fungiert als zentrales Nadelöhr, in dem Fern-, Regional-, S-Bahn- und Güterverkehr auf denselben Trassen verkehren. Dadurch können sich bereits kleinere Störungen schnell auf den gesamten Pendlerverkehr übertragen. Der Fall Köln verdeutlicht somit, dass strukturelle und betriebliche Engpässe im Bahnnetz erhebliche volkswirtschaftliche Verluste verursachen können, auch bei einer im Vergleich geringeren Pendlerzahl.

Die aggregierten Gesamtkosten aller betrachteten Städte unterstreichen die gesamtwirtschaftliche Bedeutung von Bahnverspätungen. Sie können als grober Maßstab für potenzielle Effizienzgewinne dienen, die durch Verbesserungen der Infrastruktur, eine höhere Betriebsstabilität oder Kapazitätserweiterungen erzielt werden könnten.

Bewertung auf Basis des Medianlohns
Die Verwendung des Medianlohns zur Bewertung des Zeitverlusts ist dabei sinnvoll, da Einkommen in der Regel ungleich verteilt sind. Einzelne sehr hohe Einkommen würden den Durchschnittslohn verzerren und zu einer Überschätzung der Kosten führen. Der Median bildet hingegen das Einkommen eines typischen Pendlers besser ab und ermöglicht eine realistischere Einschätzung der volkswirtschaftlichen Verluste.


  1. Setzen Sie die Kosten der Bahn (aus Aufgabe 14) den Kosten des Autos gegenüber. Vergleichen Sie diese in einer Szenario-Analyse mittels eines gestapelten Balkendiagramms. Nutzen Sie für ihre Analysen den Datensatz staedte_basis.

Berechnen Sie zuerst die Kosten des Autostaus pro Stadt:

Führen Sie anschließend einen Szenario-Vergleich durch: Was passiert, wenn der Bahnanteil von 8,4% auf 20% steigt?

Erstellen Sie ein gestapeltes Balkendiagramm nach Szenario. Beschreiben und intepretieren Sie ihre Grafik. Gehen Sie insbesondere auf die folgenden Fragen ein:





Beschreibung
Die Grafik zeigt einen Vergleich der Kosten von Auto- und Bahnverkehr in verschiedenen Städten, dargestellt in zwei gestapelten Balkendiagrammen für den Status quo (Bahnanteil 8,4 %) sowie für ein Szenario, in dem der Bahnanteil auf 20 % erhöht wird.

Auf der x-Achse sind mehrere Städte dargestellt, die aus dem Datensatz “staedte_basis” stammen. Die y-Achse gibt die Gesamtkosten in Millionen Euro pro Jahr an. Die Balken sind gestapelt, wobei der orange Anteil die Kosten des Autoverkehrs und der blaue Anteil die Kosten des Bahnverkehrs darstellt. Eine gemeinsame Legende erläutert die Farbzuordnung für beide Diagramme.

Status quo (Bahnanteil 8,4 %)
Im linken Diagramm ist der Status quo dargestellt. Die Städte sind aufsteigend nach ihren Gesamtkosten sortiert, beginnend mit Städten mit niedrigen Kosten und endend mit Städten mit hohen Gesamtkosten. Den Anfang bildet Ulm, dessen Gesamtkosten bei etwa 50 Millionen Euro pro Jahr liegen. Am unteren Ende der Darstellung befindet sich München, dessen Gesamtkosten circa 770 Millionen Euro betragen.

Szenario mit erhöhtem Bahnanteil (20 %)
Im unteren Diagramm wird ein Szenario dargestellt, in dem der Bahnanteil von 8,4 % auf 20 % steigt. Die Reihenfolge der Städte entspricht exakt der des Status quo und ist ebenfalls nach den Gesamtkosten sortiert. Im Vergleich zum oberen Diagramm ist der blaue Balkenanteil, der die Kosten des Bahnverkehrs darstellt, in allen Städten größer. Der orange Balkenanteil des Autoverkehrs stellt weiterhin den größeren Anteil an den Gesamtkosten dar, fällt jedoch insgesamt kürzer aus als im oberen Diagramm. Zugleich ist die Gesamtlänge der Balken in allen Städten geringer als im Status quo. So sinken beispielsweise die Gesamtkosten in München von 770 Millionen Euro im Status quo auf 620 Millionen Euro im Szenario, was einer Ersparnis von rund 150 Millionen Euro für diese Stadt entspricht.


Interpretation

Nutzung und Kostenanteil von Auto und Bahn
Die Grafiken zeigen deutlich, dass der Autoverkehr in allen betrachteten Städten den größten Anteil an den Gesamtkosten verursacht – sowohl im Status quo als auch im Szenario mit erhöhtem Bahnanteil. Diese Kostenverteilung ist vor allem darauf zurückzuführen, dass der überwiegende Teil der Pendler weiterhin das Auto nutzt. Gründe hierfür liegen unter anderem in der hohen Flexibilität und dem individuellen Komfort des Autos sowie in teilweise unzureichenden oder als weniger attraktiv wahrgenommenen Alternativen im öffentlichen Verkehr. Die hohe Autonutzung führt jedoch zu Staus und damit zu erheblichen volkswirtschaftlichen Kosten.

Mit einer Erhöhung des Bahnanteils von 8,4 % auf 20 % steigt der Kostenanteil des Bahnverkehrs zwar sichtbar an, bleibt jedoch weiterhin deutlich unter den Autokosten. Gleichzeitig sinken die gesamten Verkehrskosten in allen Städten. Dies zeigt, dass eine stärkere Nutzung der Bahn das Verkehrssystem insgesamt effizienter macht. Der entscheidende Effekt liegt darin, dass durch den Umstieg auf die Bahn die Anzahl der Fahrzeuge im Straßenverkehr sinkt. Weniger Autos führen zu geringeren Stauzeiten und damit zu deutlich niedrigeren Kosten im Autoverkehr, während die zusätzlichen Kosten im Bahnverkehr vergleichsweise moderat ausfallen.

Unterschiedliche Kostenstruktur von Bahn und Auto
Die Ursache für diesen Kostenrückgang liegt in der grundlegend unterschiedlichen Kostenstruktur von Bahn- und Autoverkehr. Der Bahnverkehr ist durch hohe Fixkosten geprägt, etwa für Infrastruktur, Fahrzeuge und Betrieb, während die Grenzkosten zusätzlicher Fahrgäste vergleichsweise gering sind. Eine steigende Auslastung führt daher zu einer effizienteren Nutzung bestehender Kapazitäten und zu sinkenden durchschnittlichen Kosten pro Person. Der Autoverkehr hingegen weist überwiegend nutzungsabhängige Kosten auf: Jedes zusätzliche Fahrzeug verursacht nahezu proportional höhere Kosten durch Stau, Unfälle und Infrastrukturverschleiß. Während die Bahn bei steigender Nutzung effizienter wird, steigen die Kosten des Autoverkehrs nahezu linear mit der Verkehrsmenge.

Besonders anschaulich wird dieser Zusammenhang am Beispiel München. Als Stadt mit sehr hohen Pendlerzahlen weist München im Status quo die höchsten Gesamtkosten auf. Im Szenario mit einem Bahnanteil von 20 % sinken diese Kosten um rund 150 Millionen Euro pro Jahr. Gerade in Städten mit starkem Verkehrsaufkommen ist die Hebelwirkung einer Verkehrsverlagerung besonders groß, da zusätzliche Autos in einem bereits stark belasteten Verkehrssystem überproportional hohe Stau- und Folgekosten verursachen.

Volkswirtschaftliche Bewertung

Aus volkswirtschaftlicher Sicht verursacht der Autoverkehr damit eindeutig den größeren Schaden. Betrachtet man zunächst die direkt ausgewiesenen Kosten, zeigt sich in der aggregierten Betrachtung aller Städte, dass durch die Erhöhung des Bahnanteils auf 20 % insgesamt eine Nettoersparnis von 870,4 Millionen Euro pro Jahr erzielt wird. Der Rückgang der Autokosten übersteigt die zusätzlichen Kosten im Bahnverkehr deutlich, wodurch der Bahnverkehr aus ökonomischer Perspektive die effizientere Alternative darstellt.

Neben diesen direkt erfassten Kosten entstehen beim Autoverkehr zudem erhebliche negative Externalitäten, die in einer umfassenden volkswirtschaftlichen Betrachtung ebenfalls zu berücksichtigen sind. Dazu zählen insbesondere klimaschädliche CO₂-Emissionen, gesundheitliche Belastungen durch Lärm und Luftschadstoffe sowie hohe Raumkosten durch den Flächenverbrauch für Straßen und Parkplätze. Diese externen Effekte sind beim Autoverkehr deutlich stärker ausgeprägt als beim Bahnverkehr und verstärken dessen volkswirtschaftliche Nachteile zusätzlich.


Politikempfehlung – Ihre Synthese

Sie haben nun umfangreiche Analysen durchgeführt und viele Erkenntnisse über die Bahn gewonnen. Jetzt ist es Zeit, diese zu einer kohärenten Empfehlung zusammenzufügen.

Szenario: Sie sind Berater:in des Bundesministeriums für Digitales und Verkehr. Die Ministerin bittet Sie um eine evidenzbasierte Politikempfehlung zur Verbesserung des Pendlerverkehrs in Deutschland.

  1. Formulieren Sie eine Politikempfehlung für das Bundesministerium für Digitales und Verkehr.

Schreiben Sie eine Executive Summary (max. 5 Sätze). Fassen Sie hierbei die wichtigsten Erkenntnisse aus ihrem Projekt zusammen. Was ist die zentrale Botschaft?

Formulieren Sie 3 konkrete Empfehlungen. Jede muss enthalten:


Executive Summary
Die Analyse zeigt, dass der Pendlerverkehr in Deutschland durch Staus und Verspätungen enorme volkswirtschaftliche Kosten verursacht. Obwohl die Bahn auf den meisten Strecken schneller und umweltfreundlicher ist, halten mangelnde Zuverlässigkeit und fehlender Komfort in stark belasteten Regionen wie dem Rheinland viele Pendler vom Umstieg ab. Besonders in den Hauptverkehrszeiten prallt die hohe Nachfrage auf eine störanfällige Infrastruktur. Um das große Einsparpotenzial bei Zeit und CO₂-Emissionen zu nutzen, ist ein gezielter Umstieg auf die Schiene dringend nötig. Die zentrale Botschaft lautet: Ein echter Gewinn für Wirtschaft und Umwelt durch Bahnnutzung gelingt nur mit deutlichen Investitionen in Kapazität und Zuverlässigkeit.

Empfehlung 1: Ausbau kritischer Knotenpunkte

Ziel:
Verspätungen in stark belasteten Regionen um mindestens 15 Prozent reduzieren und die Zuverlässigkeit des Bahnverkehrs erhöhen. Maßnahme: Bis 2030 gezielter Kapazitätsausbau an ausgewählten hochbelasteten Bahnknoten (z. B. Köln, Düsseldorf, München) durch eine Erhöhung der Gleiskapazität um ca. 10–15 %, die Entflechtung von Fern- und Regionalverkehr sowie den Einsatz moderner digitaler Stellwerkstechnik.

Begründung mit Zahlen:
In besonders stark belasteten Städten wie Köln, Düsseldorf und München treffen sehr hohe Pendlerzahlen – zum Beispiel rund 450.000 Pendler in München im Jahr 2025 – auf überdurchschnittliche Bahnverspätungen. So liegt die durchschnittliche Verspätung in Köln bei knapp 8 Minuten pro Zug, während Autofahrer dort zusätzlich rund 67 Stunden pro Jahr im Stau verlieren, was die Belastung der Verkehrsinfrastruktur verdeutlicht. Verbesserungen lohnen sich vor allem an diesen stark belasteten Bahnknoten, da dort sehr viele Fahrgäste unterwegs sind und jede Maßnahme direkt vielen Menschen zugutekommt. Da viele Verbindungen durchs Netz dieser Zentren laufen, strahlen lokale Verspätungen auf das gesamte Bundesnetz aus und können bundesweite Dominoeffekte im Fahrplan verursachen. Eine Stabilisierung dieser Knoten sorgt somit nicht nur für pünktlichere Züge vor Ort, sondern trägt erheblich zur Gesamtzuverlässigkeit der Bahn in Deutschland bei.

Limitationen:

• Begrenzte Abbildung von Folgeeffekten: Verspätungen, die durch Anschlussverluste oder Kettenreaktionen entstehen, werden nur eingeschränkt berücksichtigt.

• Echtzeitinformationen fehlen: Bauarbeiten oder plötzliche Störungen sind nicht vollständig erfasst.

Zusätzliche Daten:
Mit Echtzeitinformationen zu Bauarbeiten und plötzlichen Störungen könnte man kurzfristige Verspätungen besser nachvollziehen (Ursachenanalyse) und Engpässe frühzeitig identifizieren. Ergänzend würden Pendlerbefragungen und Daten zu verpassten Anschlüssen helfen, Kettenreaktionen im Fahrplan zu verstehen und die Auswirkungen auf die Reisezeit der Nutzer präziser abzuschätzen.

Empfehlung 2: Förderung des Umstiegs vom Auto auf die Bahn

Ziel:
Den Bahnanteil der Pendler von 8,4 % auf mindestens 20 % erhöhen, um langfristig volkswirtschaftliche Kosten zu senken und den CO₂-Ausstoß im Verkehrssektor deutlich zu reduzieren.

Maßnahme:
Ausbau von Park-and-Ride-Anlagen an stark genutzten Pendlerachsen mit mindestens 5.000 zusätzlichen Stellplätzen im Umland großer Städte bis 2028, kombiniert mit einer Verdichtung der Takte im Regionalverkehr in der Hauptverkehrszeit. Ergänzend sollen finanzielle Anreize wie vergünstigte Jobtickets oder Zuschüsse zum Deutschlandticket für Pendler den Umstieg vom Auto auf die Bahn erleichtern.

Begründung mit Zahlen:
Auf 10 von 11 typischen Pendlerstrecken ist die Bahn in der Hauptverkehrszeit schneller als der Pkw. Ein anschauliches Beispiel ist die Strecke Potsdam–Berlin, auf der Pendler durch die Nutzung der Bahn bis zu 145 Stunden Zeit pro Jahr einsparen können. Der aktuell niedrige Bahnanteil von 8,4 % deutet somit weniger auf fehlende Leistungsfähigkeit der Bahn als vielmehr auf bestehende Zugangs- und Nutzungshemmnisse hin. Maßnahmen wie Park-and-Ride, dichtere Takte und finanzielle Anreize setzen genau an diesen strukturellen Barrieren an und erleichtern den Umstieg. Eine Erhöhung des Bahnanteils auf 20 % ist daher verkehrsökonomisch sinnvoll, da sich die variablen Kosten des Autoverkehrs – insbesondere Staukosten, Emissionen und Unfallfolgekosten – deutlich reduzieren, während die Bahn aufgrund hoher Fixkosten und geringer Grenzkosten pro zusätzlichem Fahrgast effizient skaliert.

Limitationen:
• Unbekannte individuelle Präferenzen: Das Modell kennt nicht, warum Pendler aktuell das Auto wählen (z.B. Flexibilität, Komfort, Rauchen/Musik, persönliche Routinen).

• Mangelnde Berücksichtigung der Tür-zu-Tür-Reisezeit: Die Daten erfassen meist nur die reine Fahrzeit zwischen Bahnhöfen, nicht jedoch den Weg zum oder vom Bahnhof. Dadurch wird der tatsächliche Zeitvorteil der Bahn tendenziell überschätzt.

Zusätzliche Daten:
Mit detaillierten Tür-zu-Tür-Reisezeiten könnte untersucht werden, wie groß der tatsächliche Zeitvorteil der Bahn gegenüber dem Auto ist und auf welchen Strecken ein Umstieg wirklich attraktiv wäre. Ergänzend wären Pendlerbefragungen sinnvoll, um die Hauptgründe für die Nutzung des Autos zu identifizieren (z.B. Flexibilität, Komfort, persönliche Routinen) und abzuschätzen, welche Barrieren durch gezielte Maßnahmen tatsächlich reduziert werden können.

Empfehlung 3: Priorisierung der Zuverlässigkeit im Nahverkehr

Ziel:
Die Quote der erreichten Anschlüsse in den Hauptverkehrszeiten auf über 95 % steigern und die durchschnittliche Verspätung um 15 % reduzieren.

Maßnahme:
Systematische Integration von Pufferzeiten von 5 bis 10 Minuten an kritischen Umstiegsknoten sowie bauliche Erweiterungen um Ausweichgleise bis 2028. So können Regionalzüge bei Verspätungen im Fernverkehr ausweichen, ohne andere Züge zu blockieren („Entflechtung“).

Begründung mit Zahlen:
Verspätungen treten systematisch in den Pendlerfenstern 7–11 Uhr und 17–23 Uhr auf. Genau in diesen Zeiträumen lohnt es sich besonders, Pufferzeiten von 5 bis 10 Minuten einzubauen und die Takte hoch zu halten, um Kettenreaktionen im Netz zu vermeiden. Pendler im Rheinland kämpfen teilweise mit durchschnittlich 8 Minuten Verspätung, wodurch Anschlussverbindungen ohne gezielte Maßnahmen häufig nicht erreicht werden. Mit zusätzlichen Ausweichgleisen und systematisch geplanten Puffern lassen sich kritische Engpässe entschärfen und die Anschlussgarantie deutlich erhöhen. So wird die Bahn zu einer verlässlichen Alternative für Pendler, da die Betriebsabläufe stabiler und planbarer werden.

Limitationen:
Eingeschränkte Kenntnis einzelner Anschlussverbindungen: Die Daten zeigen zwar, in welchen Städten, auf welchen Strecken und bei welchen Zugarten Verspätungen auftreten, aber es ist unklar, wie viel Puffer jede spezifische Anschlussverbindung tatsächlich benötigt. Deshalb lassen sich die optimalen Pufferzeiten und Ausweichgleise nur grob planen. Bauliche und Kapazitätsgrenzen: An manchen Knotenpunkten sind Flächen und Gleiskapazitäten begrenzt, sodass zusätzliche Ausweichgleise oder erweiterte Puffersysteme nicht immer realisierbar sind.

Zusätzliche Daten:
Mit detaillierten Informationen zu individuellen Anschlüssen (z.B. Ein- und Ausstiegspunkte, Umsteigewege, tatsächlicher Pufferbedarf) könnte man die Pufferplanung präzisieren und Engpässe gezielter beseitigen. Ergänzend könnten Pendlerbefragungen an Bahnhöfen helfen, typische Umsteigesituationen zu erfassen, um die Anschlussstabilität realitätsnah zu modellieren.


Zusatzaufgaben (optional)

Bisher haben Sie zwei Dimensionen betrachtet: Zeit (Bahn ist schneller) und Geld (Verspätungen kosten). Aber es gibt einen dritten, oft vergessenen Aspekt: die Umwelt.

Das Auto ist nicht nur langsamer und teurer; es ist auch ein Klimakiller. Ein durchschnittlicher PKW emittiert z.B. etwa 150 g CO2 pro Personenkilometer.

  1. Recherchieren Sie die CO2-Emissionsfaktoren und das Mobilitätsverhalten:

Hinweis: Nutzen Sie Daten vom Umweltbundesamt oder dem DB Umweltbericht.


CO₂-Emissionen verschiedener Verkehrsmittel
Angaben in Gramm CO₂ pro Personenkilometer
Verkehrsmittel CO₂ (g pro Personenkilometer)
PKW (Durchschnitt) 150
PKW (Elektro, deutscher Strommix) 90
RE / RB (Nahverkehr) 58
S-Bahn 55
ICE / IC (Fernverkehr) 32
## [1] 50.2
## [1] 66.53333

Beschreibung
Die vorliegende Tabelle zeigt die durchschnittlichen CO₂-Emissionen verschiedener Verkehrsmittel in Gramm pro Personenkilometer. Dargestellt sind ein durchschnittlicher Pkw, ein Elektro-Pkw im deutschen Strommix sowie drei Segmente des Schienenverkehrs: der Fernverkehr mit ICE und IC, der Regionalverkehr mit RE und RB sowie die S-Bahn. Die Verkehrsmittel sind absteigend nach der Höhe der CO₂-Emissionen pro Personenkilometer sortiert.

Vergleich der Emissionswerte
Den höchsten Wert weist der durchschnittliche Pkw mit 150 g CO₂ pro Personenkilometer auf. Darauf folgt der Elektro-Pkw mit 90 g CO₂ pro Personenkilometer. Die drei Bahnsegmente liegen deutlich darunter und bewegen sich alle unter 60 g CO₂ pro Personenkilometer. Den niedrigsten Wert erreicht dabei der Fernverkehr (ICE/IC) mit 32 g CO₂ pro Personenkilometer.

Gewichteter Durchschnittswert der Bahn
Auf Basis der Aufgabenstellung wird zusätzlich ein gewichteter Durchschnittswert für die Bahn berechnet. Unter der Annahme, dass 70 % der Bahnpendler den Nahverkehr und 30 % den Fernverkehr nutzen, ergibt sich ein durchschnittlicher Emissionswert von 50,2 g CO₂ pro Personenkilometer. Darauf aufbauend wird berechnet, dass die Bahn im Vergleich zum durchschnittlichen Pkw eine Emissionsreduktion von 66,53 % erreicht.

Interpretation

Die Ergebnisse zeigen deutlich, dass der Schienenverkehr im Pendelkontext einen erheblichen Klimavorteil gegenüber dem Pkw besitzt. Dieser Unterschied lässt sich vor allem durch strukturelle und physikalische Faktoren erklären.

Ursachen der hohen Emissionen des Pkw
Der durchschnittliche Pkw verursacht mit 150 g CO₂ pro Personenkilometer die mit Abstand höchsten Emissionen. Das liegt vor allem am geringen Besetzungsgrad: Ein Pkw wiegt oft 1,5 bis 2 Tonnen, transportiert im Alltag jedoch meist nur eine bis anderthalb Personen. Dadurch wird sehr viel Masse bewegt, ohne dass sich der Energieaufwand auf viele Personen verteilt. Zusätzlich ist der Energiebedarf durch Gummireifen auf Asphalt vergleichsweise hoch, was den Verbrauch weiter erhöht.

Einordnung des Elektro-Pkw
Auch der Elektro-Pkw schneidet trotz moderner Technik deutlich schlechter ab als der Schienenverkehr. Mit 90 g CO₂ pro Personenkilometer liegt er weiterhin klar über allen Bahnsegmenten. Der Grund dafür ist, dass Elektroautos zwar lokal emissionsfrei fahren, ihr Strom im deutschen Strommix jedoch noch zu einem erheblichen Teil aus fossilen Energieträgern stammt. Zudem entstehen relevante Emissionen bei der Fahrzeugherstellung, insbesondere durch die Batterieproduktion. Der Effizienzvorteil des Elektromotors reicht daher nicht aus, um den strukturellen Nachteil des Pkw vollständig auszugleichen.

Gründe für die niedrigen Emissionen der Bahn
Im Vergleich dazu weisen alle Bahnsegmente deutlich niedrigere Emissionswerte auf. Der Fernverkehr (ICE und IC) erreicht mit 32 g CO₂ pro Personenkilometer den niedrigsten Wert. Ein zentraler Grund hierfür ist der hohe Besetzungsgrad: Wenn hunderte Personen gleichzeitig befördert werden, verteilt sich der Energieaufwand auf viele Fahrgäste. Hinzu kommt der geringe Rollwiderstand von Stahlrädern auf Stahlschienen sowie der aerodynamische Vorteil langer Züge, bei denen nur die Zugspitze aktiv den Luftwiderstand überwinden muss. Außerdem nutzt der Fernverkehr der Deutschen Bahn überwiegend Strom aus erneuerbaren Energien, was die Emissionen zusätzlich senkt.

Der Regionalverkehr und die S-Bahn liegen mit rund 55–58 g CO₂ pro Personenkilometer etwas höher, bleiben aber dennoch deutlich unter den Werten des Pkw. Dies lässt sich unter anderem durch häufigere Stopps, geringere Auslastung außerhalb der Stoßzeiten und den Einsatz von Dieselzügen auf nicht elektrifizierten Strecken erklären.

Bedeutung für den Pendelverkehr
Der gewichtete Bahnwert von 50,2 g CO₂ pro Personenkilometer ist für das Pendlerprojekt besonders aussagekräftig, da er die reale Nutzung von Nah- und Fernverkehr besser abbildet. Auch unter dieser realistischen Annahme zeigt sich ein klarer Vorteil gegenüber dem Pkw: Mit einer Emissionsreduktion von 66,53 % wird deutlich, dass bereits kurze Streckenverlagerungen vom Auto auf die Bahn einen spürbaren Beitrag zur Reduktion von Treibhausgasen leisten können. Insgesamt lässt sich festhalten, dass eine stärkere Nutzung der Bahn im Pendelverkehr nicht nur aus zeitlicher und wirtschaftlicher Sicht sinnvoll ist, sondern auch einen erheblichen Beitrag zum Klimaschutz leistet.


  1. Die Studie “Mobilität in Deutschland” (MiD 2023) ist die wichtigste Datenquelle zum Mobilitätsverhalten in Deutschland. Sie ermöglicht einen Vergleich mit 2017 (vor Corona).

Lesen Sie den MiD 2023 Kurzbericht und beantworten Sie:


Modal Split:
Laut MiD 2023 lag der Anteil des öffentlichen Verkehrs am Gesamtverkehr 2023 wieder bei etwa 10% und erreicht damit in etwa das Niveau von 2017. Zwischen 2017 und 2023 kam es zwar zu pandemiebedingten Rückgängen während der Krisenjahre, doch zeigt sich eine langsame Erholung des ÖV-Anteils. Insgesamt bleibt der Anstieg moderat: Trotz Einführung des Deutschlandtickets ist der Pkw weiterhin das dominierende Verkehrsmittel. Dies verdeutlicht, dass sich der Modal Split nur leicht zugunsten des öffentlichen Verkehrs verschoben hat und strukturelle Hemmnisse, etwa eingeschränktes Angebot in ländlichen Regionen, weiterhin bestehen.

Homeoffice-Effekt:
Die durchschnittliche Tagesstrecke pro Person ist von 39km auf 34km zurückgegangen. Hauptursache ist laut MiD der Rückgang der Arbeitswege durch verstärktes Homeoffice. Dieser Effekt entlastet zwar die Verkehrsinfrastruktur und reduziert Staus, erschwert jedoch gleichzeitig eine Steigerung des ÖV-Anteils, da viele Gelegenheitsfahrten weiterhin mit dem Pkw durchgeführt werden.

Stadt vs. Land:
Die Nutzung des Deutschlandtickets ist in Metropolen deutlich höher als in ländlichen Regionen, da dort das vorhandene Verkehrsangebot den Preisvorteil tatsächlich nutzbar macht. Für die Ulm-Region zeigt sich damit eine deutliche Ungleichheit: Stadtpendler profitieren stark, während Pendler aus dem ländlichen Umland ohne einen Ausbau der regionalen Taktungen häufig weiterhin auf das Auto angewiesen bleiben.

Implikationen für CO₂:
Durch den Homeoffice-Effekt sinken die Verkehrsmengen und damit auch die CO₂-Emissionen kurzfristig. Gleichzeitig stagniert der Umstieg vom Auto auf die Bahn, sodass das langfristige Einsparpotenzial durch Bahnpendeln bisher nicht ausgeschöpft wird. Eine wirksame Reduktion von CO₂-Emissionen ist daher nur möglich, wenn die durch Homeoffice freiwerdenden Kapazitäten für die verbleibenden Pendler durch ein verlässliches und attraktives ÖV-Angebot genutzt werden.

Fazit
Die MiD 2023 zeigt, dass sich das Mobilitätsverhalten seit 2017 nur leicht in Richtung ÖV verschoben hat. Der Homeoffice-Effekt entlastet aktuell Verkehr und Emissionen, während der Bahnanteil moderat bleibt. Für die Ulm-Region gilt: Das Deutschlandticket wirkt nur bei dichtem ÖV-Angebot. Ein nachhaltiger Klimaschutzeffekt durch Bahnpendeln erfordert daher gezielten Ausbau und mehr Attraktivität, besonders im Umland


  1. Berechnen Sie die CO2-Ersparnis für die 11 analysierten Städte.

Datensatz: co2_analyse (aus Aufgabe 4) – enthält Streckenlängen, Einpendlerzahlen und vorberechnete Werte

Annahmen:

Berechnen Sie für jeden Umsteiger (Auto \(\rightarrow\) Bahn):

Nun sollten Sie eine Szenario Analyse ähnlich wie in Aufgabe 15 durchführen: Wenn sich der Bahnanteil von 8,4% auf 20% erhöht: wie viele Tonnen CO2 würden in den 11 Städten jährlich eingespart?

Visualisieren Sie die CO2-Ersparnis pro Stadt.

Stellen Sie die Ersparnis in Kontext, um die Ersparnis greifbarer zu machen, z.B. wie viele Mallorca-Flüge (hin + zurück, ~750 kg CO2) entspricht das?


Beschreibung
Das Balkendiagramm zeigt, wie viel CO₂ zehn Großstädte plus Ulm sparen würden, wenn der Bahnanteil der Pendler von 8,4% auf 20% steigt. Auf der Y-Achse sind die Städte aufgelistet, die X-Achse zeigt die Ersparnis in 1.000 Tonnen pro Jahr. Bei jedem Balken ist außerdem angegeben, wie viele Hin- und Rückflüge nach Mallorca diese CO₂-Menge ungefähr entsprechen.

Die Balken sind absteigend nach der Höhe der CO₂-Ersparnis sortiert: Ganz oben steht Frankfurt mit über 75.000 Tonnen, was ungefähr 102 Hin- und Rückflügen entspricht, am unteren Ende liegt Ulm mit rund 1,7 Flügen.

Interpretation

Warum Frankfurt an der Spitze liegt
Die Grafik zeigt, dass Frankfurt die höchste CO₂-Ersparnis aufweist. Das ist verwunderlich, da laut Aufgabe 14 München mit 455.000 Einpendlern insgesamt die meisten Einpendler hat, während Frankfurt 405.000 Einpendler hat. Auf den ersten Blick würde man vermuten, dass die Stadt mit den meisten Einpendlern auch die höchste CO₂-Ersparnis aufweist. Auch die Quote der Bahnfahrten im Verhältnis zu allen Pendlern ist in beiden Städten laut Aufgabe 14 ungefähr gleich. Das heißt, die hohe Ersparnis ist nicht allein auf die absolute Anzahl der Pendler oder eine besonders hohe Nutzung des Autos zurückzuführen.

Der Grund für die Besonderheit liegt wahrscheinlich an der räumlichen Struktur der Region. Viele Pendler kommen aus entfernteren Städten und Landkreisen der Metropolregion Rhein-Main und legen dadurch längere Strecken zurück. Im Vergleich dazu hat München zwar insgesamt mehr Einpendler, diese kommen aber überwiegend aus der Stadt selbst oder aus nahegelegenen Vororten. Dadurch sind die durchschnittlich zurückgelegten Strecken in Frankfurt länger, und jeder Umstieg vom Auto auf die Bahn spart hier deutlich mehr CO₂.

Natürlich spielt die absolute Anzahl der Pendler trotzdem eine große Rolle. Deshalb ist Ulm mit Abstand auf dem letzten Platz, weil die Stadt auch die wenigsten Einpendler hat.

Warum Mallorca-Flüge
Die CO₂-Ersparnis wird in der Grafik zusätzlich in Hin- und Rückflügen nach Mallorca angegeben, um die Dimension der eingesparten Emissionen besser greifbar zu machen. Flüge sind für viele Menschen eine bekannte und anschauliche Bezugseinheit, da Mallorca einer der beliebtesten Urlaubsorte für Deutsche ist. Anstatt nur Tonnen CO₂ zu nennen, zeigt der Vergleich mit Flügen direkt, wie groß die Ersparnis tatsächlich ist. Dadurch wird deutlich, dass jeder Umstieg vom Auto auf die Bahn einen spürbaren Beitrag zum Klimaschutz leistet – vor allem, da Flugreisen als besonders klimaschädlich gelten.

Bedeutung der CO₂-Ersparnis im Pendlerverkehr
Die CO₂-Ersparnis durch den Umstieg auf die Bahn ist kein kleiner Bonus, sondern ein wichtiger Beitrag zum Klimaschutz. Jede eingesparte Tonne CO₂ hilft dabei, die globale Erwärmung zu verlangsamen und ihre negativen Folgen abzuschwächen. Je weniger Treibhausgase ausgestoßen werden, desto geringer fallen langfristige Schäden für Umwelt und Gesellschaft aus.

Auch auf lokaler Ebene zeigt sich dieser Effekt deutlich: Weniger CO₂-Emissionen tragen dazu bei, extreme Wetterereignisse wie Dürren, Starkregen oder Überschwemmungen zu begrenzen, die in den letzten Jahren auch in Deutschland immer häufiger auftreten und den Alltag vieler Menschen beeinträchtigen.

Insgesamt wird deutlich, dass der Umstieg einzelner Pendler das Klima zwar nicht allein retten kann, eine verstärkte Nutzung der Bahn im Alltag jedoch einen spürbaren Beitrag zur Reduktion von CO₂-Emissionen leistet. Gerade im städtischen Pendlerverkehr kann der Wechsel vom Auto auf die Schiene einen wichtigen Anteil daran haben, die Klimaauswirkungen des Verkehrs nachhaltig zu verringern.


Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (bahnhof_ags_mapping.csv)

Dieses Mapping ist essenziell für die Verknüpfung von Bahn- und Pendlerdaten. Die Bahndaten sind auf Bahnhofsebene (z.B. “München Hbf”), die Pendlerdaten auf Kreisebene (z.B. “München, Landeshauptstadt”). Der AGS (Amtlicher Gemeindeschlüssel) ist der Schlüssel, der beide Welten verbindet.

Wichtige Variablen:

  • station_name: Name des Bahnhofs
  • ags: Amtlicher Gemeindeschlüssel (5-stellig für Kreise)
  • kreis_name: Name des Landkreises/der kreisfreien Stadt

2. Fahrtzeit-Vergleich OSRM (fahrtzeit_osrm_vergleich.csv)

Für einen fairen Vergleich Auto vs. Bahn brauchen wir realistische Fahrtzeiten. OSRM (Open Source Routing Machine) berechnet echte Straßenrouten basierend auf OpenStreetMap – keine Luftlinien, sondern tatsächliche Straßenverbindungen mit Abbiegevorgängen, Geschwindigkeitsbegrenzungen und Straßentypen.

Wichtige Variablen:

  • stadt: Zielstadt der Pendlerstrecke
  • strecke_name: Beschreibung der Route (z.B. “Dachau \(\rightarrow\) München”)
  • auto_distanz_km: Fahrstrecke mit dem Auto in km
  • auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit (mit Staufaktor)
  • bahn_planzeit_min: Fahrzeit laut Fahrplan
  • bahn_verspaetung_min: Durchschnittliche Verspätung
  • bahn_real_min: Realistische Bahnfahrzeit (Fahrplan + Verspätung)

Wie wurde das Routing durchgeführt?

  1. Koordinaten ermitteln: Für jede Pendlerstrecke wurden Start- und Zielkoordinaten definiert (z.B. Stadtzentrum Dachau \(\rightarrow\) München Hauptbahnhof).

  2. OSRM-API abfragen: Über die öffentliche OSRM-Demo-API (router.project-osrm.org) wurden für jede Route Distanz und Fahrzeit abgefragt. Die API gibt die schnellste Route zurück, basierend auf dem aktuellen Straßennetz.

  3. Staufaktor anwenden: Die OSRM-Basisfahrzeit entspricht einer Fahrt bei freiem Verkehr. Für die Hauptverkehrszeit (HVZ) wurde ein Staufaktor von 1,3-1,5 angewendet, basierend auf den INRIX-Daten der jeweiligen Stadt.

  4. Bahn-Daten ergänzen: Die Bahnfahrzeiten stammen aus dem DB-Fahrplan, ergänzt um die durchschnittliche Verspätung aus unserer Analyse.

Weiterführende Links:

3. Ulm-Pendlerrouten (ulm_pendlerrouten.csv)

Da Sie in Ulm studieren, analysieren wir die wichtigsten Pendlerrouten in die Stadt genauer. Dieser Datensatz enthält die 5 wichtigsten Einpendler-Gemeinden mit detaillierten Informationen zur Erreichbarkeit.

Wichtige Variablen:

  • start_ort: Startgemeinde der Pendlerroute
  • ziel_ort: Zielort (Ulm)
  • auto_dauer_min: Fahrzeit mit dem Auto
  • auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit
  • bahn_fahrplan_min: Bahnfahrzeit laut Fahrplan
  • bahn_real_min: Realistische Bahnfahrzeit
  • hat_bahnhof: TRUE/FALSE – hat der Startort einen Bahnanschluss?
  • pendler_geschaetzt: Geschätzte Anzahl Pendler auf dieser Route

4. Entgeltstatistik (ba_entgeltstatistik_2024.csv)

Um die volkswirtschaftlichen Kosten von Verspätungen zu berechnen, brauchen wir regionale Lohndaten. Diese haben wir von der Bundesagentur für Arbeit heruntergeladen.

Wichtige Variablen:

  • kreis_name: Name des Kreises/der Stadt
  • ags: Amtlicher Gemeindeschlüssel
  • medianentgelt_brutto_monat: Median-Bruttomonatsentgelt in Euro

Quelle: Bundesagentur für Arbeit, Entgeltstatistik 2024