Motivation

Jeden Morgen das gleiche Bild: Verstopfte Autobahnen, genervte Pendler, verlorene Zeit. 20,5 Millionen Menschen pendeln in Deutschland täglich zur Arbeit – die meisten davon mit dem Auto. Laut INRIX Traffic Scorecard 2024 verlieren Pendler in deutschen Großstädten zwischen 40 und 60 Stunden pro Jahr allein im Stau. Das entspricht fast einer kompletten Arbeitswoche, die im Nichts verpufft.

Die Idee liegt auf der Hand: Wer Bahn fährt, steht nicht im Stau. Aber wie schlägt sich die Bahn im Vergleich zum Auto? Ist sie wirklich schneller? Und wie zuverlässig ist sie eigentlich?

In diesem Projekt analysieren Sie Echtzeitdaten der Deutschen Bahn, Pendlerstatistiken der Bundesagentur für Arbeit, Staudaten von INRIX und die Entgeltstatistik der Bundesagentur für Arbeit. Sie werden herausfinden, dass die Antwort auf die Frage “Sollten mehr Menschen Bahn fahren?” komplexer ist, als man zunächst vermuten würde und dass sie wichtige Implikationen für die Verkehrspolitik hat.

Ihre zentrale Forschungsfrage lautet:

“Sollten mehr Menschen Bahn fahren – und was müsste sich dafür ändern?”

Datengrundlage

In diesem Projekt arbeiten Sie mit mehreren Datensätzen. Ein wichtiger Teil des Projekts ist das eigenständige Beschaffen von Primärdaten aus offiziellen Quellen.

Daten einlesen und verstehen

Bevor Sie mit der Analyse beginnen können, müssen Sie verschiedenste Datensätze einlesen und deren Struktur verstehen. Die Deutsche Bahn stellt über unterschiedliche Schnittstellen Echtzeitdaten für ihre Züge als open-source Daten zur Verfügung, welche per API-Calls geladen werden können. Jedoch gibt es von der Deutschen Bahn keine offizielle Seite, welche historische Daten zu Zugverspätungen, Ausfällen etc. für Fern- und Nahverkehrszüge sammelt. Da wir uns jedoch mit historischen Daten beschäftigen möchten, greifen wir auf Daten zurück, die von Piet Brömmel gesammelt wurden und bei Huggingface im Parquet-Format zur Verfügung gestellt wurden. Das Parquet-Format ist ein effizientes Datenformat und wird oft für große Datenmengen genutzt; in R können Sie diese Daten mit dem arrow-Paket einlesen.

  1. Wie pünktlich ist die Bahn wirklich? Um diese Frage zu beantworten, brauchen Sie echte Verspätungsdaten – nicht nur Pressemitteilungen. Die Bahndaten bilden das Herzstück unserer Analyse: Mit ihnen können Sie berechnen, wie viel Zeit Bahnfahrer durch Verspätungen verlieren und später mit den Stauzeiten der Autofahrer vergleichen.

Die Deutsche Bahn stellt Echtzeitdaten als Open Data zur Verfügung. Das Projekt piebro/deutsche-bahn-data auf Huggingface sammelt diese Daten im Parquet-Format.

Laden Sie die Datei für November 2025 direkt von Huggingface herunter und lesen Sie diesen Datensatz als bahn in R ein.

Zeigen Sie die ersten 10 Zeilen des Datensatzes in einer Tabelle und beantworten Sie anschließend folgende Fragen:

  • Wie viele Beobachtungen enthält der Datensatz? Welche Variablen sind vorhanden?
  • Was stellt eine einzelne Beobachtung dar?

Hinweis 1: Sie können auf Huggingface die gesuchte Datei hier finden und direkt die URL zu der Datei in R mitgeben

Hinweis 2: Sie können die Parquet Datei entweder lokal speichern, oder immer direkt per URL einlesen. Falls Sie die Datei lokal speichern, so wird diese nicht auf GitHub Committet, da wir dies in der .gitignore entsprechend eingestellt haben. In diesem Fall sollten alle Teammitglieder die Datei lokal zur Verfügung haben.

Hinweis 3: Achten Sie bei allen Tabellen auf einer saubere Darstellung


Ersten 10 Einträge des Datensatzes der DB (November 2025)
station_name xml_station_name eva train_name final_destination_station delay_in_min time is_canceled train_type train_line_ride_id train_line_station_num arrival_planned_time arrival_change_time departure_planned_time departure_change_time id
Stuttgart Hbf Stuttgart Hbf (tief) 08098096 S 2 Filderstadt 5 2025-11-01 01:00:00 FALSE S 15 2025-11-01 00:55:00 2025-11-01 00:57:00 2025-11-01 00:55:00 2025-11-01 01:00:00 -1263112065111090114-2510312318-15
Halle (Saale) Hbf Halle(Saale)Hbf 08010159 S 5 Leipzig Hbf (tief) 1 2025-11-01 01:00:00 FALSE S 1 NA NA 2025-11-01 00:59:00 2025-11-01 01:00:00 -2678885466088426112-2510312359-1
Karlsruhe Hbf Karlsruhe Hbf 08000191 RE 1 Karlsruhe Hbf 95 2025-11-01 01:00:00 FALSE RE 7 2025-10-31 23:25:00 2025-11-01 01:00:00 NA NA -2791458000270945298-2510312132-7
Regensburg Hbf Regensburg Hbf 08000309 ALX RE25 München Hbf 11 2025-11-01 01:00:00 FALSE ALX 4 2025-11-01 00:35:00 2025-11-01 00:52:00 2025-11-01 00:49:00 2025-11-01 01:00:00 -5065801516765768983-2510312301-4
Mannheim Hbf Mannheim Hbf 08000244 ICE 775 Karlsruhe Hbf 1 2025-11-01 01:00:00 FALSE ICE 5181720942697741094 8 2025-11-01 00:56:00 2025-11-01 00:58:00 2025-11-01 00:59:00 2025-11-01 01:00:00 5181720942697741094-2510311916-8
Flughafen BER Flughafen BER (S-Bahn) 08089201 S 9 Flughafen BER 1 2025-11-01 01:00:00 FALSE S 7409107008547428277 5 2025-11-01 00:59:00 2025-11-01 01:00:00 NA NA 7409107008547428277-2510312346-5
Halle (Saale) Hbf Halle(Saale)Hbf 08010159 S 8 Halle (Saale) Hbf 15 2025-11-01 01:00:00 FALSE S 2442677234119162947 6 2025-11-01 00:45:00 2025-11-01 01:00:00 NA NA 2442677234119162947-2510312324-6
München Hbf München Hbf 08000261 RB 40 München Hbf 0 2025-11-01 01:00:00 FALSE RB 8 2025-11-01 01:00:00 2025-11-01 01:00:00 NA NA -8549369502950901321-2510312246-8
Köln Hbf Köln Hbf 08000207 IC 1952 Köln Hbf 40 2025-11-01 01:00:00 FALSE IC 2365115903117509345 14 2025-11-01 00:20:00 2025-11-01 01:00:00 NA NA 2365115903117509345-2510311747-14
Freiburg (Breisgau) Hbf Freiburg(Breisgau) Hbf 08000107 S 1 Freiburg (Breisgau) Hbf 0 2025-11-01 01:00:00 FALSE S 9 2025-11-01 01:00:00 2025-11-01 01:00:00 NA NA -2150665481183031960-2510312332-9

Der Datensatz enthält 13.943.561 Beobachtungen (Zeilen).
Er umfasst folgende 16 Variablen (Spalten):

  • “station_name” (Name der Station)
  • “xml_station_name” (Stationsname aus der XML-Response (aus den Rohdaten))
  • “eva” (EVA-Nummer der Station, eindeutiger Identifikator)
  • “train_name” (Zugname/-nummer, z. B. „ICE 123“, „RE 5“)
  • “final_destination_station” (Endziel des Zuges)
  • “delay_in_min” (Verspätung in Minuten)
  • “time” (tatsächlicher Ankunfts- oder Abfahrtszeitpunkt)
  • “is_canceled” (ob der Halt ausgefallen ist: TRUE/FALSE)
  • “train_type” (Typ des Zuges, z. B. ICE/IC/RE/S)
  • “train_line_ride_id” (eindeutiger Identifikator der Zugfahrt)
  • “train_line_station_num” (Stationsnummer innerhalb der Route/Fahrt)
  • “arrival_planned_time” (geplante Ankunftszeit)
  • “arrival_change_time” (geänderte/aktualisierte Ankunftszeit)
  • “departure_planned_time” (geplante Abfahrtszeit)
  • “departure_change_time” (geänderte/aktualisierte Abfahrtszeit)
  • “id” (eindeutiger Identifikator für den Zughalt)

Eine einzelne Beobachtung (eine Zeile) entspricht einem konkreten Zughalt (Stop-Ereignis) eines bestimten Zuges an einer bestimmten Station zu einem bestimmten Zeitpunkt (inkl. geplanten/aktualisierten Zeiten, Verspätungen und Ausfallstatus).


  1. Wohin pendeln die Menschen? Die Bahndaten zeigen ihnen die Pünktlichkeit der Züge – aber um zu verstehen, wo gute Bahnverbindungen besonders wichtig sind, müssen Sie wissen, wohin die Menschen pendeln. Die Pendlerstatistik der Bundesagentur für Arbeit zeigt genau das: Welche Städte sind die größten Arbeitgeber-Magneten?

Laden Sie den Datensatz pendler_kreise_aufbereitet.csv aus dem Ordner daten in R ein als Datensatz pendler.

Erstellen Sie eine Tabelle der Top 10 Städte nach Einpendlern mit den Spalten: Stadt (kreis_name), Einpendler, Auspendler, Pendlersaldo.

Interpretieren Sie kurz: Welche Städte sind die größten “Pendlermagneten” Deutschlands und warum?


Top 10 Städte nach Einpendlern
Stadt, Kreis Einpendler Auspendler Pendlersaldo
München, Landeshauptstadt 455.645 202.756 252.889
Frankfurt am Main, Stadt 405.856 111.245 294.611
Hamburg, Freie und Hansestadt 392.951 147.328 245.623
Berlin, Stadt 392.324 219.898 172.426
Köln, Stadt 306.905 138.422 168.483
Düsseldorf, Stadt 284.696 97.326 187.370
Stuttgart, Landeshauptstadt 274.442 100.095 174.347
Nürnberg, Stadt 165.496 78.557 86.939
Essen, Stadt 141.296 90.906 50.390
Region Hannover 137.924 69.974 67.950

Die größten „Pendlermagneten“ sind die Städte mit den höchsten Einpendlerzahlen und einem deutlich positiven Pendlersaldo (Einpendler minus Auspendler), d. h. es pendeln mehr Personen zum Arbeiten ein als aus. In der Tabelle zeigt sich, dass dies vor allem München (Landeshauptstadt), Frankfurt am Main, Hamburg, Berlin, Köln, Düsseldorf und Stuttgart sind. Besonders stark wirken Frankfurt am Main, München und Hamburg, da sie neben sehr vielen Einpendlern auch einen hohen Einpendlerüberschuss aufweisen.

Dies lässt sich dadurch erklären, dass diese Städte wirtschaftliche Zentren mit hoher Arbeitsplatzdichte sind (z. B. Unternehmenssitze, Finanz- und Dienstleistungssektor, Industrie, Verwaltung, Hochschulen). Viele Beschäftigte wohnen im Umland (u. a. aufgrund von Wohnraum- und Kostenfaktoren) und pendeln deshalb täglich in diese Städte ein.


  1. Was kostet das Auto? Sie haben jetzt Bahndaten und wissen, wohin die Menschen pendeln. Aber um fair vergleichen zu können, brauchen Sie auch die Alternative: Wie viel Zeit verlieren Autofahrer im Stau? Diese Daten liefert INRIX – ein Unternehmen, das weltweit Verkehrsdaten sammelt. Später werden Sie diese Staukosten mit den Bahnverspätungen vergleichen.

Besuchen Sie die INRIX Global Traffic Scorecard und suchen Sie die Stauzeiten für die Top 10 Städte aus Aufgabe 2 und zusätzlich die Stauzeiten für Ulm. INRIX misst, wie viele Stunden Autofahrer jährlich im Stau verlieren.

  • Erstellen Sie eine eigene CSV-Datei inrix_staedte_2024.csv mit folgenden Spalten für die geforderten Städte:
    • stadt: Name der Stadt
    • stau_stunden_jahr: Jährliche Staustunden pro Fahrer
    • kosten_eur: Jährliche Kosten pro Fahrer (findet sich in der tiefergehenden Übersicht)
  • Berechnen Sie für jede Stadt, wie viele Arbeitstage pro Jahr im Stau verloren gehen. Annahme: Ein Arbeitstag = 8 Stunden.

Erstellen Sie anschließend eine schöne Tabelle mit: Stadt, Staustunden/Jahr, verlorene Arbeitstage und beschreiben diese. In welcher Stadt ist die Stausituation am schlimmsten? Wie viele Arbeitstage verliert ein typischer Pendler dort pro Jahr?

Hinweis: Auf der INRIX-Website können Sie nach bei “Jump to City Rankings” -> “Search the List” -> “Germany” oder der konkreten Stadt filtern.


INRIX 2025: Jährliche Staustunden und verlorene Arbeitstage pro Fahrer
Stadt Staustunden/Jahr Kosten/Jahr in € Verlorene Arbeitstage/Jahr
München 57 781 7,1
Frankfurt 55 754 6,9
Hamburg 46 631 5,8
Berlin 60 823 7,5
Köln 67 919 8,4
Düsseldorf 63 864 7,9
Stuttgart 60 823 7,5
Nürnberg 38 521 4,8
Essen 46 631 5,8
Hannover 54 740 6,8
Ulm 30 411 3,8
Hinweis: Für Essen liegen im INRIX-Datensatz keine eigenen Werte vor; es wurden ersatzweise die Werte von Wuppertal verwendet.

Die Tabelle zeigt für die betrachteten Städte die von INRIX berichteten Staustunden pro Jahr (pro Fahrer). Zusätzlich werden daraus die verlorenen Arbeitstage pro Jahr berechnet, wobei ein Arbeitstag mit 8 Stunden angesetzt wird (z. B. 57 Staustunden ≈ 7,1 Arbeitstage). Ergänzend weist die Tabelle die von INRIX angegebenen Kosten pro Jahr in Euro aus. Für Essen liegen im INRIX-Datensatz keine eigenen Werte vor; deshalb werden in der Tabelle ersatzweise die Werte von Wuppertal für Essen übernommen, damit die Stadt in der Analyse trotzdem berücksichtigt werden kann.

Am stärksten ist die Stausituation in Köln: Mit 67 Staustunden/Jahr verliert ein typischer Fahrer dort etwa 8,4 Arbeitstage pro Jahr, zudem liegen die Kosten mit 919 € pro Jahr am höchsten. Dahinter folgen Düsseldorf (63 Stunden ≈ 7,9 Tage; 864 €) sowie Berlin und Stuttgart (je 60 Stunden ≈ 7,5 Tage; 823 €). Ulm weist mit 30 Staustunden (≈ 3,8 Tage) und 411 € die niedrigsten Werte in der Tabelle auf.


  1. Für die weiteren Analysen stellen wir Ihnen fünf zusätzliche Datensätze bereit. Diese laden Sie jetzt, damit sie in allen folgenden Aufgaben direkt verfügbar sind.

Laden Sie die folgenden Datensätze aus dem Ordner daten und speichern Sie diese unter den angegebenen Variablennamen:

Datei Variablenname Verwendet in
bahnhof_ags_mapping.csv bahnhof_mapping Aufgabe 9-10
fahrtzeit_osrm_vergleich.csv fahrtzeit Aufgabe 12
ulm_pendlerrouten.csv ulm_routen Aufgabe 13
ba_entgeltstatistik_2024.csv entgelt für staedte_basis
co2_analyse.csv co2_analyse Aufgabe 19 (Bonus)

Verschaffen Sie sich einen ersten Überblick über die Struktur der Daten (z.B. mit glimpse(), dies sollte später in ihrem HTML Dokument nicht sichtbar sein!).

Erstellen Sie außerdem einen Master-Datensatz staedte_basis für die Top-11-Städte (Top 10 Pendlerstädte + Ulm), der die Daten aus pendler, entgelt und inrix kombiniert. Dieser Datensatz vereinfacht die späteren Analysen (ab Aufgabe 14), da alle relevanten Kennzahlen bereits zusammengeführt sind.

Der Master-Datensatz sollte folgende Spalten enthalten:

  • ags: Amtlicher Gemeindeschlüssel
  • stadt: Stadtname (Kurzform, z.B. “München”)
  • einpendler: Anzahl Einpendler
  • median_monat_eur: Medianlohn pro Monat
  • median_stunde_eur: Medianlohn pro Stunde (Monatslohn / 160)
  • stau_stunden_jahr: Stauzeit pro Jahr (aus INRIX)

Hinweis 1: Die Datensätze verwenden unterschiedliche Namensformate: pendler hat offizielle Namen (“München, Landeshauptstadt”), während entgelt und inrix Kurznamen (“München”) verwenden. Nutzen Sie den AGS als zuverlässigen Schlüssel für die Verknüpfung mit pendler. Tipp: entgelt enthält sowohl AGS als auch Kurznamen und eignet sich daher gut als Ausgangspunkt.

Hinweis 2: Eine ausführliche Beschreibung der Datensätze finden Sie im Anhang A.


Erstellter Datensatz “Städtebasis”
AGS Stadtname Anzahl Einpendler Medianlohn pro Monat in € Medianlohn pro Stunde in € Staustunden pro Jahr
09162 München 455.645 4.847 30,29 57
06412 Frankfurt 405.856 4.712 29,45 55
02000 Hamburg 392.951 4.527 28,29 46
11000 Berlin 392.324 4.156 25,98 60
05315 Köln 306.905 4.398 27,49 67
05111 Düsseldorf 284.696 4.523 28,27 63
08111 Stuttgart 274.442 4.689 29,31 60
09564 Nürnberg 165.496 4.234 26,46 38
05113 Essen 141.296 3.987 24,92 46
03241 Hannover 137.924 4.156 25,98 54
08421 Ulm 68.341 4.312 26,95 30

Die Pünktlichkeit der Deutschen Bahn

Nachdem Sie nun einen Überblick über die Daten haben, welche wir in diesem Projekt verwenden möchten, tauchen Sie tiefer in die Bahndaten ein. Die zentrale Frage ist: Wie zuverlässig ist die Deutsche Bahn wirklich?

Die Bahn unterscheidet verschiedene Zugtypen, vom ICE über den RE bis zur S-Bahn. Jeder Zugtyp hat unterschiedliche Eigenschaften: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Aber welcher Zugtyp ist am pünktlichsten?

  1. Welche Züge sind (un)pünktlich? Nicht alle Züge sind gleich: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Um später sinnvolle Empfehlungen geben zu können, müssen Sie verstehen, welche Zugtypen besonders problematisch sind. Dafür klassifizieren Sie die Züge anhand ihrer Namen. Nutzen Sie für diese Analyse den Datensatz bahn.

Die Variable train_name enthält den Zugnamen (z.B. “ICE 123”, “S 5”, “RE 8”).

Zugtyp Regel Beispiel
ICE beginnt mit “ICE” ICE 123
IC/EC beginnt mit “IC” oder “EC” IC 2012, EC 6
IRE/RE beginnt mit “RE” oder “IRE” RE 5, IRE 200
RB beginnt mit “RB” RB 26
S-Bahn beginnt mit “S” (mit Leerzeichen!) S 5
Sonstige alle anderen U 6, STB 123

Erstellen Sie auf dieser Basis eine Tabelle, welche pro Zugtyp folgende Kennzahlen anschaulich darstellt:

Beschreiben und Interpretieren Sie die Tabelle.

Weiterhin sollten Sie ihre Ergebnisse verifizieren. Dafür können Sie auf die offizielle Pünktlichkeitswerte der Deutschen Bahn zurückgreifen (recherchieren Sie diese selbstständig).

Stimmen Ihre Ergebnisse mit den offiziellen Werten überein? Falls nicht: Welche methodischen Unterschiede könnten die Abweichung erklären?

Hinweis: Nutzen Sie str_detect() aus dem stringr-Paket. Achten Sie auf die Reihenfolge der Bedingungen!


DB Nov 2025: Verspätung, Pünktlichkeit und Ausfallquote nach Zugtyp
Zugtyp Anzahl Fahrten ø Verspätung (Min) Anteil Pünktlich in % (≤ 6 Min) Ausfallquote in %
RB 2.675.028 3,5 85,2 3,2
RE/IRE 1.673.555 6,1 74,1 3,6
S-Bahn 6.414.045 2,9 87,4 5,5
Sonstige 2.938.815 3,5 84,7 2,6
ICE 171.516 12,5 56,7 4,2
IC/EC 70.602 11,0 60,2 7,2

Die Tabelle fasst für den Monat November 2025 zentrale Kennzahlen zur Zuverlässigkeit verschiedener Zugkategorien zusammen. Für jeden Zugtyp wird erstens die Anzahl der erfassten „Fahrten“ (genauer: Datensatzeinträge bzw. Halte/Events im Datensatz) angegeben, zweitens die durchschnittliche Verspätung in Minuten, drittens der Anteil pünktlicher Fahrten, wobei „pünktlich“ hier als maximal 6 Minuten Verspätung definiert ist, und viertens die Ausfallquote, also der Anteil an Einträgen, die als „cancelled“ (ausgefallen) markiert sind. Damit lässt sich nicht nur vergleichen, welche Zugtypen im Mittel stärker verspätet sind, sondern auch, bei welchen Zugtypen Verspätungen eher die Ausnahme sind und wie häufig Ausfälle auftreten.

Insgesamt zeigen die Werte ein klares Muster: Nahverkehrszugtypen sind deutlich häufiger pünktlich als Fernverkehrszugtypen, und gleichzeitig ist der Fernverkehr im Mittel deutlich stärker verspätet. Die S-Bahn weist bei sehr hoher Ereigniszahl (6.414.045) eine geringe durchschnittliche Verspätung von 2,9 Minuten und einen hohen Pünktlichkeitsanteil von 87,4 % auf, allerdings mit einer vergleichsweise höheren Ausfallquote von 5,5 %. RB und die Kategorie Sonstige liegen bei der durchschnittlichen Verspätung ebenfalls niedrig (je 3,5 Minuten) und erreichen hohe Pünktlichkeitswerte (85,2 % bzw. 84,7 %), bei moderaten Ausfallquoten (3,2 % bzw. 2,6 %). RE/IRE fällt innerhalb des Nahverkehrs negativ auf: Hier liegt die durchschnittliche Verspätung bei 6,1 Minuten und der Pünktlichkeitsanteil sinkt auf 74,1 %. Am unzuverlässigsten sind die Fernverkehrszugtypen: ICE (12,5 Minuten, 56,7 % pünktlich) und IC/EC (11,0 Minuten, 60,2 % pünktlich). Auffällig ist zudem die besonders hohe Ausfallquote beim IC/EC (7,2 %), während der ICE zwar etwas weniger Ausfälle (4,2 %) zeigt, dafür aber die höchste durchschnittliche Verspätung hat. Ein plausibler Grund für diese Unterschiede ist, dass der Fernverkehr längere Strecken, mehr Störquellen (z. B. Baustellen, Netzüberlastung, Anschlussabhängigkeiten) und stärkere Ketteneffekte von Verspätungen aufweist, während S-Bahn/RB stärker in regionalen Takten und kürzeren Umläufen unterwegs sind.

Auf der offiziellen DB-Seite zu den Pünktlichkeitswerten ( https://www.deutschebahn.com/de/konzern/konzernprofil/zahlen_fakten/puenktlichkeitswerte-6878476 ) wird für November 2025 eine betriebliche Pünktlichkeit von 84,5 % (Personenverkehr), 85,2 % (Nahverkehr) und 54,5 % (Fernverkehr) ausgewiesen (zusätzlich: Reisendenpünktlichkeit Fernverkehr 61,9 %). Vergleicht man diese offiziellen Werte direkt mit den Zugtyp-Werten aus unserer Tabelle, ergibt sich folgendes Bild: Im Nahverkehr liegt RB mit 85,2 % exakt auf dem DB-Nahverkehrswert, Sonstige (84,7 %) liegt sehr nahe daran, und S-Bahn (87,4 %) sogar etwas darüber. RE/IRE (74,1 %) fällt dagegen deutlich schlechter aus als der offizielle Nahverkehrs-Gesamtwert. Im Fernverkehr liegen unsere Werte über den offiziellen DB-Fernverkehrswerten: ICE (56,7 %) ist leicht höher als 54,5 %, und IC/EC (60,2 %) liegt deutlich höher. Insgesamt passt die Größenordnung, aber die Übereinstimmung ist nicht 1:1: Nahverkehr ist bei uns je nach Zugtyp teils sehr nah dran (RB), teils deutlich abweichend (RE/IRE), und der Fernverkehr fällt in unserer Auswertung pünktlicher aus als in der offiziellen DB-Gesamtzahl.

Mögliche methodische Gründe für Abweichungen sind vor allem:
(1) Kategorie-Mismatch / Abgrenzung: Die DB weist „Nahverkehr“ als Gesamtaggregat aus (inklusive vieler Leistungen, die in unserem Datensatz ggf. als „Sonstige“ oder getrennt nach RE/RB/S-Bahn auftauchen). Ein einzelner Zugtyp – insbesondere RE/IRE – muss daher nicht dem Gesamtwert entsprechen, sondern kann je nach Region/Netzqualität deutlich abweichen.
(2) Unterschiedliche Zähleinheit und Gewichtung: Die DB misst die betriebliche Pünktlichkeit über Halte (Unterwegs- und Endhalte). In unserem Datensatz entspricht „Anzahl Fahrten“ jedoch Datensatzeinträgen/Events; je nach Struktur kann das einzelne Züge, Linien oder Stationen unterschiedlich stark gewichten (z. B. wenn bestimmte Linien sehr viele Halte/Events erzeugen). Das kann Aggregate merklich verschieben.
(3) Definition des Pünktlichkeits-Schwellenwerts: Offiziell wird ein Halt als pünktlich gewertet, wenn die planmäßige Ankunftszeit um weniger als 6 Minuten überschritten wird; im Code wird häufig ≤ 6 genutzt. Das ist meist ein kleiner Effekt, kann bei großen Datenmengen aber sichtbar werden.
(4) Umgang mit Ausfällen und fehlenden Delays: Je nachdem, ob Ausfälle in den Nenner der Pünktlichkeit einfließen oder separat betrachtet werden, verändert sich der Pünktlichkeitsanteil. Zusätzlich unterscheidet die DB klar zwischen betrieblicher Pünktlichkeit und Reisendenpünktlichkeit (mit Anschlüssen/Ersatzzügen etc.), was nicht direkt mit unserer Zugtyp-Auswertung vergleichbar ist.


  1. In Aufgabe 5 haben Sie gesehen, dass Fernverkehrszüge (ICE, IC/EC) deutlich höhere Verspätungen und Ausfallquoten haben als Nahverkehrszüge (IRE, RE, RB, S-Bahn). Aber wie relevant ist das für den typischen Pendler? Das hängt davon ab, wie viele Züge jeweils unterwegs sind. Nutzen Sie für diese Analyse den Datensatz bahn (mit der in Aufgabe 5 erstellten Variable zugtyp).

Klassifizieren Sie die Züge in zwei Kategorien:

Erstellen Sie ein Liniendiagramm, das die durchschnittliche Anzahl der Fahrten pro Stunde im Tagesverlauf zeigt:

Tipp: Extrahieren Sie die Stunde aus der Variable time mit hour() aus dem lubridate-Paket. Berechnen Sie dann die durchschnittliche Anzahl Fahrten pro Stunde und Zugtyp.

Beschreiben und interpretieren Sie ihre Grafik. Beantworten Sie zusätzlich die folgenden Fragen:


Die Grafik zeigt für jede Uhrzeit (0–23 Uhr) die durchschnittliche Anzahl der im Datensatz erfassten Fahrten/Ereignisse pro Stunde, getrennt nach Fernverkehr (ICE, IC/EC) und Nahverkehr (IRE, RE/IRE, RB, S-Bahn). Über die Nachtstunden sind die Werte deutlich niedriger, ab dem frühen Morgen steigen sie stark an. Der Nahverkehr dominiert mengenmäßig über den gesamten Tag und erreicht besonders hohe Werte am späten Nachmittag/frühen Abend. Der Fernverkehr liegt insgesamt deutlich darunter und verläuft „flacher“, hat aber ebenfalls höhere Werte am Nachmittag.

Das Muster passt zu typischen Tagesrhythmen: nachts wenig Verkehr, morgens ein starkes Hochfahren (Beginn des Berufs-/Pendlerverkehrs) und ein zweiter Schwerpunkt am späten Nachmittag (Feierabendwelle). Dass der Nahverkehr viel stärker ausschlägt, ist plausibel, weil er dichter getaktet ist und mehr Halte/Events produziert. Wichtig zur Einordnung: Unsere „Anzahl Fahrten“ ist hier eine Zählung von Datensatz-Beobachtungen (Halte-Events) und nicht „ein Zug = eine komplette Fahrt“ im alltagssprachlichen Sinn.

  1. Zu welchen Uhrzeiten fahren die meisten Züge? Im Datensatz liegen die höchsten Werte am späten Nachmittag/frühen Abend (ca. 17–18 Uhr). Im Nahverkehr ist dieser Peak am stärksten; im Fernverkehr liegt der Höchstbereich ebenfalls grob zwischen 16 und 18 Uhr, aber auf deutlich niedrigerem Niveau.

  2. Wie unterscheidet sich das Muster zwischen Fern- und Nahverkehr? Nahverkehr: sehr starkes Tagesprofil mit steilem Anstieg am Morgen, hohem Niveau über den Tag und deutlich ausgeprägtem Peak am Nachmittag/Abend.
    Fernverkehr: insgesamt viel weniger Events pro Stunde, moderater Tagesanstieg und ein weniger stark ausgeprägter Peak am Nachmittag; insgesamt „gleichmäßiger“.

  3. Warum ist diese Information wichtig, wenn wir später die Verspätungen analysieren?
    Weil Verspätungskennzahlen stark von der Verkehrsdichte und der Tageszeit abhängen: In Stunden mit sehr vielen Events (typisch Rush Hour) sind Netz und Knoten stärker ausgelastet, Störungen wirken schneller „kaskadenartig“ und prägen Gesamtwerte. Außerdem kann ein Vergleich von (Un-)Pünktlichkeit verzerrt sein, wenn man Verkehrstypen oder Zeiten mischt—faire Vergleiche sollten daher nach Stunde und Fern/Nahverkehr differenzieren (sonst vergleicht man z. B. ruhige Nachtstunden mit Pendler-Spitzenzeiten).


Nachdem Sie in Aufgabe 6 herausgefunden haben, dass es deutlich mehr Nahverkehrszüge als Fernverkehrszüge gibt, und diese für Pendler wichtiger sind, sollten Sie sich die Verspätungen der Nahverkehrszüge über den Tag anschauen, da diese vermutlich nicht gleichmäßig über den Tag verteilt sind. Pendler erleben die Bahn vor allem in der Hauptverkehrszeit, d.h. morgens zwischen 7 und 9 Uhr und abends zwischen 16 und 19 Uhr. Aber ist die Bahn zu diesen Zeiten besonders unpünktlich?

  1. Erstellen Sie zwei Heatmaps, die zeigen, wie sich die Verspätungen nach Tageszeit (Stunde) und Wochentag für die Nahverkehrszüge und die Fernverkehrszüge verteilen. Nutzen Sie für diese Analyse den Datensatz bahn.

Tipp zur Farbskala: Da Fernverkehrszüge im Durchschnitt höhere Verspätungen haben als Nahverkehrszüge, können Sie unterschiedliche Farbskalen für die beiden Heatmaps verwenden (z.B. Blau-Töne für Nahverkehr, Rot-Töne für Fernverkehr). Dadurch werden die Muster innerhalb jeder Verkehrsart besser sichtbar.

Beschreiben und interpretieren Sie ihre Grafiken.


Die beiden Heatmaps zeigen die durchschnittliche Verspätung (in Minuten) nach Stunde (5–23 Uhr) und Wochentag (Mo-So), einmal für den Nahverkehr (blau, oben) und einmal für den Fernverkehr (rot, unten). Im Nahverkehr liegen die Werte insgesamt auf einem deutlich niedrigeren Niveau (Farbskala bis ca. 5 Minuten), während der Fernverkehr insgesamt wesentlich höhere Durchschnittsverspätungen aufweist (Farbskala bis ca. 20+ Minuten). In beiden Grafiken ist außerdem erkennbar, dass die Verspätungen nicht gleichmäßig über den Tag verteilt sind, sondern je nach Tageszeit und Wochentag variieren. In beiden Grafiken sind frühe Morgenstunden (ca. 5–7 Uhr) insgesamt heller (geringere Verspätungen), danach steigen die Werte über den Tag an. Besonders auffällig ist in beiden Heatmaps eine deutliche Verdunkelung am Abend, vor allem zwischen etwa 18 und 23 Uhr. Über die Wochentage hinweg sind die Muster relativ stabil, allerdings gibt es an einzelnen Tagen (z. B. Richtung Freitag) leichte Verschiebungen bzw. Intensivierungen.

Im Nahverkehr ist das Muster vor allem stoßzeitengetrieben: Die Verspätungen konzentrieren sich sichtbar auf die typischen Pendlerzeiten. Besonders deutlich ist ein Peak am Abend zwischen ca. 18 und 21 Uhr, wo die Felder am dunkelsten sind. Morgens (etwa 7–9 Uhr) ist ebenfalls eine erhöhte Verspätung erkennbar, aber der Abend ist in der Heatmap am stärksten ausgeprägt. Das passt zu hoher Nachfrage, dichter Taktung, vollen Stationen sowie stärkerer Netzbelastung in der Rush Hour.
Im Fernverkehr zeigt sich dagegen stärker, dass sich Verspätungen über den Tag “aufschaukeln”: Je später der Tag, desto höher die durchschnittliche Verspätung, mit höchstwerten am späten Abend (ca. 20-23 Uhr). Das passt zu einem Netzwerk-Effekt: Kleine Störungen am Vormittag können sich durch Umläufe, Anschlüsse, hohe Auslastung und begrenzte Puffer im Tagesverlauf verstärken, sodass abends im Mittel höhere Verspätungen ankommen.

  1. Wann sind die Verspätungen am höchsten?
    Nahverkehr: am höchsten abends ca. 18–21 Uhr (stärkster Peak), zusätzlich erhöht in der morgendlichen Rush Hour.
    Fernverkehr: am höchsten später am Abend, insbesondere ca. 20–23 Uhr (deutlich dunkelste Bereiche).

  2. Gibt es Unterschiede zwischen Werktagen und Wochenende?
    Ja, insgesamt wirken die Muster an Werktagen ausgeprägter, weil die Nachfrage- und Taktspitzen durch Berufspendeln stärker sind. Im Nahverkehr sieht man an Werktagen tendenziell klarere Stoßzeiten (morgens/abends). Am Wochenende ist die Struktur meist „glatter“: Es gibt weiterhin erhöhte Werte am Abend, aber die typische Pendler-Signatur (zwei klare Rush-Hour-Berge) ist weniger dominant. Im Fernverkehr bleiben späte Tageszeiten auch am Wochenende auffällig, allerdings sind Verspätungen über den Tag hinweg milder.

  3. Gibt es Unterschiede zwischen Nah- und Fernverkehrszügen?
    Sehr deutlich: Der Fernverkehr ist im Durchschnitt spürbar unpünktlicher als der Nahverkehr (erkennbar an der viel “kräftigeren” Farbskala). Zudem nimmt die Verspätung im Fernverkehr über den Tag stärker zu und ist besonders am Abend am höchsten. Der Nahverkehr bleibt insgesamt auf einem niedrigeren Niveau, ist aber sichtbar stoßzeitgetrieben (ca. 8-10 und 18-21 Uhr).

  4. Was bedeutet das für Pendler?
    Für Pendler (die besonders morgens und abends unterwegs sind) heißt das: Gerade die Abendpendelzeit fällt in den Bereich, in dem die durchschnittlichen Verspätungen am höchsten sind – und das nicht nur im Fernverkehr, sondern auch (weniger stark) im Nahverkehr. Praktisch bedeutet das: Wer regelmäßig abends (bzw. im Nahverkehr zu Stoßzeiten) fährt, muss mehr Puffer einplanen, und Anschlussrisiken steigen. Gleichzeitig ist der Nahverkehr zwar durchschnittlich stabiler, aber auch dort nimmt die Unzuverlässigkeit zu Stoßzeiten (v.a. Abends) zu. Verspätungen sind also zeitabhängig und nicht gleichmäßig über den Tag verteilt.


Von der Zeit zum Ort: Wo entstehen die Verspätungen?

In Aufgabe 7 haben Sie analysiert, wann die Verspätungen auftreten, nämlich vor allem zu den Hauptverkehrszeiten. Aber die nächste wichtige Frage ist: Wo entstehen diese Verspätungen?

Aggregierte Statistiken wie Durchschnittswerte über ganz Deutschland verbergen oft große regionale Unterschiede. Vielleicht gibt es einzelne “Problembahnhöfe”, die den Durchschnitt nach oben ziehen? Oder sind die Verspätungen gleichmäßig über das Netz verteilt? Diese Frage ist wichtig, weil sie unterschiedliche Lösungsansätze impliziert: Bei wenigen Problembahnhöfen könnte die Bahn gezielt investieren, bei flächendeckenden Problemen bräuchten Sie systemische Lösungen.

  1. Identifizieren Sie die 10 unpünktlichsten Bahnhöfe in Deutschland (mit mindestens 1.000 Halten im Monat). Nutzen Sie für diese Analyse den Datensatz bahn.

Erstellen Sie ein Balkendiagramm, das die durchschnittliche Verspätung dieser Bahnhöfe zeigt. Beschriften Sie die Balken mit den Verspätungswerten.

Beschreiben und interpretieren Sie ihre Grafik.

  • Sehen Sie ein geografisches Muster?
  • Handelt es sich um große Knotenbahnhöfe oder eher um kleinere Stationen?

Die Grafik zeigt die 10 unpünktlichsten Bahnhöfe in den DB-Daten für November 2025, wobei nur Stationen mit mindestens 1.000 Halten im Monat berücksichtigt werden. Auf der x-Achse steht die durchschnittliche Verspätung pro Halt (in Minuten), auf der y-Achse die Bahnhöfe. Am stärksten fällt Ennepetal (Gevelsberg) mit 14,7 Minuten durchschnittlicher Verspätung auf. Dahinter folgen Bad Breisig (14,5) und Sinzig (Rhein) (14,5). Danach liegen Bornheim-Sechtem (13,6) sowie Brühl (13,3) und Roisdorf (13,3). Rolandseck folgt mit 13,2 Minuten. Die Plätze 8–10 sind Hochneukirch (12,5), Rheydt-Odenkirchen (12,4) und Zeesen (12,3). Insgesamt bewegen sich die Werte in einem relativ engen Bereich von etwa 12,3 bis 14,7 Minuten.

Auffällig ist, dass in den Top-10 keine großen Fernverkehrsknoten (z. B. Köln Hbf, Frankfurt Hbf, München Hbf) auftauchen, sondern überwiegend kleinere bis mittlere Stationen. Das spricht dafür, dass die Verspätungen in diesen Fällen weniger durch den einzelnen Bahnhof „verursacht“ werden, sondern eher aus dem Netz heraus ankommen (Verspätungen werden von vorherigen Streckenabschnitten mitgenommen und werden dann beim Halt sichtbar). Gleichzeitig ist wichtig: Da hier nur Bahnhöfe mit mindestens 1.000 Halten enthalten sind, handelt es sich nicht um reine Ausreißer durch sehr wenige Beobachtungen. Trotzdem kann die Rangliste stark davon beeinflusst sein, ob einzelne Streckenabschnitte in einem Monat besonders störanfällig waren (z. B. Baustellen, Engpässe, Umleitungen). Die Grafik hilft daher eher dabei, Problemkorridore bzw. Regionen zu vermuten, als daraus direkt abzuleiten, dass genau diese Bahnhöfe „schuld“ sind.

  1. Sehen Sie ein geografisches Muster? Ja, es wirkt wie eine regionale Häufung im Rhein-/Köln-Bonn-Umfeld: Besonders deutlich sind Sinzig (Rhein) und Bad Breisig (beide Rheinachse) sowie Bornheim-Sechtem, Roisdorf und Brühl (Raum Bonn/Köln). Dazu kommen Stationen aus NRW wie Ennepetal (Gevelsberg) sowie Hochneukirch und Rheydt-Odenkirchen. Zeesen fällt als einzelner Bahnhof im Berlin/Brandenburg-Umland auf. Das spricht eher für regionale Streckenabschnitte/Netzbereiche, in denen sich Verspätungen im betrachteten Monat besonders stark aufgebaut oder fortgepflanzt haben.

  2. Handelt es sich um große Knotenbahnhöfe oder eher um kleinere Stationen? Eher um kleinere bis mittlere Stationen. Das ist inhaltlich interessant, weil die Auswertung nach durchschnittlicher Verspätung sortiert ist (nicht nach Verkehrsmenge). Große Knoten haben zwar sehr viel Betrieb, tauchen aber nicht automatisch ganz oben auf. Kleinere Stationen können in so einer Rangliste weit oben landen, wenn sie auf einem Abschnitt liegen, auf dem Verspätungen regelmäßig „mitgeschleppt“ werden und dann bei vielen Halten sichtbar werden – ohne dass der Bahnhof selbst zwingend der Hauptengpass ist.


Wo treffen viele Pendler auf eine unpünktliche Bahn?

Bisher haben Sie Pendler- und Bahndaten getrennt betrachtet. Aber die spannende Frage ist: Wo kommen beide Probleme zusammen? Eine Stadt mit vielen Pendlern und einer unpünktlichen Bahn hat ein größeres Problem als eine Stadt mit wenigen Pendlern und einer unpünktlichen Bahn.

Um diese Frage zu beantworten, müssen Sie die Datensätze verknüpfen. Das Problem: Die Bahndaten sind auf Bahnhofsebene, die Pendlerdaten auf Kreisebene. Sie benötigen ein Mapping, das Bahnhöfe den entsprechenden Kreisen zuordnet.

  1. In dieser Aufgabe verknüpfen Sie die Bahn- und Pendlerdaten, um Städte mit Handlungsbedarf zu identifizieren. Nutzen Sie für ihre Analysen die Datensätze: bahn, pendler und bahnhof_mapping.

Das Mapping ordnet Bahnhöfe ihrem Landkreis zu (via AGS = Amtlicher Gemeindeschlüssel). Ihr Ziel: Identifizieren Sie Städte, in denen viele Pendler auf eine unpünktliche Bahn treffen.

\[\text{Problem-Score} = z(\text{Einpendler}) + z(\text{Verspätung})\]

Die z-Standardisierung macht die Werte vergleichbar: \(z(x) = \frac{x - \bar{x}}{s_x}\), wobei \(\bar{x}\) der Mittelwert und \(s_x\) die Standardabweichung ist.

Interpretation: Ein hoher Problem-Score = Viele Pendler + hohe Verspätung = Handlungsbedarf.

Anschließend sollten Sie eine Tabelle der Top 10 Städte nach Problem-Score darstellen und diese kurz beschreiben.


Städte mit größtem Handlungsbedarf: Viele Pendler & unpünktliche Bahn
Stadt AGS Anzahl Einpendler Gewichtete Verspätung (Min) Halte total Problem Score
München 09162 455.645 6,0 55.032 3,5
Köln 05315 306.905 7,9 29.204 3,1
Düsseldorf 05111 284.696 7,3 42.508 2,5
Frankfurt 06412 405.856 5,1 56.182 2,5
Berlin 11000 392.324 4,7 44.757 2,2
Hamburg 02000 392.951 4,4 57.256 2,1
Duisburg 05112 86.735 8,8 24.070 1,5
Hamm 05915 22.447 9,9 11.558 1,4
Stuttgart 08111 274.442 5,3 46.961 1,4
Bonn 05314 112.607 8,0 8.087 1,3

Die Tabelle listet die problematischsten Städte/Kreise (über den AGS) auf, in denen viele Einpendler und eine unpünktliche Bahn zusammenkommen. Dafür werden die Bahn- und Pendlerdaten zusammengeführt: Pro Stadt wird die Anzahl der Einpendler gezeigt sowie die gewichtete durchschnittliche Verspätung (in Minuten). Gewichtet bedeutet hier: Die durchschnittliche Verspätung wird nicht einfach über Bahnhöfe gemittelt, sondern nach der Anzahl der Halte gewichtet, sodass Bahnhöfe mit vielen Halten stärker in den Kreiswert eingehen als Bahnhöfe mit wenigen Halten. Zusätzlich sind Halte total enthalten, um einzuordnen, wie „viel Bahnverkehr“ in die Berechnung eingeflossen ist.
Der Problem-Score kombiniert die beiden zentralen Dimensionen (Einpendler und Verspätung) zu einer Kennzahl, indem beide Größen zuerst per z-Standardisierung vergleichbar gemacht werden (Abstand vom Mittelwert geteilt durch Standardabweichungen) und dann addiert werden: Problem-Score = z(Einpendler) + z(Verspätung).

Je höher der Score, desto größer der Handlungsbedarf, weil dann überdurchschnittlich viele Pendler auf überdurchschnittliche Verspätungen treffen. In den Ergebnissen liegt München ganz vorne (höchster Problem-Score), vor allem wegen der sehr hohen Einpendlerzahl bei gleichzeitig merkbarer Verspätung. Köln und Düsseldorf folgen, hier treffen ebenfalls viele Pendler auf relativ hohe Verspätungen. Frankfurt, Berlin und Hamburg liegen ebenfalls weit oben, hauptsächlich, weil sie große Pendlerströme haben, auch wenn die Verspätungen dort im Vergleich zu manchen anderen Städten etwas niedriger sind. Interessant ist außerdem, dass Städte wie Duisburg, Hamm oder Bonn teils höhere Verspätungen aufweisen, aber wegen deutlich geringerer Einpendlerzahlen insgesamt einen niedrigeren Problem-Score erreichen.


  1. Erstellen Sie ein Streudiagramm (Scatterplot), das die Beziehung zwischen Einpendlerzahl (x-Achse) und durchschnittlicher Verspätung (y-Achse) visualisiert.

Beschreiben und Interpretieren Sie die vier Quadranten:

Beantworten Sie dabei auch folgende Fragen:


Die Grafik setzt Einpendlerzahl (x-Achse, logarithmisch skaliert) in Beziehung zur gewichteten durchschnittlichen Verspätung (y-Achse). Die gestrichelten Linien markieren jeweils den Mittelwert beider Variablen (hier ca. 109.137 Einpendler und 5,6 Minuten). Dadurch entstehen vier Quadranten, die man wie folgt interpretieren kann:

Oben rechts (viele Pendler + hohe Verspätung)
Das ist der kritischste Quadrant: Viele Menschen sind betroffen und die Bahn ist vergleichsweise unzuverlässig. Hier besteht der größte Handlungsdruck, weil kleine Verbesserungen schon sehr viele Pendler entlasten. In deiner Grafik liegen hier vor allem München, Köln und Düsseldorf (alle rechts vom Einpendler-Mittelwert und über dem Verspätungs-Mittelwert).

Oben links (wenige Pendler + hohe Verspätung)
Hier gibt es deutliche Zuverlässigkeitsprobleme, aber sie betreffen weniger Pendler. Das deutet oft auf lokale/regionale Störungen oder “Problemkorridore” hin (z. B. Baustellen, Engpässe, einzelne Linien). Maßnahmen lohnen sich, haben aber insgesamt weniger gesellschaftliche Wirkung als oben rechts.

Unten rechts (viele Pendler + niedrige Verspätung)
Das ist im Grunde ein “funktioniert relativ gut”-Quadrant: Viele Pendler, aber die Verspätungen liegen unter dem Durchschnitt. In deiner Grafik sind z. B. Frankfurt, Berlin, Hamburg und Stuttgart eher hier einzuordnen (hohe Einpendlerzahlen, aber Verspätung unter dem Mittelwert).

Unten links (wenige Pendler + niedrige Verspätung)
Geringer Problemdruck: Wenige Betroffene und gleichzeitig relativ geringe Verspätungen. Das sind keine Prioritätsfälle, außer es gibt strategische Gründe (z. B. Anschlussknoten, Umleiterstrecken).


Warum ist es sinnvoll, die x-Achse zu logarithmieren?
Die Einpendlerzahlen unterscheiden sich stark (Zehntausende bis mehrere Hunderttausend). Auf einer linearen Achse würden große Städte alles “zusammendrücken”, sodass man Unterschiede bei kleineren/mittleren Kreisen kaum noch erkennt. Eine log-Skala komprimiert große Werte und “zieht” kleinere Werte auseinander, dadurch werden Muster und Quadranten deutlich besser sichtbar. (Wichtig: Die Achsenbeschriftung zeigt trotzdem die Originalwerte, nur die Abstände entsprechen einer log-Skalierung.)

Welche Städte liegen im kritischen Quadranten?
Der kritische Quadrant ist oben rechts. In unserer Grafik sind das insbesondere: München, Köln und Düsseldorf (hohe Einpendlerzahlen und überdurchschnittliche gewichtete Verspätung). Das sind damit die naheliegendsten Prioritätsfälle.

Was würden Sie der Deutschen Bahn empfehlen?
Priorisierung nach “Wirkung”: Zuerst dort ansetzen, wo viele Pendler betroffen sind und die Verspätung hoch ist (oben rechts: v. a. München/Köln/Düsseldorf).
Engpass- und Betriebsanalyse auf Korridorebene: Nicht nur “Stadt”, sondern die relevanten Zulaufstrecken und Knoten identifizieren (typisch: Überlastung in Spitzenzeiten, Baustellen, konfliktträchtige Einfädelungen).
Maßnahmenmix: kurzfristig (Betriebsstabilität, Puffer/Disposition, Baustellenmanagement, Fahrgastinfo) + mittelfristig (Kapazität/Signaltechnik/Weichen, Abstell- und Wendemöglichkeiten, zusätzliche Reserven).
Monitoring: Die gleiche Auswertung monatlich wiederholen, um zu prüfen, ob Maßnahmen messbar wirken und ob neue Problemräume entstehen.


Der Vergleich – Auto vs. Bahn

Sie haben nun identifiziert, wo die Bahn Probleme hat: Städte im kritischen Quadranten (viele Pendler + hohe Verspätungen) brauchen dringend Verbesserungen. Aber bevor Sie Empfehlungen aussprechen können, müssen Sie eine zentrale Frage beantworten:

Lohnt sich die Bahn überhaupt – oder ist das Auto trotz Stau schneller?

Denn selbst wenn die Bahn unpünktlich ist, könnte sie immer noch schneller sein als das Auto im Berufsverkehr. Umgekehrt: Eine pünktliche Bahn bringt wenig, wenn das Auto trotzdem schneller ist. Erst der direkte Vergleich zeigt uns, wo die Bahn wirklich konkurrenzfähig ist – und wo nicht.

Methodische Herausforderungen

Für einen fairen Vergleich sollten Sie “Äpfel mit Äpfeln” vergleichen:

  • Beim Auto muss der Stau berücksichtigt werden (nicht nur die theoretische Fahrzeit)
  • Bei der Bahn muss die Verspätung berücksichtigt werden (nicht nur der Fahrplan)
  • Beide Routen müssen dieselben Start- und Endpunkte haben

Für die Auto-Fahrtzeiten nutzen Sie OSRM (Open Source Routing Machine), das auf OpenStreetMap-Daten basiert. OSRM berechnet echte Straßenrouten, keine Luftlinien.

  1. Erklären Sie in eigenen Worten:
  • Warum ist OSRM-Routing für diesen Vergleich besser geeignet als eine einfache Berechnung nach der Formel Distanz / Geschwindigkeit?
  • Welche Faktoren müssen zusätzlich berücksichtigt werden, um einen realistischen Vergleich zu ermöglichen? Denken Sie an:
    • Tageszeit
    • Parkplatzsuche
    • Fußweg zum Ziel
    • Wartezeit und Umsteigen bei der Bahn

Die einfache Formel Distanz / Geschwindigkeit ist für unseren Vergleich zu ungenau, da sie auf einer stark vereinfachten Darstellung der Streckenführung basiert, wichtige Einflussfaktoren des realen Verkehrs ignoriert und die Fahrzeit auf eine pauschale Duschschnittgeschwindigkeit reduziert. In der Realität hängt die Fahrzeit aber stark von der Netzdistanz (tatsächliches Straßennetz), der Straßenart (Stadtstraße, Landstraße, Autobahn), Knotenpunkten (Ampeln, Kreuzungen, Abbiegen) und typischen Verzögerungen ab. Dadurch können zwei ähnlich lange Strecken sehr unterschiedliche Fahrzeiten haben. OSRM ist für den Vergleich besser geeignet, weil es auf dem detaillierten Straßennetz von OpenStreetMap basiert und nicht nur eine Distanz liefert, sondern eine plausible Route inkl. modellierter Fahrzeit (unter Berücksichtigung der Straßenkategorien). Damit ist die Auto-Reisezeit deutlich realistischer als eine pauschale Rechnung mit Distanz/Ø-Geschwindigkeit.


Für einen fairen Vergleich reicht weder bei Auto noch bei Bahn die “reine Fahrzeit” aus, wichtig ist die Tür-zu-Tür-Zeit. Dazu gehören vor allem:

Tageszeit (Stoßzeiten): Beim Auto steigt die Fahrzeit im Berufsverkehr wegen Stau deutlich; bei der Bahn können zu Stoßzeiten Verspätungen/Überlastungen zunehmen.

Parkplatzsuche (Auto): Am Ziel (und manchmal auch am Start) kommt oft noch Zeit fürs Parken und die Parkplatzsuche dazu – das kann je nach Innenstadtlage spürbar sein.

Fußweg zum Ziel: Sowohl beim Auto (vom Parkplatz) als auch bei der Bahn (vom Bahnhof zur finalen Adresse) gehört der Fußweg zur Gesamtzeit.

Wartezeit und Umsteigen (Bahn): Die Bahn hat zusätzlich zur eigentlichen Fahrtzeit Wartezeit bis zur Abfahrt sowie ggf. Umstiege (inkl. Umsteigezeit und Risiko, Anschlüsse zu verpassen). Außerdem sollte man bei der Bahn nicht nur den Fahrplan, sondern typische Verspätungen berücksichtigen.

Wenn man diese Punkte mit einbezieht, vergleicht man nicht “Zug vs. Auto auf dem Papier”, sondern wirklich, was Pendler am Ende an Reisezeit erleben.


  1. Für die Top 10 Einpendler-Städte wurden typische Pendlerstrecken definiert (z.B. Dachau \(\rightarrow\) München, Neuss \(\rightarrow\) Düsseldorf). Die OSRM-Ergebnisse liegen bereits vor. Nutzen Sie für ihre Analyse den Datensatz fahrtzeit.

Erstellen Sie:

  • Eine Tabelle mit: Stadt, Strecke, Distanz (km), Auto-Fahrzeit (Hauptverkehrszeit), Bahn-Fahrzeit (real), Differenz
  • Berechnen Sie die jährliche Zeitersparnis bei 220 Arbeitstagen und 2x täglichem Pendeln.

Interpretieren Sie ihre Tabelle:

  • In wie vielen Fällen ist die Bahn schneller als das Auto?
  • Wie viele Stunden pro Jahr kann ein Pendler maximal sparen?
  • Gibt es Strecken, bei denen das Auto schneller ist? Woran könnte das liegen?

Auto vs. Bahn: Fahrzeiten & jährliche Zeitersparnis für typische Pendlerstrecken (220 Arbeitstage)
Stadt Strecke Distanz (km) Auto-Fahrtzeit (Hauptverkehrszeit) Bahn-Fahrzeit (real) Differenz Zeitersparnis pro Jahr (Std)
München Dachau → München 19,1 40,2 26,1 14,1 103,5
Frankfurt Darmstadt → Frankfurt 36,0 35,8 23,0 12,8 93,9
Hamburg Harburg → Hamburg 14,2 24,0 16,3 7,7 56,7
Berlin Potsdam → Berlin 34,2 49,3 29,6 19,7 144,6
Köln Leverkusen → Köln 18,3 28,7 22,8 5,9 43,3
Düsseldorf Neuss → Düsseldorf 12,1 27,1 17,1 10,0 73,3
Stuttgart Esslingen → Stuttgart 14,0 27,2 20,2 7,0 51,6
Nürnberg Fürth → Nürnberg 10,4 18,9 12,9 6,0 44,4
Essen Mülheim → Essen 11,0 18,0 15,3 2,7 20,1
Hannover Celle → Hannover 42,2 54,4 40,8 13,6 99,8
Ulm Neu-Ulm → Ulm 3,7 8,1 8,9 -0,8 -5,8

Die Tabelle vergleicht für die Top-Einpendler-Städte jeweils eine typische Pendlerstrecke und stellt die Auto-Fahrzeit in der Hauptverkehrszeit der Bahn-Fahrzeit (real) gegenüber. Die Spalte Differenz ist dabei als Auto (HVZ) minus Bahn (real) zu lesen: positive Werte bedeuten Zeitvorteil für die Bahn, negative Werte einen Vorteil fürs Auto. Aus dieser Minuten-Differenz wird anschließend die jährliche Zeitersparnis hochgerechnet (220 Arbeitstage, 2 Fahrten pro Tag) und in Stunden pro Jahr angegeben.

In wie vielen Fällen ist die Bahn schneller als das Auto? In 10 von 11 Fällen ist die Bahn schneller. Das erkennt man daran, dass die Differenz in nahezu allen Städten positiv ist (z. B. Berlin +19,7 Min, München +14,1 Min, Hannover +13,6 Min). Insgesamt deutet das darauf hin, dass die Bahn trotz realer Verspätungen auf vielen Pendlerstrecken in der Hauptverkehrszeit einen spürbaren Zeitvorteil haben kann, weil das Auto dort besonders stark durch Stau und Verkehrsfluss gebremst wird.

Wie viele Stunden pro Jahr kann ein Pendler maximal sparen? Die maximale Zeitersparnis zeigt Berlin mit 144,6 Stunden pro Jahr. Grundlage ist die größte Minuten-Differenz in der Tabelle (19,7 Minuten pro Fahrt) und die Hochrechnung auf das Jahr (2 Fahrten/Tag × 220 Tage). Auch in anderen Großstädten sind die Werte sehr hoch, z. B. München (103,5 h/Jahr), Hannover (99,8 h/Jahr) oder Frankfurt (93,9 h/Jahr). Praktisch heißt das: Schon ein scheinbar „kleiner“ Vorteil von 10–20 Minuten pro Fahrt summiert sich über das Jahr zu mehreren Arbeitswochen an Zeit.

Gibt es Strecken, bei denen das Auto schneller ist? Woran könnte das liegen? Ja, Ulm (Neu-Ulm → Ulm) ist der einzige Fall, in dem das Auto minimal schneller ist (−0,8 Min pro Fahrt, entsprechend −5,8 h/Jahr). Das lässt sich gut durch die sehr kurze Distanz (3,7 km) erklären: Auf kurzen Strecken hat das Auto oft einen direkten Weg und kurze Fahrzeit, während bei der Bahn selbst kleine Zeitanteile (z. B. Verzögerungen oder Umwege innerhalb der Verbindung) relativ stärker ins Gewicht fallen. Insgesamt zeigt dieser Ausreißer aber auch: Der Vorteil der Bahn ist nicht automatisch überall gegeben, besonders bei sehr kurzen, direkten Strecken kann das Auto (selbst in HVZ) gleichziehen oder leicht schneller sein.


  1. Da Sie alle in Ulm studieren und eventuell aus dem Ulmer Umland einpendeln, sollten Sie die 5 wichtigsten Pendlerrouten nach Ulm näher analysieren. Stellen Sie in einem Dumbbell-Chart (oder Lollipop-Chart) die Unterschiede zwischen Auto- und Bahnzeiten visuell dar. Nutzen Sie für ihre Analyse den Datensatz ulm_routen.

Die 5 wichtigsten Pendlerrouten nach Ulm sind:

  • Neu-Ulm \(\rightarrow\) Ulm
  • Blaustein \(\rightarrow\) Ulm
  • Ehingen \(\rightarrow\) Ulm
  • Laupheim \(\rightarrow\) Ulm
  • Langenau \(\rightarrow\) Ulm

Markieren Sie, welche Orte keinen Bahnhof haben.

Beschreiben und interpretieren Sie ihre Grafik. Welche Besonderheiten zeigen die ländlichen Strecken?

Hinweis: Nutzen Sie geom_segment() und geom_point() für ihr Dumbbell-Chart oder Lollipop-Chart.


Die Grafik zeigt für fünf wichtige Pendelrouten nach Ulm jeweils zwei Fahrzeiten: Auto in der Hauptverkehrszeit (schwarzer Punkt) und Bahn (real) (grüner Punkt). Die horizontale Linie verbindet beide Werte pro Route; die Zahl darüber ist die Differenz Auto − Bahn (positiv = Bahn ist schneller, negativ = Auto ist schneller). In 4 von 5 Fällen liegt die Bahn vor dem Auto: Neu-Ulm (+0,7 Min), Laupheim (+2,2 Min), Langenau (+11,0 Min) und Ehingen (+8,0 Min). Nur bei Blaustein (kein Bahnhof) ist das Auto schneller (−1,6 Min).

Insgesamt spricht die Grafik klar dafür, dass sich die Bahn gerade auf (eher) ländlichen Pendelstrecken häufig lohnt, vor allem dann, wenn die Alternative “Auto in der HVZ” spürbar langsamer wird. Das sieht man besonders deutlich bei Langenau (+11 Min) und Ehingen (+8 Min): Hier ist der Bahn-Vorteil nicht nur “ein paar Minuten”, sondern groß genug, dass er im Alltag wirklich ins Gewicht fällt (und sich über viele Pendeltage stark aufsummiert). Der Grundgedanke dahinter: Auf längeren Einpendelstrecken aus dem Umland kann die Bahn, trotz realer Verspätungen, oft konstanter und damit im Schnitt schneller sein, während sich beim Auto die Fahrzeit in der HVZ schnell nach oben schiebt (Stau, stockender Verkehr, Knotenpunkte Richtung Ulm).
Gleichzeitig zeigt die Grafik aber auch, dass der Vorteil nicht automatisch gilt, sondern stark von der Anbindung abhängt. Das Beispiel Blaustein ist dafür super lehrreich: Es ist explizit als „kein Bahnhof“ markiert, und genau das erklärt, warum hier das Auto leicht vorne liegt (−1,6 Min). Wenn kein Bahnhof direkt vor Ort ist, entstehen zusätzliche „Zubringerkosten“ (z. B. erst mit Bus/Auto zum nächsten Bahnhof, mehr Umsteigen, Wartezeiten). Diese Zusatzzeit kann bei kurzen Distanzen den eigentlichen Bahn-Vorteil komplett aufessen, selbst wenn die Bahnfahrt an sich nicht langsam wäre. Blaustein steht damit stellvertretend für viele ländliche Orte: Nicht die Zugfahrt ist das Problem, sondern die letzte/erste Meile. Umgekehrt unterstreichen die anderen Routen, dass ländliche Strecken mit guter Schienenanbindung (direkte Verbindung oder kurzer Zubringer, brauchbarer Takt) besonders profitieren: Dann wird die Bahn im Vergleich zum Auto in der HVZ oft zur schnelleren und planbareren Option.


Die volkswirtschaftlichen Kosten

Verspätungen kosten nicht nur Nerven, sie haben einen realen volkswirtschaftlichen Preis. Jede Minute, die ein Pendler im verspäteten Zug wartet, ist verlorene Arbeitszeit.

Um diese Kosten etwas besser zu quantifizieren sollten Sie sich den Medianlohn der jeweiligen Städte herunterladen und näher analysieren.

  1. Berechnen Sie die volkswirtschaftlichen Kosten der Bahnverspätungen für die 11 Städte.

Datensätze:

Nutzen Sie die folgenden Annahmen:

Annahmen:

Berechnen Sie für jede Stadt:

Erstellen Sie auf Basis ihrer Berechnung eine Tabelle, welche die Anzahl der Bahnpendler, die Verspätungsstunden pro Jahr, die Kosten pro Pendler und die Gesamtkosten der Stadt anschaulich darstellt.

Beschreiben und interpretieren Sie ihre Tabelle. Gehen Sie dabei auch auf die Gesamtkosten der 11 Städte ein. Erklären Sie außerdem, warum der Medianlohn für diese Berechnung besser geeignet ist als der Durchschnittslohn.

Hinweis: Für die Umrechnung auf Stundenlohn: Monatsentgelt / 160 (bei 40h/Woche).


Volkswirtschaftliche Kosten der Bahnverspätungen
(Annahmen: 220 Arbeitstage, 2 Fahrten/Tag, 8,4% Bahnnutzung)
Stadt Bahnpendler (8,4%) Verspätungsstunden/Jahr Kosten pro Pendler/Jahr Gesamtkosten/Jahr
München 38.274 43,9 1.328,78 € 50.857.934 €
Köln 25.780 57,9 1.590,62 € 41.006.294 €
Frankfurt 34.092 37,7 1.111,06 € 37.878.234 €
Düsseldorf 23.914 53,8 1.519,95 € 36.348.812 €
Hamburg 33.008 32,6 922,13 € 30.437.681 €
Berlin 32.955 34,5 895,47 € 29.510.477 €
Stuttgart 23.053 38,9 1.138,56 € 26.247.450 €
Essen 11.869 54,6 1.361,04 € 16.153.949 €
Nürnberg 13.902 37,1 980,73 € 13.633.810 €
Hannover 11.586 43,8 1.137,85 € 13.182.690 €
Ulm 5.741 29,5 795,32 € 4.565.660 €
Summe (11 Städte) 299.822.991 €

Die Tabelle quantifiziert die volkswirtschaftlichen Kosten von Bahnverspätungen für 11 Städte auf Basis der Annahmen 220 Arbeitstage, 2 Fahrten pro Tag (Hin & Zurück) und 8,4 % Bahnnutzung. Angegeben sind die geschätzte Zahl der Bahnpendler (8,4 % der Einpendler), die daraus abgeleiteten Verspätungsstunden pro Jahr pro Pendler (aus der durchschnittlichen Verspätung je Stadt hochgerechnet), die Kosten pro Pendler und Jahr (Verspätungsstunden × Stundenlohn) sowie die Gesamtkosten pro Jahr (Bahnpendlerinnen × Kosten pro Pendler). Die Verspätungsstunden/Jahr reichen dabei von 29,5 h (Ulm) bis 57,9 h (Köln). Die Kosten pro Pendler/Jahr liegen zwischen 795,32 € (Ulm) und 1.590,62 € (Köln). In den Gesamtkosten/Jahr führt München mit 50.857.934 €, gefolgt von Köln (41.006.294 €), Frankfurt (37.878.234 €) und Düsseldorf (36.348.812 €); am unteren Ende liegt Ulm mit 4.565.660 €. Über alle 11 Städte zusammen ergeben sich damit Gesamtkosten von rund 300 Mio. € pro Jahr.

Inhaltlich zeigt die Tabelle sehr klar: Die Gesamtkosten werden von zwei Faktoren “getrieben”, wie viele Menschen betroffen sind (Bahnpenderinnen = 8,4 % der Einpendler) und, wie teuer eine verlorene Stunde ist (Medianlohn → Stundenlohn) und wie viele Verspätungsstunden pro Jahr anfallen. Deshalb können große Städte wie München trotz “nur” 43,9 h Verspätungsstunden/Jahr pro Pendler an der Spitze landen: Es gibt dort sehr viele Bahnpendler und der Stundenlohn ist hoch, wodurch sich die Kosten pro Pendler (1.328,78 €) und damit die Gesamtsumme stark aufaddieren. Köln sticht besonders heraus, weil dort die Verspätungsstunden pro Jahr am höchsten sind (57,9 h) und gleichzeitig die Kosten pro Pendler ebenfalls sehr hoch liegen (1.590,62 €), das erklärt, warum Köln trotz weniger Bahnpenderinnen als München insgesamt auf 41,0 Mio. € kommt. Umgekehrt zeigt Ulm, dass die Gesamtkosten bei kleineren Städten vor allem durch eine kleinere Pendlerbasis begrenzt sind (5.741 Bahnpenderinnen), selbst wenn Verspätung natürlich trotzdem spürbar bleibt. Über alle 11 Städte summieren sich die ausgewiesenen Kosten auf rund 300 Mio. € pro Jahr, und das ist wohlgemerkt eine Rechnung unter konservativen Annahmen (nur Arbeitswege, nur 8,4 % Bahnnutzung, Durchschnittswerte).

Der Medianlohn ist für diese Rechnung besser geeignet als der Durchschnittslohn, weil Einkommen typischerweise stark schief verteilt sind: Einige sehr hohe Einkommen ziehen den Durchschnitt nach oben, obwohl sie “typische” Pendlerrealität nicht gut repräsentieren. Der Median beschreibt dagegen den typischen mittleren Wert (50 % verdienen weniger, 50 % mehr) und ist robuster gegenüber Ausreißern. Damit sind die berechneten Zeitkosten pro Pendler realistischer (und meist auch vorsichtiger), während der Durchschnittslohn die volkswirtschaftlichen Kosten je nach Stadt schneller überschätzen könnte.


  1. Setzen Sie die Kosten der Bahn (aus Aufgabe 14) den Kosten des Autos gegenüber. Vergleichen Sie diese in einer Szenario-Analyse mittels eines gestapelten Balkendiagramms. Nutzen Sie für ihre Analysen den Datensatz staedte_basis.

Berechnen Sie zuerst die Kosten des Autostaus pro Stadt:

Führen Sie anschließend einen Szenario-Vergleich durch: Was passiert, wenn der Bahnanteil von 8,4% auf 20% steigt?

Erstellen Sie ein gestapeltes Balkendiagramm nach Szenario. Beschreiben und intepretieren Sie ihre Grafik. Gehen Sie insbesondere auf die folgenden Fragen ein:


Die Grafik zeigt für 11 Städte die jährlichen volkswirtschaftlichen Zeitkosten, aufgeteilt in Autostau-Kosten (Auto) und Bahnverspätungs-Kosten (Bahn), jeweils als gestapelte horizontale Balken. Oben ist der Status quo (8,4% Bahnanteil) dargestellt, unten ein Szenario mit 20% Bahnanteil (und der Annahme: weniger Autos → weniger Stau). Man sieht in beiden Panels, dass die Gesamtkosten stark zwischen den Städten variieren: Große Städte haben deutlich längere Balken als kleinere. Gleichzeitig verschieben sich im Szenario die Anteile: Der Auto-Anteil wird sichtbar kleiner, während der Bahn-Anteil größer wird.

Im Status quo verteilen sich die Kosten klar zugunsten des Autos: Der Auto-Balken dominiert in praktisch allen Städten, während der Bahn-Anteil vergleichsweise klein bleibt. Über alle 11 Städte hinweg ergibt sich im 20%-Bahn Szenario eine Nettoersparnis von rund 0,88 Mrd. € pro Jahr (Status quo -> Szenario). Das beantwortet auch die zweite Frage: In dieser Gegenüberstellung verursacht das Auto (über Stauzeit) den deutlich größeren volkswirtschaftlichen Schaden als die Bahnverspätungen, nicht unbedingt, weil Bahnverspätungen “egal” wären, sondern weil der Stau bei sehr vielen Menschen anfällt und sich so massiv aufsummiert. Im 20%-Bahn-Szenario wird der Bahn-Kostenblock zwar größe, aber die Auto-Kosten sinken gleichzeitig deutlich durch die angenommene Stau-Entlastung. Netto sind die Gesamtbalken im Szenario (20% Bahn) sichtbar kürzer, die Nettoersparnis entsteht also dadurch, dass die Einsparung beim Autostau die zusätzlichen Bahn-Kosten überkompensiert. Wichtig ist dabei: Diese Ersparnis hängt an zwei Stellhebeln: erstens wie stark weniger Autoverkehr den Stau wirklich reduziert und zweitens ob die Bahn das zusätzliche Nachfragewachstum ohne überproportional steigende Verspätungen verkraftet. Genau deshalb legt die Grafik nahe: Eine Verlagerung hin zur Bahn kann volkswirtschaftlich lohnen, wenn parallel Zuverlässigkeit und Kapazitäten stabilisiert bzw. verbessert werden.


Politikempfehlung – Ihre Synthese

Sie haben nun umfangreiche Analysen durchgeführt und viele Erkenntnisse über die Bahn gewonnen. Jetzt ist es Zeit, diese zu einer kohärenten Empfehlung zusammenzufügen.

Szenario: Sie sind Berater:in des Bundesministeriums für Digitales und Verkehr. Die Ministerin bittet Sie um eine evidenzbasierte Politikempfehlung zur Verbesserung des Pendlerverkehrs in Deutschland.

  1. Formulieren Sie eine Politikempfehlung für das Bundesministerium für Digitales und Verkehr.

Schreiben Sie eine Executive Summary (max. 5 Sätze). Fassen Sie hierbei die wichtigsten Erkenntnisse aus ihrem Projekt zusammen. Was ist die zentrale Botschaft?

Formulieren Sie 3 konkrete Empfehlungen. Jede muss enthalten:


Executive Summary (max. 5 Sätze)
Unsere Analysen zeigen ein klares Muster: In den größten Pendlerstädten konzentrieren sich sowohl die Probleme der Bahn (Verspätungen) als auch die volkswirtschaftlichen Kosten, gleichzeitig übersteigen die Staukosten des Autoverkehrs die Bahnverspätungskosten deutlich. Besonders auffällig ist, dass die Bahn auf vielen typischen Pendlerstrecken bereits heute zeitlich konkurrenzfähig ist (in den meisten Strecken ist sie schneller als das Auto in der HVZ) und im Raum Ulm auf mehreren ländlichen Strecken deutliche Zeitvorteile hat. Die höchsten Bahnverspätungskosten entstehen in den Metropolen (z. B. München ~50,9 Mio. €/Jahr, Köln ~41,0 Mio. €/Jahr, Düsseldorf ~36,3 Mio. €/Jahr), weshalb dort Pünktlichkeitsmaßnahmen besonders wirksam sind. Eine Verlagerung vom Auto zur Bahn kann zudem doppelt wirken: weniger Bahnverspätungskosten (durch bessere Qualität) und weniger Staukosten (durch weniger Autoverkehr). Zentrale Botschaft: Bahnqualität und Verkehrsverlagerung sind kein „Nice-to-have“, sondern ein großer wirtschaftlicher Hebel, vor allem in den hochbelasteten Knoten und auf ländlichen Pendlerachsen.


Empfehlung 1: Pünktlichkeitsoffensive in den hochbelasteten Knoten (kritischer Quadrant)

Ziel: Die „kritischen“ Städte mit vielen Pendlern und überdurchschnittlichen Verspätungen systematisch stabilisieren, um Verspätungskosten zu senken und Vertrauen zurückzugewinnen.

Messbare Maßnahme: Für die Top-Knoten (u. a. München, Köln, Düsseldorf, Frankfurt) ein verbindliches Programm „Pendlerspitze stabil“: gewichtete Ø-Verspätung in diesen Knoten innerhalb von 24 Monaten um mindestens 20% reduzieren (Monitoring monatlich; Zielwert z. B. „unter 5 Minuten“ als Zwischenziel, anschließend weiter senken). Operativ: priorisierte Instandhaltung in Nacht-/Nebenlagen, Engpass-Management (Signal-/Weichenstörungen), robuste Fahrpläne mit Puffern an Knoten, schnelle Störungsbehebung (Ersatzkonzepte).

Begründung mit Zahlen: Die volkswirtschaftlichen Bahnverspätungskosten sind in den großen Städten am höchsten: München ~50,9 Mio. €/Jahr, Köln ~41,0 Mio. €/Jahr, Düsseldorf ~36,3 Mio. €/Jahr, Frankfurt ~37,9 Mio. €/Jahr. Dort wirken Verbesserungen besonders stark, weil viele Bahnpendler betroffen sind und die Verspätungsstunden pro Jahr hoch ausfallen (z. B. Köln ~57,9 h/Jahr, Düsseldorf ~53,8 h/Jahr). Eine Reduktion der Verspätung dort hat daher einen deutlich größeren „Hebel“ als in kleineren Städten (Ulm ~4,6 Mio. €/Jahr).

Zwei Limitationen unserer Datengrundlage:
1. Die Verspätungen basieren auf Ihrem betrachteten Zeitraum (z. B. Monat/aktueller Snapshot) und können saisonal schwanken (Baustellen, Winter, Streiks).
2. Die Kostenrechnung bewertet Zeitverluste über Lohn (Medianlohn) – das ist plausibel, aber nicht jede „verlorene Minute“ entspricht real 1:1 Produktivitätsverlust.

Was wir mit zusätzlichen Daten noch untersuchen würden: Reale Pünktlichkeitsverteilungen nach Tageszeit/Linie (nicht nur Mittelwerte), Ursachenklassen (Signal, Fahrzeug, Infrastruktur, Anschlussverluste) sowie Kapazitäts- und Baustellenpläne, um Maßnahmen exakt an Engpässe zu koppeln.


Empfehlung 2: Pendlerverlagerung dort priorisieren, wo die Bahn bereits heute schneller ist, inklusive ländlicher Achsen

Ziel: Die Bahn als „Default“ für Pendlerwege stärken, wo sie schon jetzt Zeitvorteile bringt – besonders auf ländlichen Strecken, auf denen Stau/Einfallstraßen die Autonutzung unzuverlässig machen und die Bahn oft stabiler wirkt.

Messbare Maßnahme: Paket aus (a) Takt-/Anschlussverbesserung in Pendlerkorridoren, (b) einfache „letzte Meile“ (Buszubringer, Bike+Ride, Park+Ride), (c) Pendler-Tickets/Jobticket-Offensive mit Arbeitgebern. Als KPI: auf den identifizierten Relationen Anteil Bahnpendler messbar erhöhen (z. B. +X Prozentpunkte in 12–24 Monaten), plus Anschluss-/Takt-Kennzahlen (z. B. maximale Wartezeit, verpasste Anschlüsse).

Begründung mit Zahlen: In unserem Auto-vs.-Bahn-Vergleich ist die Bahn in 10 von 11 Top-Pendlerstrecken schneller als das Auto (HVZ) – mit sehr großen jährlichen Zeiteffekten: z. B. Potsdam → Berlin: ~144,6 h/Jahr, Dachau → München: ~103,5 h/Jahr (bei 220 Arbeitstagen und 2 Fahrten/Tag). Auch in unserer Ulm-Detailanalyse zeigen mehrere ländlich geprägte Strecken deutliche Vorteile für die Bahn (z. B. Langenau → Ulm Hbf: +11,0 min, Ehingen → Ulm Hbf: +8,0 min, Laupheim → Ulm Hbf: +2,2 min), was die These stützt: gerade im Umland kann die Bahn zeitlich stark konkurrenzfähig sein. Sonderfall Blaustein (kein Bahnhof): Unsere Grafik zeigt hier eine negative Differenz (−1,6 min), also einen Vorteil fürs Auto – das passt dazu, dass fehlende Schienenanbindung die Bahn „künstlich“ unattraktiv macht (zusätzlicher Umweg/Umstieg/Zubringer). Politisch wäre das ein klarer Hinweis: Wenn Orte ohne Bahnhof in der Region eingebunden werden sollen, braucht es verlässliche Zubringer (Expressbus zum nächsten Bahnhof/Ulm Hbf, integrierte Tickets, abgestimmte Anschlüsse) oder langfristig eine infrastrukturelle Lösung, statt nur am Zugverkehr „im Kern“ zu drehen.

Zwei Limitationen unserer Datengrundlage:
1. Die Ergebnisse sind nur bedingt generalisierbar, weil die Analyse auf einer Auswahl (Top-Einpendlerstädte und „typische“ Pendelrouten) basiert. Diese Routen sind nicht zwingend repräsentativ für alle Pendlerbeziehungen (z. B. andere Start-/Zielpunkte innerhalb einer Stadt, unterschiedliche Linien, regionale Unterschiede). Dadurch können die geschätzten Zeitvorteile und Kosten systematisch über- oder unterschätzt sein.
2. OSRM/Autofahrzeiten sind modellierte Werte und können je nach Tageszeit/Unfällen stark variieren – reale Traffic-Daten würden die Unsicherheit reduzieren.

Was wir mit zusätzlichen Daten noch untersuchen würden: Tür-zu-Tür-Pendlerzeiten (inkl. Zubringer), Auslastung/Überfüllung, Anschlussqualität (verpasste Anschlüsse) und reale Modal-Split-Daten je Korridor, um gezielt dort zu investieren, wo Verlagerung tatsächlich realistisch ist.


Empfehlung 3: Gesamtwirtschaftlich denken: Staukosten senken durch Verlagerung + Nachfrage-Management (Nettoeffekt zählt)

Ziel: Den volkswirtschaftlichen Gesamtschaden (Bahn + Auto) minimieren – nicht nur einen Modus „optimieren“. Fokus: weniger Stauzeit im Auto durch Verlagerung und kluge Steuerung, parallel Bahn stabilisieren, damit Verlagerung dauerhaft gelingt.

Messbare Maßnahme: Zielkorridor „Bahnanteil rauf, Stau runter“ in Metropolregionen: (a) Bahnanteil schrittweise Richtung 20% in Pendlerstrecken, (b) flankierend stauwirksame Maßnahmen (ÖPNV-Vorrang, Parkraummanagement, Arbeitgeber-Mobilitätsbudgets, flexible Arbeitszeiten), (c) Ziel-KPI: Stau-Stunden/Jahr pro Autopendler messbar senken (z. B. −20%).

Begründung mit Zahlen: Die Stauzeiten liegen in den betrachteten Städten bei 30 bis 67 Stunden/Jahr pro Pendler (z. B. Köln 67 h, Düsseldorf 63 h, Berlin/Stuttgart 60 h, München 57 h). Bewertet mit den städtischen Medianstundenlöhnen (ca. ~25–30 €/h) entsteht allein dadurch ein sehr großer Kostendruck, der in der Größenordnung deutlich über den Bahnverspätungskosten liegt (die in Ihrer Tabelle im zweistelligen Millionenbereich pro Stadt liegen, z. B. München ~50,9 Mio. €/Jahr). Unter unserer Szenario-Logik (höherer Bahnanteil + weniger Stau pro Autopendler) ergibt sich deshalb ein klarer Nettohebel: ein Teil der Mehrkosten durch zusätzliche Bahnnutzung wird durch stark sinkende Staukosten überkompensiert – genau diese Logik zeigt unsere Szenario-Grafik.

Zwei Limitationen unserer Datengrundlage:
1. Der Zusammenhang „weniger Autos → weniger Stau“ ist nicht strikt linear; die angenommene Reduktion (z. B. −20% Stauzeit) ist eine Modellannahme und hängt von Netzengpässen ab.
2. Das Modell betrachtet im Kern Bahn vs. Auto und vereinfacht andere Modi (Bus, Rad, Homeoffice) – reale Verlagerung ist vielfältiger.

Was wir mit zusätzlichen Daten noch untersuchen würden: Verkehrsflussdaten/Staunetz-Engpässe (wo entsteht Stau wirklich?), reale Modal-Split-Verläufe nach Maßnahmen, sowie empirische Elastizitäten (wie stark sinkt Stau bei X% weniger Kfz), um das Szenario kausal robuster zu machen.


Zusatzaufgaben (optional)

Bisher haben Sie zwei Dimensionen betrachtet: Zeit (Bahn ist schneller) und Geld (Verspätungen kosten). Aber es gibt einen dritten, oft vergessenen Aspekt: die Umwelt.

Das Auto ist nicht nur langsamer und teurer; es ist auch ein Klimakiller. Ein durchschnittlicher PKW emittiert z.B. etwa 150 g CO2 pro Personenkilometer.

  1. Recherchieren Sie die CO2-Emissionsfaktoren und das Mobilitätsverhalten:

Hinweis: Nutzen Sie Daten vom Umweltbundesamt oder dem DB Umweltbericht.


CO2-Emissionsfaktoren nach Verkehrsmittel (Richtwerte; Quelle: UBA/DB bitte eintragen)
Verkehrsmittel CO2-Emissionen (g CO2e / Person-km)
PKW (Durchschnitt) 164
PKW (Elektro, deutscher Strommix) 70
ICE/IC (Fernverkehr) 26
RE/RB (Nahverkehr) 44
S-Bahn 42

Die Tabelle zeigt CO₂-Emissionsfaktoren (in g CO₂e pro Person-km) für verschiedene Verkehrsmittel. Man sieht, dass der PKW (Durchschnitt) die höchsten Emissionen verursacht, während die Bahn – sowohl im Fernverkehr (ICE/IC) als auch im Nahverkehr (RE/RB, S-Bahn) – deutlich niedrigere Werte aufweist.

Wenn 70% der Bahn-Pendler Nahverkehr (RE/RB) und 30% Fernverkehr (ICE/IC) nutzen, ergibt sich für die Bahn ein gewichteter Durchschnitt von 38,6 g CO2e/Person-km. Verglichen mit dem durchschnittlichen PKW (164 g) sind die Bahn-Emissionen damit um rund 76,9% niedriger. Das heißt: Selbst wenn man die Bahn als Mix aus Nah- und Fernverkehr betrachtet, liegt sie beim CO2-Ausstoß pro Person-km deutlich unter dem Auto, und sogar klar unter einem E-Auto im deutschen Strommix (70 g). (Die Werte sind Richtwerte und können je nach Auslastung, Fahrzeugtyp und Strommix variieren.)

Quelle: https://www.umweltbundesamt.de/system/files/medien/366/bilder/dateien/vtv_2024_pv_tab_pdf.pdf


  1. Die Studie “Mobilität in Deutschland” (MiD 2023) ist die wichtigste Datenquelle zum Mobilitätsverhalten in Deutschland. Sie ermöglicht einen Vergleich mit 2017 (vor Corona).

Lesen Sie den MiD 2023 Kurzbericht und beantworten Sie:


Modal Split (ÖV-Anteil 2017 vs. 2023)
Der MiD-Kurzbericht zeigt für den öffentlichen Verkehr (ÖV) einen leichten Anstieg: Der ÖV-Anteil am gesamten Verkehrsaufkommen steigt von 10 % (2017) auf 11 % (2023). Insgesamt bleibt der motorisierte Individualverkehr zwar dominant, geht aber anteilig etwas zurück.

Homeoffice-Effekt (Tagesstrecke & Hauptgrund)
Die durchschnittliche Tagesstrecke sinkt im Zeitvergleich deutlich: Sie reduziert sich von knapp 40 km pro Person und Tag (2017) auf rund 35 km (2023).
Als Hauptgrund nennt der Bericht strukturelle Veränderungen im Alltag – insbesondere Entwicklungen rund um Homeoffice und mehr Online-Aktivitäten, die Wege (v. a. Pendelwege) teilweise ersetzen oder verkürzen.

Stadt vs. Land (Deutschlandticket & Bedeutung für die Ulm-Region)
Im Kurzbericht wird das Deutschlandticket als wichtiger Faktor genannt, weil es die „Tickethürde“ stark senkt: Im Einführungsjahr 2023 geben Personen ab 14 Jahren das Deutschlandticket als übliches Ticket an (im Bericht als rund „1-“ % ausgewiesen). Gleichzeitig sagen 31 %, dass sie Bus und Bahn in ihrer Region gar nicht in Anspruch nehmen – hier bleibt also deutliches Potenzial.
Für den Stadt-Land-Kontrast liefert der Bericht außerdem einen zentralen Hinweis zur Ausgangslage:
- In Metropolen haben vier von zehn Haushalten kein Auto.
- In sehr ländlichen Regionen verfügen mehr als 90 % der Haushalte über mindestens einen Pkw (über 40 % sogar über zwei oder mehr).

Bedeutung für die Ulm-Region (Interpretation aus den Befunden): Ulm ist keine Metropole und hat ein großes Umland mit hoher Auto-Verfügbarkeit. Damit kann das Deutschlandticket zwar helfen (Preis/Einfachheit), aber die tatsächliche Verlagerung hängt in Ulm besonders stark davon ab, ob das Angebot im regionalen ÖPNV/SPNV (Takt, Zuverlässigkeit, Anschlüsse ins Umland) attraktiv genug ist – denn genau solche „Leistungsdefizite“ können trotz Ticket-Vorteil die Nutzung bremsen.

Implikation für CO₂ (2–3 Sätze)
Weil der ÖV-Anteil am Modal Split leicht steigt (10 % → 11 %) und gleichzeitig die Tagesstrecke sinkt, entsteht grundsätzlich ein günstigeres Umfeld für Emissionsminderungen. Das größte zusätzliche CO₂-Einsparpotenzial liegt dort, wo heute viel mit dem Auto gefahren wird (vor allem im Umland/ländlichen Raum): Wenn Bahn/ÖPNV dort verlässlicher und dichter wird, kann das Deutschlandticket als „niedrige Zugangshürde“ den Umstieg stärker auslösen als in Regionen, in denen Bus und Bahn ohnehin schon gut genutzt werden.


  1. Berechnen Sie die CO2-Ersparnis für die 11 analysierten Städte.

Datensatz: co2_analyse (aus Aufgabe 4) – enthält Streckenlängen, Einpendlerzahlen und vorberechnete Werte

Annahmen:

Berechnen Sie für jeden Umsteiger (Auto \(\rightarrow\) Bahn):

Nun sollten Sie eine Szenario Analyse ähnlich wie in Aufgabe 15 durchführen: Wenn sich der Bahnanteil von 8,4% auf 20% erhöht: wie viele Tonnen CO2 würden in den 11 Städten jährlich eingespart?

Visualisieren Sie die CO2-Ersparnis pro Stadt.

Stellen Sie die Ersparnis in Kontext, um die Ersparnis greifbarer zu machen, z.B. wie viele Mallorca-Flüge (hin + zurück, ~750 kg CO2) entspricht das?


Durch den Anstieg des Bahnanteils von 8,4% auf 20% ergibt sich in den 11 betrachteten Städten eine gesamte CO₂-Ersparnis von 339.416 t pro Jahr. Um diese Größenordnung greifbarer zu machen, kann man sie mit Flugreisen vergleichen: Bei einem Richtwert von ~750 kg CO₂ pro Mallorca-Flug (Hin- und Rückflug) entspricht die Einsparung ungefähr 452.554 Mallorca-Flügen pro Jahr. Anders gesagt: Allein durch den Umstieg eines zusätzlichen Teils der Pendler:innen vom Auto auf die Bahn ließe sich eine CO₂-Menge vermeiden, die in der Größenordnung von hunderttausenden Urlaubsflügen liegt.


Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (bahnhof_ags_mapping.csv)

Dieses Mapping ist essenziell für die Verknüpfung von Bahn- und Pendlerdaten. Die Bahndaten sind auf Bahnhofsebene (z.B. “München Hbf”), die Pendlerdaten auf Kreisebene (z.B. “München, Landeshauptstadt”). Der AGS (Amtlicher Gemeindeschlüssel) ist der Schlüssel, der beide Welten verbindet.

Wichtige Variablen:

  • station_name: Name des Bahnhofs
  • ags: Amtlicher Gemeindeschlüssel (5-stellig für Kreise)
  • kreis_name: Name des Landkreises/der kreisfreien Stadt

2. Fahrtzeit-Vergleich OSRM (fahrtzeit_osrm_vergleich.csv)

Für einen fairen Vergleich Auto vs. Bahn brauchen wir realistische Fahrtzeiten. OSRM (Open Source Routing Machine) berechnet echte Straßenrouten basierend auf OpenStreetMap – keine Luftlinien, sondern tatsächliche Straßenverbindungen mit Abbiegevorgängen, Geschwindigkeitsbegrenzungen und Straßentypen.

Wichtige Variablen:

  • stadt: Zielstadt der Pendlerstrecke
  • strecke_name: Beschreibung der Route (z.B. “Dachau \(\rightarrow\) München”)
  • auto_distanz_km: Fahrstrecke mit dem Auto in km
  • auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit (mit Staufaktor)
  • bahn_planzeit_min: Fahrzeit laut Fahrplan
  • bahn_verspaetung_min: Durchschnittliche Verspätung
  • bahn_real_min: Realistische Bahnfahrzeit (Fahrplan + Verspätung)

Wie wurde das Routing durchgeführt?

  1. Koordinaten ermitteln: Für jede Pendlerstrecke wurden Start- und Zielkoordinaten definiert (z.B. Stadtzentrum Dachau \(\rightarrow\) München Hauptbahnhof).

  2. OSRM-API abfragen: Über die öffentliche OSRM-Demo-API (router.project-osrm.org) wurden für jede Route Distanz und Fahrzeit abgefragt. Die API gibt die schnellste Route zurück, basierend auf dem aktuellen Straßennetz.

  3. Staufaktor anwenden: Die OSRM-Basisfahrzeit entspricht einer Fahrt bei freiem Verkehr. Für die Hauptverkehrszeit (HVZ) wurde ein Staufaktor von 1,3-1,5 angewendet, basierend auf den INRIX-Daten der jeweiligen Stadt.

  4. Bahn-Daten ergänzen: Die Bahnfahrzeiten stammen aus dem DB-Fahrplan, ergänzt um die durchschnittliche Verspätung aus unserer Analyse.

Weiterführende Links:

3. Ulm-Pendlerrouten (ulm_pendlerrouten.csv)

Da Sie in Ulm studieren, analysieren wir die wichtigsten Pendlerrouten in die Stadt genauer. Dieser Datensatz enthält die 5 wichtigsten Einpendler-Gemeinden mit detaillierten Informationen zur Erreichbarkeit.

Wichtige Variablen:

  • start_ort: Startgemeinde der Pendlerroute
  • ziel_ort: Zielort (Ulm)
  • auto_dauer_min: Fahrzeit mit dem Auto
  • auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit
  • bahn_fahrplan_min: Bahnfahrzeit laut Fahrplan
  • bahn_real_min: Realistische Bahnfahrzeit
  • hat_bahnhof: TRUE/FALSE – hat der Startort einen Bahnanschluss?
  • pendler_geschaetzt: Geschätzte Anzahl Pendler auf dieser Route

4. Entgeltstatistik (ba_entgeltstatistik_2024.csv)

Um die volkswirtschaftlichen Kosten von Verspätungen zu berechnen, brauchen wir regionale Lohndaten. Diese haben wir von der Bundesagentur für Arbeit heruntergeladen.

Wichtige Variablen:

  • kreis_name: Name des Kreises/der Stadt
  • ags: Amtlicher Gemeindeschlüssel
  • medianentgelt_brutto_monat: Median-Bruttomonatsentgelt in Euro

Quelle: Bundesagentur für Arbeit, Entgeltstatistik 2024