Motivation

Jeden Morgen das gleiche Bild: Verstopfte Autobahnen, genervte Pendler, verlorene Zeit. 20,5 Millionen Menschen pendeln in Deutschland täglich zur Arbeit – die meisten davon mit dem Auto. Laut INRIX Traffic Scorecard 2024 verlieren Pendler in deutschen Großstädten zwischen 40 und 60 Stunden pro Jahr allein im Stau. Das entspricht fast einer kompletten Arbeitswoche, die im Nichts verpufft.

Die Idee liegt auf der Hand: Wer Bahn fährt, steht nicht im Stau. Aber wie schlägt sich die Bahn im Vergleich zum Auto? Ist sie wirklich schneller? Und wie zuverlässig ist sie eigentlich?

In diesem Projekt analysieren Sie Echtzeitdaten der Deutschen Bahn, Pendlerstatistiken der Bundesagentur für Arbeit, Staudaten von INRIX und die Entgeltstatistik der Bundesagentur für Arbeit. Sie werden herausfinden, dass die Antwort auf die Frage “Sollten mehr Menschen Bahn fahren?” komplexer ist, als man zunächst vermuten würde und dass sie wichtige Implikationen für die Verkehrspolitik hat.

Ihre zentrale Forschungsfrage lautet:

“Sollten mehr Menschen Bahn fahren – und was müsste sich dafür ändern?”

Datengrundlage

In diesem Projekt arbeiten Sie mit mehreren Datensätzen. Ein wichtiger Teil des Projekts ist das eigenständige Beschaffen von Primärdaten aus offiziellen Quellen.

Daten einlesen und verstehen

Bevor Sie mit der Analyse beginnen können, müssen Sie verschiedenste Datensätze einlesen und deren Struktur verstehen. Die Deutsche Bahn stellt über unterschiedliche Schnittstellen Echtzeitdaten für ihre Züge als open-source Daten zur Verfügung, welche per API-Calls geladen werden können. Jedoch gibt es von der Deutschen Bahn keine offizielle Seite, welche historische Daten zu Zugverspätungen, Ausfällen etc. für Fern- und Nahverkehrszüge sammelt. Da wir uns jedoch mit historischen Daten beschäftigen möchten, greifen wir auf Daten zurück, die von Piet Brömmel gesammelt wurden und bei Huggingface im Parquet-Format zur Verfügung gestellt wurden. Das Parquet-Format ist ein effizientes Datenformat und wird oft für große Datenmengen genutzt; in R können Sie diese Daten mit dem arrow-Paket einlesen.

  1. Wie pünktlich ist die Bahn wirklich? Um diese Frage zu beantworten, brauchen Sie echte Verspätungsdaten – nicht nur Pressemitteilungen. Die Bahndaten bilden das Herzstück unserer Analyse: Mit ihnen können Sie berechnen, wie viel Zeit Bahnfahrer durch Verspätungen verlieren und später mit den Stauzeiten der Autofahrer vergleichen.

Die Deutsche Bahn stellt Echtzeitdaten als Open Data zur Verfügung. Das Projekt piebro/deutsche-bahn-data auf Huggingface sammelt diese Daten im Parquet-Format.

Laden Sie die Datei für November 2025 direkt von Huggingface herunter und lesen Sie diesen Datensatz als bahn in R ein.

Zeigen Sie die ersten 10 Zeilen des Datensatzes in einer Tabelle und beantworten Sie anschließend folgende Fragen:

  • Wie viele Beobachtungen enthält der Datensatz? Welche Variablen sind vorhanden?
  • Was stellt eine einzelne Beobachtung dar?

Hinweis 1: Sie können auf Huggingface die gesuchte Datei hier finden und direkt die URL zu der Datei in R mitgeben

Hinweis 2: Sie können die Parquet Datei entweder lokal speichern, oder immer direkt per URL einlesen. Falls Sie die Datei lokal speichern, so wird diese nicht auf GitHub Committet, da wir dies in der .gitignore entsprechend eingestellt haben. In diesem Fall sollten alle Teammitglieder die Datei lokal zur Verfügung haben.

Hinweis 3: Achten Sie bei allen Tabellen auf einer saubere Darstellung


Ausschnitt der ersten 10 Beobachtungen der Echtzeitdaten der Deutschen Bahn (Nov. 2025)
station_name train_name final_destination_station delay_in_min time is_canceled
Stuttgart Hbf S 2 Filderstadt 5 2025-11-01 01:00:00 FALSE
Halle (Saale) Hbf S 5 Leipzig Hbf (tief) 1 2025-11-01 01:00:00 FALSE
Karlsruhe Hbf RE 1 Karlsruhe Hbf 95 2025-11-01 01:00:00 FALSE
Regensburg Hbf ALX RE25 München Hbf 11 2025-11-01 01:00:00 FALSE
Mannheim Hbf ICE 775 Karlsruhe Hbf 1 2025-11-01 01:00:00 FALSE
Flughafen BER S 9 Flughafen BER 1 2025-11-01 01:00:00 FALSE
Halle (Saale) Hbf S 8 Halle (Saale) Hbf 15 2025-11-01 01:00:00 FALSE
München Hbf RB 40 München Hbf 0 2025-11-01 01:00:00 FALSE
Köln Hbf IC 1952 Köln Hbf 40 2025-11-01 01:00:00 FALSE
Freiburg (Breisgau) Hbf S 1 Freiburg (Breisgau) Hbf 0 2025-11-01 01:00:00 FALSE

Wie viele Beobachtungen enthält der Datensatz?

Der Datensatz ist mit insgesamt 13.943.561 Beobachtungen und 16 Variablen sehr umfangreich und liefert detaillierte Informationen zu Zügen, Stationen, Verspätungen und Ausfällen.

Welche Variablen sind vorhanden?

Der Datensatz enthält insgesamt 16 Spalten bzw. Variablen:

  1. station_name: Name der Station, an der der Zug zum angegebenen Zeitpunkt erfasst wurde.
  2. xml_station_name: Stationsname aus den XML-Echtzeitdaten der Deutschen Bahn.
  3. eva: Eindeutige EVA-Nummer der Deutschen Bahn zur Identifikation der Station.
  4. train_name: Name bzw. Kennung des Zuges, z.B. „ICE 775“
  5. final_destination_station: Endbahnhof des Zuges auf der jeweiligen Fahrtstrecke.
  6. delay_in_min: Verspätung des Zuges an der jeweiligen Station in Minuten.
  7. time: Zeitpunkt der Beobachtung (Datum und Uhrzeit), zu dem die Zugdaten erfasst wurden.
  8. is_canceled: Logische Variable (TRUE/FALSE), die angibt, ob der Zug an diesem Zeitpunkt als ausgefallen gemeldet war.
  9. train_type: Zugtyp laut Bahnklassifikation, z. B. ICE, IC, RE, RB oder S-Bahn.
  10. train_line_ride_id: Eindeutige Kennung einer Zugfahrt. Diese ID kann verwendet werden, um Beobachtungen derselben Fahrt über verschiedene Zeitpunkte hinweg zu identifizieren.
  11. train_line_station_num: Nummer des Halts innerhalb einer Zugfahrt, die angibt, an welcher Station der Zug sich auf seiner Strecke befindet.
  12. arrival_planned_time: Geplante Ankunftszeit des Zuges an der Station laut Fahrplan.
  13. arrival_change_time: Aktualisierte bzw. geänderte Ankunftszeit, falls sich der Fahrplan durch Verspätungen geändert hat.
  14. departure_planned_time: Geplante Abfahrtszeit des Zuges an der Station.
  15. departure_change_time: Aktualisierte bzw. geänderte Abfahrtszeit, falls eine Abweichung vom Fahrplan vorliegt.
  16. id: Eindeutige ID der einzelnen Beobachtung, die jede Zeile im Datensatz eindeutig identifiziert.

Was stellt eine einzelne Beobachtung dar?

Eine einzelne Beobachtung im Datensatz beschreibt den Zustand eines Zuges zu einem bestimmten Zeitpunkt an einer bestimmten Station, inklusive Verspätung, Ausfallstatus und Fahrplandaten. Jede Fahrt kann über mehrere Zeitpunkte hinweg mehrfach erfasst werden, sodass der Datensatz Momentaufnahmen einzelner Halte und nicht komplette Zugfahrten enthält.


  1. Wohin pendeln die Menschen? Die Bahndaten zeigen ihnen die Pünktlichkeit der Züge – aber um zu verstehen, wo gute Bahnverbindungen besonders wichtig sind, müssen Sie wissen, wohin die Menschen pendeln. Die Pendlerstatistik der Bundesagentur für Arbeit zeigt genau das: Welche Städte sind die größten Arbeitgeber-Magneten?

Laden Sie den Datensatz pendler_kreise_aufbereitet.csv aus dem Ordner daten in R ein als Datensatz pendler.

Erstellen Sie eine Tabelle der Top 10 Städte nach Einpendlern mit den Spalten: Stadt (kreis_name), Einpendler, Auspendler, Pendlersaldo.

Interpretieren Sie kurz: Welche Städte sind die größten “Pendlermagneten” Deutschlands und warum?


Top 10 Städte nach Anzahl an Einpendlern
Stadt Einpendler Auspendler Pendlersaldo
München, Landeshauptstadt 455.645 202.756 252.889
Frankfurt am Main, Stadt 405.856 111.245 294.611
Hamburg, Freie und Hansestadt 392.951 147.328 245.623
Berlin, Stadt 392.324 219.898 172.426
Köln, Stadt 306.905 138.422 168.483
Düsseldorf, Stadt 284.696 97.326 187.370
Stuttgart, Landeshauptstadt 274.442 100.095 174.347
Nürnberg, Stadt 165.496 78.557 86.939
Essen, Stadt 141.296 90.906 50.390
Region Hannover 137.924 69.974 67.950

Beschreibung

Die Tabelle zeigt die Top 10 Städte nach Einpendlern in Deutschland. Für jede Stadt sind die Anzahl der Ein- bzw. Auspendler und das entsprechende Pendlersaldo angegeben. Die Stadt mit den meisten Einpendlern ist München mit 455.645 Einpendlern und einem Pendlersaldo von 252.889. Frankfurt, Hamburg und Berlin folgen dicht dahinter mit jeweils rund 400.000 Einpendlern und ebenfalls stark positiven Pendlersalden, sodass die Anzahl der Einpendler die der Auspendler in diesen Städten deutlich übersteigt.

Interpretation

Welche Städte sind die größten “Pendlermagneten” Deutschlands und warum?
Die größten Pendlermagneten Deutschlands sind die großen und bevölkerungsreichen Metropolen wie Berlin, München, Hamburg und Frankfurt am Main. Ursache hierfür ist ihre Rolle als wirtschaftliche Zentren mit einer hohen Konzentration an Arbeitsplätzen in Industrie, Dienstleistungen, Verwaltung und wissensintensiven Branchen. Außerdem ziehen die hohe Bevölkerungsdichte und die gute Verkehrsanbindung der Städte zahlreiche Pendler aus dem Umland an. Zusätzlich ziehen Universitäten und Forschungseinrichtungen vor allem junge Menschen aus dem Umland an, was das Pendleraufkommen weiter erhöht. Gleichzeitig sind Wohnkosten in den Kernstädten hoch, sodass viele Beschäftigte und Studenten aus dem Umland einpendeln.

Damit wird deutlich, dass gerade diese Städte besonders stark auf leistungsfähige und pünktliche Bahnverbindungen angewiesen sind.


  1. Was kostet das Auto? Sie haben jetzt Bahndaten und wissen, wohin die Menschen pendeln. Aber um fair vergleichen zu können, brauchen Sie auch die Alternative: Wie viel Zeit verlieren Autofahrer im Stau? Diese Daten liefert INRIX – ein Unternehmen, das weltweit Verkehrsdaten sammelt. Später werden Sie diese Staukosten mit den Bahnverspätungen vergleichen.

Besuchen Sie die INRIX Global Traffic Scorecard und suchen Sie die Stauzeiten für die Top 10 Städte aus Aufgabe 2 und zusätzlich die Stauzeiten für Ulm. INRIX misst, wie viele Stunden Autofahrer jährlich im Stau verlieren.

  • Erstellen Sie eine eigene CSV-Datei inrix_staedte_2024.csv mit folgenden Spalten für die geforderten Städte:
    • stadt: Name der Stadt
    • stau_stunden_jahr: Jährliche Staustunden pro Fahrer
    • kosten_eur: Jährliche Kosten pro Fahrer (findet sich in der tiefergehenden Übersicht)
  • Berechnen Sie für jede Stadt, wie viele Arbeitstage pro Jahr im Stau verloren gehen. Annahme: Ein Arbeitstag = 8 Stunden.

Erstellen Sie anschließend eine schöne Tabelle mit: Stadt, Staustunden/Jahr, verlorene Arbeitstage und beschreiben diese. In welcher Stadt ist die Stausituation am schlimmsten? Wie viele Arbeitstage verliert ein typischer Pendler dort pro Jahr?

Hinweis: Auf der INRIX-Website können Sie nach bei “Jump to City Rankings” -> “Search the List” -> “Germany” oder der konkreten Stadt filtern.


Jährliche Stauzeiten, verlorene Arbeitstage und Kosten pro Autofahrer nach Stadt (INRIX 2025)
Stadt Staustunden/Jahr Verlorene Arbeitstage Kosten pro Fahrer/Jahr (€)
Köln 67 8,4 919
Düsseldorf 63 7,9 864
Berlin 60 7,5 823
Stuttgart 60 7,5 823
München 57 7,1 781
Frankfurt 55 6,9 754
Hannover 54 6,8 740
Hamburg 46 5,8 631
Essen 46 5,8 631
Nürnberg 38 4,8 521
Ulm 30 3,8 411

Beschreibung

Die Tabelle zeigt für elf ausgewählte deutsche Städte die jährlichen Staustunden pro Autofahrer sowie die daraus berechneten verlorenen Arbeitstage (bei 8 Stunden pro Arbeitstag). Die Daten stammen aus der INRIX Global Traffic Scorecard 2025. Für die Stadt Essen lagen keine eigenen Werte vor, daher wurden die Daten von Wuppertal übernommen, da beide Städte hinsichtlich Verkehrsmuster und Stauaufkommen als ähnlich angenommen werden. Die Städte sind nach Staustunden pro Jahr absteigend sortiert. Es wird deutlich, dass die Belastung durch Staus stark zwischen den Städten variiert.

In welcher Stadt ist die Stausituation am schlimmsten?
Die schlechteste Stausituation zeigt sich in Köln. Mit 67 Staustunden pro Jahr liegt Köln an der Spitze der betrachteten Städte und verzeichnet damit die höchste jährliche Zeit, die Pendler im Stau verbringen. Auch Düsseldorf mit 63 Staustunden sowie Berlin und Stuttgart mit jeweils 60 Staustunden weisen sehr hohe Werte auf und zählen ebenfalls zu den Städten mit besonders ausgeprägten Stauproblemen. Städte wie München und Frankfurt liegen mit 57 bzw. 55 Staustunden ebenfalls auf einem hohen Niveau, während Ulm und Nürnberg mit 30 bzw. 38 Staustunden deutlich geringere Staubelastungen aufweisen.

Wie viele Arbeitstage verliert ein typischer Pendler dort im Jahr?
In Köln verliert ein typischer Pendler durch Staus durchschnittlich 8,4 Arbeitstage pro Jahr, was den höchsten Wert im Vergleich der betrachteten Städte darstellt. Auch in Düsseldorf (7,9 Arbeitstage) sowie in Berlin und Stuttgart (jeweils 7,5 Arbeitstage) sind die jährlichen Zeitverluste hoch. In Städten wie Ulm (3,8 Arbeitstage) und Nürnberg (4,8 Arbeitstage) fallen die Verluste hingegen deutlich geringer aus.

Interpretation

Die Ergebnisse zeigen einen klaren Zusammenhang zwischen Stadtgröße, Verkehrsaufkommen und Staubelastung. Metropolregionen mit hoher Pendlerdichte verlieren deutlich mehr Zeit durch Verkehrsüberlastung als kleinere Städte. Besonders auffällig ist, dass sich der Unterschied zwischen den am stärksten und am wenigsten betroffenen Städten auf mehrere volle Arbeitstage pro Jahr summiert. Dies deutet darauf hin, dass Verkehrsinfrastruktur und Pendlerströme in Großstädten stärker an Kapazitätsgrenzen stoßen als in mittelgroßen Städten.


  1. Für die weiteren Analysen stellen wir Ihnen fünf zusätzliche Datensätze bereit. Diese laden Sie jetzt, damit sie in allen folgenden Aufgaben direkt verfügbar sind.

Laden Sie die folgenden Datensätze aus dem Ordner daten und speichern Sie diese unter den angegebenen Variablennamen:

Datei Variablenname Verwendet in
bahnhof_ags_mapping.csv bahnhof_mapping Aufgabe 9-10
fahrtzeit_osrm_vergleich.csv fahrtzeit Aufgabe 12
ulm_pendlerrouten.csv ulm_routen Aufgabe 13
ba_entgeltstatistik_2024.csv entgelt für staedte_basis
co2_analyse.csv co2_analyse Aufgabe 19 (Bonus)

Verschaffen Sie sich einen ersten Überblick über die Struktur der Daten (z.B. mit glimpse(), dies sollte später in ihrem HTML Dokument nicht sichtbar sein!).

Erstellen Sie außerdem einen Master-Datensatz staedte_basis für die Top-11-Städte (Top 10 Pendlerstädte + Ulm), der die Daten aus pendler, entgelt und inrix kombiniert. Dieser Datensatz vereinfacht die späteren Analysen (ab Aufgabe 14), da alle relevanten Kennzahlen bereits zusammengeführt sind.

Der Master-Datensatz sollte folgende Spalten enthalten:

  • ags: Amtlicher Gemeindeschlüssel
  • stadt: Stadtname (Kurzform, z.B. “München”)
  • einpendler: Anzahl Einpendler
  • median_monat_eur: Medianlohn pro Monat
  • median_stunde_eur: Medianlohn pro Stunde (Monatslohn / 160)
  • stau_stunden_jahr: Stauzeit pro Jahr (aus INRIX)

Hinweis 1: Die Datensätze verwenden unterschiedliche Namensformate: pendler hat offizielle Namen (“München, Landeshauptstadt”), während entgelt und inrix Kurznamen (“München”) verwenden. Nutzen Sie den AGS als zuverlässigen Schlüssel für die Verknüpfung mit pendler. Tipp: entgelt enthält sowohl AGS als auch Kurznamen und eignet sich daher gut als Ausgangspunkt.

Hinweis 2: Eine ausführliche Beschreibung der Datensätze finden Sie im Anhang A.


Master-Datensatz staedte_basis
AGS* Stadt Einpendler Medianlohn/Monat (€) Medianlohn/h (€) Staustunden/Jahr
09162 München 455.645 4.847 30,29 57
06412 Frankfurt 405.856 4.712 29,45 55
02000 Hamburg 392.951 4.527 28,29 46
11000 Berlin 392.324 4.156 25,98 60
05315 Köln 306.905 4.398 27,49 67
05111 Düsseldorf 284.696 4.523 28,27 63
08111 Stuttgart 274.442 4.689 29,31 60
09564 Nürnberg 165.496 4.234 26,46 38
05113 Essen 141.296 3.987 24,92 46
03241 Hannover 137.924 4.156 25,98 54
08421 Ulm 68.341 4.312 26,95 30

*AGS = Amtlicher Gemeindeschlüssel


Die Pünktlichkeit der Deutschen Bahn

Nachdem Sie nun einen Überblick über die Daten haben, welche wir in diesem Projekt verwenden möchten, tauchen Sie tiefer in die Bahndaten ein. Die zentrale Frage ist: Wie zuverlässig ist die Deutsche Bahn wirklich?

Die Bahn unterscheidet verschiedene Zugtypen, vom ICE über den RE bis zur S-Bahn. Jeder Zugtyp hat unterschiedliche Eigenschaften: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Aber welcher Zugtyp ist am pünktlichsten?

  1. Welche Züge sind (un)pünktlich? Nicht alle Züge sind gleich: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Um später sinnvolle Empfehlungen geben zu können, müssen Sie verstehen, welche Zugtypen besonders problematisch sind. Dafür klassifizieren Sie die Züge anhand ihrer Namen. Nutzen Sie für diese Analyse den Datensatz bahn.

Die Variable train_name enthält den Zugnamen (z.B. “ICE 123”, “S 5”, “RE 8”).

Zugtyp Regel Beispiel
ICE beginnt mit “ICE” ICE 123
IC/EC beginnt mit “IC” oder “EC” IC 2012, EC 6
IRE/RE beginnt mit “RE” oder “IRE” RE 5, IRE 200
RB beginnt mit “RB” RB 26
S-Bahn beginnt mit “S” (mit Leerzeichen!) S 5
Sonstige alle anderen U 6, STB 123

Erstellen Sie auf dieser Basis eine Tabelle, welche pro Zugtyp folgende Kennzahlen anschaulich darstellt:

Beschreiben und Interpretieren Sie die Tabelle.

Weiterhin sollten Sie ihre Ergebnisse verifizieren. Dafür können Sie auf die offizielle Pünktlichkeitswerte der Deutschen Bahn zurückgreifen (recherchieren Sie diese selbstständig).

Stimmen Ihre Ergebnisse mit den offiziellen Werten überein? Falls nicht: Welche methodischen Unterschiede könnten die Abweichung erklären?

Hinweis: Nutzen Sie str_detect() aus dem stringr-Paket. Achten Sie auf die Reihenfolge der Bedingungen!


Pünktlichkeit und Zuverlässigkeit der Deutschen Bahn nach Zugtyp (Nov. 2025)
Zugtyp Anzahl Fahrten Ø Verspätung (Min) Anteil pünktlicher Züge (%) Ausfallquote (%)
S-Bahn 6.414.045 2,94 87,41 5,48
Sonstige 2.938.815 3,47 84,67 2,62
RB 2.675.028 3,48 85,20 3,18
RE/IRE 1.673.555 6,06 74,13 3,62
IC/EC 70.602 11,03 60,24 7,18
ICE 171.516 12,50 56,75 4,23

Hinweis: Pünktliche Züge: Verspätung ≤ 6 Minuten.

Beschreibung

Die Tabelle stellt die Pünktlichkeit und Zuverlässigkeit der Deutschen Bahn nach Zugtyp dar und ist aufsteigend nach der durchschnittlichen Verspätung in Minuten sortiert. Für jeden Zugtyp werden die Anzahl der erfassten Fahrten, die durchschnittliche Verspätung in Minuten, der Anteil pünktlicher Züge (mit maximal 6 Minuten Verspätung) sowie die Ausfallquote ausgewiesen.

Den größten Anteil an den Fahrten machen S-Bahnen mit knapp 6,5 Millionen Fahrten aus, gefolgt von “Sonstige”, Regionalbahnen (RB) und Regional-Express-Zügen (RE/IRE). Fernverkehrszüge wie ICE und IC/EC sind im Vergleich deutlich seltener vertreten mit 171.516 bzw. 70.602 Fahrten. Gleichzeitig weisen ICE- und IC/EC-Züge die höchsten durchschnittlichen Verspätungen (ICE: 12,5 Min, IC/EC: 11,03 Min) sowie die niedrigsten Anteile pünktlicher Fahrten auf (ICE: 56,75%, IC/EC: 60,24%). Im Vergleich sind Nahverkehrszüge, vor allem S-Bahnen deutlich pünktlicher, mit einem Anteil von 87,41% und geringeren durchschnittlichen Verspätungen von rund 3 Minuten.

Ein ähnlich klarer Unterschied zwischen Fern- und Nahverkehr zeigt sich bei der Ausfallquote jedoch nicht. Während IC/EC-Züge zwar mit 7,18% die höchste Ausfallquote aufweisen, folgen S-Bahnen direkt dahinter mit 5,48%. Die geringste Ausfallquote mit 2,62 % entfällt auf Züge der Kategorie „Sonstige“.

Interpretation

Die Ergebnisse zeigen deutliche Unterschiede in der Zuverlässigkeit zwischen Fern- und Nahverkehrszügen. S-Bahnen und Regionalzüge sind insgesamt pünktlicher und weisen geringere durchschnittliche Verspätungen auf als Fernverkehrszüge. Dies liegt vor allem an strukturellen Unterschieden im Bahnsystem.

Fernverkehrszüge wie ICE oder IC legen sehr lange Strecken zurück und durchqueren dabei zahlreiche Regionen. Dadurch sind sie einer Vielzahl möglicher Störquellen ausgesetzt, etwa technischen Problemen an Signalen oder Weichen, Baustellen, Unfällen, Witterungseinflüssen oder Verspätungen vorausfahrender Züge. Je länger eine Strecke ist, desto höher ist die Wahrscheinlichkeit, dass sich solche Störungen auf die Pünktlichkeit auswirken. Außerdem können sich Verspätungen über viele Halte hinweg aufaddieren.

Hinzu kommt, dass der Fernverkehr stark vom gesamten Bahnnetz abhängig ist und vor allem hoch ausgelastete Hauptstrecken nutzt, die er sich mit Nah- und Güterverkehr teilt. An großen Bahnknoten können daher bereits kleine Störungen zu Verzögerungen führen, die sich über weite Teile des Netzes ausbreiten.

Bei Nahverkehrszügen kommt es hingegen seltener zu starken Verspätungen, da sie meist deutlich kürzere Strecken innerhalb einer Region zurücklegen. Störungen wirken sich dadurch weniger stark aus und können sich nicht über viele Stunden hinweg aufschaukeln. Hinzu kommt die geringere Netzabhängigkeit: Viele S-Bahnen verkehren auf eigenen Gleisen oder zumindest auf klar abgegrenzten Streckenabschnitten und sind dadurch weniger anfällig für Störungen, die anderswo im Bahnnetz entstehen. Zudem verfügen Nahverkehrszüge über robustere Fahrpläne. Züge werden regelmäßig neu eingesetzt oder gewendet, wodurch Verspätungen „abgeschnitten“ werden und sich nicht über den gesamten Betriebstag fortsetzen.

Ein weiterer Grund, warum S-Bahnen und Regionalzüge pünktlicher erscheinen, liegt in der Definition von Pünktlichkeit. Im deutschen Bahnverkehr gilt ein Zug bereits dann als pünktlich, wenn er mit weniger als sechs Minuten Verspätung ankommt. Da S-Bahnen und Regionalzüge überwiegend kurze Strecken zurücklegen, sind Verspätungen von mehr als sechs Minuten vergleichsweise selten. Entsprechend fallen die prozentualen Pünktlichkeitswerte mit 87,41 % bei S-Bahnen und 85,20 % bei Regionalbahnen relativ hoch aus.

Insgesamt bestätigen die Ergebnisse, dass der Nahverkehr für den Großteil der Fahrgäste zuverlässiger ist, während der Fernverkehr stärker unter systemischen Verspätungen leidet.

Abgleich mit offiziellen Pünktlichkeitswerten

Die offiziellen Pünktlichkeitswerte der Deutschen Bahn, die auf ihrer Webseite veröffentlicht werden, unterscheiden nur zwischen Nah- und Fernverkehr, nicht zwischen einzelnen Zugtypen. Im November 2025 lag die betriebliche Pünktlichkeit im Nahverkehr bei 85,2 %. In unserem Datensatz sind S-Bahn, RB und RE jeweils separat erfasst. Rechnet man ihre Werte jedoch zusammen, ergibt sich eine vergleichbare Pünktlichkeit von etwa 84,72 %, also nur eine geringe Abweichung. Für den Fernverkehr gibt die Deutsche Bahn 54,5 % an, während sich bei Zusammenrechnung von ICE- und IC-Zügen in unserem Datensatz rund 57,8 % ergeben. Hier fällt die Abweichung etwas größer aus. Die Werte sind miteinander vergleichbar, da die Definition der betrieblichen Pünktlichkeit gleich ist: Ein Halt gilt als pünktlich, wenn die planmäßige Ankunftszeit um weniger als sechs Minuten überschritten wird, wie auch in unserem Datensatz.

Die kleineren Abweichungen zwischen unseren Daten und den offiziellen Werten können verschiedene methodische Gründe haben. Zum einen kann es sein, dass unser Datensatz nicht alle Strecken und Fahrten erfasst, während die offiziellen Werte das gesamte Netz berücksichtigen. Außerdem wurde in unserem Datensatz zwischen den einzelnen Zugtypen unterschieden, während bei den Daten der deutschen Bahn nur zwischen Fern- und Nahverkehr unterschieden wird. Hier kann es also sein, dass Aufteilungen anders getroffen wurden oder Züge, die bei uns unter Sonstige fallen anders zugeordnet wurdem. Zudem können Unterschiede in den Erfassungsmethoden, etwa verschiedene Messzeitpunkte, Rundungsregeln oder Datenquellen, zu leichten Abweichungen führen.

Insgesamt zeigt der Vergleich, dass unsere Analyse die offiziellen Pünktlichkeitswerte der Deutschen Bahn gut widerspiegelt. Kleinere Abweichungen lassen sich jedoch plausibel durch methodische Unterschiede erklären.


  1. In Aufgabe 5 haben Sie gesehen, dass Fernverkehrszüge (ICE, IC/EC) deutlich höhere Verspätungen und Ausfallquoten haben als Nahverkehrszüge (IRE, RE, RB, S-Bahn). Aber wie relevant ist das für den typischen Pendler? Das hängt davon ab, wie viele Züge jeweils unterwegs sind. Nutzen Sie für diese Analyse den Datensatz bahn (mit der in Aufgabe 5 erstellten Variable zugtyp).

Klassifizieren Sie die Züge in zwei Kategorien:

Erstellen Sie ein Liniendiagramm, das die durchschnittliche Anzahl der Fahrten pro Stunde im Tagesverlauf zeigt:

Tipp: Extrahieren Sie die Stunde aus der Variable time mit hour() aus dem lubridate-Paket. Berechnen Sie dann die durchschnittliche Anzahl Fahrten pro Stunde und Zugtyp.

Beschreiben und interpretieren Sie ihre Grafik. Beantworten Sie zusätzlich die folgenden Fragen:


Beschreibung

Das Liniendiagramm zeigt die durchschnittliche Anzahl der Bahnfahrten pro Stunde im Tagesverlauf, getrennt nach Nah- und Fernverkehr. Auf der x-Achse sind die Uhrzeiten von 0 bis 23 Uhr dargestellt, während die y-Achse die durchschnittliche Anzahl der Fahrten pro Stunde abbildet. Der Nahverkehr ist durch eine grüne Linie, der Fernverkehr durch eine blaue Linie gekennzeichnet.

Insgesamt wird deutlich, dass der Nahverkehr zu jeder Tageszeit deutlich mehr Fahrten aufweist als der Fernverkehr. Während der Nahverkehr in den Spitzenzeiten Werte von rund 20.000 Fahrten pro Stunde erreicht, liegt der Fernverkehr selbst im Tagesmaximum bei lediglich etwa 500 Fahrten pro Stunde.

Der Tagesverlauf des Nahverkehrs zeigt ein ausgeprägtes Pendlerprofil. In den Nachtstunden ist die Anzahl der Fahrten sehr gering und erreicht zwischen 3 und 4 Uhr morgens mit etwa 1.500 Fahrten pro Stunde ihren Tiefpunkt. Ab den frühen Morgenstunden steigt die Zahl der Fahrten stark an und erreicht gegen 8 Uhr einen ersten Höhepunkt von knapp 19.000 Fahrten. Anschließend sinkt die Anzahl leicht ab auf ca. 17.500 Fahrten, bevor sie am späten Nachmittag erneut ansteigt und um etwa 17 Uhr den Tageshöchstwert von etwas über 19.000 Fahrten pro Stunde erreicht. In den Abend- und Nachtstunden nimmt die Anzahl der Fahrten wieder deutlich ab.

Der Fernverkehr weist einen ähnlichen, jedoch deutlich abgeschwächten Tagesverlauf auf. Auch hier ist das Fahrtenaufkommen in den Nachtstunden am geringsten und steigt in den Morgenstunden kontinuierlich an. Im Gegensatz zum Nahverkehr zeigt der Fernverkehr jedoch keinen ausgeprägten morgendlichen Spitzenwert. Stattdessen bleibt die Anzahl der Fahrten ab etwa 12 Uhr auf einem relativ konstanten Niveau und erreicht gegen 17 Uhr mit etwas über 500 Fahrten pro Stunde ihr Maximum. Dannach sinkt die Anzahl der Fahrten bis in die Nachtstunden wieder deutlich ab.

Zusammenfassend zeigt sich, dass der Fernverkehr im Tagesverlauf einem ähnlichen Muster wie der Nahverkehr folgt, jedoch ohne die ausgeprägten Pendler-Spitzen am Morgen und am späten Nachmittag. Dies spiegelt die unterschiedliche Funktion beider Verkehrsarten wider, wobei der Nahverkehr stark vom Berufs- und Alltagsverkehr geprägt ist, während der Fernverkehr gleichmäßiger über den Tag verteilt verläuft.

Interpretation

Die Ergebnisse verdeutlichen die unterschiedlichen Funktionen von Nah- und Fernverkehr im deutschen Bahnverkehr. Der deutlich höhere Umfang der Fahrten im Nahverkehr über den gesamten Tagesverlauf hinweg zeigt, dass dieser vor allem der täglichen Alltags- und Berufsmobilität dient. Die ausgeprägten Spitzen am Morgen und am späten Nachmittag lassen sich klar als klassische Pendlerzeiten interpretieren, in denen Arbeits- und Ausbildungswege dominieren.

Der deutliche Rückgang der Fahrten in den Nachtstunden verdeutlicht, dass der Nahverkehr zeitlich stark auf die Hauptverkehrszeiten ausgerichtet ist und außerhalb dieser Zeiträume nur ein begrenztes Basisangebot bereitgestellt wird. Der leichte Rückgang der Fahrtenzahl zur Mittagszeit lässt darauf schließen, dass der Berufsverkehr in diesem Zeitraum an Bedeutung verliert und andere Mobilitätszwecke nur eine untergeordnete Rolle spielen.

Im Vergleich dazu weist der Fernverkehr ein deutlich gleichmäßigeres Tagesprofil auf. Das Fehlen ausgeprägter Spitzenzeiten z.B. morgens so wie beim Nahverkehr spricht dafür, dass Fernverkehrsfahrten weniger stark an feste Arbeitszeiten gebunden sind, da Pendler vermehrt mit dem Nahverkehr zur Arbeit pendeln als mit dem Fernverkehr. Stattdessen verteilen sich die Fahrten relativ konstant über den Tag, was auf flexible Reisezeiten und unterschiedliche Reisezwecke wie Geschäfts-, Freizeit- oder Urlaubsreisen hindeutet.

Der deutlich geringere Umfang an Fahrten im Fernverkehr erklärt sich durch dessen grundlegend andere Funktion im Verkehrssystem. Fernverkehrsverbindungen bedienen in der Regel längere Distanzen und sind stärker auf einzelne, kapazitätsstarke Verbindungen zwischen größeren Zentren konzentriert. Im Gegensatz zum Nahverkehr, der kurze Wege mit hoher Taktfrequenz abdeckt, ist der Fernverkehr daher insgesamt durch eine geringere Anzahl an Fahrten gekennzeichnet.

Warum ist diese Information wichtig, wenn wir später die Verspätungen analysieren?

Die Analyse der durchschnittlichen Anzahl der Fahrten pro Stunde ist eine wichtige Grundlage für die spätere Untersuchung von Verspätungen, da sie zeigt, zu welchen Tageszeiten und in welchen Zugsegmenten besonders viele Fahrten stattfinden. Dadurch wird deutlich, wann Verspätungen eine besonders hohe Relevanz haben, weil viele Züge und Fahrgäste gleichzeitig betroffen sind.

Verspätungen im Nahverkehr sind insbesondere zu Hauptverkehrszeiten besonders relevant, da in diesen Zeiträumen viele Züge verkehren und entsprechend viele Pendler betroffen sind. Der Vergleich mit dem Fernverkehr ist notwendig, da dessen höhere durchschnittliche Verspätungen vor dem Hintergrund eines deutlich geringeren Fahrtenaufkommens bewertet werden müssen, um die tatsächliche Relevanz für den typischen Pendler einzuordnen.

Insgesamt ermöglicht diese Analyse, Verspätungsdaten später differenziert nach Zugtyp und Tageszeit zu interpretieren und liefert eine wichtige Grundlage für die Bewertung der tatsächlichen Auswirkungen von Verspätungen sowie für mögliche Maßnahmen zur Verbesserung der Zuverlässigkeit des Bahnverkehrs.


Nachdem Sie in Aufgabe 6 herausgefunden haben, dass es deutlich mehr Nahverkehrszüge als Fernverkehrszüge gibt, und diese für Pendler wichtiger sind, sollten Sie sich die Verspätungen der Nahverkehrszüge über den Tag anschauen, da diese vermutlich nicht gleichmäßig über den Tag verteilt sind. Pendler erleben die Bahn vor allem in der Hauptverkehrszeit, d.h. morgens zwischen 7 und 9 Uhr und abends zwischen 16 und 19 Uhr. Aber ist die Bahn zu diesen Zeiten besonders unpünktlich?

  1. Erstellen Sie zwei Heatmaps, die zeigen, wie sich die Verspätungen nach Tageszeit (Stunde) und Wochentag für die Nahverkehrszüge und die Fernverkehrszüge verteilen. Nutzen Sie für diese Analyse den Datensatz bahn.

Tipp zur Farbskala: Da Fernverkehrszüge im Durchschnitt höhere Verspätungen haben als Nahverkehrszüge, können Sie unterschiedliche Farbskalen für die beiden Heatmaps verwenden (z.B. Blau-Töne für Nahverkehr, Rot-Töne für Fernverkehr). Dadurch werden die Muster innerhalb jeder Verkehrsart besser sichtbar.

Beschreiben und interpretieren Sie ihre Grafiken.



Beschreibung

Die beiden Heatmaps zeigen die durchschnittlichen Zugverspätungen nach Uhrzeit und Wochentag auf Basis von Daten aus November 2025 im Zeitraum von 5 bis 23 Uhr. Die obere Heatmap mit blauen Kästchen stellt den Nahverkehr dar und umfasst Daten für RB-, RE- und S-Bahn-Züge, während die untere Heatmap mit roten Kästchen den Fernverkehr mit ICE-, IC- und EC-Zügen abbildet. In beiden Grafiken gilt: Je dunkler ein Kästchen, desto höher ist die durchschnittliche Verspätung. Dabei unterscheiden sich jedoch die Skalierungen der Farbskalen deutlich. Während die dunkelsten Kästchen im Nahverkehr einer durchschnittlichen Verspätung von etwa 5 Minuten entsprechen, repräsentieren die dunkelsten Kästchen im Fernverkehr Verspätungen von bis zu 20 Minuten.

Wann sind die Verspätungen am höchsten ?
Im Nahverkehr treten die höchsten durchschnittlichen Verspätungen werktags insbesondere in den Morgenstunden zwischen etwa 7 und 9 Uhr sowie am späten Nachmittag und Abend zwischen 18 und 20 Uhr auf, wobei sie in diesen Zeiträumen knapp 5 Minuten erreichen. Im Fernverkehr hingegen zeigen sich die höchsten Verspätungen vor allem am späten Abend, insbesondere gegen 22 bis 23 Uhr, wo sie teilweise über 20 Minuten betragen.

Gibt es Unterschiede zwischen Nah- und Fernverkehrszügen?
Neben den unterschiedlichen Zeitpunkten der maximalen Verspätungen zeigen die Heatmaps weitere klare Unterschiede zwischen Nah- und Fernverkehr. Grundsätzlich liegen die Verspätungen im Fernverkehr zu allen Tageszeiten über denen des Nahverkehrs. Dies zeigt insbesondere die unterschiedliche Farbskalierung: Selbst die hellroten Kästchen im Fernverkehr entsprechen bereits einer durchschnittlichen Verspätung von etwa 5 Minuten und sind damit vergleichbar mit den dunkelsten Ausprägungen im Nahverkehr.

Darüber hinaus unterscheidet sich der zeitliche Verlauf der Verspätungen deutlich. Im Nahverkehr zeigen sich, wie zuvor beschrieben, zwei ausgeprägte Spitzen. Nach einem ersten Höhepunkt in den Morgenstunden sinken die durchschnittlichen Verspätungen über die Mittagszeit auf etwas über 3 Minuten, bevor sie am späten Nachmittag und Abend erneut auf etwa 5 Minuten ansteigen. Ein solches zweigipfliges Muster ist im Fernverkehr nicht zu beobachten. Stattdessen nehmen die Verspätungen dort im Verlauf des Tages weitgehend kontinuierlich zu und erreichen ihren Höchstwert am späten Abend, insbesondere zwischen 22 und 23 Uhr, mit durchschnittlichen Verspätungen von rund 20 Minuten.

Gibt es Unterschiede zwischen Werktagen und Wochenende?
Die Unterschiede zwischen Werktagen und Wochenenden sind vor allem im Nahverkehr deutlich ausgeprägt. Im Nahverkehr fallen die Verspätungen am Wochenende deutlich geringer aus als an Werktagen und bewegen sich überwiegend im Bereich von etwa 1 bis 3 Minuten. Besonders am Sonntag sind die Verspätungen niedrig und erreichen im Tagesverlauf lediglich ein Maximum von knapp unter 3 Minuten. Auch der zeitliche Verlauf unterscheidet sich: Während an Werktagen zwei ausgeprägte Verspätungsspitzen zu beobachten sind, zeigt sich am Wochenende ein anderes Muster, das eher dem des Fernverkehrs ähnelt, mit einem kontinuierlichen Anstieg der Verspätungen bis in die Abendstunden.

Im Fernverkehr fällt der Unterschied zwischen Werktagen und Wochenenden weniger stark aus. Zwar sinken die durchschnittlichen Verspätungen, insbesondere am Sonntag, im Vergleich zu den übrigen Wochentagen leicht ab, am grundlegenden Muster eines über den Tag hinweg kontinuierlich ansteigenden Verlaufs ändert sich jedoch kaum etwas.

Interpretation

Die dargestellten Muster der Verspätungen lassen darauf schließen, dass Zugverspätungen stark mit der Auslastung des Bahnverkehrs und der Komplexität des Betriebs zusammenhängen. Dieser Zusammenhang wird durch die Ergebnisse aus Aufgabe 6 gestützt, in der die durchschnittliche Anzahl der Bahnfahrten pro Stunde dargestellt ist: Die zeitlichen Verläufe der Fahrtenhäufigkeit ähneln dabei stark den in den Heatmaps beobachteten Verspätungsmustern, was auf einen engen Zusammenhang zwischen hohem Verkehrsaufkommen und steigender Verspätungsanfälligkeit hindeutet.

Besonders im Nahverkehr spiegeln die ausgeprägten Verspätungsspitzen an Werktagen die klassischen Pendlerzeiten wider. In den Morgen- und Abendstunden ist das Verkehrsaufkommen besonders hoch. Die starke Auslastung der Züge und Bahnhöfe erhöht die Anfälligkeit des Systems, sodass selbst kleinere Störungen in diesen Zeiträumen schnell weitergegeben werden und zu merklichen Verspätungen führen können. Am Wochenende deutet das deutlich ruhigere Verspätungsniveau im Nahverkehr darauf hin, dass die geringere Nachfrage und die entspanntere Betriebsstruktur das System insgesamt stabiler machen. Ohne die starken Belastungsspitzen des Berufsverkehrs können Verspätungen offenbar besser abgefedert werden, was zu einem insgesamt gleichmäßigeren und niedrigeren Verspätungsniveau führt.

Im Fernverkehr zeigt sich dagegen ein anderes Bild. Die über den Tag hinweg kontinuierlich ansteigenden Verspätungen deuten darauf hin, dass sich Verzögerungen im Laufe des Tages akkumulieren. Lange Strecken, komplexe Fahrpläne und die Abhängigkeit von vorangegangenen Zugläufen führen dazu, dass Verspätungen nicht vollständig abgebaut werden können und sich insbesondere am späten Abend deutlich verstärken. Der geringere Unterschied zwischen Werktagen und Wochenenden im Fernverkehr spricht zudem dafür, dass hier weniger die Nachfrage, sondern vielmehr betriebliche und infrastrukturelle Faktoren eine zentrale Rolle spielen.

Was bedeutet das für Pendler?
Für Pendler haben diese Ergebnisse klare Implikationen. Insbesondere Nutzer des Nahverkehrs sind an Werktagen in den Hauptverkehrszeiten mit erhöhten Verspätungsrisiken konfrontiert. Dies kann zu Unsicherheiten bei Anschlussverbindungen, verlängerten Reisezeiten und einer geringeren Planbarkeit des Arbeitswegs führen. Am Wochenende hingegen ist der Nahverkehr deutlich zuverlässiger, was vor allem für Gelegenheitsnutzer und Freizeitreisende von Vorteil ist.

Pendler im Fernverkehr müssen dagegen unabhängig vom Wochentag vor allem in den späten Abendstunden mit erheblichen Verspätungen rechnen. Für Berufspendler, die auf späte Rückverbindungen angewiesen sind, kann dies zu besonders langen Heimfahrten und eingeschränkter Zuverlässigkeit führen. Insgesamt verdeutlichen die Ergebnisse, dass Verspätungen je nach Verkehrsart und Tageszeit unterschiedliche Ursachen und Auswirkungen haben, was bei der Planung von Arbeitswegen und Fahrplänen berücksichtigt werden sollte.


Von der Zeit zum Ort: Wo entstehen die Verspätungen?

In Aufgabe 7 haben Sie analysiert, wann die Verspätungen auftreten, nämlich vor allem zu den Hauptverkehrszeiten. Aber die nächste wichtige Frage ist: Wo entstehen diese Verspätungen?

Aggregierte Statistiken wie Durchschnittswerte über ganz Deutschland verbergen oft große regionale Unterschiede. Vielleicht gibt es einzelne “Problembahnhöfe”, die den Durchschnitt nach oben ziehen? Oder sind die Verspätungen gleichmäßig über das Netz verteilt? Diese Frage ist wichtig, weil sie unterschiedliche Lösungsansätze impliziert: Bei wenigen Problembahnhöfen könnte die Bahn gezielt investieren, bei flächendeckenden Problemen bräuchten Sie systemische Lösungen.

  1. Identifizieren Sie die 10 unpünktlichsten Bahnhöfe in Deutschland (mit mindestens 1.000 Halten im Monat). Nutzen Sie für diese Analyse den Datensatz bahn.

Erstellen Sie ein Balkendiagramm, das die durchschnittliche Verspätung dieser Bahnhöfe zeigt. Beschriften Sie die Balken mit den Verspätungswerten.

Beschreiben und interpretieren Sie ihre Grafik.

  • Sehen Sie ein geografisches Muster?
  • Handelt es sich um große Knotenbahnhöfe oder eher um kleinere Stationen?


Beschreibung

Das Balkendiagramm zeigt die zehn unpünktlichsten Bahnhöfe in Deutschland im November 2025. In die Auswertung wurden ausschließlich Bahnhöfe einbezogen, an denen Züge mindestens 1.000-mal pro Monat halten. Jeder Balken repräsentiert einen Bahnhof, wobei die Balkenlänge die durchschnittliche Verspätung in Minuten angibt. Auf der x-Achse ist die durchschnittliche Verspätung in Minuten dargestellt, während die y-Achse die einzelnen Bahnhöfe auflistet. Die Bahnhöfe sind absteigend nach Höhe der durchschnittlichen Verspätung sortiert. An erster Stelle steht der Bahnhof Ennepetal (Gevelsberg) mit einer durchschnittlichen Verspätung von 14,7 Minuten. Knapp dahinter folgen die Bahnhöfe Bad Breisig und Sinzig (Rhein) mit jeweils 14,5 Minuten. Den zehnten Platz belegt der Bahnhof Zeesen mit einer durchschnittlichen Verspätung von 12,3 Minuten.

Interpretation

Sehen Sie ein geografisches Muster?
Die Analyse der zehn unpünktlichsten Bahnhöfe zeigt, dass Verspätungen nicht gleichmäßig über das deutsche Schienennetz verteilt sind, sondern sich auf bestimmte Regionen und Streckenabschnitte konzentrieren. Auffällig ist insbesondere eine geografische Häufung mehrerer Bahnhöfe im Rheinland und im Westen Deutschlands.

Dieses Muster deutet darauf hin, dass Verspätungen weniger durch isolierte lokale Probleme entstehen, sondern vielmehr durch strukturelle Engpässe auf stark frequentierten Korridoren des Regionalverkehrs. Die Region des Rheinlands zählt zu den am dichtesten besiedleten und verkehrlich am stärksten belasteten Räumen des Landes. Hier überlagern sich Regional-, Fern- und Güterverkehr auf vergleichsweise begrenzter Infrastruktur, was die Störanfälligkeit des Netzes deutlich erhöht. Bereits kleinere Störungen, etwa verspätete Zubringerzüge, hohe Fahrgastwechselzeiten oder kurzfristige Betriebsstörungen, können sich auf stark frequentierten Linien schnell ausbreiten und zu systematischen Verspätungen führen. Die enge Taktung des Regionalverkehrs verstärkt diesen Effekt zusätzlich, da Verspätungen kaum aufgeholt werden können und sich entlang der gesamten Strecke fortpflanzen.

Handelt es sich um große Knotenbahnhöfe oder eher um kleinere Stationen?
Bemerkenswert ist zudem, dass es sich bei den identifizierten Bahnhöfen überwiegend nicht um große nationale Knotenbahnhöfe handelt, sondern um kleinere Stationen. Dies spricht dafür, dass Verspätungen häufig nicht am eigentlichen Bahnhof verursacht werden, sondern aus dem umliegenden Netz „mitgebracht“ werden. Störungen auf stark belasteten Strecken setzen sich entlang der Linie fort und schlagen sich an allen nachfolgenden Halten nieder, insbesondere bei dicht getakteten Regionalverbindungen. Gerade kleinere Stationen verfügen in der Regel über kaum betriebliche Puffer, etwa zusätzliche Gleise, Überholmöglichkeiten oder flexible Fahrplanreserven. Verspätete Züge können dort daher nur selten aufgefangen oder ausgeglichen werden.

Im Gegensatz dazu bieten große Knotenbahnhöfe häufig mehr infrastrukturelle und betriebliche Möglichkeiten, um Verspätungen zumindest teilweise abzufedern, beispielsweise durch längere Aufenthaltszeiten, alternative Gleisbelegungen oder Priorisierungen im Betriebsablauf. Kleinere Stationen sind hingegen stärker von der Stabilität der gesamten Strecke abhängig. Kommt es auf einem stark belasteten Abschnitt zu Verzögerungen, schlagen sich diese unmittelbar an allen folgenden Halten nieder, insbesondere im dicht getakteten Regionalverkehr.

Fazit
Die Ergebnisse legen nahe, dass einzelne Problembahnhöfe zwar identifizierbar sind, diese jedoch eher als Symptome übergeordneter Netzprobleme zu verstehen sind. Statt punktueller Maßnahmen an einzelnen Stationen scheinen daher systemische Lösungsansätze erforderlich zu sein, etwa eine Entlastung stark genutzter Strecken, eine bessere Trennung von Fern-, Güter- und Regionalverkehr oder eine stabilere Fahrplangestaltung in Ballungsräumen. Insgesamt zeigt die Grafik, dass die Ursachen für Verspätungen räumlich konzentriert, aber strukturell bedingt sind.


Wo treffen viele Pendler auf eine unpünktliche Bahn?

Bisher haben Sie Pendler- und Bahndaten getrennt betrachtet. Aber die spannende Frage ist: Wo kommen beide Probleme zusammen? Eine Stadt mit vielen Pendlern und einer unpünktlichen Bahn hat ein größeres Problem als eine Stadt mit wenigen Pendlern und einer unpünktlichen Bahn.

Um diese Frage zu beantworten, müssen Sie die Datensätze verknüpfen. Das Problem: Die Bahndaten sind auf Bahnhofsebene, die Pendlerdaten auf Kreisebene. Sie benötigen ein Mapping, das Bahnhöfe den entsprechenden Kreisen zuordnet.

  1. In dieser Aufgabe verknüpfen Sie die Bahn- und Pendlerdaten, um Städte mit Handlungsbedarf zu identifizieren. Nutzen Sie für ihre Analysen die Datensätze: bahn, pendler und bahnhof_mapping.

Das Mapping ordnet Bahnhöfe ihrem Landkreis zu (via AGS = Amtlicher Gemeindeschlüssel). Ihr Ziel: Identifizieren Sie Städte, in denen viele Pendler auf eine unpünktliche Bahn treffen.

\[\text{Problem-Score} = z(\text{Einpendler}) + z(\text{Verspätung})\]

Die z-Standardisierung macht die Werte vergleichbar: \(z(x) = \frac{x - \bar{x}}{s_x}\), wobei \(\bar{x}\) der Mittelwert und \(s_x\) die Standardabweichung ist.

Interpretation: Ein hoher Problem-Score = Viele Pendler + hohe Verspätung = Handlungsbedarf.

Anschließend sollten Sie eine Tabelle der Top 10 Städte nach Problem-Score darstellen und diese kurz beschreiben.


Top 10 Städte nach Problem-Score 2025 (viele Einpendler + unpünktliche Bahn)
Stadt Einpendler Gew. Ø-Verspätung (Min) Problem-Score
München, Landeshauptstadt 455.645 5,98 3,45
Köln, Stadt 306.905 7,89 3,05
Düsseldorf, Stadt 284.696 7,33 2,55
Frankfurt am Main, Stadt 405.856 5,14 2,54
Berlin, Stadt 392.324 4,70 2,18
Hamburg, Freie und Hansestadt 392.951 4,44 2,05
Duisburg, Stadt 86.735 8,81 1,46
Hamm, Stadt 22.447 9,93 1,45
Stuttgart, Landeshauptstadt 274.442 5,30 1,38
Bonn, Stadt 112.607 8,00 1,28

Beschreibung

Die Tabelle zeigt die zehn Städte in Deutschland mit den höchsten Problem-Scores im November 2025, absteigend sortiert. Der Problem-Score ist ein Indikator dafür, in welchen Städten besonders viele Pendler von gleichzeitig hohen Verspätungen im Bahnverkehr betroffen sind. Er berechnet sich aus der Addition der z-standardisierten Werte von Einpendlerzahl und durchschnittlicher Zugverspätung. Für jede Stadt werden die absolute Zahl der Einpendler, die gewichtete Durchschnittsverspätung in Minuten und der Problem-Score angegeben.

München führt das Ranking mit einem Problem-Score von 3,45 an. Obwohl die durchschnittliche Verspätung dort mit etwa 6 Minuten nicht die höchste ist, erreicht die Stadt aufgrund der sehr hohen Pendlerzahl den Spitzenwert. Städte wie Köln und Düsseldorf weisen ebenfalls hohe Problem-Scores auf, da hier sowohl viele Pendler als auch überdurchschnittliche Verspätungen zusammenkommen. Im Gegensatz dazu erzielen Städte wie Hamm, Duisburg und Bonn hohe Problem-Scores trotz vergleichsweise geringer Pendlerzahlen – hier ist vor allem die große Verspätung der Züge ausschlaggebend. In Hamm liegt die Verspätung sogar bei fast 10 Minuten, während die Einpendlerzahl mit 22.447 vergleichsweise deutlich geringer ist.

Interpretation

Ein hoher Problem-Score signalisiert, dass in der betreffenden Stadt sowohl viele Menschen auf den Bahnverkehr angewiesen sind als auch die Züge im Durchschnitt stark verspätet sind. Städte wie München, Köln und Düsseldorf kombinieren eine große Pendlerzahl mit überdurchschnittlichen Verspätungen – hier ist der Handlungsbedarf besonders hoch, da viele Pendler täglich direkt von Unpünktlichkeit betroffen sind.

Die Analyse verdeutlicht insgesamt, dass Maßnahmen zur Verbesserung der Pünktlichkeit des Bahnverkehrs dort den größten Nutzen bringen, wo gleichzeitig viele Menschen pendeln. Ein hoher Problem-Score identifiziert also die Städte, in denen Investitionen in Infrastruktur, Taktverdichtung oder Störungsmanagement den größten Beitrag zur Entlastung der Pendler leisten würden.


  1. Erstellen Sie ein Streudiagramm (Scatterplot), das die Beziehung zwischen Einpendlerzahl (x-Achse) und durchschnittlicher Verspätung (y-Achse) visualisiert.

Beschreiben und interpretieren Sie die vier Quadranten:

Beantworten Sie dabei auch folgende Fragen:


Beschreibung

Das Streudiagramm zeigt die Beziehung zwischen der Anzahl der Einpendler auf der x-Achse und der durchschnittlichen Verspätung auf der y-Achse für deutsche Städte. Die x-Achse ist logarithmisch skaliert. Zwei gestrichelte Linien markieren die Mittelwerte: die Einpendlerzahl bei über 100.000 und die durchschnittliche Verspätung bei knapp unter 6 Minuten. Dadurch wird die Grafik in vier Quadranten unterteilt. Die Punkte sind entsprechend der Quadranten eingefärbt: oben rechts rot für viele Pendler und hohe Verspätungen, oben links blau für wenige Pendler und hohe Verspätungen, unten rechts orange für viele Pendler und niedrige Verspätungen und unten links grün für wenige Pendler und niedrige Verspätungen. Die Städte München, Köln und Düsseldorf, die den höchsten Problem-Score aufweisen, sind hervorgehoben. Es fällt auf, dass die Mehrheit der Städte links von der vertikalen gestrichelten Linie des Einpendlerdurchschnitts liegt und somit tendenziell weniger Pendler aufweist. Außerdem zeigt sich, dass der untere rechte Quadrant vergleichsweise wenige Städte enthält.

Interpretation

Quadrant - oben rechts
Städte in diesem Quadranten haben sowohl eine sehr hohe Anzahl an Pendlern als auch überdurchschnittliche Verspätungen. Der Bahnverkehr ist hier besonders stark belastet, da eine große Zahl von Menschen täglich unterwegs ist. Hohe Verspätungen wirken sich daher auf besonders viele Pendler aus und können erhebliche volkswirtschaftliche Kosten verursachen, wie etwa durch verlorene Arbeitszeit. Gründe für die hohen Verspätungen können unter anderem eine hohe Auslastung der Strecken, Engpässe im Schienennetz, betriebliche Störungen, unzureichende Kapazitäten im ÖPNV sowie wetterbedingte oder technische Probleme sein. Städte in diesem Bereich stellen die größten Problemfälle dar und sollten daher bei Investitionen in Infrastruktur und Verkehrsmanagement priorisiert berücksichtigt werden. München, Köln und Düsseldorf sind Beispiele für Städte in diesem Quadranten, in denen diese Effekte besonders deutlich sichtbar sind.

Quadrant - oben links
Städte in diesem Quadranten haben vergleichsweise wenige Pendler, trotzdem treten überdurchschnittliche Verspätungen auf. Dies könnte darauf hinweisen, dass die Verkehrs- oder Infrastrukturprobleme nicht nur durch die Menge der Pendler bedingt sind, sondern möglicherweise auch durch Engpässe oder Störungen im Verkehrssystem. Für die betroffenen Städte stellt dies lokal ein bedeutendes Problem dar, da die Verspätungen den Pendlerverkehr stark beeinträchtigen. Aufgrund der vergleichsweise geringen Zahl der Betroffenen ist die gesamtwirtschaftliche Bedeutung dieser Verspätungen jedoch insgesamt begrenzt.

Quadrant - unten rechts
Städte in diesem Quadranten bewältigen trotz hoher Pendlerzahlen die Verkehrslast vergleichsweise effizient. Die Verspätungen bleiben unter dem Mittelwert, was auf gut funktionierende Verkehrswege, einen zuverlässigen ÖPNV oder effektive Pendlerlogistik hinweisen kann. In diesem Quadranten befinden sich nur wenige Städte, und diese liegen oft nahe an der Grenze zum Quadranten oben rechts mit hohen Verspätungen. Dies deutet darauf hin, dass Städte mit höherer absoluter Belastung tendenziell schwerer auf Pünktlichkeit zu optimieren sind.

Quadrant - unten links
Städte in diesem Quadranten haben sowohl eine geringe Zahl an Pendlern als auch niedrige Verspätungen. Der Bahnverkehr ist hier nur wenig belastet und verläuft vergleichsweise pünktlich. Für die betroffenen Städte ist der Pendlerverkehr lokal gut bewältigt, wodurch die Verspätungen kaum Probleme verursachen. Im Hinblick auf Investitionen in die Infrastruktur sind diese Städte aufgrund der geringen Belastung und der bereits zufriedenstellenden Pünktlichkeit für einen positiven wirtschaftlichen Effekt weitgehend irrelevant.

Warum ist es sinnvoll die x-Achse zu logarithmieren?
Es ist sinnvoll, die x Achse logarithmisch zu skalieren, weil die Einpendlerzahlen stark zwischen Städten variieren von wenigen Hundert bis zu mehreren Hunderttausend. Ohne logarithmische Skalierung würden Städte mit sehr hohen Einpendlerzahlen die Darstellung stark verzerren und kleine Städte kaum sichtbar sein. Durch die logarithmische Skala wird diese breite Verteilung gestaucht, sodass sowohl kleine als auch große Städte übersichtlich im Diagramm dargestellt werden können.

Welche Städte liegen im kritischen Quadranten?
Die Städte, die im kritischen Quadranten liegen, also solche mit vielen Pendlern und hohen Verspätungen, sind München, Köln, Düsseldorf, Bonn, Essen, Dortmund, Hannover, Mannheim und Bremen. Sie befinden sich alle im oberen rechten Quadranten und sind jeweils rot eingefärbt. Vor allem bei diesen Städten besteht besonderer Handlungsbedarf, um den Bahnverkehr effizienter zu gestalten und die Verspätungen zu verringern.

Was würden Sie der Deutschen Bahn empfehlen?
Auf Grundlage der Analyse der Pendlerzahlen und Verspätungen sollte die Deutsche Bahn ihren Fokus besonders auf Städte im oberen rechten Quadranten legen, wie München, Köln und Düsseldorf. In diesen Städten ist der Bahnverkehr stark belastet, und hohe Verspätungen wirken sich auf besonders viele Pendler aus, wodurch erhebliche volkswirtschaftliche Kosten entstehen. Investitionen sollten daher priorisiert in die Erhöhung der Kapazitäten, Optimierung der Betriebsabläufe, Verbesserung der Infrastruktur und Reduzierung von Engpässen fließen.

Für Städte im oberen linken Quadranten könnten punktuelle Maßnahmen sinnvoll sein, um lokale Verspätungen zu verringern, auch wenn die gesamtwirtschaftliche Wirkung begrenzt ist. Städte im unteren rechten Quadranten zeigen, dass auch bei hoher Pendlerzahl ein effizienter Bahnverkehr möglich ist. Ihre erfolgreichen Abläufe und Organisationsstrukturen könnten auf andere Regionen übertragen werden, um dort die Pünktlichkeit zu verbessern. Städte im unteren linken Quadranten benötigen aktuell keine vorrangigen Maßnahmen, da der Bahnverkehr wenig belastet ist und die Pünktlichkeit hoch ist.

Insgesamt empfiehlt sich ein priorisierter, zielgerichteter Einsatz von Investitionen und Kapazitätsmaßnahmen, wobei die höchsten Effekte in Städten mit hoher Belastung und hoher Verspätung zu erwarten sind.


Der Vergleich – Auto vs. Bahn

Sie haben nun identifiziert, wo die Bahn Probleme hat: Städte im kritischen Quadranten (viele Pendler + hohe Verspätungen) brauchen dringend Verbesserungen. Aber bevor Sie Empfehlungen aussprechen können, müssen Sie eine zentrale Frage beantworten:

Lohnt sich die Bahn überhaupt – oder ist das Auto trotz Stau schneller?

Denn selbst wenn die Bahn unpünktlich ist, könnte sie immer noch schneller sein als das Auto im Berufsverkehr. Umgekehrt: Eine pünktliche Bahn bringt wenig, wenn das Auto trotzdem schneller ist. Erst der direkte Vergleich zeigt uns, wo die Bahn wirklich konkurrenzfähig ist – und wo nicht.

Methodische Herausforderungen

Für einen fairen Vergleich sollten Sie “Äpfel mit Äpfeln” vergleichen:

  • Beim Auto muss der Stau berücksichtigt werden (nicht nur die theoretische Fahrzeit)
  • Bei der Bahn muss die Verspätung berücksichtigt werden (nicht nur der Fahrplan)
  • Beide Routen müssen dieselben Start- und Endpunkte haben

Für die Auto-Fahrtzeiten nutzen Sie OSRM (Open Source Routing Machine), das auf OpenStreetMap-Daten basiert. OSRM berechnet echte Straßenrouten, keine Luftlinien.

  1. Erklären Sie in eigenen Worten:
  • Warum ist OSRM-Routing für diesen Vergleich besser geeignet als eine einfache Berechnung nach der Formel Distanz / Geschwindigkeit?
  • Welche Faktoren müssen zusätzlich berücksichtigt werden, um einen realistischen Vergleich zu ermöglichen? Denken Sie an:
    • Tageszeit
    • Parkplatzsuche
    • Fußweg zum Ziel
    • Wartezeit und Umsteigen bei der Bahn

Warum ist OSRM-Routing für diesen Vergleich besser geeignet?

Eine Berechnung nach der Formel Distanz / Geschwindigkeit liefert nur eine theoretische Fahrzeit und ignoriert die Realität auf den Straßen. In der Praxis hängen Autofahrten von vielen Faktoren ab: Verkehrsaufkommen, Ampeln, Baustellen, unterschiedliche Straßenarten und Geschwindigkeitsbegrenzungen beeinflussen die tatsächliche Fahrzeit stark.

OSRM verwendet hingegen echte Straßenkarten und Routing-Algorithmen. Dadurch kann es realistische Routen berechnen, die den Straßenverlauf, die erlaubten Geschwindigkeiten und die Streckenstruktur berücksichtigen. Zusätzlich lässt sich OSRM mit historischen oder aktuellen Verkehrsdaten kombinieren, sodass auch Staus und Verzögerungen in die Berechnung einfließen.

Durch diese detaillierte Simulation liefert OSRM deutlich genauere Fahrzeiten als eine einfache Formel. Für einen Vergleich zwischen Auto und Bahn ist es daher besser geeignet, weil es die tatsächlichen Bedingungen auf der Straße abbildet und nicht nur eine theoretische Annahme trifft.

Welche Faktoren müssen für einen realistischen Vergleich zusätzlich berücksichtigt werden?

Tageszeit
Die Tageszeit beeinflusst die Reisezeit erheblich. In Stoßzeiten können Straßen stark überlastet sein, während außerhalb der Hauptverkehrszeiten die Fahrzeiten deutlich kürzer sind. Ebenso variiert die Verfügbarkeit von Zügen und ihre Pünktlichkeit je nach Tageszeit, weshalb ein Vergleich nur dann realistisch ist, wenn die typische Pendelzeit berücksichtigt wird.

Parkplatzsuche
Beim Autofahren muss oft die Zeit berücksichtigt werden, die für die Suche nach einem Parkplatz nötig ist. Besonders in Innenstädten kann das Finden eines freien Stellplatzes mehrere Minuten dauern. Diese Zeit ist Teil der gesamten Reisezeit und darf nicht vernachlässigt werden, wenn man Auto und Bahn direkt vergleichen möchte.

Fußweg zum Ziel
Sowohl beim Auto als auch bei der Bahn fällt meist ein Fußweg vom Parkplatz oder Bahnhof zum endgültigen Ziel an. Je nach Entfernung und Gelände kann dieser Weg mehrere Minuten in Anspruch nehmen. Für einen fairen Vergleich muss daher die gesamte „Tür-zu-Tür“-Zeit betrachtet werden, nicht nur die Zeit im Fahrzeug oder Zug.

Wartezeit und Umsteigen bei der Bahn
Bei der Bahn kommen zusätzliche Faktoren wie Wartezeiten auf den nächsten Zug und Umsteigezeiten hinzu. Je nach Taktung kann die Wartezeit mehrere Minuten betragen, und längere Laufwege beim Umsteigen verlängern die Gesamtfahrtzeit. Dies ist besonders relevant, wenn regelmäßig lange Wartezeiten durch verpasste Anschlüsse oder durch stark verspätete oder ausgefallene Züge entstehen. Auch diese Zeit muss in die Berechnung einbezogen werden, um die Bahn realistisch mit dem Auto vergleichen zu können.


  1. Für die Top 10 Einpendler-Städte wurden typische Pendlerstrecken definiert (z.B. Dachau \(\rightarrow\) München, Neuss \(\rightarrow\) Düsseldorf). Die OSRM-Ergebnisse liegen bereits vor. Nutzen Sie für ihre Analyse den Datensatz fahrtzeit.

Erstellen Sie:

  • Eine Tabelle mit: Stadt, Strecke, Distanz (km), Auto-Fahrzeit (Hauptverkehrszeit), Bahn-Fahrzeit (real), Differenz
  • Berechnen Sie die jährliche Zeitersparnis bei 220 Arbeitstagen und 2x täglichem Pendeln.

Interpretieren Sie ihre Tabelle:

  • In wie vielen Fällen ist die Bahn schneller als das Auto?
  • Wie viele Stunden pro Jahr kann ein Pendler maximal sparen?
  • Gibt es Strecken, bei denen das Auto schneller ist? Woran könnte das liegen?

Pendlerstrecken: Auto vs. Bahn – Fahrzeiten und jährliche Zeitersparnis
Stadt Strecke Distanz (km) Auto-Fahrzeit (HVZ, min) Bahn-Fahrzeit (real, min) Differenz (min) Zeitersparnis/Jahr (h)
Berlin Potsdam → Berlin 34,2 49,3 29,6 19,7 144,6
München Dachau → München 19,1 40,2 26,1 14,1 103,5
Hannover Celle → Hannover 42,2 54,4 40,8 13,6 99,8
Frankfurt Darmstadt → Frankfurt 36,0 35,8 23,0 12,8 93,9
Düsseldorf Neuss → Düsseldorf 12,1 27,1 17,1 10,0 73,3
Hamburg Harburg → Hamburg 14,2 24,0 16,3 7,7 56,7
Stuttgart Esslingen → Stuttgart 14,0 27,2 20,2 7,0 51,6
Nürnberg Fürth → Nürnberg 10,4 18,9 12,9 6,0 44,4
Köln Leverkusen → Köln 18,3 28,7 22,8 5,9 43,3
Essen Mülheim → Essen 11,0 18,0 15,3 2,7 20,1
Ulm Neu-Ulm → Ulm 3,7 8,1 8,9 -0,8 -5,8

Beschreibung

Die Tabelle zeigt für typische Pendlerstrecken der Top 10 Einpendler-Städte sowie für Ulm die Distanz in Kilometern, die durchschnittliche Autofahrzeit während der Hauptverkehrszeit und die reale Bahnfahrzeit inklusive Verspätungen in Minuten. Zusätzlich werden die Zeitdifferenz zwischen Auto und Bahn sowie die daraus resultierende jährliche Zeitersparnis bei 220 Arbeitstagen und zwei Fahrten pro Tag dargestellt. Positive Differenzen weisen auf einen Zeitvorteil der Bahn hin, negative auf einen Vorteil des Autos.

Die größte jährliche Zeitersparnis zugunsten der Bahn zeigt sich auf der Strecke Potsdam → Berlin mit rund 145 Stunden pro Jahr. Die geringste Zeitdifferenz findet sich auf der Verbindung Neu-Ulm → Ulm, wo sich für die Bahn ein Zeitnachteil von etwa 6 Stunden pro Jahr ergibt. Die betrachteten Pendlerstrecken weisen Distanzen zwischen 3,7 Kilometern (Neu-Ulm → Ulm) und 42,2 Kilometern (Celle → Hannover) auf. Die durchschnittlichen Autofahrzeiten in der Hauptverkehrszeit reichen dabei von 8,1 bis 54,4 Minuten, während die realen Bahnfahrzeiten inklusive Verspätungen zwischen 8,9 und 40,8 Minuten liegen.

Interpretation

Die Ergebnisse verdeutlichen, dass der Bahnverkehr auf vielen wichtigen Pendlerstrecken selbst unter Berücksichtigung realer Verspätungen deutliche Zeitvorteile gegenüber dem Auto bietet. Besonders auf mittleren bis längeren Distanzen zeigt sich, dass der Straßenverkehr in der Hauptverkehrszeit stark durch Staus und hohe Verkehrsdichte geprägt ist, was die Autofahrzeiten erheblich verlängert. Die Bahn kann diese Nachteile häufig kompensieren, da sie weniger direkt von Stauereignissen betroffen ist und dadurch insgesamt planbarere Reisezeiten ermöglicht.

In wie vielen Fällen ist die Bahn schneller als das Auto?
In 10 von 11 betrachteten Pendlerstrecken ist die Bahn schneller als das Auto. Dieses Ergebnis verdeutlicht, dass die Bahn insbesondere auf mittleren und längeren Pendlerstrecken ihre Stärken ausspielen kann. Während der Autoverkehr in den betrachteten Regionen häufig durch Staus, hohe Verkehrsdichte und Verzögerungen in der Hauptverkehrszeit beeinträchtigt wird, bleibt die Bahn vergleichsweise weniger von diesen straßenbedingten Engpässen betroffen. Dadurch ergeben sich selbst unter Berücksichtigung realer Verspätungen häufig kürzere Reisezeiten mit der Bahn.

Gibt es Strecken, bei denen das Auto schneller ist? Woran könnte das liegen?
In der betrachteten Auswahl ist das Auto nur auf der Strecke Neu-Ulm → Ulm geringfügig schneller als die Bahn. Mit etwa 8,1 Minuten liegt die Autofahrzeit in der Hauptverkehrszeit knapp unter der realen Bahnfahrzeit von rund 8,9 Minuten, wodurch sich für die Bahn lediglich ein geringer jährlicher Zeitnachteil von wenigen Stunden ergibt.

Dieser Befund lässt sich vor allem durch die sehr kurze Distanz von nur 3,7 Kilometern erklären. Auf solch kurzen Strecken fallen Faktoren wie Zugangs- und Abgangszeiten, Haltezeiten am Bahnhof sowie das Warten auf die Bahn verhältnismäßig stärker ins Gewicht. Zudem bewegen sich beide Verkehrsmittel in einem stark verdichteten innerstädtischen Raum, in dem weder der Bahn- noch der Autoverkehr größere Geschwindigkeitsvorteile ausspielen kann. Insgesamt deutet dies darauf hin, dass das Auto vor allem auf sehr kurzen Distanzen und in Regionen mit vergleichsweise geringem Pendleraufkommen einen leichten Zeitvorteil haben kann. Dies trifft insbesondere auf Ulm zu, das als einzige betrachtete Stadt nicht zu den Top-10-Einpendlerstädten gehört und daher geringere Verkehrsbelastungen und Stauwerte im Straßenverkehr aufweist. Auf längeren Strecken sowie in stark frequentierten Pendlerkorridoren mit hoher Stauanfälligkeit entfaltet die Bahn ihre zeitlichen Vorteile dagegen deutlich stärker.

Wie viele Stunden pro Jahr kann ein Pendler maximal sparen?
Die Analyse der Top-Pendlerstrecken zeigt, dass der größte jährliche Zeitvorteil der Bahn auf der Strecke Potsdam → Berlin liegt, mit rund 145 Stunden pro Jahr. Dies entspricht etwa 20 Minuten pro Fahrt im Vergleich zum Auto. Auf den meisten anderen Strecken können Pendler ebenfalls deutlich Zeit sparen, wobei die Einsparungen stark von der Streckenlänge, dem Pendleraufkommen und der Stauanfälligkeit des Straßenverkehrs abhängen.

Insgesamt legt die Analyse nahe, dass die Bahn insbesondere auf längeren und stark belasteten Pendlerachsen eine leistungsfähige und zeiteffiziente Alternative zum Auto darstellt. Auch wenn individuelle Zusatzzeiten wie der Weg zum Bahnhof oder vom Zielbahnhof zum Arbeitsplatz nicht berücksichtigt sind, zeigen die Ergebnisse, dass der Bahnverkehr für viele Pendler erhebliche Zeitgewinne ermöglicht und damit einen wichtigen Beitrag zur Entlastung des Straßenverkehrs leisten kann.


  1. Da Sie alle in Ulm studieren und eventuell aus dem Ulmer Umland einpendeln, sollten Sie die 5 wichtigsten Pendlerrouten nach Ulm näher analysieren. Stellen Sie in einem Dumbbell-Chart (oder Lollipop-Chart) die Unterschiede zwischen Auto- und Bahnzeiten visuell dar. Nutzen Sie für ihre Analyse den Datensatz ulm_routen.

Die 5 wichtigsten Pendlerrouten nach Ulm sind:

  • Neu-Ulm \(\rightarrow\) Ulm
  • Blaustein \(\rightarrow\) Ulm
  • Ehingen \(\rightarrow\) Ulm
  • Laupheim \(\rightarrow\) Ulm
  • Langenau \(\rightarrow\) Ulm

Markieren Sie, welche Orte keinen Bahnhof haben.

Beschreiben und interpretieren Sie ihre Grafik. Welche Besonderheiten zeigen die ländlichen Strecken?

Hinweis: Nutzen Sie geom_segment() und geom_point() für ihr Dumbbell-Chart oder Lollipop-Chart.


Beschreibung

Der Dumbbell-Chart zeigt die Pendelzeiten (in Minuten) für Auto und Bahn auf den fünf wichtigsten Routen nach Ulm: Neu-Ulm, Blaustein, Ehingen, Laupheim und Langenau. Jeder blaue Punkt steht für die Fahrzeit mit dem Auto, jeder rote Punkt für die Zeit mit der Bahn. Dabei basieren die Autodaten auf Fahrzeiten in der Hauptverkehrszeit, während bei den Bahnfahrzeiten Verspätungen berücksichtigt sind.

Eine Besonderheit zeigt sich bei der Strecke Blaustein → Ulm: Blaustein verfügt über keinen Bahnhof, daher basieren die Bahnwerte hier auf anderen ÖPNV-Verbindungen wie Buslinien.

Auf den ersten Blick erkennt man, dass die Bahn auf den meisten Strecken die deutlich schnellere Option ist. Der größte Unterschied besteht auf der Strecke Langenau → Ulm: Hier dauert die Fahrt mit der Bahn etwa 15 Minuten, mit dem Auto ungefähr 26 Minuten – eine Zeitersparnis von 11 Minuten für Bahnfahrende. Auch auf kürzeren Strecken wie Neu-Ulm → Ulm spart man mit der Bahn Zeit, wobei die Zeitersparnis in diesem Fall lediglich knapp eine Minute beträgt.

Die einzige Ausnahme bildet Blaustein → Ulm, wo das Auto minimal schneller ist. Der Zeitvorteil beträgt hier allerdings nur rund 1,5 Minuten. Da Blaustein über keinen Bahnhof verfügt, werden die Bahnzeiten in diesem Fall durch Busverbindungen abgebildet. Für Strecken, die über einen Bahnhof verfügen, zeigen die Daten insgesamt, dass die Bahn kürzere Fahrzeiten als das Auto aufweist.

Interpretation

Die Gegenüberstellung der Pendelzeiten verdeutlicht, dass der Bahnverkehr auf den wichtigsten Routen nach Ulm selbst unter Berücksichtigung realer Verspätungen eine sehr wettbewerbsfähige Alternative zum Auto darstellt. Dass die Bahn auf mehreren Strecken schneller ist, obwohl die Autowerte bereits die Hauptverkehrszeit abbilden, spricht für die Effizienz des schienengebundenen Verkehrs in stark belasteten Pendlerachsen. Dies deutet darauf hin, dass der Straßenverkehr in diesen Korridoren stark durch Staus und hohe Verkehrsdichte geprägt ist, wodurch sich Autofahrzeiten deutlich verlängern.

Die Ergebnisse machen zudem sichtbar, dass der Bahnverkehr weniger stark von kurzfristigen Überlastungen betroffen ist als der Individualverkehr. Während sich Staus im Straßenverkehr insbesondere in den Pendelzeiten deutlich auf die Fahrdauer auswirken und zu starken Zeitverlusten führen, nehmen die Reisezeiten im Bahnverkehr zwar ebenfalls zu, allerdings in geringerem Ausmaß. Insbesondere auf längeren Strecken wie Langenau → Ulm zeigt sich, dass sich Stauanfälligkeit im Autoverkehr deutlich stärker auf die Pendelzeit auswirkt als betriebliche Verzögerungen im Bahnverkehr.

Auf der sehr kurzen Relation Neu-Ulm → Ulm fällt der Zeitunterschied zwischen Auto und Bahn dagegen gering aus. Dies deutet darauf hin, dass auf kurzen innerstädtischen Strecken sowohl der Straßenverkehr als auch der Bahnverkehr ähnlichen verkehrlichen Rahmenbedingungen unterliegen. Ampelphasen, innerstädtische Verkehrsverdichtung und kurze Fahrdistanzen begrenzen hier das Zeitersparnispotenzial der Bahn, sodass sich beide Verkehrsmittel in ihrer Reisezeit annähern. Gleichzeitig zeigt der geringe Unterschied, dass selbst auf kurzen Distanzen keine deutlichen Zeitvorteile für den Autoverkehr entstehen.

Die Sonderstellung der Strecke Blaustein → Ulm unterstreicht zugleich die Bedeutung einer direkten Bahnanbindung. Dass hier das Auto geringfügig schneller ist, lässt sich weniger als genereller Nachteil des Bahnverkehrs interpretieren, sondern vielmehr als Folge der fehlenden Schieneninfrastruktur. Die Abhängigkeit von Busverbindungen führt offenbar zu längeren oder weniger effizienten Reisezeiten, was verdeutlicht, wie stark die Attraktivität des öffentlichen Verkehrs von der vorhandenen Infrastruktur abhängt.

Insgesamt legen die Ergebnisse nahe, dass dort, wo eine funktionierende Bahninfrastruktur vorhanden ist, die Bahn eine leistungsfähige Option für den Pendelverkehr darstellt. Auch wenn Pendler die Wegezeiten zu und von den Bahnhöfen berücksichtigen müssen, bleibt die Bahn auf den untersuchten Strecken eine zeitlich konkurrenzfähige Alternative zum Auto. Die Analyse verdeutlicht damit das Potenzial gezielter Investitionen in Bahnangebote und Anbindungen, um den Autoverkehr im Raum Ulm zu reduzieren und Pendlern eine effiziente Mobilitätsoption zu bieten.


Die volkswirtschaftlichen Kosten

Verspätungen kosten nicht nur Nerven, sie haben einen realen volkswirtschaftlichen Preis. Jede Minute, die ein Pendler im verspäteten Zug wartet, ist verlorene Arbeitszeit.

Um diese Kosten etwas besser zu quantifizieren sollten Sie sich den Medianlohn der jeweiligen Städte herunterladen und näher analysieren.

  1. Berechnen Sie die volkswirtschaftlichen Kosten der Bahnverspätungen für die 11 Städte.

Datensätze:

Nutzen Sie die folgenden Annahmen:

Annahmen:

Berechnen Sie für jede Stadt:

Erstellen Sie auf Basis ihrer Berechnung eine Tabelle, welche die Anzahl der Bahnpendler, die Verspätungsstunden pro Jahr, die Kosten pro Pendler und die Gesamtkosten der Stadt anschaulich darstellt.

Beschreiben und interpretieren Sie ihre Tabelle. Gehen Sie dabei auch auf die Gesamtkosten der 11 Städte ein. Erklären Sie außerdem, warum der Medianlohn für diese Berechnung besser geeignet ist als der Durchschnittslohn.

Hinweis: Für die Umrechnung auf Stundenlohn: Monatsentgelt / 160 (bei 40h/Woche).


Volkswirtschaftliche Kosten der Bahnverspätungen nach Stadt
Stadt Einpendler Bahnpendler Verspätungsstunden/Jahr Kosten pro Pendler (€) Gesamtkosten der Stadt (Mio. €)
München 455.645 38.274 43,9 1.329 50,86
Köln 306.905 25.780 57,9 1.591 41,01
Frankfurt 405.856 34.092 37,7 1.111 37,88
Düsseldorf 284.696 23.914 53,8 1.520 36,35
Hamburg 392.951 33.008 32,6 922 30,44
Berlin 392.324 32.955 34,5 895 29,51
Stuttgart 274.442 23.053 38,9 1.139 26,25
Essen 141.296 11.869 54,6 1.361 16,15
Nürnberg 165.496 13.902 37,1 981 13,63
Hannover 137.924 11.586 43,8 1.138 13,18
Ulm 68.341 5.741 29,5 795 4,57

Beschreibung

Die Tabelle zeigt die volkswirtschaftlichen Kosten von Bahnverspätungen für die zehn Pendlerstädte mit den höchsten Einpendlerzahlen sowie für Ulm. Für jede Stadt sind die Gesamtzahl der Einpendler, die geschätzte Zahl der Bahnpendler, die jährlichen Verspätungsstunden, die Kosten pro Pendler sowie die Gesamtkosten der Stadt dargestellt. Die Städte sind nach den Gesamtkosten absteigend sortiert. Bei der Berechnung wurden folgende Annahmen zugrunde gelegt: 220 Arbeitstage pro Jahr, zwei Fahrten pro Tag, ein Bahnanteil der Pendler von 8,4 % und der Medianlohn als Stundenlohn.

Die absolute Zahl der Bahnpendler unterscheidet sich, da von einem Bahnanteil von 8,4 % ausgegangen wurde, entsprechend der Einpendlerzahlen der Städte: München weist mit 38.274 Bahnpendlern die höchste Zahl auf, gefolgt von Frankfurt, Hamburg und Berlin.

Die jährlichen Verspätungsstunden liegen in Köln, Düsseldorf und Essen mit jeweils über 50 Stunden am höchsten. Demgegenüber weisen Städte wie Ulm mit 29,5 Stunden sowie Berlin mit 34,5 Stunden deutlich geringere Verspätungszeiten von rund 30 Stunden pro Jahr auf.

Die Kosten pro Pendler unterscheiden sich deutlich zwischen den Städten und liegen zwischen 795 Euro in Ulm und 1.591 Euro in Köln. Die Gesamtkosten der Städte liegen zwischen 4,57 Millionen Euro in Ulm und 50,86 Millionen Euro in München. Weitere hohe Gesamtkosten zeigen Köln (41,01 Mio. €), Frankfurt (37,88 Mio. €) und Düsseldorf (36,35 Mio. €).

Interpretation

Die Tabelle verdeutlicht, dass Bahnverspätungen einen erheblichen volkswirtschaftlichen Schaden verursachen, der stark von der Stadtgröße, der Anzahl der Pendler, der durchschnittlichen Verspätung und dem Lohn abhängt. Städte mit vielen Einpendlern wie München, Köln oder Frankfurt weisen die höchsten Gesamtkosten auf, da hier sowohl viele Pendler betroffen sind als auch die Verspätungen einen größeren Absolutwert erreichen.

Die Kosten pro Pendler variieren ebenfalls, was darauf hinweist, dass Verspätungen und Löhne nicht gleichmäßig über alle Städte verteilt sind. In Städten mit höheren Löhnen, wie München, Frankfurt oder Düsseldorf, schlägt sich jede verlorene Stunde stärker in Geldwerten nieder, weshalb die Kosten pro Pendler im Verhältnis zu den Verspätungsstunden dort höher ausfallen.

In Städten wie Köln, Düsseldorf und Essen fallen die jährlichen Verspätungsstunden besonders hoch aus. Dadurch liegen die Gesamtkosten dieser Städte im Verhältnis zur Zahl der Pendler höher als in Städten mit geringeren Verspätungen, wie Ulm oder Berlin. So weist beispielsweise Berlin trotz einer größeren Zahl an Einpendlern niedrigere Gesamtkosten auf als Köln oder Düsseldorf, da die Verspätungen dort insgesamt geringer sind.

Ulm stellt den unteren Bereich der Skala dar: Mit vergleichsweise wenigen Pendlern und geringeren Verspätungen ergeben sich deutlich niedrigere Gesamtkosten. Dies zeigt, dass sowohl die Anzahl der Betroffenen als auch die Höhe der Verspätungen entscheidend für die volkswirtschaftlichen Auswirkungen sind.

Insgesamt zeigen die Ergebnisse, dass Bahnverspätungen erhebliche volkswirtschaftliche Kosten verursachen, die sich in großen Pendlerstädten auf mehrere zehn Millionen Euro pro Jahr summieren und in Städten wie München bis zu rund 50 Millionen Euro jährlich erreichen. Diese Größenordnung verdeutlicht, dass Verspätungen nicht nur ein individuelles Ärgernis für Pendler darstellen, sondern ein relevantes wirtschaftliches Problem sind. Vor diesem Hintergrund wird die Dringlichkeit deutlich, die Pünktlichkeit und Zuverlässigkeit des Bahnverkehrs gezielt zu verbessern. Maßnahmen zur Reduktion von Verspätungen haben das Potenzial, nicht nur die Pendlerzufriedenheit zu erhöhen, sondern auch erhebliche volkswirtschaftliche Kosten zu senken.

Warum eignet sich der Medianlohn für diese Berechnung besser als der Durchschnittslohn?
Der Medianlohn teilt die Lohnverteilung genau in zwei Hälften: 50 % der Pendler verdienen weniger, 50 % mehr. Er ist daher allgemein robuster gegenüber Ausreißern als der Durchschnittslohn. Bei der Berechnung der volkswirtschaftlichen Kosten von Verspätungen spiegelt der Medianlohn die „typische“ Arbeitszeitbewertung der Mehrheit der Pendler realistischer wider. Würde man den Durchschnitt verwenden, könnten wenige sehr gut verdienende Personen die Kosten unrealistisch stark nach oben verzerren. Der Medianlohn ist daher ein deutlich konservativerer und robusterer Kennwert für die Berechnung des Gesamtverlustes, nicht zuletzt, weil man argumentieren kann, dass Personen mit sehr hohen Einkommen in der Population der Bahnpendler unterrepräsentiert sind.


  1. Setzen Sie die Kosten der Bahn (aus Aufgabe 14) den Kosten des Autos gegenüber. Vergleichen Sie diese in einer Szenario-Analyse mittels eines gestapelten Balkendiagramms. Nutzen Sie für ihre Analysen den Datensatz staedte_basis.

Berechnen Sie zuerst die Kosten des Autostaus pro Stadt:

Führen Sie anschließend einen Szenario-Vergleich durch: Was passiert, wenn der Bahnanteil von 8,4% auf 20% steigt?

Erstellen Sie ein gestapeltes Balkendiagramm nach Szenario. Beschreiben und intepretieren Sie ihre Grafik. Gehen Sie insbesondere auf die folgenden Fragen ein:



Beschreibung

Die beiden gestapelten Balkendiagramme zeigen die Gesamtkosten von Auto- und Bahnverkehr für verschiedene deutsche Städte in zwei Szenarien: dem derzeitigen Zustand mit 8,4 % Bahnanteil und einem Szenario mit erhöhter Bahnquote von 20 %. Die Balken sind gestapelt, wobei rot die Autokosten (vor allem Staukosten) und türkis die Bahnkosten darstellt. Die Städte sind nach den Gesamtkosten des derzeitigen Zustands sortiert.

Die Gesamtkosten variieren stark zwischen den Städten. Im aktuellen Zustand sind sie in München mit fast 800 Millionen Euro am höchsten, gefolgt von Frankfurt und Berlin. In allen Städten überwiegen die Autokosten deutlich die Bahnkosten.

Im Szenario mit 20 % Bahnanteil sinken die Gesamtkosten in allen Städten, beispielsweise auf knapp über 600 Millionen Euro in München. Dabei reduzieren sich die Autokosten, während die Bahnkosten steigen, sodass der Anteil der Bahn an den Gesamtkosten zunimmt. Die Autokosten sind in diesem Szenario jedoch immer noch deutlich höher als die Bahnkosten.

Interpretation

Die Analyse verdeutlicht, dass die größten volkswirtschaftlichen Kosten durch den Autoverkehr entstehen. Die Kombination aus Stauzeiten, Pendlerzahl und Stundenlohn führt zu erheblichen Kosten, die die Bahnkosten um ein Vielfaches übersteigen. Bei einer Erhöhung des Bahnanteils steigen wie erwartet die Bahnkosten, während die Autokosten gleichzeitig sinken, da weniger Autos auf der Straße unterwegs sind und sich dadurch die Staus verringern. Die Gesamtkosten sind besonders in pendlerstarken Städten wie München, Frankfurt und Berlin hoch, weshalb hier auch das größte Einsparpotenzial besteht.

Wie verteilen sich die Kosten zwischen Bahn und Auto im Status quo?
Im derzeitigen Zustand entfällt der überwiegende Teil der Kosten auf den Autoverkehr, etwa 85 bis 95 Prozent der Gesamtkosten, während die Bahn nur einen kleinen Anteil trägt. Dies liegt zum einen daran, dass der Anteil der Autofahrer mit 91,6 % deutlich höher ist als der der Bahnfahrer und zum anderen daran, dass Staus mehr Zeit kosten als Verspätungen bei der Bahn.

Welches Verkehrsmittel verursacht den größeren volkswirtschaftlichen Schaden?
Das Verkehrsmittel, das den größten volkswirtschaftlichen Schaden verursacht, ist eindeutig der Autoverkehr. Stauzeiten multipliziert mit Pendlerzahl und Stundenlohn führen zu einem erheblichen volkswirtschaftlichen Schaden, während die Bahnkosten im Vergleich dazu gering ausfallen. Dies zeigt erneut, dass die Zeitverluste durch Staus im Straßenverkehr deutlich höher sind als Verspätungen im Bahnverkehr. Zudem verdeutlicht der Rückgang der Gesamtkosten bei einer Erhöhung des Bahnanteils, dass das Auto das deutlich schädlichere Verkehrsmittel ist und die zahlreichen Staus zu einem erheblichen volkswirtschaftlichen Schaden führen.

Was ist die Nettoersparnis bei 20% Bahnanteil?
Steigt der Bahnanteil auf 20 %, reduziert sich die Anzahl der Autofahrer, was zu kürzeren Stauzeiten pro Pendler führt (angenommene Reduktion um 20 %). Dadurch sinken die Autokosten stark, während die Bahnkosten nur leicht steigen. Insgesamt ergibt sich in allen Städten eine deutliche Nettoersparnis, besonders in den verkehrsstarken Städten. Die Stadt mit der größten absoluten Nettoersparnis ist München, mit einer Ersparnis von knapp 147 Millionen Euro. Insgesamt ergibt sich bei den Annahmen des Szenarios im Vergleich zum derzeitigen Zustand über alle Städte hinweg eine Nettoersparnis von fast 883 Millionen Euro.

Ein höherer Bahnanteil entlastet somit nicht nur die Straßen, sondern bringt auch deutliche volkswirtschaftliche Effizienzgewinne, da die Einsparungen bei den Autokosten die leicht gestiegenen Bahnkosten deutlich übersteigen. Dies verdeutlicht das Potenzial eines höheren Bahnanteils und zeigt, dass gezielte Anreize geschaffen werden sollten, um Pendler zum Umstieg auf die Bahn zu bewegen.


Politikempfehlung – Ihre Synthese

Sie haben nun umfangreiche Analysen durchgeführt und viele Erkenntnisse über die Bahn gewonnen. Jetzt ist es Zeit, diese zu einer kohärenten Empfehlung zusammenzufügen.

Szenario: Sie sind Berater:in des Bundesministeriums für Digitales und Verkehr. Die Ministerin bittet Sie um eine evidenzbasierte Politikempfehlung zur Verbesserung des Pendlerverkehrs in Deutschland.

  1. Formulieren Sie eine Politikempfehlung für das Bundesministerium für Digitales und Verkehr.

Schreiben Sie eine Executive Summary (max. 5 Sätze). Fassen Sie hierbei die wichtigsten Erkenntnisse aus ihrem Projekt zusammen. Was ist die zentrale Botschaft?

Formulieren Sie 3 konkrete Empfehlungen. Jede muss enthalten:


Executive Summary

Unsere Analyse zeigt, dass Pendler insbesondere in bevölkerungsreichen und pendlerstarken Städten während der Hauptverkehrszeiten mit erheblichen Verzögerungen durch Staus im Straßenverkehr und Verspätungen im Bahnverkehr konfrontiert sind. Trotz dieser Verspätungen ist die Bahn auf stark belasteten Pendlerstrecken häufig schneller als das Auto und ermöglicht erhebliche Zeitgewinne. Die Verspätungen und Staus sind nicht nur für Pendler ärgerlich, sondern verursachen auch hohe volkswirtschaftliche Kosten, da die verlorene Zeit gleichzeitig verlorene Arbeitszeit bedeutet. Die Ergebnisse verdeutlichen, dass das Auto das deutlich schädlichere Verkehrsmittel ist und ein größerer Bahnanteil nicht nur den Straßenverkehr entlastet, sondern auch Nettoersparnisse von mehreren hundert Millionen Euro ermöglicht. Die zentrale Botschaft der Analyse lautet, dass ein höherer Bahnanteil ein großes volkswirtschaftliches Potenzial bietet und gezielte Anreize sowie Investitionen erforderlich sind, um einen nachhaltigen Umstieg vom Auto auf die Bahn zu fördern.

Empfehlung 1: Verspätungen im Berufsverkehr reduzieren

Ziel
Ziel ist es, Bahnverspätungen im Nahverkehr während der Hauptverkehrszeiten deutlich zu reduzieren, um die Zuverlässigkeit und Attraktivität der Bahn als Verkehrsmittel zu erhöhen und das Vertrauen der Pendler in den öffentlichen Verkehr zu stärken. Dadurch soll der Umstieg vom Auto auf die Bahn erleichtert werden, um sowohl umweltbedingte Kosten wie CO₂-Emissionen als auch volkswirtschaftliche Kosten durch Zeitverluste im Pendlerverkehr nachhaltig zu senken.

Maßnahme
Verspätungen sollen durch eine Stabilisierung des Betriebsablaufs im Berufsverkehr gezielt reduziert werden. Dazu sollen Fahrpläne in der Hauptverkehrszeit realistischer gestaltet und mit zusätzlichen Pufferzeiten versehen werden, um Verspätungen nicht auf nachfolgende Verbindungen zu übertragen. Insbesondere sollen auch kritische Streckenabschnitte technisch modernisiert werden, etwa durch den Ausbau von Weichen, Überholmöglichkeiten oder digitalen Stellwerken, um den Betrieb robuster gegenüber kurzfristigen Störungen zu machen.

Begründung mit Zahlen
Unsere Analyse in Aufgabe 7 zeigt, dass Verspätungen im für Pendler relevanten Nahverkehr insbesondere während der Hauptverkehrszeiten morgens von 7 bis 9 Uhr und abends von 18 bis 20 Uhr am höchsten auftreten. Dies verdeutlicht, dass eine Stabilisierung des Bahnverkehrs gerade in diesen kritischen Zeitfenstern besonders wirksam ist. Verspätungen verursachen zudem erhebliche volkswirtschaftliche Kosten. Allein in München belaufen sich diese auf über 50 Millionen Euro (vgl. Aufgabe 14). Eine spürbare Reduktion der Verspätungen würde nicht nur die Reisezeit zuverlässiger machen, sondern auch den Pendlern einen stärkeren Anreiz bieten, auf das Auto zu verzichten. Ein höherer Bahnanteil könnte, wie in Aufgabe 15 gezeigt, zu einer weiteren Reduzierung der volkswirtschaftlichen Kosten um mehrere hundert Millionen Euro führen.

Limitationen
Die vorliegenden Daten enthalten keine Differenzierung nach den Ursachen der Verspätungen. Es lässt sich daher nicht eindeutig bestimmen, inwieweit die Verspätungen durch betriebliche Störungen, Infrastrukturdefizite oder externe Faktoren wie Wetter und Baustellen verursacht werden. Diese Einschränkung erschwert eine gezielte Identifikation der wirksamsten Maßnahmen zur Stabilisierung des Nahverkehrs. Zudem liegen keine Informationen zur Ausstattung der einzelnen Streckenabschnitte mit Überholmöglichkeiten, Weichen oder digitalen Stellwerken vor.

Zusätzliche Daten
Zur Verbesserung der Analyse wären detaillierte Daten zu den Ursachen von Verspätungen erforderlich, etwa Informationen zu Infrastrukturproblemen, Personalausfällen oder externen Störungen.

Empfehlung 2: Priorisierung von Investitionen im Pendlerverkehr

Ziel
Dieses Ziel knüpft an die vorherige Empfehlung an und verfolgt die gezielte Nutzung der verfügbaren Investitionsmittel im Nahverkehr dort, wo sie den größten Nutzen für Pendler und die Volkswirtschaft erzielen. Da meist nicht ausreichend Mittel für eine vollständige Modernisierung aller Strecken zur Verfügung stehen, sollen Investitionen vorrangig in besonders problematischen Pendlerstrecken gebündelt werden, um Verspätungen zu reduzieren, die Attraktivität der Bahn zu steigern und den Umstieg vom Auto auf den öffentlichen Verkehr zu fördern.

Maßnahme
Investitionen sollen systematisch nach klaren Kriterien priorisiert werden. Grundlage hierfür ist eine regelmäßige Bewertung von Pendlerstrecken anhand von Kennzahlen wie Pendleraufkommen, Verspätungen, Zeitersparnispotenzial gegenüber dem Auto und volkswirtschaftlichen Kosten. Strecken mit besonders hohem Nutzenpotenzial sollen bei Infrastrukturmaßnahmen (z.B. zusätzliche Gleise, Überholmöglichkeiten, digitale Stellwerke), beim Ausbau von Fahrzeugkapazitäten und bei betrieblicher Optimierung bevorzugt berücksichtigt werden. Diese Vorgehensweise stellt sicher, dass jede Investition maximale Wirkung auf Pünktlichkeit, Reisezeit und Attraktivität der Bahn erzielt.

Begründung mit Zahlen
Die Ergebnisse aus Aufgabe 10 zeigen, dass nicht alle Städte gleichermaßen von Verspätungen betroffen sind und der Handlungsbedarf stark von der Anzahl der betroffenen Pendler abhängt. Besonders in den Fokus der Investitionen sollten daher Städte mit einem hohen Problem-Score rücken, die sowohl eine große Zahl an Pendlern als auch erhebliche Verspätungen aufweisen. Beispiele hierfür sind München mit dem höchsten Problem-Score von 3,45, gefolgt von Köln (3,05) und Düsseldorf (2,55). Eine gezielte Priorisierung der Investitionen auf solche Problemstrecken ermöglicht eine deutlich effektivere Nutzung der begrenzten Mittel und verspricht die größten Zeit- und Kostengewinne für Pendler und die Volkswirtschaft.

Limitationen
Es liegen keine detaillierten Informationen zu den Kosten einzelner Investitionsmaßnahmen oder zum aktuellen Zustand der Infrastruktur vor, sodass eine vollständige Kosten-Nutzen-Analyse derzeit nicht möglich ist. Auch mögliche verstärkende Effekte und Wechselwirkungen zwischen verschiedenen Maßnahmen, etwa zwischen Streckenausbau und Fahrzeugkapazitäten, können auf Basis der vorhandenen Daten nicht bewertet werden. Eine Priorisierung auf Basis potenzieller volkswirtschaftlicher Kosteneinsparungen ist ebenfalls schwierig, da diese nur geschätzt werden können und stark vom tatsächlichen Bahnanteil abhängen, dessen Entwicklung bei Umsetzung einzelner Maßnahmen derzeit nicht zuverlässig vorhergesagt werden kann.

Zusätzliche Daten
Für eine fundiertere Priorisierung wären detaillierte Informationen zu den Kosten einzelner Investitionsmaßnahmen sowie zum aktuellen Zustand der Infrastruktur erforderlich. Um die potenziellen volkswirtschaftlichen Effekte einzelner Maßnahmen realistisch zu bewerten, wären Informationen zum aktuellen Bahnanteil auf den betroffenen Strecken hilfreich, nicht nur der durchschnittliche Wert. Langfristige Prognosen zur Nachfrage und Belastung könnten zusätzlich genutzt werden, um Investitionen nachhaltig und wirkungsvoll zu planen.

Empfehlung 3: Reduzierung der Gesamtpendlerzeit

Ziel
Das Ziel ist, die Gesamtpendlerzeit zu reduzieren, insbesondere die Wege zwischen Wohnort, Bahnhof und Arbeitsplatz. Viele Pendler nutzen die Bahn, aber ineffiziente Zubringerverbindungen (Bus, Fahrrad, Auto-Parkplätze) verlängern ihre Reise unnötig und machen die Bahn für viele Pendler unattraktiv. Durch eine optimierte multimodale Vernetzung sollen Bahnfahrten komfortabler, schneller und attraktiver werden, sodass mehr Menschen bereit sind, das Auto stehen zu lassen.

Maßnahme
Um dieses Ziel zu erreichen, soll das Angebot an Zubringerverbindungen konsequent ausgebaut werden. Dazu gehören sichere und gut ausgestattete Park-and-Ride-Anlagen an Bahnhöfen, die es Pendlern erleichtern, ihr Auto abzustellen und bequem auf die Bahn umzusteigen, sowie Bike-and-Ride-Systeme mit sicheren Fahrradabstellplätzen, Leihfahrrädern und gut ausgebauten Radwegen zu den Bahnhöfen. Gleichzeitig sollen Zubringerbusse dichter getaktet und auf direkte Verbindungen zu stark frequentierten Pendlerbahnhöfen ausgerichtet werden, unterstützt durch Echtzeitinformationen über digitale Anwendungen. Ergänzend kann eine Pendler-App entwickelt werden, die Bahnfahrten, Busverbindungen, Fahrradstrecken und Parkmöglichkeiten in einer Anwendung bündelt und so eine nahtlose, komfortable Planung der gesamten Pendelstrecke ermöglicht.

Begründung mit Zahlen
Unsere Analyse zeigt, dass die Bahn trotz bestehender Verspätungen auf den meisten Pendlerstrecken in der Hauptverkehrszeit deutlich schneller ist als das Auto. So können auf stark frequentierten Strecken wie Potsdam–Berlin jährlich rund 145 Stunden Reisezeit pro Pendler eingespart werden(vgl. Aufgabe 12). Dennoch liegt der Bahnanteil im Pendlerverkehr lediglich bei 8,4 %, was der Vergleich der Gesamtkosten in Aufgabe 15 verdeutlicht. Dieses Missverhältnis weist darauf hin, dass nicht die eigentliche Fahrzeit, sondern ineffiziente Zubringerverbindungen und zusätzliche Wegezeiten die Attraktivität der Bahn erheblich mindern. Eine verbesserte verkehrmittelübergreifende Vernetzung adressiert genau dieses Hindernis und kann somit einen zentralen Hebel für einen höheren Bahnanteil im Pendlerverkehr darstellen.

Limitationen
Die Datengrundlage umfasst ausschließlich die reinen Fahrzeiten von Bahnverbindungen inklusive Verspätungen sowie die Autofahrzeiten in der Hauptverkehrszeit. Zeiten für Wege vom Wohnort zum Bahnhof und vom Bahnhof zum Arbeitsplatz konnten nicht berücksichtigt werden, obwohl diese einen wesentlichen Einfluss auf die wahrgenommene Attraktivität der Bahn haben. Zudem lässt sich auf Basis der vorliegenden Daten nicht eindeutig bestimmen, ob der geringe Bahnanteil tatsächlich auf längere Zubringerzeiten zurückzuführen ist oder auf andere Faktoren wie Komfort, Flexibilität oder fehlende Infrastruktur. Darüber hinaus liegen keine Informationen darüber vor, in welchem Umfang an einzelnen Bahnhöfen ein Ausbau von Park-and-Ride- oder Bike-and-Ride-Angeboten räumlich oder infrastrukturell überhaupt möglich ist.

Zusätzliche Daten
Für eine fundiertere Bewertung wären detaillierte Daten zu den Zubringerwegen erforderlich, insbesondere zu Fuß-, Fahrrad-, Bus- und Autofahrzeiten zwischen Wohnort, Bahnhof und Arbeitsplatz. Ergänzend könnten Geodaten zu verfügbaren Flächen an Bahnhöfen, bestehender Fahrrad- und Parkplatzinfrastruktur sowie Informationen zur Auslastung von Park-and-Ride- und Bike-and-Ride-Anlagen helfen, realistische Ausbaupotenziale zu identifizieren. Nutzerbefragungen oder anonymisierte Mobilitätsdaten könnten zudem aufzeigen, welche Faktoren Pendler konkret vom Umstieg auf die Bahn abhalten.


Zusatzaufgaben (optional)

Bisher haben Sie zwei Dimensionen betrachtet: Zeit (Bahn ist schneller) und Geld (Verspätungen kosten). Aber es gibt einen dritten, oft vergessenen Aspekt: die Umwelt.

Das Auto ist nicht nur langsamer und teurer; es ist auch ein Klimakiller. Ein durchschnittlicher PKW emittiert z.B. etwa 150 g CO2 pro Personenkilometer.

  1. Recherchieren Sie die CO2-Emissionsfaktoren und das Mobilitätsverhalten:

Hinweis: Nutzen Sie Daten vom Umweltbundesamt oder dem DB Umweltbericht.


CO2-Emissionen (g/Pkm) nach Verkehrsmittel (Daten des Umweltbundesamtes für 2024)
Verkehrsmittel CO2-Emissionen (g/Personenkilometer)
PKW (Durchschnitt) 164,0
PKW (Elektro, deutscher Strommix) 70,0
ICE/IC (Fernverkehr) 26,0
RE/RB (Nahverkehr) 44,0
S-Bahn 42,0
Bahn (gewichtet) 37,9

Beschreibung

Die Tabelle zeigt die CO₂-Emissionen verschiedener Verkehrsmittel in Gramm pro Personenkilometer (g/Pkm) basierend auf den Daten des Umweltbundesamtes für das Jahr 2024.

Ein durchschnittlicher PKW verursacht mit 164 g CO₂ pro Personenkilometer die höchsten Emissionen. Elektro-PKW, betrieben mit dem deutschen Strommix, liegen deutlich darunter bei etwa 70 g/Pkm. Der Schienenverkehr ist im Vergleich zum Autoverkehr deutlich emissionsärmer. Der Fernverkehr mit ICE und IC erreicht sehr geringe Emissionen von rund 26 g/Pkm, während Nahverkehrszüge wie RE/RB und S-Bahn mit 44 g bzw. 42 g/Pkm etwas über dem Fernverkehr liegen.

Für die Gesamtbetrachtung des Bahnverkehrs wurde ein gewichteter Durchschnitt berechnet, bei dem 70 % der Pendler den Nahverkehr und 30 % den Fernverkehr nutzen. Die Werte für den Nahverkehr wurden dabei aus dem Mittelwert der CO₂-Emissionen von RE/RB (44 g/Pkm) und S-Bahn (42 g/Pkm) gebildet. Daraus ergibt sich ein gewichteter Bahnwert von 37,9 g CO₂ pro Personenkilometer.

Interpretation

Um wie viel Prozent sind die Bahn-Emissionen niedriger als beim Auto?
Die Werte verdeutlichen, dass die Bahn im Vergleich zum Pkw ein erhebliches Klimaschutzpotenzial bietet. Selbst bei der gewichteten Betrachtung aller Pendlerfahrten liegt der Bahnverkehr mit 37,9 g CO₂ pro Personenkilometer deutlich unter den 164 g des durchschnittlichen Pkw-Verkehrs. Dies entspricht einer Reduktion von etwa 77 %, wenn Pendler vom Auto auf die Bahn umsteigen. Besonders auffällig ist, dass selbst Elektro-PKW mit dem deutschen Strommix (ca. 70 g/Pkm) noch fast doppelt so hohe Emissionen verursachen wie die Bahn.

Unterschiede zwischen Fern- und Nahverkehr
Innerhalb des Schienenverkehrs zeigt sich, dass der Fernverkehr (ICE/IC, 26 g/Pkm) noch emissionsärmer ist als der Nahverkehr (RE/RB 44 g/Pkm, S-Bahn 42 g/Pkm). Dies liegt vor allem daran, dass Fernverkehrszüge häufig mit Ökostrom betrieben werden und eine höhere Auslastung pro Zug haben. Nahverkehrszüge halten häufiger, fahren kürzere Strecken mit teilweise geringerer Auslastung und benötigen mehr Brems- und Beschleunigungsenergie, was die Emissionen pro Personenkilometer leicht erhöht.

Fazit
Die Ergebnisse machen deutlich, dass eine Verlagerung des Berufsverkehrs vom Auto auf die Bahn nicht nur in absoluten Zahlen, sondern auch pro gefahrenem Kilometer einen signifikanten Beitrag zur Senkung von CO₂-Emissionen leisten kann. Das Potenzial für nachhaltige Emissionsreduktionen ist somit sowohl in städtischen als auch in regionalen Pendelverkehren besonders hoch.


  1. Die Studie “Mobilität in Deutschland” (MiD 2023) ist die wichtigste Datenquelle zum Mobilitätsverhalten in Deutschland. Sie ermöglicht einen Vergleich mit 2017 (vor Corona).

Lesen Sie den MiD 2023 Kurzbericht und beantworten Sie:


Modal Split:
Zwischen 2017 und 2023 ist der Anteil des öffentlichen Verkehrs am Gesamtverkehr in Deutschland leicht gestiegen. 2023 liegt er bei etwa 11%, also etwas höher als noch 2017. Das zeigt, dass mehr Menschen auf Bus, Bahn oder S‑Bahn umsteigen, während der Anteil des Autos leicht zurückgeht. Insgesamt lässt sich erkennen, dass der ÖV im Vergleich zu vorher etwas wichtiger geworden ist.

Homeoffice-Effekt:
Die durchschnittliche Tagesstrecke pro Person ist im Vergleich zu 2017 leicht gesunken, von knapp 40km auf etwa 35km. Laut MiD liegt der Hauptgrund dafür im verstärkten Homeoffice: Viele Menschen arbeiten zumindest teilweise von zu Hause, wodurch die täglichen Pendelstrecken kürzer werden und insgesamt weniger Wegstrecken zurückgelegt werden.

Stadt vs. Land:
Das Deutschlandticket wird in städtischen Räumen deutlich häufiger genutzt als in ländlichen Regionen. In Metropolen nutzen rund ein Drittel der Befragten das Ticket regelmäßig, auf dem Land sind es nur etwa 10%. Für die Ulm-Region bedeutet das, dass städtische Pendler wahrscheinlich stärker vom Deutschlandticket profitieren, während ländliche Pendler weniger davon Gebrauch machen, was die ÖV-Nutzung in diesen Gebieten einschränkt.

Implikation für CO₂:
Durch den leicht gestiegenen ÖV-Anteil und die kürzeren Pendelstrecken durch Homeoffice lässt sich das Potenzial zur CO₂-Einsparung deutlich erkennen. Wenn mehr Menschen auf Bahn oder Bus umsteigen und weniger Auto fahren, können die Emissionen im Verkehrssektor messbar reduziert werden. Das Deutschlandticket könnte in Städten zusätzlich einen Anreiz bieten, noch stärker auf den ÖV umzusteigen.


  1. Berechnen Sie die CO2-Ersparnis für die 11 analysierten Städte.

Datensatz: co2_analyse (aus Aufgabe 4) – enthält Streckenlängen, Einpendlerzahlen und vorberechnete Werte

Annahmen:

Berechnen Sie für jeden Umsteiger (Auto \(\rightarrow\) Bahn):

Nun sollten Sie eine Szenario Analyse ähnlich wie in Aufgabe 15 durchführen: Wenn sich der Bahnanteil von 8,4% auf 20% erhöht: wie viele Tonnen CO2 würden in den 11 Städten jährlich eingespart?

Visualisieren Sie die CO2-Ersparnis pro Stadt.

Stellen Sie die Ersparnis in Kontext, um die Ersparnis greifbarer zu machen, z.B. wie viele Mallorca-Flüge (hin + zurück, ~750 kg CO2) entspricht das?


Beschreibung

Das Balkendiagramm zeigt die geschätzte jährliche CO₂-Ersparnis in Tonnen pro Jahr für verschiedene Städte, wenn der Bahnanteil der Berufspendler von derzeit etwa 8,4 % auf 20 % steigen würde. Für die Berechnung wird angenommen, dass jeder Pendler an 220 Arbeitstagen pro Jahr jeweils zwei Fahrten (Hin- und Rückfahrt) zurücklegt. Um die Größenordnung der Einsparungen anschaulicher zu machen, werden die CO₂-Werte zusätzlich in Äquivalente von Hin- und Rückflügen nach Mallorca umgerechnet.

Es wird deutlich, dass insbesondere Städte wie Frankfurt, Berlin und München von diesem Szenario am stärksten profitieren würden. Frankfurt liegt dabei an der Spitze mit einer Einsparung von über 75.000 Tonnen CO₂ – das entspricht mehr als 100.000 Mallorca-Flügen. Die Einsparungen unterscheiden sich jedoch stark zwischen den Städten. Ulm verzeichnet unter den 11 dargestellten Städten die geringste CO₂-Reduktion von etwa 1.300 Tonnen pro Jahr, was rund 1.800 Hin- und Rückflügen nach Mallorca entspricht.

Interpretation

Grundsätzlich zeigt sich, dass eine Erhöhung des Bahnanteils im Berufsverkehr zu erheblichen CO₂-Einsparungen führen würde. Dies ist darauf zurückzuführen, dass das Pendeln mit der Bahn im Vergleich zum Auto deutlich emissionsärmer ist. Die Grafik verdeutlicht zudem, dass insbesondere bevölkerungsreiche Städte wie Frankfurt, Berlin und München das größte Einsparpotenzial aufweisen. Ursache hierfür ist die hohe Anzahl an Berufspendlern, die in diesen Städten insgesamt zu einem besonders hohen Verkehrs- und CO₂-Aufkommen führt. Entsprechend fallen auch die absoluten Einsparungen bei einer Verlagerung auf die Bahn überdurchschnittlich hoch aus.

Vergleich mit Mallorca-Flügen
Besonders aufschlussreich ist der Vergleich der CO₂-Ersparnisse mit der Anzahl an Hin- und Rückflügen nach Mallorca. Diese Umrechnung macht die Größenordnung der Einsparungen anschaulicher und verdeutlicht das erhebliche Potenzial einer stärkeren Nutzung des Schienenverkehrs. So könnten allein in Frankfurt Emissionen eingespart werden, die mehr als 100.000 Mallorca-Flügen entsprechen.

Fazit
Die Ergebnisse zeigen insgesamt, dass eine Verlagerung des Berufsverkehrs vom Auto auf die Bahn einen bedeutenden Beitrag zum Klimaschutz leisten kann. Um dieses Potenzial auszuschöpfen, sind gezielte Maßnahmen zu empfehlen, etwa die Verbesserung der Zuverlässigkeit des Bahnverkehrs, die Reduzierung von Verspätungen sowie der Ausbau von Verbindungen. Durch solche Anreize könnte der Bahnverkehr für Pendler attraktiver werden und langfristig zu einer nachhaltigen Reduktion der CO₂-Emissionen beitragen.


Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (bahnhof_ags_mapping.csv)

Dieses Mapping ist essenziell für die Verknüpfung von Bahn- und Pendlerdaten. Die Bahndaten sind auf Bahnhofsebene (z.B. “München Hbf”), die Pendlerdaten auf Kreisebene (z.B. “München, Landeshauptstadt”). Der AGS (Amtlicher Gemeindeschlüssel) ist der Schlüssel, der beide Welten verbindet.

Wichtige Variablen:

  • station_name: Name des Bahnhofs
  • ags: Amtlicher Gemeindeschlüssel (5-stellig für Kreise)
  • kreis_name: Name des Landkreises/der kreisfreien Stadt

2. Fahrtzeit-Vergleich OSRM (fahrtzeit_osrm_vergleich.csv)

Für einen fairen Vergleich Auto vs. Bahn brauchen wir realistische Fahrtzeiten. OSRM (Open Source Routing Machine) berechnet echte Straßenrouten basierend auf OpenStreetMap – keine Luftlinien, sondern tatsächliche Straßenverbindungen mit Abbiegevorgängen, Geschwindigkeitsbegrenzungen und Straßentypen.

Wichtige Variablen:

  • stadt: Zielstadt der Pendlerstrecke
  • strecke_name: Beschreibung der Route (z.B. “Dachau \(\rightarrow\) München”)
  • auto_distanz_km: Fahrstrecke mit dem Auto in km
  • auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit (mit Staufaktor)
  • bahn_planzeit_min: Fahrzeit laut Fahrplan
  • bahn_verspaetung_min: Durchschnittliche Verspätung
  • bahn_real_min: Realistische Bahnfahrzeit (Fahrplan + Verspätung)

Wie wurde das Routing durchgeführt?

  1. Koordinaten ermitteln: Für jede Pendlerstrecke wurden Start- und Zielkoordinaten definiert (z.B. Stadtzentrum Dachau \(\rightarrow\) München Hauptbahnhof).

  2. OSRM-API abfragen: Über die öffentliche OSRM-Demo-API (router.project-osrm.org) wurden für jede Route Distanz und Fahrzeit abgefragt. Die API gibt die schnellste Route zurück, basierend auf dem aktuellen Straßennetz.

  3. Staufaktor anwenden: Die OSRM-Basisfahrzeit entspricht einer Fahrt bei freiem Verkehr. Für die Hauptverkehrszeit (HVZ) wurde ein Staufaktor von 1,3-1,5 angewendet, basierend auf den INRIX-Daten der jeweiligen Stadt.

  4. Bahn-Daten ergänzen: Die Bahnfahrzeiten stammen aus dem DB-Fahrplan, ergänzt um die durchschnittliche Verspätung aus unserer Analyse.

Weiterführende Links:

3. Ulm-Pendlerrouten (ulm_pendlerrouten.csv)

Da Sie in Ulm studieren, analysieren wir die wichtigsten Pendlerrouten in die Stadt genauer. Dieser Datensatz enthält die 5 wichtigsten Einpendler-Gemeinden mit detaillierten Informationen zur Erreichbarkeit.

Wichtige Variablen:

  • start_ort: Startgemeinde der Pendlerroute
  • ziel_ort: Zielort (Ulm)
  • auto_dauer_min: Fahrzeit mit dem Auto
  • auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit
  • bahn_fahrplan_min: Bahnfahrzeit laut Fahrplan
  • bahn_real_min: Realistische Bahnfahrzeit
  • hat_bahnhof: TRUE/FALSE – hat der Startort einen Bahnanschluss?
  • pendler_geschaetzt: Geschätzte Anzahl Pendler auf dieser Route

4. Entgeltstatistik (ba_entgeltstatistik_2024.csv)

Um die volkswirtschaftlichen Kosten von Verspätungen zu berechnen, brauchen wir regionale Lohndaten. Diese haben wir von der Bundesagentur für Arbeit heruntergeladen.

Wichtige Variablen:

  • kreis_name: Name des Kreises/der Stadt
  • ags: Amtlicher Gemeindeschlüssel
  • medianentgelt_brutto_monat: Median-Bruttomonatsentgelt in Euro

Quelle: Bundesagentur für Arbeit, Entgeltstatistik 2024