Motivation

Jeden Morgen das gleiche Bild: Verstopfte Autobahnen, genervte Pendler, verlorene Zeit. 20,5 Millionen Menschen pendeln in Deutschland täglich zur Arbeit – die meisten davon mit dem Auto. Laut INRIX Traffic Scorecard 2024 verlieren Pendler in deutschen Großstädten zwischen 40 und 60 Stunden pro Jahr allein im Stau. Das entspricht fast einer kompletten Arbeitswoche, die im Nichts verpufft.

Die Idee liegt auf der Hand: Wer Bahn fährt, steht nicht im Stau. Aber wie schlägt sich die Bahn im Vergleich zum Auto? Ist sie wirklich schneller? Und wie zuverlässig ist sie eigentlich?

In diesem Projekt analysieren Sie Echtzeitdaten der Deutschen Bahn, Pendlerstatistiken der Bundesagentur für Arbeit, Staudaten von INRIX und die Entgeltstatistik der Bundesagentur für Arbeit. Sie werden herausfinden, dass die Antwort auf die Frage “Sollten mehr Menschen Bahn fahren?” komplexer ist, als man zunächst vermuten würde und dass sie wichtige Implikationen für die Verkehrspolitik hat.

Ihre zentrale Forschungsfrage lautet:

“Sollten mehr Menschen Bahn fahren – und was müsste sich dafür ändern?”

Datengrundlage

In diesem Projekt arbeiten Sie mit mehreren Datensätzen. Ein wichtiger Teil des Projekts ist das eigenständige Beschaffen von Primärdaten aus offiziellen Quellen.

Daten einlesen und verstehen

Bevor Sie mit der Analyse beginnen können, müssen Sie verschiedenste Datensätze einlesen und deren Struktur verstehen. Die Deutsche Bahn stellt über unterschiedliche Schnittstellen Echtzeitdaten für ihre Züge als open-source Daten zur Verfügung, welche per API-Calls geladen werden können. Jedoch gibt es von der Deutschen Bahn keine offizielle Seite, welche historische Daten zu Zugverspätungen, Ausfällen etc. für Fern- und Nahverkehrszüge sammelt. Da wir uns jedoch mit historischen Daten beschäftigen möchten, greifen wir auf Daten zurück, die von Piet Brömmel gesammelt wurden und bei Huggingface im Parquet-Format zur Verfügung gestellt wurden. Das Parquet-Format ist ein effizientes Datenformat und wird oft für große Datenmengen genutzt; in R können Sie diese Daten mit dem arrow-Paket einlesen.

  1. Wie pünktlich ist die Bahn wirklich? Um diese Frage zu beantworten, brauchen Sie echte Verspätungsdaten – nicht nur Pressemitteilungen. Die Bahndaten bilden das Herzstück unserer Analyse: Mit ihnen können Sie berechnen, wie viel Zeit Bahnfahrer durch Verspätungen verlieren und später mit den Stauzeiten der Autofahrer vergleichen.

Die Deutsche Bahn stellt Echtzeitdaten als Open Data zur Verfügung. Das Projekt piebro/deutsche-bahn-data auf Huggingface sammelt diese Daten im Parquet-Format.

Laden Sie die Datei für November 2025 direkt von Huggingface herunter und lesen Sie diesen Datensatz als bahn in R ein.

Zeigen Sie die ersten 10 Zeilen des Datensatzes in einer Tabelle und beantworten Sie anschließend folgende Fragen:

  • Wie viele Beobachtungen enthält der Datensatz? Welche Variablen sind vorhanden?
  • Was stellt eine einzelne Beobachtung dar?

Hinweis 1: Sie können auf Huggingface die gesuchte Datei hier finden und direkt die URL zu der Datei in R mitgeben

Hinweis 2: Sie können die Parquet Datei entweder lokal speichern, oder immer direkt per URL einlesen. Falls Sie die Datei lokal speichern, so wird diese nicht auf GitHub Committet, da wir dies in der .gitignore entsprechend eingestellt haben. In diesem Fall sollten alle Teammitglieder die Datei lokal zur Verfügung haben.

Hinweis 3: Achten Sie bei allen Tabellen auf einer saubere Darstellung


Erste 10 Zeilen des Bahn-Datensatz gekürzt auf 5 Spalten
Station Ziel Verspätung(Min) Zugtyp Ausfall
Stuttgart Hbf Filderstadt 5 S FALSE
Halle (Saale) Hbf Leipzig Hbf (tief) 1 S FALSE
Karlsruhe Hbf Karlsruhe Hbf 95 RE FALSE
Regensburg Hbf München Hbf 11 ALX FALSE
Mannheim Hbf Karlsruhe Hbf 1 ICE FALSE
Flughafen BER Flughafen BER 1 S FALSE
Halle (Saale) Hbf Halle (Saale) Hbf 15 S FALSE
München Hbf München Hbf 0 RB FALSE
Köln Hbf Köln Hbf 40 IC FALSE
Freiburg (Breisgau) Hbf Freiburg (Breisgau) Hbf 0 S FALSE

Wie viele Beobachtungen: Der auf 5 Spalten gekürzte Datensatz für November 2025 enthält 10 Beobachtungen. Jede Zeile stellt somit eine Beobachtung dar.

Welche Variablen: Der gekürzte Datensatz verfügt über die Variablen Station, Ziel, Verspätung (Min), Zug und Ausfall.

Beobachtung: Eine Beobachtung (Zeile) stellt ein einzelnes Ergebnis dar, in diesem Fall den spezifischen Halt eines bestimmten Zuges an einem Bahnhof zu einer festgelegten Zeit.


  1. Wohin pendeln die Menschen? Die Bahndaten zeigen ihnen die Pünktlichkeit der Züge – aber um zu verstehen, wo gute Bahnverbindungen besonders wichtig sind, müssen Sie wissen, wohin die Menschen pendeln. Die Pendlerstatistik der Bundesagentur für Arbeit zeigt genau das: Welche Städte sind die größten Arbeitgeber-Magneten?

Laden Sie den Datensatz pendler_kreise_aufbereitet.csv aus dem Ordner daten in R ein als Datensatz pendler.

Erstellen Sie eine Tabelle der Top 10 Städte nach Einpendlern mit den Spalten: Stadt (kreis_name), Einpendler, Auspendler, Pendlersaldo.

Interpretieren Sie kurz: Welche Städte sind die größten “Pendlermagneten” Deutschlands und warum?


Top 10 Städte nach Einpendlern pro Tag
Datenstand Juni 2024
Stadt Einpendler Auspendler Pendlersaldo
München, Landeshauptstadt 455.645 202.756 252.889
Frankfurt am Main, Stadt 405.856 111.245 294.611
Hamburg, Freie und Hansestadt 392.951 147.328 245.623
Berlin, Stadt 392.324 219.898 172.426
Köln, Stadt 306.905 138.422 168.483
Düsseldorf, Stadt 284.696 97.326 187.370
Stuttgart, Landeshauptstadt 274.442 100.095 174.347
Nürnberg, Stadt 165.496 78.557 86.939
Essen, Stadt 141.296 90.906 50.390
Region Hannover 137.924 69.974 67.950

Beschreibung: Die Tabelle zeigt die Top-10-Städte in Deutschland nach der Anzahl der Einpendler. Für jede Stadt werden die absolute Zahl der Einpendler, der Auspendler sowie der daraus resultierende Pendlersaldo dargestellt. Der Pendlersaldo gibt an, wie viele Personen netto täglich zur Arbeit in die jeweilige Stadt pendeln. Die Einpendlerzahlen liegen durchweg im Bereich von über 140.000 bis mehr als 450.000 Personen.

Interpretation: Die größten Pendlermagneten sind insbesondere Frankfurt am Main, München, Hamburg und Berlin. Dies zeigt sich vor allem an ihren sehr hohen Pendlersalden, die in diesen Städten jeweils deutlich über 170.000 Personen liegen. Frankfurt am Main weist mit rund 295.000 den höchsten Pendlersaldo auf. Dies lässt sich durch seine Rolle als internationales Finanzzentrum, den Flughafen sowie eine hohe Dichte an Dienstleistungs- und Unternehmensarbeitsplätzen erklären. München und Hamburg folgen mit ebenfalls sehr hohen Pendlersalden. Beide Städte sind wirtschaftlich stark diversifiziert und bieten zahlreiche hochqualifizierte Arbeitsplätze, während die hohen Wohnkosten viele Beschäftigte in das Umland verdrängen. Berlin zieht ebenfalls sehr viele Einpendler an, wobei der Pendlersaldo im Vergleich etwas geringer ausfällt. Dies deutet auf eine stärkere Mischung aus Wohn- und Arbeitsstadt hin. Auch Städte wie Köln, Düsseldorf und Stuttgart fungieren als regionale Arbeitsmarktzentren mit hoher Arbeitsplatzdichte und entsprechender Pendleranziehung. Die größten Pendlermagneten Deutschlands sind vor allem wirtschaftlich starke Großstädte, die viele Arbeitsplätze bieten, jedoch gleichzeitig durch hohe Mieten und begrenzten Wohnraum geprägt sind. Dies führt dazu, dass ein großer Teil der Beschäftigten im Umland wohnt und täglich in diese Städte einpendelt.


  1. Was kostet das Auto? Sie haben jetzt Bahndaten und wissen, wohin die Menschen pendeln. Aber um fair vergleichen zu können, brauchen Sie auch die Alternative: Wie viel Zeit verlieren Autofahrer im Stau? Diese Daten liefert INRIX – ein Unternehmen, das weltweit Verkehrsdaten sammelt. Später werden Sie diese Staukosten mit den Bahnverspätungen vergleichen.

Besuchen Sie die INRIX Global Traffic Scorecard und suchen Sie die Stauzeiten für die Top 10 Städte aus Aufgabe 2 und zusätzlich die Stauzeiten für Ulm. INRIX misst, wie viele Stunden Autofahrer jährlich im Stau verlieren.

  • Erstellen Sie eine eigene CSV-Datei inrix_staedte_2024.csv mit folgenden Spalten für die geforderten Städte:
    • stadt: Name der Stadt
    • stau_stunden_jahr: Jährliche Staustunden pro Fahrer
    • kosten_eur: Jährliche Kosten pro Fahrer (findet sich in der tiefergehenden Übersicht)
  • Berechnen Sie für jede Stadt, wie viele Arbeitstage pro Jahr im Stau verloren gehen. Annahme: Ein Arbeitstag = 8 Stunden.

Erstellen Sie anschließend eine schöne Tabelle mit: Stadt, Staustunden/Jahr, verlorene Arbeitstage und beschreiben diese. In welcher Stadt ist die Stausituation am schlimmsten? Wie viele Arbeitstage verliert ein typischer Pendler dort pro Jahr?

Hinweis: Auf der INRIX-Website können Sie nach bei “Jump to City Rankings” -> “Search the List” -> “Germany” oder der konkreten Stadt filtern.


Staubelastung und verlorenen Arbeitsatge pro Autofahrer im Jahr 2025
Stadt Staustunden(Std/Jahr) Verlorene Arbeitstage/Jahr Kosten/Jahr(€)
Köln 67 8,4 919
Düsseldorf 63 7,9 864
Berlin 60 7,5 823
Stuttgart 60 7,5 823
München 57 7,1 781
Frankfurt am Main 55 6,9 754
Hannover 54 6,8 740
Hamburg 46 5,8 631
Essen 46 5,8 631
Nürnberg 38 4,8 521
Ulm 30 3,8 411

Beschreibung: Die Tabelle zeigt für verschiedene deutsche Großstädte die jährlichen Staustunden im Straßenverkehr sowie die daraus berechneten verlorenen Arbeitstage, wobei ein Arbeitstag mit acht Stunden angesetzt wird. Die Spalte „Stadt“ enthält die Namen der Städte, „Staustunden/Jahr“ gibt an, wie viele Stunden ein durchschnittlicher Autofahrer pro Jahr im Stau steht, und „Verlorene Arbeitstage“ zeigt, wie viele Arbeitstage diese Stunden entsprechen, basierend auf einer 8-Stunden-Arbeitszeit pro Tag.

Interpretation: Laut der Tabelle ist die Stausituation in Köln am schlimmsten, dort steht ein typischer Pendler jährlich 67 Staustunden im Stau. Dies entspricht rund 8,4 verlorenen Arbeitstagen pro Jahr. Auch Düsseldorf ist stark betroffen, mit etwa 63 Staustunden pro Jahr, was rund 7,9 verlorenen Arbeitstagen entspricht. Die Tabelle zeigt somit, dass das Autofahren in stark frequentierten Städten mit erheblichen zeitlichen Kosten verbunden ist.


  1. Für die weiteren Analysen stellen wir Ihnen fünf zusätzliche Datensätze bereit. Diese laden Sie jetzt, damit sie in allen folgenden Aufgaben direkt verfügbar sind.

Laden Sie die folgenden Datensätze aus dem Ordner daten und speichern Sie diese unter den angegebenen Variablennamen:

Datei Variablenname Verwendet in
bahnhof_ags_mapping.csv bahnhof_mapping Aufgabe 9-10
fahrtzeit_osrm_vergleich.csv fahrtzeit Aufgabe 12
ulm_pendlerrouten.csv ulm_routen Aufgabe 13
ba_entgeltstatistik_2024.csv entgelt für staedte_basis
co2_analyse.csv co2_analyse Aufgabe 19 (Bonus)

Verschaffen Sie sich einen ersten Überblick über die Struktur der Daten (z.B. mit glimpse(), dies sollte später in ihrem HTML Dokument nicht sichtbar sein!).

Erstellen Sie außerdem einen Master-Datensatz staedte_basis für die Top-11-Städte (Top 10 Pendlerstädte + Ulm), der die Daten aus pendler, entgelt und inrix kombiniert. Dieser Datensatz vereinfacht die späteren Analysen (ab Aufgabe 14), da alle relevanten Kennzahlen bereits zusammengeführt sind.

Der Master-Datensatz sollte folgende Spalten enthalten:

  • ags: Amtlicher Gemeindeschlüssel
  • stadt: Stadtname (Kurzform, z.B. “München”)
  • einpendler: Anzahl Einpendler
  • median_monat_eur: Medianlohn pro Monat
  • median_stunde_eur: Medianlohn pro Stunde (Monatslohn / 160)
  • stau_stunden_jahr: Stauzeit pro Jahr (aus INRIX)

Hinweis 1: Die Datensätze verwenden unterschiedliche Namensformate: pendler hat offizielle Namen (“München, Landeshauptstadt”), während entgelt und inrix Kurznamen (“München”) verwenden. Nutzen Sie den AGS als zuverlässigen Schlüssel für die Verknüpfung mit pendler. Tipp: entgelt enthält sowohl AGS als auch Kurznamen und eignet sich daher gut als Ausgangspunkt.

Hinweis 2: Eine ausführliche Beschreibung der Datensätze finden Sie im Anhang A.



Die Pünktlichkeit der Deutschen Bahn

Nachdem Sie nun einen Überblick über die Daten haben, welche wir in diesem Projekt verwenden möchten, tauchen Sie tiefer in die Bahndaten ein. Die zentrale Frage ist: Wie zuverlässig ist die Deutsche Bahn wirklich?

Die Bahn unterscheidet verschiedene Zugtypen, vom ICE über den RE bis zur S-Bahn. Jeder Zugtyp hat unterschiedliche Eigenschaften: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Aber welcher Zugtyp ist am pünktlichsten?

  1. Welche Züge sind (un)pünktlich? Nicht alle Züge sind gleich: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Um später sinnvolle Empfehlungen geben zu können, müssen Sie verstehen, welche Zugtypen besonders problematisch sind. Dafür klassifizieren Sie die Züge anhand ihrer Namen. Nutzen Sie für diese Analyse den Datensatz bahn.

Die Variable train_name enthält den Zugnamen (z.B. “ICE 123”, “S 5”, “RE 8”).

Zugtyp Regel Beispiel
ICE beginnt mit “ICE” ICE 123
IC/EC beginnt mit “IC” oder “EC” IC 2012, EC 6
IRE/RE beginnt mit “RE” oder “IRE” RE 5, IRE 200
RB beginnt mit “RB” RB 26
S-Bahn beginnt mit “S” (mit Leerzeichen!) S 5
Sonstige alle anderen U 6, STB 123

Erstellen Sie auf dieser Basis eine Tabelle, welche pro Zugtyp folgende Kennzahlen anschaulich darstellt:

Beschreiben und Interpretieren Sie die Tabelle.

Weiterhin sollten Sie ihre Ergebnisse verifizieren. Dafür können Sie auf die offizielle Pünktlichkeitswerte der Deutschen Bahn zurückgreifen (recherchieren Sie diese selbstständig).

Stimmen Ihre Ergebnisse mit den offiziellen Werten überein? Falls nicht: Welche methodischen Unterschiede könnten die Abweichung erklären?

Hinweis: Nutzen Sie str_detect() aus dem stringr-Paket. Achten Sie auf die Reihenfolge der Bedingungen!


Pünktlichkeit und Zuverlässigkeit nach Zugtyp im November 2025
Zugtyp Fahrten/Zugtyp Ø Verspätung (Min) Anteil pünktlich (≤ 6 Min)(%) Ausfallquote (%)
S-Bahn 6.414.045 2.94 87.4 5.5
Sonstige 2.938.815 3.47 84.7 2.6
RB 2.675.028 3.48 85.2 3.2
IRE/RE 1.673.555 6.06 74.1 3.6
ICE 171.516 12.50 56.7 4.2
IC/EC 70.602 11.03 60.2 7.2

Beschreibung: Die Tabelle zeigt die Pünktlichkeit und Zuverlässigkeit der Deutschen Bahn nach Zugtyp. Zu sehen sind die Zugtypen IC/EC, ICE, IRE/RE, RB, S-Bahn und Sonstige. Für jeden Zugtyp werden die Anzahl der Fahrten, die durchschnittliche Verspätung, der Anteil pünktlicher Züge (mit maximal 6-minütiger Verspätung) sowie die Ausfallquote dargestellt.

Interpretation: Die Ergebnisse der Tabelle zeigen deutliche Unterschiede zwischen den einzelnen Zugtypen. Durchschnittlich verspätet sich der ICE mit 12,5 Minuten am meisten, fällt jedoch nicht so oft aus. Im Vergleich dazu hat der IC/EC mit 7,2% die höchste Ausfallquote, ist dafür aber nicht so stark verspätet wie der ICE. Am pünktlichsten ist jedoch die S-Bahn, deren Anteil pünktlicher Züge bei 87,4% liegt. Dies lässt sich durch die kurzen Strecken erklären, die die S-Bahn zurücklegt, sowie durch eigene Gleise, die sie im Gegensatz zu anderen Zugtypen nutzt. Insgesamt sind Fernverkehrszüge häufiger verspätet, während der Nah- und Regionalverkehr zwar meist pünktlicher ist, aber stärker von punktuellen Ausfällen betroffen sein kann.


  1. In Aufgabe 5 haben Sie gesehen, dass Fernverkehrszüge (ICE, IC/EC) deutlich höhere Verspätungen und Ausfallquoten haben als Nahverkehrszüge (IRE, RE, RB, S-Bahn). Aber wie relevant ist das für den typischen Pendler? Das hängt davon ab, wie viele Züge jeweils unterwegs sind. Nutzen Sie für diese Analyse den Datensatz bahn (mit der in Aufgabe 5 erstellten Variable zugtyp).

Klassifizieren Sie die Züge in zwei Kategorien:

Erstellen Sie ein Liniendiagramm, das die durchschnittliche Anzahl der Fahrten pro Stunde im Tagesverlauf zeigt:

Tipp: Extrahieren Sie die Stunde aus der Variable time mit hour() aus dem lubridate-Paket. Berechnen Sie dann die durchschnittliche Anzahl Fahrten pro Stunde und Zugtyp.

Beschreiben und interpretieren Sie ihre Grafik. Beantworten Sie zusätzlich die folgenden Fragen:


Beschreibung: Die Grafik zeigt zwei Liniendiagramme, die die Anzahl der Zugfahrten pro Stunde im Verlauf des Tages darstellen. Dabei wird zwischen Fernverkehr (rote Linie) und Nahverkehr (hellblaue Linie) unterschieden. Auf der x-Achse ist die Uhrzeit von 0 bis 23 Uhr dargestellt, auf der y-Achse die Anzahl der Fahrten, die bis zu 20.000 Fahrten pro Stunde erreichen kann.

Interpretation: Die meisten Zugfahrten finden morgens und abends statt, morgens ungefähr zwischen 6 und 9 Uhr und abends zwischen 16 und 19 Uhr. In diesen Zeiträumen ist der Nahverkehr deutlich stärker vertreten als der Fernverkehr. Der Fernverkehr verteilt sich über den gesamten Tag gleichmäßig und erreicht dabei deutlich weniger Fahrten. Diese zeitliche Verteilung ist wichtig, da Verspätungen in den Hauptverkehrszeiten besonders viele Pendler betreffen und sich daher stark auf die Zuverlässigkeit der Bahn auswirken.


Nachdem Sie in Aufgabe 6 herausgefunden haben, dass es deutlich mehr Nahverkehrszüge als Fernverkehrszüge gibt, und diese für Pendler wichtiger sind, sollten Sie sich die Verspätungen der Nahverkehrszüge über den Tag anschauen, da diese vermutlich nicht gleichmäßig über den Tag verteilt sind. Pendler erleben die Bahn vor allem in der Hauptverkehrszeit, d.h. morgens zwischen 7 und 9 Uhr und abends zwischen 16 und 19 Uhr. Aber ist die Bahn zu diesen Zeiten besonders unpünktlich?

  1. Erstellen Sie zwei Heatmaps, die zeigen, wie sich die Verspätungen nach Tageszeit (Stunde) und Wochentag für die Nahverkehrszüge und die Fernverkehrszüge verteilen. Nutzen Sie für diese Analyse den Datensatz bahn.

Tipp zur Farbskala: Da Fernverkehrszüge im Durchschnitt höhere Verspätungen haben als Nahverkehrszüge, können Sie unterschiedliche Farbskalen für die beiden Heatmaps verwenden (z.B. Blau-Töne für Nahverkehr, Rot-Töne für Fernverkehr). Dadurch werden die Muster innerhalb jeder Verkehrsart besser sichtbar.

Beschreiben und interpretieren Sie ihre Grafiken.


Beschreibung: Die beiden Heatmaps zeigen die durchschnittlichen Verspätungen im Nah- und Fernverkehr in Abhängigkeit von Tageszeit und Wochentag. Auf der x-Achse ist jeweils die Tageszeit von 5 bis 23 Uhr dargestellt, auf der y-Achse die Wochentage von Montag bis Sonntag. Jede farbige Zelle steht für eine bestimmte Kombination aus Uhrzeit und Wochentag. Die Heatmap zum Nahverkehr ist in Blautönen gehalten. Die Farbskala „Ø Verspätung in Minuten“ reicht von hellen zu dunkleren Blautönen und bildet durchschnittliche Verspätungen im Bereich von etwa 2 bis über 5 Minuten ab. Die Heatmap zum Fernverkehr verwendet ein Farbschema mit Rottönen bei identischem Aufbau. Die zugehörige Farbskala zeigt einen größeren Wertebereich von etwa 5 bis über 20 Minuten.

Interpretation: Die höchsten Verspätungen treten in beiden Heatmaps vor allem in den Abendstunden, insbesondere zwischen 18 und 21 Uhr, auf. Dieser Zeitraum ist sowohl im Nahverkehr als auch im Fernverkehr durch die dunkelsten Farbtöne gekennzeichnet. Im Fernverkehr erreichen die durchschnittlichen Verspätungen dabei deutlich höhere Werte als im Nahverkehr. Zwischen Werktagen und Wochenende lassen sich klare Unterschiede erkennen. An den Werktagen (Montag bis Freitag) sind die Verspätungen insgesamt stärker ausgeprägt und zeigen über den Tagesverlauf deutlichere Schwankungen. Am Wochenende, insbesondere am Sonntag, sind die Farben in beiden Heatmaps insgesamt heller, was auf geringere durchschnittliche Verspätungen hindeutet. Ein deutlicher Unterschied zeigt sich auch zwischen Nah- und Fernverkehrszügen. Während die Verspätungen im Nahverkehr meist im Bereich weniger Minuten liegen, sind die durchschnittlichen Verspätungen im Fernverkehr deutlich höher und können ein Vielfaches davon betragen. Zudem sind die zeitlichen Ausschläge im Fernverkehr stärker ausgeprägt, besonders am Abend. Für Pendler bedeutet dies, dass insbesondere Fahrten zu Hauptverkehrszeiten an Werktagen, vor allem am späten Nachmittag und Abend, mit einer höheren Verspätungswahrscheinlichkeit verbunden sind. Pendler im Nahverkehr müssen zwar häufiger mit kleineren Verzögerungen rechnen, während Reisende im Fernverkehr seltener unterwegs sind, dafür aber potenziell deutlich längere Verspätungen in Kauf nehmen müssen.


Von der Zeit zum Ort: Wo entstehen die Verspätungen?

In Aufgabe 7 haben Sie analysiert, wann die Verspätungen auftreten, nämlich vor allem zu den Hauptverkehrszeiten. Aber die nächste wichtige Frage ist: Wo entstehen diese Verspätungen?

Aggregierte Statistiken wie Durchschnittswerte über ganz Deutschland verbergen oft große regionale Unterschiede. Vielleicht gibt es einzelne “Problembahnhöfe”, die den Durchschnitt nach oben ziehen? Oder sind die Verspätungen gleichmäßig über das Netz verteilt? Diese Frage ist wichtig, weil sie unterschiedliche Lösungsansätze impliziert: Bei wenigen Problembahnhöfen könnte die Bahn gezielt investieren, bei flächendeckenden Problemen bräuchten Sie systemische Lösungen.

  1. Identifizieren Sie die 10 unpünktlichsten Bahnhöfe in Deutschland (mit mindestens 1.000 Halten im Monat). Nutzen Sie für diese Analyse den Datensatz bahn.

Erstellen Sie ein Balkendiagramm, das die durchschnittliche Verspätung dieser Bahnhöfe zeigt. Beschriften Sie die Balken mit den Verspätungswerten.

Beschreiben und interpretieren Sie ihre Grafik.

  • Sehen Sie ein geografisches Muster?
  • Handelt es sich um große Knotenbahnhöfe oder eher um kleinere Stationen?

Beschreibung: Die Grafik zeigt die zehn Bahnhöfe mit den höchsten durchschnittlichen Verspätungen. Auf der y-Achse sind die Bahnhöfe aufgelistet, beginnend mit Ennepetal (Gevelsberg) ganz oben und Zeesen unten. Die x-Achse gibt die durchschnittliche Verspätung in Minuten an, die von null bis 15 Minuten reicht. Jeder Bahnhof wird durch einen lilalen Balken dargestellt, dessen Länge die Höhe der durchschnittlichen Verspätung widerspiegelt. Direkt neben den Balken sind die exakten Werte ablesbar, zum Beispiel 14,7 Minuten für Ennepetal (Gevelsberg) und 12,3 Minuten für Zeesen. Die Bahnhöfe sind so angeordnet, dass diejenigen mit den größten Verspätungen oben stehen und die mit geringeren Verzögerungen nach unten folgen.

Interpretation: Die Bahnhöfe in der Liste verteilen sich offenbar auf verschiedene Regionen Deutschlands, es gibt keine offensichtliche Ballung in einer bestimmten geografischen Gegend. Fast alle gelisteten Stationen, darunter Bad Breisig, Sinzig (Rhein), Bornheim-Sechtem, Roisdorf, Brühl und Rolandseck, liegen unmittelbar hintereinander an der sogenannten Linken Rheinstrecke zwischen Köln, Bonn und Koblenz. Diese Häufung deutet darauf hin, dass es sich um ein systematsiches Problem handelt und nicht um zufällige Einzelereignisse. Weitere Stationen in Nordrhein-Westfalen wie Rheydt-Odenkirchen und Hochneukirch verstärken diesen Eindruck einer regionalen Überlastung im Westen Deutschlands. Außerhalb des Ruhrgebiets (Ennepetal) und Brandenburgs (Zeesen) konzentriert sich das Verspätungsgeschehen fast ausschließlich auf das Rheinland. Es zeigt sich, dass nicht die zentralen Umsteigebahnhöfe das Problem haben, sondern hauptsächlich stark genutzte Zwischenhalte betroffen sind.Auf Abschnitten wie der Linken Rheinstrecke nutzen Regional-, Fern- und Güterzüge dieselben Gleise. Aufgrund dieser hohen Auslastung führen bereits kleine Störungen zu Verzögerungen, die sich auf den gesamten nachfolgenden Verkehr übertragen. Dies erklärt die durchgehend hohen Verspätungswerte von 12 bis 14 Minuten an den aufgeführten Stationen.


Wo treffen viele Pendler auf eine unpünktliche Bahn?

Bisher haben Sie Pendler- und Bahndaten getrennt betrachtet. Aber die spannende Frage ist: Wo kommen beide Probleme zusammen? Eine Stadt mit vielen Pendlern und einer unpünktlichen Bahn hat ein größeres Problem als eine Stadt mit wenigen Pendlern und einer unpünktlichen Bahn.

Um diese Frage zu beantworten, müssen Sie die Datensätze verknüpfen. Das Problem: Die Bahndaten sind auf Bahnhofsebene, die Pendlerdaten auf Kreisebene. Sie benötigen ein Mapping, das Bahnhöfe den entsprechenden Kreisen zuordnet.

  1. In dieser Aufgabe verknüpfen Sie die Bahn- und Pendlerdaten, um Städte mit Handlungsbedarf zu identifizieren. Nutzen Sie für ihre Analysen die Datensätze: bahn, pendler und bahnhof_mapping.

Das Mapping ordnet Bahnhöfe ihrem Landkreis zu (via AGS = Amtlicher Gemeindeschlüssel). Ihr Ziel: Identifizieren Sie Städte, in denen viele Pendler auf eine unpünktliche Bahn treffen.

\[\text{Problem-Score} = z(\text{Einpendler}) + z(\text{Verspätung})\]

Die z-Standardisierung macht die Werte vergleichbar: \(z(x) = \frac{x - \bar{x}}{s_x}\), wobei \(\bar{x}\) der Mittelwert und \(s_x\) die Standardabweichung ist.

Interpretation: Ein hoher Problem-Score = Viele Pendler + hohe Verspätung = Handlungsbedarf.

Anschließend sollten Sie eine Tabelle der Top 10 Städte nach Problem-Score darstellen und diese kurz beschreiben.


Top-10 Städte nach Problem-Score im November 2025
Wo treffen viele Pendler auf eine unpünktliche Bahn
Stadt Einpendler Ø Verspätung (Min) Problem-Score
München 455.645 6.08 3.61
Köln 306.905 7.79 3.14
Düsseldorf 284.696 7.10 2.55
Frankfurt 405.856 5.00 2.55
Berlin 392.324 4.58 2.20
Hamburg 392.951 4.27 2.03
Duisburg 86.735 8.59 1.50
Hamm 22.447 9.55 1.41
Stuttgart 274.442 5.17 1.41
Essen 141.296 7.27 1.29

Beschreibung: Die Tabelle zeigt die zehn Städte in Deutschland, die nach dem berechneten Problem-Score am stärksten von unpünktlichen Zügen in Kombination mit hohem Pendleraufkommen betroffen sind. Die Spalte „Stadt“ listet die jeweiligen Städte auf, während der Problem-Score ein Maß darstellt, das die Anzahl der Einpendler und die durchschnittliche Verspätung an den Bahnhöfen gewichtet kombiniert und z-standardisiert.

Interpretation: Ein höherer Wert bedeutet ein größeres Problem für Pendler. München liegt mit einem Score von 3,5 an der Spitze, gefolgt von Köln (2,8), Düsseldorf (2,6) und Frankfurt (2,4). Diese Werte deuten darauf hin, dass hier besonders viele Menschen auf unpünktliche Züge angewiesen sind. Berlin (2,0), Hamburg (1,8), Duisburg (1,6), Regensburg (1,3), Bremen (1,3) und Stuttgart (1,2) folgen und zeigen im Vergleich ein geringeres, aber weiterhin relevantes Problem. Insgesamt verdeutlicht die Tabelle, dass vor allem Großstädte mit hohem Pendleraufkommen besonders stark von Verspätungen betroffen sind und dass hier Handlungsbedarf besteht, um die Mobilität der Pendler zu verbessern.


  1. Erstellen Sie ein Streudiagramm (Scatterplot), das die Beziehung zwischen Einpendlerzahl (x-Achse) und durchschnittlicher Verspätung (y-Achse) visualisiert.

Beschreiben und iInterpretieren Sie die vier Quadranten:

Beantworten Sie dabei auch folgende Fragen:


Beschreibung: Die Grafik zeigt die Beziehung zwischen der Anzahl der Einpendler in einem Kreis (x-Achse, logarithmisch skaliert) und der gewichteten durchschnittlichen Bahnverspätung in Minuten (y-Achse) für November 2025. Zusätzlich wurden vier Quadranten basierend auf den Mittelwerten der beiden Variablen gebildet, die unterschiedliche Handlungsbedarfe visualisieren.

Interpretation: Die Quadranten verdeutlichen unterschiedliche Herausforderungen für Pendler: Oben rechts (viele Pendler + hohe Verspätung): In diesem Quadranten befinden sich Kreise mit einer hohen Anzahl von Pendlern, die gleichzeitig überdurchschnittlich hohe Verspätungen erleben. Hier ist die Situation kritisch, da viele Menschen betroffen sind und der Verspätungsdruck besonders groß ist. In der Grafik liegen die Städte Köln, Düsseldorf und München in diesem Quadranten. Diese Städte sollten aus Sicht der Deutschen Bahn besonders priorisiert werden, etwa durch zusätzliche Kapazitäten, Pünktlichkeitsmaßnahmen oder Infrastrukturverbesserungen. Oben links (wenige Pendler + hohe Verspätung): Hier sind die Verspätungen ebenfalls hoch, aber die Anzahl der betroffenen Pendler ist gering. Das Problem ist lokal begrenzt und betrifft weniger Menschen. Maßnahmen können hier punktuell und gezielt erfolgen, z.B. durch Optimierung einzelner Strecken oder lokaler Engpässe. Unten rechts (viele Pendler + niedrige Verspätung): Kreise in diesem Quadranten haben viele Pendler, die jedoch überdurchschnittlich gut pünktlich bedient werden. Diese Regionen zeigen, dass das System dort effektiv funktioniert. Für die Bahn ist es hier wichtig, die Qualität zu halten und Kapazitäten kontinuierlich anzupassen, um Pünktlichkeit und Service zu sichern. Unten links (wenige Pendler + niedrige Verspätung): In diesen Kreisen ist die Anzahl der Pendler gering und die Verspätungen niedrig. Hier besteht aktuell kein Handlungsbedarf, und Ressourcen können auf kritischere Bereiche konzentriert werden.

Die x-Achse ist logarithmisch skaliert, da die Anzahl der Pendler stark variiert – von wenigen Tausend bis zu mehreren Hunderttausend. Eine lineare Skala würde die Unterschiede zwischen kleineren Kreisen kaum sichtbar machen, während die logarithmische Darstellung die Daten über mehrere Größenordnungen anschaulich macht und die Verteilung besser erkennbar ist. Für die Deutsche Bahn ergeben sich daraus klare Handlungsprioritäten: Besonders im Quadranten „Handlungsbedarf“, in dem viele Pendler von hohen Verspätungen betroffen sind, sollten gezielte Maßnahmen zur Pünktlichkeitsverbesserung umgesetzt werden. Dies gilt insbesondere für die Städte Köln, Düsseldorf und München. Im Quadranten „Lokal“, in dem wenige Pendler von Verspätungen betroffen sind, können punktuelle Verbesserungen erfolgen. Die Regionen im Quadranten „Gut bedient“, in denen viele Pendler zuverlässig bedient werden, sollten weiterhin überwacht werden, um die Pünktlichkeit langfristig zu sichern. In den Kreisen des Quadranten „Kein Fokus“, in denen nur wenige Pendler geringe Verspätungen erfahren, können Ressourcen eingespart oder zur Unterstützung kritischerer Bereiche umgeleitet werden.


Der Vergleich – Auto vs. Bahn

Sie haben nun identifiziert, wo die Bahn Probleme hat: Städte im kritischen Quadranten (viele Pendler + hohe Verspätungen) brauchen dringend Verbesserungen. Aber bevor Sie Empfehlungen aussprechen können, müssen Sie eine zentrale Frage beantworten:

Lohnt sich die Bahn überhaupt – oder ist das Auto trotz Stau schneller?

Denn selbst wenn die Bahn unpünktlich ist, könnte sie immer noch schneller sein als das Auto im Berufsverkehr. Umgekehrt: Eine pünktliche Bahn bringt wenig, wenn das Auto trotzdem schneller ist. Erst der direkte Vergleich zeigt uns, wo die Bahn wirklich konkurrenzfähig ist – und wo nicht.

Methodische Herausforderungen

Für einen fairen Vergleich sollten Sie “Äpfel mit Äpfeln” vergleichen:

  • Beim Auto muss der Stau berücksichtigt werden (nicht nur die theoretische Fahrzeit)
  • Bei der Bahn muss die Verspätung berücksichtigt werden (nicht nur der Fahrplan)
  • Beide Routen müssen dieselben Start- und Endpunkte haben

Für die Auto-Fahrtzeiten nutzen Sie OSRM (Open Source Routing Machine), das auf OpenStreetMap-Daten basiert. OSRM berechnet echte Straßenrouten, keine Luftlinien.

  1. Erklären Sie in eigenen Worten:
  • Warum ist OSRM-Routing für diesen Vergleich besser geeignet als eine einfache Berechnung nach der Formel Distanz / Geschwindigkeit?
  • Welche Faktoren müssen zusätzlich berücksichtigt werden, um einen realistischen Vergleich zu ermöglichen? Denken Sie an:
    • Tageszeit
    • Parkplatzsuche
    • Fußweg zum Ziel
    • Wartezeit und Umsteigen bei der Bahn

Vorteil von OSRM-Routing: Für den Vergleich von Auto und Bahn reicht eine einfache Berechnung nach dem Prinzip „Distanz geteilt durch Geschwindigkeit“ nicht aus, da sie die Realität des Berufsverkehrs stark vereinfacht. Solche Rechnungen gehen von einer geraden Strecke, konstanter Geschwindigkeit und störungsfreiem Verkehr aus. In der Praxis existieren diese Bedingungen jedoch kaum. Straßen verlaufen nicht geradlinig, es gibt Einbahnstraßen, Kreuzungen, Abfahrten und Umwege, und die zulässigen sowie tatsächlichen Geschwindigkeiten unterscheiden sich je nach Straßentyp erheblich. OSRM-Routing nutzt reale Straßennetze auf Basis von OpenStreetMap-Daten und berechnet tatsächliche Routen inklusive ihrer realen Weglängen und fahrzeugspezifischen Geschwindigkeiten. Dadurch bildet OSRM die tatsächliche Autofahrt wesentlich realistischer ab als eine theoretische Durchschnittsrechnung.

Zu berücksichtigende Faktoren für realistischen Vergleich: Für einen fairen Vergleich zwischen Auto und Bahn reicht es nicht aus, nur die reine Fahrzeit zu betrachten. Entscheidend ist die Tageszeit, da sowohl Staus als auch Zugverspätungen stark vom Berufsverkehr abhängen. Beide Verkehrsmittel müssen daher zur gleichen Uhrzeit verglichen werden. Beim Auto kommt zusätzlich die oft unterschätzte Parkplatzsuche hinzu, die die Gesamtzeit deutlich verlängern kann. Außerdem müssen bei beiden Verkehrsmitteln Fußwege berücksichtigt werden, etwa vom Parkplatz oder Bahnhof bis zum eigentlichen Ziel. Bei der Bahn spielen neben der Fahrzeit auch Warte- und Umsteigezeiten eine wichtige Rolle. Verspätungen können Anschlussverbindungen gefährden und die Reisezeit erheblich verlängern, weshalb nicht die planmäßige, sondern die tatsächlich zu erwartende Fahrzeit relevant ist. Erst ein solcher Tür-zu-Tür-Vergleich zeigt, ob die Bahn im Berufsverkehr eine echte Alternative zum Auto darstellt.


  1. Für die Top 10 Einpendler-Städte wurden typische Pendlerstrecken definiert (z.B. Dachau \(\rightarrow\) München, Neuss \(\rightarrow\) Düsseldorf). Die OSRM-Ergebnisse liegen bereits vor. Nutzen Sie für ihre Analyse den Datensatz fahrtzeit.

Erstellen Sie:

  • Eine Tabelle mit: Stadt, Strecke, Distanz (km), Auto-Fahrzeit (Hauptverkehrszeit), Bahn-Fahrzeit (real), Differenz
  • Berechnen Sie die jährliche Zeitersparnis bei 220 Arbeitstagen und 2x täglichem Pendeln.

Interpretieren Sie ihre Tabelle:

  • In wie vielen Fällen ist die Bahn schneller als das Auto?
  • Wie viele Stunden pro Jahr kann ein Pendler maximal sparen?
  • Gibt es Strecken, bei denen das Auto schneller ist? Woran könnte das liegen?

Vergleich Auto vs. Bahn für typische Pendlerstrecken inkl. jährlicher Zeitersparnis
Für die Top 10 Städte nach Problem-Score und Ulm
Stadt Strecke Distanz (km) Auto-Fahrzeit HVZ (min) Bahn-Fahrzeit real (min) Differenz (min) Jährliche Zeitersparnis (h)
Hannover Celle → Hannover 42,2 54,4 40,8 13,6 99,7
Frankfurt Darmstadt → Frankfurt 36,0 35,8 23,0 12,8 93,9
Berlin Potsdam → Berlin 34,2 49,3 29,6 19,7 144,5
München Dachau → München 19,1 40,2 26,1 14,1 103,4
Köln Leverkusen → Köln 18,3 28,7 22,8 5,9 43,3
Hamburg Harburg → Hamburg 14,2 24,0 16,3 7,7 56,5
Stuttgart Esslingen → Stuttgart 14,0 27,2 20,2 7,0 51,3
Düsseldorf Neuss → Düsseldorf 12,1 27,1 17,1 10,0 73,3
Essen Mülheim → Essen 11,0 18,0 15,3 2,7 19,8
Nürnberg Fürth → Nürnberg 10,4 18,9 12,9 6,0 44,0
Ulm Neu-Ulm → Ulm 3,7 8,1 8,9 -0,8 -5,9

Beschreibung: Die Tabelle zeigt verschiedene Pendelstrecken in Deutschland zwischen Vororten oder Nachbarstädten und den jeweiligen Stadtzentren. Für jede Strecke ist die Entfernung in Kilometern angegeben. Außerdem werden die Fahrzeiten mit dem Auto während der Hauptverkehrszeit sowie die tatsächlichen Fahrzeiten mit der Bahn aufgeführt. Daraus ergibt sich eine Differenz in Minuten zwischen Auto- und Bahnfahrzeit. Zusätzlich ist für jede Strecke eine geschätzte jährliche Zeitersparnis in Stunden angegeben, die entsteht, wenn man regelmäßig die Bahn anstelle des Autos nutzt.

Interpretation: Die Tabelle zeigt, dass die Bahn in den meisten Fällen schneller ist als das Auto. Von den elf aufgeführten Strecken ist die Bahn auf zehn Strecken schneller; lediglich auf der kurzen Strecke von Neu-Ulm nach Ulm fährt das Auto geringfügig schneller. Die größte jährliche Zeitersparnis ergibt sich bei der Strecke von Potsdam nach Berlin, wo ein Pendler durch die Nutzung der Bahn rund 144,5 Stunden pro Jahr sparen kann. Bei der Ulmer Strecke hingegen ist die Bahn leicht langsamer, vermutlich weil die Strecke sehr kurz ist, die Bahn dadurch Wartezeiten und eventuell Umsteigezeiten hat und es keine besonders schnelle oder direkte Verbindung gibt. Insgesamt zeigt die Tabelle, dass Pendeln mit der Bahn auf längeren Strecken oft deutlich zeitsparender ist, während bei sehr kurzen Strecken das Auto manchmal minimal schneller sein kann.


  1. Da Sie alle in Ulm studieren und eventuell aus dem Ulmer Umland einpendeln, sollten Sie die 5 wichtigsten Pendlerrouten nach Ulm näher analysieren. Stellen Sie in einem Dumbbell-Chart (oder Lollipop-Chart) die Unterschiede zwischen Auto- und Bahnzeiten visuell dar. Nutzen Sie für ihre Analyse den Datensatz ulm_routen.

Die 5 wichtigsten Pendlerrouten nach Ulm sind:

  • Neu-Ulm \(\rightarrow\) Ulm
  • Blaustein \(\rightarrow\) Ulm
  • Ehingen \(\rightarrow\) Ulm
  • Laupheim \(\rightarrow\) Ulm
  • Langenau \(\rightarrow\) Ulm

Markieren Sie, welche Orte keinen Bahnhof haben.

Beschreiben und interpretieren Sie ihre Grafik. Welche Besonderheiten zeigen die ländlichen Strecken?

Hinweis: Nutzen Sie geom_segment() und geom_point() für ihr Dumbbell-Chart oder Lollipop-Chart.


Beschreibung: Die Grafik zeigt die Pendlerzeiten nach Ulm mit dem Auto und der Bahn und visualisiert den Vergleich der beiden Verkehrsmittel in Form eines Dumbbell-Charts. Die y-Achse zeigt mehrere umliegende Standorte von Ulm (Ehingen, Laupheim, Langenau, Blaustein, Neu-Ulm), während die x-Achse die Fahrzeit in Minuten darstellt. Die Fahrzeiten von Auto (rot) und Bahn (blau) werden durch Punkte dargestellt und mithilfe einer Verbindungslinie direkt miteinander verglichen. Zudem wird kenntlich gemacht, welche Orte über keinen eigenen Bahnhof verfügen.

Interpretation: Beim Startort Neu-Ulm unterscheiden sich die Fahrzeiten mit Auto und Bahn kaum, wobei das Auto oft geringfügig schneller ist. Außerdem wird deutlich, dass bei weiter entfernten und eher ländlichen Strecken wie Langenau die Zeitunterschiede deutlich größer sind, wobei das Auto hier länger benötigt als die Bahn. Besonders bei Orten ohne eigenen Bahnhof (z.B. Blaustein) ist die Bahn klar benachteiligt, da zusätzliche Wege und Umstiege notwendig sind. Insgesamt zeigt sich, dass die Bahn auf dem Land nur dann attraktiv ist, wenn eine gute Verkehrsinfrastruktur vorhanden ist.


Die volkswirtschaftlichen Kosten

Verspätungen kosten nicht nur Nerven, sie haben einen realen volkswirtschaftlichen Preis. Jede Minute, die ein Pendler im verspäteten Zug wartet, ist verlorene Arbeitszeit.

Um diese Kosten etwas besser zu quantifizieren sollten Sie sich den Medianlohn der jeweiligen Städte herunterladen und näher analysieren.

  1. Berechnen Sie die volkswirtschaftlichen Kosten der Bahnverspätungen für die 11 Städte.

Datensätze:

Nutzen Sie die folgenden Annahmen:

Annahmen:

Berechnen Sie für jede Stadt:

Erstellen Sie auf Basis ihrer Berechnung eine Tabelle, welche die Anzahl der Bahnpendler, die Verspätungsstunden pro Jahr, die Kosten pro Pendler und die Gesamtkosten der Stadt anschaulich darstellt.

Beschreiben und interpretieren Sie ihre Tabelle. Gehen Sie dabei auch auf die Gesamtkosten der 11 Städte ein. Erklären Sie außerdem, warum der Medianlohn für diese Berechnung besser geeignet ist als der Durchschnittslohn.

Hinweis: Für die Umrechnung auf Stundenlohn: Monatsentgelt / 160 (bei 40h/Woche).


Volkswirtschaftliche Kosten der Bahnverspätungen
Für die Top 10 Städte nach Problem-Score und Ulm
Stadt Bahnpendler (Einpendler x 8,4%) Verspätungsstunden (Std/Jahr) Kosten pro Pendler/Jahr (€) Gesamtkosten/Jahr (€)
München 38.274 44,6 1.351,22 51.716.701
Köln 25.780 57,1 1.570,83 40.495.980
Frankfurt 34.092 36,6 1.078,78 36.777.713
Düsseldorf 23.914 52,1 1.471,46 35.189.094
Hamburg 33.008 31,3 885,25 29.220.087
Berlin 32.955 33,6 871,92 28.734.284
Stuttgart 23.053 37,9 1.111,19 25.616.313
Essen 11.869 53,3 1.327,72 15.758.490
Nürnberg 13.902 35,6 941,20 13.084.282
Hannover 11.586 42,5 1.104,03 12.790.820
Ulm 5.741 28,5 768,23 4.410.129

Beschreibungen: Die Tabelle zeigt für die 11 untersuchten Städte die geschätzten volkswirtschaftlichen Kosten, die durch Bahnverspätungen im Pendelverkehr entstehen. Die Berechnung beinhaltet die gewichtete durchschnittliche Bahnverspätung pro Stadt, die Zahl der Bahnpendler, die sich aus den Einpendlern multipliziert mit 8,4% ergibt, den Medianlohn sowie die Annahme, dass 8,4% der Pendler die Bahn nutzen. In der Tabelle sind die Variablen Stadt, Bahnpendler, die durchschnittliche Verspätung, die jährlichen Verspätungsstunden pro Pendler, die Kosten pro Pendler sowie die daraus resultierenden Gesamtkosten pro Stadt aufgeführt. Zusätzlich wird die Summe der Gesamtkosten aller 11 Städte angegeben.

Interpretation: Die höchsten Gesamtkosten entstehen in großen Städten wie München, Köln oder Düsseldorf, da dort viele Pendler auf vergleichsweise hohe Verspätungen treffen. Städte mit höherem Lohnniveau verursachen zudem höhere Kosten pro Pendler. Insgesamt summieren sich die Kosten der 11 Städte auf 293.793.894€ pro Jahr, was die volkswirtschaftliche Relevanz von Bahnverspätungen verdeutlicht. Des Weiteren lässt sich sagen, dass der Medianlohn besser geeignet ist als der Durchschnittslohn, da er nicht durch sehr hohe Einkommen verzerrt wird und dadurch die Zeitverluste nicht überschätzt bewertet werden.


  1. Setzen Sie die Kosten der Bahn (aus Aufgabe 14) den Kosten des Autos gegenüber. Vergleichen Sie diese in einer Szenario-Analyse mittels eines gestapelten Balkendiagramms. Nutzen Sie für ihre Analysen den Datensatz staedte_basis.

Berechnen Sie zuerst die Kosten des Autostaus pro Stadt:

Führen Sie anschließend einen Szenario-Vergleich durch: Was passiert, wenn der Bahnanteil von 8,4% auf 20% steigt?

Erstellen Sie ein gestapeltes Balkendiagramm nach Szenario. Beschreiben und intepretieren Sie ihre Grafik. Gehen Sie insbesondere auf die folgenden Fragen ein:


Beschreibung: Die Abbildung zeigt einen Szenario-Vergleich der Kosten von Auto- und Bahnpendlern in verschiedenen deutschen Städten. Auf der X-Achse sind die Kosten in Milliarden Euro von links nach rechts dargestellt, auf der y-Achse sind die Städte nach aufsteigenden Gesamtkosten innerhalb jedes Szenarios angeordnet. Die Balken sind gestapelt: Rot steht für die Kosten des Autoverkehrs, Blau für die Kosten der Bahn. Das linke Diagramm zeigt das Szenario mit einem Bahnanteil von 8,4%, das rechte das Szenario mit 20% Bahnanteil. In allen Städten dominieren die Autokosten, insbesondere in Städten mit vielen Pendlern und hohen Stundenlöhnen wie München oder Frankfurt. Mit steigendem Bahnanteil auf 20% sinken die Autokosten leicht, da weniger Autos unterwegs sind und der Stau reduziert wird. Gleichzeitig steigen dieBahn-Kosten, da mehr Pendler auf die Bahn umsteigen. Städte wie Ulm, Hannover oder Nürnberg weisen vergleichsweise niedrige Gesamtkosten auf, während München, Frankfurt oder Berlin die höchsten Kosten verursachen. Insgesamt zeigt die Grafik deutlich, dass Autostau den größten Anteil an den Gesamtkosten hat und dass eine Erhöhung des Bahnanteils zwar die Bahn-Kosten erhöht, die Autokosten jedoch spürbar reduziert.

Interpretation: Im Status-quo-Szenario mit einem Bahnanteil von 8,4 % zeigt die Analyse der volkswirtschaftlichen Kosten eine deutliche Dominanz des Autos. In allen betrachteten Städten machen die Autokosten den größten Teil der Gesamtkosten aus, während die Bahn nur einen vergleichsweise geringen Anteil verursacht. Ein Beispiel hierfür ist München: Die Kosten für das Auto liegen bei fast 750 Mio.€, während die Bahnkosten unter 50 Mio.€ bleiben. Insgesamt zeigt sich damit, dass das Auto aktuell den größten volkswirtschaftlichen Schaden verursacht, während die Bahn sowohl absolut als auch relativ kostengünstig für die Gesellschaft ist. Betrachtet man die Entwicklung bei einem höheren Bahnanteil von 20%, zeigt sich eine positive Wirkung auf die Gesamtkosten. Mit zunehmender Nutzung der Bahn steigen zwar die Bahnkosten leicht an, gleichzeitig sinken jedoch die Autokosten deutlich. In München fallen die Autokosten beispielsweise von etwa 720 Mio.€ auf rund 580 Mio.€, während die Bahnkosten von etwa 40 Mio.€ auf 110 Mio.€ steigen. Die Nettoersparnis lässt sich vereinfacht berechnen als die Reduktion der Autokosten minus der Zunahme der Bahnkosten, in diesem Fall also 140 Mio.€ minus 70 Mio.€, was zu einer Ersparnis von rund 70 Mio.€ führt. Dieser Effekt ist in allen Städten ähnlich, wobei die absoluten Einsparungen in kleineren Städten wie Ulm geringer ausfallen. Zusammenfassend lässt sich sagen, dass das Auto im Status quo den größten volkswirtschaftlichen Schaden verursacht, während die Bahn vergleichsweise geringe Kosten verursacht. Eine Erhöhung des Bahnanteils auf 20% führt zu einer deutlichen Entlastung der Gesamtkosten, da die Einsparungen durch geringere Autokosten die gestiegenen Bahnkosten übersteigen.


Politikempfehlung – Ihre Synthese

Sie haben nun umfangreiche Analysen durchgeführt und viele Erkenntnisse über die Bahn gewonnen. Jetzt ist es Zeit, diese zu einer kohärenten Empfehlung zusammenzufügen.

Szenario: Sie sind Berater:in des Bundesministeriums für Digitales und Verkehr. Die Ministerin bittet Sie um eine evidenzbasierte Politikempfehlung zur Verbesserung des Pendlerverkehrs in Deutschland.

  1. Formulieren Sie eine Politikempfehlung für das Bundesministerium für Digitales und Verkehr.

Schreiben Sie eine Executive Summary (max. 5 Sätze). Fassen Sie hierbei die wichtigsten Erkenntnisse aus ihrem Projekt zusammen. Was ist die zentrale Botschaft?

Formulieren Sie 3 konkrete Empfehlungen. Jede muss enthalten:


Executive Summary Die Analyse zeigt, dass der Pendlerverkehr in Deutschland stark von der Leistungsfähigkeit des Bahnnetzes abhängt. Besonders in Großstädten wie München, Frankfurt und Köln führen hohe Einpendlerzahlen zu erheblichen wirtschaftlichen Kosten durch Verspätungen – in München summieren sich diese beispielsweise auf über 51Mio.€ pro Jahr. Während S- und Regionalbahnen im Durchschnitt vergleichsweise pünktlich verkehren, erreichen IC/EC- und ICE-Züge lediglich eine Pünktlichkeitsquote von 56–60%. Auf längeren Strecken bietet die Bahn häufig eine messbare Zeitersparnis gegenüber dem Auto, doch lokale Engpässe und unzureichende Taktfrequenzen schmälern diesen Vorteil. Durch gezielte Modernisierung der Infrastruktur, eine Optimierung der Fahrpläne sowie Investitionen in digitale Steuerungssysteme lassen sich sowohl der Pendlerkomfort als auch die Effizienz des Bahnverkehrs deutlich steigern.

Empfehlung 1: Ausbau von Kapazität und Taktfrequenz in Ballungsräumen Ziel ist es, Verspätungen und Engpässe auf stark frequentierten Pendlerstrecken in Städten wie München, Köln und Frankfurt innerhalb von fünf Jahren um mindestens 20% zu reduzieren. Dies soll durch eine Verdichtung der S-Bahn- sowie RE/IRE-Takte in den Hauptverkehrszeiten erreicht werden, ergänzt durch den Einsatz zusätzlicher Doppelstockwagen auf stark nachgefragten Strecken. Die Notwendigkeit ergibt sich aus den hohen Pendlerzahlen: In München beispielsweise pendeln 455.645 Personen in die Stadt, davon 38.274 mit der Bahn, mit einer durchschnittlichen Verspätung von 6,1 Minuten. Die daraus resultierenden jährlichen Gesamtkosten durch Verspätungen belaufen sich auf 51,7 Mio.€, was die wirtschaftliche Relevanz unterstreicht. Als Limitation dieser Empfehlung ist zu beachten, dass die zugrunde liegenden Daten lediglich eine Stichprobe der Bahnstrecken abbilden und regionale Unterschiede sowie kurzfristige Schwankungen im Pendleraufkommen nicht berücksichtigen. Mit zusätzlichen Daten könnten detaillierte Zugauslastungen und Kapazitätsengpässe analysiert werden, um den Taktverdichtungsbedarf noch zielgerichteter zu planen.

Empfehlung 2: Digitalisierung und Echtzeit-Optimierung des Bahnbetriebs Ziel ist es, die Pünktlichkeitsquote von ICE- und IC-Zügen innerhalb von drei Jahren von derzeit rund 56–60% auf mindestens 70% zu erhöhen. Dies soll durch den Einsatz eines intelligenten Verkehrsmanagementsystems erreicht werden, das in Echtzeit Verspätungsinformationen sammelt, automatische Umplanungen von Zügen ermöglicht und die Taktfolgen dynamisch anpasst. Die Notwendigkeit ergibt sich aus den aktuellen Leistungsdaten: ICE-Züge weisen eine durchschnittliche Verspätung von 12,5 Minuten und eine Ausfallquote von 4,2% auf, IC/EC-Züge eine durchschnittliche Verspätung von 11 Minuten und eine Ausfallquote von 7,2%. Diese Werte verdeutlichen erhebliche Effizienzverluste für Pendler und den Bahnverkehr insgesamt. Als Limitation ist zu beachten, dass die bisherigen Daten nicht alle regionalen Besonderheiten und saisonalen Schwankungen berücksichtigen. Mit zusätzlichen Informationen zu Wetterbedingungen, Bauarbeiten und Echtzeit-Zugbewegungen könnte das System weiter optimiert und die Ursachen von Verspätungen präziser analysiert werden.

Empfehlung 3: Förderung multimodaler Pendlerlösungen Ziel ist es, die Nutzung von PKW auf Pendelstrecken in den nächsten fünf Jahren um 10–15% zu reduzieren und die Bahn als attraktives Verkehrsmittel zu stärken. Dazu sollen Bike-and-Ride- und Park-and-Ride-Infrastrukturen an Bahnhöfen ausgebaut sowie eine Pendler-App eingeführt werden, die Echtzeitinformationen zu Zugverbindungen, Verspätungen und alternativen Verkehrsmitteln liefert. Ergänzend könnte ein neues, deutschlandweites Pendler-Ticket eingeführt werden, das eine flexible Nutzung von Bahn, Nahverkehr und anderen Verkehrsmitteln ermöglicht und Bahnfahren preislich sowie organisatorisch noch attraktiver macht. Die Begründung ergibt sich aus der Zeitersparnis der Bahn gegenüber dem Auto: Beispielsweise spart die Strecke von Dachau nach München durchschnittlich 14,1 Minuten pro Fahrt, was sich auf Tausende Pendlerstunden summiert und den Nutzen multimodaler Lösungen unterstreicht. Limitationen bestehen darin, dass die Pendlerzahlen bisher nur städtische Statistiken abbilden und Home-Office oder flexible Arbeitszeiten nicht berücksichtigen. Mit zusätzlichen Daten zur tatsächlichen Nutzung multimodaler Angebote und Umstiegsraten könnten die Maßnahmen gezielter gesteuert und ihre Wirksamkeit messbar gemacht werden.


Zusatzaufgaben (optional)

Bisher haben Sie zwei Dimensionen betrachtet: Zeit (Bahn ist schneller) und Geld (Verspätungen kosten). Aber es gibt einen dritten, oft vergessenen Aspekt: die Umwelt.

Das Auto ist nicht nur langsamer und teurer; es ist auch ein Klimakiller. Ein durchschnittlicher PKW emittiert z.B. etwa 150 g CO2 pro Personenkilometer.

  1. Recherchieren Sie die CO2-Emissionsfaktoren und das Mobilitätsverhalten:

Hinweis: Nutzen Sie Daten vom Umweltbundesamt oder dem DB Umweltbericht.


CO2-Emissionen pro Verkehrsmittel in Deutschland
Verkehrsmittel CO2-Emissionen (g/Personenkilometer) Quelle
PKW (Durchschnitt) 164 DB Umweltbericht 2024
PKW (Elektro, deutscher Strommix) 70 UBA TREMOD 2024
S-Bahn 50 DB Umweltbericht 2024
RE/RB (Nahverkehr) 40 DB Umweltbericht 2024
Bahn (70% Nah, 30% Fern) 37 Berechnung durch Daten aus der Tabelle
ICE/IC (Fernverkehr) 30 UBA TREMOD 2024

Beschreibung: Die Tabelle zeigt die CO₂-Emissionen pro Personenkilometer für verschiedene Verkehrsmittel in Deutschland. Am höchsten liegen die Emissionen beim durchschnittlichen Pkw mit 164g CO₂e/pkm, während Elektro-Pkw aufgrund des deutschen Strommixes deutlich niedrigere 70g CO₂e/pkm aufweisen. Der Schienenverkehr ist besonders klimafreundlich: S-Bahn und RE/RB liegen zwischen 40 und 50g CO₂e/pkm, ICE/IC-Fernverkehr bei 30g CO₂e/pkm. Der gewichtete Durchschnitt für die Bahn, basierend auf 70% Nahverkehr und 30% Fernverkehr, beträgt 37g CO₂e/pkm. Vergleicht man diesen Wert mit dem durchschnittlichen Auto, wird deutlich, dass die Bahn etwa 77% weniger CO₂ pro Personenkilometer ausstößt. Damit wird die deutliche Klimavorteilhaftigkeit der Bahn für Pendlerfahrten und Fernreisen sichtbar.


  1. Die Studie “Mobilität in Deutschland” (MiD 2023) ist die wichtigste Datenquelle zum Mobilitätsverhalten in Deutschland. Sie ermöglicht einen Vergleich mit 2017 (vor Corona).

Lesen Sie den MiD 2023 Kurzbericht und beantworten Sie:


Modal Split: Die Studie „Mobilität in Deutschland 2023“ (MiD 2023) untersucht das Mobilitätsverhalten in Deutschland und ermöglicht einen Vergleich mit den Daten von 2017. Im Modal Split zeigt sich, dass der Anteil des öffentlichen Verkehrs (ÖV) am Gesamtverkehr leicht gestiegen ist und 2023 bei etwa 11% der Wege liegt. Damit hat der ÖV nach dem Corona-Einbruch wieder etwas Boden gewonnen, bleibt jedoch im Vergleich zum motorisierten Individualverkehr sowie zum Fuß- und Radverkehr weiterhin gering.

Homeoffice-Effekt: Die MiD-Daten verdeutlichen außerdem einen Homeoffice-Effekt: Die durchschnittliche Tagesstrecke pro Person ist von rund 40 Kilometer im Jahr 2017 auf etwa 35 Kilometer in 2023 gesunken. Laut MiD ist der Hauptgrund für diese Entwicklung veränderte Alltags- und Arbeitsmuster, insbesondere die Nutzung von Homeoffice, flexiblere Arbeitszeiten und verstärkte Online-Erledigungen. Die Unterwegzeit bleibt trotz kürzerer Strecken in etwa gleich, was zeigt, dass insgesamt weniger Wege zurückgelegt werden.

Stadt vs. Land: In Bezug auf die Deutschlandticket-Nutzung zeigt sich ein deutliches Stadt-Land-Gefälle. In Metropolen geben rund 33% der Befragten an, das Deutschlandticket als übliches Nahverkehrsticket zu nutzen, während der Anteil in ländlichen Räumen bei etwa 10% liegt. Für Regionen wie Ulm, die weder Großstadt noch vollständig ländlich sind, bedeutet dies eine mittlere Nutzungserwartung und ein Potenzial, durch bessere Takte und Angebote den ÖV attraktiver zu machen.

Implikation für CO2: Aus den Veränderungen im Mobilitätsverhalten lassen sich auch Schlüsse für das CO₂-Einsparpotenzial ziehen. Der Rückgang der täglichen Wege und die stabile Nutzung des öffentlichen Verkehrs zeigen, dass die Bahn und der ÖV insgesamt einen wichtigen Beitrag zur Reduzierung von Verkehrsemissionen leisten können. Besonders in städtischen Ballungsräumen oder Regionen mit wachsender Deutschlandticket-Nutzung kann das Substituieren von Pkw-Pendeln durch Bahnfahrten das CO₂-Aufkommen deutlich senken, auch wenn der ÖV-Anteil am Gesamtverkehr noch vergleichsweise gering bleibt.


  1. Berechnen Sie die CO2-Ersparnis für die 11 analysierten Städte.

Datensatz: co2_analyse (aus Aufgabe 4) – enthält Streckenlängen, Einpendlerzahlen und vorberechnete Werte

Annahmen:

Berechnen Sie für jeden Umsteiger (Auto \(\rightarrow\) Bahn):

Nun sollten Sie eine Szenario Analyse ähnlich wie in Aufgabe 15 durchführen: Wenn sich der Bahnanteil von 8,4% auf 20% erhöht: wie viele Tonnen CO2 würden in den 11 Städten jährlich eingespart?

Visualisieren Sie die CO2-Ersparnis pro Stadt.

Stellen Sie die Ersparnis in Kontext, um die Ersparnis greifbarer zu machen, z.B. wie viele Mallorca-Flüge (hin + zurück, ~750 kg CO2) entspricht das?


Vergleich Auto vs. Bahn für typische Pendlerstrecken inkl. CO₂-Ersparnis und Mallorca-Flügen
Stadt CO2 Status Quo ≈ (t) CO2 Szenario ≈ (t) CO2 Ersparnis ≈ (t) Mallorca Flüge ≈
Frankfurt 681.000 232.000 56.000 74.000
Berlin 626.000 213.000 51.000 68.000
München 406.000 138.000 33.000 44.000
Hannover 271.000 92.000 22.000 29.000
Hamburg 260.000 89.000 21.000 28.000
Köln 262.000 89.000 21.000 28.000
Stuttgart 179.000 61.000 15.000 19.000
Düsseldorf 161.000 55.000 13.000 17.000
Nürnberg 80.000 27.000 7.000 9.000
Essen 72.000 25.000 6.000 8.000
Ulm 12.000 4.000 1.000 1.000

Beschhreibung: Die Tabelle zeigt die CO₂-Emissionen von Pendlern in elf deutschen Städten und die Einsparungen, die ein höherer Bahnanteil ermöglichen würde. Aktuell liegt der Bahnanteil bei 8,4% (Status quo). Frankfurt hat mit 681.000t CO₂ die höchsten Emissionen, gefolgt von Berlin mit 626.000t und München mit 406.000t. Bei einem erhöhten Bahnanteil von 20% sinken die Emissionen deutlich: Frankfurt auf 232.000t, Berlin auf 213.000t und München auf 138.000t. Die dadurch erzielte CO₂-Ersparnis beträgt in Frankfurt 56.000t, in Berlin 51.000t und in München 33.000t. Städte mit weniger Pendlern wie Ulm, Essen oder Nürnberg sparen entsprechend weniger CO₂, zwischen 1.000t und 7.000t.

Interpretation: Die Umrechnung der CO₂-Ersparnis in Mallorca-Flüge verdeutlicht die Größenordnung: Die Einsparung in Frankfurt entspricht etwa 74.000 Flügen, in Berlin 68.000 und in München 44.000 Flügen. Auch mittlere Städte erzielen noch beträchtliche Einsparungen (Hannover 29.000 Flüge, Hamburg und Köln jeweils 28.000 Flüge), während Ulm nur rund 1.000 Flüge einspart. Insgesamt zeigt die Tabelle, dass die größten Einsparungen in Städten mit vielen Pendlern und längeren Pendelstrecken erzielt werden. Selbst eine moderate Erhöhung des Bahnanteils auf 20% führt zu signifikanten Reduktionen der CO₂-Emissionen, sowohl absolut in Tonnen als auch anschaulich in vergleichbaren Flügen.


Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (bahnhof_ags_mapping.csv)

Dieses Mapping ist essenziell für die Verknüpfung von Bahn- und Pendlerdaten. Die Bahndaten sind auf Bahnhofsebene (z.B. “München Hbf”), die Pendlerdaten auf Kreisebene (z.B. “München, Landeshauptstadt”). Der AGS (Amtlicher Gemeindeschlüssel) ist der Schlüssel, der beide Welten verbindet.

Wichtige Variablen:

  • station_name: Name des Bahnhofs
  • ags: Amtlicher Gemeindeschlüssel (5-stellig für Kreise)
  • kreis_name: Name des Landkreises/der kreisfreien Stadt

2. Fahrtzeit-Vergleich OSRM (fahrtzeit_osrm_vergleich.csv)

Für einen fairen Vergleich Auto vs. Bahn brauchen wir realistische Fahrtzeiten. OSRM (Open Source Routing Machine) berechnet echte Straßenrouten basierend auf OpenStreetMap – keine Luftlinien, sondern tatsächliche Straßenverbindungen mit Abbiegevorgängen, Geschwindigkeitsbegrenzungen und Straßentypen.

Wichtige Variablen:

  • stadt: Zielstadt der Pendlerstrecke
  • strecke_name: Beschreibung der Route (z.B. “Dachau \(\rightarrow\) München”)
  • auto_distanz_km: Fahrstrecke mit dem Auto in km
  • auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit (mit Staufaktor)
  • bahn_planzeit_min: Fahrzeit laut Fahrplan
  • bahn_verspaetung_min: Durchschnittliche Verspätung
  • bahn_real_min: Realistische Bahnfahrzeit (Fahrplan + Verspätung)

Wie wurde das Routing durchgeführt?

  1. Koordinaten ermitteln: Für jede Pendlerstrecke wurden Start- und Zielkoordinaten definiert (z.B. Stadtzentrum Dachau \(\rightarrow\) München Hauptbahnhof).

  2. OSRM-API abfragen: Über die öffentliche OSRM-Demo-API (router.project-osrm.org) wurden für jede Route Distanz und Fahrzeit abgefragt. Die API gibt die schnellste Route zurück, basierend auf dem aktuellen Straßennetz.

  3. Staufaktor anwenden: Die OSRM-Basisfahrzeit entspricht einer Fahrt bei freiem Verkehr. Für die Hauptverkehrszeit (HVZ) wurde ein Staufaktor von 1,3-1,5 angewendet, basierend auf den INRIX-Daten der jeweiligen Stadt.

  4. Bahn-Daten ergänzen: Die Bahnfahrzeiten stammen aus dem DB-Fahrplan, ergänzt um die durchschnittliche Verspätung aus unserer Analyse.

Weiterführende Links:

3. Ulm-Pendlerrouten (ulm_pendlerrouten.csv)

Da Sie in Ulm studieren, analysieren wir die wichtigsten Pendlerrouten in die Stadt genauer. Dieser Datensatz enthält die 5 wichtigsten Einpendler-Gemeinden mit detaillierten Informationen zur Erreichbarkeit.

Wichtige Variablen:

  • start_ort: Startgemeinde der Pendlerroute
  • ziel_ort: Zielort (Ulm)
  • auto_dauer_min: Fahrzeit mit dem Auto
  • auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit
  • bahn_fahrplan_min: Bahnfahrzeit laut Fahrplan
  • bahn_real_min: Realistische Bahnfahrzeit
  • hat_bahnhof: TRUE/FALSE – hat der Startort einen Bahnanschluss?
  • pendler_geschaetzt: Geschätzte Anzahl Pendler auf dieser Route

4. Entgeltstatistik (ba_entgeltstatistik_2024.csv)

Um die volkswirtschaftlichen Kosten von Verspätungen zu berechnen, brauchen wir regionale Lohndaten. Diese haben wir von der Bundesagentur für Arbeit heruntergeladen.

Wichtige Variablen:

  • kreis_name: Name des Kreises/der Stadt
  • ags: Amtlicher Gemeindeschlüssel
  • medianentgelt_brutto_monat: Median-Bruttomonatsentgelt in Euro

Quelle: Bundesagentur für Arbeit, Entgeltstatistik 2024