Motivation

Jeden Morgen das gleiche Bild: Verstopfte Autobahnen, genervte Pendler, verlorene Zeit. 20,5 Millionen Menschen pendeln in Deutschland täglich zur Arbeit – die meisten davon mit dem Auto. Laut INRIX Traffic Scorecard 2024 verlieren Pendler in deutschen Großstädten zwischen 40 und 60 Stunden pro Jahr allein im Stau. Das entspricht fast einer kompletten Arbeitswoche, die im Nichts verpufft.

Die Idee liegt auf der Hand: Wer Bahn fährt, steht nicht im Stau. Aber wie schlägt sich die Bahn im Vergleich zum Auto? Ist sie wirklich schneller? Und wie zuverlässig ist sie eigentlich?

In diesem Projekt analysieren Sie Echtzeitdaten der Deutschen Bahn, Pendlerstatistiken der Bundesagentur für Arbeit, Staudaten von INRIX und die Entgeltstatistik der Bundesagentur für Arbeit. Sie werden herausfinden, dass die Antwort auf die Frage “Sollten mehr Menschen Bahn fahren?” komplexer ist, als man zunächst vermuten würde und dass sie wichtige Implikationen für die Verkehrspolitik hat.

Ihre zentrale Forschungsfrage lautet:

“Sollten mehr Menschen Bahn fahren – und was müsste sich dafür ändern?”

Datengrundlage

In diesem Projekt arbeiten Sie mit mehreren Datensätzen. Ein wichtiger Teil des Projekts ist das eigenständige Beschaffen von Primärdaten aus offiziellen Quellen.

Daten einlesen und verstehen

Bevor Sie mit der Analyse beginnen können, müssen Sie verschiedenste Datensätze einlesen und deren Struktur verstehen. Die Deutsche Bahn stellt über unterschiedliche Schnittstellen Echtzeitdaten für ihre Züge als open-source Daten zur Verfügung, welche per API-Calls geladen werden können. Jedoch gibt es von der Deutschen Bahn keine offizielle Seite, welche historische Daten zu Zugverspätungen, Ausfällen etc. für Fern- und Nahverkehrszüge sammelt. Da wir uns jedoch mit historischen Daten beschäftigen möchten, greifen wir auf Daten zurück, die von Piet Brömmel gesammelt wurden und bei Huggingface im Parquet-Format zur Verfügung gestellt wurden. Das Parquet-Format ist ein effizientes Datenformat und wird oft für große Datenmengen genutzt; in R können Sie diese Daten mit dem arrow-Paket einlesen.

  1. Wie pünktlich ist die Bahn wirklich? Um diese Frage zu beantworten, brauchen Sie echte Verspätungsdaten – nicht nur Pressemitteilungen. Die Bahndaten bilden das Herzstück unserer Analyse: Mit ihnen können Sie berechnen, wie viel Zeit Bahnfahrer durch Verspätungen verlieren und später mit den Stauzeiten der Autofahrer vergleichen.

Die Deutsche Bahn stellt Echtzeitdaten als Open Data zur Verfügung. Das Projekt piebro/deutsche-bahn-data auf Huggingface sammelt diese Daten im Parquet-Format.

Laden Sie die Datei für November 2025 direkt von Huggingface herunter und lesen Sie diesen Datensatz als bahn in R ein.

Zeigen Sie die ersten 10 Zeilen des Datensatzes in einer Tabelle und beantworten Sie anschließend folgende Fragen:

  • Wie viele Beobachtungen enthält der Datensatz? Welche Variablen sind vorhanden?
  • Was stellt eine einzelne Beobachtung dar?

Hinweis 1: Sie können auf Huggingface die gesuchte Datei hier finden und direkt die URL zu der Datei in R mitgeben

Hinweis 2: Sie können die Parquet Datei entweder lokal speichern, oder immer direkt per URL einlesen. Falls Sie die Datei lokal speichern, so wird diese nicht auf GitHub Committet, da wir dies in der .gitignore entsprechend eingestellt haben. In diesem Fall sollten alle Teammitglieder die Datei lokal zur Verfügung haben.

Hinweis 3: Achten Sie bei allen Tabellen auf einer saubere Darstellung


Auszug aus den Echtzeitdaten der Deutschen Bahn (November 2025)

Bahnhof Bahnhof (XML) Stationsnummer Zugname Zielbahnhof Verspätung (Min.) Zeitstempel Ausgefallen Zugtyp Fahrt-ID Stationsfolge Geplante Ankunftszeit Geänderte Ankunftszeit Geplante Abfahrtszeit Geänderte Abfahrtszeit Datensatz-ID
Stuttgart Hbf Stuttgart Hbf (tief) 08098096 S 2 Filderstadt 5 2025-11-01 01:00:00 FALSE S 15 2025-11-01 00:55:00 2025-11-01 00:57:00 2025-11-01 00:55:00 2025-11-01 01:00:00 -1263112065111090114-2510312318-15
Halle (Saale) Hbf Halle(Saale)Hbf 08010159 S 5 Leipzig Hbf (tief) 1 2025-11-01 01:00:00 FALSE S 1 NA NA 2025-11-01 00:59:00 2025-11-01 01:00:00 -2678885466088426112-2510312359-1
Karlsruhe Hbf Karlsruhe Hbf 08000191 RE 1 Karlsruhe Hbf 95 2025-11-01 01:00:00 FALSE RE 7 2025-10-31 23:25:00 2025-11-01 01:00:00 NA NA -2791458000270945298-2510312132-7
Regensburg Hbf Regensburg Hbf 08000309 ALX RE25 München Hbf 11 2025-11-01 01:00:00 FALSE ALX 4 2025-11-01 00:35:00 2025-11-01 00:52:00 2025-11-01 00:49:00 2025-11-01 01:00:00 -5065801516765768983-2510312301-4
Mannheim Hbf Mannheim Hbf 08000244 ICE 775 Karlsruhe Hbf 1 2025-11-01 01:00:00 FALSE ICE 5181720942697741094 8 2025-11-01 00:56:00 2025-11-01 00:58:00 2025-11-01 00:59:00 2025-11-01 01:00:00 5181720942697741094-2510311916-8
Flughafen BER Flughafen BER (S-Bahn) 08089201 S 9 Flughafen BER 1 2025-11-01 01:00:00 FALSE S 7409107008547428277 5 2025-11-01 00:59:00 2025-11-01 01:00:00 NA NA 7409107008547428277-2510312346-5
Halle (Saale) Hbf Halle(Saale)Hbf 08010159 S 8 Halle (Saale) Hbf 15 2025-11-01 01:00:00 FALSE S 2442677234119162947 6 2025-11-01 00:45:00 2025-11-01 01:00:00 NA NA 2442677234119162947-2510312324-6
München Hbf München Hbf 08000261 RB 40 München Hbf 0 2025-11-01 01:00:00 FALSE RB 8 2025-11-01 01:00:00 2025-11-01 01:00:00 NA NA -8549369502950901321-2510312246-8
Köln Hbf Köln Hbf 08000207 IC 1952 Köln Hbf 40 2025-11-01 01:00:00 FALSE IC 2365115903117509345 14 2025-11-01 00:20:00 2025-11-01 01:00:00 NA NA 2365115903117509345-2510311747-14
Freiburg (Breisgau) Hbf Freiburg(Breisgau) Hbf 08000107 S 1 Freiburg (Breisgau) Hbf 0 2025-11-01 01:00:00 FALSE S 9 2025-11-01 01:00:00 2025-11-01 01:00:00 NA NA -2150665481183031960-2510312332-9

Der Datensatz für November 2025 mit Echtzeitdaten der Deutschen Bahn enthält 13.943.561 Beobachtungen bei 16 Variabeln: station_name; xml_station_name; eva; train_name; final_destination_station; delay_in_min; time; is_canceled; train_type; train_line_ride_id; train_line_station_num; arrival_planned_time; arrival_change_time; departure_planned_time_departure_change_time; id. Dabei stellt eine einzelne Beobachtung (Zeile) ein konkretes Zugereignis an einem bestimmten Bahnhof zu einem bestimmten Zeitpunkt dar. Darüber hinaus werden geplante und tatsächliche Zeitpunkte erfasst, sodass sich hieraus eine Verspätung kalkulieren lässt. Jede Zeile beschreibt somit einen spezifischen Halt bzw. Ankunft oder Abfahrt eines Zuges und bildet deshalb die kleinste Analyseeinheit des Datensatzes.


  1. Wohin pendeln die Menschen? Die Bahndaten zeigen ihnen die Pünktlichkeit der Züge – aber um zu verstehen, wo gute Bahnverbindungen besonders wichtig sind, müssen Sie wissen, wohin die Menschen pendeln. Die Pendlerstatistik der Bundesagentur für Arbeit zeigt genau das: Welche Städte sind die größten Arbeitgeber-Magneten?

Laden Sie den Datensatz pendler_kreise_aufbereitet.csv aus dem Ordner daten in R ein als Datensatz pendler.

Erstellen Sie eine Tabelle der Top 10 Städte nach Einpendlern mit den Spalten: Stadt (kreis_name), Einpendler, Auspendler, Pendlersaldo.

Interpretieren Sie kurz: Welche Städte sind die größten “Pendlermagneten” Deutschlands und warum?


Top-10 Städte nach Einpendlerzahl
AGS Stadt Einpendler Auspendler Pendlersaldo
09162 München, Landeshauptstadt 455.645 202.756 252.889
06412 Frankfurt am Main, Stadt 405.856 111.245 294.611
02000 Hamburg, Freie und Hansestadt 392.951 147.328 245.623
11000 Berlin, Stadt 392.324 219.898 172.426
05315 Köln, Stadt 306.905 138.422 168.483
05111 Düsseldorf, Stadt 284.696 97.326 187.370
08111 Stuttgart, Landeshauptstadt 274.442 100.095 174.347
09564 Nürnberg, Stadt 165.496 78.557 86.939
05113 Essen, Stadt 141.296 90.906 50.390
03241 Region Hannover 137.924 69.974 67.950

Die größten Pendler-Magneten Deutschlands sind München, Frankfurt am Main, Hamburg und Berlin, da sie die höchsten Einpendlerzahlen und zugleich deutlich positive Pendlersalden aufweisen. Diese Städte fungieren als zentrale Arbeits- und Wirtschaftszentren mit hoher Arbeitsplatzdichte in Branchen wie Dienstleistungen, Industrie, Verwaltung und Finanzwirtschaft. Gleichzeitig führen hohe Mieten und Lebenshaltungskosten dazu, dass viele Beschäftigte im Umland wohnen und täglich in diese Städte einpendeln.


  1. Was kostet das Auto? Sie haben jetzt Bahndaten und wissen, wohin die Menschen pendeln. Aber um fair vergleichen zu können, brauchen Sie auch die Alternative: Wie viel Zeit verlieren Autofahrer im Stau? Diese Daten liefert INRIX – ein Unternehmen, das weltweit Verkehrsdaten sammelt. Später werden Sie diese Staukosten mit den Bahnverspätungen vergleichen.

Besuchen Sie die INRIX Global Traffic Scorecard und suchen Sie die Stauzeiten für die Top 10 Städte aus Aufgabe 2 und zusätzlich die Stauzeiten für Ulm. INRIX misst, wie viele Stunden Autofahrer jährlich im Stau verlieren.

  • Erstellen Sie eine eigene CSV-Datei inrix_staedte_2024.csv mit folgenden Spalten für die geforderten Städte:
    • stadt: Name der Stadt
    • stau_stunden_jahr: Jährliche Staustunden pro Fahrer
    • kosten_eur: Jährliche Kosten pro Fahrer (findet sich in der tiefergehenden Übersicht)
  • Berechnen Sie für jede Stadt, wie viele Arbeitstage pro Jahr im Stau verloren gehen. Annahme: Ein Arbeitstag = 8 Stunden.

Erstellen Sie anschließend eine schöne Tabelle mit: Stadt, Staustunden/Jahr, verlorene Arbeitstage und beschreiben diese. In welcher Stadt ist die Stausituation am schlimmsten? Wie viele Arbeitstage verliert ein typischer Pendler dort pro Jahr?

Hinweis: Auf der INRIX-Website können Sie nach bei “Jump to City Rankings” -> “Search the List” -> “Germany” oder der konkreten Stadt filtern.


Jährliche Staukosten in deutschen Großstädten
INRIX-Daten 2025
Rang (DE) Stadt Staustunden pro Jahr Kosten pro Jahr (€) Arbeitstage pro Jahr
1 Köln 67 919 8,38
2 Berlin 60 823 7,50
3 Düsseldorf 63 864 7,88
4 München 57 781 7,13
5 Stuttgart 60 823 7,50
6 Frankfurt am Main 55 754 6,88
7 Hannover 54 740 6,75
8 Hamburg 46 631 5,75
13 Wuppertal 46 631 5,75
24 Nürnberg 38 521 4,75
40 Ulm 30 411 3,75
Hinweis: Für Essen liegen in den INRIX-Daten keine Werte vor. Die Stadt erscheint daher nicht in der Tabelle und stattdessen Wuppertal.

Die Tabelle zeigt für ausgewählte deutsche Städte die jährlich verlorenen Staustunden pro Autofahrer sowie die daraus abgeleiteten verlorenen Arbeitstage, wobei ein Arbeitstag mit acht Stunden angesetzt wird. Die Werte basieren auf den Daten der INRIX Global Traffic Scorecard und verdeutlichen erhebliche Unterschiede in der Staubelastung zwischen den Städten. Besonders in großen Metropolen fallen die Staustunden deutlich höher aus als in kleineren Städten wie Ulm. Die schlimmste Stausituation weist Köln auf. Dort verlieren Autofahrer im Durchschnitt 67 Staustunden pro Jahr, was etwa 8,4 verlorenen Arbeitstagen entspricht und Kosten i.H.v 919 Euro pro Jahr bei einem stadtesüblichen Lohn verursacht. Damit liegt Köln im betrachteten Vergleich deutlich vor anderen Großstädten wie Düsseldorf, Berlin oder München und weist die höchste zeitliche Belastung durch Staus auf.


  1. Für die weiteren Analysen stellen wir Ihnen fünf zusätzliche Datensätze bereit. Diese laden Sie jetzt, damit sie in allen folgenden Aufgaben direkt verfügbar sind.

Laden Sie die folgenden Datensätze aus dem Ordner daten und speichern Sie diese unter den angegebenen Variablennamen:

Datei Variablenname Verwendet in
bahnhof_ags_mapping.csv bahnhof_mapping Aufgabe 9-10
fahrtzeit_osrm_vergleich.csv fahrtzeit Aufgabe 12
ulm_pendlerrouten.csv ulm_routen Aufgabe 13
ba_entgeltstatistik_2024.csv entgelt für staedte_basis
co2_analyse.csv co2_analyse Aufgabe 19 (Bonus)

Verschaffen Sie sich einen ersten Überblick über die Struktur der Daten (z.B. mit glimpse(), dies sollte später in ihrem HTML Dokument nicht sichtbar sein!).

Erstellen Sie außerdem einen Master-Datensatz staedte_basis für die Top-11-Städte (Top 10 Pendlerstädte + Ulm), der die Daten aus pendler, entgelt und inrix kombiniert. Dieser Datensatz vereinfacht die späteren Analysen (ab Aufgabe 14), da alle relevanten Kennzahlen bereits zusammengeführt sind.

Der Master-Datensatz sollte folgende Spalten enthalten:

  • ags: Amtlicher Gemeindeschlüssel
  • stadt: Stadtname (Kurzform, z.B. “München”)
  • einpendler: Anzahl Einpendler
  • median_monat_eur: Medianlohn pro Monat
  • median_stunde_eur: Medianlohn pro Stunde (Monatslohn / 160)
  • stau_stunden_jahr: Stauzeit pro Jahr (aus INRIX)

Hinweis 1: Die Datensätze verwenden unterschiedliche Namensformate: pendler hat offizielle Namen (“München, Landeshauptstadt”), während entgelt und inrix Kurznamen (“München”) verwenden. Nutzen Sie den AGS als zuverlässigen Schlüssel für die Verknüpfung mit pendler. Tipp: entgelt enthält sowohl AGS als auch Kurznamen und eignet sich daher gut als Ausgangspunkt.

Hinweis 2: Eine ausführliche Beschreibung der Datensätze finden Sie im Anhang A.


Master-Datensatz: Staedte_basis (Top-10 Pendlerstädte & Ulm)
AGS Stadt Median Monatsentgelt (€) Einpendler Median Stundenentgelt (€) Staustunden pro Jahr
09162 München 4.847 455.645 30,29 57
06412 Frankfurt 4.712 405.856 29,45 55
02000 Hamburg 4.527 392.951 28,29 46
11000 Berlin 4.156 392.324 25,98 60
05315 Köln 4.398 306.905 27,49 67
05111 Düsseldorf 4.523 284.696 28,27 63
08111 Stuttgart 4.689 274.442 29,31 60
09564 Nürnberg 4.234 165.496 26,46 38
05113 Essen 3.987 141.296 24,92 46
03241 Hannover 4.156 137.924 25,98 54
08421 Ulm 4.312 68.341 26,95 30

Die Pünktlichkeit der Deutschen Bahn

Nachdem Sie nun einen Überblick über die Daten haben, welche wir in diesem Projekt verwenden möchten, tauchen Sie tiefer in die Bahndaten ein. Die zentrale Frage ist: Wie zuverlässig ist die Deutsche Bahn wirklich?

Die Bahn unterscheidet verschiedene Zugtypen, vom ICE über den RE bis zur S-Bahn. Jeder Zugtyp hat unterschiedliche Eigenschaften: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Aber welcher Zugtyp ist am pünktlichsten?

  1. Welche Züge sind (un)pünktlich? Nicht alle Züge sind gleich: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Um später sinnvolle Empfehlungen geben zu können, müssen Sie verstehen, welche Zugtypen besonders problematisch sind. Dafür klassifizieren Sie die Züge anhand ihrer Namen. Nutzen Sie für diese Analyse den Datensatz bahn.

Die Variable train_name enthält den Zugnamen (z.B. “ICE 123”, “S 5”, “RE 8”).

Zugtyp Regel Beispiel
ICE beginnt mit “ICE” ICE 123
IC/EC beginnt mit “IC” oder “EC” IC 2012, EC 6
IRE/RE beginnt mit “RE” oder “IRE” RE 5, IRE 200
RB beginnt mit “RB” RB 26
S-Bahn beginnt mit “S” (mit Leerzeichen!) S 5
Sonstige alle anderen U 6, STB 123

Erstellen Sie auf dieser Basis eine Tabelle, welche pro Zugtyp folgende Kennzahlen anschaulich darstellt:

Beschreiben und Interpretieren Sie die Tabelle.

Weiterhin sollten Sie ihre Ergebnisse verifizieren. Dafür können Sie auf die offizielle Pünktlichkeitswerte der Deutschen Bahn zurückgreifen (recherchieren Sie diese selbstständig).

Stimmen Ihre Ergebnisse mit den offiziellen Werten überein? Falls nicht: Welche methodischen Unterschiede könnten die Abweichung erklären?

Hinweis: Nutzen Sie str_detect() aus dem stringr-Paket. Achten Sie auf die Reihenfolge der Bedingungen!


Pünktlichkeit nach Zugtyp (November 2025)
Zugtyp Anzahl Fahrten Ø Verspätung (Min) Anteil pünktlich (≤ 6 Min) Ausfallquote
S-Bahn 6.414.157 2,94 87.4% 5.5%
Sonstige 2.944.355 3,47 84.7% 2.6%
RB 2.675.020 3,48 85.2% 3.2%
IRE/RE 1.669.947 6,06 74.1% 3.6%
ICE 171.516 12,50 56.7% 4.2%
IC/EC 68.566 11,06 60.4% 7.4%

Die Tabelle „Pünktlichkeit nach Zugtyp (November 2025)“ stellt für verschiedene Zugtypen die Anzahl der erfassten Fahrten, die durchschnittliche Verspätung in Minuten, den Anteil pünktlicher Züge (definiert als maximal sechs Minuten Verspätung) sowie die Ausfallquote dar. Die Zeilen unterscheiden zwischen S-Bahn, sonstigen Zügen, Regionalbahn (RB), Regionalexpress/Interregio-Express (IRE/RE) sowie den Fernverkehrszügen ICE und IC/EC. Alle Kennzahlen beziehen sich auf den Monat November 2025 und erlauben einen quantitativen Vergleich der Pünktlichkeit zwischen den einzelnen Zugtypen.

Auf Basis der November-2025-Daten zeigen sich Unterschiede in der Pünktlichkeit der verschiedenen Zugtypen. Insbesondere S-Bahnen sowie Regionalzüge (RB und RE/IRE) stellen den Großteil der Fahrten und weisen vergleichsweise geringe durchschnittliche Verspätungen sowie hohe Pünktlichkeitsanteile von über 70 % bis 87 % auf. Fernverkehrszüge wie ICE und IC/EC sind deutlich seltener unterwegs und zeigen höhere durchschnittliche Verspätungen sowie niedrigere Pünktlichkeitswerte zwischen rund 57 % und 60 %.

Ein Vergleich mit den offiziellen Pünktlichkeitswerten der Deutschen Bahn für November 2025 zeigt eine hohe Übereinstimmung. Laut Deutsche Bahn lag die Pünktlichkeit im Fernverkehr in diesem Monat bei rund 54 %, gemessen als Anteil der Züge mit weniger als sechs Minuten Verspätung. Auch die hohen Pünktlichkeitswerte im Nahverkehr entsprechen den offiziellen Angaben, die für den Personenverkehr insgesamt Werte von deutlich über 80 % ausweisen (Quelle: Deutsche Bahn, November 2025).

Geringe Abweichungen zwischen den eigenen Ergebnissen und den offiziellen Werten lassen sich methodisch erklären. Die Deutsche Bahn nutzt interne Betriebsdaten und unterscheidet zwischen betrieblicher und reisendenbezogener Pünktlichkeit, während diese Analyse auf externen Echtzeitdaten basiert und jede Fahrt gleich gewichtet. Zudem können Unterschiede in der Berücksichtigung von Zugausfällen und Anschlussverspätungen zu leicht variierenden Kennzahlen führen.

Quelle: https://www.deutschebahn.com/de/konzern/konzernprofil/zahlen_fakten/puenktlichkeitswerte-6878476


  1. In Aufgabe 5 haben Sie gesehen, dass Fernverkehrszüge (ICE, IC/EC) deutlich höhere Verspätungen und Ausfallquoten haben als Nahverkehrszüge (IRE, RE, RB, S-Bahn). Aber wie relevant ist das für den typischen Pendler? Das hängt davon ab, wie viele Züge jeweils unterwegs sind. Nutzen Sie für diese Analyse den Datensatz bahn (mit der in Aufgabe 5 erstellten Variable zugtyp).

Klassifizieren Sie die Züge in zwei Kategorien:

Erstellen Sie ein Liniendiagramm, das die durchschnittliche Anzahl der Fahrten pro Stunde im Tagesverlauf zeigt:

Tipp: Extrahieren Sie die Stunde aus der Variable time mit hour() aus dem lubridate-Paket. Berechnen Sie dann die durchschnittliche Anzahl Fahrten pro Stunde und Zugtyp.

Beschreiben und interpretieren Sie ihre Grafik. Beantworten Sie zusätzlich die folgenden Fragen:


Die Grafik zeigt ein Liniendiagramm zur durchschnittlichen Anzahl von Zugfahrten pro Stunde im Tagesverlauf. Auf der x-Achse ist die Uhrzeit von 0 bis 23 Uhr abgetragen, auf der y-Achse die durchschnittliche Anzahl der Fahrten pro Stunde. Dargestellt sind zwei Linien, die den Fernverkehr und den Nahverkehr unterscheiden. Die Werte basieren auf Daten der Deutschen Bahn für den Monat November 2025 und ermöglichen einen direkten Vergleich des zeitlichen Verkehrsaufkommens beider Verkehrsarten.

Die meisten Nah- und Fernverkehrszüge verkehren überwiegend während des Tages, mit klaren Spitzen in den frühen Morgenstunden. Ab etwa 4 Uhr steigt die Zahl der Fahrten stark an und erreicht ihr Maximum zwischen 7 und 9 Uhr, was zeitlich mit dem Berufs- und Pendlerverkehr zusammenfällt. Ein weiteres hohes Niveau hält sich über den gesamten Vormittag und Nachmittag, bevor die Anzahl der Fahrten ab den späten Abendstunden (ab ca. 20–21 Uhr) wieder deutlich zurückgeht. In den Nachtstunden zwischen etwa 2 und 4 Uhr ist das Verkehrsaufkommen am geringsten.

Zwischen Fern- und Nahverkehr zeigen sich dabei klare Unterschiede im Muster. Der Nahverkehr dominiert zu allen Tageszeiten deutlich und weist sehr ausgeprägte Spitzen am Morgen sowie ein durchgehend hohes Niveau über den Tag hinweg auf. Das ist typisch für S-Bahnen, Regionalzüge und Pendlerverkehre, die in kurzen Takten fahren. Der Fernverkehr hingegen bewegt sich auf einem wesentlich niedrigeren Niveau, zeigt aber ebenfalls einen Anstieg ab dem Morgen. Seine Verteilung ist gleichmäßiger, mit weniger starken Schwankungen, da Fernzüge seltener verkehren und stärker an feste Fahrpläne gebunden sind.

Diese Information ist besonders wichtig für die spätere Analyse von Verspätungen, weil das Verkehrsaufkommen einen direkten Einfluss auf die Betriebsstabilität hat. Zeiten mit vielen Fahrten – insbesondere im Nahverkehr während der Hauptverkehrszeiten – sind anfälliger für Störungen, da sich kleine Verzögerungen schnell auf viele Züge übertragen können. Ohne die Kenntnis dieser zeitlichen Muster könnte man Verspätungen falsch interpretieren, etwa indem hohe Verspätungswerte auf schlechte Leistung zurückgeführt werden, obwohl sie teilweise durch ein besonders hohes Verkehrsaufkommen erklärbar sind.


Nachdem Sie in Aufgabe 6 herausgefunden haben, dass es deutlich mehr Nahverkehrszüge als Fernverkehrszüge gibt, und diese für Pendler wichtiger sind, sollten Sie sich die Verspätungen der Nahverkehrszüge über den Tag anschauen, da diese vermutlich nicht gleichmäßig über den Tag verteilt sind. Pendler erleben die Bahn vor allem in der Hauptverkehrszeit, d.h. morgens zwischen 7 und 9 Uhr und abends zwischen 16 und 19 Uhr. Aber ist die Bahn zu diesen Zeiten besonders unpünktlich?

  1. Erstellen Sie zwei Heatmaps, die zeigen, wie sich die Verspätungen nach Tageszeit (Stunde) und Wochentag für die Nahverkehrszüge und die Fernverkehrszüge verteilen. Nutzen Sie für diese Analyse den Datensatz bahn.

Tipp zur Farbskala: Da Fernverkehrszüge im Durchschnitt höhere Verspätungen haben als Nahverkehrszüge, können Sie unterschiedliche Farbskalen für die beiden Heatmaps verwenden (z.B. Blau-Töne für Nahverkehr, Rot-Töne für Fernverkehr). Dadurch werden die Muster innerhalb jeder Verkehrsart besser sichtbar.

Beschreiben und interpretieren Sie ihre Grafiken.


Die Abbildung besteht aus zwei Heatmaps, die die durchschnittlichen Zugverspätungen nach Tageszeit und Wochentag darstellen. Die obere Heatmap bezieht sich auf den Fernverkehr, die untere auf den Nahverkehr. Auf der x-Achse ist jeweils die Uhrzeit (Stunden des Tages), auf der y-Achse der Wochentag von Montag bis Sonntag abgetragen. Die Farbintensität gibt die Höhe der durchschnittlichen Verspätung in Minuten an, wobei für Fern- und Nahverkehr jeweils eigene Farbskalen verwendet werden. Die dargestellten Werte basieren auf aggregierten Daten und erlauben einen zeitlichen Vergleich der Verspätungsmuster beider Verkehrsarten.

Auf Basis der beiden Heatmaps zeigen sich zeitliche Unterschiede in den durchschnittlichen Verspätungen. Höhere Verspätungswerte treten vor allem am späten Nachmittag und in den Abendstunden auf. Im Fernverkehr liegen erhöhte Verspätungen insbesondere zwischen etwa 17 und 22 Uhr, mit einem erhöhten Niveau um die Abendstunden. Im Nahverkehr steigen die Verspätungen ebenfalls in den Abendstunden an, erreichen jedoch insgesamt niedrigere Werte als im Fernverkehr. Auffällig ist zudem, dass im Nahverkehr auch während der morgendlichen Hauptverkehrszeit erhöhte Verspätungen auftreten, diese jedoch zeitlich begrenzter sind als die abendlichen Verzögerungen.

Zwischen Werktagen und Wochenende lassen sich ebenfalls Unterschiede erkennen. An Montag bis Freitag sind die Verspätungen insgesamt höher und klarer strukturiert, insbesondere während der klassischen Pendelzeiten am Morgen und vor allem am Abend. Am Wochenende (Samstag und Sonntag) sind die Verspätungen in beiden Verkehrsarten spürbar geringer und gleichmäßiger verteilt, was auf geringere Netzauslastung und Störungen hindeutet.

Ein deutlicher Unterschied zeigt sich zwischen Nah- und Fernverkehr. Der Fernverkehr weist über den gesamten Tag hinweg höhere durchschnittliche Verspätungen auf, mit besonders starken Ausschlägen in den Abendstunden. Der Nahverkehr ist insgesamt stabiler, mit niedrigeren Verzögerungen und weniger extremen Spitzen. Dies steht im Einklang mit der stärkeren Anfälligkeit des Fernverkehrs für Ketteneffekte auf Langstrecken, etwa durch längere Strecken, Netzabhängigkeiten und Verspätungsübertragungen.

Für Pendler bedeutet dies, dass vor allem die abendliche Rückfahrt ein erhöhtes Verspätungsrisiko birgt, insbesondere im Fernverkehr. Wer regelmäßig pendelt, ist im Nahverkehr tendenziell verlässlicher unterwegs, sollte aber auch hier in den Abendstunden mit Verzögerungen rechnen. Die Ergebnisse unterstreichen, dass Analysen von Verspätungen immer im Kontext von Tageszeit und Verkehrsart erfolgen sollten, da die Belastung des Netzes einen entscheidenden Einfluss auf die Zuverlässigkeit hat.


Von der Zeit zum Ort: Wo entstehen die Verspätungen?

In Aufgabe 7 haben Sie analysiert, wann die Verspätungen auftreten, nämlich vor allem zu den Hauptverkehrszeiten. Aber die nächste wichtige Frage ist: Wo entstehen diese Verspätungen?

Aggregierte Statistiken wie Durchschnittswerte über ganz Deutschland verbergen oft große regionale Unterschiede. Vielleicht gibt es einzelne “Problembahnhöfe”, die den Durchschnitt nach oben ziehen? Oder sind die Verspätungen gleichmäßig über das Netz verteilt? Diese Frage ist wichtig, weil sie unterschiedliche Lösungsansätze impliziert: Bei wenigen Problembahnhöfen könnte die Bahn gezielt investieren, bei flächendeckenden Problemen bräuchten Sie systemische Lösungen.

  1. Identifizieren Sie die 10 unpünktlichsten Bahnhöfe in Deutschland (mit mindestens 1.000 Halten im Monat). Nutzen Sie für diese Analyse den Datensatz bahn.

Erstellen Sie ein Balkendiagramm, das die durchschnittliche Verspätung dieser Bahnhöfe zeigt. Beschriften Sie die Balken mit den Verspätungswerten.

Beschreiben und interpretieren Sie ihre Grafik.

  • Sehen Sie ein geografisches Muster?
  • Handelt es sich um große Knotenbahnhöfe oder eher um kleinere Stationen?

Die Abbildung zeigt die zehn unpünktlichsten Bahnhöfe Deutschlands im November 2025, gemessen an der durchschnittlichen Verspätung pro Halt. In die Analyse wurden ausschließlich Bahnhöfe mit mindestens 1.000 Halten einbezogen, um Verzerrungen durch selten bediente Stationen zu vermeiden.

Die Bahnhöfe sind nach Höhe der durchschnittlichen Verspätung absteigend sortiert. Die Werte reichen von 14,7 Minuten in Ennepetal bis 12,3 Minuten in Zeesen, wobei die exakten Verspätungswerte direkt an den Balken ausgewiesen sind. Die Grafik erlaubt damit sowohl einen Vergleich der relativen Betroffenheit einzelner Stationen als auch eine Einschätzung der absoluten Größenordnung der Verspätungen im Regionalverkehr.

Homogenität der Verspätungswerte

Ein zentrales Ergebnis der Analyse ist die geringe Spannweite der durchschnittlichen Verspätungen. Zwischen dem unpünktlichsten Bahnhof (Ennepetal) und dem zehntplatzierten Bahnhof (Zeesen) liegen lediglich 2,4 Minuten. Dies deutet darauf hin, dass es sich nicht um einzelne extreme Ausreißer handelt, sondern um eine Gruppe von Bahnhöfen mit strukturell vergleichbaren Problemen. Die Verspätungen sind somit kein isoliertes Phänomen einzelner Standorte, sondern Ausdruck systematischer Belastungen.

Konzentration entlang der Rheinschiene

Besonders auffällig ist die starke räumliche Ballung der unpünktlichsten Bahnhöfe in Nordrhein-Westfalen. Sieben der zehn Stationen liegen in diesem Bundesland. Innerhalb dieser Gruppe konzentrieren sich wiederum fünf Bahnhöfe entlang der links- und rechtsrheinischen Achse zwischen Köln und Koblenz (Bad Breisig, Sinzig, Bornheim-Sechtem, Brühl und Roisdorf).

Diese Strecke zählt zu den meistbefahrenen Nahverkehrskorridoren Deutschlands und ist durch eine enge Verzahnung von Regional-, Fern- und Güterverkehr gekennzeichnet. Die verbleibenden nordrhein-westfälischen Bahnhöfe (Ennepetal, Hochneukirch, Rheydt-Odenkirchen) liegen ebenfalls auf hochfrequentierten regionalen Achsen. Außerhalb dieses Clusters erscheinen lediglich Rolandseck in Rheinland-Pfalz sowie Zeesen im südlichen Umland Berlins.

Die ausgeprägte regionale Häufung spricht für infrastrukturelle Engpässe, die nicht lokal, sondern streckenbezogen wirken. Historisch gewachsene Verkehrsachsen wie die Rheinschiene tragen heute eine Verkehrslast, für die ihre teilweise über hundert Jahre alte Infrastruktur nicht ausgelegt ist.

Kleine Bahnhöfe als systemische Engpässe

Entgegen der weit verbreiteten Annahme, dass Verspätungen vor allem an großen Fernverkehrsknoten entstehen, zeigt die Analyse ein gegenteiliges Bild. Keiner der identifizierten Bahnhöfe ist ein zentraler Metropolknoten wie Frankfurt (Main) Hbf, Köln Hbf oder München Hbf. Stattdessen handelt es sich überwiegend um kleine bis mittlere Regionalbahnhöfe, die als Durchgangsstationen fungieren und nur über begrenzte infrastrukturelle Reserven verfügen.

Charakteristisch für die identifizierten Bahnhöfe ist ihre Lage auf hochfrequentierten Regionalstrecken mit ein- oder zweigleisiger Infrastruktur. Auf diesen Strecken existieren kaum Überholmöglichkeiten oder betriebliche Puffer. Bereits geringe Verzögerungen können daher nicht ausgeglichen werden, sondern wirken sich unmittelbar auf nachfolgende Züge aus. Die Verspätungen pflanzen sich entlang der Strecke fort und werden an regelmäßig bedienten Stationen wie Sinzig oder Bad Breisig sichtbar. Diese Bahnhöfe sind somit nicht die Ursache, sondern die Orte, an denen sich systemische Störungen bündeln.

Die Ergebnisse weisen insgesamt auf ein strukturelles Kapazitätsproblem im deutschen Bahnnetz hin. Die sehr ähnlichen Verspätungswerte über verschiedene Regionen hinweg zeigen, dass das System bereits nahe an seiner Leistungsgrenze betrieben wird. Insbesondere im Regionalverkehr fehlen ausreichende zeitliche Puffer und infrastrukturelle Redundanzen, um Störungen zuverlässig abzufedern.

Für Pendlerinnen und Pendler sind durchschnittliche Verspätungen von zwölf bis fünfzehn Minuten besonders problematisch, da sie bei kurzen Fahrzeiten einen erheblichen Anteil der Reisezeit ausmachen. Die hohe Verspätungsanfälligkeit zentraler Pendlerachsen mindert somit spürbar die Zuverlässigkeit des Schienenverkehrs und stellt ein wesentliches Hindernis für eine stärkere Nutzung der Bahn dar.


Wo treffen viele Pendler auf eine unpünktliche Bahn?

Bisher haben Sie Pendler- und Bahndaten getrennt betrachtet. Aber die spannende Frage ist: Wo kommen beide Probleme zusammen? Eine Stadt mit vielen Pendlern und einer unpünktlichen Bahn hat ein größeres Problem als eine Stadt mit wenigen Pendlern und einer unpünktlichen Bahn.

Um diese Frage zu beantworten, müssen Sie die Datensätze verknüpfen. Das Problem: Die Bahndaten sind auf Bahnhofsebene, die Pendlerdaten auf Kreisebene. Sie benötigen ein Mapping, das Bahnhöfe den entsprechenden Kreisen zuordnet.

  1. In dieser Aufgabe verknüpfen Sie die Bahn- und Pendlerdaten, um Städte mit Handlungsbedarf zu identifizieren. Nutzen Sie für ihre Analysen die Datensätze: bahn, pendler und bahnhof_mapping.

Das Mapping ordnet Bahnhöfe ihrem Landkreis zu (via AGS = Amtlicher Gemeindeschlüssel). Ihr Ziel: Identifizieren Sie Städte, in denen viele Pendler auf eine unpünktliche Bahn treffen.

\[\text{Problem-Score} = z(\text{Einpendler}) + z(\text{Verspätung})\]

Die z-Standardisierung macht die Werte vergleichbar: \(z(x) = \frac{x - \bar{x}}{s_x}\), wobei \(\bar{x}\) der Mittelwert und \(s_x\) die Standardabweichung ist.

Interpretation: Ein hoher Problem-Score = Viele Pendler + hohe Verspätung = Handlungsbedarf.

Anschließend sollten Sie eine Tabelle der Top 10 Städte nach Problem-Score darstellen und diese kurz beschreiben.


Top-10 Städte mit hohem Handlungsbedarf
Kombination aus Pendleraufkommen und Bahnverspätungen
AGS Stadt Einpendler Ø Verspätung (gewichtet, Min) Problem-Score
09162 München, Landeshauptstadt 455.645 5,98 3.45
05315 Köln, Stadt 306.905 7,89 3.05
05111 Düsseldorf, Stadt 284.696 7,33 2.55
06412 Frankfurt am Main, Stadt 405.856 5,14 2.54
11000 Berlin, Stadt 392.324 4,70 2.18
02000 Hamburg, Freie und Hansestadt 392.951 4,44 2.05
05112 Duisburg, Stadt 86.735 8,81 1.46
05915 Hamm, Stadt 22.447 9,93 1.45
08111 Stuttgart, Landeshauptstadt 274.442 5,30 1.38
05314 Bonn, Stadt 112.607 8,00 1.28

Struktur

Die Tabelle zeigt die Top-10 Städte mit dem höchsten Handlungsbedarf, gemessen an einer Kombination aus Pendleraufkommen und Bahnverspätungen. Jede Zeile steht für eine Stadt bzw. einen Kreis, identifiziert über den AGS. Neben der absoluten Zahl der Einpendler wird die durchschnittliche, nach Halten gewichtete Verspätung dargestellt. Um beide Größen vergleichbar zu machen, werden sie z-standardisiert; der daraus gebildete Problem-Score ist die Summe aus Einpendler und Verspätung. Ein hoher Wert bedeutet somit, dass viele Pendler von überdurchschnittlichen Verspätungen betroffen sind.

Beschreibung

Inhaltlich zeigt sich, dass München den höchsten Problem-Score aufweist. Ausschlaggebend ist hier vor allem das sehr hohe Pendleraufkommen, das selbst moderate Verspätungen zu einem großen gesamtgesellschaftlichen Problem macht. Köln und Düsseldorf folgen, da sie sowohl viele Einpendler als auch deutlich erhöhte Verspätungen haben. Städte wie Frankfurt, Berlin und Hamburg liegen ebenfalls weit oben, profitieren jedoch von vergleichsweise geringeren Verspätungen, wodurch ihr Problem-Score niedriger ausfällt. Auffällig ist, dass auch kleinere Städte wie Hamm oder Duisburg in den Top-10 erscheinen: Hier sind es vor allem sehr hohe Verspätungswerte, die trotz geringerer Pendlerzahlen zu einem relevanten Handlungsbedarf führen.

Kernergebnis

Insgesamt verdeutlicht diese Darstellung, dass Probleme im Bahnverkehr besonders dort gravierend sind, wo hohe Nachfrage und Unzuverlässigkeit zusammenkommen. Der Problem-Score ermöglicht damit eine differenzierte Priorisierung von Städten, in denen Verbesserungen im Bahnverkehr besonders viele Pendler entlasten würden.


  1. Erstellen Sie ein Streudiagramm (Scatterplot), das die Beziehung zwischen Einpendlerzahl (x-Achse) und durchschnittlicher Verspätung (y-Achse) visualisiert.

Beschreiben und iInterpretieren Sie die vier Quadranten:

Beantworten Sie dabei auch folgende Fragen:


Die Grafik ist ein Streudiagramm, das den Zusammenhang zwischen der Anzahl der Einpendler und der durchschnittlichen Bahnverspätung für ausgewählte deutsche Städte darstellt. Auf der x-Achse ist die Einpendlerzahl in logarithmischer Skalierung abgebildet, auf der y-Achse die durchschnittliche Verspätung in Minuten. Gestrichelte horizontale und vertikale Linien markieren jeweils den Mittelwert der beiden Variablen und teilen die Grafik in vier Quadranten. Die Datenpunkte repräsentieren einzelne Städte, sind farblich nach Quadrant kategorisiert und Top-Städte aus der vorherigen Analyse mit dem höchsten Handlungsbedarf wurden mit Städtenamen beschriftet.

Logarithmus

Die Einpendlerzahlen unterscheiden sich stark zwischen den Städten und reichen von deutlich unter 100.000 (min(einpendler) = 19.105) bis über 400.000 (max(einpendler) = 455.645). Eine logarithmische Skala sorgt dafür, dass diese großen Unterschiede übersichtlich dargestellt werden und sowohl kleinere als auch sehr große Städte vergleichbar bleiben. Ohne Logarithmierung würden Städte mit geringeren Pendlerzahlen optisch stark zusammengedrückt und kaum interpretierbar sein.

Interpretation der Quadranten

Oben rechts (viele Pendler, hohe Verspätung): Dieser Quadrant stellt den kritischsten Bereich dar, da hier viele Menschen regelmäßig von überdurchschnittlichen Verspätungen betroffen sind. Städte wie München, Köln, Düsseldorf und Bonn liegen in diesem Feld. Beispielsweise weist München sowohl die höchste Einpendlerzahl als auch eine überdurchschnittliche mittlere Verspätung von rund sechs Minuten auf. In diesen Städten multipliziert sich das Problem der Unzuverlässigkeit durch das hohe Pendleraufkommen, was erhebliche wirtschaftliche und gesellschaftliche Folgekosten nach sich zieht.

Oben links (wenige Pendler, hohe Verspätung): Hier befinden sich Städte mit vergleichsweise geringem Pendleraufkommen, aber auffällig hohen Verspätungen. Die absolute Zahl der Betroffenen ist niedriger als im kritischen Quadranten, dennoch deuten die hohen Verspätungswerte auf strukturelle oder betriebliche Probleme hin. Für diese Städte ist weniger die gesamtwirtschaftliche Relevanz ausschlaggebend, sondern vielmehr die Effizienz und Qualität des Angebots für eine kleinere, aber stark belastete Nutzergruppe.

Unten rechts (viele Pendler, niedrige Verspätung): Dieser Quadrant kann als positiver Referenzbereich interpretiert werden. Städte wie Hamburg oder Berlin weisen hohe Einpendlerzahlen auf, liegen aber unterhalb der durchschnittlichen Verspätung. Trotz hoher Nachfrage gelingt es dort offenbar, den Bahnbetrieb vergleichsweise stabil zu organisieren. Diese Städte liefern wichtige Best-Practice-Beispiele dafür, wie leistungsfähige Infrastruktur und Betriebssteuerung auch bei hoher Auslastung zu akzeptabler Pünktlichkeit führen können.

Unten links (wenige Pendler, niedrige Verspätung): In diesem Quadranten liegen Städte mit geringem Pendleraufkommen und gleichzeitig niedrigen Verspätungen. Hier ist der Bahnbetrieb insgesamt wenig belastet, was sich in einer hohen Zuverlässigkeit widerspiegelt. Der Handlungsdruck ist in diesem Bereich am geringsten, da sowohl die absolute Zahl der Betroffenen als auch die Verspätungsintensität niedrig sind.

Kritischer Bereich

Im kritischen Quadranten (viele Pendler und überdurchschnittlich hohe Verspätungen) liegen insbesondere München, Düsseldorf, Köln und Bonn. In diesen Städten treffen ein hohes Pendleraufkommen und erhöhte durchschnittliche Verspätungen zusammen, wodurch besonders viele Pendler potenziell von Unzuverlässigkeit betroffen sind. Diese Kombination deutet auf einen erhöhten verkehrlichen und gesellschaftlichen Handlungsdruck hin.

Handlungsempfehlung

Die Deutsche Bahn sollte ihre Maßnahmen prioritär auf Städte im kritischen Quadranten konzentrieren. Dazu gehören gezielte Investitionen in Infrastruktur, Kapazitätserweiterungen und betriebliche Stabilisierung, insbesondere in stark frequentierten Knotenpunkten. Parallel sollten erfolgreiche Beispiele aus Städten mit vielen Pendlern, aber vergleichsweise niedrigen Verspätungen (z. B. Hamburg), analysiert und auf andere Ballungsräume übertragen werden, um die Pünktlichkeit dort nachhaltig zu verbessern.


Der Vergleich – Auto vs. Bahn

Sie haben nun identifiziert, wo die Bahn Probleme hat: Städte im kritischen Quadranten (viele Pendler + hohe Verspätungen) brauchen dringend Verbesserungen. Aber bevor Sie Empfehlungen aussprechen können, müssen Sie eine zentrale Frage beantworten:

Lohnt sich die Bahn überhaupt – oder ist das Auto trotz Stau schneller?

Denn selbst wenn die Bahn unpünktlich ist, könnte sie immer noch schneller sein als das Auto im Berufsverkehr. Umgekehrt: Eine pünktliche Bahn bringt wenig, wenn das Auto trotzdem schneller ist. Erst der direkte Vergleich zeigt uns, wo die Bahn wirklich konkurrenzfähig ist – und wo nicht.

Methodische Herausforderungen

Für einen fairen Vergleich sollten Sie “Äpfel mit Äpfeln” vergleichen:

  • Beim Auto muss der Stau berücksichtigt werden (nicht nur die theoretische Fahrzeit)
  • Bei der Bahn muss die Verspätung berücksichtigt werden (nicht nur der Fahrplan)
  • Beide Routen müssen dieselben Start- und Endpunkte haben

Für die Auto-Fahrtzeiten nutzen Sie OSRM (Open Source Routing Machine), das auf OpenStreetMap-Daten basiert. OSRM berechnet echte Straßenrouten, keine Luftlinien.

  1. Erklären Sie in eigenen Worten:
  • Warum ist OSRM-Routing für diesen Vergleich besser geeignet als eine einfache Berechnung nach der Formel Distanz / Geschwindigkeit?
  • Welche Faktoren müssen zusätzlich berücksichtigt werden, um einen realistischen Vergleich zu ermöglichen? Denken Sie an:
    • Tageszeit
    • Parkplatzsuche
    • Fußweg zum Ziel
    • Wartezeit und Umsteigen bei der Bahn

Ein einfacher Fahrzeitvergleich nach der Formel Distanz / Geschwindigkeit bildet die Realität nur unzureichend ab, da er weder den tatsächlichen Straßenverlauf noch Verkehrsinfrastruktur oder Abbiegevorgänge berücksichtigt. OSRM (Open Source Routing Machine) ist für diesen Vergleich deutlich besser geeignet, da es reale Straßenrouten auf Basis von OpenStreetMap-Daten berechnet. Dabei werden unter anderem Straßentypen, Geschwindigkeitsbegrenzungen und Kreuzungen einbezogen. Dadurch entstehen realistische Fahrzeiten, die näher an der tatsächlichen Pendelerfahrung liegen als rein theoretische Berechnungen.

Für einen realistischen Vergleich müssen zusätzlich mehrere Faktoren berücksichtigt werden. Beim Auto spielen insbesondere Tageszeit und Verkehrsaufkommen eine zentrale Rolle, da sich Fahrzeiten während der Hauptverkehrszeiten durch Stau deutlich verlängern. Deshalb wird die OSRM-Basisfahrzeit in der Analyse um einen Staufaktor ergänzt. Darüber hinaus entstehen zusätzliche Zeitverluste durch Parkplatzsuche und dem Fußweg zum Ziel. Auch bei der Bahn sind reale Zusatzzeiten relevant, etwa durch Wege zum Bahnhof, Wartezeiten beim Umsteigen sowie Verspätungen. Diese Faktoren werden in der Analyse berücksichtigt, indem zur Fahrplanzeit die durchschnittliche Verspätung aus den Echtzeitdaten der Deutschen Bahn addiert wird.

Der Vergleich zwischen Auto und Bahn ist in dieser Form fair und sinnvoll, da für beide Verkehrsmittel realistische Bedingungen angesetzt werden. Beim Auto werden reale Fahrzeiten inklusive Stau berücksichtigt, bei der Bahn Fahrplanzeiten inklusive durchschnittlicher Verspätungen. Zudem beginnen und enden beide Routen an denselben Start- und Zielpunkten. Dadurch werden Verzerrungen vermieden und ein realistischer Vergleich der tatsächlichen Pendelzeiten ermöglicht, der belastbare Aussagen über die Alltagstauglichkeit beider Verkehrsmittel zulässt.

Quellen:

Open Source Routing Machine (OSRM): Project OSRM – Routing Engine for OpenStreetMap Data. https://project-osrm.org/

OpenStreetMap Foundation: OpenStreetMap – Open Data for the World. https://www.openstreetmap.org/


  1. Für die Top 10 Einpendler-Städte wurden typische Pendlerstrecken definiert (z.B. Dachau \(\rightarrow\) München, Neuss \(\rightarrow\) Düsseldorf). Die OSRM-Ergebnisse liegen bereits vor. Nutzen Sie für ihre Analyse den Datensatz fahrtzeit.

Erstellen Sie:

  • Eine Tabelle mit: Stadt, Strecke, Distanz (km), Auto-Fahrzeit (Hauptverkehrszeit), Bahn-Fahrzeit (real), Differenz
  • Berechnen Sie die jährliche Zeitersparnis bei 220 Arbeitstagen und 2x täglichem Pendeln.

Interpretieren Sie ihre Tabelle:

  • In wie vielen Fällen ist die Bahn schneller als das Auto?
  • Wie viele Stunden pro Jahr kann ein Pendler maximal sparen?
  • Gibt es Strecken, bei denen das Auto schneller ist? Woran könnte das liegen?

Fahrzeitvergleich KfZ vs. Bahn typischer Pendlerstrecken
OSRM-Routing & realistische Bahnfahrzeiten in der Hauptverkehrszeit
Zielstadt Pendlerstrecke Distanz (in km) Auto-Fahrzeit (in Min.) Bahn-Fahrzeit (in Min.) Differenz Jährliche Zeitersparnis (in Std.)
München Dachau → München 19,1 40,2 26,1 14,1 103,5
Frankfurt Darmstadt → Frankfurt 36,0 35,8 23,0 12,8 93,9
Hamburg Harburg → Hamburg 14,2 24,0 16,3 7,7 56,7
Berlin Potsdam → Berlin 34,2 49,3 29,6 19,7 144,6
Köln Leverkusen → Köln 18,3 28,7 22,8 5,9 43,3
Düsseldorf Neuss → Düsseldorf 12,1 27,1 17,1 10,0 73,3
Stuttgart Esslingen → Stuttgart 14,0 27,2 20,2 7,0 51,6
Nürnberg Fürth → Nürnberg 10,4 18,9 12,9 6,0 44,4
Essen Mülheim → Essen 11,0 18,0 15,3 2,7 20,1
Hannover Celle → Hannover 42,2 54,4 40,8 13,6 99,8
Ulm Neu-Ulm → Ulm 3,7 8,1 8,9 −0,8 −5,8
Berechnung der jährlichen Zeitersparnis: 220 Arbeitstage × 2 Fahrten pro Tag.
Autozeiten: OSRM (HVZ, inkl. Staufaktor), Bahnzeiten: Fahrplan inkl. durchschnittliche Verspätung.

In den betrachteten Pendlerrelationen ist die Bahn in 10 von 11 Fällen schneller als das Auto während der Hauptverkehrszeit. Lediglich auf einer Strecke zeigt sich ein Vorteil für den Pkw, alle übrigen Verbindungen weisen eine positive Zeitdifferenz zugunsten der Bahn auf. Das zeigt, dass insbesondere in stark belasteten Regionen der Schienenverkehr zeitlich meist konkurrenzfähig oder überlegen ist.

Extremfall

Die maximal mögliche jährliche Zeitersparnis ergibt sich auf der Relation Potsdam → Berlin. Hier spart ein Pendler rund 145 Stunden pro Jahr, wenn er an 220 Arbeitstagen jeweils zweimal täglich die Bahn statt des Autos nutzt. Das entspricht knapp vier vollen Arbeitswochen und verdeutlicht das erhebliche Zeitpotenzial, das sich durch die Vermeidung von Staus im Berufsverkehr ergeben kann.

Ausnahme

Ja, es gibt eine Strecke, auf der das Auto schneller ist, nämlich Neu-Ulm → Ulm. Der Zeitvorteil des Pkw lässt sich speziell auf dieser Strecke sehr plausibel durch die kurze Distanz erklären, bei der Umstiegszeiten, Wartezeiten und innerstädtische Wege zur Bahn stärker ins Gewicht fallen als mögliche Staus. Auf kurzen Relationen mit direkter Straßenanbindung und geringem Verkehrsaufkommen kann das Auto daher trotz Hauptverkehrszeit im Vorteil sein.


  1. Da Sie alle in Ulm studieren und eventuell aus dem Ulmer Umland einpendeln, sollten Sie die 5 wichtigsten Pendlerrouten nach Ulm näher analysieren. Stellen Sie in einem Dumbbell-Chart (oder Lollipop-Chart) die Unterschiede zwischen Auto- und Bahnzeiten visuell dar. Nutzen Sie für ihre Analyse den Datensatz ulm_routen.

Die 5 wichtigsten Pendlerrouten nach Ulm sind:

  • Neu-Ulm \(\rightarrow\) Ulm
  • Blaustein \(\rightarrow\) Ulm
  • Ehingen \(\rightarrow\) Ulm
  • Laupheim \(\rightarrow\) Ulm
  • Langenau \(\rightarrow\) Ulm

Markieren Sie, welche Orte keinen Bahnhof haben.

Beschreiben und interpretieren Sie ihre Grafik. Welche Besonderheiten zeigen die ländlichen Strecken?

Hinweis: Nutzen Sie geom_segment() und geom_point() für ihr Dumbbell-Chart oder Lollipop-Chart.


Die Grafik vergleicht die Pendelzeiten nach Ulm für fünf Herkunftsorte und stellt die Reisezeiten mit dem Auto in der Hauptverkehrszeit und der Bahn (reale Zeiten) gegenüber. Auf der x-Achse ist die Zeit in Minuten (einfache Strecke), auf der y-Achse sind die Orte aufgeführt. Pro Ort zeigen farbige Punkte die jeweilige Pendelzeit; graue Verbindungslinien verdeutlichen den Unterschied zwischen Auto und Bahn.

Auffällig ist zunächst, dass die Pendelzeiten mit zunehmender Entfernung von Ulm klar ansteigen, dies jedoch nicht für alle Verkehrsmittel in gleichem Maße. Für Neu-Ulm als stadtnahen Standort sind Auto und Bahn nahezu gleich schnell. Beide Verkehrsmittel benötigen nur wenige Minuten, was auf kurze Distanzen und eine sehr gute infrastrukturelle Anbindung hinweist. In diesem Fall sind die Gruppen sehr ähnlich, es zeigt sich kein relevanter Unterschied zwischen den Verkehrsmitteln.

In den ländlicheren Gemeinden ergeben sich stärkere Unterschiede. In Blaustein ist das Auto schneller als die Bahn, was insbesondere durch das Fehlen eines Bahnhofs und zusätzliche Wege im öffentlichen Verkehr erklärbar ist. Laupheim stellt eine Ausnahme dar, da Auto und Bahn hier ähnlich lange Pendelzeiten aufweisen und die Bahn trotz ländlicher Lage konkurrenzfähig ist.

Besonders auffällig ist Langenau, wo die Bahn deutlich schneller ist als das Auto. Dies deutet auf Stauanfälligkeit des Autoverkehrs in der Hauptverkehrszeit und eine effiziente Bahnverbindung hin. In Ehingen (Donau) sind die Pendelzeiten insgesamt am höchsten, wobei die Bahn auch hier einen Zeitvorteil gegenüber dem Auto aufweist.

Insgesamt zeigt die Grafik, dass ländliche Strecken kein einheitliches Muster aufweisen. Nicht die Entfernung allein, sondern vor allem Infrastrukturqualität und Verkehrssituation bestimmen die relative Attraktivität von Auto und Bahn.


Die volkswirtschaftlichen Kosten

Verspätungen kosten nicht nur Nerven, sie haben einen realen volkswirtschaftlichen Preis. Jede Minute, die ein Pendler im verspäteten Zug wartet, ist verlorene Arbeitszeit.

Um diese Kosten etwas besser zu quantifizieren sollten Sie sich den Medianlohn der jeweiligen Städte herunterladen und näher analysieren.

  1. Berechnen Sie die volkswirtschaftlichen Kosten der Bahnverspätungen für die 11 Städte.

Datensätze:

Nutzen Sie die folgenden Annahmen:

Annahmen:

Berechnen Sie für jede Stadt:

Erstellen Sie auf Basis ihrer Berechnung eine Tabelle, welche die Anzahl der Bahnpendler, die Verspätungsstunden pro Jahr, die Kosten pro Pendler und die Gesamtkosten der Stadt anschaulich darstellt.

Beschreiben und interpretieren Sie ihre Tabelle. Gehen Sie dabei auch auf die Gesamtkosten der 11 Städte ein. Erklären Sie außerdem, warum der Medianlohn für diese Berechnung besser geeignet ist als der Durchschnittslohn.

Hinweis: Für die Umrechnung auf Stundenlohn: Monatsentgelt / 160 (bei 40h/Woche).


Volkswirtschaftliche Kosten von Bahnverspätungen
Basierend auf Pendleraufkommen, Medianlohn und durchschnittlicher Verspätung
Stadt Anzahl Bahnpendler Verspätungsstunden pro Pendler / Jahr Kosten pro Pendler (€ / Jahr) Gesamtkosten der Stadt (€ / Jahr)
München 38.274 43,86 €1.329 €50.857.934
Köln 25.780 57,87 €1.591 €41.006.294
Frankfurt 34.092 37,73 €1.111 €37.878.234
Düsseldorf 23.914 53,77 €1.520 €36.348.812
Hamburg 33.008 32,59 €922 €30.437.681
Berlin 32.955 34,47 €895 €29.510.477
Stuttgart 23.053 38,85 €1.139 €26.247.450
Essen 11.869 54,62 €1.361 €16.153.949
Nürnberg 13.902 37,06 €981 €13.633.810
Hannover 11.586 43,81 €1.138 €13.182.690
Ulm 5.741 29,51 €795 €4.565.660
254.174 NA NA €299.822.991
Annahmen: 220 Arbeitstage · 2 Fahrten/Tag · 8,4 % Bahnanteil.
Stundenlohn = Median-Monatsentgelt / 160.
Verspätung = gewichtete Durchschnittsverspätung pro Stadt.

Die Tabelle „Volkswirtschaftliche Kosten von Bahnverspätungen“ zeigt für ausgewählte Großstädte die Anzahl der Bahnpendler, die durchschnittlichen Verspätungsstunden pro Pendler und Jahr, die daraus resultierenden jährlichen Kosten pro Pendler sowie die daraus berechneten Gesamtkosten pro Stadt und Jahr. Alle monetären Angaben sind in Euro ausgewiesen. Die Berechnung basiert auf dem jeweiligen Pendleraufkommen, dem Medianlohn sowie der durchschnittlichen Verspätung und ermöglicht einen quantitativen Vergleich der volkswirtschaftlichen Belastung durch Bahnverspätungen zwischen den betrachteten Städten.

Die Tabelle zeigt, dass Bahnverspätungen in großen Pendlerstädten erhebliche volkswirtschaftliche Kosten verursachen. Besonders hohe Gesamtkosten entstehen dort, wo hohes Pendleraufkommen, überdurchschnittliche Verspätungen und ein hohes Lohnniveau zusammenkommen. München weist mit rund 51 Mio. € pro Jahr die höchsten Gesamtkosten auf, gefolgt von Köln und Frankfurt. Obwohl Städte wie Berlin oder Hamburg ähnlich viele Einpendler haben, fallen ihre Gesamtkosten geringer aus, da entweder die durchschnittliche Verspätung oder der Medianlohn niedriger ist. Insgesamt summieren sich die jährlichen Kosten der elf betrachteten Städte auf einen mittleren bis hohen dreistelligen Millionenbetrag, was verdeutlicht, dass Bahnverspätungen nicht nur ein individuelles Ärgernis, sondern ein relevantes gesamtwirtschaftliches Problem darstellen. Ulm fällt in der Gesamtkostenbetrachtung deutlich geringer aus, da dort vergleichsweise eine geringe Anzahl an Einpendlern vorliegt, zeigt aber dennoch, dass selbst bei geringeren Verspätungen pro Pendler relevante Zeit- und volkswirtschaftliche Geldverluste entstehen können.

Für diese monetäre Bewertung der verlorenen Zeit ist der Medianlohn besser geeignet als der Durchschnittslohn, da er robuster gegenüber Extremwerten ist. In Großstädten mit sehr hohen Einkommen einzelner Berufsgruppen würde der Durchschnittslohn die Kosten systematisch überschätzen, da er stark nach oben verzerrt ist. Der Medianlohn bildet hingegen das typische Einkommen eines Pendlers realistischer ab und führt somit zu einer plausibleren und sozial ausgewogeneren Schätzung der volkswirtschaftlichen Kosten von Bahnverspätungen.


  1. Setzen Sie die Kosten der Bahn (aus Aufgabe 14) den Kosten des Autos gegenüber. Vergleichen Sie diese in einer Szenario-Analyse mittels eines gestapelten Balkendiagramms. Nutzen Sie für ihre Analysen den Datensatz staedte_basis.

Berechnen Sie zuerst die Kosten des Autostaus pro Stadt:

Führen Sie anschließend einen Szenario-Vergleich durch: Was passiert, wenn der Bahnanteil von 8,4% auf 20% steigt?

Erstellen Sie ein gestapeltes Balkendiagramm nach Szenario. Beschreiben und intepretieren Sie ihre Grafik. Gehen Sie insbesondere auf die folgenden Fragen ein:


Die Grafik zeigt ein horizontales, gestapeltes Balkendiagramm zu den volkswirtschaftlichen Gesamtkosten des Verkehrs für ausgewählte Städte. Dargestellt sind zwei Szenarien: der Status quo mit einem Bahnanteil von 8,4 % sowie ein alternatives Szenario mit einem Bahnanteil von 20 %. Für jede Stadt werden die jährlichen Gesamtkosten getrennt nach den Verkehrsmitteln Auto und Bahn ausgewiesen. Die x-Achse zeigt die Gesamtkosten pro Jahr in Euro, die y-Achse listet die betrachteten Städte. Zusätzlich sind für beide Szenarien die aggregierten Gesamtkosten über alle Städte angegeben.

Im Status quo mit 8,4 % Bahnanteil wird deutlich, dass der überwiegende Teil der volkswirtschaftlichen Kosten durch den Autoverkehr verursacht wird. In allen betrachteten Städten dominiert der rote Balken (Auto) die Gesamthöhe der Kosten, während die Bahn lediglich einen vergleichsweise kleinen Anteil beiträgt. Dies steht im Zusammenhang mit der hohen Zahl an Autopendlern sowie den erheblichen Staustunden, die sich – multipliziert mit dem Stundenlohn – zu hohen jährlichen Produktivitätsverlusten summieren. Die Kosten durch Bahnverspätungen sind zwar vorhanden, fallen aber aufgrund des geringen Bahnanteils deutlich geringer aus.

Über alle Städte hinweg verursacht damit eindeutig der Autoverkehr den größeren volkswirtschaftlichen Schaden. Selbst in Städten mit hohem Bahnaufkommen bleiben die Autokosten der dominante Kostenblock. Die Grafik macht deutlich, dass Stauzeiten ein zentraler Kostentreiber sind und dass kleine Verzögerungen, wenn sie viele Pendler betreffen, erhebliche gesamtwirtschaftliche Auswirkungen haben. Bahnverspätungen wirken sich ebenfalls negativ aus, erreichen jedoch nicht annähernd das Ausmaß der durch den Autoverkehr verursachten Kosten.

Im Szenario mit 20 % Bahnanteil zeigt sich eine klare Nettoersparnis gegenüber dem Status quo (~ 883 Mio. Euro). Zwar steigen die Bahnkosten moderat an, da mehr Pendler die Bahn nutzen, dieser Effekt wird jedoch deutlich überkompensiert durch den starken Rückgang der Autokosten. Die angenommene Reduktion der Staustunden pro Autopendler führt dazu, dass die Gesamtkosten des Autoverkehrs erheblich sinken. In der Summe über alle Städte ergibt sich somit eine substanzielle volkswirtschaftliche Entlastung, was zeigt, dass eine Verlagerung vom Auto zur Bahn nicht nur verkehrspolitisch, sondern auch ökonomisch sinnvoll ist.


Politikempfehlung – Ihre Synthese

Sie haben nun umfangreiche Analysen durchgeführt und viele Erkenntnisse über die Bahn gewonnen. Jetzt ist es Zeit, diese zu einer kohärenten Empfehlung zusammenzufügen.

Szenario: Sie sind Berater:in des Bundesministeriums für Digitales und Verkehr. Die Ministerin bittet Sie um eine evidenzbasierte Politikempfehlung zur Verbesserung des Pendlerverkehrs in Deutschland.

  1. Formulieren Sie eine Politikempfehlung für das Bundesministerium für Digitales und Verkehr.

Schreiben Sie eine Executive Summary (max. 5 Sätze). Fassen Sie hierbei die wichtigsten Erkenntnisse aus ihrem Projekt zusammen. Was ist die zentrale Botschaft?

Formulieren Sie 3 konkrete Empfehlungen. Jede muss enthalten:


Executive Summary

Die Analyse zeigt, dass der Pendlerverkehr in deutschen Großstädten erhebliche volkswirtschaftliche Kosten verursacht, wobei der Autoverkehr den mit Abstand größten Anteil ausmacht. Staus im Straßenverkehr führen – gemessen an Zeitverlusten und Medianlöhnen – zu jährlichen Kosten in dreistelliger Millionenhöhe pro Stadt, während die Kosten durch Bahnverspätungen im Status quo deutlich geringer ausfallen. Szenarioanalysen belegen, dass eine Erhöhung des Bahnanteils von 8,4 % auf 20 % die Gesamtkosten spürbar senkt und gleichzeitig CO₂-Emissionen reduziert. Besonders pendlerstarke Städte wie München, Frankfurt oder Köln profitieren überproportional von einer Verkehrsverlagerung. Die zentrale Botschaft lautet: Eine gezielte Stärkung des Bahnpendelverkehrs ist sowohl volkswirtschaftlich als auch klimapolitisch klar vorteilhaft.

Empfehlung 1: Verlagerung vom Auto auf die Bahn im Pendlerverkehr

  1. Ziel: Reduktion der volkswirtschaftlichen Kosten des Pendlerverkehrs durch Verringerung von Staus im Straßenverkehr.

  2. Maßnahme: Erhöhung des Bahnanteils im Berufsverkehr von derzeit 8,4 % auf mindestens 20 % durch Ausbau von Taktfrequenzen, Park-and-Ride-Angeboten und vergünstigte Pendlerabonnements.

  3. Begründung mit Zahlen: Die Szenarioanalyse zeigt, dass bei einem Bahnanteil von 20 % die Gesamtkosten (Auto + Bahn) in allen betrachteten Städten sinken, da die Einsparungen im Autoverkehr die steigenden Bahnkosten deutlich übersteigen. In Städten wie München oder Frankfurt ergibt sich eine Nettoersparnis von mehreren hundert Millionen Euro pro Jahr.

  4. Limitationen: Erstens basieren die Berechnungen auf durchschnittlichen Staustunden und berücksichtigen keine tageszeitliche oder saisonale Variation. Zweitens wird angenommen, dass zusätzliche Bahnpendler die Verspätungssituation nicht überproportional verschlechtern.

  5. Zusätzliche Daten: Detaillierte Nachfrage- und Kapazitätsdaten des Schienenverkehrs könnten zeigen, ab welchem Punkt zusätzliche Investitionen notwendig werden, um Qualitätseinbußen zu vermeiden.

Empfehlung 2: Priorisierung von Investitionen in besonders belasteten Pendlerregionen

  1. Ziel: Maximierung der volkswirtschaftlichen Effizienz öffentlicher Investitionen im Verkehrssektor.

  2. Maßnahme: Gezielte Investitionen in Städte mit hohem Pendleraufkommen und hohen Zeitkosten, identifiziert über die Kombination aus Einpendlerzahlen und durchschnittlichen Verzögerungen.

  3. Begründung mit Zahlen: Die Analyse zeigt, dass Städte mit vielen Einpendlern und hohem Medianlohn besonders hohe Kosten durch Zeitverluste verursachen. Bereits moderate Reduktionen der Staustunden führen dort zu überdurchschnittlich hohen Einsparungen pro Jahr.

  4. Limitationen: Erstens werden regionale Unterschiede innerhalb der Städte (z. B. einzelne Korridore) nicht abgebildet. Zweitens beruhen die Lohnkosten auf Medianwerten und nicht auf individuellen Einkommensstrukturen.

  5. Zusätzliche Daten: Feinräumige Verkehrsdaten auf Streckenebene könnten helfen, Investitionen noch zielgerichteter auf besonders problematische Pendlerachsen zu lenken.

Empfehlung 3: Integration von Verkehrs- und Klimapolitik

  1. Ziel: Gleichzeitige Reduktion von volkswirtschaftlichen Kosten und CO₂-Emissionen im Pendlerverkehr.

  2. Maßnahme: Förderung der Verkehrsverlagerung auf die Bahn als explizite Klimaschutzmaßnahme, etwa durch CO₂-abhängige Abgaben auf den Autopendelverkehr und zweckgebundene Reinvestition in den ÖPNV.

  3. Begründung mit Zahlen: Die CO₂-Analyse zeigt, dass zusätzliche Bahnpendler bei einem Anstieg des Bahnanteils auf 20 % jährlich mehrere tausend Tonnen CO₂ einsparen, insbesondere in großen Städten. Diese Emissionsreduktionen gehen gleichzeitig mit geringeren Staukosten einher.

  4. Limitationen: Erstens werden nur direkte Emissionen aus dem Betrieb betrachtet, nicht jedoch Infrastruktur- oder Fahrzeugherstellung. Zweitens wird von konstanten Emissionsfaktoren pro Kilometer ausgegangen.

  5. Zusätzliche Daten: Lebenszyklusanalysen von Verkehrsmitteln und detaillierte Emissionsdaten nach Energiequelle könnten die Klimawirkung noch präziser quantifizieren.


Zusatzaufgaben (optional)

Bisher haben Sie zwei Dimensionen betrachtet: Zeit (Bahn ist schneller) und Geld (Verspätungen kosten). Aber es gibt einen dritten, oft vergessenen Aspekt: die Umwelt.

Das Auto ist nicht nur langsamer und teurer; es ist auch ein Klimakiller. Ein durchschnittlicher PKW emittiert z.B. etwa 150 g CO2 pro Personenkilometer.

  1. Recherchieren Sie die CO2-Emissionsfaktoren und das Mobilitätsverhalten:

Hinweis: Nutzen Sie Daten vom Umweltbundesamt oder dem DB Umweltbericht.


CO₂-Emissionen verschiedener Verkehrsmittel
Angaben in Gramm pro Personenkilometer
Verkehrsmittel CO2-Emissionen
(g / Personenkilometer)
PKW (Durchschnitt) 164
PKW (Elektro, dt. Strommix) 70
ICE/IC (Fernverkehr) 26
RE/RB (Nahverkehr) 44
S-Bahn 42
Quelle: Umweltbundesamt, Deutsche Bahn (gerundete Durchschnittswerte)

Die gewichteten CO₂-Emissionen der Bahn betragen 38,6 g pro Personenkilometer und liegen damit deutlich unter denen eines durchschnittlichen PKW mit 164 g CO₂ pro Personenkilometer. Daraus ergibt sich, dass Bahnpendeln rund 76,46 % weniger CO₂-Emissionen verursacht als Autofahren. Die Verlagerung von Pendelwegen auf die Bahn bietet somit ein erhebliches CO₂-Einsparpotenzial.

Quelle: https://www.umweltbundesamt.de/themen/verkehr/emissionsdaten#tremod


  1. Die Studie “Mobilität in Deutschland” (MiD 2023) ist die wichtigste Datenquelle zum Mobilitätsverhalten in Deutschland. Sie ermöglicht einen Vergleich mit 2017 (vor Corona).

Lesen Sie den MiD 2023 Kurzbericht und beantworten Sie:


Modal Split:

Der Anteil des öffentlichen Verkehrs (ÖV) am Gesamtverkehrsaufkommen (auf die Wege bezogen) hat sich zwischen 2017 und 2023 leicht verbessert und stieg von 10 Prozentpunkten auf 11 % an. Wenn es um die Verkehrsleistung in Personenkilometern geht, liegt der Anteil des ÖV im Jahr 2023 bei einem knappen Fünftel.

Homeoffice-Effekt:

Die durchschnittliche Tagesstrecke pro Person hat sich von knapp 40 Kilometern (2017) auf rund 35 Kilometern (2023) reduziert. Laut MiD ist der Hauptgrund für diese Veränderung Trends in Richtung Homeoffice und Online-Aktivitäten, insbesondere in ökonomisch besser befindlichen Menschengruppen. Während Beschäftigte ohne Homeoffice an Werktagen eine mittlere Tagesstrecke von rund 60 Kilometern zurücklegen, beträgt dieser Wert bei Befragten im Homeoffice nur 20 Kilometer.

Stadt vs. Land (alle Angaben in % beziehen sich auf die Bevölkerung ab 14 Jahren):

Im Einführungsjahr 2023 nutzen bundesweit 16 % das Deutschlandticket als Ihr übliches Ticket. Obwohl der Bericht festhält, dass das Auto außerhalb der Großstädte mit Abstand der wichtigste Verkehrsträger bleibt, ist die Region Ulm in den Karten des Berichts als “zentrale Stadt” innerhalb einer ländlichen Region klassifiziert. So ist beispielsweise in Metropolen angegeben, dass 35 % ein Deutschlandticket nutzen. In der ländlichen Region hängt es jedoch von dem spezifischen Raumtyp ab: Während in zentralen Städten (wie oben genannt: Ulm) der Anteil bei 17 % liegt, beträgt er in Mittel-Städten (städtisch geprägter, ländlicher Raum) nur bei 17 %. In Kleinstädten (bzw. döflich ländlichem Raum) nuten lediglich 6 % das Deutschlandticket.

Implikation für CO2:

Die Kombination aus sinkender Pkw-Nutzung und der massiven Kilometerreduktion durch Homeoffice deutet auf ein erhebliches CO2-Einsparpotenzial hin, da der verkehrsbedingte CO2-Fußabdruck direkt an die zurückgelegten Kilometer gekoppelt ist. Da komfortable Bahnen als Rückgrat einer nachhaltigen Mobilität gelten, kann das Bahnpendeln wesentlich dazu beitragen, die verbleibende Verkehrsleitstung klimafreundlicher zu gestalten.


  1. Berechnen Sie die CO2-Ersparnis für die 11 analysierten Städte.

Datensatz: co2_analyse (aus Aufgabe 4) – enthält Streckenlängen, Einpendlerzahlen und vorberechnete Werte

Annahmen:

Berechnen Sie für jeden Umsteiger (Auto \(\rightarrow\) Bahn):

Nun sollten Sie eine Szenario Analyse ähnlich wie in Aufgabe 15 durchführen: Wenn sich der Bahnanteil von 8,4% auf 20% erhöht: wie viele Tonnen CO2 würden in den 11 Städten jährlich eingespart?

Visualisieren Sie die CO2-Ersparnis pro Stadt.

Stellen Sie die Ersparnis in Kontext, um die Ersparnis greifbarer zu machen, z.B. wie viele Mallorca-Flüge (hin + zurück, ~750 kg CO2) entspricht das?


Jährliche CO2-Emissionen pro Umsteiger (Auto → Bahn)
Annahmen: 220 Arbeitstage, 2 Fahrten pro Tag
Stadt Kilometer pro Jahr CO2 Auto (kg/Jahr) CO2 Bahn (kg/Jahr) CO2-Ersparnis (kg/Jahr)
München 16.808 2.521 790 1.731
Frankfurt 31.680 4.752 1.489 3.263
Hamburg 12.496 1.874 587 1.287
Berlin 30.096 4.514 1.415 3.100
Köln 16.104 2.416 757 1.659
Düsseldorf 10.648 1.597 500 1.097
Stuttgart 12.320 1.848 579 1.269
Nürnberg 9.152 1.373 430 943
Essen 9.680 1.452 455 997
Hannover 37.136 5.570 1.745 3.825
Ulm 3.256 488 153 335
Zusätzliche jährliche CO2-Ersparnis bei 20 % Bahnanteil
Szenarioanalyse für 11 Städte
Stadt Zusätzliche Umsteiger (Personen) CO2-Ersparnis (t/Jahr)
München 52.855 91.503.8
Frankfurt 47.079 153.620.7
Hamburg 45.582 58.668.0
Berlin 45.510 141.075.9
Köln 35.601 59.051.8
Düsseldorf 33.025 36.220.0
Stuttgart 31.835 40.397.3
Nürnberg 19.198 18.097.1
Essen 16.390 16.341.5
Hannover 15.999 61.196.3
Ulm 7.928 2.658.8

CO2-Ersparnis im Vergleich zu Mallorca-Flügen
Gesamtersparnis entspricht ca. 905.108 Mallorca-Flügen (Hin- & Rückflug)
Stadt Entsprechende Mallorca-Flüge
München 122.005
Frankfurt 204.828
Hamburg 78.224
Berlin 188.101
Köln 78.736
Düsseldorf 48.293
Stuttgart 53.863
Nürnberg 24.129
Essen 21.789
Hannover 81.595
Ulm 3.545
Quellen und Annahmen
Datenquelle Website
CO2-Emissionsfaktoren Verkehr (UBA) https://www.umweltbundesamt.de/daten/verkehr/emissionen-des-verkehrs
CO2-Emissionen von Flugreisen (atmosfair) https://www.atmosfair.de/de/kompensieren/flug/

Vorgehen

In Aufgabe 19 wurde zunächst berechnet, wie viele Kilometer ein durchschnittlicher Einpendler pro Jahr zurücklegt (220 Arbeitstage, 2 Fahrten pro Tag). Auf dieser Basis wurden die jährlichen CO₂-Emissionen für Auto (150 g/km) und Bahn (47 g/km) bestimmt und daraus die CO₂-Ersparnis pro Umsteiger berechnet. Anschließend wurde eine Szenarioanalyse durchgeführt, in der der Bahnanteil von 8,4 % auf 20 % erhöht wurde. Das zentrale Ergebnis ist, dass bereits diese moderate Verlagerung zu sehr hohen absoluten CO₂-Einsparungen führt, insbesondere in Städten mit vielen Pendlern und langen Pendeldistanzen.

Städtevergleich und Größenordnungen

Die höchsten CO₂-Einsparungen entstehen in Frankfurt (ca. 153.600 t/Jahr) und Berlin (ca. 141.100 t/Jahr), was vor allem auf lange Pendelstrecken und hohe Pendlerzahlen zurückzuführen ist. München folgt mit rund 91.500 t/Jahr, hier wirkt insbesondere die große Zahl zusätzlicher Bahnpendler (über 50.000 Personen). Kleinere Städte wie Nürnberg (ca. 18.100 t/Jahr) oder Essen (ca. 16.300 t/Jahr) erzielen geringere absolute Werte, tragen aber zusammen dennoch relevant zur Gesamtersparnis bei. Insgesamt zeigt der Vergleich, dass sowohl die Pendeldistanz als auch die Anzahl der Umsteiger entscheidend für die Höhe der Einsparung sind.

Einordnung

Um die Einsparungen greifbarer zu machen, wurden sie in Mallorca-Flüge (Hin- und Rückflug ≈ 750 kg CO₂) umgerechnet. Die Gesamtersparnis aller 11 Städte entspricht rund 905.000 Mallorca-Flügen pro Jahr; allein Frankfurt kommt auf etwa 205.000, Berlin auf 188.000 und München auf 122.000 Flüge. Empirisch lässt sich daraus schließen, dass eine Erhöhung des Bahnanteils auf 20 % keinen marginalen Effekt darstellt, sondern einer massiven Reduktion von Emissionen im Umfang hunderttausender Langstreckenflüge entspricht. Der Ausbau und die Attraktivitätssteigerung des Bahnverkehrs ist damit eine der wirkungsvollsten kurzfristig realisierbaren Maßnahmen zur Senkung der CO₂-Emissionen im Pendlerverkehr.


Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (bahnhof_ags_mapping.csv)

Dieses Mapping ist essenziell für die Verknüpfung von Bahn- und Pendlerdaten. Die Bahndaten sind auf Bahnhofsebene (z.B. “München Hbf”), die Pendlerdaten auf Kreisebene (z.B. “München, Landeshauptstadt”). Der AGS (Amtlicher Gemeindeschlüssel) ist der Schlüssel, der beide Welten verbindet.

Wichtige Variablen:

  • station_name: Name des Bahnhofs
  • ags: Amtlicher Gemeindeschlüssel (5-stellig für Kreise)
  • kreis_name: Name des Landkreises/der kreisfreien Stadt

2. Fahrtzeit-Vergleich OSRM (fahrtzeit_osrm_vergleich.csv)

Für einen fairen Vergleich Auto vs. Bahn brauchen wir realistische Fahrtzeiten. OSRM (Open Source Routing Machine) berechnet echte Straßenrouten basierend auf OpenStreetMap – keine Luftlinien, sondern tatsächliche Straßenverbindungen mit Abbiegevorgängen, Geschwindigkeitsbegrenzungen und Straßentypen.

Wichtige Variablen:

  • stadt: Zielstadt der Pendlerstrecke
  • strecke_name: Beschreibung der Route (z.B. “Dachau \(\rightarrow\) München”)
  • auto_distanz_km: Fahrstrecke mit dem Auto in km
  • auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit (mit Staufaktor)
  • bahn_planzeit_min: Fahrzeit laut Fahrplan
  • bahn_verspaetung_min: Durchschnittliche Verspätung
  • bahn_real_min: Realistische Bahnfahrzeit (Fahrplan + Verspätung)

Wie wurde das Routing durchgeführt?

  1. Koordinaten ermitteln: Für jede Pendlerstrecke wurden Start- und Zielkoordinaten definiert (z.B. Stadtzentrum Dachau \(\rightarrow\) München Hauptbahnhof).

  2. OSRM-API abfragen: Über die öffentliche OSRM-Demo-API (router.project-osrm.org) wurden für jede Route Distanz und Fahrzeit abgefragt. Die API gibt die schnellste Route zurück, basierend auf dem aktuellen Straßennetz.

  3. Staufaktor anwenden: Die OSRM-Basisfahrzeit entspricht einer Fahrt bei freiem Verkehr. Für die Hauptverkehrszeit (HVZ) wurde ein Staufaktor von 1,3-1,5 angewendet, basierend auf den INRIX-Daten der jeweiligen Stadt.

  4. Bahn-Daten ergänzen: Die Bahnfahrzeiten stammen aus dem DB-Fahrplan, ergänzt um die durchschnittliche Verspätung aus unserer Analyse.

Weiterführende Links:

3. Ulm-Pendlerrouten (ulm_pendlerrouten.csv)

Da Sie in Ulm studieren, analysieren wir die wichtigsten Pendlerrouten in die Stadt genauer. Dieser Datensatz enthält die 5 wichtigsten Einpendler-Gemeinden mit detaillierten Informationen zur Erreichbarkeit.

Wichtige Variablen:

  • start_ort: Startgemeinde der Pendlerroute
  • ziel_ort: Zielort (Ulm)
  • auto_dauer_min: Fahrzeit mit dem Auto
  • auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit
  • bahn_fahrplan_min: Bahnfahrzeit laut Fahrplan
  • bahn_real_min: Realistische Bahnfahrzeit
  • hat_bahnhof: TRUE/FALSE – hat der Startort einen Bahnanschluss?
  • pendler_geschaetzt: Geschätzte Anzahl Pendler auf dieser Route

4. Entgeltstatistik (ba_entgeltstatistik_2024.csv)

Um die volkswirtschaftlichen Kosten von Verspätungen zu berechnen, brauchen wir regionale Lohndaten. Diese haben wir von der Bundesagentur für Arbeit heruntergeladen.

Wichtige Variablen:

  • kreis_name: Name des Kreises/der Stadt
  • ags: Amtlicher Gemeindeschlüssel
  • medianentgelt_brutto_monat: Median-Bruttomonatsentgelt in Euro

Quelle: Bundesagentur für Arbeit, Entgeltstatistik 2024