Motivation
Jeden Morgen das gleiche Bild: Verstopfte Autobahnen, genervte Pendler, verlorene Zeit. 20,5 Millionen Menschen pendeln in Deutschland täglich zur Arbeit – die meisten davon mit dem Auto. Laut INRIX Traffic Scorecard 2024 verlieren Pendler in deutschen Großstädten zwischen 40 und 60 Stunden pro Jahr allein im Stau. Das entspricht fast einer kompletten Arbeitswoche, die im Nichts verpufft.
Die Idee liegt auf der Hand: Wer Bahn fährt, steht nicht im Stau. Aber wie schlägt sich die Bahn im Vergleich zum Auto? Ist sie wirklich schneller? Und wie zuverlässig ist sie eigentlich?
In diesem Projekt analysieren Sie Echtzeitdaten der Deutschen Bahn, Pendlerstatistiken der Bundesagentur für Arbeit, Staudaten von INRIX und die Entgeltstatistik der Bundesagentur für Arbeit. Sie werden herausfinden, dass die Antwort auf die Frage “Sollten mehr Menschen Bahn fahren?” komplexer ist, als man zunächst vermuten würde und dass sie wichtige Implikationen für die Verkehrspolitik hat.
Ihre zentrale Forschungsfrage lautet:
“Sollten mehr Menschen Bahn fahren – und was müsste sich dafür ändern?”
Datengrundlage
In diesem Projekt arbeiten Sie mit mehreren Datensätzen. Ein wichtiger Teil des Projekts ist das eigenständige Beschaffen von Primärdaten aus offiziellen Quellen.
Daten einlesen und verstehen
Bevor Sie mit der Analyse beginnen können, müssen Sie verschiedenste
Datensätze einlesen und deren Struktur verstehen. Die Deutsche Bahn
stellt über unterschiedliche Schnittstellen Echtzeitdaten für ihre Züge
als open-source Daten zur Verfügung, welche per API-Calls geladen werden
können. Jedoch gibt es von der Deutschen Bahn keine offizielle Seite,
welche historische Daten zu Zugverspätungen, Ausfällen etc. für Fern-
und Nahverkehrszüge sammelt. Da wir uns jedoch mit historischen Daten
beschäftigen möchten, greifen wir auf Daten zurück, die von Piet Brömmel
gesammelt wurden und bei Huggingface im Parquet-Format
zur Verfügung gestellt wurden. Das Parquet-Format ist
ein effizientes Datenformat und wird oft für große Datenmengen genutzt;
in R können Sie diese Daten mit dem arrow-Paket
einlesen.
- Wie pünktlich ist die Bahn wirklich? Um diese Frage zu beantworten, brauchen Sie echte Verspätungsdaten – nicht nur Pressemitteilungen. Die Bahndaten bilden das Herzstück unserer Analyse: Mit ihnen können Sie berechnen, wie viel Zeit Bahnfahrer durch Verspätungen verlieren und später mit den Stauzeiten der Autofahrer vergleichen.
Die Deutsche Bahn stellt Echtzeitdaten als Open Data zur Verfügung. Das Projekt piebro/deutsche-bahn-data auf Huggingface sammelt diese Daten im Parquet-Format.
Laden Sie die Datei für November 2025 direkt von
Huggingface herunter und lesen Sie diesen Datensatz als
bahn in R ein.
Zeigen Sie die ersten 10 Zeilen des Datensatzes in einer Tabelle und beantworten Sie anschließend folgende Fragen:
- Wie viele Beobachtungen enthält der Datensatz? Welche Variablen sind vorhanden?
- Was stellt eine einzelne Beobachtung dar?
Hinweis 1: Sie können auf Huggingface die gesuchte Datei hier finden und direkt die URL zu der Datei in R mitgeben
Hinweis 2: Sie können die Parquet Datei entweder lokal speichern, oder immer direkt per URL einlesen. Falls Sie die Datei lokal speichern, so wird diese nicht auf GitHub Committet, da wir dies in der .gitignore entsprechend eingestellt haben. In diesem Fall sollten alle Teammitglieder die Datei lokal zur Verfügung haben.
Hinweis 3: Achten Sie bei allen Tabellen auf einer saubere Darstellung
| Erste 10 Beobachtungen der Bahndaten | |||||||||||||||
| Daten für November 2025 | |||||||||||||||
| Bahnhof | xml_station_name | eva | Zugname | Zielbahnhof | Verspätung (Minuten) | Zeitpunkt | Ausgefallen | Zugtyp | Zugfahrt ID | Stationnummer | geplante Ankunftszeit | geänderte Ankunftszeit | geplante Abfahrtszeit | geänderte Abfahrtszeit | id |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Stuttgart Hbf | Stuttgart Hbf (tief) | 08098096 | S 2 | Filderstadt | 5 | 2025-11-01 01:00:00 | FALSE | S | 15 | 2025-11-01 00:55:00 | 2025-11-01 00:57:00 | 2025-11-01 00:55:00 | 2025-11-01 01:00:00 | -1263112065111090114-2510312318-15 | |
| Halle (Saale) Hbf | Halle(Saale)Hbf | 08010159 | S 5 | Leipzig Hbf (tief) | 1 | 2025-11-01 01:00:00 | FALSE | S | 1 | NA | NA | 2025-11-01 00:59:00 | 2025-11-01 01:00:00 | -2678885466088426112-2510312359-1 | |
| Karlsruhe Hbf | Karlsruhe Hbf | 08000191 | RE 1 | Karlsruhe Hbf | 95 | 2025-11-01 01:00:00 | FALSE | RE | 7 | 2025-10-31 23:25:00 | 2025-11-01 01:00:00 | NA | NA | -2791458000270945298-2510312132-7 | |
| Regensburg Hbf | Regensburg Hbf | 08000309 | ALX RE25 | München Hbf | 11 | 2025-11-01 01:00:00 | FALSE | ALX | 4 | 2025-11-01 00:35:00 | 2025-11-01 00:52:00 | 2025-11-01 00:49:00 | 2025-11-01 01:00:00 | -5065801516765768983-2510312301-4 | |
| Mannheim Hbf | Mannheim Hbf | 08000244 | ICE 775 | Karlsruhe Hbf | 1 | 2025-11-01 01:00:00 | FALSE | ICE | 5181720942697741094 | 8 | 2025-11-01 00:56:00 | 2025-11-01 00:58:00 | 2025-11-01 00:59:00 | 2025-11-01 01:00:00 | 5181720942697741094-2510311916-8 |
| Flughafen BER | Flughafen BER (S-Bahn) | 08089201 | S 9 | Flughafen BER | 1 | 2025-11-01 01:00:00 | FALSE | S | 7409107008547428277 | 5 | 2025-11-01 00:59:00 | 2025-11-01 01:00:00 | NA | NA | 7409107008547428277-2510312346-5 |
| Halle (Saale) Hbf | Halle(Saale)Hbf | 08010159 | S 8 | Halle (Saale) Hbf | 15 | 2025-11-01 01:00:00 | FALSE | S | 2442677234119162947 | 6 | 2025-11-01 00:45:00 | 2025-11-01 01:00:00 | NA | NA | 2442677234119162947-2510312324-6 |
| München Hbf | München Hbf | 08000261 | RB 40 | München Hbf | 0 | 2025-11-01 01:00:00 | FALSE | RB | 8 | 2025-11-01 01:00:00 | 2025-11-01 01:00:00 | NA | NA | -8549369502950901321-2510312246-8 | |
| Köln Hbf | Köln Hbf | 08000207 | IC 1952 | Köln Hbf | 40 | 2025-11-01 01:00:00 | FALSE | IC | 2365115903117509345 | 14 | 2025-11-01 00:20:00 | 2025-11-01 01:00:00 | NA | NA | 2365115903117509345-2510311747-14 |
| Freiburg (Breisgau) Hbf | Freiburg(Breisgau) Hbf | 08000107 | S 1 | Freiburg (Breisgau) Hbf | 0 | 2025-11-01 01:00:00 | FALSE | S | 9 | 2025-11-01 01:00:00 | 2025-11-01 01:00:00 | NA | NA | -2150665481183031960-2510312332-9 | |
Anzahl der Beobachtungen
Der Datensatz für November 2025 enthält 13.943.561, also etwa 14
Millionen Beobachtungen.
Variablen im Datensatz bahn
Es sind in dem Datensatz Informationen zu Bahnhöfen, Zügen und deren
zeitlichem Ablauf enthalten. Die Variablen lassen sich in
Stationsinformationen (wie station_name, also dem
Bahnhofsname oder der Bahnhofs-ID eva), Zug- und
Linienmerkmale (z.B. train_name und
final_destination_station), zeitliche Angaben zu geplanten
und tatsächlichen Ankunfts- bzw. Abfahrtszeiten (etwa
arrival_planned_time und arrival_change_time
für die Ankunftszeiten) sowie Zuverlässigkeitsindikatoren wie
Verspätungen und Ausfälle (delay_in_min und
is_canceled) einteilen. Dadurch erlaubt der Datensatz eine
detaillierte Analyse der Pünktlichkeit und Zuverlässigkeit des
Bahnverkehrs.
Beobachtungen im Datensatz
Eine Beobachtung ist ein einzelnes Zugereignis innerhalb einer Fahrt, nämlich der Halt eines bestimmten Zuges an einem bestimmten Bahnhof, einschließlich geplanter und tatsächlicher Ankunfts- und Abfahrtszeiten sowie der daraus resultierenden Verspätung oder eines Ausfalls. Es kommt vor, dass ein und derselbe Zug mehrfach in der Tabelle vorkommen, weil Fahrtdaten, wie Verspätung und Ankunftszeit zwischen Station A und B anders sein werden, als zwischen B und C. Dabei handelt es sich dann um verschiedene Beobachtungen. Eine Beobachtung wird eindeutig durch die Spalte “id” identifiziert.
- Wohin pendeln die Menschen? Die Bahndaten zeigen ihnen die Pünktlichkeit der Züge – aber um zu verstehen, wo gute Bahnverbindungen besonders wichtig sind, müssen Sie wissen, wohin die Menschen pendeln. Die Pendlerstatistik der Bundesagentur für Arbeit zeigt genau das: Welche Städte sind die größten Arbeitgeber-Magneten?
Laden Sie den Datensatz pendler_kreise_aufbereitet.csv
aus dem Ordner daten in R ein als Datensatz
pendler.
Erstellen Sie eine Tabelle der Top 10 Städte nach Einpendlern mit den Spalten: Stadt (kreis_name), Einpendler, Auspendler, Pendlersaldo.
Interpretieren Sie kurz: Welche Städte sind die größten “Pendlermagneten” Deutschlands und warum?
| Top 10 Städte nach Einpendlern | |||
| Pendlerdaten pro Kreis | |||
| Stadt | Einpendler | Auspendler | Pendlersaldo |
|---|---|---|---|
| München, Landeshauptstadt | 455.645 | 202.756 | 252.889 |
| Frankfurt am Main, Stadt | 405.856 | 111.245 | 294.611 |
| Hamburg, Freie und Hansestadt | 392.951 | 147.328 | 245.623 |
| Berlin, Stadt | 392.324 | 219.898 | 172.426 |
| Köln, Stadt | 306.905 | 138.422 | 168.483 |
| Düsseldorf, Stadt | 284.696 | 97.326 | 187.370 |
| Stuttgart, Landeshauptstadt | 274.442 | 100.095 | 174.347 |
| Nürnberg, Stadt | 165.496 | 78.557 | 86.939 |
| Essen, Stadt | 141.296 | 90.906 | 50.390 |
| Region Hannover | 137.924 | 69.974 | 67.950 |
Interpretation der Tabelle und Bedeutung der Daten
Die Tabelle ‘Top 10 Städte nach Einpendlern’, zeigt deren Einpendler-, Auspendler- und Pendlersaldo-Zahlen. Sie macht deutlich, dass vor allem große Metropolen und Wirtschaftsstandorte die meisten Einpendler anziehen. Die größten Pendlermagneten sind München (ca. 455,6 Tsd.), Frankfurt am Main (ca. 405,9 Tsd.), Hamburg (ca. 393 Tsd.) und Berlin (ca. 392,3 Tsd.). Metropolen sind mit einer hohen Konzentration an Arbeitsplätzen besonders starke Pendlermagneten. Mitunter spielen vermutlich die Wohnungsknappheit, wie auch steigende Mietpreise eine Rolle, warum viele Menschen in diese Großstädte pendeln, um zu ihren Arbeitsplätzen zu gelangen.
- Was kostet das Auto? Sie haben jetzt Bahndaten und wissen, wohin die Menschen pendeln. Aber um fair vergleichen zu können, brauchen Sie auch die Alternative: Wie viel Zeit verlieren Autofahrer im Stau? Diese Daten liefert INRIX – ein Unternehmen, das weltweit Verkehrsdaten sammelt. Später werden Sie diese Staukosten mit den Bahnverspätungen vergleichen.
Besuchen Sie die INRIX Global Traffic Scorecard und suchen Sie die Stauzeiten für die Top 10 Städte aus Aufgabe 2 und zusätzlich die Stauzeiten für Ulm. INRIX misst, wie viele Stunden Autofahrer jährlich im Stau verlieren.
- Erstellen Sie eine eigene CSV-Datei
inrix_staedte_2024.csvmit folgenden Spalten für die geforderten Städte:stadt: Name der Stadtstau_stunden_jahr: Jährliche Staustunden pro Fahrerkosten_eur: Jährliche Kosten pro Fahrer (findet sich in der tiefergehenden Übersicht)
- Berechnen Sie für jede Stadt, wie viele Arbeitstage pro Jahr im Stau verloren gehen. Annahme: Ein Arbeitstag = 8 Stunden.
Erstellen Sie anschließend eine schöne Tabelle mit: Stadt, Staustunden/Jahr, verlorene Arbeitstage und beschreiben diese. In welcher Stadt ist die Stausituation am schlimmsten? Wie viele Arbeitstage verliert ein typischer Pendler dort pro Jahr?
Hinweis: Auf der INRIX-Website können Sie nach bei “Jump to City Rankings” -> “Search the List” -> “Germany” oder der konkreten Stadt filtern.
| Top 10 Städte Deutschlands mit den höchsten Stauzeiten | |||
| geranked nach Staustunden pro Jahr Datenbasis: INRIX Traffic Scorecard 2025 |
|||
| Stadt | Staustunden / Jahr | Kosten / Fahrer (€) | Verlorene Arbeitstage |
|---|---|---|---|
| Köln | 67 | 919 | 8,4 |
| Düsseldorf | 63 | 864 | 7,9 |
| Berlin | 60 | 823 | 7,5 |
| Stuttgart | 60 | 823 | 7,5 |
| München | 57 | 781 | 7,1 |
| Frankfurt | 55 | 754 | 6,9 |
| Hannover | 54 | 740 | 6,8 |
| Hamburg | 46 | 631 | 5,8 |
| Essen* | 46 | 631 | 5,8 |
| Nürnberg | 38 | 521 | 4,8 |
| Ulm | 30 | 411 | 3,8 |
| * Daten für Essen waren auf Inrix nicht verfügbar. Stattdessen wurden die Daten von Wuppertal für Essen übernommen, in der Annahme, dass diese beiden Städte Ähnlichkeiten in den Staustunden pro Jahr, Kosten pro Fahrer und in den durch die Staus verlorenen Arbeitstagen aufweisen | |||
Beschreibung und Interpretation der Tabelle
Die Tabelle ‘Staukosten in Deutschland’ führt die Top 10 Einpendlerstädte aus Aufgabe 3, mit der Addition von Ulm auf. Es werden dabei jährliche Staustunden pro Fahrer, jährliche Kosten pro Fahrer in Euro und verlorene Arbeitstage pro Jahr betrachtet. Die Städte, die viele Staustunden im Jahr haben, verzeichnen auch die höhsten Kosten. Angeführt wird die Tabelle von Köln (67 Stunden), Düsseldorf (63 Stunden), Berlin (60 Stunden), Stuttgart (60 Stunden) und München (57 Stunden). Es ist also eine leicht andere Aufstellung, wie bei der Tabelle, welche sich nach den Einpendlerzahlen gerichtet hat. Köln trifft die Stausituation am schlimmsten. Hier verliert ein typischer Pendler 8,4 Arbeitstage im Jahr aufgrund von Stau.
Zusammenhang zwischen Staustunden und Pendleraufkommen
Warum ist jedoch eine Stadt wie Köln viel mehr von Stau betroffen, als zum Beispiel München, wo deutlich mehr Pendler ein- und auskehren? Dies lässt sich zum einen auf die Verkehrsstruktur und Netzgeometrie zurückführen, welche in München durch breitere Umfahrungsstrukturen und leistungsfähigere Ausweichrouten besser aufgestellt ist als in Köln. Was aber vor allem ausschlaggebend sein könnte, ist der Anteil des Autoverkehrs. Pendler in München nutzen womöglich stärker das öffentliche Verkehrssystem oder die Fahrradstraßen, wohingegen in Köln der Autoanteil am Pendelverkehr höher ist und somit auch Staus ein größeres Problem darstellen.
- Für die weiteren Analysen stellen wir Ihnen fünf zusätzliche Datensätze bereit. Diese laden Sie jetzt, damit sie in allen folgenden Aufgaben direkt verfügbar sind.
Laden Sie die folgenden Datensätze aus dem Ordner daten
und speichern Sie diese unter den angegebenen Variablennamen:
| Datei | Variablenname | Verwendet in |
|---|---|---|
bahnhof_ags_mapping.csv |
bahnhof_mapping |
Aufgabe 9-10 |
fahrtzeit_osrm_vergleich.csv |
fahrtzeit |
Aufgabe 12 |
ulm_pendlerrouten.csv |
ulm_routen |
Aufgabe 13 |
ba_entgeltstatistik_2024.csv |
entgelt |
für staedte_basis |
co2_analyse.csv |
co2_analyse |
Aufgabe 19 (Bonus) |
Verschaffen Sie sich einen ersten Überblick über die Struktur der
Daten (z.B. mit glimpse(), dies sollte später in ihrem HTML
Dokument nicht sichtbar sein!).
Erstellen Sie außerdem einen Master-Datensatz
staedte_basis für die Top-11-Städte (Top 10 Pendlerstädte +
Ulm), der die Daten aus pendler, entgelt und
inrix kombiniert. Dieser Datensatz vereinfacht die späteren
Analysen (ab Aufgabe 14), da alle relevanten Kennzahlen bereits
zusammengeführt sind.
Der Master-Datensatz sollte folgende Spalten enthalten:
ags: Amtlicher Gemeindeschlüsselstadt: Stadtname (Kurzform, z.B. “München”)einpendler: Anzahl Einpendlermedian_monat_eur: Medianlohn pro Monatmedian_stunde_eur: Medianlohn pro Stunde (Monatslohn / 160)stau_stunden_jahr: Stauzeit pro Jahr (aus INRIX)
Hinweis 1: Die Datensätze verwenden unterschiedliche
Namensformate: pendler hat offizielle Namen (“München,
Landeshauptstadt”), während entgelt und inrix
Kurznamen (“München”) verwenden. Nutzen Sie den AGS als
zuverlässigen Schlüssel für die Verknüpfung mit pendler.
Tipp: entgelt enthält sowohl AGS als auch Kurznamen und
eignet sich daher gut als Ausgangspunkt.
Hinweis 2: Eine ausführliche Beschreibung der Datensätze finden Sie im Anhang A.
Masterdatensatz staedte_basis |
|||||
| AGS* | Stadt | Einpendler | Medianlohn/Monat (€) | Medianlohn/h (€) | Staustunden/Jahr |
|---|---|---|---|---|---|
| 09162 | München | 455.645 | 4.847 | 30.29 | 57 |
| 06412 | Frankfurt | 405.856 | 4.712 | 29.45 | 55 |
| 02000 | Hamburg | 392.951 | 4.527 | 28.29 | 46 |
| 11000 | Berlin | 392.324 | 4.156 | 25.98 | 60 |
| 05315 | Köln | 306.905 | 4.398 | 27.49 | 67 |
| 05111 | Düsseldorf | 284.696 | 4.523 | 28.27 | 63 |
| 08111 | Stuttgart | 274.442 | 4.689 | 29.31 | 60 |
| 09564 | Nürnberg | 165.496 | 4.234 | 26.46 | 38 |
| 05113 | Essen | 141.296 | 3.987 | 24.92 | 46 |
| 03241 | Hannover | 137.924 | 4.156 | 25.98 | 54 |
| 08421 | Ulm | 68.341 | 4.312 | 26.95 | 30 |
| *AGS = Amtlicher Gemeindeschlüssel | |||||
Die Pünktlichkeit der Deutschen Bahn
Nachdem Sie nun einen Überblick über die Daten haben, welche wir in diesem Projekt verwenden möchten, tauchen Sie tiefer in die Bahndaten ein. Die zentrale Frage ist: Wie zuverlässig ist die Deutsche Bahn wirklich?
Die Bahn unterscheidet verschiedene Zugtypen, vom ICE über den RE bis zur S-Bahn. Jeder Zugtyp hat unterschiedliche Eigenschaften: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Aber welcher Zugtyp ist am pünktlichsten?
- Welche Züge sind (un)pünktlich? Nicht alle Züge
sind gleich: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn
kurze Strecken mit vielen Halten. Um später sinnvolle Empfehlungen geben
zu können, müssen Sie verstehen, welche Zugtypen besonders
problematisch sind. Dafür klassifizieren Sie die Züge anhand
ihrer Namen. Nutzen Sie für diese Analyse den Datensatz
bahn.
Die Variable train_name enthält den Zugnamen (z.B. “ICE
123”, “S 5”, “RE 8”).
- Erstellen Sie eine neue Variable
zugtypmit folgenden Kategorien:
| Zugtyp | Regel | Beispiel |
|---|---|---|
| ICE | beginnt mit “ICE” | ICE 123 |
| IC/EC | beginnt mit “IC” oder “EC” | IC 2012, EC 6 |
| IRE/RE | beginnt mit “RE” oder “IRE” | RE 5, IRE 200 |
| RB | beginnt mit “RB” | RB 26 |
| S-Bahn | beginnt mit “S” (mit Leerzeichen!) | S 5 |
| Sonstige | alle anderen | U 6, STB 123 |
Erstellen Sie auf dieser Basis eine Tabelle, welche pro Zugtyp folgende Kennzahlen anschaulich darstellt:
- Anzahl der Fahrten
- Durchschnittliche Verspätung (in Minuten)
- Anteil pünktlicher Züge (≤6 Min Verspätung)
- Ausfallquote
Beschreiben und Interpretieren Sie die Tabelle.
Weiterhin sollten Sie ihre Ergebnisse verifizieren. Dafür können Sie auf die offizielle Pünktlichkeitswerte der Deutschen Bahn zurückgreifen (recherchieren Sie diese selbstständig).
Stimmen Ihre Ergebnisse mit den offiziellen Werten überein? Falls nicht: Welche methodischen Unterschiede könnten die Abweichung erklären?
Hinweis: Nutzen Sie str_detect() aus dem
stringr-Paket. Achten Sie auf die Reihenfolge der
Bedingungen!
| Pünktlichkeit und Ausfälle nach Zugtyp im November 2025 | ||||
| Zugtyp | Anzahl Fahrten | Ø-Verspätung (Min) | Pünktlichkeitsanteil (≤6 Min) | Ausfallquote |
|---|---|---|---|---|
| ICE | 171.516 | 12,5 | 56,7% | 4,2% |
| IC/EC | 70.602 | 11,0 | 60,2% | 7,2% |
| IRE/RE | 1.673.555 | 6,1 | 74,1% | 3,6% |
| RB | 2.675.028 | 3,5 | 85,2% | 3,2% |
| Sonstige | 2.938.815 | 3,5 | 84,7% | 2,6% |
| S-Bahn | 6.414.045 | 2,9 | 87,4% | 5,5% |
Beschreibung und Interpretation
Die Tabelle ‘Pünktlichkeit und Ausfälle nach Zugtyp im November 2025’
stellt die Anzahl der Fahrten, die durchschnittliche Verspätung in
Minuten, den Anteil pünktlicher Züge mit maximal 6 Minuten Verspätung
und die Ausfallquote den verschiedenen Zugtypen im November 2025
gegenüber. Dabei werden deutliche Unterschiede in der Zuverlässigkeit
der verschiedenen Zugkategorien der Deutschen Bahn aufgezeigt. Es wird
klar, dass sich Fern- und Regionalverkehr strukturell stark
unterscheiden.
Fernverkehr
Es fällt auf, dass ICE- sowie
IC/EC-Züge im Durchschnitt die höchsten Verspätungen aufweisen. ICE-Züge
kommen im Mittel auf 12,5 Minuten Verspätung, IC/EC-Züge auf 11,0
Minuten. Gleichzeitig liegt der Pünktlichkeitsanteil bei diesen Zugtypen
nur bei 56,7 % (ICE) bzw. 60,2 % (IC/EC). Damit ist fast jede zweite
Fernverkehrsfahrt verspätet.
Regionalverkehr
Im Regionalverkehr (IRE/RE und
RB) zeigt sich ein deutlich anderes Bild. Obwohl die Anzahl der Fahrten
hier erheblich höher ist (ca. 1,67 Mio. und 2,68 Mio. im Vergleich zu 70
Tsd. und 171 Tsd. bei IC/EC und ICE), liegen die durchschnittlichen
Verspätungen mit 6,1 Minuten (IRE/RE) und 3,5 Minuten (RB) deutlich
niedriger. Entsprechend höher ist auch der Pünktlichkeitsanteil: Rund 74
% der IRE/RE-Züge und über 85 % der Regionalbahnen erreichen ihr Ziel
weitgehend pünktlich. Dies lässt sich dadurch erklären, dass
Regionalzüge kürzere Strecken fahren und Verspätungen sich somit weniger
stark über große Distanzen fortpflanzen.
Die S-Bahn weist mit durchschnittlich 2,9 Minuten die geringste
Verspätung und mit 87,4 % den höchsten Pünktlichkeitsanteil auf.
Gleichzeitig ist ihre Ausfallquote mit 5,5 % vergleichsweise hoch.
Interessant ist zudem, dass der ICE trotz höherer Verspätungen eine
geringere Ausfallquote (4,2 %) aufweist als die S-Bahn. Dies spricht
dafür, dass im Fernverkehr eher versucht wird, Züge verspätet
durchzuführen, während im Nahverkehr häufiger einzelne Fahrten
gestrichen werden, um den Gesamtfahrplan zu stabilisieren.
Verifikation der Daten
Bei Verifizierung der Daten, mit den offizielle Pünktlichkeitswerte
der Deutschen Bahn, stellt sich heraus, dass meist nur kleine
Unterschiede bestehen. Die Deutsche Bahn verschreibt für die
betriebliche Pünktlichkeit im Fernverkehr im November 2025, 54,5 % und
für die Reisendenpünktlichkeit im Fernverkehr sogar 61,9 %. Letzteres
beschreibt die pünktliche Ankunftszeit plus maximal 14:59 min. des
Fahrgasts am gebuchten Zielbahnhof1. Unsere Ergebnisse sind mit 60,2 % und 56,7
% für IC/EC und ICE leicht verschieden und lassen sich nur mit der
betrieblichen Pünktlichkeit vergleichen, da unser Datensatz auf maximal
6 Minuten Verspätung, um noch pünktlich zu sein beschränkt ist. Die
betriebliche Pünktlichkeit im Nahverkehr wird von der Deutschen Bahn im
November 2025, als 85,2 % verschrieben2, was mit unseren
Ergebnissen grob übereinstimmt, bis auf kleine Abweichungen.
Gründe für Diskrepanzen
Solche Abweichungen können
zum Beispiel entstehen, weil wir eine offene Datenquelle nutzen, die
möglicherweise nicht alle Fahrten vollständig abdeckt. Zudem, verwenden
wir eine einfache Durchschnittsaggregation und unsere Definition des
Messzeitraums und der Pünktlichkeit kann von den internen DB-Methoden
differieren.
- In Aufgabe 5 haben Sie gesehen, dass Fernverkehrszüge (ICE, IC/EC)
deutlich höhere Verspätungen und Ausfallquoten haben als Nahverkehrszüge
(IRE, RE, RB, S-Bahn). Aber wie relevant ist das für den typischen
Pendler? Das hängt davon ab, wie viele Züge jeweils
unterwegs sind. Nutzen Sie für diese Analyse den Datensatz
bahn(mit der in Aufgabe 5 erstellten Variablezugtyp).
Klassifizieren Sie die Züge in zwei Kategorien:
- Fernverkehr: ICE, IC/EC
- Nahverkehr: IRE, RE, RB, S-Bahn
Erstellen Sie ein Liniendiagramm, das die durchschnittliche Anzahl der Fahrten pro Stunde im Tagesverlauf zeigt:
- X-Achse: Uhrzeit (0-23 Uhr)
- Y-Achse: Durchschnittliche Anzahl Fahrten pro Stunde
- Zwei Linien: eine für Fernverkehr, eine für Nahverkehr (unterschiedliche Farben)
Tipp: Extrahieren Sie die Stunde aus der Variable
time mit hour() aus dem
lubridate-Paket. Berechnen Sie dann die durchschnittliche
Anzahl Fahrten pro Stunde und Zugtyp.
Beschreiben und interpretieren Sie ihre Grafik. Beantworten Sie zusätzlich die folgenden Fragen:
- Zu welchen Uhrzeiten fahren die meisten Züge?
- Wie unterscheidet sich das Muster zwischen Fern- und Nahverkehr?
- Warum ist diese Information wichtig, wenn wir später die Verspätungen analysieren?
Generelle Beschreibung und Interpretation
Das Liniendiagramm zeigt, wie viele Züge im November 2025 jeweils im
Nah- und Fernverkehr pro Stunde durchschnittlich gefahren sind. Dabei
zeigt die orange Linie die Fahrten der Fernverkehrszüge ICE, IC und EC,
während die lilafarbene Linie den Nahverkehr visualisiert, zu dem die
Zugtypen IRE, RE, RB und S-Bahn zählen.
Auffällig ist hierbei, dass zu jeder Zeit im Nahverkehr mehr
Zugfahrten stattfinden. Hier sind auch größere Schwankungen des
Verkehrsaufkommens zu beobachten. Zwischen 5 und 8 Uhr steigt die Anzahl
der Fahrten stark von ca. 5000 Fahrten pro Stunde auf ungefähr als 17000
Fahrten pro Stunde an. Tagsüber bleibt die Anzahl der Fahrten dann zwar
mit über 15000 Fahrten in der Stunde hoch, flacht aber nach der ersten
Rush Hour zwischen 7 und 9 Uhr etwas ab, bevor sie von 16 bis 18 Uhr
wieder ansteigt und ihren Höchstwert von ca. 17100 erreicht. Danach
bricht die Durchschnittsanzahl der stündlichen Fahrten stark ein und
erreicht ihren Tiefpunkt zwischen 3 und 5 Uhr nachts mit ca. 1500
Fahrten pro Stunde. Dass tagsüber mehr Fahrten angeboten werden, ist
durch eine höhere Nachfrage zu begründen. Die Linie der Nahverkehrszüge
wird durch das Pendleraufkommen charakterisiert, da die Peaks der
Fahrtanzahlen genau mit den morgendlichen und abendlichen
Hauptpendelzeiten übereinstimmen.
Im Fernverkehr hingegen fahren den ganzen Tag über weniger als 500
Züge pro Stunde. Große Schwankungen sind hier nicht zu erkennen, was
auch daran liegt, dass die y-Achse einen sehr großen Wertebereich
abbildet - relative Schwankungen im Fernverkehr werden somit fast nicht
sichtbar. Dies könnte durch eine Logarithmierung der y-Achse behoben
werden. Aber auch mit der linearen Skalierung kann man erkennen, dass
die durchschnittliche Anzahl der Fahrten pro Stunde im Fernverkehr ab 5
Uhr ansteigt, ab 16 Uhr ihren Höchstwert von ca. 500 Fahrten pro Stunde
erreicht und ab 19 Uhr dann wieder langsam sinkt. Der Tiefstwert wird
auch hier um 3 Uhr nachts erreicht.
Wann die meisten Züge fahren
Das Verkehrsaufkommen ist tagsüber sowohl bei Fern- als auch bei
Nahverkehrszügen höher. Während im Fernverkehr um 16 Uhr mit ca. 500
Fahrten pro Stunde am meisten Züge fahren, liegt der Höchstwert im
Nahverkehr bei mehr als 17000 Fahrten zwischen 17 und 18 Uhr. Auch
zwischen 7 und 9 Uhr ist ein Peak der Fahrtanzahlen im Nahverkehr zu
beobachten, was die Hauptverkehrszeiten der Pendler verdeutlicht. Da die
Nachfrage im Fernverkehr im Tagesverlauf nicht so stark schwankt wie im
Nahverkehr, schwankt das Angebot bzw. die durchschnittliche Anzahl der
Zugfahrten auch nicht so stark.
Unterschiede im Muster zwischen Nah- und Fernverkehr
Wie oben bereits erwähnt, schwankt die Anzahl der Nahverkehrsfahrten
deutlich stärker als die der Fahrten im Fernverkehr. Ein Einbruch in der
Nacht ist bei beiden Kategorien zu sehen, in absoluten Zahlen ist dieser
jedoch im Nahverkehr größer: Nimmt man den Zeitraum von 21 Uhr bis 3 Uhr
morgens, so fällt die Anzahl der Fahrten im Nahverkehr um 91% von ca.
17100 auf ca. 1500, während der Rückgang im Fernverkehr von ungefähr 500
auf unter 100 Fahrten die Stunde absolut gesehen nicht so stark
ausfällt. Ob Rückgang im Fernverkehr jedoch auch relativ gesehen
schwächer als im Nahverkehr ist, ist anhand der Grafik wie bereits
erwähnt wegen der Skalierung nicht beurteilbar.
Die Anzahl der
Fahrten im Nahverkehr schwankt mit der Nachfrage der Pendler, was an den
Zeiten der Peaks zu erkennen ist: Diese fallen genau mit dem Beginn bzw.
Ende des typischen Arbeitstages zusammen. Die erhöhte Nachfrage zu
diesen Zeiten führt dazu, dass die Bahn ihr Angebot ausweiten muss. Auch
der kleinere Einbruch zwischen Vor- und Nachmittag bestätigt diese
Hypothese. Einen solchen Rückgang kann man im Fernverkehr hingegen nicht
erkennen. Dies zeigt, dass der Nahverkehr für Pendler deutlich
relevanter ist.
Zusammenhang mit den Verspätungen
Die Anzahl der Fahrten pro Stunde ist relevant für die Analyse der
Verspätungen, weil sie eine Erklärungsmöglichkeit für etwaige
Verspätungen bietet. Dabei ist insbesondere der Nahverkehr für Pendler
ausschlaggebend. Aus der obigen Analyse lässt sich ableiten, dass das
Schienennetz insbesondere morgens von 7-9 Uhr und abends zwischen 17 und
19 Uhr, aber auch in den Stunden dazwischen wegen des erhöhten
Nahverkehrsaufkommens stark ausgelastet ist. Somit ist besonders zu
diesen Uhrzeiten mit Verzögerungen zu rechnen: Nicht nur, weil es
weniger freie Gleise gibt, sondern auch, weil es gerade dann zu einer
Art Dominoeffekt kommen kann. Eine kleine Verspätung des einen Zuges
zwingt einen anderen, zu warten. So können sich auch kleine
Verzögerungen zu einer hohen Verspätung akkumulieren. Außerdem ist
wichtig zu erwähnen, dass zu diesen Hauptverkehrszeiten auch am meisten
Leute von den Verspätungen betroffen sind.
Was aus dieser Grafik
jedoch nicht ersichtlich wird, ist, ob die Anzahl der Fahrten am
Wochenende höher oder geringer ausfällt als unter der Woche.
Insbesondere im Nahverkehr wäre zu erwarten, dass am Wochenende deutlich
weniger Züge fahren, weil dann weniger Pendler unterwegs sind.
Verzerrungspotenzial bei geringer Verkehrsdichte
Abschließend ist wichtig anzumerken, dass bei der Berechnung der durchschnittlichen Verspätung pro Stunde die Zeiten, zu denen weniger Züge fahren, anfälliger für Ausreißer sind als Zeiten mit hohem Verkehrsaufkommen. Ein sehr stark verspäteter RE um 3 Uhr nachts würde die Durchschnittsverspätung stärker nach oben ziehen als einer um 17 Uhr abends, da die Anzahl der Fahrten stark abweicht. Diesen statistischen Effekt sollte man bei der nachfolgenden Analyse nicht vergessen.
Nachdem Sie in Aufgabe 6 herausgefunden haben, dass es deutlich mehr Nahverkehrszüge als Fernverkehrszüge gibt, und diese für Pendler wichtiger sind, sollten Sie sich die Verspätungen der Nahverkehrszüge über den Tag anschauen, da diese vermutlich nicht gleichmäßig über den Tag verteilt sind. Pendler erleben die Bahn vor allem in der Hauptverkehrszeit, d.h. morgens zwischen 7 und 9 Uhr und abends zwischen 16 und 19 Uhr. Aber ist die Bahn zu diesen Zeiten besonders unpünktlich?
- Erstellen Sie zwei Heatmaps, die zeigen, wie sich
die Verspätungen nach Tageszeit (Stunde) und
Wochentag für die Nahverkehrszüge und die
Fernverkehrszüge verteilen. Nutzen Sie für diese Analyse den Datensatz
bahn.
- Extrahieren Sie aus der Variable
timedie Stunde und den Wochentag. - Filtern Sie auf die relevanten Tageszeiten (5-23 Uhr), da nachts kaum Zugverkehr stattfindet.
- Aggregieren Sie die durchschnittliche Verspätung pro Stunde und Wochentag für Nah- und Fernverkehrszüge separat.
- Erstellen Sie eine Heatmap mit
ggplot2undgeom_tile().
Tipp zur Farbskala: Da Fernverkehrszüge im Durchschnitt höhere Verspätungen haben als Nahverkehrszüge, können Sie unterschiedliche Farbskalen für die beiden Heatmaps verwenden (z.B. Blau-Töne für Nahverkehr, Rot-Töne für Fernverkehr). Dadurch werden die Muster innerhalb jeder Verkehrsart besser sichtbar.
Beschreiben und interpretieren Sie ihre Grafiken.
- Wann sind die Verspätungen am höchsten?
- Gibt es Unterschiede zwischen Werktagen und Wochenende?
- Gibt es Unterschiede zwischen Nah- und Fernverkehrszügen?
- Was bedeutet das für Pendler?
Beschreibung und Interpretation
Die beiden Grafiken sind sogenannte Heatmaps, die die
durchschnittliche Verspätung von Nah- bzw. Fernverkehrszügen im November
2025 aufgeschlüsselt nach Wochentag und Uhrzeit zeigen. Unter
Nahverkehrszügen (rechte Heatmap) werden hierbei die Zugtypen RE, RB und
S-Bahn betrachtet, während der Fernverkehr (linke Heatmap) durch ICEs
und ICs bzw. ECs bedient wird.
Die einzelnen Rechtecke (sog. Tiles)
zeigen also die durchschnittliche Verspätung zu einer bestimmten Uhrzeit
an einem bestimmten Wochentag. Dabei werden nur die Zeiten von 5 bis 23
Uhr gezeigt, also wenn das Verkehrsaufkommen - wie wir aus Aufgabe 6
bereits wissen - am höchsten ist. Die Legenden zeigen, dass die
durchschnittliche Verspätung umso höher ist, je dunkler ein Tile gefärbt
ist. Für die Fernverkehrszüge wird eine Farbskala von gelb (für geringe
Verspätungen von maximal 5 Minuten) über orange und pink bis dunkellila
(sehr hohe Verspätungen ab 20 Minuten) verwendet, während der Grad der
Verspätung im Nahverkehr durch gelbe, grüne und blaue Tiles visualisiert
wird.
Wichtig anzumerken ist hierbei jedoch, dass ein dunkel
gefärbtes Tile in der Heatmap der Nahverkehrszüge lediglich für eine
durchschnittliche Verspätung von 5 Minuten steht, während es bei den
Fernverkehrszügen eine Durchschnittsverspätung von 20 Minuten
visualisiert. Für Nahverkehrszüge werden Verspätungen von 1-5 Minuten
visualisiert, während die Heatmap der Fernverkehrszüge Verspätungen
zwischen 5-20 Minuten farblich darstellt. Ein sehr helles Tile in der
Map der Fernverkehrszüge entspricht also einem sehr dunklen bei den
Nahverkehrszügen. Fernverkehrszüge haben also im Schnitt höhere
Verspätungen als Nahverkehrszüge.
Bei gesamter Betrachtung der
einzelnen Heatmaps lässt sich schätzen, dass im Nahverkehr im Schnitt
mit einer Verspätung von 3-4 Minuten zu rechnen ist, während
Fernverkehrszüge eher eine Durchschnittsverspätung von 12-15 Minuten
aufweisen. Diese Werte unterscheiden sich jedoch teilweise stark nach
Uhrzeit und Wochentag, was im Folgenden näher betrachtet wird.
Zeiten, zu denen die Verspätungen am höchsten ausfallen
Je nachdem, ob man den Nah- oder Fernverkehr betrachtet, ergibt sich
hier ein unterschiedliches Bild.
Im Fernverkehr werden die
Verspätungen umso schlimmer, je später es wird - vor allem ab 20 Uhr
sind die Verspätungen hoch. So haben ICEs, ICs und ECs zwischen 6 und 8
Uhr an jedem Wochentag noch weniger als 10 Minuten Verspätung; ab 20 Uhr
liegt die Durchschnittsverspätung jedoch schon über 10 Minuten und um 23
Uhr haben die Züge fast jeden Tag eine durchschnittliche Verspätung von
mindestens 20 Minuten.
Im Nahverkehr sind die Verspätungen zwar
auch am Ende des Tages am größten, allerdings steigen hier die
durchschnittlichen Verspätungen unter der Woche bereits um 8 Uhr auf
mindestens 3 Minuten an und bleiben den Rest des Tages auch auf diesem
Niveau. Zwischen 18 und 20 Uhr sind die Durchschnittsverspätungen
werktags dabei auf ihrem Höchststand von 4-5 Minuten. Dies ist kohärent
mit den Peaks der Nahverkehrsfahrten aus Aufgabe 6. Das Schienennetz ist
zu diesen Zeiten besonders stark ausgelastet, was Verspätungen
begünstigt.
Generell sollte noch erwähnt werden, dass es sich
hierbei um Durchschnittsbetrachtungen handelt. Die gleiche
durchschnittliche Verspätung kann entweder durch ein paar wenige, dafür
aber extrem verspätete Züge (Ausreißer), oder auch durch viele moderat
verspätete Züge entstehen. Je nachdem würde die Standardabweichung höher
oder geringer ausfallen. Dies wird bei dieser Analyse jedoch nicht
weiter beachtet.
Unterschiede zwischen Werk- und Wochentagen
Die Unterschiede zwischen dem Wochenend- und Werktagsverkehr zeigen
sich in beiden Heatmaps, jedoch besonders deutlich in der des
Nahverkehrs.
Von Montag bis Freitag sind die “Arbeitszeiten” (ca.
8–19 Uhr) stark dunkelblau gefärbt, was einer vergleichsweise hohen
Durchschnittsverspätung entspricht. Am Wochenende (Samstag und Sonntag)
ist die Karte fast durchgehend grün und gelb, was bedeutet, dass die
Verspätungen hier geringer sind. Das liegt daran, dass ohne den
Berufsverkehr das Netz weniger ausgelastet ist und “Staus” auf der
Schiene ausbleiben.
Auch im Fernverkehr ist eine geringere
Verspätung am Wochenende durch eine hellere Einfärbung der
entsprechenden Tiles erkennbar. Deutlicher sieht man hier aber, dass die
ICEs, ICs und ECs am Donnerstag und Freitag ab 12 Uhr stärkere
Verspätungen haben. Das lässt sich durch Wochenendpendler erklären.
Unterschiede zwischen Nah- und Fernverkehr
Zwischen Nah- und Fernverkehr sind deutliche Unterschiede
hinsichtlich der Verteilung der Verspätungen zu erkennen.
Im
Nahverkehr fallen die durchschnittlichen Verspätungen morgens mit 1-3
Minuten noch relativ gering aus, bis sie mit den ersten Pendlern
zwischen 7 und 8 Uhr auf ein Niveau von 3-5 Minuten ansteigen und dann
erst ab 21 Uhr wieder zu sinken beginnen. Besonders hoch fallen die
Verspätungen zwischen 18 und 20 Uhr aus, also wenn der Arbeitstag für
die meisten Pendler endet. Wegen der bereits in Aufgabe 6 erwähnten
erhöhten Auslastung der Schienen zu diesen Hauptzeiten lösen
Verzögerungen eher einen “Dominoeffekt” aus und lassen die Verspätungen
so ansteigen. Am Wochenende sind die Verspätungszeiten wie bereits
erwähnt wesentlich geringer, da keine Berufspendler unterwegs sind.
Die Verspätungen der Fernverkehrszüge erholen sich dagegen nicht am Ende
des Tages, sondern fallen dann sogar besonders hoch aus. Das liegt vor
allem daran, dass sich auch kleinere Verspätungen über die langen
Strecken akkumulieren. Im Lauf des Tages steigt die Auslastung der
Schienen, weshalb es auch eher zu Verzögerungen kommt, die sich
ansammeln. Im Vergleich zum Nahverkehr fällt hier außerdem auf, dass die
Verspätungen um 5 Uhr (10-12 Minuten) im Vergleich zu denen eine Stunde
später (maximal 5 Minuten) mehr als doppelt so hoch sind. Das könnte
sich durch Nachtzüge, die oft gegen 5 Uhr morgens ankommen, erklären
lassen.
Fazit: Bedeutung für Pendler
Für Pendler ist der Nahverkehr insbesondere zu den Hauptzeiten
zwischen 7 und 9 bzw. 16 und 19 Uhr unter der Woche wichtig. Gerade zu
diesen Rush-Hours sind die Verspätungen der Nahverkehrszüge am höchsten;
die Pendler müssen hier mit Verspätungen von durchschnittlich 4-5
Minuten rechnen. Insbesondere zu den abendlichen Hauptzeiten ist die
Bahn dabei besonders unpünktlich. Von diesen Verspätungen sind wegen der
hohen Pendlerzahlen besonders viele Menschen betroffen.
Zu guter
Letzt sollte auch noch angemerkt werden, dass die Daten der
vorangegangenen Analyse kein vollständiges Bild von der Zuverlässigkeit
der Bahn für die Pendler zeichnen. Ausfälle von Zügen wurden nämlich
nicht in die Analyse einbezogen - diese erschweren den Pendlern jedoch
den Schul- und Arbeitsweg mindestens genauso sehr wie Verspätungen.
Von der Zeit zum Ort: Wo entstehen die Verspätungen?
In Aufgabe 7 haben Sie analysiert, wann die Verspätungen auftreten, nämlich vor allem zu den Hauptverkehrszeiten. Aber die nächste wichtige Frage ist: Wo entstehen diese Verspätungen?
Aggregierte Statistiken wie Durchschnittswerte über ganz Deutschland verbergen oft große regionale Unterschiede. Vielleicht gibt es einzelne “Problembahnhöfe”, die den Durchschnitt nach oben ziehen? Oder sind die Verspätungen gleichmäßig über das Netz verteilt? Diese Frage ist wichtig, weil sie unterschiedliche Lösungsansätze impliziert: Bei wenigen Problembahnhöfen könnte die Bahn gezielt investieren, bei flächendeckenden Problemen bräuchten Sie systemische Lösungen.
- Identifizieren Sie die 10 unpünktlichsten Bahnhöfe
in Deutschland (mit mindestens 1.000 Halten im Monat). Nutzen Sie für
diese Analyse den Datensatz
bahn.
Erstellen Sie ein Balkendiagramm, das die durchschnittliche Verspätung dieser Bahnhöfe zeigt. Beschriften Sie die Balken mit den Verspätungswerten.
Beschreiben und interpretieren Sie ihre Grafik.
- Sehen Sie ein geografisches Muster?
- Handelt es sich um große Knotenbahnhöfe oder eher um kleinere Stationen?
Beschreibung und Interpretation
Das Balkendiagramm zeigt die 10 Bahnhöfe in Deutschland, an denen die
Züge im November 2025 die höchsten durchschnittlichen Verspätungen
verzeichneten. Die Daten umfassen dabei sowohl Nah- als auch
Fernverkehrszüge (ICE, IC, EC, RB, IRE, RE und S-Bahn), beziehen
Ausfälle jedoch nicht mit ein. Es wurden ausschließlich Bahnhöfe
analysiert, die mindestens 1000 Halte im Monat aufweisen, um
statistische Verzerrungen durch Ausreißer (also wenige, dafür aber sehr
stark verspätete Züge) zu vermeiden. Pendelnde, die am Bahnhof Ennepetal
(Gevelsberg) einsteigen, mussten im November 2025 beispielsweise mit
einer durchschnittlichen Verspätung ihrer Verbindung von knapp 15
Minuten rechnen.
Auf der Abszisse wird dabei die durchschnittliche
Verspätung in Minuten angezeigt, während auf der Ordinate die Orte der
Bahnhöfe absteigend nach Durchschnittsverspätung aufgelistet sind. Dies
sind die Bahnhöfe in Ennepetal (Gevelsberg), Bad Breisig, Sinzig
(Rhein), Bornheim-Sechtem, Brühl, Roisdorf, Rolandseck, Hochneukirch,
Rheydt-Odenkirchen und Zeesen.
Die Einfärbung der Balken zeigt, auf
welchen Bahnstrecken die Bahnhöfe liegen: Die Durchschnittsverspätung
aller Bahnhöfe, die auf der Strecke Wuppertal-Hagen liegen, ist
dunkellila gefärbt. Der pinke Balken zeigt alle Bahnhöfe auf der Strecke
Köln-Mainz (sog. linke Rheinstrecke), während der gelbe Balken den
Bahnhof auf der Strecke Berlin-Görlitz visualisiert. Die orange
Einfärbung steht für die Strecke Mönchengladbach – Köln/Koblenz. Dabei
reichen die durchschnittlichen Verspätungen von 12,27 Minuten bis zu
14,65 Minuten. Dabei fällt auf, dass es durchaus Bahnhöfe gibt, die auf
derselben Strecke liegen, was auf Probleme auf dieser Strecke hinweisen
könnte. Dies wird im Folgenden weiter erörtert.
Wichtig zu erwähnen
ist allerdings, dass die Durchschnittsverspätung nicht nach der Anzahl
der Halte an dem jeweiligen Bahnhof gewichtet wird, sodass extrem
verspätete Züge die Durchschnittsverspätung bei Bahnhöfen mit weniger
Halten stärker erhöhen als bei größeren Bahnhöfen.
Geografisches Muster
Bei acht der zehn Bahnhöfe mit der höchsten durchschnittlichen
Verspätung ist tatsächlich ein geografisches Muster in dem Sinne zu
erkennen, dass mehrere Bahnhöfe auf derselben Strecke liegen.
Strecke Köln-Mainz (linke Rheinstrecke)
So werden
allein sechs Bahnhöfe durch die sogenannte linke Rheinstrecke, die von
Köln nach Mainz führt, miteinander verbunden. Hierbei handelt es sich um
die Haltestellen Bornheim-Sechtem, Sinzig, Roisdorf, Bad Breisig,
Rolandseck und Brühl, wobei die Verspätungszeiten von 13,18 Minuten bis
hin zu 14,53 Minuten reichen. Verzögerungen auf der Strecke an einem
Bahnhof führen wiederum zu Verspätungen am nächsten Bahnhof, wodurch
eine Art Dominoeffekt gestartet wird. Ein Beleg für diese Hypothese kann
in der Tatsache gefunden werden, dass die Bahnhöfe auf der linken
Rheinstrecke im „Verspätungsranking“ direkt aufeinander folgen, also
fast dieselbe durchschnittliche Verspätungszeit haben (geringe Varianz
der Verspätungszeiten auf dem Streckenabschnitt). Im November 2025 muss
es demnach vermehrt zu Verzögerungen zwischen Köln und Mainz gekommen
sein. Laut der Website der Deutschen Bahn sollen 2028 auf einem
Abschnitt dieser Strecke Sanierungen durchgeführt werden, weil es dort
immer wieder zu „infrastrukturbedingten Störungen“ komme 3.
Strecke Mönchengladbach – Köln/Koblenz
Auch die
Bahnhöfe in Hochneukirch und Rheydt-Odenkirchen liegen auf derselben
Strecke, nämlich auf der von Mönchengladbach nach Köln-Koblenz. Auch
hier können sich also Verzögerungen akkumulieren, insbesondere deshalb,
weil die beiden Bahnhöfe direkt aufeinander folgen. Sobald es an einem
Bahnhof zu einer verzögerten Abfahrt eines Zuges kommt, wirkt sich dies
auf die folgenden Bahnhöfe auf der Strecke aus.
Strecke
Wuppertal-Hagen
Der Bahnhof in Ennepetal liegt zwischen
Hagen und Wuppertal und stellt angesichts der Tatsache, dass es sonst
kein anderer Bahnhof auf dieser Strecke in die Top 10 der Bahnhöfe mit
den höchsten Verspätungen geschafft hat, vermutlich eher ein lokales
Problem dar. Dieser hat mit 14,65 Minuten die höchste durchschnittliche
Verspätung, was insbesondere durch die Lage von Ennepetal begründet
werden kann. Die Züge, die zwischen Köln und Dortmund fahren,
durchqueren fast ausschließlich diesen Ort. Bei Verspätungen haben
Fernverkehrszüge meistens Vorrang vor Nahverkehrszügen, was hinsichtlich
fehlender Ausweichgleise dann zu Verspätungen der Regionalzüge führt, da
diese warten müssen. Ennepetal scheint unter dieser Vorrangregelung
besonders zu leiden, da diese hier oft zum Einsatz kommt. Somit wird
Ennepetal zum “Nadelöhr” der Region.
Strecke
Berlin-Görlitz
Selbiges gilt für den Bahnhof in Zeesen, der
als einziger Vertreter der Strecke Berlin-Görlitz aufgelistet wird und
in Brandenburg liegt. Hier müssen Pendelnde im Durchschnitt mit der
geringsten Verspätung innerhalb der Top 10 von 12,27 Minuten rechnen.
Diese kommt insbesondere wegen der “ungünstigen” Lage von Zeesen
zustande. Der Bahnhof folgt nämlich auf den von Königs Wusterhausen, der
wiederum ein Knotenpunkt der Strecke darstellt. Auch hier führt der
Vorrang des Fernverkehrs wieder dazu, dass insbesondere Regionalzüge bei
überbelegten Gleisen warten müssen. Sind also zu wenig freie Gleise
vorhanden, wirkt sich das massiv auf die Durchschnittsverspätungen im
Zeesener Bahnhof aus.
Insgesamt liegen neun der zehn Bahnhöfe mit der höchsten
Durchschnittsverspätung in Nordrhein-Westfalen und Rheinland-Pfalz:
Dabei handelt es sich um alle Stationen, die entlang der linken
Rheinstrecke befahren werden sowie um den Bahnhof in Ennepetal
(Gevelsberg) und zwei Stationen zwischen Mönchengladbach und Köln. Dies
könnte auf eine veraltete Infrastruktur insbesondere im Rhein-Ruhrgebiet
hindeuten, genauso aber auch eine außergewöhnlich hohe Be- bzw.
Überlastung der dortigen Strecken bedeuten. Letztere könnte insbesondere
durch den Knotenbahnhof in Köln zustande kommen, der auf den meisten der
oben genannten Strecken liegt.
Größe der Bahnhöfe
Alle der obigen Bahnhöfe befinden sich zwar auf wichtigen Strecken,
jedoch eher in mittelgroßen bis kleineren Städten. Somit handelt es sich
vielmehr um kleinere Stationen statt um große Knotenbahnhöfe.
Das
liegt einerseits daran, dass keine dieser zehn Städte über ein
S-Bahn-Netz verfügt, das auf separaten Gleisen betrieben wird. Diese
sind eher in den Großstädten vorzufinden und sind meist sehr pünktlich,
sodass die Durchschnittsverspätung in diesen Städten statistisch
geglättet und gesenkt werden kann. Kleine bis mittelgroße Städte können
von diesem statistischen Verwässerungseffekt nicht profitieren. Einzelne
hohe Verspätungen wirken sich also stärker auf diese Bahnhöfe aus als
auf welche mit einer höheren Haltefrequenz von Zügen.
Zweitens
halten an diesen kleineren Stationen eher Regionalzüge, die wiederum im
Vergleich zum Fernverkehr nachrangig behandelt werden. Wenn also nur ein
Gleis frei ist, aber sowohl ein Regionalexpress als auch ein verspäteter
ICE dieses befahren wollen, muss der Regionalexpress warten. Dazu kommen
oftmals noch Güterzüge, die die Auslastung der Gleise noch weiter
erhöhen, da Güter- und Personenverkehr in Deutschland dasselbe
Schienennetz befahren. Auf sehr stark belasteten Strecken wie der linken
Rheinstrecke kommt dies wahrscheinlich häufiger vor, was sich dann in
einer hohen durchschnittlichen Verspätung bei den kleinen Stationen auf
der Strecke widerspiegelt. Orte wie Roisdorf, Bad Breisig oder Brühl
sind somit „Leidtragende“ von Verspätungen, die durch Vorrangregelungen
(Fernverkehr vor Nahverkehr) auf die Kleinstationen abgewälzt
werden.
Fazit
Zusammenfassend lässt sich die Eingangsfrage klar beantworten: Es handelt sich bei den Top-10-Bahnhöfen nicht um isolierte “Problembahnhöfe”, sondern um die Leidtragenden überlasteter Strecken und Vorrangregelungen. Da die Verspätungen clusterartig auf ganzen Streckenabschnitten (z. B. linke Rheinstrecke) auftreten, würden lokale Investitionen in einzelne Bahnhöfe (z. B. nur in Roisdorf) das Problem nicht lösen. Stattdessen sind andere Lösungen wie der Streckenausbau oder die Entflechtung von Fern- und Nahverkehr auf den identifizierten Korridoren notwendig.
Wo treffen viele Pendler auf eine unpünktliche Bahn?
Bisher haben Sie Pendler- und Bahndaten getrennt betrachtet. Aber die spannende Frage ist: Wo kommen beide Probleme zusammen? Eine Stadt mit vielen Pendlern und einer unpünktlichen Bahn hat ein größeres Problem als eine Stadt mit wenigen Pendlern und einer unpünktlichen Bahn.
Um diese Frage zu beantworten, müssen Sie die Datensätze verknüpfen. Das Problem: Die Bahndaten sind auf Bahnhofsebene, die Pendlerdaten auf Kreisebene. Sie benötigen ein Mapping, das Bahnhöfe den entsprechenden Kreisen zuordnet.
- In dieser Aufgabe verknüpfen Sie die Bahn- und Pendlerdaten, um
Städte mit Handlungsbedarf zu identifizieren. Nutzen Sie für ihre
Analysen die Datensätze:
bahn,pendlerundbahnhof_mapping.
Das Mapping ordnet Bahnhöfe ihrem Landkreis zu (via AGS = Amtlicher Gemeindeschlüssel). Ihr Ziel: Identifizieren Sie Städte, in denen viele Pendler auf eine unpünktliche Bahn treffen.
- Berechnen Sie für jeden Bahnhof die durchschnittliche Verspätung und die Anzahl der Halte.
- Aggregation auf Kreisebene: Berechnen Sie für jeden Kreis die gewichtete durchschnittliche Verspätung. Gewichten Sie nach der Anzahl der Halte (ein Bahnhof mit 10.000 Halten zählt mehr als einer mit 100).
- Verknüpfen Sie das Ergebnis mit den Pendlerdaten mittels
left_join()über die Variableags. - Problem-Score berechnen: Kombinieren Sie beide Dimensionen mit z-Standardisierung:
\[\text{Problem-Score} = z(\text{Einpendler}) + z(\text{Verspätung})\]
Die z-Standardisierung macht die Werte vergleichbar: \(z(x) = \frac{x - \bar{x}}{s_x}\), wobei \(\bar{x}\) der Mittelwert und \(s_x\) die Standardabweichung ist.
Interpretation: Ein hoher Problem-Score = Viele Pendler + hohe Verspätung = Handlungsbedarf.
Anschließend sollten Sie eine Tabelle der Top 10 Städte nach Problem-Score darstellen und diese kurz beschreiben.
| Top 10 Landkreise mit den problematischsten Bahnhöfen für Pendler | |||||
| anhand von Verspätungen und Anzahl der Einpendler im November 2025 sortiert nach Problem-Score |
|||||
| Landkreis | Problem-Score | gewichtete durchschn. Verspätung (min)* | z-Score (Verspätung) | Einpendler (Anzahl) | z-Score (Pendler) |
|---|---|---|---|---|---|
| München | 3,45 | 5,98 | 0,18 | 455.645 | 3,27 |
| Köln | 3,06 | 7,89 | 1,19 | 306.905 | 1,87 |
| Düsseldorf | 2,55 | 7,33 | 0,89 | 284.696 | 1,66 |
| Frankfurt | 2,54 | 5,14 | −0,26 | 405.856 | 2,80 |
| Berlin | 2,18 | 4,70 | −0,49 | 392.324 | 2,67 |
| Hamburg | 2,05 | 4,44 | −0,63 | 392.951 | 2,68 |
| Duisburg | 1,46 | 8,81 | 1,67 | 86.735 | −0,21 |
| Hamm | 1,44 | 9,93 | 2,26 | 22.447 | −0,82 |
| Stuttgart | 1,38 | 5,30 | −0,18 | 274.442 | 1,56 |
| Bonn | 1,27 | 8,00 | 1,24 | 112.607 | 0,03 |
| Berechnung des Problem-Scores: Addition der z-standardisierten Werte von Einpendlern und Verspätung. | |||||
| *Gewichtung der durchschnittlichen Verspätung nach Gesamtanzahl der Halte in den Bahnhöfen eines Landkreises | |||||
Beschreibung und Interpretation
Beschreibung
Die Tabelle listet die 10
Landkreise in Deutschland auf, in denen im November 2025 am meisten
zeitlicher Schaden durch Verspätungen von Zügen entstanden ist. Die
Kreise wurden dabei absteigend nach einem Problem-Score sortiert, der
durch Addition der z-standardisierten Werte von Einpendleranzahl und der
Durchschnittsverspätung von Zügen in allen Bahnhöfen des entsprechenden
Landkreises errechnet wurde. Somit beeinflussen sowohl die Anzahl der
Einpendler als auch die Höhe der durchschnittlichen Verspätung den
Problem-Score. Die Durchschnittsverspätung wurde dabei nach Anzahl der
Halte in dem jeweiligen Landkreis gewichtet, was für die Anzahl der
fahrenden Züge im Kreis korrigiert.
Es werden ausschließlich Kreise,
in denen Großstädte liegen, aufgeführt. Das liegt größtenteils daran,
dass dort überdurchschnittlich viele Einpendler mit der Bahn fahren. Die
Anzahl der Pendler liegt dabei in 8 von 10 Kreisen über 100 Tsd. -
angeführt von München, Frankfurt und Hamburg mit jeweils ca. 456 Tsd.,
406 Tsd. und 393 Tsd. Einpendlern. Duisburg und Hamm bilden mit jeweils
knapp 87 Tsd. bzw. 22 Tsd. Einpendlern die Ausnahme. Demnach ist zu
erwarten, dass in diesen beiden Bahnhöfen die Verspätungen
überdurchschnittlich hoch sind - sonst würde der Problem-Score dort um
einiges geringer ausfallen.
Die gewichteten
Durchschnittsverspätungen reichen von 4,44 bis 9,93 Minuten und fallen
in Hamm (9,93 min), Duisburg (8,81 min) und Bonn (8,00 min) am höchsten
aus. Vor allem in Hamm und Duisburg scheint die Deutsche Bahn also mit
dem vergleichsweise geringen Verkehrsaufkommen überfordert zu
sein.
Die z-Scores
Die z-standardisierte Verspätung
gibt an, wie viele Standardabweichungen die Durchschnittsverspätung in
einem bestimmten Kreis über bzw. unter dem Bundesdurchschnitt liegt. Ist
sie positiv, fällt die gewichtete durchschnittliche Verspätung in dem
entsprechenden Kreis zum Beispiel überdurchschnittlich hoch aus. Dies
ist in der vorliegenden Tabelle bei 6 von 10 Landkreisen der Fall.
Entsprechend quantifiziert der z-Score der Einpendler, ob und wie stark
die Anzahl der Einpendler über bzw. unter dem bundesweiten Schnitt
liegt. Hier sehen wir an den negativen Scores von Duisburg und Hamm,
dass das Pendleraufkommen nur in diesen beiden Kreisen
unterdurchschnittlich hoch ist. Ein z-Score von 0 würde bedeuten, dass
die Anzahl der Einpendler bzw. die gewichtete Durchschnittsverspätung
genau dem deutschlandweiten Durchschnitt entspricht.
Somit geben
die z-standardisierten Größen nicht an, ob die entsprechenden Landkreise
absolut betrachtet gut oder schlecht abschneiden, sondern nur, wie gut
oder schlecht sie im Vergleich zu den anderen Kreisen dastehen.
Interpretation
Obwohl die Durchschnittsverspätung
in München nur marginal über dem Durchschnitt liegt (z-Score = 0,18),
hat es den höchsten Problem-Score. Das liegt daran, dass es dort mit
Abstand am meisten Einpendler gibt. Im Gegensatz dazu hat Hamm zwar mit
einem z-Score von -0,82 unterdurchschnittlich viele Einpendler,
allerdings ist es mit einem z-Score von 2,26 der absolute Spitzenreiter
bei der gewichteten durchschnittlichen Verspätung. Da der Problem-Score
durch simple Addition der beiden z-Scores errechnet wird, werden die
Scores von Verspätung und Einpendlern gleich gewichtet. Eine besonders
geringe Einpendlerzahl kann also eine sehr hohe Durchschnittsverspätung
kompensieren und den Problem-Score nach unten drücken - dies ist
beispielsweise bei Hamm der Fall, wo der Pendlerscore von -0,82 den
hohen Verspätungsscore von 2,26 etwas ausgleicht und somit zu einem
Problem-Score von -0,82 + 2,26 = 1,44 führt. Diese Mechanik funktioniert
auch umgekehrt; hierfür ist Hamburg ein passendes Beispiel. Daraus
folgt, dass der gleiche Problem-Score auf zwei Arten erreichbar ist:
Entweder durch eine sehr hohe Verspätung, dafür aber ein geringes
Einpendleraufkommen oder aber durch überdurchschnittlich viele Pendler,
aber dafür vergleichsweise geringe Verspätungen. Dies wird besonders
beim Vergleich von Düsseldorf und Frankfurt deutlich: Während beide
Städte fast mit 2,54 bzw. 2,55 fast denselben Problem-Score aufweisen,
unterscheiden sich ihre Verspätungsscores deutlich. Während Frankfurt
mit einer unterdurchschnittlichen Verspätung von -0,26 punkten kann,
liegt die von den Zügen in Düsseldorf um 0,89 Standardabweichungen über
dem Bundesschnitt. Da Düsseldorf allerdings mit einem z-Score von 1,66
eine deutlich geringeres Pendleraufkommen im Vergleich zu Frankfurt mit
2,80 hat, sind die resultierenden Problem-Scores fast identisch.
Im
Unterschied zu Aufgabe 8, in der nur die Durchschnittsverspätung
betrachtet wurde, ist für den Problem-Score auch die Anzahl der von den
Verspätungen betroffenen Einpendler ausschlaggebend. Er ist also als
eine Größe für das Schadensausmaß von Verspätungen zu verstehen. Der am
Problem-Score gemessene Zeitschaden ist in Hamm und Stuttgart also genau
gleich hoch, weil im Kreis Stuttgart mehr Einpendler von den
Verspätungen betroffen sind als im Kreis Hamm, wo die Verspätungen dafür
höher ausfallen. In beiden Orten sind also sozusagen gleich viele
Minuten wegen Zugverspätungen verloren gegangen.
- Erstellen Sie ein Streudiagramm (Scatterplot), das die Beziehung zwischen Einpendlerzahl (x-Achse) und durchschnittlicher Verspätung (y-Achse) visualisiert.
- Zeichnen Sie horizontale und vertikale Linien beim jeweiligen Mittelwert ein, um 4 Quadranten zu bilden
- Färben Sie die Punkte nach Quadrant
- Beschriften Sie die Städte mit den höchsten Problem-Scores
- Nutzen Sie eine logarithmische Skala für die x-Achse
Beschreiben und interpretieren Sie die vier Quadranten:
- Oben rechts: Viele Pendler + hohe Verspätung = ?
- Oben links: Wenige Pendler + hohe Verspätung = ?
- Unten rechts: Viele Pendler + niedrige Verspätung = ?
- Unten links: Wenige Pendler + niedrige Verspätung = ?
Beantworten Sie dabei auch folgende Fragen:
- Warum ist es sinnvoll die x-Achse zu logarithmieren?
- Welche Städte liegen im kritischen Quadranten?
- Was würden Sie der Deutschen Bahn empfehlen?
Aufbau und Beschreibung des Streudiagramms
Das dargestellte Streudiagramm visualisiert die Beziehung zwischen
der Anzahl der Einpendler und der gewichteten durchschnittlichen
Verspätung der Züge in den jeweiligen Landkreisen. Jeder Punkt im
Diagramm repräsentiert dabei einen Landkreis.
Horizontal wird die
Anzahl der Einpendler dargestellt, die als Maß für die Relevanz und das
potenzielle Schadensausmaß von Verspätungen interpretiert werden kann.
Die y-Achse zeigt die nach Anzahl der Halte im Landkreis gewichtete
durchschnittliche Verspätung in Minuten und dient als Indikator für die
Zuverlässigkeit des Bahnverkehrs.
Zur Strukturierung des Diagramms
wurden sowohl horizontal als auch vertikal Linien bei den jeweiligen
Mittelwerten eingezeichnet, sodass eine “Handlungsbedarfs-Matrix”
entsteht. Dieser Handlungsbedarf wird an den beiden Dimensionen
Einpendleranzahl und Durchschnittsverspätung gemessen. Der Mittelwert
der Einpendler liegt bei etwa 110.000, der der gewichteten
Durchschnittsverspätung bei rund 5,5 Minuten. Diese vier Quadranten der
Matrix kategorisieren die Landkreise jeweils danach, wie dringend die
Deutsche Bahn in den jeweiligen Kreisen Maßnahmen zur Verbesserung des
Zugverkehrs unternehmen sollte. Die Punkte sind entsprechend ihres
Quadranten bzw. der Dringlichkeit des Handlungsbedarfs farblich codiert:
Rote Punkte stehen für Landkreise, in denen das Ausmaß des Schadens
durch Verspätungen kritisch ist und Maßnahmen dringend nötig sind, gelbe
für einen hohen, aber nicht ganz so dringenden Handlungsbedarf, grüne
Punkte repräsentieren einen begrenzten Bedarf für Maßnahmen und graue
Punkte stehen für die Landkreise, in denen die Notwendigkeit für
Maßnahmen eher gering ist. Zusätzlich sind alle Städte, bei denen
dringlicher Handlungsbedarf besteht, sowie die drei jeweils
einpendlerstärksten Kreise der anderen Quadranten direkt im Diagramm
beschriftet.
Logarithmische Skalierung der x-Achse
Die Verwendung einer logarithmischen Skala für die x-Achse ist aus
statistischer und visueller Sicht sinnvoll. Die Verteilung der
Einpendlerzahlen ist stark rechtsschief: Es existieren wenige Kreise mit
hohen Einpendlerzahlen wie München, Frankfurt oder Berlin, während der
Großteil der Landkreise deutlich geringere Werte aufweist. Diese
rechtsschiefe Verteilung kann man daran erkennen, dass weniger Punkte
rechts von der vertikalen Linie, die den Mittelwert der Einpendler
darstellt, liegen als links davon. Demnach muss der Medianwert der
Einpendleranzahl unterhalb des arithmetischen Mittels liegen, was
Rechtsschiefe impliziert.
Bei einer linearen Skalierung der x-Achse
würden die wenigen “Einpendler-Metropolen” weit rechts im Diagramm
liegen, während die restlichen Kreise stark zusammengedrängt nahe der
y-Achse erscheinen würden. Dies hätte zur Folge, dass Unterschiede
zwischen kleineren und mittleren Städten visuell kaum noch erkennbar
wären. Auch die Mittelwertslinie würde weiter links statt wie bei der
log-Skalierung zentral in der Mitte liegen.
Durch die
Logarithmierung wird der Wertebereich also entzerrt. Dadurch werden
relative Unterschiede auch bei geringeren Einpendlerzahlen sichtbar, und
das Streudiagramm eignet sich besser für eine vergleichende Analyse über
alle Regionen hinweg.
Interpretation der vier Quadranten
Quadrant I – kritischer Handlungsbedarf
In
diesem Quadranten befinden sich Städte mit überdurchschnittlich vielen
Einpendlern und gleichzeitig überdurchschnittlich hohen Verspätungen.
Hier treffen hohe Nachfrage und hohe Durchschnittsverspätungen der
Deutschen Bahn aufeinander. Die Folge ist ein hoher Zeitschaden und ein
potenziell besonders hoher volkswirtschaftlicher Schaden, da sich viele
verlorene Minuten über eine große Zahl von Pendlern aufsummieren. Die
Opportunitätskosten einer Minute Verspätung sind in den rot markierten
Landkreisen also im Schnitt am höchsten.
In diesem Quadranten
befinden sich Köln, Düsseldorf, Essen, Dortmund, Bonn, Hannover,
München, Mannheim und Bremen. Insbesondere der Ballungsraum
Nordrhein-Westfalen sticht hier als zusammenhängender Problemcluster
hervor.
Quadrant II – hoher Handlungsbedarf
Dieser Quadrant umfasst Städte mit unterdurchschnittlicher
Einpendlerzahl, aber überdurchschnittlich hohen Verspätungen. Obwohl die
Verspätungen auch hier überdurchschnittlich hoch sind, betrifft dies
absolut gesehen weniger Menschen. Demnach geht hier insgesamt sozusagen
weniger Zeit verloren.
Beispiele hierfür sind Duisburg, Regensburg
und Münster. Obwohl sie nicht explizit in der Grafik hervorgehoben
wurden, sind auch Duisburg und Hamm in diesem Quadranten zu verorten, da
sich hier alle Landkreise mit einem negativen Einpendler-z-Score und
einem positiven Verspätungs-z-Score befinden (siehe Aufgabe 9).
Quadrant III – begrenzter Handlungsbedarf
In
diesem Quadranten liegen Städte mit über dem Bundesdurchschnitt
liegenden Einpendlerzahlen, aber unterdurchschnittlichen Verspätungen.
Trotz hoher Auslastung funktioniert der Bahnverkehr hier vergleichsweise
stabil, die Deutsche Bahn scheint das hohe Pendleraufkommen also gut
stemmen zu können.
Zu diesen Landkreisen zählen Frankfurt, Berlin
und Hamburg. Derzeit besteht also kein dringender Handlungsbedarf, da
sich der zeitliche Schaden und somit auch die potenziellen
volkswirtschaftlichen Kosten dank geringer Durchschnittsverspätungen in
Grenzen halten. Gleichzeitig sind diese Systeme jedoch anfällig: Bereits
kleine Verschlechterungen könnten aufgrund der hohen Pendlerzahlen
massive Auswirkungen haben. Deshalb sollte die Bahn in diesen Regionen
besonders darauf achten, in die Instandhaltung des Schienennetzes und
der Bahnhöfe zu investieren.
Quadrant IV – geringer
Handlungssbedarf
Dieser Quadrant umfasst Städte mit
wenigen Einpendlern und niedrigen Verspätungen. Weder aus Sicht der
Einpendleranzahl noch aus Sicht der Verspätungen ergibt sich hier ein
dringender Handlungsbedarf.
Beispiele hierfür sind Leipzig, Dresden
und Karlsruhe.
Handlungsempfehlungen für die Deutsche Bahn
Aus der Analyse lassen sich drei Prioritäten für die Deutsche Bahn
ableiten. Wichtig anzumerken ist, dass die Deutsche Bahn durch Maßnahmen
nur Einfluss auf die Durchschnittsverspätungen nehmen kann, nicht direkt
auf die Zahl der Einpendler.
Erste Priorität sollte der rote
Quadrant, insbesondere der Ruhrgebiets-Cluster, haben. Investitionen in
Infrastruktur, Betriebsstabilität und Kapazitätsausbau wirken hier
doppelt: Sie senken hohe Verspätungen und entlasten gleichzeitig
hunderttausende Pendler. Der potenzielle Nutzen pro investiertem Euro
ist in diesem Quadranten am höchsten, da es wahrscheinlich ist, dass
bestimmte Strecken die hohen Verspätungen verursachen.
Zweite
Priorität ist die Sicherung der Stabilität in den großen, aktuell mit
geringen Verspätungen gesegneten Metropolen des grünen Quadranten wie
beispielsweise Frankfurt. Diese Städte sind aufgrund ihrer Größe „too
big to fail“. Eine Verschlechterung der Infrastruktur bzw. eine Erhöhung
der Verspätung würde sofort zu extrem hohen Zeitverlusten und
volkswirtschaftlichen Kosten führen. Präventive Instandhaltung und
Resilienzmaßnahmen sind hier also entscheidend.
Die Städte im
orangefarbenen Quadranten sollten ebenfalls adressiert werden, da die
hohen Verspätungen auf ernsthafte operative Defizite im Bahnkonzern
hinweisen und sich auch zu höheren Verspätungen in anderen Gebieten
führen können, wenn sich diese kumulieren. Aus gesamtwirtschaftlicher
Sicht besitzen sie jedoch eine etwas geringere Priorität als die großen
Ballungsräume, da weniger Pendler betroffen sind.
Insgesamt zeigt
das Streudiagramm, dass eine rein qualitative Betrachtung von
Verspätungen nicht ausreicht. Erst die gemeinsame Analyse von
Verkehrsmenge und Qualität ermöglicht eine fundierte, datengetriebene
Priorisierung von Maßnahmen.
Der Vergleich – Auto vs. Bahn
Sie haben nun identifiziert, wo die Bahn Probleme hat: Städte im kritischen Quadranten (viele Pendler + hohe Verspätungen) brauchen dringend Verbesserungen. Aber bevor Sie Empfehlungen aussprechen können, müssen Sie eine zentrale Frage beantworten:
Lohnt sich die Bahn überhaupt – oder ist das Auto trotz Stau schneller?
Denn selbst wenn die Bahn unpünktlich ist, könnte sie immer noch schneller sein als das Auto im Berufsverkehr. Umgekehrt: Eine pünktliche Bahn bringt wenig, wenn das Auto trotzdem schneller ist. Erst der direkte Vergleich zeigt uns, wo die Bahn wirklich konkurrenzfähig ist – und wo nicht.
Methodische Herausforderungen
Für einen fairen Vergleich sollten Sie “Äpfel mit Äpfeln” vergleichen:
- Beim Auto muss der Stau berücksichtigt werden (nicht nur die theoretische Fahrzeit)
- Bei der Bahn muss die Verspätung berücksichtigt werden (nicht nur der Fahrplan)
- Beide Routen müssen dieselben Start- und Endpunkte haben
Für die Auto-Fahrtzeiten nutzen Sie OSRM (Open Source Routing Machine), das auf OpenStreetMap-Daten basiert. OSRM berechnet echte Straßenrouten, keine Luftlinien.
- Erklären Sie in eigenen Worten:
- Warum ist OSRM-Routing für diesen Vergleich besser geeignet als eine
einfache Berechnung nach der Formel
Distanz / Geschwindigkeit? - Welche Faktoren müssen zusätzlich berücksichtigt werden, um einen
realistischen Vergleich zu ermöglichen? Denken Sie an:
- Tageszeit
- Parkplatzsuche
- Fußweg zum Ziel
- Wartezeit und Umsteigen bei der Bahn
Vergleich von OSRM mit Distanz/Geschwindigkeit
OSRM (Open Source Routing Machine) ist ein Routenplaner, der auf
OpenStreetMap-Daten basiert und für gegebene Start- und Zielpunkte reale
Fahrtrouten über das bestehende Straßennetz berechnet. Für den Vergleich
zwischen Auto und Bahn ist ein Routing mit OSRM deutlich besser geeignet
als eine einfache Berechnung nach dem Prinzip Distanz dividiert durch
Geschwindigkeit, da diese Formel die tatsächliche Verkehrssituation
nicht realsistisch darstellt. Sie geht von einer idealisierten, direkten
Strecke und einer konstanten Durchschnittsgeschwindigkeit aus und
ignoriert dabei wichtige Aspekte des Straßenverkehrs wie das
tatsächliche Straßennetz, Kreuzungen, Ampeln, Abbiegevorgänge und
Umwege. OSRM hingegen nutzt reale OpenStreetMap-Daten und berechnet
konkrete Routen auf Basis des bestehenden Straßennetzes. Dadurch
entstehen Fahrzeiten, die deutlich näher an der tatsächlichen
Autonutzung liegen und somit besser mit den realen Bahnfahrzeiten
vergleichbar sind.
Für einen wirklich realistischen Vergleich müssen jedoch über die reine Fahrzeit hinaus weitere Faktoren berücksichtigt werden. Die Tageszeit spielt eine zentrale Rolle, da sowohl Staus im Autoverkehr als auch Verspätungen bei der Bahn besonders im Berufsverkehr auftreten. Zusätzlich fällt beim Auto oft Zeit für die Parkplatzsuche an, die je nach Stadt und Tageszeit enorm sein kann und in klassischen Routenberechnungen nicht enthalten ist. Sowohl beim Auto als auch bei der Bahn müssen außerdem Fußwege einbezogen werden, etwa vom Parkplatz oder Bahnhof bis zum eigentlichen Ziel. Auf Seiten der Bahn kommen zudem Wartezeiten vor der Abfahrt, Zeitverluste durch Umsteigen sowie das Risiko verpasster Anschlüsse hinzu, die sich bei Verspätungen weiter verstärken können. Erst wenn all diese Aspekte berücksichtigt werden, lässt sich beurteilen, ob die Bahn im Alltag tatsächlich eine konkurrenzfähige Alternative zum Auto darstellt.
- Für die Top 10 Einpendler-Städte wurden typische Pendlerstrecken
definiert (z.B. Dachau \(\rightarrow\)
München, Neuss \(\rightarrow\)
Düsseldorf). Die OSRM-Ergebnisse liegen bereits vor. Nutzen Sie für ihre
Analyse den Datensatz
fahrtzeit.
Erstellen Sie:
- Eine Tabelle mit: Stadt, Strecke, Distanz (km), Auto-Fahrzeit (Hauptverkehrszeit), Bahn-Fahrzeit (real), Differenz
- Berechnen Sie die jährliche Zeitersparnis bei 220 Arbeitstagen und 2x täglichem Pendeln.
Interpretieren Sie ihre Tabelle:
- In wie vielen Fällen ist die Bahn schneller als das Auto?
- Wie viele Stunden pro Jahr kann ein Pendler maximal sparen?
- Gibt es Strecken, bei denen das Auto schneller ist? Woran könnte das liegen?
| Vergleich Auto- und Bahnfahrzeit für Top-10-Einpendler-Städte | ||||||
| Stadt | Strecke | Distanz (km) | Auto-Fahrzeit | Bahn-Fahrzeit (real) | Differenz (min) | Jährliche Zeitersparnis (h)1 |
|---|---|---|---|---|---|---|
| Berlin | Potsdam → Berlin | 34,20 | 49,30 | 29,58 | 19,72 | 144,63 |
| München | Dachau → München | 19,10 | 40,20 | 26,08 | 14,12 | 103,53 |
| Hannover | Celle → Hannover | 42,20 | 54,40 | 40,80 | 13,60 | 99,76 |
| Frankfurt | Darmstadt → Frankfurt | 36,00 | 35,80 | 23,00 | 12,80 | 93,90 |
| Düsseldorf | Neuss → Düsseldorf | 12,10 | 27,10 | 17,10 | 10,00 | 73,35 |
| Hamburg | Harburg → Hamburg | 14,20 | 24,00 | 16,27 | 7,73 | 56,71 |
| Stuttgart | Esslingen → Stuttgart | 14,00 | 27,20 | 20,17 | 7,03 | 51,55 |
| Nürnberg | Fürth → Nürnberg | 10,40 | 18,90 | 12,85 | 6,05 | 44,37 |
| Köln | Leverkusen → Köln | 18,30 | 28,70 | 22,79 | 5,91 | 43,32 |
| Essen | Mülheim → Essen | 11,00 | 18,00 | 15,27 | 2,73 | 20,05 |
| Ulm | Neu-Ulm → Ulm | 3,70 | 8,10 | 8,89 | −0,79 | −5,77 |
| 1 Jährliche Zeitersparnis geht von 220 Arbeitstagen und zwei Pendlerwegen pro Tag im Jahr aus | ||||||
Interpretation der Tabelle
Die oben gezeigte Tabelle vergleicht die Fahrzeiten mit Bus und Auto
für die zehn größten Pendlerstädte Deutschlands und bezieht zusätzlich
Ulm mit ein. Sie enthält die jeweilige Entfernung in Kilometern sowie
die Fahrzeiten mit der Bahn und dem Auto zu Hauptverkehrszeiten. Auf
Basis dieser Daten wird die tägliche Zeitdifferenz zwischen den beiden
Verkehrsmitteln berechnet, aus der sich anschließend die jährliche
Zeitersparnis für Pendler ableiten lässt.
In der Tabelle weist die Strecke Potsdam → Berlin mit rund 145
Stunden die mit Abstand höchste jährliche Zeitersparnis auf, wenn statt
des Autos die Bahn genutzt wird. An zweiter Stelle folgt die Verbindung
Dachau → München mit einer jährlichen Zeitersparnis von ungefähr 104
Stunden. Diese hohen Werte verdeutlichen, dass sich selbst scheinbar
moderate Zeitunterschiede pro Fahrt durch die hohe Anzahl an Pendeltagen
im Jahr zu erheblichen Einsparungen summieren. Bei einer genaueren
Betrachtung der Tabelle lässt sich ein strukturelles Muster erkennen:
Mit zunehmender Distanz steigt in vielen Fällen auch der Zeitvorteil der
Bahn gegenüber dem Auto. Dies deutet darauf hin, dass der Straßenverkehr
insbesondere auf längeren Pendelstrecken stärker durch externe
Einflussfaktoren wie Verkehrsaufkommen, Staus oder Unfälle
beeinträchtigt wird. Der Schienenverkehr hingegen profitiert von einem
eigenen, weitgehend vom Straßenverkehr getrennten Netz und kann seine
Fahrzeiten daher konstanter einhalten. Besonders im Berufsverkehr führt
diese höhere Planbarkeit zu einem messbaren Zeitvorteil.
Auffällig ist zudem, dass die Bahn ihren Vorteil nicht nur auf sehr
langen Strecken ausspielt, sondern auch auf mittleren Distanzen zwischen
15 und 40 Kilometern, die für viele Pendler typisch sind. Ursache dafür
ist weniger die Entfernung als vielmehr die Verkehrsbelastung: Gerade in
diesem Bereich führen Staus und Engstellen zu stark verlängerten
Autofahrzeiten. Diese Verzögerungen machen auf mittleren Strecken einen
besonders großen Anteil der Gesamtfahrzeit aus. Die Bahn ist davon
weitgehend unabhängig und kann ihre Fahrzeiten meist stabiler einhalten.
Zudem sind S-Bahn- und Regionalverbindungen häufig genau auf diese
Distanzen ausgelegt, mit direkter Linienführung und hoher Taktung, was
ihren Zeitvorteil zusätzlich verstärkt.
Bemerkenswert ist außerdem, dass nur in einem von elf Fällen das Auto schneller ist als die Bahn, nämlich auf der vergleichweise kurze Strecke Neu-Ulm → Ulm. Die daraus resultierende Zeitersparnis zugunsten des Autos ist mit nur 5,77 Stunden pro Jahr jedoch vernachlässigbar. Dies lässt sich dadurch erklären, dass bei sehr kurzen Distanzen Bahnfahrten durch Wartezeiten und Zugangswege relativ gesehen an Effizienz verlieren, während das Auto hier seine Flexibilität ausspielen kann. Insgesamt lässt sich allerdings festhalten, dass sich in den meisten Fällen die Nutzung der Bahn stärker lohnt als die Wahl des Autos.
- Da Sie alle in Ulm studieren und eventuell aus dem Ulmer Umland
einpendeln, sollten Sie die 5 wichtigsten Pendlerrouten nach
Ulm näher analysieren. Stellen Sie in einem
Dumbbell-Chart (oder Lollipop-Chart) die Unterschiede
zwischen Auto- und Bahnzeiten visuell dar. Nutzen Sie für ihre Analyse
den Datensatz
ulm_routen.
Die 5 wichtigsten Pendlerrouten nach Ulm sind:
- Neu-Ulm \(\rightarrow\) Ulm
- Blaustein \(\rightarrow\) Ulm
- Ehingen \(\rightarrow\) Ulm
- Laupheim \(\rightarrow\) Ulm
- Langenau \(\rightarrow\) Ulm
Markieren Sie, welche Orte keinen Bahnhof haben.
Beschreiben und interpretieren Sie ihre Grafik. Welche Besonderheiten zeigen die ländlichen Strecken?
Hinweis: Nutzen Sie geom_segment() und
geom_point() für ihr Dumbbell-Chart
oder Lollipop-Chart.
Beschreibung und Interpretation
Beschreibung
Das dargestellte Dumbbell-Chart vergleicht die Pendelzeiten der fünf
wichtigsten Pendlerrouten nach Ulm für die Verkehrsmittel Auto und Bahn.
Auf der Y-Achse sind die fünf Städte als Startorte aufgeführt, während
die X-Achse die jeweilige Fahrzeit in Minuten zeigt. Die orangenen
Punkte markieren die Fahrzeiten mit dem Auto, die dunkelroten Punkte
jene mit der Bahn. Die graue Verbindungslinie zwischen den Punkten
visualisiert die zeitliche Differenz zwischen beiden
Fortbewegungsmitteln.
Interpretation
Für die stadtnahen Strecken zeigt sich nur ein geringer
Zeitunterschied. Besonders bei Neu-Ulm → Ulm liegen Auto- und
Bahnfahrzeit fast gleichauf mit nichtmal einer Minute Zeitunterschied,
was auf die sehr kurze Distanz und die gute Verkehrsinfrastruktur
zurückzuführen ist. Auch bei Blaustein → Ulm sind die Unterschiede
gering - hier ist das Auto nur 1,6 Minuten schneller als die
Bahn.
Bei den ländlicheren Pendlerrouten fallen die Unterschiede deutlicher
aus. Auf den Strecken Ehingen → Ulm und Langenau → Ulm ist die Bahn
deutlich schneller als das Auto. Insbesondere bei Langenau ergibt sich
ein erheblicher Zeitvorteil der Bahn von 11 Minuten, was auf eine
direkte und gut ausgebaute Bahnverbindung sowie auf mögliche
Stauanfälligkeit des Autoverkehrs hindeutet. Auch von Ehingen aus bietet
die Bahn einen klaren Zeitvorteil mit 8 Minuten Unterschied.
Ein wichtiger Aspekt der Analyse ist die Bahnhofsanbindung: Blaustein
verfügt über keinen eigenen Bahnhof, was die vergleichsweise längere
Bahnfahrzeit erklärt, da zusätzliche Wege oder Umstiege notwendig sind.
Dies zeigt exemplarisch eine Besonderheit ländlicher Strecken: Fehlt
eine direkte Schienenanbindung, verliert die Bahn an Attraktivität
gegenüber dem Auto.
Zusammenfassend verdeutlicht die Grafik, dass die Bahn auf gut angebundenen ländlichen Strecken deutliche Zeitvorteile bietet, während auf kurzen oder schlecht angebundenen Strecken das Auto konkurrenzfähig oder sogar schneller ist. Die Wahl des Verkehrsmittels hängt somit stark von der Infrastruktur und der Anbindung des jeweiligen Startortes ab.
Die volkswirtschaftlichen Kosten
Verspätungen kosten nicht nur Nerven, sie haben einen realen volkswirtschaftlichen Preis. Jede Minute, die ein Pendler im verspäteten Zug wartet, ist verlorene Arbeitszeit.
Um diese Kosten etwas besser zu quantifizieren sollten Sie sich den Medianlohn der jeweiligen Städte herunterladen und näher analysieren.
- Berechnen Sie die volkswirtschaftlichen Kosten der Bahnverspätungen für die 11 Städte.
Datensätze:
staedte_basis(aus Aufgabe 4) – enthält Einpendler, Medianlohn und Staudaten- Ergebnis aus Aufgabe 9: die gewichtete durchschnittliche Verspätung pro Stadt (in Minuten)
Nutzen Sie die folgenden Annahmen:
Annahmen:
- 220 Arbeitstage pro Jahr
- 2 Fahrten pro Tag (Hin + Zurück)
- Ca. 8,4% der Pendler nutzen die Bahn (nationaler Durchschnitt laut MiD 2023 Kurzbericht)
Berechnen Sie für jede Stadt:
- Anzahl der Bahnpendler (Einpendler × 8,4%)
- Verspätungsstunden pro Jahr (Verspätung × 220 × 2 / 60)
- Kosten pro Pendler (Verspätungsstunden × Stundenlohn)
- Gesamtkosten der Stadt
Erstellen Sie auf Basis ihrer Berechnung eine Tabelle, welche die Anzahl der Bahnpendler, die Verspätungsstunden pro Jahr, die Kosten pro Pendler und die Gesamtkosten der Stadt anschaulich darstellt.
Beschreiben und interpretieren Sie ihre Tabelle. Gehen Sie dabei auch auf die Gesamtkosten der 11 Städte ein. Erklären Sie außerdem, warum der Medianlohn für diese Berechnung besser geeignet ist als der Durchschnittslohn.
Hinweis: Für die Umrechnung auf Stundenlohn: Monatsentgelt / 160 (bei 40h/Woche).
| Volkswirtschaftliche Kosten für Verspätungen der Bahn pro Stadt | ||||
| Stadt | Bahnpendler | Verspätung/Jahr (h) | Kosten/Pendler (€) | Gesamtkosten (in Mio.€) |
|---|---|---|---|---|
| München | 38.274 | 43,9 | 1.329 | 50,87 |
| Köln | 25.780 | 57,9 | 1.591 | 41,02 |
| Frankfurt | 34.092 | 37,7 | 1.112 | 37,91 |
| Düsseldorf | 23.914 | 53,8 | 1.520 | 36,35 |
| Hamburg | 33.008 | 32,6 | 923 | 30,47 |
| Berlin | 32.955 | 34,5 | 896 | 29,53 |
| Stuttgart | 23.053 | 38,9 | 1.139 | 26,26 |
| Essen | 11.869 | 54,6 | 1.362 | 16,17 |
| Nürnberg | 13.902 | 37,1 | 981 | 13,64 |
| Hannover | 11.586 | 43,8 | 1.138 | 13,18 |
| Ulm | 5.741 | 29,5 | 796 | 4,57 |
Beschreibung und Interpretation
Beschreibung
Die Tabelle zeigt die volkswirtschaftlichen Kosten von
Bahnverspätungen für elf deutsche Städte. Sie enthält die Anzahl der
Bahnpendler, die durchschnittliche Verspätung der Bahn pro Jahr in
Stunden, die Kosten pro Pendler sowie die Gesamtkosten für die jeweilige
Stadt.
Interpretation
Aus der Tabelle wird deutlich, dass die volkswirtschaftlichen Gesamtkosten von Bahnverspätungen nicht allein von der Anzahl der Pendler abhängen, sondern beeinflusst werden durch die durchschnittliche jährliche Verspätung sowie das Lohnniveau, gemessen am Medianlohn. Besonders anschaulich zeigt sich dies am Beispiel München: Mit rund 50,9 Mio. Euro weist die Stadt die höchsten Gesamtkosten auf. Dies ist darauf zurückzuführen, dass München sowohl eine höchste Anzahl an Bahnpendlern als auch relativ hohe Kosten pro Pendler aufweist, die wiederum durch das hohe Einkommensniveau bedingt sind.
Den zweithöchsten Wert erreicht Köln mit etwa 41 Mio. Euro. Obwohl dort um rund ein Drittel weniger Bahnpendler betroffen sind als in München, entstehen die hohen Gesamtkosten vor allem durch die im Vergleich höchsten durchschnittlichen Verspätungen der zehn Städte sowie durch die ebenfalls höchsten Kosten pro Pendler. Dieses Beispiel verdeutlicht, dass selbst bei geringeren Pendlerzahlen erhebliche volkswirtschaftliche Schäden entstehen können, wenn Verspätungen häufig auftreten und die Kosten pro Pendler sehr hoch sind.
Städte mit weniger Pendlern und niedrigeren Verspätungen, wie Ulm, verursachen entsprechend geringe Kosten mit nur 4,6 Mio. Euro pro Jahr. Der Großteil der Gesamtkosten liegt allerdings im Bereich zwischen 26 Mio. und 36 Mio. Euro pro Stadt, was zeigt, dass extreme Werte eher die Ausnahme sind.
In dieser Tabelle wird der Medianlohn verwendet, um die Kosten pro Pendler zu berechnen. Diese Methode erweist sich für diese Analyse als besonders geeignet. Im Gegensatz zum Durchschnittslohn, der durch sehr hohe oder sehr niedrige Einkommen einzelner Personen verzerrt werden kann, bildet der Medianlohn den typischen Verdienst der Pendler realitätsnah ab.
Insgesamt macht die Analyse deutlich, dass Bahnverspätungen nicht nur ein individuelles Ärgernis für Pendler darstellen, sondern erhebliche volkswirtschaftliche Kosten verursachen, die je nach Stadt stark variieren. Besonders hohe Belastungen entstehen dort, wo lange Verspätungen auf ein hohes Lohnniveau treffen. Die Ergebnisse unterstreichen damit die wirtschaftliche Relevanz von Investitionen in eine zuverlässigere und leistungsfähigere Bahninfrastruktur, insbesondere in Regionen mit hohem Pendleraufkommen.
- Setzen Sie die Kosten der Bahn (aus Aufgabe 14) den Kosten des Autos
gegenüber. Vergleichen Sie diese in einer Szenario-Analyse mittels eines
gestapelten Balkendiagramms. Nutzen Sie für ihre Analysen den Datensatz
staedte_basis.
Berechnen Sie zuerst die Kosten des Autostaus pro Stadt:
- Anzahl der Autopendler (Einpendler × 91,6%)
- Staukosten pro Autopendler (Staustunden × Stundenlohn)
- Gesamtkosten der Stadt durch Autostau
Führen Sie anschließend einen Szenario-Vergleich durch: Was passiert, wenn der Bahnanteil von 8,4% auf 20% steigt?
- Berechnen Sie die Gesamtkosten (Bahn + Auto) für beide Szenarien
- Annahme: Weniger Autos = weniger Stau (z.B. 20% weniger Stauzeit pro Autopendler)
Erstellen Sie ein gestapeltes Balkendiagramm nach Szenario. Beschreiben und intepretieren Sie ihre Grafik. Gehen Sie insbesondere auf die folgenden Fragen ein:
- Wie verteilen sich die Kosten zwischen Bahn und Auto im Status quo?
- Welches Verkehrsmittel verursacht den größeren volkswirtschaftlichen Schaden?
- Was ist die Nettoersparnis bei 20% Bahnanteil?
Beschreibung und Interpretation
Beschreibung
Die Abbildung zeigt zwei gestapelte Balkendiagramme, welche die Gesamtkosten des Auto- und Bahnverkehrs für elf deutsche Städte unter zwei unterschiedlichen Szenarien. Das obere Szenario (Szenario 1) geht von einem Bahnpendleranteil von 8,4 Prozent aus, während das untere (Szenario 2) einen erhöhten Anteil von 20 Prozent annimmt. Auf der x-Achse sind die Gesamtkosten in Millionen Euro dargestellt und farblich getrennt nach den Verkehrsmitteln Auto und Bahn ausgewiesen. Für jede Stadt werden die jeweiligen Kosten beider Verkehrsmittel auf der y-Achse gegenübergestellt, sodass Unterschiede zwischen den Szenarien sowie zwischen den Städten sichtbar werden.
Interpretation
In beiden Szenarien verursachen die Autofahrten in allen Städten deutlich höhere Gesamtkosten als der Bahnverkehr. Allerdings zeigt sich im Vergleich der beiden Szenarien eine klare Verschiebung der Kostenstruktur. Mit steigendem Bahnpendleranteil im zweiten Szenario sinken die Gesamtkosten des Autoverkehrs in allen betrachteten Städten spürbar, während die Kosten des Bahnverkehrs moderat ansteigen. Insgesamt fallen die kombinierten Gesamtkosten aus Auto- und Bahnverkehr in Szenario 2 jedoch niedriger aus als in Szenario 1. Die Abbildung zeigt, dass ein steigender Bahnpendleranteil nicht nur die Kosten des Bahnverkehrs beeinflusst, sondern auch deutliche Auswirkungen auf den Autoverkehr hat. Wenn mehr Menschen die Bahn nutzen, sinkt dadurch auch die Zahl der Autofahrten. Dies führt zu einer geringeren Verkehrsbelastung auf den Straßen und damit zu weniger Staus. In Folge dessen, reduzieren sich die durch Zeitverluste verursachten Kosten des Autoverkehrs ebenso.
Besonders in großen Städten wie München, Frankfurt oder Berlin ist dieser Effekt ausgeprägt. Dort führt der höhere Anteil an Bahnpendlern zu einer deutlichen Reduktion der autoverkehrsbedingten Kosten, die den Anstieg der Bahnkosten überkompensiert. Am Beispiel München lässt sich dieser Effekt besonders deutlich erkennen: Während im ersten Szenario die Gesamtkosten bei rund 780 Mio. Euro liegen, sinken sie im zweiten Szenario auf etwa 620 Mio. Euro. Dies zeigt, dass ein höherer Bahnpendleranteil allein in dieser Stadt zu einer potenziellen Kosteneinsparung von rund 160 Mio. Euro führen kann. In kleineren Städten wie Ulm oder Nürnberg sind die absoluten Kosteneffekte geringer, die relative Veränderung zwischen den Szenarien folgt jedoch demselben Muster.
Die Abbildung verdeutlicht somit, dass eine Verlagerung vom Auto auf die Bahn Potenzial hat, die volkswirtschaftlichen Gesamtkosten des Verkehrs deutlich zu senken. Insbesondere in Städten mit hohem Verkehrsaufkommen können höhere Bahnanteile zu einer effizienteren und kostengünstigeren Verkehrsstruktur beitragen.
Politikempfehlung – Ihre Synthese
Sie haben nun umfangreiche Analysen durchgeführt und viele Erkenntnisse über die Bahn gewonnen. Jetzt ist es Zeit, diese zu einer kohärenten Empfehlung zusammenzufügen.
Szenario: Sie sind Berater:in des Bundesministeriums für Digitales und Verkehr. Die Ministerin bittet Sie um eine evidenzbasierte Politikempfehlung zur Verbesserung des Pendlerverkehrs in Deutschland.
- Formulieren Sie eine Politikempfehlung für das Bundesministerium für Digitales und Verkehr.
Schreiben Sie eine Executive Summary (max. 5 Sätze). Fassen Sie hierbei die wichtigsten Erkenntnisse aus ihrem Projekt zusammen. Was ist die zentrale Botschaft?
Formulieren Sie 3 konkrete Empfehlungen. Jede muss enthalten:
- Ein konkretes Ziel (Was soll erreicht werden?)
- Eine messbare Maßnahme (Wie wird es umgesetzt?)
- Eine Begründung mit Zahlen aus Ihrer Analyse
- Nennen Sie zwei Limitationen Ihrer Datengrundlage
- Was würden Sie mit zusätzlichen Daten noch untersuchen?
Executive Summary
Unsere Analyse des Projekts zeigt, dass sich die Pendlerströme in Deutschland stark auf wenige große Metropolen und wirtschaftliche Zentren bündeln, die täglich eine große Zahl an Einpendlern aus dem Umland anziehen und dadurch Verkehrsinfrastruktur und Verkehrssysteme besonders stark belasten. Diese räumliche Konzentration führt zu erheblichen Zeit- und Kostenverlusten, da sowohl der Straßenverkehr durch Staus als auch der Schienenverkehr durch Verspätungen und Ausfälle zunehmend an seine Kapazitätsgrenzen stößt. Ein höherer Bahnanteil im Pendelverkehr kann diese Belastungen wirksam reduzieren, da weniger Autofahrten zu einer geringeren Verkehrsbelastung führen und somit auch die verbleibenden Autofahrer von kürzeren Stauzeiten profitieren. Zentrale Botschaft: Ein zuverlässigerer und attraktiverer Bahnverkehr in Kombination mit einer gezielten Kapazitätsentlastung in Pendlerregionen kann Stau- und Verspätungskosten messbar und kurzfristig senken.
Handlungsempfehlungen für das Bundesministerium für Digitales und Verkehr
Priorisierung überlasteter Streckenabschnitte im
Schienenverkehr
Ziel der Maßnahme ist es, die
Zuverlässigkeit des Bahnverkehrs auf besonders stark belasteten
Streckenabschnitten deutlich zu verbessern und dadurch Verspätungen zu
reduzieren. Hierzu sollte eine streckenbezogene Priorisierung von
Investitionen eingeführt werden, bei der insbesondere jene Abschnitte
des Schienennetzes ausgebaut oder betrieblich entlastet werden, auf
denen sich Verspätungen regelmäßig häufen. Konkret umfasst das Maßnahmen
wie den Ausbau zusätzlicher Gleise, die Schaffung von
Überholmöglichkeiten sowie die betriebliche Trennung von Fern- und
Nahverkehr.
Die Analyse der Bahnhöfe mit den höchsten durchschnittlichen Verspätungen in Aufgabe 8 zeigt, dass sich diese häufig auf wenige Streckenabschnitte konzentrieren. Mehrere der zehn am stärksten verspäteten Bahnhöfe liegen auf derselben Strecke was auf systematische Überlastungen hinweist. Die durchschnittlichen Verspätungen an diesen Bahnhöfen liegen im Bereich von über zwölf Minuten und verdeutlichen das Ausmaß der zeitlichen Verluste für die dortigen Pendler. Vor allem auf den Strecken zwischen Köln und Mainz treten besonders hohe Verspätungen auf. Mit durchschnittlichen Verspätungen von bis zu rund 14 Minuten an Bahnhöfen wie Bad Breisig und Sinzig erscheint ein gezielter Ausbau dieser Strecke daher besonders sinnvoll und wirkungsvoll.
Die Aussagekraft der Analyse ist allerdings begrenzt, da die betrachteten Verspätungen auf Durchschnittswerten beruhen und damit keine Informationen über die Streuung oder über besonders extreme Verzögerungen liefern. Zudem werden Zugausfälle in der Datengrundlage nicht berücksichtigt, obwohl diese für die tatsächliche Belastung der Reisenden eine zentrale Rolle spielen. Mit zusätzlichen Daten ließe sich untersuchen, welche konkreten Ursachen auf den betroffenen Strecken zu den hohen Verspätungen führen. Dazu zählen Informationen zur Gleisbelegung, zu Baustellen, zum Anteil von Güterverkehr sowie zu betrieblichen Vorrangregelungen zwischen Fern- und Nahverkehr. Diese Daten würden es ermöglichen, gezieltere und wirksamere Maßnahmen für einzelne Streckenabschnitte abzuleiten.
Verbesserung der Preisattraktivität des
Bahnverkehrs
Ziel dieser Maßnahme ist es, die Nutzung der
Bahn im Pendelverkehr durch niedrigere Zugangskosten zu erhöhen und
damit eine Verlagerung vom Auto auf die Bahn zu fördern, um den
Straßenverkehr zu entlasten und volkswirtschaftliche Gesamtkosten zu
senken. Hierzu sollten preisliche Anreize für Pendler ausgebaut werden,
etwa durch eine weitere Vergünstigung des Deutschlandtickets oder
ergänzende regionale Pendlerabonnements zu reduzierten Preisen.
Das gestapelte Balkendiagramm aus Aufgabe 15 zeigt, dass ein höherer Bahnpendleranteil zu einer deutlichen Reduktion der volkswirtschaftlichen Gesamtkosten führen kann. Insbesondere in großen Städten lassen sich erhebliche Einsparungen erzielen, da der Rückgang des Autoverkehrs die Staukosten deutlich senkt und den moderaten Anstieg der Bahnkosten überkompensiert. Das Beispiel München verdeutlicht, dass eine Erhöhung um 20% der Bahnauslastung zu Einsparungen bis zu 160 Mio. Euro führen kann. Überträgt man diesen Effekt auf andere große Pendlerstädte, wird deutlich, dass eine flächendeckende Erhöhung des Bahnanteils das Potenzial hätte, die Kosten in erheblichem Umfang zu senken und damit einen zentralen Beitrag zu einer effizienteren und nachhaltigeren Verkehrsstruktur zu leisten.
Eine Einschränkung dieser Empfehlung könnte sein, dass dieses Szenario keine individuellen Verhaltensreaktionen auf Preisänderungen abbildet, sondern von vereinfachten Annahmen zur Verkehrsmittelwahl ausgeht.Mit zusätzlichen Daten, etwa aus Pendlerbefragungen oder Ticketverkaufsstatistiken, ließe sich genauer untersuchen, wie stark Preisänderungen die Verkehrsmittelwahl beeinflussen und welche Einkommensgruppen besonders sensibel auf tarifliche Anreize reagieren.
Angebotsausbau im Nahverkehr durch dichtere Taktungen und
Netzausbau
Ziel dieser Maßnahme ist es, die Attraktivität
und Zuverlässigkeit des Bahnverkehrs im Pendelverkehr durch kürzere
Wartezeiten und stabilere Verbindungen zu erhöhen, um mehr Pendler
dauerhaft für die Bahn zu gewinnen. Dazu sollten insbesondere in den
Hauptverkehrszeiten dichtere Taktungen im Nahverkehr eingeführt sowie
Engpässe im Schienennetz gezielt beseitigt werden. Dies umfasst unter
anderem den Ausbau zusätzlicher Gleise, die Erhöhung der
Streckenkapazität sowie betriebliche Maßnahmen zur Stabilisierung des
Fahrplans.
Das Liniendiagramm aus Aufgabe 6 zeigt, dass die höchste Nachfrage im Bahnverkehr während der morgendlichen und abendlichen Hauptpendelzeiten auftritt, mit Spitzenwerten von bis zu rund 17 Tsd. Fahrten pro Stunde. Gerade in diesen Zeitfenstern sind Verspätungen besonders häufig, da das Schienennetz stark ausgelastet ist und bereits kleine Störungen zu Dominoeffekten führen können (Aufgabe 7). Wie aus Aufgabe 5 hervorgeht, entfällt der Großteil der Zugfahrten auf den Regional- und S-Bahn-Verkehr, der damit den zentralen Verkehrsträger für Pendler darstellt. Verbesserungen des Angebots in diesem Bereich erreichen daher besonders viele Fahrgäste und können den zeitlichen Schaden durch Verspätungen deutlich reduzieren. Ein verlässliches und eng getaktetes Bahnangebot, insbesondere im Nahverkehr zu den Hauptpendelzeiten, ist daher eine zentrale Voraussetzung für eine nachhaltige Verkehrsverlagerung.
Bei dieser Anaylse ist es schwer eine genaue Trennung zwischen infrastrukturellen und betrieblichen Ursachen von Verspätungen, sodass die Wirkung einzelner Maßnahmen nicht isoliert bewertet werden kann. Mit detaillierten Daten zur Auslastung einzelner Linien, zur Kapazitätsnutzung des Schienennetzes sowie zu infrastrukturellen Engpässen ließe sich gezielter analysieren, auf welchen Strecken kürzere Taktungen und Netzausbauten den größten Effekt entfalten.
Zusatzaufgaben (optional)
Bisher haben Sie zwei Dimensionen betrachtet: Zeit (Bahn ist schneller) und Geld (Verspätungen kosten). Aber es gibt einen dritten, oft vergessenen Aspekt: die Umwelt.
Das Auto ist nicht nur langsamer und teurer; es ist auch ein Klimakiller. Ein durchschnittlicher PKW emittiert z.B. etwa 150 g CO2 pro Personenkilometer.
- Recherchieren Sie die CO2-Emissionsfaktoren und das Mobilitätsverhalten:
- Erstellen Sie eine kleine Tabelle in der Sie die CO2-Emissionen (in
g/Personenkilometer) für folgende Verkehrsmittel auflisten:
- PKW (Durchschnitt)
- PKW (Elektro, deutscher Strommix)
- ICE/IC (Fernverkehr)
- RE/RB (Nahverkehr)
- S-Bahn
- Berechnen Sie einen gewichteten Durchschnitt für die Bahn, wenn 70% der Pendler Nahverkehr und 30% Fernverkehr nutzen.
- Um wie viel Prozent sind die Bahn-Emissionen niedriger als beim Auto?
Hinweis: Nutzen Sie Daten vom Umweltbundesamt oder dem DB Umweltbericht.
| CO₂-Emissionen nach Verkehrsmittel | |
| laut Umweltbundesamt | |
| Verkehrsmittel | g/Personenkilometer |
|---|---|
| PKW (Durchschnitt) | 164 |
| PKW (Elektro, Strommix) | 70 |
| ICE/IC (Fernverkehr) | 30 |
| RE/RB (Nahverkehr) | 44 |
| S-Bahn | 42 |
Beschreibung
In der vorliegenden Tabelle sind die spezifischen CO₂-Emissionen verschiedener Verkehrsmittel aufgeführt. Berücksichtigt werden dabei Pkw im Durchschnitt, Elektro-Pkw, Fernverkehrszüge (ICE/IC), Regionalzüge (RE/RB) sowie die S-Bahn. Alle Angaben erfolgen in Gramm CO₂ pro Personenkilometer. Ein Personenkilometer beschreibt dabei die Beförderung einer Person über eine Strecke von einem Kilometer und dient als standardisierte Bezugsgröße zum Vergleich der Emissionsintensität unterschiedlicher Verkehrsmittel.
Bei einem angenommenen Nutzungsanteil von 70 % im Schienen-Nahverkehr und 30 % im Schienen-Fernverkehr ergibt sich für die Bahn ein gewichteter Durchschnitt von 39,8 g CO₂ pro Personenkilometer.4 Zum Vergleich verursacht ein durchschnittlicher Pkw Emissionen in Höhe von 164 g CO₂ pro Personenkilometer. Damit liegen die spezifischen Emissionen des Schienenverkehrs um rund 76 % unter denen des Pkw.5
Dieser deutliche Unterschied verdeutlicht das hohe ökologische Potenzial des Schienenverkehrs im Personenverkehr. Insbesondere im Pendlerverkehr, der durch regelmäßige und hohe Verkehrsaufkommen gekennzeichnet ist, kann eine Verlagerung vom Pkw auf die Bahn einen erheblichen Beitrag zur Reduktion verkehrsbedingter CO₂-Emissionen leisten.
Die Emissionsfaktoren stammen vom Umweltbundesamt.6
Umweltbundesamt – Emissionen im Verkehr
- Die Studie “Mobilität in Deutschland” (MiD 2023) ist die wichtigste Datenquelle zum Mobilitätsverhalten in Deutschland. Sie ermöglicht einen Vergleich mit 2017 (vor Corona).
Lesen Sie den MiD 2023 Kurzbericht und beantworten Sie:
- Modal Split: Wie hat sich der Anteil des öffentlichen Verkehrs (ÖV) am Gesamtverkehr zwischen 2017 und 2023 verändert?
- Homeoffice-Effekt: Wie hat sich die durchschnittliche Tagesstrecke verändert? Was ist laut MiD der Hauptgrund für diese Veränderung?
- Stadt vs. Land: Welchen Anteil hat das Deutschlandticket in Metropolen vs. ländlichen Räumen? Was bedeutet das für die Ulm-Region?
- Implikation für CO2: Welche Schlussfolgerung ziehen Sie aus diesen Veränderungen für das CO2-Einsparpotenzial durch Bahnpendeln? (2-3 Sätze)
Mobilität in Deutschland (MiD 2023)
Modal Split:
Die MiD 2023 zeigt für den öffentlichen Verkehr, dass dieser mit etwas weniger Fernkilometern und geringfügigem Minus im Nahverkehr unter dem Strich etwa stabil bleibt und sich weiterhin langsam aus dem Corona-Tief erholt. Einschließlich des Fernverkehrs erreicht der ÖV 2023 einen Anteil von 11 Prozent des Verkehrsaufkommens, im Vergleich zu 10 Prozent im Jahr 20177. Das Jahr 2017 ist repräsentativ für die Werte in der Zeit vor Corona. Zwischen 2017 und 2023 gab es zeitweise einen starken Rückgang der Zahlen, was offensichtlich mit dem Lockdown zusammenhängt, in welchem der Verkehr drastisch eingeschränkt wurde und daher kein realistischer Vergleich mit Werten aus dieser Zeit gemacht werden kann, wenn es um Veränderungen im öffentlichen Verkehr geht. Auch kurz nach nach dem Corona-Lockdown, war der Verkehr nicht wieder direkt auf dem Stand von 2017, sondern es dauerte, bis Corona-bedingte Maßnahmen, die vor allem den öffentlichen Verkehr einschränkten, vollends aufgehoben wurden. Deshalb wird der Vergleich zwischen 2017 und 2023 herangezogen. Anschaulich wird dabei, dass der öffentliche Verkehr an Anteil am Verkehrsaufkommen gewinnt, jedoch durch das Corona-Tief kein besonders großes Wachstum verschreibt.
Homeoffice-Effekt:
Die durchschnittliche Tagesstrecke im Jahr 2023 ist verglichen mit
2017 rückläufig. 2017 liegt sie noch bei 39 Kilometern und 2023 nur noch
bei 35. Laut MiD ist dies nicht primär auf eine Verlagerung der
Verkehrsmittel zurückzuführen, sondern vor allem auf strukturelle
Veränderungen im Arbeitsalltag. Der zentrale Treiber ist der dauerhafte
Anstieg von Homeoffice- und Online-Shopping-Möglichkeiten. Viele
Erwerbstätige legen an einzelnen Tagen gar keine Arbeitswege mehr zurück
oder pendeln seltener. Verglichen mit 2017 wird 2023 auch deutlich
häufiger Online-Shopping betrieben, wodurch vor allem in ländlichen
Regionen (ca. 17%, die an 1-3 Tagen pro Woche im kleinstädtischen,
dörflichen Raum in 2023 online shoppen, verglichen mit ca. 8% in 2017)
Fahrstrecken in städtische Räume mit Einkaufszentren wegfallen. Dadurch
sinkt die durchschnittliche Tageskilometerleistung, selbst wenn an den
Pendeltagen weiterhin ähnlich lange Strecken zurückgelegt werden wie vor
Corona. Die MiD spricht hier explizit von einem Nachfragerückgang durch
Wegfall von Wegen, nicht von effizienteren Wegen.
Stadt vs. Land:
Das Deutschlandticket, welches im Jahr 2023 eingeführt wurde, wird
von 16 Prozent der Bevölkerung im Alter ab 14 Jahren genutzt. Die Studie
zeigt jedoch eine starke räumliche Differenzierung bei der Nutzung des
Deutschlandtickets. In Metropolen und großen Städten ist der Anteil der
Deutschlandticket-Nutzenden deutlich höher als in ländlichen Räumen. Der
Grund liegt im deutlich besseren ÖV-Angebot: hohe Taktfrequenzen, dichte
Netze und gute Erreichbarkeit machen das Ticket dort besonders
attraktiv. In ländlichen Regionen ist der Nutzen des Deutschlandtickets
begrenzt, da Angebot, Zuverlässigkeit und Reisezeiten des ÖV oft nicht
konkurrenzfähig zum Auto sind. Dafür spricht eine Befragung über die
“ZUFRIEDENHEIT MIT DER VERKEHRSSITUATION AM WOHNORT”, welche Teil der
MiD-Studie ist. Sie zeigt, dass vor allem in ländlichen Regionen im
kleinstädtischen, dörflichen Raum (34% empfinden ÖPNV als mangelhaft/
ungenügend), als auch in der Mittelstadt, im dörflichen Raum (50%
empfinden ÖPNV als mangelhaft/ ungenügend) große Unzufriedenheit über
die ÖPNV herrscht. Für die Region Ulm bedeutet dies eine
Zwischenstellung: Als Regiopole und Großstadt mit guter
Schienenanbindung profitiert die Stadt Ulm stärker als ländliche Räume,
aber weniger als große Metropolen wie München oder Berlin, vor allem, da
viele Dörfer und Stadtteile Ulms im Umkreis liegen. Die schon genannte
Studie, würde eine Stadt von Ulms Größe so einschätzen, dass es eine
mehr oder weniger ausgewogene Meinungsvielfalt gibt. Etwa 44% befinden
die ÖPNV als gut bis sehr gut und der Rest als befriedigend bis
mangelhaft. Dadurch, dass viele Dörfer in der Umgebung liegen, ist die
Stadt somit auch von der dort herrschenden, negativen Verkehrssituation
betroffen. Vor allem dadurch, dass viele Menschen in die Schule, zur
Arbeit oder an die Universität pendeln.
Implikation für CO2:
Aus den MiD-Ergebnissen lässt sich ableiten, dass das CO₂-Einsparpotenzial durch Bahnpendeln real, aber begrenzt ist. Zwar steigt der ÖV-Anteil leicht und das Deutschlandticket senkt Nutzungshürden, gleichzeitig reduziert Homeoffice die Zahl der Pendelwege insgesamt. Große zusätzliche CO₂-Effekte entstehen daher vor allem dort, wo Autopendler dauerhaft auf die Bahn umsteigen und das Angebot zuverlässig und zeiteffizient ist.
- Berechnen Sie die CO2-Ersparnis für die 11 analysierten Städte.
Datensatz: co2_analyse (aus Aufgabe 4)
– enthält Streckenlängen, Einpendlerzahlen und vorberechnete Werte
Annahmen:
- 220 Arbeitstage pro Jahr
- 2 Fahrten pro Tag (Hin + Zurück)
- CO2-Auto: 150 g/km, CO2-Bahn: 47 g/km (gewichteter Durchschnitt)
Berechnen Sie für jeden Umsteiger (Auto \(\rightarrow\) Bahn):
- Jährliche Kilometer
- CO2-Emissionen mit Auto (kg/Jahr)
- CO2-Emissionen mit Bahn (kg/Jahr)
- Ersparnis (kg/Jahr)
Nun sollten Sie eine Szenario Analyse ähnlich wie in Aufgabe 15 durchführen: Wenn sich der Bahnanteil von 8,4% auf 20% erhöht: wie viele Tonnen CO2 würden in den 11 Städten jährlich eingespart?
Visualisieren Sie die CO2-Ersparnis pro Stadt.
Stellen Sie die Ersparnis in Kontext, um die Ersparnis greifbarer zu machen, z.B. wie viele Mallorca-Flüge (hin + zurück, ~750 kg CO2) entspricht das?
CO2-Einsparung
Einordnung: Vergleich mit Mallorca-Flügen
Zur besseren Einordnung der Größenordnung lässt sich die CO₂-Ersparnis mit Flugreisen vergleichen. Ein Hin- und Rückflug nach Mallorca verursacht etwa 750 Kg CO₂ pro Person. Die gesamte jährliche CO₂-Ersparnis ergibt sich durch die Aggregation der städtischen Einsparpotenziale. Hierfür werden die zusätzlichen CO₂-Einsparungen aller elf Städte aufsummiert. Die jährliche Einsparung von 245.307 Tonnen C0₂, entspricht damit genau 327.076 Hin- und Rückflügen (245.307.000 Kg/ 750 Kg).
Die Ergebnisse zeigen, dass bereits eine moderate Erhöhung des Bahnanteils im Pendelverkehr ein sehr hohes CO₂-Einsparpotenzial besitzt. Im Vergleich zu individuellen Klimaschutzmaßnahmen handelt es sich um einen strukturellen Hebel mit großer Wirkung. Insbesondere in stark pendelgeprägten Metropolregionen, wie Frankfurt, Berlin oder München, in denen eine Erhöhung des Bahnanteils auf 20%, jeweils eine CO₂-Ersparnis von über 30.000 Tonnen im Jahr bewirken würde, kann eine Verlagerung vom Auto auf die Bahn einen substantiellen Beitrag zur Emissionsreduktion im Verkehrssektor leisten.
Anhang
Anhang A: Beschreibung der bereitgestellten Datensätze
1. Bahnhof-Kreis-Mapping (bahnhof_ags_mapping.csv)
Dieses Mapping ist essenziell für die Verknüpfung von Bahn- und Pendlerdaten. Die Bahndaten sind auf Bahnhofsebene (z.B. “München Hbf”), die Pendlerdaten auf Kreisebene (z.B. “München, Landeshauptstadt”). Der AGS (Amtlicher Gemeindeschlüssel) ist der Schlüssel, der beide Welten verbindet.
Wichtige Variablen:
station_name: Name des Bahnhofsags: Amtlicher Gemeindeschlüssel (5-stellig für Kreise)kreis_name: Name des Landkreises/der kreisfreien Stadt
2. Fahrtzeit-Vergleich OSRM
(fahrtzeit_osrm_vergleich.csv)
Für einen fairen Vergleich Auto vs. Bahn brauchen wir realistische Fahrtzeiten. OSRM (Open Source Routing Machine) berechnet echte Straßenrouten basierend auf OpenStreetMap – keine Luftlinien, sondern tatsächliche Straßenverbindungen mit Abbiegevorgängen, Geschwindigkeitsbegrenzungen und Straßentypen.
Wichtige Variablen:
stadt: Zielstadt der Pendlerstreckestrecke_name: Beschreibung der Route (z.B. “Dachau \(\rightarrow\) München”)auto_distanz_km: Fahrstrecke mit dem Auto in kmauto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit (mit Staufaktor)bahn_planzeit_min: Fahrzeit laut Fahrplanbahn_verspaetung_min: Durchschnittliche Verspätungbahn_real_min: Realistische Bahnfahrzeit (Fahrplan + Verspätung)
Wie wurde das Routing durchgeführt?
Koordinaten ermitteln: Für jede Pendlerstrecke wurden Start- und Zielkoordinaten definiert (z.B. Stadtzentrum Dachau \(\rightarrow\) München Hauptbahnhof).
OSRM-API abfragen: Über die öffentliche OSRM-Demo-API (
router.project-osrm.org) wurden für jede Route Distanz und Fahrzeit abgefragt. Die API gibt die schnellste Route zurück, basierend auf dem aktuellen Straßennetz.Staufaktor anwenden: Die OSRM-Basisfahrzeit entspricht einer Fahrt bei freiem Verkehr. Für die Hauptverkehrszeit (HVZ) wurde ein Staufaktor von 1,3-1,5 angewendet, basierend auf den INRIX-Daten der jeweiligen Stadt.
Bahn-Daten ergänzen: Die Bahnfahrzeiten stammen aus dem DB-Fahrplan, ergänzt um die durchschnittliche Verspätung aus unserer Analyse.
Weiterführende Links:
- OSRM Projekt-Website – Dokumentation und Demo
- OSRM API-Dokumentation – Technische Details zur API
- OpenStreetMap – Die Kartendaten, auf denen OSRM basiert
- R-Paket
osrm– Für eigene OSRM-Abfragen in R
3. Ulm-Pendlerrouten (ulm_pendlerrouten.csv)
Da Sie in Ulm studieren, analysieren wir die wichtigsten Pendlerrouten in die Stadt genauer. Dieser Datensatz enthält die 5 wichtigsten Einpendler-Gemeinden mit detaillierten Informationen zur Erreichbarkeit.
Wichtige Variablen:
start_ort: Startgemeinde der Pendlerrouteziel_ort: Zielort (Ulm)auto_dauer_min: Fahrzeit mit dem Autoauto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeitbahn_fahrplan_min: Bahnfahrzeit laut Fahrplanbahn_real_min: Realistische Bahnfahrzeithat_bahnhof: TRUE/FALSE – hat der Startort einen Bahnanschluss?pendler_geschaetzt: Geschätzte Anzahl Pendler auf dieser Route
4. Entgeltstatistik (ba_entgeltstatistik_2024.csv)
Um die volkswirtschaftlichen Kosten von Verspätungen zu berechnen, brauchen wir regionale Lohndaten. Diese haben wir von der Bundesagentur für Arbeit heruntergeladen.
Wichtige Variablen:
kreis_name: Name des Kreises/der Stadtags: Amtlicher Gemeindeschlüsselmedianentgelt_brutto_monat: Median-Bruttomonatsentgelt in Euro
Quelle: Bundesagentur für Arbeit, Entgeltstatistik 2024
Deutsche Bahn AG, Axel Hartmann, „Erläuterung Pünktlichkeitswerte für den Dezember 2025“, Deutsche Bahn, 2025, https://www.deutschebahn.com/de/konzern/konzernprofil/zahlen_fakten/puenktlichkeitswerte-6878476.↩︎
Deutsche Bahn AG, Axel Hartmann↩︎
Deutsche Bahn AG, „Generalsanierung in Nordrhein-Westfalen: Köln–Bonn–Koblenz“, Deutsche Bahn, 2026, https://generalsanierung-nrw.deutschebahn.com/korridore/koeln-bonn-koblenz.html.↩︎
Berechnung: 0,744+0.330 = 39.8↩︎
Berechnung: (1−39,8/164)⋅100≈75,7%↩︎
Umweltbundesamt (2023): Vergleich der Emissionen im Personenverkehr.↩︎
Bundesministerium für Verkehr und digitale Infrastruktur, „Mobilität in Deutschland 2017“, Bundesministerium für Verkehr und digitale Infrastruktur, n.d., https://www.mobilitaet-in-deutschland.de/archive/pdf/MiD2017_ZusammenfassungKurzreport.pdf.↩︎