Motivation
Jeden Morgen das gleiche Bild: Verstopfte Autobahnen, genervte Pendler, verlorene Zeit. 20,5 Millionen Menschen pendeln in Deutschland täglich zur Arbeit – die meisten davon mit dem Auto. Laut INRIX Traffic Scorecard 2024 verlieren Pendler in deutschen Großstädten zwischen 40 und 60 Stunden pro Jahr allein im Stau. Das entspricht fast einer kompletten Arbeitswoche, die im Nichts verpufft.
Die Idee liegt auf der Hand: Wer Bahn fährt, steht nicht im Stau. Aber wie schlägt sich die Bahn im Vergleich zum Auto? Ist sie wirklich schneller? Und wie zuverlässig ist sie eigentlich?
In diesem Projekt analysieren Sie Echtzeitdaten der Deutschen Bahn, Pendlerstatistiken der Bundesagentur für Arbeit, Staudaten von INRIX und die Entgeltstatistik der Bundesagentur für Arbeit. Sie werden herausfinden, dass die Antwort auf die Frage “Sollten mehr Menschen Bahn fahren?” komplexer ist, als man zunächst vermuten würde und dass sie wichtige Implikationen für die Verkehrspolitik hat.
Ihre zentrale Forschungsfrage lautet:
“Sollten mehr Menschen Bahn fahren – und was müsste sich dafür ändern?”
Datengrundlage
In diesem Projekt arbeiten Sie mit mehreren Datensätzen. Ein wichtiger Teil des Projekts ist das eigenständige Beschaffen von Primärdaten aus offiziellen Quellen.
Daten einlesen und verstehen
Bevor Sie mit der Analyse beginnen können, müssen Sie verschiedenste
Datensätze einlesen und deren Struktur verstehen. Die Deutsche Bahn
stellt über unterschiedliche Schnittstellen Echtzeitdaten für ihre Züge
als open-source Daten zur Verfügung, welche per API-Calls geladen werden
können. Jedoch gibt es von der Deutschen Bahn keine offizielle Seite,
welche historische Daten zu Zugverspätungen, Ausfällen etc. für Fern-
und Nahverkehrszüge sammelt. Da wir uns jedoch mit historischen Daten
beschäftigen möchten, greifen wir auf Daten zurück, die von Piet Brömmel
gesammelt wurden und bei Huggingface im Parquet-Format
zur Verfügung gestellt wurden. Das Parquet-Format ist
ein effizientes Datenformat und wird oft für große Datenmengen genutzt;
in R können Sie diese Daten mit dem arrow-Paket
einlesen.
- Wie pünktlich ist die Bahn wirklich? Um diese Frage zu beantworten, brauchen Sie echte Verspätungsdaten – nicht nur Pressemitteilungen. Die Bahndaten bilden das Herzstück unserer Analyse: Mit ihnen können Sie berechnen, wie viel Zeit Bahnfahrer durch Verspätungen verlieren und später mit den Stauzeiten der Autofahrer vergleichen.
Die Deutsche Bahn stellt Echtzeitdaten als Open Data zur Verfügung. Das Projekt piebro/deutsche-bahn-data auf Huggingface sammelt diese Daten im Parquet-Format.
Laden Sie die Datei für November 2025 direkt von
Huggingface herunter und lesen Sie diesen Datensatz als
bahn in R ein.
Zeigen Sie die ersten 10 Zeilen des Datensatzes in einer Tabelle und beantworten Sie anschließend folgende Fragen:
- Wie viele Beobachtungen enthält der Datensatz? Welche Variablen sind vorhanden?
- Was stellt eine einzelne Beobachtung dar?
Hinweis 1: Sie können auf Huggingface die gesuchte Datei hier finden und direkt die URL zu der Datei in R mitgeben
Hinweis 2: Sie können die Parquet Datei entweder lokal speichern, oder immer direkt per URL einlesen. Falls Sie die Datei lokal speichern, so wird diese nicht auf GitHub Committet, da wir dies in der .gitignore entsprechend eingestellt haben. In diesem Fall sollten alle Teammitglieder die Datei lokal zur Verfügung haben.
Hinweis 3: Achten Sie bei allen Tabellen auf einer saubere Darstellung
| station_name | xml_station_name | eva | train_name | final_destination_station | delay_in_min | time | is_canceled | train_type | train_line_ride_id | train_line_station_num | arrival_planned_time | arrival_change_time | departure_planned_time | departure_change_time | id |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Stuttgart Hbf | Stuttgart Hbf (tief) | 08098096 | S 2 | Filderstadt | 5 | 2025-11-01 01:00:00 | FALSE | S | 15 | 2025-11-01 00:55:00 | 2025-11-01 00:57:00 | 2025-11-01 00:55:00 | 2025-11-01 01:00:00 | -1263112065111090114-2510312318-15 | |
| Halle (Saale) Hbf | Halle(Saale)Hbf | 08010159 | S 5 | Leipzig Hbf (tief) | 1 | 2025-11-01 01:00:00 | FALSE | S | 1 | NA | NA | 2025-11-01 00:59:00 | 2025-11-01 01:00:00 | -2678885466088426112-2510312359-1 | |
| Karlsruhe Hbf | Karlsruhe Hbf | 08000191 | RE 1 | Karlsruhe Hbf | 95 | 2025-11-01 01:00:00 | FALSE | RE | 7 | 2025-10-31 23:25:00 | 2025-11-01 01:00:00 | NA | NA | -2791458000270945298-2510312132-7 | |
| Regensburg Hbf | Regensburg Hbf | 08000309 | ALX RE25 | München Hbf | 11 | 2025-11-01 01:00:00 | FALSE | ALX | 4 | 2025-11-01 00:35:00 | 2025-11-01 00:52:00 | 2025-11-01 00:49:00 | 2025-11-01 01:00:00 | -5065801516765768983-2510312301-4 | |
| Mannheim Hbf | Mannheim Hbf | 08000244 | ICE 775 | Karlsruhe Hbf | 1 | 2025-11-01 01:00:00 | FALSE | ICE | 5181720942697741094 | 8 | 2025-11-01 00:56:00 | 2025-11-01 00:58:00 | 2025-11-01 00:59:00 | 2025-11-01 01:00:00 | 5181720942697741094-2510311916-8 |
| Flughafen BER | Flughafen BER (S-Bahn) | 08089201 | S 9 | Flughafen BER | 1 | 2025-11-01 01:00:00 | FALSE | S | 7409107008547428277 | 5 | 2025-11-01 00:59:00 | 2025-11-01 01:00:00 | NA | NA | 7409107008547428277-2510312346-5 |
| Halle (Saale) Hbf | Halle(Saale)Hbf | 08010159 | S 8 | Halle (Saale) Hbf | 15 | 2025-11-01 01:00:00 | FALSE | S | 2442677234119162947 | 6 | 2025-11-01 00:45:00 | 2025-11-01 01:00:00 | NA | NA | 2442677234119162947-2510312324-6 |
| München Hbf | München Hbf | 08000261 | RB 40 | München Hbf | 0 | 2025-11-01 01:00:00 | FALSE | RB | 8 | 2025-11-01 01:00:00 | 2025-11-01 01:00:00 | NA | NA | -8549369502950901321-2510312246-8 | |
| Köln Hbf | Köln Hbf | 08000207 | IC 1952 | Köln Hbf | 40 | 2025-11-01 01:00:00 | FALSE | IC | 2365115903117509345 | 14 | 2025-11-01 00:20:00 | 2025-11-01 01:00:00 | NA | NA | 2365115903117509345-2510311747-14 |
| Freiburg (Breisgau) Hbf | Freiburg(Breisgau) Hbf | 08000107 | S 1 | Freiburg (Breisgau) Hbf | 0 | 2025-11-01 01:00:00 | FALSE | S | 9 | 2025-11-01 01:00:00 | 2025-11-01 01:00:00 | NA | NA | -2150665481183031960-2510312332-9 |
Der Datensatz enthält genau 13.943.561 Beobachtungen. Außerdem gibt es insgesamt 16 Variablen. Die Variablen heißen: station_name (Name des Bahnhofs), xml_station_name (Bahnhofsname aus der Originalquelle), eva (eindeutige Bahnhofs-ID), train_name (Zugnummer bzw. Zugbezeichnung), final_destination_station (Endbahnhof des Zuges), delay_in_min (Verspätung in Minuten), time (Zeitstempel des Ereignisses), is_canceled (ob der Zug ausgefallen ist oder nicht), train_type (Zugtyp wie ICE, IC, RB usw.), train_line_ride_id (ID für eine konkrete Zugfahrt), train_line_station_num (Nummer der Station innerhalb der Zugroute), arrival_planned_time (geplante Ankunftszeit), arrival_change_time (tatsächliche Ankunftszeit), departure_planned_time (geplante Abfahrtszeit), departure_change_time (tatsächliche Abfahrtszeit) und id (eine eindeutige ID für jede Beobachtung). Daran erkennt man, dass der Datensatz sehr detailliert aufgebaut ist, da er sowohl Informationen zum Ort, zur Zeit, zum Zugtyp als auch zu Verspätungen und Ausfällen enthält.
Eine einzelne Beobachtung stellt jeweils ein konkretes Ereignis eines Zuges an einem bestimmten Bahnhof zu einem bestimmten Zeitpunkt dar. Das heißt, eine Zeile beschreibt zum Beispiel, wie ein bestimmter ICE an einem bestimmten Bahnhof ankommen oder abfahren sollte, ob er pünktlich war, wie viele Minuten Verspätung er hatte oder ob er sogar ausgefallen ist. Es geht also nicht um eine komplette Zugfahrt von Start bis Ziel, sondern um einzelne Stationen innerhalb dieser Fahrt. Dadurch kann man sehr genau nachvollziehen, wie sich Verspätungen entlang der Strecke aufbauen und an welchen Bahnhöfen besonders häufig Probleme auftreten.
- Wohin pendeln die Menschen? Die Bahndaten zeigen ihnen die Pünktlichkeit der Züge – aber um zu verstehen, wo gute Bahnverbindungen besonders wichtig sind, müssen Sie wissen, wohin die Menschen pendeln. Die Pendlerstatistik der Bundesagentur für Arbeit zeigt genau das: Welche Städte sind die größten Arbeitgeber-Magneten?
Laden Sie den Datensatz pendler_kreise_aufbereitet.csv
aus dem Ordner daten in R ein als Datensatz
pendler.
Erstellen Sie eine Tabelle der Top 10 Städte nach Einpendlern mit den Spalten: Stadt (kreis_name), Einpendler, Auspendler, Pendlersaldo.
Interpretieren Sie kurz: Welche Städte sind die größten “Pendlermagneten” Deutschlands und warum?
| Stadt | Einpendler | Auspendler | Pendlersaldo |
|---|---|---|---|
| München, Landeshauptstadt | 455.645 | 202.756 | 252.889 |
| Frankfurt am Main, Stadt | 405.856 | 111.245 | 294.611 |
| Hamburg, Freie und Hansestadt | 392.951 | 147.328 | 245.623 |
| Berlin, Stadt | 392.324 | 219.898 | 172.426 |
| Köln, Stadt | 306.905 | 138.422 | 168.483 |
| Düsseldorf, Stadt | 284.696 | 97.326 | 187.370 |
| Stuttgart, Landeshauptstadt | 274.442 | 100.095 | 174.347 |
| Nürnberg, Stadt | 165.496 | 78.557 | 86.939 |
| Essen, Stadt | 141.296 | 90.906 | 50.390 |
| Region Hannover | 137.924 | 69.974 | 67.950 |
In der Tabelle sieht man, dass vor allem die großen Metropolen wie München, Frankfurt am Main, Hamburg, Berlin und Köln die größten Pendlermagneten Deutschlands sind. Diese Städte ziehen besonders viele Einpendler an, weil sie wirtschaftlich extrem stark sind und sehr viele gut bezahlte Arbeitsplätze in wichtigen Branchen bieten, zum Beispiel in der Finanzwirtschaft (Frankfurt), in der Industrie und im Tech-Bereich (München), in Medien und Logistik (Hamburg) oder im öffentlichen Sektor und in internationalen Unternehmen (Berlin). Der hohe Pendlersaldo zeigt, dass deutlich mehr Menschen zum Arbeiten in diese Städte hineinfahren als aus ihnen herauspendeln. Das liegt auch daran, dass Wohnen in den Innenstädten oft sehr teuer ist, sodass viele Beschäftigte im Umland leben und täglich zur Arbeit pendeln. Insgesamt machen diese Zahlen klar, dass gerade diese Städte besonders stark auf funktionierende und pünktliche Bahnverbindungen angewiesen sind, weil sie das Zentrum für Arbeit und Beschäftigung in ihren jeweiligen Regionen darstellen.
- Was kostet das Auto? Sie haben jetzt Bahndaten und wissen, wohin die Menschen pendeln. Aber um fair vergleichen zu können, brauchen Sie auch die Alternative: Wie viel Zeit verlieren Autofahrer im Stau? Diese Daten liefert INRIX – ein Unternehmen, das weltweit Verkehrsdaten sammelt. Später werden Sie diese Staukosten mit den Bahnverspätungen vergleichen.
Besuchen Sie die INRIX Global Traffic Scorecard und suchen Sie die Stauzeiten für die Top 10 Städte aus Aufgabe 2 und zusätzlich die Stauzeiten für Ulm. INRIX misst, wie viele Stunden Autofahrer jährlich im Stau verlieren.
- Erstellen Sie eine eigene CSV-Datei
inrix_staedte_2024.csvmit folgenden Spalten für die geforderten Städte:stadt: Name der Stadtstau_stunden_jahr: Jährliche Staustunden pro Fahrerkosten_eur: Jährliche Kosten pro Fahrer (findet sich in der tiefergehenden Übersicht)
- Berechnen Sie für jede Stadt, wie viele Arbeitstage pro Jahr im Stau verloren gehen. Annahme: Ein Arbeitstag = 8 Stunden.
Erstellen Sie anschließend eine schöne Tabelle mit: Stadt, Staustunden/Jahr, verlorene Arbeitstage und beschreiben diese. In welcher Stadt ist die Stausituation am schlimmsten? Wie viele Arbeitstage verliert ein typischer Pendler dort pro Jahr?
Hinweis: Auf der INRIX-Website können Sie nach bei “Jump to City Rankings” -> “Search the List” -> “Germany” oder der konkreten Stadt filtern.
| Stadt | Staustunden/Jahr | Verlorene Arbeitstage | Kosten/Jahr in € |
|---|---|---|---|
| München, Landeshauptstadt | 57 | 7,1 | 781 |
| Frankfurt am Main, Stadt | 55 | 6,9 | 754 |
| Hamburg, Freie und Hansestadt | 46 | 5,8 | 631 |
| Berlin, Stadt | 60 | 7,5 | 823 |
| Köln, Stadt | 67 | 8,4 | 919 |
| Düsseldorf, Stadt | 63 | 7,9 | 864 |
| Stuttgart, Landeshauptstadt | 60 | 7,5 | 823 |
| Region Hannover | 54 | 6,8 | 740 |
| Nürnberg, Stadt | 38 | 4,8 | 521 |
| Essen | 46 | 5,8 | 631 |
| Ulm | 30 | 3,8 | 411 |
Hinweis: Für Essen lagen keine eigenen Daten vor, daher wurden für Essen ersatzweise die Daten von Wuppertal verwendet.
Die Tabelle zeigt übersichtlich, wie viele Staustunden Autofahrer pro Jahr in den einzelnen Städten verlieren und wie sich das in verlorene Arbeitstage umrechnen lässt. Dadurch werden die Unterschiede zwischen den Städten sehr klar sichtbar. Vor allem die Umrechnung in Arbeitstage macht deutlich, dass Stau nicht nur nervig ist, sondern einen echten Zeitverlust im Alltag bedeutet.
Am schlimmsten ist die Stausituation in der Stadt, die in der Tabelle die höchsten Staustunden pro Jahr aufweist. Dort verbringen Autofahrer mit Abstand die meiste Zeit im Stau, was auf eine besonders hohe Verkehrsbelastung und wenig Entlastungsmöglichkeiten hindeutet. Im Vergleich zu den anderen Städten sticht sie deutlich heraus und zeigt, dass Pendeln dort mit dem Auto besonders ineffizient und zeitaufwendig ist.
Ein typischer Pendler in dieser Stadt verliert pro Jahr mehrere Arbeitstage allein durch Stau. Wenn man die jährlichen Staustunden durch acht teilt, kommt man auf eine Zahl, die ungefähr im Bereich von zwei bis drei Arbeitswochen liegt. Das ist extrem viel, wenn man bedenkt, dass diese Zeit komplett unproduktiv ist und einfach „verloren geht“. Für mich wirkt das fast so, als würde man jedes Jahr einen kleinen zusätzlichen Urlaub haben, nur eben unfreiwillig im Auto und im Stillstand.
- Für die weiteren Analysen stellen wir Ihnen fünf zusätzliche Datensätze bereit. Diese laden Sie jetzt, damit sie in allen folgenden Aufgaben direkt verfügbar sind.
Laden Sie die folgenden Datensätze aus dem Ordner daten
und speichern Sie diese unter den angegebenen Variablennamen:
| Datei | Variablenname | Verwendet in |
|---|---|---|
bahnhof_ags_mapping.csv |
bahnhof_mapping |
Aufgabe 9-10 |
fahrtzeit_osrm_vergleich.csv |
fahrtzeit |
Aufgabe 12 |
ulm_pendlerrouten.csv |
ulm_routen |
Aufgabe 13 |
ba_entgeltstatistik_2024.csv |
entgelt |
für staedte_basis |
co2_analyse.csv |
co2_analyse |
Aufgabe 19 (Bonus) |
Verschaffen Sie sich einen ersten Überblick über die Struktur der
Daten (z.B. mit glimpse(), dies sollte später in ihrem HTML
Dokument nicht sichtbar sein!).
Erstellen Sie außerdem einen Master-Datensatz
staedte_basis für die Top-11-Städte (Top 10 Pendlerstädte +
Ulm), der die Daten aus pendler, entgelt und
inrix kombiniert. Dieser Datensatz vereinfacht die späteren
Analysen (ab Aufgabe 14), da alle relevanten Kennzahlen bereits
zusammengeführt sind.
Der Master-Datensatz sollte folgende Spalten enthalten:
ags: Amtlicher Gemeindeschlüsselstadt: Stadtname (Kurzform, z.B. “München”)einpendler: Anzahl Einpendlermedian_monat_eur: Medianlohn pro Monatmedian_stunde_eur: Medianlohn pro Stunde (Monatslohn / 160)stau_stunden_jahr: Stauzeit pro Jahr (aus INRIX)
Hinweis 1: Die Datensätze verwenden unterschiedliche
Namensformate: pendler hat offizielle Namen (“München,
Landeshauptstadt”), während entgelt und inrix
Kurznamen (“München”) verwenden. Nutzen Sie den AGS als
zuverlässigen Schlüssel für die Verknüpfung mit pendler.
Tipp: entgelt enthält sowohl AGS als auch Kurznamen und
eignet sich daher gut als Ausgangspunkt.
Hinweis 2: Eine ausführliche Beschreibung der Datensätze finden Sie im Anhang A.
| Gemeindeschlüssel | Stadtname | Anzahl Einpendler | Medianlohn pro Monat | Medianlohn pro Stunde | Stauzeit pro Jahr |
|---|---|---|---|---|---|
| 09162 | München | 455.645 | 4.847 | 30,29 | 57 |
| 06412 | Frankfurt | 405.856 | 4.712 | 29,45 | 55 |
| 02000 | Hamburg | 392.951 | 4.527 | 28,29 | 46 |
| 11000 | Berlin | 392.324 | 4.156 | 25,98 | 60 |
| 05315 | Köln | 306.905 | 4.398 | 27,49 | 57 |
| 05111 | Düsseldorf | 284.696 | 4.523 | 28,27 | 63 |
| 08111 | Stuttgart | 274.442 | 4.689 | 29,31 | 60 |
| 09564 | Nürnberg | 165.496 | 4.234 | 26,46 | 38 |
| 05113 | Essen | 141.296 | 3.987 | 24,92 | NA |
| 03241 | Hannover | 137.924 | 4.156 | 25,98 | NA |
| 08421 | Ulm | 68.341 | 4.312 | 26,95 | 30 |
Die Pünktlichkeit der Deutschen Bahn
Nachdem Sie nun einen Überblick über die Daten haben, welche wir in diesem Projekt verwenden möchten, tauchen Sie tiefer in die Bahndaten ein. Die zentrale Frage ist: Wie zuverlässig ist die Deutsche Bahn wirklich?
Die Bahn unterscheidet verschiedene Zugtypen, vom ICE über den RE bis zur S-Bahn. Jeder Zugtyp hat unterschiedliche Eigenschaften: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Aber welcher Zugtyp ist am pünktlichsten?
- Welche Züge sind (un)pünktlich? Nicht alle Züge
sind gleich: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn
kurze Strecken mit vielen Halten. Um später sinnvolle Empfehlungen geben
zu können, müssen Sie verstehen, welche Zugtypen besonders
problematisch sind. Dafür klassifizieren Sie die Züge anhand
ihrer Namen. Nutzen Sie für diese Analyse den Datensatz
bahn.
Die Variable train_name enthält den Zugnamen (z.B. “ICE
123”, “S 5”, “RE 8”).
- Erstellen Sie eine neue Variable
zugtypmit folgenden Kategorien:
| Zugtyp | Regel | Beispiel |
|---|---|---|
| ICE | beginnt mit “ICE” | ICE 123 |
| IC/EC | beginnt mit “IC” oder “EC” | IC 2012, EC 6 |
| IRE/RE | beginnt mit “RE” oder “IRE” | RE 5, IRE 200 |
| RB | beginnt mit “RB” | RB 26 |
| S-Bahn | beginnt mit “S” (mit Leerzeichen!) | S 5 |
| Sonstige | alle anderen | U 6, STB 123 |
Erstellen Sie auf dieser Basis eine Tabelle, welche pro Zugtyp folgende Kennzahlen anschaulich darstellt:
- Anzahl der Fahrten
- Durchschnittliche Verspätung (in Minuten)
- Anteil pünktlicher Züge (≤6 Min Verspätung)
- Ausfallquote
Beschreiben und Interpretieren Sie die Tabelle.
Weiterhin sollten Sie ihre Ergebnisse verifizieren. Dafür können Sie auf die offizielle Pünktlichkeitswerte der Deutschen Bahn zurückgreifen (recherchieren Sie diese selbstständig).
Stimmen Ihre Ergebnisse mit den offiziellen Werten überein? Falls nicht: Welche methodischen Unterschiede könnten die Abweichung erklären?
Hinweis: Nutzen Sie str_detect() aus dem
stringr-Paket. Achten Sie auf die Reihenfolge der
Bedingungen!
| Zugtyp | Anzahl der Fahrten | Durchschnittliche Verspätung (Min.) | Anteil pünktlicher Züge (≤ 6 Min.) | Ausfallquote |
|---|---|---|---|---|
| S-Bahn | 6.414.045 | 2,9 | 87,4% | 5,5% |
| Sonstige | 2.938.815 | 3,5 | 84,7% | 2,6% |
| RB | 2.675.028 | 3,5 | 85,2% | 3,2% |
| IRE/RE | 1.673.555 | 6,1 | 74,1% | 3,6% |
| ICE | 171.516 | 12,5 | 56,7% | 4,2% |
| IC/EC | 70.602 | 11,0 | 60,2% | 7,2% |
In der Tabelle sieht man ziemlich klar, dass sich die Pünktlichkeit stark nach Zugtyp unterscheidet. Die meisten Fahrten entfallen auf den Regionalverkehr, also vor allem auf RB, RE und S-Bahn. Das macht auch Sinn, weil diese Züge sehr häufig fahren und viele kurze Strecken bedienen. Gleichzeitig sind genau diese Zugtypen aber auch anfälliger für kleine Verspätungen, weil sie viele Halte haben und stärker vom dichten Netz und von Störungen im laufenden Betrieb abhängig sind. Gerade bei der S-Bahn reicht oft schon eine kleine Verzögerung an einem Bahnhof, damit sich die Verspätung direkt auf die ganze weitere Strecke überträgt.
Bei ICE und IC/EC sieht man dagegen, dass sie im Schnitt zwar weniger Fahrten haben, aber häufig eine höhere durchschnittliche Verspätung. Das wirkt erstmal paradox, ist aber eigentlich logisch: Diese Züge fahren lange Strecken und sind auf ein sehr komplexes Zusammenspiel im gesamten Netz angewiesen. Wenn irgendwo etwas schiefgeht, kann sich das über hunderte Kilometer fortsetzen. Dafür ist der Anteil pünktlicher Züge oft trotzdem gar nicht so schlecht, weil viele Fahrten komplett ohne größere Probleme laufen, aber wenn es Verspätungen gibt, dann fallen sie stärker ins Gewicht.
Die Ausfallquote ist besonders interessant, weil sie zeigt, welche Zugtypen am anfälligsten für komplette Streichungen sind. Meistens sind es nicht die ICEs, sondern eher Regionalzüge, die kurzfristig ausfallen, zum Beispiel wegen Personalmangel oder Fahrzeugproblemen. Für Pendler ist das oft sogar schlimmer als eine Verspätung, weil dann direkt ganze Verbindungen fehlen und man deutlich länger warten muss.
Vergleicht man diese Ergebnisse mit den offiziellen Pünktlichkeitswerten der Deutschen Bahn, sieht man grundsätzlich ähnliche Muster: Der Fernverkehr (ICE, IC) gilt offiziell als weniger pünktlich als der Regionalverkehr, während die S-Bahn in vielen Regionen als besonders störanfällig bekannt ist. Kleine Abweichungen zwischen unseren Ergebnissen und den offiziellen Zahlen lassen sich aber gut erklären. Die Deutsche Bahn zählt zum Beispiel einen Zug schon als pünktlich, wenn er unter 6 Minuten Verspätung hat, was wir hier zwar auch berücksichtigen, aber unsere Daten basieren auf einzelnen Bahnhofshalten und nicht auf der Ankunft am Endbahnhof. Außerdem beziehen sich offizielle Statistiken oft nur auf ausgewählte Züge oder Strecken, während unser Datensatz extrem detailliert ist und jede einzelne Station betrachtet.
Insgesamt zeigt die Tabelle sehr gut, dass „die Bahn“ nicht einfach pauschal pünktlich oder unpünktlich ist, sondern dass es stark vom Zugtyp abhängt. Für den Alltag von Pendlern sind vor allem S-Bahn und Regionalzüge entscheidend, weil sie am häufigsten genutzt werden. Gerade dort wäre eine höhere Zuverlässigkeit besonders wichtig, weil schon kleine Störungen direkt sehr viele Menschen betreffen.
- In Aufgabe 5 haben Sie gesehen, dass Fernverkehrszüge (ICE, IC/EC)
deutlich höhere Verspätungen und Ausfallquoten haben als Nahverkehrszüge
(IRE, RE, RB, S-Bahn). Aber wie relevant ist das für den typischen
Pendler? Das hängt davon ab, wie viele Züge jeweils
unterwegs sind. Nutzen Sie für diese Analyse den Datensatz
bahn(mit der in Aufgabe 5 erstellten Variablezugtyp).
Klassifizieren Sie die Züge in zwei Kategorien:
- Fernverkehr: ICE, IC/EC
- Nahverkehr: IRE, RE, RB, S-Bahn
Erstellen Sie ein Liniendiagramm, das die durchschnittliche Anzahl der Fahrten pro Stunde im Tagesverlauf zeigt:
- X-Achse: Uhrzeit (0-23 Uhr)
- Y-Achse: Durchschnittliche Anzahl Fahrten pro Stunde
- Zwei Linien: eine für Fernverkehr, eine für Nahverkehr (unterschiedliche Farben)
Tipp: Extrahieren Sie die Stunde aus der Variable
time mit hour() aus dem
lubridate-Paket. Berechnen Sie dann die durchschnittliche
Anzahl Fahrten pro Stunde und Zugtyp.
Beschreiben und interpretieren Sie ihre Grafik. Beantworten Sie zusätzlich die folgenden Fragen:
- Zu welchen Uhrzeiten fahren die meisten Züge?
- Wie unterscheidet sich das Muster zwischen Fern- und Nahverkehr?
- Warum ist diese Information wichtig, wenn wir später die Verspätungen analysieren?
verteilt. Besonders auffällig ist, dass der Nahverkehr morgens und nachmittags sehr starke Ausschläge nach oben hat, während der Fernverkehr deutlich gleichmäßiger verläuft. In den frühen Morgenstunden steigt die Kurve des Nahverkehrs stark an (von ca. 1.500–2.000 Fahrten pro Stunde gegen 4 Uhr auf etwa 14.000 um 6 Uhr und weiter auf rund 20.000 Fahrten pro Stunde gegen 8 Uhr), fällt mittags wieder ab (auf ungefähr 18.000–18.500 Fahrten pro Stunde) und erreicht am späten Nachmittag ein zweites Hoch (von etwa 20.000–20.500 Fahrten pro Stunde gegen 17–18 Uhr). Der Fernverkehr zeigt dagegen nur leichte Schwankungen und bleibt insgesamt auf einem relativ konstanten Niveau über den ganzen Tag (meist zwischen ca. 200 und 600 Fahrten pro Stunde).
Die Grafik macht deutlich, dass der Nahverkehr klar auf den Berufsverkehr ausgerichtet ist. Genau zu den Zeiten, in denen die meisten Menschen zur Arbeit fahren oder nach Hause pendeln, sind auch die meisten Nahverkehrszüge unterwegs (morgens zwischen 7 und 9 Uhr etwa 18.000–20.000 Fahrten pro Stunde, im Fernverkehr zur gleichen Zeit nur ca. 400–600 Fahrten pro Stunde). Der Fernverkehr spielt dagegen für den täglichen Pendelverkehr eine deutlich kleinere Rolle und ist eher auf längere, zeitlich flexiblere Reisen ausgelegt. Damit wird klar, dass der Nahverkehr für den Alltag der meisten Pendler viel relevanter ist als der Fernverkehr.
Die meisten Züge fahren insgesamt am frühen Morgen zwischen etwa 6 und 9 Uhr sowie am Nachmittag zwischen ungefähr 15 und 18 Uhr (im Nahverkehr jeweils rund 18.000 bis über 20.000 Fahrten pro Stunde, im Fernverkehr etwa 500–600 Fahrten pro Stunde). Diese Zeiten entsprechen ziemlich genau den typischen Arbeits- und Pendelzeiten. Besonders im Nahverkehr sind diese Spitzen sehr ausgeprägt, während der Fernverkehr keine so starken Stoßzeiten zeigt.
Das Muster unterscheidet sich so, dass der Nahverkehr starke Schwankungen im Tagesverlauf hat und klar von den Pendelzeiten geprägt ist, während der Fernverkehr relativ konstant über den Tag verteilt fährt (meist zwischen etwa 300 und 600 Fahrten pro Stunde). Dadurch wird sichtbar, dass der Nahverkehr sehr stark auf den Alltag von Berufspendlern zugeschnitten ist.
Diese Information ist wichtig für die spätere Verspätungsanalyse, weil nicht nur die Höhe der Verspätungen entscheidend ist, sondern auch, wie viele Fahrten davon betroffen sind (in den Hauptverkehrszeiten sind es im Nahverkehr bis zu über 20.000 Fahrten pro Stunde). Verspätungen im Nahverkehr treffen genau die Zeiten mit den meisten Fahrgästen und haben dadurch eine besonders große Wirkung, selbst wenn sie im Schnitt kleiner sind als im Fernverkehr.
Nachdem Sie in Aufgabe 6 herausgefunden haben, dass es deutlich mehr Nahverkehrszüge als Fernverkehrszüge gibt, und diese für Pendler wichtiger sind, sollten Sie sich die Verspätungen der Nahverkehrszüge über den Tag anschauen, da diese vermutlich nicht gleichmäßig über den Tag verteilt sind. Pendler erleben die Bahn vor allem in der Hauptverkehrszeit, d.h. morgens zwischen 7 und 9 Uhr und abends zwischen 16 und 19 Uhr. Aber ist die Bahn zu diesen Zeiten besonders unpünktlich?
- Erstellen Sie zwei Heatmaps, die zeigen, wie sich
die Verspätungen nach Tageszeit (Stunde) und
Wochentag für die Nahverkehrszüge und die
Fernverkehrszüge verteilen. Nutzen Sie für diese Analyse den Datensatz
bahn.
- Extrahieren Sie aus der Variable
timedie Stunde und den Wochentag. - Filtern Sie auf die relevanten Tageszeiten (5-23 Uhr), da nachts kaum Zugverkehr stattfindet.
- Aggregieren Sie die durchschnittliche Verspätung pro Stunde und Wochentag für Nah- und Fernverkehrszüge separat.
- Erstellen Sie eine Heatmap mit
ggplot2undgeom_tile().
Tipp zur Farbskala: Da Fernverkehrszüge im Durchschnitt höhere Verspätungen haben als Nahverkehrszüge, können Sie unterschiedliche Farbskalen für die beiden Heatmaps verwenden (z.B. Blau-Töne für Nahverkehr, Rot-Töne für Fernverkehr). Dadurch werden die Muster innerhalb jeder Verkehrsart besser sichtbar.
Beschreiben und interpretieren Sie ihre Grafiken.
- Wann sind die Verspätungen am höchsten?
- Gibt es Unterschiede zwischen Werktagen und Wochenende?
- Gibt es Unterschiede zwischen Nah- und Fernverkehrszügen?
- Was bedeutet das für Pendler?
In den Heatmaps sieht man, wie sich die durchschnittliche Verspätung je nach Stunde und Wochentag verteilt. Dabei gilt: Je dunkler die Farbe, desto höher ist die durchschnittliche Verspätung in Minuten, je heller die Farbe, desto geringer ist sie (wie in der jeweiligen Legende rechts neben den Grafiken angegeben). Für den Nahverkehr sind die Farben morgens und am späten Nachmittag meist etwas dunkler, besonders an Werktagen. Das passt zu den Hauptverkehrszeiten zwischen 7 und 9 Uhr sowie zwischen 16 und 19 Uhr. Am Wochenende sind die Farben insgesamt heller, was auf geringere Verspätungen hindeutet. Beim Fernverkehr sind die Farben insgesamt kräftiger, was zeigt, dass die durchschnittlichen Verspätungen dort höher sind. Außerdem wirken die Muster unruhiger, weil Verspätungen hier weniger klar an bestimmte Tageszeiten gebunden sind.
Man erkennt, dass Verspätungen nicht zufällig auftreten, sondern stark mit der Auslastung des Systems zusammenhängen. Im Nahverkehr häufen sich die höheren Verspätungen genau dann, wenn besonders viele Menschen unterwegs sind. Das Netz ist zu diesen Zeiten am stärksten belastet, kleine Störungen wirken sich sofort aus. Beim Fernverkehr sind Verspätungen zwar insgesamt höher, aber zeitlich weniger stark an die Pendelzeiten gekoppelt. Das liegt daran, dass Fernzüge lange Strecken fahren und Verspätungen oft schon weit vor dem eigentlichen Ziel entstehen. Die höchsten Verspätungen treten im Nahverkehr vor allem morgens zwischen 7 und 9 Uhr und abends zwischen 16 und 19 Uhr auf, also genau in der Hauptverkehrszeit. Beim Fernverkehr gibt es ebenfalls höhere Werte am Tag, aber sie sind gleichmäßiger verteilt und nicht ganz so klar auf bestimmte Stunden konzentriert.
Zwischen Werktagen und Wochenende gibt es deutliche Unterschiede. Unter der Woche sind die Verspätungen vor allem im Nahverkehr höher, während sie am Wochenende deutlich niedriger ausfallen. Das zeigt, wie stark der Berufsverkehr das System belastet. Beim Fernverkehr sind die Unterschiede schwächer, weil dieser weniger vom klassischen Pendelrhythmus abhängt.
Zwischen Nah- und Fernverkehr gibt es den klaren Unterschied, dass der Fernverkehr im Durchschnitt höhere Verspätungen hat, der Nahverkehr aber stärker von Tageszeit und Wochentag beeinflusst wird. Nahverkehrsverspätungen sind also viel stärker ein „Stoßzeiten-Problem“, während Fernverkehrsverspätungen eher strukturell bedingt sind.
Für Pendler bedeutet das, dass sie die Unpünktlichkeit der Bahn vor allem genau dann erleben, wenn sie sie am meisten brauchen: morgens auf dem Weg zur Arbeit und abends auf dem Heimweg. Selbst wenn die durchschnittlichen Verspätungen im Nahverkehr niedriger sind als im Fernverkehr, sind sie für den Alltag viel relevanter, weil sie zu den wichtigsten Tageszeiten auftreten und sehr viele Menschen gleichzeitig betreffen.
Von der Zeit zum Ort: Wo entstehen die Verspätungen?
In Aufgabe 7 haben Sie analysiert, wann die Verspätungen auftreten, nämlich vor allem zu den Hauptverkehrszeiten. Aber die nächste wichtige Frage ist: Wo entstehen diese Verspätungen?
Aggregierte Statistiken wie Durchschnittswerte über ganz Deutschland verbergen oft große regionale Unterschiede. Vielleicht gibt es einzelne “Problembahnhöfe”, die den Durchschnitt nach oben ziehen? Oder sind die Verspätungen gleichmäßig über das Netz verteilt? Diese Frage ist wichtig, weil sie unterschiedliche Lösungsansätze impliziert: Bei wenigen Problembahnhöfen könnte die Bahn gezielt investieren, bei flächendeckenden Problemen bräuchten Sie systemische Lösungen.
- Identifizieren Sie die 10 unpünktlichsten Bahnhöfe
in Deutschland (mit mindestens 1.000 Halten im Monat). Nutzen Sie für
diese Analyse den Datensatz
bahn.
Erstellen Sie ein Balkendiagramm, das die durchschnittliche Verspätung dieser Bahnhöfe zeigt. Beschriften Sie die Balken mit den Verspätungswerten.
Beschreiben und interpretieren Sie ihre Grafik.
- Sehen Sie ein geografisches Muster?
- Handelt es sich um große Knotenbahnhöfe oder eher um kleinere Stationen?
Das Balkendiagramm zeigt die Top 10 der unpünktlichsten Bahnhöfe in Deutschland im November 2025, die mindestens 1000 Halte pro Monat verzeichnen. Die X-Achse zeigt die durchschnittliche Verspätung in Minuten und die Y-Achse den dazugehörigen Bahnhof. Der Bahnhof mit der höchsten durchschnittlichen Verspätung ist der Bahnhof Ennepetal (Gevelsberg) mit einer Verspätung von 14,7 Minuten. Die Werte der Top 10 unterscheiden sich nur geringfügig, da der Spitzenreiter und Platz 10 nur 2,4 Minuten trennen. Auffällig ist, dass alle Werte sehr hoch sind, wenn man sich vor Augen führt, dass es sich bei den Angaben um Durchschnittswerte handelt, bei denen jede (auch pünktliche) Fahrt in die Auswertung einfließt.
Auffällig ist außerdem die Lage der Bahnhöfe. Jeder Bahnhof befindet sich in Nordrhein-Westfalen oder im nördlichen Teil von Rheinland-Pfalz, lediglich Zeesen in Brandenburg fällt aus diesem Muster heraus. Viele der Bahnhöfe liegen auf der Strecke zwischen Köln, Bonn und Koblenz, die auch als „linke Rheinstrecke“ bezeichnet wird. Diese Strecke ist dafür bekannt, zu den am meisten überlasteten Strecken Deutschlands zu zählen.
Es handelt sich nicht um große Knotenbahnhöfe, sondern eher um kleinere Stationen. Das liegt vor allem daran, dass an diesen Bahnhöfen sehr viel Durchgangsverkehr herrscht. Dort fahren viele Regionalzüge, die warten müssen, wenn ein Fernzug dieselben Gleise verwendet. Außerdem kommt es an solchen Bahnhöfen vermehrt zu Infrastruktur-Engpässen, da ihnen deutlich weniger Gleise als großen Bahnhöfen zur Verfügung stehen.
Wo treffen viele Pendler auf eine unpünktliche Bahn?
Bisher haben Sie Pendler- und Bahndaten getrennt betrachtet. Aber die spannende Frage ist: Wo kommen beide Probleme zusammen? Eine Stadt mit vielen Pendlern und einer unpünktlichen Bahn hat ein größeres Problem als eine Stadt mit wenigen Pendlern und einer unpünktlichen Bahn.
Um diese Frage zu beantworten, müssen Sie die Datensätze verknüpfen. Das Problem: Die Bahndaten sind auf Bahnhofsebene, die Pendlerdaten auf Kreisebene. Sie benötigen ein Mapping, das Bahnhöfe den entsprechenden Kreisen zuordnet.
- In dieser Aufgabe verknüpfen Sie die Bahn- und Pendlerdaten, um
Städte mit Handlungsbedarf zu identifizieren. Nutzen Sie für ihre
Analysen die Datensätze:
bahn,pendlerundbahnhof_mapping.
Das Mapping ordnet Bahnhöfe ihrem Landkreis zu (via AGS = Amtlicher Gemeindeschlüssel). Ihr Ziel: Identifizieren Sie Städte, in denen viele Pendler auf eine unpünktliche Bahn treffen.
- Berechnen Sie für jeden Bahnhof die durchschnittliche Verspätung und die Anzahl der Halte.
- Aggregation auf Kreisebene: Berechnen Sie für jeden Kreis die gewichtete durchschnittliche Verspätung. Gewichten Sie nach der Anzahl der Halte (ein Bahnhof mit 10.000 Halten zählt mehr als einer mit 100).
- Verknüpfen Sie das Ergebnis mit den Pendlerdaten mittels
left_join()über die Variableags. - Problem-Score berechnen: Kombinieren Sie beide Dimensionen mit z-Standardisierung:
\[\text{Problem-Score} = z(\text{Einpendler}) + z(\text{Verspätung})\]
Die z-Standardisierung macht die Werte vergleichbar: \(z(x) = \frac{x - \bar{x}}{s_x}\), wobei \(\bar{x}\) der Mittelwert und \(s_x\) die Standardabweichung ist.
Interpretation: Ein hoher Problem-Score = Viele Pendler + hohe Verspätung = Handlungsbedarf.
Anschließend sollten Sie eine Tabelle der Top 10 Städte nach Problem-Score darstellen und diese kurz beschreiben.
| AGS | Kreis/Stadt | Einpendler | Gew. Ø Verspätung (Min.) | Problem-Score |
|---|---|---|---|---|
| 09162 | München, Landeshauptstadt | 455.645 | 5,98 | 3,45 |
| 05315 | Köln, Stadt | 306.905 | 7,89 | 3,05 |
| 05111 | Düsseldorf, Stadt | 284.696 | 7,33 | 2,55 |
| 06412 | Frankfurt am Main, Stadt | 405.856 | 5,14 | 2,54 |
| 11000 | Berlin, Stadt | 392.324 | 4,70 | 2,18 |
| 02000 | Hamburg, Freie und Hansestadt | 392.951 | 4,44 | 2,05 |
| 05112 | Duisburg, Stadt | 86.735 | 8,81 | 1,46 |
| 05915 | Hamm, Stadt | 22.447 | 9,93 | 1,45 |
| 08111 | Stuttgart, Landeshauptstadt | 274.442 | 5,30 | 1,38 |
| 05314 | Bonn, Stadt | 112.607 | 8,00 | 1,28 |
In der Tabelle werden die 10 deutschen Kreise/Städte mit dem höchsten Problem-Score im Hinblick auf das Pendleraufkommen und die Pünktlichkeit im Schienenverkehr dargestellt. Der Problem-Score setzt sich hierbei aus der Anzahl der Pendler und der durchschnittlichen Verspätung zusammen. An der Spitze des Rankings steht die bayerische Landeshauptstadt München mit einem Problem-Score von 3,45. Auffällig ist hier, dass, obwohl die durchschnittliche Verspätung nur im Mittelfeld der Liste liegt, die extrem hohe Zahl an Pendlern zu der höchsten Gesamtbelastung führt. Auf dem 2. Platz liegt Köln mit einer deutlich höheren durchschnittlichen Verspätung, aber mit deutlich geringerem Pendleraufkommen. Es lässt sich also beobachten, dass eine hohe Verspätung nicht automatisch zu einem hohen Problem-Score führt.
- Erstellen Sie ein Streudiagramm (Scatterplot), das die Beziehung zwischen Einpendlerzahl (x-Achse) und durchschnittlicher Verspätung (y-Achse) visualisiert.
- Zeichnen Sie horizontale und vertikale Linien beim jeweiligen Mittelwert ein, um 4 Quadranten zu bilden
- Färben Sie die Punkte nach Quadrant
- Beschriften Sie die Städte mit den höchsten Problem-Scores
- Nutzen Sie eine logarithmische Skala für die x-Achse
Beschreiben und iInterpretieren Sie die vier Quadranten:
- Oben rechts: Viele Pendler + hohe Verspätung = ?
- Oben links: Wenige Pendler + hohe Verspätung = ?
- Unten rechts: Viele Pendler + niedrige Verspätung = ?
- Unten links: Wenige Pendler + niedrige Verspätung = ?
Beantworten Sie dabei auch folgende Fragen:
- Warum ist es sinnvoll die x-Achse zu logarithmieren?
- Welche Städte liegen im kritischen Quadranten?
- Was würden Sie der Deutschen Bahn empfehlen?
Die Grafik untersucht das Verhältnis zwischen den Einpendlern und der gewichteten Verspätung in deutschen Städten, wobei die vier Quadranten unterschiedliche operative Zustände beschreiben. Der kritische Quadrant Q1 (oben rechts: viele Pendler + hohe Verspätung) markiert das größte Problemfeld. Hier treffen hohe Pendlerzahlen auf eine überdurchschnittliche Verspätung, was bedeutet, dass eine maximale Anzahl an Fahrgästen von einer schlechten Systemleistung betroffen ist. Die am stärksten betroffenen Städte sind Köln und Düsseldorf. Im Gegensatz dazu steht der Quadrant Q4 (unten rechts: viele Pendler + niedrige Verspätung) mit der höchsten Effizienz, in dem Großstädte wie Berlin, Hamburg und Frankfurt am Main liegen, wo es trotz hoher Pendlerzahlen nur zu geringen Verspätungen kommt. Der Quadrant Q2 (oben links: wenige Pendler + hohe Verspätung) offenbart lokale Ineffizienzen, da Städte wie Hamm oder Duisburg trotz geringerer Pendlerströme mit massiven Verspätungen kämpfen, was auf spezifische Infrastrukturengpässe hindeutet. Der Quadrant Q3 (unten links: wenige Pendler + niedrige Verspätung) zeigt die Städte mit wenigen Pendlern und einer geringen Verspätung.
Die Entscheidung, die X-Achse zu logarithmieren, ist dabei von zentraler Bedeutung, da die Pendlerzahlen zwischen kleineren Städten und Metropolen stark variieren. Ohne diese Skalierung würden die Datenpunkte der kleineren Städte am linken Rand so stark zusammengedrängt, dass keine differenzierte Analyse möglich wäre. Die Logarithmierung macht somit die relativen Unterschiede über verschiedene Größenordnungen hinweg erst sichtbar.
Die oberste Priorität der Deutschen Bahn muss auf der Entlastung der kritischen Knotenpunkte im Raum Nordrhein-Westfalen (Köln/Düsseldorf) liegen, da hier Investitionen in die Pünktlichkeit den größten Effekt auf die Kundenzufriedenheit hätten. Gleichzeitig sollte die Bahn eine Ursachenanalyse für Ausreißer wie Hamm durchführen, um zu verhindern, dass sich lokale Störungen auf das restliche Netz verbreiten. Schließlich gilt es, die operativen Erfolgsmodelle aus den pünktlicheren Metropolen wie Berlin oder Hamburg zu identifizieren und, sofern möglich, auf die überlasteten Regionen zu übertragen.
Der Vergleich – Auto vs. Bahn
Sie haben nun identifiziert, wo die Bahn Probleme hat: Städte im kritischen Quadranten (viele Pendler + hohe Verspätungen) brauchen dringend Verbesserungen. Aber bevor Sie Empfehlungen aussprechen können, müssen Sie eine zentrale Frage beantworten:
Lohnt sich die Bahn überhaupt – oder ist das Auto trotz Stau schneller?
Denn selbst wenn die Bahn unpünktlich ist, könnte sie immer noch schneller sein als das Auto im Berufsverkehr. Umgekehrt: Eine pünktliche Bahn bringt wenig, wenn das Auto trotzdem schneller ist. Erst der direkte Vergleich zeigt uns, wo die Bahn wirklich konkurrenzfähig ist – und wo nicht.
Methodische Herausforderungen
Für einen fairen Vergleich sollten Sie “Äpfel mit Äpfeln” vergleichen:
- Beim Auto muss der Stau berücksichtigt werden (nicht nur die theoretische Fahrzeit)
- Bei der Bahn muss die Verspätung berücksichtigt werden (nicht nur der Fahrplan)
- Beide Routen müssen dieselben Start- und Endpunkte haben
Für die Auto-Fahrtzeiten nutzen Sie OSRM (Open Source Routing Machine), das auf OpenStreetMap-Daten basiert. OSRM berechnet echte Straßenrouten, keine Luftlinien.
- Erklären Sie in eigenen Worten:
- Warum ist OSRM-Routing für diesen Vergleich besser geeignet als eine
einfache Berechnung nach der Formel
Distanz / Geschwindigkeit? - Welche Faktoren müssen zusätzlich berücksichtigt werden, um einen
realistischen Vergleich zu ermöglichen? Denken Sie an:
- Tageszeit
- Parkplatzsuche
- Fußweg zum Ziel
- Wartezeit und Umsteigen bei der Bahn
Ein einfacher Vergleich auf Basis von Distanz/Geschwindigkeit (Luftlinien-Modell) vernachlässigt die Realität der Verkehrsinfrastruktur. Das OSRM-Routing berücksichtigt Faktoren wie das schnellere Vorankommen auf Autobahnen, Zeitverluste an Kreuzungen, Staus, Unfälle, rote Ampeln, Verspätungen, Umstiege oder Zugausfälle, welche bei einer einfachen Formel nicht berücksichtigt werden können.
Tageszeiten haben einen großen Einfluss auf die Dauer der Fahrt, da im Berufsverkehr deutlich mehr Zeit aufgrund von Staus und überfüllten Straßen benötigt wird. Außerdem spielen die Wochentage eine wichtige Rolle, da sich der Verkehr an Werktagen stark von dem am Wochenende unterscheidet. Auch bei der Bahn haben die Tageszeiten einen hohen Einfluss. Zu den Hauptverkehrszeiten fahren zwar öfter Bahnen als spät abends, allerdings kommt es hierdurch auch vermehrt zu Verspätungen, da Aus- und Einstiege deutlich mehr Zeit in Anspruch nehmen.
Für das Auto muss man außerdem die Parkplatzsuche berücksichtigen, da man meist nicht direkt am Ziel parken kann, sondern einen kurzen Fußmarsch entfernt.
Für die Bahn gilt zu beachten, dass der Bahnhof meistens nicht direkt am Ziel liegt und man meist einen Umstieg einplanen muss. Zudem ist das Zeitintensivste oft der Weg zum Bahnhof, vor allem in ländlichen Regionen, in denen sich meist kein Bahnhof im eigenen Dorf befindet, sondern man erst in eine Kleinstadt oder ein anderes Dorf gelangen muss.
- Für die Top 10 Einpendler-Städte wurden typische Pendlerstrecken
definiert (z.B. Dachau \(\rightarrow\)
München, Neuss \(\rightarrow\)
Düsseldorf). Die OSRM-Ergebnisse liegen bereits vor. Nutzen Sie für ihre
Analyse den Datensatz
fahrtzeit.
Erstellen Sie:
- Eine Tabelle mit: Stadt, Strecke, Distanz (km), Auto-Fahrzeit (Hauptverkehrszeit), Bahn-Fahrzeit (real), Differenz
- Berechnen Sie die jährliche Zeitersparnis bei 220 Arbeitstagen und 2x täglichem Pendeln.
Interpretieren Sie ihre Tabelle:
- In wie vielen Fällen ist die Bahn schneller als das Auto?
- Wie viele Stunden pro Jahr kann ein Pendler maximal sparen?
- Gibt es Strecken, bei denen das Auto schneller ist? Woran könnte das liegen?
| Stadt | Strecke | Distanz (km) | Auto-Fahrzeit (HVZ, Min.) | Bahn-Fahrzeit (real, Min.) | Differenz (Auto − Bahn, Min.) | Jährliche Zeitersparnis (h) |
|---|---|---|---|---|---|---|
| München | Dachau → München | 19,1 | 40,2 | 26,1 | 14,1 | 103,5 |
| Frankfurt | Darmstadt → Frankfurt | 36,0 | 35,8 | 23,0 | 12,8 | 93,9 |
| Hamburg | Harburg → Hamburg | 14,2 | 24,0 | 16,3 | 7,7 | 56,7 |
| Berlin | Potsdam → Berlin | 34,2 | 49,3 | 29,6 | 19,7 | 144,6 |
| Köln | Leverkusen → Köln | 18,3 | 28,7 | 22,8 | 5,9 | 43,3 |
| Düsseldorf | Neuss → Düsseldorf | 12,1 | 27,1 | 17,1 | 10,0 | 73,3 |
| Stuttgart | Esslingen → Stuttgart | 14,0 | 27,2 | 20,2 | 7,0 | 51,6 |
| Nürnberg | Fürth → Nürnberg | 10,4 | 18,9 | 12,9 | 6,0 | 44,4 |
| Essen | Mülheim → Essen | 11,0 | 18,0 | 15,3 | 2,7 | 20,1 |
| Hannover | Celle → Hannover | 42,2 | 54,4 | 40,8 | 13,6 | 99,8 |
| Ulm | Neu-Ulm → Ulm | 3,7 | 8,1 | 8,9 | -0,8 | -5,8 |
In 10 von 11 der betrachteten Fälle ist die Bahn die schnellere Option. Meistens sogar mit einem deutlichen Abstand, da die Bahn vom Berufsverkehr sowie von den daraus resultierenden Staus und Unfällen nicht betroffen ist. Eine Ausnahme stellt die Strecke Neu-Ulm → Ulm dar, bei der das Auto geringfügig schneller ist als die Bahn.
Die maximale Ersparnis wird auf der Strecke Potsdam → Berlin erzielt. Pro Fahrt spart man sich 19,7 Minuten. Pro Tag ergibt sich eine ersparte Zeit von 39,4 Minuten (Hin- und Rückfahrt). Wenn man von 220 Arbeitstagen pro Jahr ausgeht, würde man sich folglich etwa 144,47 Stunden pro Jahr sparen.
Laut der Tabelle gibt es damit nur eine Strecke, auf der das Auto minimal schneller ist als die Bahn, nämlich die Verbindung Neu-Ulm → Ulm. In allen anderen Fällen ist die Bahn die zeitsparendere Alternative. Das liegt vor allem daran, dass das Auto während der Hauptverkehrszeit viel Zeit durch Staus verliert. Außerdem wird hier nur berücksichtigt, wann die Stadt erreicht wird, und nicht die Ankunft am finalen Ziel. Der Weg zur Bahn und von der Bahn zum eigentlichen Ziel fällt also heraus, wobei das Auto im Normalfall einen klaren Vorteil hat. Zwar verliert das Auto Zeit bei der Parkplatzsuche, allerdings in der Regel nicht so viel, wie die Bahn durch das Erreichen des endgültigen Ziels verlieren kann.
- Da Sie alle in Ulm studieren und eventuell aus dem Ulmer Umland
einpendeln, sollten Sie die 5 wichtigsten Pendlerrouten nach
Ulm näher analysieren. Stellen Sie in einem
Dumbbell-Chart (oder Lollipop-Chart) die Unterschiede
zwischen Auto- und Bahnzeiten visuell dar. Nutzen Sie für ihre Analyse
den Datensatz
ulm_routen.
Die 5 wichtigsten Pendlerrouten nach Ulm sind:
- Neu-Ulm \(\rightarrow\) Ulm
- Blaustein \(\rightarrow\) Ulm
- Ehingen \(\rightarrow\) Ulm
- Laupheim \(\rightarrow\) Ulm
- Langenau \(\rightarrow\) Ulm
Markieren Sie, welche Orte keinen Bahnhof haben.
Beschreiben und interpretieren Sie ihre Grafik. Welche Besonderheiten zeigen die ländlichen Strecken?
Hinweis: Nutzen Sie geom_segment() und
geom_point() für ihr Dumbbell-Chart
oder Lollipop-Chart.
Hinweis: HVZ = Hauptverkehrszeiten
Die Grafik zeigt die fünf wichtigsten Pendlerrouten nach Ulm und vergleicht jeweils die Fahrzeit mit dem Auto und mit der Bahn. Durch die Punkte und die grauen Verbindungslinien sieht man direkt, wie groß der Unterschied zwischen den beiden Verkehrsmitteln ist. Blau steht für das Auto, rot für die Bahn. Blaustein ist mit einem Stern markiert, weil es dort keinen eigenen Bahnhof gibt. Insgesamt ist die Darstellung ziemlich übersichtlich und macht sofort klar, bei welchen Strecken die Zeitunterschiede besonders groß sind.
Wenn man die Grafik genauer anschaut, merkt man schnell, dass das Auto auf allen Strecken schneller ist als die Bahn. Teilweise ist der Unterschied sogar richtig deutlich, vor allem bei Ehingen und Laupheim. Bei kürzeren Strecken wie Neu-Ulm oder Langenau ist der Abstand zwar kleiner, aber trotzdem ist das Auto immer noch im Vorteil. Das zeigt ziemlich klar, dass die Bahn für viele Pendler im Ulmer Umland aktuell nicht wirklich konkurrenzfähig ist, wenn man nur auf die reine Fahrzeit schaut. Gerade für Studierende oder Berufspendler, die morgens pünktlich ankommen müssen, spielt das eine große Rolle.
Besonders bei den ländlichen Strecken sieht man, wo die Probleme liegen. Dort gibt es oft keine direkten Verbindungen, mehr Umstiege und längere Wartezeiten, was die Bahn einfach viel langsamer macht. Außerdem liegen die Bahnhöfe häufig nicht direkt im Ort, sodass man erstmal überhaupt dorthin kommen muss. Blaustein ist dafür ein gutes Beispiel, weil es keinen eigenen Bahnhof hat und die Bahn dadurch nochmal unattraktiver wird. Man merkt hier richtig, dass auf dem Land nicht nur die Pünktlichkeit wichtig ist, sondern vor allem, wie gut und direkt die Orte überhaupt an das Bahnnetz angebunden sind.
Die volkswirtschaftlichen Kosten
Verspätungen kosten nicht nur Nerven, sie haben einen realen volkswirtschaftlichen Preis. Jede Minute, die ein Pendler im verspäteten Zug wartet, ist verlorene Arbeitszeit.
Um diese Kosten etwas besser zu quantifizieren sollten Sie sich den Medianlohn der jeweiligen Städte herunterladen und näher analysieren.
- Berechnen Sie die volkswirtschaftlichen Kosten der Bahnverspätungen für die 11 Städte.
Datensätze:
staedte_basis(aus Aufgabe 4) – enthält Einpendler, Medianlohn und Staudaten- Ergebnis aus Aufgabe 9: die gewichtete durchschnittliche Verspätung pro Stadt (in Minuten)
Nutzen Sie die folgenden Annahmen:
Annahmen:
- 220 Arbeitstage pro Jahr
- 2 Fahrten pro Tag (Hin + Zurück)
- Ca. 8,4% der Pendler nutzen die Bahn (nationaler Durchschnitt laut MiD 2023 Kurzbericht)
Berechnen Sie für jede Stadt:
- Anzahl der Bahnpendler (Einpendler × 8,4%)
- Verspätungsstunden pro Jahr (Verspätung × 220 × 2 / 60)
- Kosten pro Pendler (Verspätungsstunden × Stundenlohn)
- Gesamtkosten der Stadt
Erstellen Sie auf Basis ihrer Berechnung eine Tabelle, welche die Anzahl der Bahnpendler, die Verspätungsstunden pro Jahr, die Kosten pro Pendler und die Gesamtkosten der Stadt anschaulich darstellt.
Beschreiben und interpretieren Sie ihre Tabelle. Gehen Sie dabei auch auf die Gesamtkosten der 11 Städte ein. Erklären Sie außerdem, warum der Medianlohn für diese Berechnung besser geeignet ist als der Durchschnittslohn.
Hinweis: Für die Umrechnung auf Stundenlohn: Monatsentgelt / 160 (bei 40h/Woche).
| AGS | Kreis/Stadt | Bahnpendler (8,4%) | Verspätungsstunden/Jahr | Kosten pro Pendler (€) | Gesamtkosten (Mio. €) |
|---|---|---|---|---|---|
| 09162 | München | 38.274 | 43,9 | 1.329 | 50,86 |
| 05315 | Köln | 25.780 | 57,9 | 1.591 | 41,01 |
| 06412 | Frankfurt | 34.092 | 37,7 | 1.111 | 37,88 |
| 05111 | Düsseldorf | 23.914 | 53,8 | 1.520 | 36,35 |
| 02000 | Hamburg | 33.008 | 32,6 | 922 | 30,44 |
| 11000 | Berlin | 32.955 | 34,5 | 895 | 29,51 |
| 08111 | Stuttgart | 23.053 | 38,9 | 1.139 | 26,25 |
| 05113 | Essen | 11.869 | 54,6 | 1.361 | 16,15 |
| 09564 | Nürnberg | 13.902 | 37,1 | 981 | 13,63 |
| 03241 | Hannover | 11.586 | 43,8 | 1.138 | 13,18 |
| 08421 | Ulm | 5.741 | 29,5 | 795 | 4,57 |
Die Tabelle zeigt für die 11 Städte, wie viele Menschen mit der Bahn pendeln, wie viele Stunden sie pro Jahr durch Verspätungen verlieren und welche Kosten daraus entstehen, einmal pro Pendler und einmal insgesamt für die jeweilige Stadt berechnet. Man sieht dadurch sehr gut, wie sich Verspätungszeit, Lohnniveau und Pendlerzahl zu konkreten Geldbeträgen zusammensetzen. Die Tabelle verbindet individuelle Zeitverluste direkt mit volkswirtschaftlichen Kosten.
Inhaltlich wird deutlich, dass vor allem große Städte wie München, Köln oder Frankfurt extrem hohe Gesamtkosten verursachen. München steht klar an der Spitze, obwohl die Verspätung pro Pendler nicht einmal die höchste ist. Das liegt vor allem an der sehr hohen Anzahl an Bahnpendlern, wodurch sich die Kosten massiv multiplizieren. Insgesamt summieren sich die Gesamtkosten der 11 Städte auf einen sehr hohen Betrag im Millionenbereich pro Jahr, was zeigt, dass Bahnverspätungen nicht nur ein persönliches Ärgernis sind, sondern ein echtes volkswirtschaftliches Problem. Auch Städte mit etwas geringeren Verspätungen können hohe Gesamtkosten haben, wenn viele Menschen pendeln. Umgekehrt sieht man bei kleineren Städten wie Ulm oder Nürnberg, dass die Gesamtkosten deutlich niedriger sind, obwohl Verspätungen trotzdem spürbar sind. Das zeigt, wie stark die Pendlerzahl die wirtschaftlichen Auswirkungen beeinflusst.
Der Medianlohn ist für diese Berechnung besser geeignet als der Durchschnittslohn, weil er realistischer widerspiegelt, was ein „typischer“ Pendler verdient. Der Durchschnitt kann stark durch sehr hohe Einkommen nach oben verzerrt werden, zum Beispiel durch Manager oder Spitzenverdiener. Dadurch würden die Kosten künstlich höher erscheinen, als sie für die Mehrheit der Bevölkerung tatsächlich sind. Der Medianlohn teilt die Einkommen genau in zwei Hälften und ist deshalb stabiler und fairer. Gerade für eine volkswirtschaftliche Betrachtung, die möglichst nah an der Lebensrealität der meisten Pendler sein soll, ist der Median deshalb die deutlich sinnvollere Wahl.
- Setzen Sie die Kosten der Bahn (aus Aufgabe 14) den Kosten des Autos
gegenüber. Vergleichen Sie diese in einer Szenario-Analyse mittels eines
gestapelten Balkendiagramms. Nutzen Sie für ihre Analysen den Datensatz
staedte_basis.
Berechnen Sie zuerst die Kosten des Autostaus pro Stadt:
- Anzahl der Autopendler (Einpendler × 91,6%)
- Staukosten pro Autopendler (Staustunden × Stundenlohn)
- Gesamtkosten der Stadt durch Autostau
Führen Sie anschließend einen Szenario-Vergleich durch: Was passiert, wenn der Bahnanteil von 8,4% auf 20% steigt?
- Berechnen Sie die Gesamtkosten (Bahn + Auto) für beide Szenarien
- Annahme: Weniger Autos = weniger Stau (z.B. 20% weniger Stauzeit pro Autopendler)
Erstellen Sie ein gestapeltes Balkendiagramm nach Szenario. Beschreiben und intepretieren Sie ihre Grafik. Gehen Sie insbesondere auf die folgenden Fragen ein:
- Wie verteilen sich die Kosten zwischen Bahn und Auto im Status quo?
- Welches Verkehrsmittel verursacht den größeren volkswirtschaftlichen Schaden?
- Was ist die Nettoersparnis bei 20% Bahnanteil?
Die Grafik zeigt die gesamten volkswirtschaftlichen Kosten des Pendelns, getrennt nach Auto und Bahn sowie nach zwei Szenarien: dem Status quo mit 8,4 % Bahnanteil und einem Szenario mit 20 % Bahnanteil. Für jede Stadt werden die Kosten in Millionen Euro dargestellt, wobei sich die Balken aus den Staukosten der Autopendler und den Verspätungskosten der Bahnpendler zusammensetzen. Im Status quo sind die Autokosten fast überall deutlich höher als die Bahnkosten. Im Szenario mit höherem Bahnanteil sinken die Autokosten sichtbar, während die Bahnkosten ansteigen, weil mehr Menschen die Bahn nutzen. Insgesamt liegen die Gesamtkosten im Szenario aber niedriger, was zeigt, dass eine Verlagerung auf die Bahn volkswirtschaftlich entlastend wirkt.
Im Status quo verteilen sich die Kosten sehr einseitig zugunsten des Autoverkehrs. Der größte Teil der Gesamtkosten entsteht durch Staus, da der überwiegende Anteil der Pendler mit dem Auto unterwegs ist. Die Bahn spielt mit nur 8,4 % Anteil eine untergeordnete Rolle, weshalb auch die durch Verspätungen verursachten Kosten vergleichsweise gering bleiben. Selbst wenn Bahnverspätungen Zeitverluste verursachen, fallen diese im Vergleich zu den massiven Staukosten im Straßenverkehr kaum ins Gewicht. Die Kostenstruktur ist damit klar autozentriert.
Das Auto verursacht den deutlich größeren volkswirtschaftlichen Schaden. In beiden Szenarien liegen die Kosten des Autoverkehrs weit über denen der Bahn. Besonders im Status quo wird das sehr deutlich, da die Staukosten den größten Teil der Gesamtkosten ausmachen. Staus betreffen viele Pendler gleichzeitig und summieren sich über das Jahr zu hohen Produktivitätsverlusten. Die Bahn verursacht zwar ebenfalls Kosten durch Verspätungen, diese bleiben aber selbst bei höherem Bahnanteil deutlich unter den Autokosten. Damit ist der Straßenverkehr der Hauptverursacher volkswirtschaftlicher Ineffizienz.
Die Nettoersparnis beim Übergang zu einem Bahnanteil von 20 % ergibt sich daraus, dass die eingesparten Autokosten größer sind als die zusätzlichen Bahnkosten. Durch weniger Autopendler und eine angenommene Staureduktion von 20 % sinken die Staukosten stark. Gleichzeitig steigen die Kosten der Bahn, weil mehr Menschen von möglichen Verspätungen betroffen sind. Dieser Anstieg fällt jedoch deutlich geringer aus als der Rückgang der Autokosten. Insgesamt werden die Gesamtkosten niedriger, sodass das Szenario eine positive Nettoersparnis zeigt und ökonomisch sinnvoll ist.
Politikempfehlung – Ihre Synthese
Sie haben nun umfangreiche Analysen durchgeführt und viele Erkenntnisse über die Bahn gewonnen. Jetzt ist es Zeit, diese zu einer kohärenten Empfehlung zusammenzufügen.
Szenario: Sie sind Berater:in des Bundesministeriums für Digitales und Verkehr. Die Ministerin bittet Sie um eine evidenzbasierte Politikempfehlung zur Verbesserung des Pendlerverkehrs in Deutschland.
- Formulieren Sie eine Politikempfehlung für das Bundesministerium für Digitales und Verkehr.
Schreiben Sie eine Executive Summary (max. 5 Sätze). Fassen Sie hierbei die wichtigsten Erkenntnisse aus ihrem Projekt zusammen. Was ist die zentrale Botschaft?
Formulieren Sie 3 konkrete Empfehlungen. Jede muss enthalten:
- Ein konkretes Ziel (Was soll erreicht werden?)
- Eine messbare Maßnahme (Wie wird es umgesetzt?)
- Eine Begründung mit Zahlen aus Ihrer Analyse
- Nennen Sie zwei Limitationen Ihrer Datengrundlage
- Was würden Sie mit zusätzlichen Daten noch untersuchen?
Die Politikempfehlung für das Bundesministerium für Digitales und Verkehr lautet, den Bahnanteil im Pendlerverkehr gezielt zu erhöhen, da dies sowohl volkswirtschaftlich als auch gesellschaftlich effizienter ist als der aktuelle Status quo. Die Analysen zeigen klar, dass der Autoverkehr durch Staukosten den größten Teil der Pendelkosten verursacht und damit den größten wirtschaftlichen Schaden anrichtet. Eine Verlagerung hin zur Bahn senkt die Gesamtkosten, selbst wenn man steigende Verspätungskosten im Bahnverkehr berücksichtigt. Verkehrspolitik sollte daher nicht primär auf den Ausbau des Straßennetzes setzen, sondern auf eine Stärkung der Schiene als zentrales Pendelverkehrsmittel. Ziel muss es sein, den Modal Split langfristig zugunsten der Bahn zu verschieben und damit Staus, Zeitverluste und volkswirtschaftliche Kosten zu reduzieren.
Die Ergebnisse zeigen, dass der Autoverkehr im Pendlerverkehr die höchsten volkswirtschaftlichen Kosten verursacht, vor allem durch Staus und Zeitverluste. Eine Erhöhung des Bahnanteils von 8,4 % auf 20 % führt trotz steigender Bahnkosten insgesamt zu einer Nettoersparnis. Der Rückgang der Autokosten überwiegt deutlich den Anstieg der Bahnkosten. Damit ist eine stärkere Nutzung der Bahn nicht nur ökologisch sinnvoll, sondern auch ökonomisch effizient. Die zentrale Botschaft lautet: Mehr Bahnverkehr bedeutet weniger Stau und geringere gesamtwirtschaftliche Kosten.
Die erste Empfehlung ist, den Bahnanteil im Pendlerverkehr mittelfristig auf mindestens 20 % zu erhöhen. Das Ziel ist, den Autoverkehr spürbar zu reduzieren und damit die hohen Staukosten zu senken. Die Maßnahme besteht darin, den Ausbau von Regional- und S-Bahn-Angeboten zu fördern und durch günstigere Pendlerabos gezielt Anreize für den Umstieg zu schaffen. In der Analyse zeigt sich, dass bei 20 % Bahnanteil die Autokosten deutlich sinken, während die zusätzlichen Bahnkosten vergleichsweise gering ausfallen, sodass insgesamt eine Nettoersparnis entsteht. Eine Limitation der Daten ist, dass Verspätungen im Bahnverkehr nur über Durchschnittswerte abgebildet werden und regionale Extremfälle nicht sichtbar sind. Außerdem wird das tatsächliche Verhalten der Pendler nur vereinfacht modelliert und nicht durch reale Befragungsdaten gestützt. Mit zusätzlichen Daten wäre es sinnvoll, Umstiegsbereitschaften der Pendler sowie regionale Unterschiede im Bahnangebot genauer zu untersuchen.
Die zweite Empfehlung ist, die Zuverlässigkeit der Bahn zu verbessern, um die zusätzlichen Kosten durch Verspätungen möglichst gering zu halten. Ziel ist es, dass steigende Bahnanteile nicht zu überproportional wachsenden Verspätungskosten führen. Als Maßnahme sollten Investitionen in die Infrastruktur und in die Wartung des Netzes messbar erhöht werden, etwa durch Zielwerte zur Reduktion der durchschnittlichen Verspätungsminuten pro Fahrt. In der Analyse hängen die Bahnkosten direkt von den durchschnittlichen Verspätungszeiten ab, sodass schon kleine Verbesserungen große Einsparungen bewirken können. Eine Limitation ist hier, dass nur Zeitkosten betrachtet werden und keine qualitativen Faktoren wie Komfort oder Zuverlässigkeit im subjektiven Empfinden der Fahrgäste. Zudem fehlen Informationen über Kapazitätsgrenzen des Schienennetzes. Mit zusätzlichen Daten könnte man untersuchen, wie stark Investitionen in die Infrastruktur tatsächlich die Verspätungen reduzieren und wie sich das auf das Pendlerverhalten auswirkt.
Die dritte Empfehlung ist, den Autoverkehr in stark belasteten Regionen gezielt zu reduzieren, um Staus direkt zu verringern. Das Ziel ist eine kurzfristige Entlastung der Straßen und damit eine Senkung der sehr hohen Staukosten. Eine konkrete Maßnahme wäre die Einführung oder Ausweitung von Park-and-Ride-Systemen in Kombination mit attraktiven Bahnverbindungen sowie eventuell stauabhängige Abgaben im Berufsverkehr. Die Analyse zeigt, dass die Staukosten pro Autopendler ein zentraler Kostentreiber sind und bereits eine moderate Reduktion des Autoverkehrs große Einsparungen ermöglicht. Limitationen sind hier, dass keine regional differenzierten Staudaten genutzt wurden und dass externe Effekte wie Umweltkosten nicht berücksichtigt sind. Mit zusätzlichen Daten könnte man genauer berechnen, in welchen Regionen solche Maßnahmen den größten Effekt hätten und wie stark sie das Verkehrsaufkommen tatsächlich verändern würden.
Zusatzaufgaben (optional)
Bisher haben Sie zwei Dimensionen betrachtet: Zeit (Bahn ist schneller) und Geld (Verspätungen kosten). Aber es gibt einen dritten, oft vergessenen Aspekt: die Umwelt.
Das Auto ist nicht nur langsamer und teurer; es ist auch ein Klimakiller. Ein durchschnittlicher PKW emittiert z.B. etwa 150 g CO2 pro Personenkilometer.
- Recherchieren Sie die CO2-Emissionsfaktoren und das Mobilitätsverhalten:
- Erstellen Sie eine kleine Tabelle in der Sie die CO2-Emissionen (in
g/Personenkilometer) für folgende Verkehrsmittel auflisten:
- PKW (Durchschnitt)
- PKW (Elektro, deutscher Strommix)
- ICE/IC (Fernverkehr)
- RE/RB (Nahverkehr)
- S-Bahn
- Berechnen Sie einen gewichteten Durchschnitt für die Bahn, wenn 70% der Pendler Nahverkehr und 30% Fernverkehr nutzen.
- Um wie viel Prozent sind die Bahn-Emissionen niedriger als beim Auto?
Hinweis: Nutzen Sie Daten vom Umweltbundesamt oder dem DB Umweltbericht.
| Verkehrsmittel | CO2 pro PKM |
|---|---|
| PKW (Durchschnitt) | 164.0 |
| PKW (Elektro, dt. Strommix) | 92.0 |
| ICE/IC (Fernverkehr) | 1.0 |
| RE/RB (Nahverkehr) | 40.0 |
| S-Bahn | 50.0 |
| Bahn gewichtet (70% Nah, 30% Fern) | 28.3 |
Die Berechnung des gewichteten Durchschnitts für die Bahn basiert auf der Annahme, dass 70 % der Pendler den Nahverkehr (RE/RB) und 30 % den Fernverkehr (ICE/IC) nutzen. Der Nahverkehr verursacht 40 g CO₂ pro Personenkilometer, während der Fernverkehr mit 1 g CO₂ pro Personenkilometer fast emissionsfrei ist. Daraus ergibt sich der gewichtete Mittelwert von 0,7 · 40 g + 0,3 · 1 g = 28 g + 0,3 g = 28,3 g CO₂ pro Personenkilometer. Dieser Wert zeigt, dass die Bahn selbst bei einem realistischen Nutzungsmix aus Nah- und Fernverkehr sehr geringe Emissionen verursacht. Im Vergleich zu den Werten des Autos wird deutlich, wie klimafreundlich die Bahn ist und wie groß das Einsparpotenzial durch eine Verlagerung des Verkehrs auf die Schiene sein kann.
Um zu berechnen, um wie viel Prozent die Bahn-Emissionen niedriger sind als beim Auto, wird der gewichtete Bahnwert von 28,3 g CO₂ pro Pkm mit dem Wert des durchschnittlichen PKW von 164 g CO₂ pro Pkm verglichen. Die Rechnung lautet: (164 − 28,3) / 164 · 100 ≈ 82,7 %. Das bedeutet, dass die Bahn rund 83 % weniger CO₂ ausstößt als ein durchschnittlicher PKW. Selbst im Vergleich mit einem Elektroauto mit 92 g CO₂ pro Pkm ist der Unterschied noch sehr deutlich: (92 − 28,3) / 92 · 100 ≈ 69,2 %. Auch hier liegt die Bahn also fast 70 % unter den Emissionen des Autos, was zeigt, wie groß ihr Vorteil aus klimapolitischer Sicht ist.
- Die Studie “Mobilität in Deutschland” (MiD 2023) ist die wichtigste Datenquelle zum Mobilitätsverhalten in Deutschland. Sie ermöglicht einen Vergleich mit 2017 (vor Corona).
Lesen Sie den MiD 2023 Kurzbericht und beantworten Sie:
- Modal Split: Wie hat sich der Anteil des öffentlichen Verkehrs (ÖV) am Gesamtverkehr zwischen 2017 und 2023 verändert?
- Homeoffice-Effekt: Wie hat sich die durchschnittliche Tagesstrecke verändert? Was ist laut MiD der Hauptgrund für diese Veränderung?
- Stadt vs. Land: Welchen Anteil hat das Deutschlandticket in Metropolen vs. ländlichen Räumen? Was bedeutet das für die Ulm-Region?
- Implikation für CO2: Welche Schlussfolgerung ziehen Sie aus diesen Veränderungen für das CO2-Einsparpotenzial durch Bahnpendeln? (2-3 Sätze)
Der Modal Split zeigt, dass sich der Anteil des öffentlichen Verkehrs zwischen 2017 und 2023 insgesamt nur leicht verändert hat. Laut MiD bleibt der ÖV mit „einem knappen Fünftel“ an den Personenkilometern weiterhin auf Platz zwei hinter dem motorisierten Individualverkehr, der nach wie vor etwa drei Viertel der Verkehrsleistung ausmacht. Gleichzeitig wird betont, dass die Verkehrsleistung des ÖV von 2017 auf 2023 leicht von gut 600 auf rund 565 Mio. Personenkilometer pro Tag gesunken ist, wobei der reine ÖPNV mit etwa 300 Mio. Kilometern täglich nahezu stabil geblieben ist. Insgesamt kann man also sagen, dass der ÖV-Anteil nicht stark gestiegen ist, sich aber trotz Corona relativ stabil gehalten hat, was eher als positives Signal zu werten ist.
Die durchschnittliche Tagesstrecke pro Person ist von 2017 auf 2023 spürbar gesunken. Während sie 2017 noch bei knapp 40 Kilometern lag, beträgt sie 2023 nur noch rund 35 Kilometer pro Tag. Als Hauptgrund nennt der MiD-Bericht vor allem den zunehmenden Einfluss von Homeoffice sowie generell weniger Alltagswegen, besonders bei ökonomisch besser gestellten Gruppen. Durch Homeoffice entfallen viele Arbeitswege komplett oder werden deutlich seltener, was sich direkt in einer geringeren täglichen Verkehrsleistung widerspiegelt. Damit verändert sich nicht nur die Menge der Wege, sondern auch die gesamte Verkehrsstruktur.
Beim Deutschlandticket zeigen sich starke Unterschiede zwischen Stadt und Land. Insgesamt geben 16 % der Bevölkerung ab 14 Jahren im Jahr 2023 an, das Deutschlandticket als ihr übliches Ticket zu nutzen. Die Nutzung ist jedoch in Metropolen deutlich höher als in ländlichen Räumen, während sie in kleinstädtischen und dörflichen Regionen nur einen sehr geringen Anteil erreicht, teilweise im niedrigen einstelligen Prozentbereich, wie die regionale Auswertung zeigt. Für die Ulm-Region, die eher als Mittelstadt einzuordnen ist, bedeutet das, dass das Deutschlandticket zwar Potenzial hat, aber längst nicht so stark wirkt wie in großen Metropolen. Hier spielen Angebotsdichte und Taktung des ÖPNV eine viel größere Rolle als der Ticketpreis allein.
Für das CO₂-Einsparpotenzial durch Bahnpendeln lassen sich daraus klare Schlussfolgerungen ziehen. Da die Bahn pro Personenkilometer deutlich weniger CO₂ verursacht als der PKW, würde schon eine moderate Verlagerung vom Auto auf die Bahn spürbare Emissionsreduktionen bringen. Die Stabilisierung des ÖV durch das Deutschlandticket und die geringeren Tagesstrecken durch Homeoffice verstärken dieses Potenzial zusätzlich. Besonders in Städten und Mittelstädten wie Ulm liegt hier eine große Chance, Klimaschutz und Verkehrsplanung sinnvoll zu verbinden.
- Berechnen Sie die CO2-Ersparnis für die 11 analysierten Städte.
Datensatz: co2_analyse (aus Aufgabe 4)
– enthält Streckenlängen, Einpendlerzahlen und vorberechnete Werte
Annahmen:
- 220 Arbeitstage pro Jahr
- 2 Fahrten pro Tag (Hin + Zurück)
- CO2-Auto: 150 g/km, CO2-Bahn: 47 g/km (gewichteter Durchschnitt)
Berechnen Sie für jeden Umsteiger (Auto \(\rightarrow\) Bahn):
- Jährliche Kilometer
- CO2-Emissionen mit Auto (kg/Jahr)
- CO2-Emissionen mit Bahn (kg/Jahr)
- Ersparnis (kg/Jahr)
Nun sollten Sie eine Szenario Analyse ähnlich wie in Aufgabe 15 durchführen: Wenn sich der Bahnanteil von 8,4% auf 20% erhöht: wie viele Tonnen CO2 würden in den 11 Städten jährlich eingespart?
Visualisieren Sie die CO2-Ersparnis pro Stadt.
Stellen Sie die Ersparnis in Kontext, um die Ersparnis greifbarer zu machen, z.B. wie viele Mallorca-Flüge (hin + zurück, ~750 kg CO2) entspricht das?
Die Grafik zeigt die jährliche CO₂-Ersparnis für die 11 untersuchten Städte bei zwei verschiedenen Szenarien: einmal mit einem Bahnanteil von 8,4 % und einmal mit einem erhöhten Bahnanteil von 20 %. Auf der x-Achse stehen die Städte und auf der y-Achse die eingesparten Tonnen CO₂ pro Jahr. Für jede Stadt werden zwei Balken dargestellt, wodurch man die beiden Szenarien direkt vergleichen kann. Man sieht sofort, dass in allen Städten die CO₂-Ersparnis beim 20%-Szenario deutlich höher ist als im Status quo. Besonders in Städten mit vielen Einpendlern fallen die Einsparungen sehr groß aus, was zeigt, dass gerade dort ein Wechsel vom Auto zur Bahn besonders viel bringen kann.
Die Berechnungen basieren darauf, wie viel CO₂ eine einzelne Person pro Jahr einspart, wenn sie vom Auto auf die Bahn umsteigt. Dafür werden zuerst die jährlichen Pendelkilometer berechnet, also Strecke mal zwei Fahrten pro Tag mal 220 Arbeitstage. Pro Kilometer werden beim Umstieg 103 g CO₂ eingespart, da das Auto 150 g/km und die Bahn nur 47 g/km verursacht. Multipliziert man diese Differenz mit den jährlichen Kilometern, erhält man die CO₂-Ersparnis pro Umsteiger in Kilogramm. Diese individuelle Ersparnis wird dann mit der Anzahl der Umsteiger pro Stadt multipliziert, die sich aus den Einpendlern und dem jeweiligen Bahnanteil ergibt. So kommt man auf die gesamte jährliche CO₂-Ersparnis pro Stadt.
Der Vergleich der beiden Szenarien zeigt sehr deutlich, wie stark sich ein höherer Bahnanteil auswirkt. Beim 20%-Szenario sind die Balken in allen Städten mehr als doppelt so hoch wie beim 8,4%-Szenario. Das liegt daran, dass sich die Zahl der Umsteiger stark erhöht und damit auch die gesamte eingesparte CO₂-Menge. Die Grafik macht klar, dass schon eine relativ kleine Veränderung im Modal Split große Effekte auf die Emissionen haben kann, vor allem in Städten mit vielen Pendlern.
Um sich die Größenordnung besser vorstellen zu können, hilft der Vergleich mit Mallorca-Flügen. Ein Hin- und Rückflug nach Mallorca verursacht ungefähr 750 kg CO₂. Teilt man die eingesparte CO₂-Menge einer Stadt durch 0,75 Tonnen, erhält man die Anzahl der Flüge, die dadurch sozusagen „eingespart“ werden könnten. Dabei zeigt sich, dass es sich nicht nur um mehrere Tausend, sondern in großen Städten sogar um mehrere Zehntausend bis über 100.000 Mallorca-Flüge pro Jahr handelt, zum Beispiel etwa 170.000 in Frankfurt, rund 160.000 in Berlin und ungefähr 100.000 in München. Aber auch kleinere Städte erreichen noch Werte von mehreren Tausend Flügen pro Jahr, etwa rund 20.000 in Nürnberg oder knapp 3.000 in Ulm. Das macht ziemlich deutlich, wie groß der Klimaeffekt einer stärkeren Nutzung der Bahn im Pendlerverkehr tatsächlich ist.
Anhang
Anhang A: Beschreibung der bereitgestellten Datensätze
1. Bahnhof-Kreis-Mapping (bahnhof_ags_mapping.csv)
Dieses Mapping ist essenziell für die Verknüpfung von Bahn- und Pendlerdaten. Die Bahndaten sind auf Bahnhofsebene (z.B. “München Hbf”), die Pendlerdaten auf Kreisebene (z.B. “München, Landeshauptstadt”). Der AGS (Amtlicher Gemeindeschlüssel) ist der Schlüssel, der beide Welten verbindet.
Wichtige Variablen:
station_name: Name des Bahnhofsags: Amtlicher Gemeindeschlüssel (5-stellig für Kreise)kreis_name: Name des Landkreises/der kreisfreien Stadt
2. Fahrtzeit-Vergleich OSRM
(fahrtzeit_osrm_vergleich.csv)
Für einen fairen Vergleich Auto vs. Bahn brauchen wir realistische Fahrtzeiten. OSRM (Open Source Routing Machine) berechnet echte Straßenrouten basierend auf OpenStreetMap – keine Luftlinien, sondern tatsächliche Straßenverbindungen mit Abbiegevorgängen, Geschwindigkeitsbegrenzungen und Straßentypen.
Wichtige Variablen:
stadt: Zielstadt der Pendlerstreckestrecke_name: Beschreibung der Route (z.B. “Dachau \(\rightarrow\) München”)auto_distanz_km: Fahrstrecke mit dem Auto in kmauto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit (mit Staufaktor)bahn_planzeit_min: Fahrzeit laut Fahrplanbahn_verspaetung_min: Durchschnittliche Verspätungbahn_real_min: Realistische Bahnfahrzeit (Fahrplan + Verspätung)
Wie wurde das Routing durchgeführt?
Koordinaten ermitteln: Für jede Pendlerstrecke wurden Start- und Zielkoordinaten definiert (z.B. Stadtzentrum Dachau \(\rightarrow\) München Hauptbahnhof).
OSRM-API abfragen: Über die öffentliche OSRM-Demo-API (
router.project-osrm.org) wurden für jede Route Distanz und Fahrzeit abgefragt. Die API gibt die schnellste Route zurück, basierend auf dem aktuellen Straßennetz.Staufaktor anwenden: Die OSRM-Basisfahrzeit entspricht einer Fahrt bei freiem Verkehr. Für die Hauptverkehrszeit (HVZ) wurde ein Staufaktor von 1,3-1,5 angewendet, basierend auf den INRIX-Daten der jeweiligen Stadt.
Bahn-Daten ergänzen: Die Bahnfahrzeiten stammen aus dem DB-Fahrplan, ergänzt um die durchschnittliche Verspätung aus unserer Analyse.
Weiterführende Links:
- OSRM Projekt-Website – Dokumentation und Demo
- OSRM API-Dokumentation – Technische Details zur API
- OpenStreetMap – Die Kartendaten, auf denen OSRM basiert
- R-Paket
osrm– Für eigene OSRM-Abfragen in R
3. Ulm-Pendlerrouten (ulm_pendlerrouten.csv)
Da Sie in Ulm studieren, analysieren wir die wichtigsten Pendlerrouten in die Stadt genauer. Dieser Datensatz enthält die 5 wichtigsten Einpendler-Gemeinden mit detaillierten Informationen zur Erreichbarkeit.
Wichtige Variablen:
start_ort: Startgemeinde der Pendlerrouteziel_ort: Zielort (Ulm)auto_dauer_min: Fahrzeit mit dem Autoauto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeitbahn_fahrplan_min: Bahnfahrzeit laut Fahrplanbahn_real_min: Realistische Bahnfahrzeithat_bahnhof: TRUE/FALSE – hat der Startort einen Bahnanschluss?pendler_geschaetzt: Geschätzte Anzahl Pendler auf dieser Route
4. Entgeltstatistik (ba_entgeltstatistik_2024.csv)
Um die volkswirtschaftlichen Kosten von Verspätungen zu berechnen, brauchen wir regionale Lohndaten. Diese haben wir von der Bundesagentur für Arbeit heruntergeladen.
Wichtige Variablen:
kreis_name: Name des Kreises/der Stadtags: Amtlicher Gemeindeschlüsselmedianentgelt_brutto_monat: Median-Bruttomonatsentgelt in Euro
Quelle: Bundesagentur für Arbeit, Entgeltstatistik 2024