Motivation
Jeden Morgen das gleiche Bild: Verstopfte Autobahnen, genervte Pendler, verlorene Zeit. 20,5 Millionen Menschen pendeln in Deutschland täglich zur Arbeit – die meisten davon mit dem Auto. Laut INRIX Traffic Scorecard 2024 verlieren Pendler in deutschen Großstädten zwischen 40 und 60 Stunden pro Jahr allein im Stau. Das entspricht fast einer kompletten Arbeitswoche, die im Nichts verpufft.
Die Idee liegt auf der Hand: Wer Bahn fährt, steht nicht im Stau. Aber wie schlägt sich die Bahn im Vergleich zum Auto? Ist sie wirklich schneller? Und wie zuverlässig ist sie eigentlich?
In diesem Projekt analysieren Sie Echtzeitdaten der Deutschen Bahn, Pendlerstatistiken der Bundesagentur für Arbeit, Staudaten von INRIX und die Entgeltstatistik der Bundesagentur für Arbeit. Sie werden herausfinden, dass die Antwort auf die Frage “Sollten mehr Menschen Bahn fahren?” komplexer ist, als man zunächst vermuten würde und dass sie wichtige Implikationen für die Verkehrspolitik hat.
Ihre zentrale Forschungsfrage lautet:
“Sollten mehr Menschen Bahn fahren – und was müsste sich dafür ändern?”
Datengrundlage
In diesem Projekt arbeiten Sie mit mehreren Datensätzen. Ein wichtiger Teil des Projekts ist das eigenständige Beschaffen von Primärdaten aus offiziellen Quellen.
Daten einlesen und verstehen
Bevor Sie mit der Analyse beginnen können, müssen Sie verschiedenste
Datensätze einlesen und deren Struktur verstehen. Die Deutsche Bahn
stellt über unterschiedliche Schnittstellen Echtzeitdaten für ihre Züge
als open-source Daten zur Verfügung, welche per API-Calls geladen werden
können. Jedoch gibt es von der Deutschen Bahn keine offizielle Seite,
welche historische Daten zu Zugverspätungen, Ausfällen etc. für Fern-
und Nahverkehrszüge sammelt. Da wir uns jedoch mit historischen Daten
beschäftigen möchten, greifen wir auf Daten zurück, die von Piet Brömmel
gesammelt wurden und bei Huggingface im Parquet-Format
zur Verfügung gestellt wurden. Das Parquet-Format ist
ein effizientes Datenformat und wird oft für große Datenmengen genutzt;
in R können Sie diese Daten mit dem arrow-Paket
einlesen.
- Wie pünktlich ist die Bahn wirklich? Um diese Frage zu beantworten, brauchen Sie echte Verspätungsdaten – nicht nur Pressemitteilungen. Die Bahndaten bilden das Herzstück unserer Analyse: Mit ihnen können Sie berechnen, wie viel Zeit Bahnfahrer durch Verspätungen verlieren und später mit den Stauzeiten der Autofahrer vergleichen.
Die Deutsche Bahn stellt Echtzeitdaten als Open Data zur Verfügung. Das Projekt piebro/deutsche-bahn-data auf Huggingface sammelt diese Daten im Parquet-Format.
Laden Sie die Datei für November 2025 direkt von
Huggingface herunter und lesen Sie diesen Datensatz als
bahn in R ein.
Zeigen Sie die ersten 10 Zeilen des Datensatzes in einer Tabelle und beantworten Sie anschließend folgende Fragen:
- Wie viele Beobachtungen enthält der Datensatz? Welche Variablen sind vorhanden?
- Was stellt eine einzelne Beobachtung dar?
Hinweis 1: Sie können auf Huggingface die gesuchte Datei hier finden und direkt die URL zu der Datei in R mitgeben
Hinweis 2: Sie können die Parquet Datei entweder lokal speichern, oder immer direkt per URL einlesen. Falls Sie die Datei lokal speichern, so wird diese nicht auf GitHub Committet, da wir dies in der .gitignore entsprechend eingestellt haben. In diesem Fall sollten alle Teammitglieder die Datei lokal zur Verfügung haben.
Hinweis 3: Achten Sie bei allen Tabellen auf einer saubere Darstellung
| station_name | xml_station_name | eva | train_name | final_destination_station | delay_in_min | time | is_canceled | train_type | train_line_ride_id | train_line_station_num | arrival_planned_time | arrival_change_time | departure_planned_time | departure_change_time | id |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Stuttgart Hbf | Stuttgart Hbf (tief) | 08098096 | S 2 | Filderstadt | 5 | 2025-11-01 01:00:00 | FALSE | S | 15 | 2025-11-01 00:55:00 | 2025-11-01 00:57:00 | 2025-11-01 00:55:00 | 2025-11-01 01:00:00 | -1263112065111090114-2510312318-15 | |
| Halle (Saale) Hbf | Halle(Saale)Hbf | 08010159 | S 5 | Leipzig Hbf (tief) | 1 | 2025-11-01 01:00:00 | FALSE | S | 1 | NA | NA | 2025-11-01 00:59:00 | 2025-11-01 01:00:00 | -2678885466088426112-2510312359-1 | |
| Karlsruhe Hbf | Karlsruhe Hbf | 08000191 | RE 1 | Karlsruhe Hbf | 95 | 2025-11-01 01:00:00 | FALSE | RE | 7 | 2025-10-31 23:25:00 | 2025-11-01 01:00:00 | NA | NA | -2791458000270945298-2510312132-7 | |
| Regensburg Hbf | Regensburg Hbf | 08000309 | ALX RE25 | München Hbf | 11 | 2025-11-01 01:00:00 | FALSE | ALX | 4 | 2025-11-01 00:35:00 | 2025-11-01 00:52:00 | 2025-11-01 00:49:00 | 2025-11-01 01:00:00 | -5065801516765768983-2510312301-4 | |
| Mannheim Hbf | Mannheim Hbf | 08000244 | ICE 775 | Karlsruhe Hbf | 1 | 2025-11-01 01:00:00 | FALSE | ICE | 5181720942697741094 | 8 | 2025-11-01 00:56:00 | 2025-11-01 00:58:00 | 2025-11-01 00:59:00 | 2025-11-01 01:00:00 | 5181720942697741094-2510311916-8 |
| Flughafen BER | Flughafen BER (S-Bahn) | 08089201 | S 9 | Flughafen BER | 1 | 2025-11-01 01:00:00 | FALSE | S | 7409107008547428277 | 5 | 2025-11-01 00:59:00 | 2025-11-01 01:00:00 | NA | NA | 7409107008547428277-2510312346-5 |
| Halle (Saale) Hbf | Halle(Saale)Hbf | 08010159 | S 8 | Halle (Saale) Hbf | 15 | 2025-11-01 01:00:00 | FALSE | S | 2442677234119162947 | 6 | 2025-11-01 00:45:00 | 2025-11-01 01:00:00 | NA | NA | 2442677234119162947-2510312324-6 |
| München Hbf | München Hbf | 08000261 | RB 40 | München Hbf | 0 | 2025-11-01 01:00:00 | FALSE | RB | 8 | 2025-11-01 01:00:00 | 2025-11-01 01:00:00 | NA | NA | -8549369502950901321-2510312246-8 | |
| Köln Hbf | Köln Hbf | 08000207 | IC 1952 | Köln Hbf | 40 | 2025-11-01 01:00:00 | FALSE | IC | 2365115903117509345 | 14 | 2025-11-01 00:20:00 | 2025-11-01 01:00:00 | NA | NA | 2365115903117509345-2510311747-14 |
| Freiburg (Breisgau) Hbf | Freiburg(Breisgau) Hbf | 08000107 | S 1 | Freiburg (Breisgau) Hbf | 0 | 2025-11-01 01:00:00 | FALSE | S | 9 | 2025-11-01 01:00:00 | 2025-11-01 01:00:00 | NA | NA | -2150665481183031960-2510312332-9 |
Wie viele Beobachtungen enthält der Datensatz? Welche Variablen
sind vorhanden?
Der Datensatz enthält 13.943.561 Beobachtungen.
Der Datensatz enthält Informationen (Variablen) zum Bahnhof
(station_name, eva), zur Zugidentifikation (train_name, train_type,
train_line_ride_id), zum Ziel (final_destination_station) sowie die
geplanten und tatsächlichen Zeiten für Ankunft und Abfahrt
(arrival_planned_time, arrival_change_time etc.) und die Verspätung
(delay_in_min).
Was stellt eine einzelne Beobachtung dar?
Eine einzelne Beobachtung (Zeile) repräsentiert den Halt eines
spezifischen Zuges an einem spezifischen Bahnhof.
Sie verknüpft eine Zugfahrt (train_line_ride_id) mit einem Ort
(station_name) und zeigt, wann der Zug dort geplant war und wann er
tatsächlich ankam/abfuhr.
- Wohin pendeln die Menschen? Die Bahndaten zeigen ihnen die Pünktlichkeit der Züge – aber um zu verstehen, wo gute Bahnverbindungen besonders wichtig sind, müssen Sie wissen, wohin die Menschen pendeln. Die Pendlerstatistik der Bundesagentur für Arbeit zeigt genau das: Welche Städte sind die größten Arbeitgeber-Magneten?
Laden Sie den Datensatz pendler_kreise_aufbereitet.csv
aus dem Ordner daten in R ein als Datensatz
pendler.
Erstellen Sie eine Tabelle der Top 10 Städte nach Einpendlern mit den Spalten: Stadt (kreis_name), Einpendler, Auspendler, Pendlersaldo.
Interpretieren Sie kurz: Welche Städte sind die größten “Pendlermagneten” Deutschlands und warum?
| Stadt | Einpendler | Auspendler | Pendlersaldo |
|---|---|---|---|
| München, Landeshauptstadt | 455.645 | 202.756 | 252.889 |
| Frankfurt am Main, Stadt | 405.856 | 111.245 | 294.611 |
| Hamburg, Freie und Hansestadt | 392.951 | 147.328 | 245.623 |
| Berlin, Stadt | 392.324 | 219.898 | 172.426 |
| Köln, Stadt | 306.905 | 138.422 | 168.483 |
| Düsseldorf, Stadt | 284.696 | 97.326 | 187.370 |
| Stuttgart, Landeshauptstadt | 274.442 | 100.095 | 174.347 |
| München | 203.163 | 98.325 | 104.838 |
| Nürnberg, Stadt | 165.496 | 78.557 | 86.939 |
| Essen, Stadt | 141.296 | 90.906 | 50.390 |
Die größten “Pendlermagneten” Deutschlands und warum?
Die größten Pendlermagneten sind die Wirtschaftsmetropolen München,
Frankfurt, Hamburg und Berlin. Der Grund dafür ist die hohe
Arbeitsplatzkonzentration in den Zentren bei gleichzeitig knappem und
teurem Wohnraum. Viele Arbeitnehmer weichen daher auf das günstigere
Umland (“Speckgürtel”) aus, was zu starken Pendlerströmen in die Städte
führt.
- Was kostet das Auto? Sie haben jetzt Bahndaten und wissen, wohin die Menschen pendeln. Aber um fair vergleichen zu können, brauchen Sie auch die Alternative: Wie viel Zeit verlieren Autofahrer im Stau? Diese Daten liefert INRIX – ein Unternehmen, das weltweit Verkehrsdaten sammelt. Später werden Sie diese Staukosten mit den Bahnverspätungen vergleichen.
Besuchen Sie die INRIX Global Traffic Scorecard und suchen Sie die Stauzeiten für die Top 10 Städte aus Aufgabe 2 und zusätzlich die Stauzeiten für Ulm. INRIX misst, wie viele Stunden Autofahrer jährlich im Stau verlieren.
- Erstellen Sie eine eigene CSV-Datei
inrix_staedte_2024.csvmit folgenden Spalten für die geforderten Städte:stadt: Name der Stadtstau_stunden_jahr: Jährliche Staustunden pro Fahrerkosten_eur: Jährliche Kosten pro Fahrer (findet sich in der tiefergehenden Übersicht)
- Berechnen Sie für jede Stadt, wie viele Arbeitstage pro Jahr im Stau verloren gehen. Annahme: Ein Arbeitstag = 8 Stunden.
Erstellen Sie anschließend eine schöne Tabelle mit: Stadt, Staustunden/Jahr, verlorene Arbeitstage und beschreiben diese. In welcher Stadt ist die Stausituation am schlimmsten? Wie viele Arbeitstage verliert ein typischer Pendler dort pro Jahr?
Hinweis: Auf der INRIX-Website können Sie nach bei “Jump to City Rankings” -> “Search the List” -> “Germany” oder der konkreten Stadt filtern.
| Stadt | Staustunden/Jahr | Verlorene Arbeitstage | Kosten pro Fahrer |
|---|---|---|---|
| Köln | 67 | 8,4 | 919 € |
| Düsseldorf | 63 | 7,9 | 864 € |
| Berlin | 60 | 7,5 | 823 € |
| Stuttgart | 60 | 7,5 | 823 € |
| München | 57 | 7,1 | 781 € |
| Frankfurt am Main | 55 | 6,9 | 754 € |
| Hamburg | 46 | 5,8 | 631 € |
| Nürnberg | 38 | 4,8 | 521 € |
| Ulm | 30 | 3,8 | 411 € |
| Essen | NA | NA | NA € |
Beschreibung:
Die Tabelle zeigt die jährliche Belastung für Autofahrer in den zehn
deutschen Städten mit dem höchsten Pendleraufkommen sowie in Ulm.
Dargestellt sind die verlorenen Stunden im Stau, die daraus
resultierenden verlorenen Arbeitstage (bei einem 8-Stunden-Tag) sowie
die geschätzten Kosten pro Fahrer.
Basierend auf den Daten der INRIX Scorecard ist die Situation in Köln am
gravierendsten. Hier verbringen Autofahrer im Schnitt 67 Stunden pro
Jahr im Stillstand – mehr als in jeder anderen untersuchten deutschen
Stadt. Dicht darauf folgt Düsseldorf mit 63 und Berlin und Stuttgart mit
jeweils 60 Stunden.
Für einen Pendler in Köln bedeutet dies einen Verlust von fast 8,4
Arbeitstagen (67 Stunden / 8). Das entspricht mehr als eineinhalb Wochen
Arbeitszeit oder Urlaub, die jährlich unproduktiv auf der Straße
verbracht werden. Selbst in einer vergleichsweise kleineren Stadt wie
Ulm summieren sich die 30 Staustunden immer noch auf fast 4 verlorene
Arbeitstage.
- Für die weiteren Analysen stellen wir Ihnen fünf zusätzliche Datensätze bereit. Diese laden Sie jetzt, damit sie in allen folgenden Aufgaben direkt verfügbar sind.
Laden Sie die folgenden Datensätze aus dem Ordner daten
und speichern Sie diese unter den angegebenen Variablennamen:
| Datei | Variablenname | Verwendet in |
|---|---|---|
bahnhof_ags_mapping.csv |
bahnhof_mapping |
Aufgabe 9-10 |
fahrtzeit_osrm_vergleich.csv |
fahrtzeit |
Aufgabe 12 |
ulm_pendlerrouten.csv |
ulm_routen |
Aufgabe 13 |
ba_entgeltstatistik_2024.csv |
entgelt |
für staedte_basis |
co2_analyse.csv |
co2_analyse |
Aufgabe 19 (Bonus) |
Verschaffen Sie sich einen ersten Überblick über die Struktur der
Daten (z.B. mit glimpse(), dies sollte später in ihrem HTML
Dokument nicht sichtbar sein!).
Erstellen Sie außerdem einen Master-Datensatz
staedte_basis für die Top-11-Städte (Top 10 Pendlerstädte +
Ulm), der die Daten aus pendler, entgelt und
inrix kombiniert. Dieser Datensatz vereinfacht die späteren
Analysen (ab Aufgabe 14), da alle relevanten Kennzahlen bereits
zusammengeführt sind.
Der Master-Datensatz sollte folgende Spalten enthalten:
ags: Amtlicher Gemeindeschlüsselstadt: Stadtname (Kurzform, z.B. “München”)einpendler: Anzahl Einpendlermedian_monat_eur: Medianlohn pro Monatmedian_stunde_eur: Medianlohn pro Stunde (Monatslohn / 160)stau_stunden_jahr: Stauzeit pro Jahr (aus INRIX)
Hinweis 1: Die Datensätze verwenden unterschiedliche
Namensformate: pendler hat offizielle Namen (“München,
Landeshauptstadt”), während entgelt und inrix
Kurznamen (“München”) verwenden. Nutzen Sie den AGS als
zuverlässigen Schlüssel für die Verknüpfung mit pendler.
Tipp: entgelt enthält sowohl AGS als auch Kurznamen und
eignet sich daher gut als Ausgangspunkt.
Hinweis 2: Eine ausführliche Beschreibung der Datensätze finden Sie im Anhang A.
Die Pünktlichkeit der Deutschen Bahn
Nachdem Sie nun einen Überblick über die Daten haben, welche wir in diesem Projekt verwenden möchten, tauchen Sie tiefer in die Bahndaten ein. Die zentrale Frage ist: Wie zuverlässig ist die Deutsche Bahn wirklich?
Die Bahn unterscheidet verschiedene Zugtypen, vom ICE über den RE bis zur S-Bahn. Jeder Zugtyp hat unterschiedliche Eigenschaften: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Aber welcher Zugtyp ist am pünktlichsten?
- Welche Züge sind (un)pünktlich? Nicht alle Züge
sind gleich: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn
kurze Strecken mit vielen Halten. Um später sinnvolle Empfehlungen geben
zu können, müssen Sie verstehen, welche Zugtypen besonders
problematisch sind. Dafür klassifizieren Sie die Züge anhand
ihrer Namen. Nutzen Sie für diese Analyse den Datensatz
bahn.
Die Variable train_name enthält den Zugnamen (z.B. “ICE
123”, “S 5”, “RE 8”).
- Erstellen Sie eine neue Variable
zugtypmit folgenden Kategorien:
| Zugtyp | Regel | Beispiel |
|---|---|---|
| ICE | beginnt mit “ICE” | ICE 123 |
| IC/EC | beginnt mit “IC” oder “EC” | IC 2012, EC 6 |
| IRE/RE | beginnt mit “RE” oder “IRE” | RE 5, IRE 200 |
| RB | beginnt mit “RB” | RB 26 |
| S-Bahn | beginnt mit “S” (mit Leerzeichen!) | S 5 |
| Sonstige | alle anderen | U 6, STB 123 |
Erstellen Sie auf dieser Basis eine Tabelle, welche pro Zugtyp folgende Kennzahlen anschaulich darstellt:
- Anzahl der Fahrten
- Durchschnittliche Verspätung (in Minuten)
- Anteil pünktlicher Züge (≤6 Min Verspätung)
- Ausfallquote
Beschreiben und Interpretieren Sie die Tabelle.
Weiterhin sollten Sie ihre Ergebnisse verifizieren. Dafür können Sie auf die offizielle Pünktlichkeitswerte der Deutschen Bahn zurückgreifen (recherchieren Sie diese selbstständig).
Stimmen Ihre Ergebnisse mit den offiziellen Werten überein? Falls nicht: Welche methodischen Unterschiede könnten die Abweichung erklären?
Hinweis: Nutzen Sie str_detect() aus dem
stringr-Paket. Achten Sie auf die Reihenfolge der
Bedingungen!
| Zugtyp | Anzahl Halte | Ø Verspätung (Min) | Pünktlichkeit (≤ 6 Min) | Ausfallquote |
|---|---|---|---|---|
| ICE | 171.516 | 12,08 | 56,7 % | 4,2 % |
| IC/EC | 70.602 | 10,99 | 58,8 % | 7,2 % |
| IRE/RE | 1.673.555 | 5,81 | 74,5 % | 3,6 % |
| Sonstige | 2.938.815 | 3,42 | 84,7 % | 2,6 % |
| RB | 2.675.028 | 3,39 | 85,4 % | 3,2 % |
| S-Bahn | 6.414.045 | 2,88 | 87,7 % | 5,5 % |
Beschreibung und Interpretation der Tabelle:
Die Tabelle mit dem Titel „Analyse der Pünktlichkeit (nach Zugarten)
zeigt aufgeschlüsselt nach Zugarten (ICE, IC/EC, IRE/RE, RB, S-Bahn und
Sonstige) die Anzahl der Halte, die durchschnittliche Verspätung, sowie
den Anteil der pünktlichen Züge und die Ausfallquote. Der allgemein zu
erkennende Trend ist, dass ICE und IC/EC Züge verhältnismäßig wenig
Halte haben, aber dafür mehr Verspätung als die andern Zugarten. Dies
lässt sich dadurch erklären, dass Züge im Fernverkehr (ICE, IC/EC) lange
Strecken zurücklegen müssen, dort kann viel mehr passieren, was zu einer
Verspätung führt. Allerdings ist eine Charakteristik von Fernzügen auch,
dass sie nicht so oft halten, dies erklärt die Tabelle sehr gut.
Verifikation der Daten:
Exakt kann man unsere Daten nicht mit denen der Deutschen Bahn
vergleichen, da die der DB nur in Fern- und Nahverkehr unterscheiden.
Aber sie unterscheiden nach betrieblicher Pünktlichkeit und
Reisendenpünktlichkeit, was uns interessiert ist die betriebliche
Pünktlichkeit, bei Reisendenpünktlichkeit handelt es sich um die
Verspätung mit der Reisende an ihrem Zielort ankommen. Die Daten der
betrieblichen Pünktlichkeit ähneln aber denen aus unserer Tabelle, die
offiziellen Daten sind zu finden unter https://www.deutschebahn.com/de/konzern/konzernprofil/zahlen_fakten/puenktlichkeitswerte-6878476.
- In Aufgabe 5 haben Sie gesehen, dass Fernverkehrszüge (ICE, IC/EC)
deutlich höhere Verspätungen und Ausfallquoten haben als Nahverkehrszüge
(IRE, RE, RB, S-Bahn). Aber wie relevant ist das für den typischen
Pendler? Das hängt davon ab, wie viele Züge jeweils
unterwegs sind. Nutzen Sie für diese Analyse den Datensatz
bahn(mit der in Aufgabe 5 erstellten Variablezugtyp).
Klassifizieren Sie die Züge in zwei Kategorien:
- Fernverkehr: ICE, IC/EC
- Nahverkehr: IRE, RE, RB, S-Bahn
Erstellen Sie ein Liniendiagramm, das die durchschnittliche Anzahl der Fahrten pro Stunde im Tagesverlauf zeigt:
- X-Achse: Uhrzeit (0-23 Uhr)
- Y-Achse: Durchschnittliche Anzahl Fahrten pro Stunde
- Zwei Linien: eine für Fernverkehr, eine für Nahverkehr (unterschiedliche Farben)
Tipp: Extrahieren Sie die Stunde aus der Variable
time mit hour() aus dem
lubridate-Paket. Berechnen Sie dann die durchschnittliche
Anzahl Fahrten pro Stunde und Zugtyp.
Beschreiben und interpretieren Sie ihre Grafik. Beantworten Sie zusätzlich die folgenden Fragen:
- Zu welchen Uhrzeiten fahren die meisten Züge?
- Wie unterscheidet sich das Muster zwischen Fern- und Nahverkehr?
- Warum ist diese Information wichtig, wenn wir später die Verspätungen analysieren?
Beschreibung und Interpretation:
Zu sehen ist ein Liniendiagramm mit zwei Linien, die eine stellt den
Nah- und die andere den Fernverkehr dar. Auf der x-Achse ist die Uhrzeit
in Stunden aufgetragen, auf der y-Achse die zur jeweiligen Stunde
gehörenden durchschnittlichen Fahrten, folglich stellt das Diagramm den
Zusammenhang von der Anzahl der Fahrten und der Uhrzeit dar. Auffällig
ist, dass deutlich mehr Züge im Nahverkehr fahren als im Fernverkehr,
außerdem schlägt die Kurve für den Nahverkehr sehr stark aus, während
die für den Fernverkehr ziemlich konstant bleibt.
Zu welchen Uhrzeiten fahren die meisten Züge und wie
unterscheidet sich das Muster zwischen Fern- und Nahverkehr?
Im Nahverkehr fahren die meisten Züge um 8 Uhr morgens, sowie rund um 18
Uhr. Dies lässt sich dadurch erklären, dass zu dieser Uhrzeit die
meisten Leute von zuhause zu ihrer Arbeit und umgekehrt fahren.
Teilweise stimmen diese Uhrzeiten auch für Schüler und Studenten, wenn
viele Leute den Nahverkehr benötigen, fahren folglich auch mehr Züge. Im
Fernverkehr ist es schwierig zu sehen, wann genau die meisten Züge
fahren, vor allem aufgrund der hohen Skalierung lässt es sich genau
erkennen, grob fahren die meisten Züge von 9 bis 12 Uhr. Allerdings gibt
es nur in der Nacht einen wirklichen Unterschied zu erkennen, tagsüber
ist die Zahl der Fahrten ziemlich konstant. Dies lässt sich dadurch
erklären, dass Fernzüge nicht wie Züge des Nahverkehrs nur 1 oder 2
Stunden unterwegs sind, sondern oft durch ganz Deutschland fahren.
Dementsprechend gibt es auch keine „Rush-Hour“ im Fernverkehr.
Warum ist diese Information wichtig bei der Analyse von
Verspätungen?
Die Informationen über die Anzahl der Fahrten je nach Uhrzeit ist sehr
relevant für die Analyse von Verspätungen. Dies liegt daran, dass oft
auch die Anzahl der betroffenen Fahrgäste für die Analyse herangezogen
wird und diese maßgeblich abhängig davon ist wie viele Fahrgäste den Zug
nutzen. Wenn es zur Verspätung in der Rush-Hour im Nahverkehr kommt, hat
dies einen viel größeren Einfluss auf diese Zahl der Statistik.
Nachdem Sie in Aufgabe 6 herausgefunden haben, dass es deutlich mehr Nahverkehrszüge als Fernverkehrszüge gibt, und diese für Pendler wichtiger sind, sollten Sie sich die Verspätungen der Nahverkehrszüge über den Tag anschauen, da diese vermutlich nicht gleichmäßig über den Tag verteilt sind. Pendler erleben die Bahn vor allem in der Hauptverkehrszeit, d.h. morgens zwischen 7 und 9 Uhr und abends zwischen 16 und 19 Uhr. Aber ist die Bahn zu diesen Zeiten besonders unpünktlich?
- Erstellen Sie zwei Heatmaps, die zeigen, wie sich
die Verspätungen nach Tageszeit (Stunde) und
Wochentag für die Nahverkehrszüge und die
Fernverkehrszüge verteilen. Nutzen Sie für diese Analyse den Datensatz
bahn.
- Extrahieren Sie aus der Variable
timedie Stunde und den Wochentag. - Filtern Sie auf die relevanten Tageszeiten (5-23 Uhr), da nachts kaum Zugverkehr stattfindet.
- Aggregieren Sie die durchschnittliche Verspätung pro Stunde und Wochentag für Nah- und Fernverkehrszüge separat.
- Erstellen Sie eine Heatmap mit
ggplot2undgeom_tile().
Tipp zur Farbskala: Da Fernverkehrszüge im Durchschnitt höhere Verspätungen haben als Nahverkehrszüge, können Sie unterschiedliche Farbskalen für die beiden Heatmaps verwenden (z.B. Blau-Töne für Nahverkehr, Rot-Töne für Fernverkehr). Dadurch werden die Muster innerhalb jeder Verkehrsart besser sichtbar.
Beschreiben und interpretieren Sie ihre Grafiken.
- Wann sind die Verspätungen am höchsten?
- Gibt es Unterschiede zwischen Werktagen und Wochenende?
- Gibt es Unterschiede zwischen Nah- und Fernverkehrszügen?
- Was bedeutet das für Pendler?
Beschreibung: Die Heatmaps zeigen die durchschnittlichen
Zugverspätungen in Abhängigkeit von Wochentag und Uhrzeit darstellen.
Die linke Grafik zeigt die durchschnittliche Verspätung im Nahverkehr,
die rechte Grafik die durchschnittliche Verspätung im Fernverkehr. In
beiden Darstellungen ist auf der horizontalen Achse die Uhrzeit
abgetragen, beginnend in den frühen Morgenstunden gegen 5 Uhr bis in die
späten Abendstunden nach 20 Uhr. Auf der vertikalen Achse sind die
Wochentage von Montag bis Sonntag aufgeführt. Die Farbintensität der
Felder gibt jeweils die Höhe der durchschnittlichen Verspätung in
Minuten an, wobei dunklere Farbtöne höhere Werte kennzeichnen.
Wann sind die Verspätungen am höchsten?
In beiden Grafiken ist zu erkennen, dass die Verspätungen im Laufe des
Tages zunehmen und besonders in den späten Nachmittags- und Abendstunden
am höchsten sind. Während die Werte am frühen Morgen vergleichsweise
niedrig bleiben, verdichten sich die dunkleren Bereiche gegen Ende des
Tages. Dies lässt darauf schließen, dass sich kleinere Verzögerungen im
Tagesverlauf aufbauen und in den Hauptverkehrszeiten stärker auswirken.
Im Fernverkehr tritt dieser Effekt deutlicher auf, da Verspätungen über
längere Strecken weitergegeben werden und sich schwerer abbauen lassen
als im regional begrenzten Nahverkehr.
Gibt es Unterschiede zwischen Werktagen und
Wochenende?
Die Grafiken zeigen einen deutlichen Unterschied zwischen Werktagen und
Wochenende: An Werktagen (Montag bis Freitag) treten insgesamt häufiger
und konsistenter höhere Verspätungen auf als an Samstagen und Sonntagen.
Während sich an Werktagen über viele Stunden hinweg erhöhte
Verspätungswerte zeigen, sind die Verspätungen am Wochenende nicht nur
geringer, sondern auch weniger systematisch verteilt. Das deutet darauf
hin, dass Verspätungen an Werktagen stärker durch strukturelle Faktoren
verursacht werden, etwa durch regelmäßige Pendlerströme, enge
Fahrplantakte und eine dauerhaft hohe Netzauslastung. Am Wochenende ist
der Verkehr weniger stark durch feste Zeitfenster geprägt, wodurch sich
Störungen seltener auf das gesamte System übertragen. Insgesamt spricht
der Vergleich dafür, dass Verspätungen weniger ein zufälliges Ereignis
sind, sondern maßgeblich vom arbeitsbedingten Verkehrsregime an
Werktagen beeinflusst werden.
Gibt es Unterschiede zwischen Nah- und
Fernverkehrszügen?
Der Vergleich der beiden Heatmaps macht deutlich, dass der Fernverkehr
insgesamt höhere durchschnittliche Verspätungen aufweist als der
Nahverkehr. Die Farbskala des Fernverkehrs zeigt häufiger intensive
Farbtöne, während sich die Werte im Nahverkehr meist im unteren
Minutenbereich bewegen. Dies kann damit erklärt werden, dass
Fernverkehrszüge längere Strecken zurücklegen und dadurch mehr
potenzielle Störquellen passieren. Zudem wirken sich Verzögerungen aus
vorherigen Streckenabschnitten oft weiter aus, während Verspätungen im
Nahverkehr häufiger lokal begrenzt bleiben und schneller ausgeglichen
werden können.
Was bedeutet das für Pendler?
Für Pendler ergibt sich aus den Grafiken, dass insbesondere Werktage in
den Abendstunden mit einem erhöhten Verspätungsrisiko verbunden sind.
Zwar zeigt sich der Nahverkehr insgesamt zuverlässiger als der
Fernverkehr, doch auch hier treten in stark frequentierten Zeitfenstern
spürbare Verzögerungen auf. Für den Alltag bedeutet dies, dass es
sinnvoll sein kann, Zeitpuffer einzuplanen oder alternative Verbindungen
in Betracht zu ziehen. Besonders für regelmäßige Pendler kann eine
flexible Wahl der Fahrzeiten helfen, die Auswirkungen von Verspätungen
zu reduzieren.
Von der Zeit zum Ort: Wo entstehen die Verspätungen?
In Aufgabe 7 haben Sie analysiert, wann die Verspätungen auftreten, nämlich vor allem zu den Hauptverkehrszeiten. Aber die nächste wichtige Frage ist: Wo entstehen diese Verspätungen?
Aggregierte Statistiken wie Durchschnittswerte über ganz Deutschland verbergen oft große regionale Unterschiede. Vielleicht gibt es einzelne “Problembahnhöfe”, die den Durchschnitt nach oben ziehen? Oder sind die Verspätungen gleichmäßig über das Netz verteilt? Diese Frage ist wichtig, weil sie unterschiedliche Lösungsansätze impliziert: Bei wenigen Problembahnhöfen könnte die Bahn gezielt investieren, bei flächendeckenden Problemen bräuchten Sie systemische Lösungen.
- Identifizieren Sie die 10 unpünktlichsten Bahnhöfe
in Deutschland (mit mindestens 1.000 Halten im Monat). Nutzen Sie für
diese Analyse den Datensatz
bahn.
Erstellen Sie ein Balkendiagramm, das die durchschnittliche Verspätung dieser Bahnhöfe zeigt. Beschriften Sie die Balken mit den Verspätungswerten.
Beschreiben und interpretieren Sie ihre Grafik.
- Sehen Sie ein geografisches Muster?
- Handelt es sich um große Knotenbahnhöfe oder eher um kleinere Stationen?
Beschreibung und Interpretation:
Um die Top 10 der unpünktlichsten Bahnhöfe in Deutschland darzustellen,
wurde ein Balkendiagramm genutzt, als Grundlage ist die
durchschnittliche Verspätung in Minuten angesetzt. Der unpünktlichste
Bahnhof in Deutschland liegt in Ennepetal (Gevelsberg) mit einer
durchschnittlichen Verspätung von 14,7 Minuten. Unter anderem sind in
der Top 10 auch Brühl (13,3 Minuten), Rolandseck (13,2 Minuten) und
Zeesen (12,3 Minuten).
Geografisches Muster:
Die meisten dieser Bahnhöfe liegen in Nordrhein-Westfalen oder in
Rheinland-Pfalz. Aber beispielsweise Zeese liegt isoliert in
Ostdeutschland, genauer in Brandenburg. Im Süden von Deutschland ist
keiner der Top 10 unpünktlichsten Bahnhöfe Deutschlands zu finden.
Größe der Bahnhöfe:
Auffällig ist, dass alle Bahnhöfe ziemlich klein sind und auch in
kleinen Städten oder Stadtteilen liegen. Es sind keine großen
Knotenbahnhöfe wie Frankfurt, Köln oder Berlin in der Top 10. Dies liegt
vermutlich daran, dass bei kleinen Bahnhöfen oft wenig Fahrzeuge in
Betrieb sind. Wenn diese dann noch kaputt sind oder das Personal fehlt,
wird selten für Ersatz gesorgt.
Wo treffen viele Pendler auf eine unpünktliche Bahn?
Bisher haben Sie Pendler- und Bahndaten getrennt betrachtet. Aber die spannende Frage ist: Wo kommen beide Probleme zusammen? Eine Stadt mit vielen Pendlern und einer unpünktlichen Bahn hat ein größeres Problem als eine Stadt mit wenigen Pendlern und einer unpünktlichen Bahn.
Um diese Frage zu beantworten, müssen Sie die Datensätze verknüpfen. Das Problem: Die Bahndaten sind auf Bahnhofsebene, die Pendlerdaten auf Kreisebene. Sie benötigen ein Mapping, das Bahnhöfe den entsprechenden Kreisen zuordnet.
- In dieser Aufgabe verknüpfen Sie die Bahn- und Pendlerdaten, um
Städte mit Handlungsbedarf zu identifizieren. Nutzen Sie für ihre
Analysen die Datensätze:
bahn,pendlerundbahnhof_mapping.
Das Mapping ordnet Bahnhöfe ihrem Landkreis zu (via AGS = Amtlicher Gemeindeschlüssel). Ihr Ziel: Identifizieren Sie Städte, in denen viele Pendler auf eine unpünktliche Bahn treffen.
- Berechnen Sie für jeden Bahnhof die durchschnittliche Verspätung und die Anzahl der Halte.
- Aggregation auf Kreisebene: Berechnen Sie für jeden Kreis die gewichtete durchschnittliche Verspätung. Gewichten Sie nach der Anzahl der Halte (ein Bahnhof mit 10.000 Halten zählt mehr als einer mit 100).
- Verknüpfen Sie das Ergebnis mit den Pendlerdaten mittels
left_join()über die Variableags. - Problem-Score berechnen: Kombinieren Sie beide Dimensionen mit z-Standardisierung:
\[\text{Problem-Score} = z(\text{Einpendler}) + z(\text{Verspätung})\]
Die z-Standardisierung macht die Werte vergleichbar: \(z(x) = \frac{x - \bar{x}}{s_x}\), wobei \(\bar{x}\) der Mittelwert und \(s_x\) die Standardabweichung ist.
Interpretation: Ein hoher Problem-Score = Viele Pendler + hohe Verspätung = Handlungsbedarf.
Anschließend sollten Sie eine Tabelle der Top 10 Städte nach Problem-Score darstellen und diese kurz beschreiben.
| Stadt | Einpendler | Ø Verspätung (gewichtet) | Problem-Score |
|---|---|---|---|
| München, Landeshauptstadt | 455.645 | 5,98 | 3,45 |
| Köln, Stadt | 306.905 | 7,89 | 3,05 |
| Düsseldorf, Stadt | 284.696 | 7,33 | 2,55 |
| Frankfurt am Main, Stadt | 405.856 | 5,14 | 2,54 |
| Berlin, Stadt | 392.324 | 4,70 | 2,18 |
| Hamburg, Freie und Hansestadt | 392.951 | 4,44 | 2,05 |
| Duisburg, Stadt | 86.735 | 8,81 | 1,46 |
| Hamm, Stadt | 22.447 | 9,93 | 1,45 |
| Stuttgart, Landeshauptstadt | 274.442 | 5,30 | 1,38 |
| Bonn, Stadt | 112.607 | 8,00 | 1,28 |
Beschreibung der Top-10-Städte mit dem höchsten
Handlungsbedarf:
Die Tabelle zeigt die Top 10 Städte mit dem höchsten Problem-Score, der
sich aus der Anzahl der Einpendler und der gewichteten
durchschnittlichen Verspätung zusammensetzt. Die Städte sind nach
abnehmendem Problem-Score sortiert und verdeutlichen, in welchen Städten
viele Pendler besonders stark von Verspätungen betroffen sind. Auffällig
ist, dass überwiegend große Metropolen wie München, Köln, Düsseldorf,
Frankfurt am Main, Berlin und Hamburg in der Liste vertreten sind, was
ihre zentrale Rolle im deutschen Pendlerverkehr widerspiegelt.
An der Spitze steht München, das aufgrund sehr hoher Einpendlerzahlen
trotz moderater Verspätungen den höchsten Problem-Score aufweist. Städte
wie Köln und Düsseldorf erreichen ebenfalls hohe Werte, da hier sowohl
das Verkehrsaufkommen als auch die Verspätungen vergleichsweise hoch
sind. Gleichzeitig zeigt das Auftreten kleinerer Städte wie Duisburg,
Hamm oder Bonn, dass auch bei geringeren Pendlerzahlen ein hoher
Handlungsbedarf entstehen kann, wenn die durchschnittlichen Verspätungen
besonders hoch sind. Insgesamt verdeutlicht die Tabelle, dass der
Problem-Score nicht allein von der Größe einer Stadt abhängt, sondern
vom Zusammenspiel aus Nachfrage und Zuverlässigkeit. Städte mit vielen
Pendlern profitieren daher besonders stark von Verbesserungen der
Pünktlichkeit, da bereits kleine Effizienzgewinne eine große Zahl von
Fahrgästen betreffen würden.
- Erstellen Sie ein Streudiagramm (Scatterplot), das die Beziehung zwischen Einpendlerzahl (x-Achse) und durchschnittlicher Verspätung (y-Achse) visualisiert.
- Zeichnen Sie horizontale und vertikale Linien beim jeweiligen Mittelwert ein, um 4 Quadranten zu bilden
- Färben Sie die Punkte nach Quadrant
- Beschriften Sie die Städte mit den höchsten Problem-Scores
- Nutzen Sie eine logarithmische Skala für die x-Achse
Beschreiben und iInterpretieren Sie die vier Quadranten:
- Oben rechts: Viele Pendler + hohe Verspätung = ?
- Oben links: Wenige Pendler + hohe Verspätung = ?
- Unten rechts: Viele Pendler + niedrige Verspätung = ?
- Unten links: Wenige Pendler + niedrige Verspätung = ?
Beantworten Sie dabei auch folgende Fragen:
- Warum ist es sinnvoll die x-Achse zu logarithmieren?
- Welche Städte liegen im kritischen Quadranten?
- Was würden Sie der Deutschen Bahn empfehlen?
Beschreibung und Interpretation: Im oberen rechten
Quadranten befinden sich die Bahnhöfe mit vielen Pendlern und einer
hohen Verspätung. Darin befinden sich die Bahnhöfe in Köln und München,
diese Bahnhöfe sind besonders kritisch, da viele Reisende und Pendler
von der hohen Verspätung betroffen sind.
Im oberen linken Quadranten sind die Bahnhöfe mit wenig Pendlern aber
ebenfalls einer hohen Verspätung. Dort befindet sich unter anderem
Düsseldorf, dieser Quadrant ist bezüglich der Verspätung zwar auch
kritisch aber betrifft nicht annähernd so viele Reisende.
Im unteren rechten Quadranten haben die Bahnhöfe zwar viele Pendler,
aber eine ziemlich niedrige Verspätung. Unter anderem Frankfurt und
Berlin befinden sich in diesem Quadranten, dieser Quadrant sollte für
jeden großen Bahnhof das Ziel sein.
Im unteren linken Quadranten ist die Verspätung auch gering, aber es
sind auch nicht so viele Pendler unterwegs. Das weist darauf hin, dass
es sich um kleinere Bahnhöfe handelt, diese sind auch einfacher zu
verwalten und können dadurch weniger Verspätungen aufweisen.
Warum ist es sinnvoll die x-Achse zu logarithmieren?
Es macht Sinn die Werte auf der x-Achse zu logarithmieren und auch
Extremwerte übersichtlich darzustellen. In dieser Grafik geht es
hauptsächlich um die Quadranten und nicht die genauen Pendlerzahlen der
einzelnen Bahnhöfe, dadurch ist eine gut lesbare Darstellung einer
exakten Darstellung der Pendlerzahlen überzuordnen.
Empfehlung an die Deutsche Bahn:
Meiner Meinung nach sollte sich die Deutsch Bahn vor allem auf den
oberen rechten Quadranten konzentrieren und dort die Verspätungen
verringern. Zwar besteht auch im oberen linken Quadranten
Handlungsbedarf wegen der ebenfalls hohen Verspätung, aber es sind nicht
so viele Reisende betroffen. Logisch ist es also nur, für so viele
Menschen wie es nur geht die Verspätungen zu reduzieren.
Der Vergleich – Auto vs. Bahn
Sie haben nun identifiziert, wo die Bahn Probleme hat: Städte im kritischen Quadranten (viele Pendler + hohe Verspätungen) brauchen dringend Verbesserungen. Aber bevor Sie Empfehlungen aussprechen können, müssen Sie eine zentrale Frage beantworten:
Lohnt sich die Bahn überhaupt – oder ist das Auto trotz Stau schneller?
Denn selbst wenn die Bahn unpünktlich ist, könnte sie immer noch schneller sein als das Auto im Berufsverkehr. Umgekehrt: Eine pünktliche Bahn bringt wenig, wenn das Auto trotzdem schneller ist. Erst der direkte Vergleich zeigt uns, wo die Bahn wirklich konkurrenzfähig ist – und wo nicht.
Methodische Herausforderungen
Für einen fairen Vergleich sollten Sie “Äpfel mit Äpfeln” vergleichen:
- Beim Auto muss der Stau berücksichtigt werden (nicht nur die theoretische Fahrzeit)
- Bei der Bahn muss die Verspätung berücksichtigt werden (nicht nur der Fahrplan)
- Beide Routen müssen dieselben Start- und Endpunkte haben
Für die Auto-Fahrtzeiten nutzen Sie OSRM (Open Source Routing Machine), das auf OpenStreetMap-Daten basiert. OSRM berechnet echte Straßenrouten, keine Luftlinien.
- Erklären Sie in eigenen Worten:
- Warum ist OSRM-Routing für diesen Vergleich besser geeignet als eine
einfache Berechnung nach der Formel
Distanz / Geschwindigkeit? - Welche Faktoren müssen zusätzlich berücksichtigt werden, um einen
realistischen Vergleich zu ermöglichen? Denken Sie an:
- Tageszeit
- Parkplatzsuche
- Fußweg zum Ziel
- Wartezeit und Umsteigen bei der Bahn
Warum ist OSRM-Routing für diesen Vergleich besser geeignet als
eine einfache Berechnung nach der Formel
Distanz / Geschwindigkeit? Ein Vergleich auf Basis der
Formel Distanz / Geschwindigkeit bildet reale Verkehrsbedingungen nur
sehr unzureichend ab, da er von idealisierten Annahmen ausgeht.
OSRM-Routing hingegen berechnet konkrete Straßenrouten auf Grundlage
realer Geodaten und berücksichtigt dabei die tatsächliche Struktur des
Straßennetzes, einschließlich Kurven, Kreuzungen, Einbahnstraßen und
Autobahnabschnitte. Dadurch entstehen realistischere Fahrzeiten, die
näher an der tatsächlichen Nutzung durch Autofahrer liegen. Für einen
datengetriebenen Vergleich zwischen Auto und Bahn ist dies entscheidend,
da nur so vergleichbare und praxisnahe Reisezeiten ermittelt werden
können.
Welche Faktoren müssen zusätzlich berücksichtigt werden, um einen realistischen Vergleich zu ermöglichen? Für einen realistischen Vergleich zwischen Auto und Bahn reicht es nicht aus, ausschließlich die reine Fahrzeit zu betrachten. Die Tageszeit spielt eine zentrale Rolle, da sie das Verkehrsaufkommen auf der Straße ebenso beeinflusst wie die Pünktlichkeit und Taktung des Bahnverkehrs. Zudem müssen beim Auto Parkplatzsuche und der anschließende Fußweg zum Ziel berücksichtigt werden, da diese in urbanen Räumen einen erheblichen Zeitanteil ausmachen können. Bei der Bahn hingegen sind Wartezeiten, mögliche Umstiege und Verspätungen relevante Faktoren, die die tatsächliche Reisezeit verlängern. Erst durch die Einbeziehung dieser zusätzlichen Zeitkomponenten lassen sich Auto- und Bahnfahrten fair vergleichen, da beide Verkehrsmittel dann unter realistischen Alltagsbedingungen gegenübergestellt werden.
- Für die Top 10 Einpendler-Städte wurden typische Pendlerstrecken
definiert (z.B. Dachau \(\rightarrow\)
München, Neuss \(\rightarrow\)
Düsseldorf). Die OSRM-Ergebnisse liegen bereits vor. Nutzen Sie für ihre
Analyse den Datensatz
fahrtzeit.
Erstellen Sie:
- Eine Tabelle mit: Stadt, Strecke, Distanz (km), Auto-Fahrzeit (Hauptverkehrszeit), Bahn-Fahrzeit (real), Differenz
- Berechnen Sie die jährliche Zeitersparnis bei 220 Arbeitstagen und 2x täglichem Pendeln.
Interpretieren Sie ihre Tabelle:
- In wie vielen Fällen ist die Bahn schneller als das Auto?
- Wie viele Stunden pro Jahr kann ein Pendler maximal sparen?
- Gibt es Strecken, bei denen das Auto schneller ist? Woran könnte das liegen?
| Stadt | Strecke | Distanz (km) | Auto (HVZ, min) | Bahn (real, min) | Zeitvorteil Bahn (min) | Jahresersparnis (Std) |
|---|---|---|---|---|---|---|
| Berlin | Potsdam → Berlin | 34,2 | 49,3 | 29,6 | 19,7 | 144,6 |
| München | Dachau → München | 19,1 | 40,2 | 26,1 | 14,1 | 103,5 |
| Hannover | Celle → Hannover | 42,2 | 54,4 | 40,8 | 13,6 | 99,8 |
| Frankfurt | Darmstadt → Frankfurt | 36,0 | 35,8 | 23,0 | 12,8 | 93,9 |
| Düsseldorf | Neuss → Düsseldorf | 12,1 | 27,1 | 17,1 | 10,0 | 73,3 |
| Hamburg | Harburg → Hamburg | 14,2 | 24,0 | 16,3 | 7,7 | 56,7 |
| Stuttgart | Esslingen → Stuttgart | 14,0 | 27,2 | 20,2 | 7,0 | 51,6 |
| Nürnberg | Fürth → Nürnberg | 10,4 | 18,9 | 12,9 | 6,0 | 44,4 |
| Köln | Leverkusen → Köln | 18,3 | 28,7 | 22,8 | 5,9 | 43,3 |
| Essen | Mülheim → Essen | 11,0 | 18,0 | 15,3 | 2,7 | 20,1 |
| Ulm | Neu-Ulm → Ulm | 3,7 | 8,1 | 8,9 | -0,8 | -5,8 |
In wie vielen Fällen ist die Bahn schneller als das
Auto?
Bei den Top 10 Pendlerstrecken wäre immer die Bahn schneller als das
Auto. Nur bei unserer eingefügten Strecke zwischen Ulm und Neu-Ulm wäre
man mit dem Auto minimal schneller (0,79 Minuten). Zusammenfassend kann
man also sagen, dass man auf den Top Pendlerstrecken mit der Bahn
deutlich schneller als mit dem Auto unterwegs ist.
Wie viele Stunden pro Jahr kann ein Pendler maximal
sparen?
Die maximale Ersparnis hätte ein Pendler auf der Strecke von Potsdam
nach Berlin, weil dort die Differenz zwischen Auto und Bahn mit 144,63
Stunden mit Abstand am höchsten liegt. Also würde es sich dort am
meisten lohnen mit dem Zug zu fahren, statt auf das Auto zu greifen.
Auf welcher Strecke ist das Auto schneller?
Auf der Pendlerstrecke zwischen Neu-Ulm und Ulm wäre man mit dem Auto
schneller, dies lässt sich erklären, wenn man auf die anderen Städte der
Tabelle blickt. Zwischen München, Hamburg und Berlin ist Ulm eine eher
kleine Stadt und hat auch nicht ansatzweise ein so hohes
Verkehrsaufkommen. Auch kommen die Züge nicht so oft, dadurch wird die
Reise mit der Bahn zusätzlich verkürzt.
- Da Sie alle in Ulm studieren und eventuell aus dem Ulmer Umland
einpendeln, sollten Sie die 5 wichtigsten Pendlerrouten nach
Ulm näher analysieren. Stellen Sie in einem
Dumbbell-Chart (oder Lollipop-Chart) die Unterschiede
zwischen Auto- und Bahnzeiten visuell dar. Nutzen Sie für ihre Analyse
den Datensatz
ulm_routen.
Die 5 wichtigsten Pendlerrouten nach Ulm sind:
- Neu-Ulm \(\rightarrow\) Ulm
- Blaustein \(\rightarrow\) Ulm
- Ehingen \(\rightarrow\) Ulm
- Laupheim \(\rightarrow\) Ulm
- Langenau \(\rightarrow\) Ulm
Markieren Sie, welche Orte keinen Bahnhof haben.
Beschreiben und interpretieren Sie ihre Grafik. Welche Besonderheiten zeigen die ländlichen Strecken?
Hinweis: Nutzen Sie geom_segment() und
geom_point() für ihr Dumbbell-Chart
oder Lollipop-Chart.
Beschreibung:
Das Dumbbell-Chart vergleicht die durchschnittlichen Reisezeiten für die
fünf wichtigsten Pendlerrouten aus dem Umland nach Ulm. Die blauen
Punkte zeigen die Fahrzeit mit dem Auto in der Hauptverkehrszeit,
während die roten Punkte die gesamte Reisezeit mit der Bahn (inklusive
der Wege zum und vom Bahnhof) darstellen. Die graue Verbindungslinie
visualisiert direkt die Zeitdifferenz zwischen beiden
Verkehrsmitteln.
Interpretation:
Die Auswertung zeigt eine klare Dominanz des Individualverkehrs, da das
Auto auf vier von fünf Strecken trotz potenzieller Staus die schnellere
Option darstellt. Besonders drastisch ist der Unterschied in Laupheim,
wo Pendler mit dem PKW fast eine Viertelstunde schneller sind, sowie in
Blaustein, das aufgrund fehlender direkter Bahninfrastruktur einen
massiven Zeitnachteil im ÖPNV aufweist. Auf der stadtnahen Strecke
Neu-Ulm → Ulm unterscheiden sich die Pendelzeiten kaum, was auf die
kurze Distanz im urbanen Raum zurückzuführen ist. Mit zunehmender
Entfernung nimmt der zeitliche Vorteil des Autos jedoch deutlich zu.
Insbesondere auf den ländlichen Routen wie Ehingen → Ulm und Laupheim →
Ulm weist die Bahn erheblich längere Reisezeiten auf. Dies deutet darauf
hin, dass die Bahn auf diesen Strecken im Vergleich zum Auto weniger
effizient ist und zeitlich nicht konkurrenzfähig bleibt.
Besonderheiten:
Eine interessante Ausnahme bildet lediglich die Route von Langenau nach
Ulm: Hier ist die Bahnverbindung in der Gesamtzeit sogar etwas schneller
als das Auto, was auf eine effiziente Taktung der Bahnabfahrten in
Kombination mit stauanfälligen Straßen in Richtung Ulm hindeutet. Da
dies jedoch nur eine Ausnahme ist führt es dazu, dass das Auto für die
Mehrheit der Pendler aus dem Umland rational betrachtet weiterhin die
zeiteffizientere Wahl bleibt.
Die volkswirtschaftlichen Kosten
Verspätungen kosten nicht nur Nerven, sie haben einen realen volkswirtschaftlichen Preis. Jede Minute, die ein Pendler im verspäteten Zug wartet, ist verlorene Arbeitszeit.
Um diese Kosten etwas besser zu quantifizieren sollten Sie sich den Medianlohn der jeweiligen Städte herunterladen und näher analysieren.
- Berechnen Sie die volkswirtschaftlichen Kosten der Bahnverspätungen für die 11 Städte.
Datensätze:
staedte_basis(aus Aufgabe 4) – enthält Einpendler, Medianlohn und Staudaten- Ergebnis aus Aufgabe 9: die gewichtete durchschnittliche Verspätung pro Stadt (in Minuten)
Nutzen Sie die folgenden Annahmen:
Annahmen:
- 220 Arbeitstage pro Jahr
- 2 Fahrten pro Tag (Hin + Zurück)
- Ca. 8,4% der Pendler nutzen die Bahn (nationaler Durchschnitt laut MiD 2023 Kurzbericht)
Berechnen Sie für jede Stadt:
- Anzahl der Bahnpendler (Einpendler × 8,4%)
- Verspätungsstunden pro Jahr (Verspätung × 220 × 2 / 60)
- Kosten pro Pendler (Verspätungsstunden × Stundenlohn)
- Gesamtkosten der Stadt
Erstellen Sie auf Basis ihrer Berechnung eine Tabelle, welche die Anzahl der Bahnpendler, die Verspätungsstunden pro Jahr, die Kosten pro Pendler und die Gesamtkosten der Stadt anschaulich darstellt.
Beschreiben und interpretieren Sie ihre Tabelle. Gehen Sie dabei auch auf die Gesamtkosten der 11 Städte ein. Erklären Sie außerdem, warum der Medianlohn für diese Berechnung besser geeignet ist als der Durchschnittslohn.
Hinweis: Für die Umrechnung auf Stundenlohn: Monatsentgelt / 160 (bei 40h/Woche).
| Stadt | Bahnpendler | Verlorene Std/Jahr | Kosten pro Kopf | Gesamtkosten der Stadt |
|---|---|---|---|---|
| München | 38.274 | 43,9 | 1328,78 € | 50.857.934 € |
| Köln | 25.780 | 57,9 | 1590,62 € | 41.006.294 € |
| Frankfurt | 34.092 | 37,7 | 1111,06 € | 37.878.234 € |
| Düsseldorf | 23.914 | 53,8 | 1519,95 € | 36.348.812 € |
| Hamburg | 33.008 | 32,6 | 922,13 € | 30.437.681 € |
| Berlin | 32.955 | 34,5 | 895,47 € | 29.510.477 € |
| Stuttgart | 23.053 | 38,9 | 1138,56 € | 26.247.450 € |
| Essen | 11.869 | 54,6 | 1361,04 € | 16.153.949 € |
| Nürnberg | 13.902 | 37,1 | 980,73 € | 13.633.810 € |
| Ulm | 5.741 | 29,5 | 795,32 € | 4.565.660 € |
Beschreibung und Interpretation:
Die Tabelle soll die durch Verspätung entstehende Kosten darstellen,
dazu sind neben der Stadt und der Bahnpendleranzahl auch die
Verspätungsstunden (pro Jahr), die Kosten pro Pendler und schlussendlich
auch die Gesamtkosten dargestellt. Die höchsten Gesamtkosten entstehen
in München mit guten 50.000.000€ im Jahr, dies lässt sich darauf
zurückführen, dass dort die meisten Bahnpendler sind. Wenig überraschend
hat Ulm die geringsten Kosten mit 4.565.660€, allerdings ist dies wenig
aussagekräftig aufgrund der geringen Pendlerzahl. Abgesehen von Ulm hat
Nürnberg mit 13.663.810€ die geringsten Kosten, Nürnberg hat eher wenig
Pendler, wenig Verspätung und geringe Kosten pro Pendler.
Für die Berechnung wurde der Medianlohn verwendet, dies macht auch
deutlich mehr Sinn als der durchschnittliche Lohn. Der Median ist viel
robuster gegenüber Ausreißern, das heißt einige wenige Top-Verdiener
haben keinen wirklichen Einfluss auf die Kosten aller Pendler.
- Setzen Sie die Kosten der Bahn (aus Aufgabe 14) den Kosten des Autos
gegenüber. Vergleichen Sie diese in einer Szenario-Analyse mittels eines
gestapelten Balkendiagramms. Nutzen Sie für ihre Analysen den Datensatz
staedte_basis.
Berechnen Sie zuerst die Kosten des Autostaus pro Stadt:
- Anzahl der Autopendler (Einpendler × 91,6%)
- Staukosten pro Autopendler (Staustunden × Stundenlohn)
- Gesamtkosten der Stadt durch Autostau
Führen Sie anschließend einen Szenario-Vergleich durch: Was passiert, wenn der Bahnanteil von 8,4% auf 20% steigt?
- Berechnen Sie die Gesamtkosten (Bahn + Auto) für beide Szenarien
- Annahme: Weniger Autos = weniger Stau (z.B. 20% weniger Stauzeit pro Autopendler)
Erstellen Sie ein gestapeltes Balkendiagramm nach Szenario. Beschreiben und intepretieren Sie ihre Grafik. Gehen Sie insbesondere auf die folgenden Fragen ein:
- Wie verteilen sich die Kosten zwischen Bahn und Auto im Status quo?
- Welches Verkehrsmittel verursacht den größeren volkswirtschaftlichen Schaden?
- Was ist die Nettoersparnis bei 20% Bahnanteil?
Beschreibung:
Die Grafik stellt die volkswirtschaftlichen Pendlerkosten der
betrachteten Städte in Form eines gestapelten Balkendiagramms dar und
vergleicht dabei zwei Szenarien: den Status quo mit einem Bahnanteil von
8,4 % sowie ein Alternativszenario mit einem erhöhten Bahnanteil von 20
%. Die Gesamtkosten setzen sich jeweils aus den Kosten des Autoverkehrs
in Form von Staukosten und den Kosten des Bahnverkehrs durch
Verspätungen zusammen. Durch die gestapelte Darstellung wird
anschaulich, wie sich die Gesamtkosten auf die beiden Verkehrsmittel
verteilen und wie sich eine Veränderung des Modal Splits auf die Höhe
der volkswirtschaftlichen Kosten auswirkt.
Wie verteilen sich die Kosten zwischen Bahn und Auto im Status quo? Im Status quo entfällt der mit Abstand größte Teil der volkswirtschaftlichen Kosten auf den Autoverkehr. Der dunklere Balkenanteil, der die Autokosten abbildet, ist deutlich größer als der Anteil der Bahnkosten. Dies ist vor allem darauf zurückzuführen, dass mit rund 91,6 % der überwiegende Teil der Pendler das Auto nutzt und somit sehr viele Personen gleichzeitig von Stauzeiten betroffen sind. Die Kosten des Bahnverkehrs fallen im Vergleich geringer aus, da nur ein kleiner Anteil der Pendler die Bahn nutzt. Trotz teilweise erheblicher Verspätungen im Bahnverkehr sind die gesamtwirtschaftlichen Kosten der Bahn im Status quo daher deutlich niedriger als jene des Autoverkehrs.
Welches Verkehrsmittel verursacht den größeren volkswirtschaftlichen Schaden? Der Autoverkehr verursacht eindeutig den größeren volkswirtschaftlichen Schaden. Die Grafik verdeutlicht, dass die Staukosten den Hauptanteil der Gesamtkosten ausmachen. Bereits moderate Stauzeiten führen aufgrund der hohen Anzahl an Autopendlern und der zeitlichen Verdichtung des Berufsverkehrs zu sehr hohen aggregierten Kosten. Der Bahnverkehr ist zwar ebenfalls mit Zeitverlusten für einzelne Pendler verbunden, erreicht jedoch aufgrund des vergleichsweise geringen Nutzeranteils nicht annähernd die gesamtwirtschaftliche Bedeutung der Autostaus. Aus volkswirtschaftlicher Perspektive ist der Autoverkehr somit der zentrale Kostentreiber.
Was ist die Nettoersparnis bei 20% Bahnanteil? Im Szenario mit einem Bahnanteil von 20 % sinken die Gesamtkosten deutlich im Vergleich zum Status quo. Zwar steigen die Kosten des Bahnverkehrs, da mehr Pendler die Bahn nutzen, dieser Anstieg wird jedoch durch den starken Rückgang der Autokosten mehr als kompensiert. Die zugrunde liegende Annahme, dass weniger Autos zu geringeren Stauzeiten führen, bewirkt eine deutliche Reduktion der Staukosten pro Autopendler und damit der gesamten Autokosten. Die Differenz zwischen den Gesamtkosten im Status quo und im 20 %-Szenario stellt die Nettoersparnis dar. Diese zeigt, dass eine Verkehrsverlagerung hin zur Bahn nicht nur aus verkehrs- und umweltpolitischer Sicht sinnvoll ist, sondern auch erhebliche volkswirtschaftliche Einsparpotenziale durch reduzierte Zeitverluste bietet.
Politikempfehlung – Ihre Synthese
Sie haben nun umfangreiche Analysen durchgeführt und viele Erkenntnisse über die Bahn gewonnen. Jetzt ist es Zeit, diese zu einer kohärenten Empfehlung zusammenzufügen.
Szenario: Sie sind Berater:in des Bundesministeriums für Digitales und Verkehr. Die Ministerin bittet Sie um eine evidenzbasierte Politikempfehlung zur Verbesserung des Pendlerverkehrs in Deutschland.
- Formulieren Sie eine Politikempfehlung für das Bundesministerium für Digitales und Verkehr.
Schreiben Sie eine Executive Summary (max. 5 Sätze). Fassen Sie hierbei die wichtigsten Erkenntnisse aus ihrem Projekt zusammen. Was ist die zentrale Botschaft?
Formulieren Sie 3 konkrete Empfehlungen. Jede muss enthalten:
- Ein konkretes Ziel (Was soll erreicht werden?)
- Eine messbare Maßnahme (Wie wird es umgesetzt?)
- Eine Begründung mit Zahlen aus Ihrer Analyse
- Nennen Sie zwei Limitationen Ihrer Datengrundlage
- Was würden Sie mit zusätzlichen Daten noch untersuchen?
Executive Summary:
Unsere Analyse zeigt, dass die Bahn auf den Top-Pendlerstrecken zeitlich
oft schneller ist als das Auto, die Zuverlässigkeit jedoch das zentrale
Hindernis darstellt. Besonders kritisch ist die Situation in Metropolen
wie München und Köln, wo hohe Einpendlerzahlen auf hohe Verspätungen
treffen, was zu volkswirtschaftlichen Kosten in zweistelliger
Millionenhöhe pro Stadt führt. Eine gezielte Investition in die
Infrastruktur dieser “Problem-Knoten” und eine Stabilisierung des
ländlichen Regionalverkehrs sind daher essenziell, um das Potenzial der
Bahn voll auszuschöpfen und die volkswirtschaftlichen Kosten zu
minimieren.
Empfehlungen an das Bundesministerium
Um den volkswirtschaftlichen Schaden in den Problemregionen effektiv zu
senken, wäre eine effizientere Zugtaktung in den Hauptknotenpunkten
empfehlenswert. Die Analyse identifiziert einen kritischen Bereich
(“Kritischer Quadrant”), in dem Städte wie München und Köln liegen, bei
denen hohe Pendlerzahlen auf hohe Verspätungen treffen. Da allein in
München jährlich Kosten von über 50 Millionen Euro durch
Bahnverspätungen entstehen, müssen hier gezielte Investitionen in
Personal und digitale Stellwerkstechnik priorisiert werden, um die
größte Masse an Pendlern zu entlasten.
Ein zweiter Schwerpunkt muss auf der Stabilisierung des abendlichen Berufsverkehrs liegen. Die Analyse der Nahverkehrsdaten zeigt deutlich, dass die Verspätungswerte im Tagesverlauf ansteigen und zwischen 16:00 und 19:00 Uhr ihren Höhepunkt erreichen. Während der morgendliche Pendlerstrom noch vergleichsweise pünktlich abgewickelt wird oder wenigstens tagsüber abgefedert werden kann, häufen sich Verspätungen bis zum Abend systematisch. Ziel muss es sein, durch höhere Bereitstellungsreserven an Werktagen eine Pünktlichkeitsrate zu erreichen, die den Abendverkehr für Pendler wieder verlässlich planbar macht.
Zusätzlich wäre die Schaffung von mehr Attraktivität für Zugfahren auf regionalen Strecken empfehlenswert. Der Vergleich der Reisezeiten verdeutlicht, dass das Auto auf vielen ländlichen Hauptrouten weiterhin die zeiteffizientere Wahl bleibt. Um hier eine echte Wettbewerbsfähigkeit herzustellen, müssen nicht nur die Schienenwege selbst, sondern auch die Zu- und Abgangswege durch integrierte Shuttle-Lösungen oder Taktverdichtungen beschleunigt werden, damit der zeitliche Rückstand der Bahn gegenüber dem PKW ausgeglichen wird.
Limitationen, zusätzliche Daten:
Hier werden regionale Ticketpreisunterschiede und die Wirkung
finanzieller Anreize (wie steuerliche Vorteile oder Firmentickets)
vernachlässigt, welche die Wechselbereitschaft oft stärker beeinflussen
als die reine Zeitersparnis. Zudem wurden Haustür-zu-Haustür-Zeiten
(inkl. Parkplatzsuche) nur pauschal geschätzt. Zukünftige Untersuchungen
sollten daher Echtzeit-Auslastungsdaten und die Preisdynamik des
Deutschlandtickets einbeziehen, um die Attraktivität der Bahn
ganzheitlich zu bewerten.
Zusatzaufgaben (optional)
Bisher haben Sie zwei Dimensionen betrachtet: Zeit (Bahn ist schneller) und Geld (Verspätungen kosten). Aber es gibt einen dritten, oft vergessenen Aspekt: die Umwelt.
Das Auto ist nicht nur langsamer und teurer; es ist auch ein Klimakiller. Ein durchschnittlicher PKW emittiert z.B. etwa 150 g CO2 pro Personenkilometer.
- Recherchieren Sie die CO2-Emissionsfaktoren und das Mobilitätsverhalten:
- Erstellen Sie eine kleine Tabelle in der Sie die CO2-Emissionen (in
g/Personenkilometer) für folgende Verkehrsmittel auflisten:
- PKW (Durchschnitt)
- PKW (Elektro, deutscher Strommix)
- ICE/IC (Fernverkehr)
- RE/RB (Nahverkehr)
- S-Bahn
- Berechnen Sie einen gewichteten Durchschnitt für die Bahn, wenn 70% der Pendler Nahverkehr und 30% Fernverkehr nutzen.
- Um wie viel Prozent sind die Bahn-Emissionen niedriger als beim Auto?
Hinweis: Nutzen Sie Daten vom Umweltbundesamt oder dem DB Umweltbericht.
| Verkehrsmittel | CO2-Emissionen (g/Pkm) |
|---|---|
| PKW (Durchschnitt) | 162 g |
| PKW (Elektro, dt. Strommix) | 70 g |
| ICE/IC (Fernverkehr) | 1 g |
| RE/RB (Nahverkehr) | 44 g |
| S-Bahn | 42 g |
Der gewichtete Durchschnitt für die Bahn (wenn 70% Nah- und 30% Fernverkehr nutzen) liegt bei 30,4 Gramm pro Personenkilometer. Die Emissionen der Bahn sind folglich ca. 81,2% niedriger als die eines Autos.
- Die Studie “Mobilität in Deutschland” (MiD 2023) ist die wichtigste Datenquelle zum Mobilitätsverhalten in Deutschland. Sie ermöglicht einen Vergleich mit 2017 (vor Corona).
Lesen Sie den MiD 2023 Kurzbericht und beantworten Sie:
- Modal Split: Wie hat sich der Anteil des öffentlichen Verkehrs (ÖV) am Gesamtverkehr zwischen 2017 und 2023 verändert?
- Homeoffice-Effekt: Wie hat sich die durchschnittliche Tagesstrecke verändert? Was ist laut MiD der Hauptgrund für diese Veränderung?
- Stadt vs. Land: Welchen Anteil hat das Deutschlandticket in Metropolen vs. ländlichen Räumen? Was bedeutet das für die Ulm-Region?
- Implikation für CO2: Welche Schlussfolgerung ziehen Sie aus diesen Veränderungen für das CO2-Einsparpotenzial durch Bahnpendeln? (2-3 Sätze)
Modal Split: Wie hat sich der Anteil des öffentlichen Verkehrs (ÖV) am Gesamtverkehr zwischen 2017 und 2023 verändert? Der MiD-Kurzbericht zeigt, dass sich der Anteil des öffentlichen Verkehrs am gesamten Verkehrsaufkommen zwischen 2017 und 2023 leicht erhöht hat. Während der ÖV-Anteil 2017 bei rund 10 % lag, beträgt er 2023 11 % der zurückgelegten Wege. Damit verzeichnet der öffentliche Verkehr einen leichten Aufwärtstrend, während der motorisierte Individualverkehr (MIV) im gleichen Zeitraum an Bedeutung verliert. Der Rückgang des Autoverkehrs um mehrere Prozentpunkte markiert dabei den niedrigsten MIV-Anteil seit Beginn der MiD-Zeitreihe. Insgesamt bleibt der ÖV-Anteil zwar vergleichsweise moderat, zeigt aber eine Stabilisierung und leichte Erholung nach den Corona-bedingten Einbrüchen.
Homeoffice-Effekt: Wie hat sich die durchschnittliche Tagesstrecke verändert? Was ist laut MiD der Hauptgrund für diese Veränderung? Zwischen 2017 und 2023 ist die durchschnittliche Tagesstrecke pro Person spürbar gesunken. Laut MiD reduzierte sich die täglich zurückgelegte Strecke von rund 39 km im Jahr 2017 auf etwa 35 km im Jahr 2023. Gleichzeitig ging auch die durchschnittliche Anzahl der täglichen Wege leicht zurück, während die tägliche Unterwegszeit mit rund 84–85 Minuten nahezu konstant blieb. Als zentraler Grund für diese Entwicklung nennt die MiD veränderte Arbeits- und Lebensgewohnheiten, insbesondere die zunehmende Nutzung von Homeoffice sowie digitale Alternativen für Einkäufe und Dienstleistungen. Dadurch entfallen vor allem berufsbedingte Wege, was die geringere Tagesstrecke erklärt.
Stadt vs. Land: Welchen Anteil hat das Deutschlandticket in Metropolen vs. ländlichen Räumen? Was bedeutet das für die Ulm-Region? Der MiD-Kurzbericht zeigt, dass das Deutschlandticket im Einführungsjahr 2023 von rund 16 % der Bevölkerung ab 14 Jahren genutzt wird. Die Nutzung ist in Metropolen und großen Stadtregionen höher als in ländlichen Räumen, da dort das Angebot an Bus- und Bahnverbindungen dichter und attraktiver ist. Dennoch findet das Deutschlandticket auch außerhalb der Großstädte eine relevante Nutzung und trägt dazu bei, die Zugangshürden zum ÖPNV zu senken. Für die Ulm-Region, die als Mittelstadt in einem städtisch geprägten Raum einzuordnen ist, bedeutet dies, dass das Deutschlandticket grundsätzlich ein wirksames Instrument zur Förderung des Bahn- und ÖPNV-Pendels sein kann, dessen Potenzial jedoch stark von der Angebotsqualität und Taktung abhängt.
Implikation für CO2: Welche Schlussfolgerung ziehen Sie aus diesen Veränderungen für das CO2-Einsparpotenzial durch Bahnpendeln? Aus den Ergebnissen der MiD 2023 lässt sich ableiten, dass eine Verlagerung vom Auto auf den öffentlichen Verkehr ein relevantes CO₂-Einsparpotenzial besitzt. Der sinkende MIV-Anteil und die Stabilisierung des ÖV zeigen, dass verkehrspolitische Maßnahmen wie das Deutschlandticket und Homeoffice strukturelle Veränderungen begünstigen können. Insbesondere im Pendelverkehr können dadurch langfristig Emissionen reduziert werden, auch wenn der ÖV-Anteil insgesamt weiterhin ausbaufähig bleibt.
- Berechnen Sie die CO2-Ersparnis für die 11 analysierten Städte.
Datensatz: co2_analyse (aus Aufgabe 4)
– enthält Streckenlängen, Einpendlerzahlen und vorberechnete Werte
Annahmen:
- 220 Arbeitstage pro Jahr
- 2 Fahrten pro Tag (Hin + Zurück)
- CO2-Auto: 150 g/km, CO2-Bahn: 47 g/km (gewichteter Durchschnitt)
Berechnen Sie für jeden Umsteiger (Auto \(\rightarrow\) Bahn):
- Jährliche Kilometer
- CO2-Emissionen mit Auto (kg/Jahr)
- CO2-Emissionen mit Bahn (kg/Jahr)
- Ersparnis (kg/Jahr)
Nun sollten Sie eine Szenario Analyse ähnlich wie in Aufgabe 15 durchführen: Wenn sich der Bahnanteil von 8,4% auf 20% erhöht: wie viele Tonnen CO2 würden in den 11 Städten jährlich eingespart?
Visualisieren Sie die CO2-Ersparnis pro Stadt.
Stellen Sie die Ersparnis in Kontext, um die Ersparnis greifbarer zu machen, z.B. wie viele Mallorca-Flüge (hin + zurück, ~750 kg CO2) entspricht das?
| Kategorie | Wert | Info |
|---|---|---|
| CO2-Ersparnis gesamt (11 Städte) | 339.416 Tonnen | Jährliche Reduktion |
| Entspricht Mallorca-Flügen | 452.554 Stück | Hin- und Rückflug (ca. 750 kg CO2) |
Anhang
Anhang A: Beschreibung der bereitgestellten Datensätze
1. Bahnhof-Kreis-Mapping (bahnhof_ags_mapping.csv)
Dieses Mapping ist essenziell für die Verknüpfung von Bahn- und Pendlerdaten. Die Bahndaten sind auf Bahnhofsebene (z.B. “München Hbf”), die Pendlerdaten auf Kreisebene (z.B. “München, Landeshauptstadt”). Der AGS (Amtlicher Gemeindeschlüssel) ist der Schlüssel, der beide Welten verbindet.
Wichtige Variablen:
station_name: Name des Bahnhofsags: Amtlicher Gemeindeschlüssel (5-stellig für Kreise)kreis_name: Name des Landkreises/der kreisfreien Stadt
2. Fahrtzeit-Vergleich OSRM
(fahrtzeit_osrm_vergleich.csv)
Für einen fairen Vergleich Auto vs. Bahn brauchen wir realistische Fahrtzeiten. OSRM (Open Source Routing Machine) berechnet echte Straßenrouten basierend auf OpenStreetMap – keine Luftlinien, sondern tatsächliche Straßenverbindungen mit Abbiegevorgängen, Geschwindigkeitsbegrenzungen und Straßentypen.
Wichtige Variablen:
stadt: Zielstadt der Pendlerstreckestrecke_name: Beschreibung der Route (z.B. “Dachau \(\rightarrow\) München”)auto_distanz_km: Fahrstrecke mit dem Auto in kmauto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit (mit Staufaktor)bahn_planzeit_min: Fahrzeit laut Fahrplanbahn_verspaetung_min: Durchschnittliche Verspätungbahn_real_min: Realistische Bahnfahrzeit (Fahrplan + Verspätung)
Wie wurde das Routing durchgeführt?
Koordinaten ermitteln: Für jede Pendlerstrecke wurden Start- und Zielkoordinaten definiert (z.B. Stadtzentrum Dachau \(\rightarrow\) München Hauptbahnhof).
OSRM-API abfragen: Über die öffentliche OSRM-Demo-API (
router.project-osrm.org) wurden für jede Route Distanz und Fahrzeit abgefragt. Die API gibt die schnellste Route zurück, basierend auf dem aktuellen Straßennetz.Staufaktor anwenden: Die OSRM-Basisfahrzeit entspricht einer Fahrt bei freiem Verkehr. Für die Hauptverkehrszeit (HVZ) wurde ein Staufaktor von 1,3-1,5 angewendet, basierend auf den INRIX-Daten der jeweiligen Stadt.
Bahn-Daten ergänzen: Die Bahnfahrzeiten stammen aus dem DB-Fahrplan, ergänzt um die durchschnittliche Verspätung aus unserer Analyse.
Weiterführende Links:
- OSRM Projekt-Website – Dokumentation und Demo
- OSRM API-Dokumentation – Technische Details zur API
- OpenStreetMap – Die Kartendaten, auf denen OSRM basiert
- R-Paket
osrm– Für eigene OSRM-Abfragen in R
3. Ulm-Pendlerrouten (ulm_pendlerrouten.csv)
Da Sie in Ulm studieren, analysieren wir die wichtigsten Pendlerrouten in die Stadt genauer. Dieser Datensatz enthält die 5 wichtigsten Einpendler-Gemeinden mit detaillierten Informationen zur Erreichbarkeit.
Wichtige Variablen:
start_ort: Startgemeinde der Pendlerrouteziel_ort: Zielort (Ulm)auto_dauer_min: Fahrzeit mit dem Autoauto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeitbahn_fahrplan_min: Bahnfahrzeit laut Fahrplanbahn_real_min: Realistische Bahnfahrzeithat_bahnhof: TRUE/FALSE – hat der Startort einen Bahnanschluss?pendler_geschaetzt: Geschätzte Anzahl Pendler auf dieser Route
4. Entgeltstatistik (ba_entgeltstatistik_2024.csv)
Um die volkswirtschaftlichen Kosten von Verspätungen zu berechnen, brauchen wir regionale Lohndaten. Diese haben wir von der Bundesagentur für Arbeit heruntergeladen.
Wichtige Variablen:
kreis_name: Name des Kreises/der Stadtags: Amtlicher Gemeindeschlüsselmedianentgelt_brutto_monat: Median-Bruttomonatsentgelt in Euro
Quelle: Bundesagentur für Arbeit, Entgeltstatistik 2024