Motivation
Jeden Morgen das gleiche Bild: Verstopfte Autobahnen, genervte Pendler, verlorene Zeit. 20,5 Millionen Menschen pendeln in Deutschland täglich zur Arbeit – die meisten davon mit dem Auto. Laut INRIX Traffic Scorecard 2024 verlieren Pendler in deutschen Großstädten zwischen 40 und 60 Stunden pro Jahr allein im Stau. Das entspricht fast einer kompletten Arbeitswoche, die im Nichts verpufft.
Die Idee liegt auf der Hand: Wer Bahn fährt, steht nicht im Stau. Aber wie schlägt sich die Bahn im Vergleich zum Auto? Ist sie wirklich schneller? Und wie zuverlässig ist sie eigentlich?
In diesem Projekt analysieren Sie Echtzeitdaten der Deutschen Bahn, Pendlerstatistiken der Bundesagentur für Arbeit, Staudaten von INRIX und die Entgeltstatistik der Bundesagentur für Arbeit. Sie werden herausfinden, dass die Antwort auf die Frage “Sollten mehr Menschen Bahn fahren?” komplexer ist, als man zunächst vermuten würde und dass sie wichtige Implikationen für die Verkehrspolitik hat.
Ihre zentrale Forschungsfrage lautet:
“Sollten mehr Menschen Bahn fahren – und was müsste sich dafür ändern?”
Datengrundlage
In diesem Projekt arbeiten Sie mit mehreren Datensätzen. Ein wichtiger Teil des Projekts ist das eigenständige Beschaffen von Primärdaten aus offiziellen Quellen.
Daten einlesen und verstehen
Bevor Sie mit der Analyse beginnen können, müssen Sie verschiedenste
Datensätze einlesen und deren Struktur verstehen. Die Deutsche Bahn
stellt über unterschiedliche Schnittstellen Echtzeitdaten für ihre Züge
als open-source Daten zur Verfügung, welche per API-Calls geladen werden
können. Jedoch gibt es von der Deutschen Bahn keine offizielle Seite,
welche historische Daten zu Zugverspätungen, Ausfällen etc. für Fern-
und Nahverkehrszüge sammelt. Da wir uns jedoch mit historischen Daten
beschäftigen möchten, greifen wir auf Daten zurück, die von Piet Brömmel
gesammelt wurden und bei Huggingface im Parquet-Format
zur Verfügung gestellt wurden. Das Parquet-Format ist
ein effizientes Datenformat und wird oft für große Datenmengen genutzt;
in R können Sie diese Daten mit dem arrow-Paket
einlesen.
- Wie pünktlich ist die Bahn wirklich? Um diese Frage zu beantworten, brauchen Sie echte Verspätungsdaten – nicht nur Pressemitteilungen. Die Bahndaten bilden das Herzstück unserer Analyse: Mit ihnen können Sie berechnen, wie viel Zeit Bahnfahrer durch Verspätungen verlieren und später mit den Stauzeiten der Autofahrer vergleichen.
Die Deutsche Bahn stellt Echtzeitdaten als Open Data zur Verfügung. Das Projekt piebro/deutsche-bahn-data auf Huggingface sammelt diese Daten im Parquet-Format.
Laden Sie die Datei für November 2025 direkt von
Huggingface herunter und lesen Sie diesen Datensatz als
bahn in R ein.
Zeigen Sie die ersten 10 Zeilen des Datensatzes in einer Tabelle und beantworten Sie anschließend folgende Fragen:
- Wie viele Beobachtungen enthält der Datensatz? Welche Variablen sind vorhanden?
- Was stellt eine einzelne Beobachtung dar?
Hinweis 1: Sie können auf Huggingface die gesuchte Datei hier finden und direkt die URL zu der Datei in R mitgeben
Hinweis 2: Sie können die Parquet Datei entweder lokal speichern, oder immer direkt per URL einlesen. Falls Sie die Datei lokal speichern, so wird diese nicht auf GitHub Committet, da wir dies in der .gitignore entsprechend eingestellt haben. In diesem Fall sollten alle Teammitglieder die Datei lokal zur Verfügung haben.
Hinweis 3: Achten Sie bei allen Tabellen auf einer saubere Darstellung
| Erste 10 Beobachtungen der Deutschen Bahn (November 2025) | ||||
| train_name | station_name | final_destination_station | delay_in_min | is_canceled |
|---|---|---|---|---|
| S 2 | Stuttgart Hbf | Filderstadt | 5 | FALSE |
| S 5 | Halle (Saale) Hbf | Leipzig Hbf (tief) | 1 | FALSE |
| RE 1 | Karlsruhe Hbf | Karlsruhe Hbf | 95 | FALSE |
| ALX RE25 | Regensburg Hbf | München Hbf | 11 | FALSE |
| ICE 775 | Mannheim Hbf | Karlsruhe Hbf | 1 | FALSE |
| S 9 | Flughafen BER | Flughafen BER | 1 | FALSE |
| S 8 | Halle (Saale) Hbf | Halle (Saale) Hbf | 15 | FALSE |
| RB 40 | München Hbf | München Hbf | 0 | FALSE |
| IC 1952 | Köln Hbf | Köln Hbf | 40 | FALSE |
| S 1 | Freiburg (Breisgau) Hbf | Freiburg (Breisgau) Hbf | 0 | FALSE |
Wie viele Beobachtungen enthält der Datensatz? Welche Variablen sind vorhanden?
Die Tabelle zeigt die ersten zehn Zeilen, was den ersten zehn
Beobachtungen entspricht, des Datensatzes bahn aus dem
Projekt piebro/deutsche-bahn-data. Insgesamt umfasst der
Datensatz 13.943.561 Beobachtungen. Der Datensatz enthält unter anderem
folgende Variablen:
- train_name – Bezeichnung des Zuges.
- station_name – Name des Abfahrbahnhofs.
- final_destination_station – Zielbahnhof des Zuges.
- delay_in_min – Differenz zwischen geplanter und tatsächlicher
Ankunft oder Abfahrt in Minuten.
- is_canceled – gibt an, ob der Zug ausgefallen ist (TRUE/FALSE).
Was stellt eine einzelne Beobachtung dar?
Eine einzelne Beobachtung entspricht einem Zughalt eines bestimmten Zuges an einem bestimmten Bahnhof zu einem bestimmten Zeitpunkt. Sie enthält Informationen darüber, wann der Zug geplant halten sollte, wann er tatsächlich gehalten hat, sowie die Verspätung in Minuten. Zusätzlich werden verschiedene Identifikationsnummern bereitgestellt, darunter Bahnhof, Zug, Zugroute und Halt, wodurch eine Analyse von Verspätungen sowohl auf Halt- als auch auf Zugniveau möglich ist.
- Wohin pendeln die Menschen? Die Bahndaten zeigen ihnen die Pünktlichkeit der Züge – aber um zu verstehen, wo gute Bahnverbindungen besonders wichtig sind, müssen Sie wissen, wohin die Menschen pendeln. Die Pendlerstatistik der Bundesagentur für Arbeit zeigt genau das: Welche Städte sind die größten Arbeitgeber-Magneten?
Laden Sie den Datensatz pendler_kreise_aufbereitet.csv
aus dem Ordner daten in R ein als Datensatz
pendler.
Erstellen Sie eine Tabelle der Top 10 Städte nach Einpendlern mit den Spalten: Stadt (kreis_name), Einpendler, Auspendler, Pendlersaldo.
Interpretieren Sie kurz: Welche Städte sind die größten “Pendlermagneten” Deutschlands und warum?
| Top 10 der Städte mit den meisten Einpendlern 2025 | |||
| Stadt | Einpendler | Auspendler | Pendlersaldo |
|---|---|---|---|
| München, Landeshauptstadt | 455.645 | 202.756 | 252.889 |
| Frankfurt am Main, Stadt | 405.856 | 111.245 | 294.611 |
| Hamburg, Freie und Hansestadt | 392.951 | 147.328 | 245.623 |
| Berlin, Stadt | 392.324 | 219.898 | 172.426 |
| Köln, Stadt | 306.905 | 138.422 | 168.483 |
| Düsseldorf, Stadt | 284.696 | 97.326 | 187.370 |
| Stuttgart, Landeshauptstadt | 274.442 | 100.095 | 174.347 |
| Nürnberg, Stadt | 165.496 | 78.557 | 86.939 |
| Essen, Stadt | 141.296 | 90.906 | 50.390 |
| Region Hannover | 137.924 | 69.974 | 67.950 |
Beschreibung
Die Tabelle zeigt die Top zehn Städte Deutschlands mit den meisten Einpendlern 2025. Für jede Stadt werden die Anzahl der Einpendler, Auspendler sowie deren Differenz (Pendlersaldo) angegeben. Die Stadt mit den meisten Einpendlern ist die bayerische Landeshauptstadt München mit 455.645 Einpendlern, dicht gefolgt von Frankfurt am Main mit 405.856 Einpendlern, Hamburg mit 392.952 Einpendlern und Berlin mit 392.324 Einpendlern. Das Pendlersaldo zeigt, dass Frankfurt am Main den größten Überschuss an Einpendlern gegenüber Auspendlern aufweist, nämlich 294.611 Einpendler mehr als Auspendler.
Interpretation
Der Grund, warum gerade diese Städte zu den Top 10 gehören, liegt vermutlich darin, dass es sich um Großstädte mit zahlreichen großen Unternehmen handelt. Viele Firmen haben ihren Sitz in den Städten, z.B. BMW in München oder Mercedes-Benz in Stuttgart. Zudem sind in Großstädten mehr Dienstleistungsbetriebe, Banken und öffentliche Einrichtungen angesiedelt als in kleineren Städten oder ländlichen Regionen. In den umliegenden ländlichen Gebieten gibt es oft weniger Arbeitsplätze, sodass viele Bewohner werktags in die Großstädte pendeln. Auch Universitäten und andere Bildungseinrichtungen konzentrieren sich meist in den Städten. Ein gut ausgebautes Verkehrs- und ÖPNV-Netz macht das Pendeln zusätzlich leicht und attraktiv.
- Was kostet das Auto? Sie haben jetzt Bahndaten und wissen, wohin die Menschen pendeln. Aber um fair vergleichen zu können, brauchen Sie auch die Alternative: Wie viel Zeit verlieren Autofahrer im Stau? Diese Daten liefert INRIX – ein Unternehmen, das weltweit Verkehrsdaten sammelt. Später werden Sie diese Staukosten mit den Bahnverspätungen vergleichen.
Besuchen Sie die INRIX Global Traffic Scorecard und suchen Sie die Stauzeiten für die Top 10 Städte aus Aufgabe 2 und zusätzlich die Stauzeiten für Ulm. INRIX misst, wie viele Stunden Autofahrer jährlich im Stau verlieren.
- Erstellen Sie eine eigene CSV-Datei
inrix_staedte_2024.csvmit folgenden Spalten für die geforderten Städte:stadt: Name der Stadtstau_stunden_jahr: Jährliche Staustunden pro Fahrerkosten_eur: Jährliche Kosten pro Fahrer (findet sich in der tiefergehenden Übersicht)
- Berechnen Sie für jede Stadt, wie viele Arbeitstage pro Jahr im Stau verloren gehen. Annahme: Ein Arbeitstag = 8 Stunden.
Erstellen Sie anschließend eine schöne Tabelle mit: Stadt, Staustunden/Jahr, verlorene Arbeitstage und beschreiben diese. In welcher Stadt ist die Stausituation am schlimmsten? Wie viele Arbeitstage verliert ein typischer Pendler dort pro Jahr?
Hinweis: Auf der INRIX-Website können Sie nach bei “Jump to City Rankings” -> “Search the List” -> “Germany” oder der konkreten Stadt filtern.
| Staubelastung deutscher Städte 2025 | |||
| Stadt | Staustunden (h) | Kosten (€) | verlorene Arbeitstage |
|---|---|---|---|
| Köln | 67 | 919 | 8,4 |
| Düsseldorf | 63 | 864 | 7,9 |
| Berlin | 60 | 823 | 7,5 |
| Stuttgart | 60 | 823 | 7,5 |
| München | 57 | 781 | 7,1 |
| Frankfurt am Main | 55 | 754 | 6,9 |
| Hannover | 54 | 740 | 6,8 |
| Hamburg | 46 | 631 | 5,8 |
| Essen | 46 | 631 | 5,8 |
| Nürnberg | 38 | 521 | 4,8 |
| Ulm | 30 | 411 | 3,8 |
Beschreibung
Die Tabelle mit dem Titel “Staubelastung deutscher Städte 2024” listet die Top zehn Einpendler-Städte aus Aufgabe zwei (zusätzlich Ulm), sortiert nach Staustunden pro Jahr. Die einzelnen Spalten bestehen aus Stadt, Staustunden (h), Kosten (€) und verlorene Arbeitstage. Köln ist mit 67 Staustunden an erster Stelle, ein typischer Pendler verliert dort durchschnittlich 8,4 Arbeitstage pro Jahr und trägt Kosten von 919€. Es folgen Düsseldorf, Berlin und Stuttgart. In Ulm stehen Autofahrer hingegen nur 30 Stunden pro Jahr im Stau, was 3,8 Arbeitstagen beziehungsweise 411€ entspricht. Der letzte Platz aus den Top 10 Städten aus Aufgabe 2 belegt jedoch Nürnberg mit 38 Staustunden, Kosten von 521€ und verlorene Arbeitstage von 4,8. Es besteht eine positive Korrelation zwischen den Staustunden, den Kosten und den verlorenen Arbeitstagen.
- Für die weiteren Analysen stellen wir Ihnen fünf zusätzliche Datensätze bereit. Diese laden Sie jetzt, damit sie in allen folgenden Aufgaben direkt verfügbar sind.
Laden Sie die folgenden Datensätze aus dem Ordner daten
und speichern Sie diese unter den angegebenen Variablennamen:
| Datei | Variablenname | Verwendet in |
|---|---|---|
bahnhof_ags_mapping.csv |
bahnhof_mapping |
Aufgabe 9-10 |
fahrtzeit_osrm_vergleich.csv |
fahrtzeit |
Aufgabe 12 |
ulm_pendlerrouten.csv |
ulm_routen |
Aufgabe 13 |
ba_entgeltstatistik_2024.csv |
entgelt |
für staedte_basis |
co2_analyse.csv |
co2_analyse |
Aufgabe 19 (Bonus) |
Verschaffen Sie sich einen ersten Überblick über die Struktur der
Daten (z.B. mit glimpse(), dies sollte später in ihrem HTML
Dokument nicht sichtbar sein!).
Erstellen Sie außerdem einen Master-Datensatz
staedte_basis für die Top-11-Städte (Top 10 Pendlerstädte +
Ulm), der die Daten aus pendler, entgelt und
inrix kombiniert. Dieser Datensatz vereinfacht die späteren
Analysen (ab Aufgabe 14), da alle relevanten Kennzahlen bereits
zusammengeführt sind.
Der Master-Datensatz sollte folgende Spalten enthalten:
ags: Amtlicher Gemeindeschlüsselstadt: Stadtname (Kurzform, z.B. “München”)einpendler: Anzahl Einpendlermedian_monat_eur: Medianlohn pro Monatmedian_stunde_eur: Medianlohn pro Stunde (Monatslohn / 160)stau_stunden_jahr: Stauzeit pro Jahr (aus INRIX)
Hinweis 1: Die Datensätze verwenden unterschiedliche
Namensformate: pendler hat offizielle Namen (“München,
Landeshauptstadt”), während entgelt und inrix
Kurznamen (“München”) verwenden. Nutzen Sie den AGS als
zuverlässigen Schlüssel für die Verknüpfung mit pendler.
Tipp: entgelt enthält sowohl AGS als auch Kurznamen und
eignet sich daher gut als Ausgangspunkt.
Hinweis 2: Eine ausführliche Beschreibung der Datensätze finden Sie im Anhang A.
Die Pünktlichkeit der Deutschen Bahn
Nachdem Sie nun einen Überblick über die Daten haben, welche wir in diesem Projekt verwenden möchten, tauchen Sie tiefer in die Bahndaten ein. Die zentrale Frage ist: Wie zuverlässig ist die Deutsche Bahn wirklich?
Die Bahn unterscheidet verschiedene Zugtypen, vom ICE über den RE bis zur S-Bahn. Jeder Zugtyp hat unterschiedliche Eigenschaften: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Aber welcher Zugtyp ist am pünktlichsten?
- Welche Züge sind (un)pünktlich? Nicht alle Züge
sind gleich: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn
kurze Strecken mit vielen Halten. Um später sinnvolle Empfehlungen geben
zu können, müssen Sie verstehen, welche Zugtypen besonders
problematisch sind. Dafür klassifizieren Sie die Züge anhand
ihrer Namen. Nutzen Sie für diese Analyse den Datensatz
bahn.
Die Variable train_name enthält den Zugnamen (z.B. “ICE
123”, “S 5”, “RE 8”).
- Erstellen Sie eine neue Variable
zugtypmit folgenden Kategorien:
| Zugtyp | Regel | Beispiel |
|---|---|---|
| ICE | beginnt mit “ICE” | ICE 123 |
| IC/EC | beginnt mit “IC” oder “EC” | IC 2012, EC 6 |
| IRE/RE | beginnt mit “RE” oder “IRE” | RE 5, IRE 200 |
| RB | beginnt mit “RB” | RB 26 |
| S-Bahn | beginnt mit “S” (mit Leerzeichen!) | S 5 |
| Sonstige | alle anderen | U 6, STB 123 |
Erstellen Sie auf dieser Basis eine Tabelle, welche pro Zugtyp folgende Kennzahlen anschaulich darstellt:
- Anzahl der Fahrten
- Durchschnittliche Verspätung (in Minuten)
- Anteil pünktlicher Züge (≤6 Min Verspätung)
- Ausfallquote
Beschreiben und Interpretieren Sie die Tabelle.
Weiterhin sollten Sie ihre Ergebnisse verifizieren. Dafür können Sie auf die offizielle Pünktlichkeitswerte der Deutschen Bahn zurückgreifen (recherchieren Sie diese selbstständig).
Stimmen Ihre Ergebnisse mit den offiziellen Werten überein? Falls nicht: Welche methodischen Unterschiede könnten die Abweichung erklären?
Hinweis: Nutzen Sie str_detect() aus dem
stringr-Paket. Achten Sie auf die Reihenfolge der
Bedingungen!
| Pünktlichkeit, Ausfallquoten und Haltestops nach Zugtypen im Jahr 2025 | ||||
| Zugtyp | Anzahl der Halte | Ø Verspätung (min.) | Anteil pünktlicher Züge (%)¹ | Ausfallquote (%) |
|---|---|---|---|---|
| ICE | 171.516 | 12,5 | 56,7 | 4,2 |
| IC/EC | 70.602 | 11,0 | 60,2 | 7,2 |
| IRE/RE | 1.673.555 | 6,1 | 74,1 | 3,6 |
| RB | 2.675.028 | 3,5 | 85,2 | 3,2 |
| Sonstige | 2.938.815 | 3,5 | 84,7 | 2,6 |
| S-Bahn | 6.414.045 | 2,9 | 87,4 | 5,5 |
| ¹Ein Zug gilt als pünktlich bei einer Verspätung von ≤ 6 Minuten. | ||||
Beschreibung
Die Tabelle “Pünktlichkeit, Ausfallquoten und Haltestops nach Zugtypen im Jahr 2025” besteht aus den Spalten Zugtyp, Anzahl der Fahrten, Ø Verspätung (min.), Anteil pünktlicher Züge (%) und Ausfallquote (%). Die Zugtypen werden nach ICE, IC/EC, IRE/RE, RB, S-Bahn und Sonstige klassifiziert. ICEs haben durchschnittlich die größte Verspätung (12,5 Minuten) und den kleinsten Anteil pünktlicher Züge (56,7%), die Ausfallquote zeigt sich jedoch nicht markant (4,2%). S-Bahnen haben die geringste Verspätung (2,9 Minuten mit 87,4% pünktlicher Züge). IC/ECs stechen mit einer hohen Ausfallquote von 7,2% hervor. Die geringste Ausfallquote mit nur 2,6% liegt bei den Sonstigen, die zweitniedrigste Ausfallquote nehmen RBs mit 3,2% ein. Obwohl ICEs insgesamt unpünktlicher sind, haben sie eine fast doppelt so niedrige Ausfallquote als IC/ECs (4,2% und 7,2%).
Interpretation
Wichtig zu beachten ist, dass nur Züge mit einer Verspätung von ≤6 Minuten als pünktlich kategorisiert werden. Dies spielt vor allem bei S-Bahnen oder Zügen mit einer kurzen Strecke/häufigen Stopps eine Rolle, da hier viel regelmäßiger und in deutlich kürzeren Abständen Züge fahren. Somit kommt die S-Bahn meist pünktlich an, bei Problemen fällt sie jedoch eher komplett aus. Es gibt eine Korrelation zwischen Distanz und Pünktlichkeit. Die Pünktlichkeit sinkt im Fernverkehr (ICE, IC/EC) deutlich ab. Je länger und komplexer eine Strecke ist, desto unpünktlicher ist ein Zug in der Regel. Dass ICEs trotz hoher Unpünktlichkeitswerte trotzdem eine verhältnismäßig moderate Ausfallquote haben, könnte auf eine Priorisierung von ICEs der Deutschen Bahn hindeuten. IC/EC-Züge sind jedoch das Gegenteil, es existiert eine hohe durchschnittliche Verspätung mit der höchsten Ausfallquote. Zusammenfassend lässt sich sagen, dass die Verspätung/Ausfallquote stark von der Art des Zugtyps abhängt. Fernverkehr ist instabiler als Nahverkehr.
Verifizierung
Die offiziellen Werte der Deutschen Bahn für 2024 zeigen für den Fernverkehr (ICE, IC/EC) eine Pünktlichkeit von 62,5% und für den Regionalverkehr (IRE/RE, RB, S-Bahn) 90,7%. Somit liegt tendenziell eine leichte Abweichung vor. Der Trend von pünktlichem Nahverkehr/Regionalverkehr und unpünktlichem Fernverkehr spiegelt sich jedoch in den offiziellen Werten wider. Diese Abweichung lässt sich nicht auf die Klassifizierung der Pünktlichkeit zurückführen, da in beiden Tabellen eine Verspätung von >6 Minuten als unpünktlich gilt. Die ausgefallenen Züge werden im Berichtsjahr nicht aufgelistet. Die leichte Abweichung der Daten könnte sich auf eine unterschiedliche Datenquelle zurückführen, die DB besitzt interne Daten und wir greifen auf getrackte Daten über die API-Schnittstelle zu. Es ist denkbar, dass hier Unterschiede auftauchen.Quelle
- In Aufgabe 5 haben Sie gesehen, dass Fernverkehrszüge (ICE, IC/EC)
deutlich höhere Verspätungen und Ausfallquoten haben als Nahverkehrszüge
(IRE, RE, RB, S-Bahn). Aber wie relevant ist das für den typischen
Pendler? Das hängt davon ab, wie viele Züge jeweils
unterwegs sind. Nutzen Sie für diese Analyse den Datensatz
bahn(mit der in Aufgabe 5 erstellten Variablezugtyp).
Klassifizieren Sie die Züge in zwei Kategorien:
- Fernverkehr: ICE, IC/EC
- Nahverkehr: IRE, RE, RB, S-Bahn
Erstellen Sie ein Liniendiagramm, das die durchschnittliche Anzahl der Fahrten pro Stunde im Tagesverlauf zeigt:
- X-Achse: Uhrzeit (0-23 Uhr)
- Y-Achse: Durchschnittliche Anzahl Fahrten pro Stunde
- Zwei Linien: eine für Fernverkehr, eine für Nahverkehr (unterschiedliche Farben)
Tipp: Extrahieren Sie die Stunde aus der Variable
time mit hour() aus dem
lubridate-Paket. Berechnen Sie dann die durchschnittliche
Anzahl Fahrten pro Stunde und Zugtyp.
Beschreiben und interpretieren Sie ihre Grafik. Beantworten Sie zusätzlich die folgenden Fragen:
- Zu welchen Uhrzeiten fahren die meisten Züge?
- Wie unterscheidet sich das Muster zwischen Fern- und Nahverkehr?
- Warum ist diese Information wichtig, wenn wir später die Verspätungen analysieren?
Beschreibung
Das Liniendiagramm “durchschnittliche Anzahl der Fahrten pro Stunde im Jahr 2025” zeigt auf der x-Achse die Stunde des Tages (0-23 Uhr) und auf der y-Achse die Anzahl der Fahrten (0-20.000 Fahrten). Es wird zwischen zwei Kategorien unterschieden, dem Fernverkehr in Dunkelblau und dem Nahverkehr in Türkis. Der Nahverkehr besitzt eine deutlich höhere Anzahl an Fahrten als der Fernverkehr mit einem Maximum von ungefähr 18.000 Fahrten um 8 Uhr und 19.000 Fahrten um 18 Uhr. Zwischen 8 und 18 Uhr sind beide Verkehrsarten relativ konstant an ihrem Maximum mit einem leichten Abschwung und wieder Aufschwung des Nahverkehrs (Fernverkehr fast konstant am Maximum mit <1.000 Fahrten). Danach gibt es bei beiden einen Rückgang der Fahrten. Der Nahverkehr ist zwischen 3 und 4 Uhr an seinem Minimum und der Fernverkehr zwischen 1 und 5 Uhr. Somit ist das Muster der beiden Verkehrsarten ähnlich und folgt einem Tag-Nacht-Rhythmus. Insgesamt ist der Fernverkehr verschwindend gering im Vergleich zum Nahverkehr.
Interpretation
Das ähnliche Muster lässt sich dadurch erklären, dass tendenziell bei Tag mehr Fahrten stattfinden als bei Nacht. Tagsüber sind viel mehr Menschen unterwegs als nachts. Die Peaks des Nahverkehrs um 8 und 18 Uhr sind vermutlich die Rushhour, also der Arbeitsbeginn und das Arbeitsende. Viele Pendler fahren zu ihrer Arbeit beziehungsweise nach Hause. Der Fernverkehr bleibt mittags konstant, da Pendler in der Regel keinen Fernverkehr nutzen, sondern auf den Nahverkehr zugreifen. Diese Information ist für unsere weitere Analyse wichtig, da wir sehen, dass viel mehr Menschen den Nahverkehr benutzen als den Fernverkehr. Ebenfalls ist eine Beachtung wichtig, wann Verspätungen auftreten. Verspätungen zu der Mittagszeit oder der Rushhour treffen mehr Pendler und sind teurer als Verspätungen nachts.
Nachdem Sie in Aufgabe 6 herausgefunden haben, dass es deutlich mehr Nahverkehrszüge als Fernverkehrszüge gibt, und diese für Pendler wichtiger sind, sollten Sie sich die Verspätungen der Nahverkehrszüge über den Tag anschauen, da diese vermutlich nicht gleichmäßig über den Tag verteilt sind. Pendler erleben die Bahn vor allem in der Hauptverkehrszeit, d.h. morgens zwischen 7 und 9 Uhr und abends zwischen 16 und 19 Uhr. Aber ist die Bahn zu diesen Zeiten besonders unpünktlich?
- Erstellen Sie zwei Heatmaps, die zeigen, wie sich
die Verspätungen nach Tageszeit (Stunde) und
Wochentag für die Nahverkehrszüge und die
Fernverkehrszüge verteilen. Nutzen Sie für diese Analyse den Datensatz
bahn.
- Extrahieren Sie aus der Variable
timedie Stunde und den Wochentag. - Filtern Sie auf die relevanten Tageszeiten (5-23 Uhr), da nachts kaum Zugverkehr stattfindet.
- Aggregieren Sie die durchschnittliche Verspätung pro Stunde und Wochentag für Nah- und Fernverkehrszüge separat.
- Erstellen Sie eine Heatmap mit
ggplot2undgeom_tile().
Tipp zur Farbskala: Da Fernverkehrszüge im Durchschnitt höhere Verspätungen haben als Nahverkehrszüge, können Sie unterschiedliche Farbskalen für die beiden Heatmaps verwenden (z.B. Blau-Töne für Nahverkehr, Rot-Töne für Fernverkehr). Dadurch werden die Muster innerhalb jeder Verkehrsart besser sichtbar.
Beschreiben und interpretieren Sie ihre Grafiken.
- Wann sind die Verspätungen am höchsten?
- Gibt es Unterschiede zwischen Werktagen und Wochenende?
- Gibt es Unterschiede zwischen Nah- und Fernverkehrszügen?
- Was bedeutet das für Pendler?
Beschreibung
Die Grafik “Verteilung der Verspätungen nach Tageszeit und Wochentag (2025)” zeigt zwei Heatmaps, welche die durchschnittlichen Verspätungen im Nah- und Fernverkehr darstellen. Bei einer Heatmap wird das Schaubild in einzelne Kästchen unterteilt, deren Farbintensität die Höhe der jeweiligen Verspätung widerspiegelt. Auf der x-Achse ist die Stunde des Tages abgetragen, wobei der Zeitraum von 5 Uhr morgens bis 23 Uhr abends betrachtet wird. Die y-Achse zeigt die einzelnen Wochentage. Die Heatmap des Nahverkehrs benutzt eine Skala von 0 bis >5 Minuten in einem roten Farbraum. Die des Fernverkehrs benutzt eine Skala von 0 bis >20 Minuten und ist blau eingefärbt. In der Heatmap des Nahverkehrs ist deutlich zu erkennen, dass die Verspätungen insbesondere ab den Abendstunden (ab etwa 17 Uhr), sowie an Werktagen stärker ausgeprägt sind als zu anderen Zeiten. Zudem lässt sich eine klare Tendenz erhöhter Verspätungen zwischen Dienstag und Donnerstag in den Morgenstunden von etwa 8 bis 10 Uhr feststellen. Die Heatmap des Fernverkehrs zeigt hingegen, dass die Verspätungen hierbei vor allem werktags von 19 bis 23 Uhr auftreten.
Interpretation
Insgesamt weisen Nah- und Fernverkehr ähnliche zeitliche Muster auf, jedoch ist die Intensität und Relevanz der Verspätungen beim Fernverkehr viel geringer, sodass auf eine größere Skala zurückgegriffen werden muss um diese kenntlich zu machen. Im Nahverkehr treten von Montag bis Freitag auch tagsüber erhöhte Verspätungen auf, während diese im Fernverkehr im Tagesverlauf überwiegend moderat bleiben. Für Pendlerinnen und Pendler ist dies besonders relevant, da sich zeigt, dass es vor allem zu den Hauptverkehrszeiten zwischen 8 und 10 Uhr, sowie zwischen 17 und 20 Uhr im Nahverkehr zu vermehrten Verspätungen kommt. Da Pendler überwiegend auf Nahverkehrszüge angewiesen sind, sind sie von diesen Unregelmäßigkeiten besonders betroffen. Aufgrunddessen, dass Fernverkehrszüge den Nahverkehrszügen vorgezogen werden, kann sich deren Verspätung zu der Rushhour auf den Nahverkehr auswirken. Dies hat zur Folge, dass der Nahverkehr verspätet kommt und die Pendler zu spät zur Arbeit kommen.
Von der Zeit zum Ort: Wo entstehen die Verspätungen?
In Aufgabe 7 haben Sie analysiert, wann die Verspätungen auftreten, nämlich vor allem zu den Hauptverkehrszeiten. Aber die nächste wichtige Frage ist: Wo entstehen diese Verspätungen?
Aggregierte Statistiken wie Durchschnittswerte über ganz Deutschland verbergen oft große regionale Unterschiede. Vielleicht gibt es einzelne “Problembahnhöfe”, die den Durchschnitt nach oben ziehen? Oder sind die Verspätungen gleichmäßig über das Netz verteilt? Diese Frage ist wichtig, weil sie unterschiedliche Lösungsansätze impliziert: Bei wenigen Problembahnhöfen könnte die Bahn gezielt investieren, bei flächendeckenden Problemen bräuchten Sie systemische Lösungen.
- Identifizieren Sie die 10 unpünktlichsten Bahnhöfe
in Deutschland (mit mindestens 1.000 Halten im Monat). Nutzen Sie für
diese Analyse den Datensatz
bahn.
Erstellen Sie ein Balkendiagramm, das die durchschnittliche Verspätung dieser Bahnhöfe zeigt. Beschriften Sie die Balken mit den Verspätungswerten.
Beschreiben und interpretieren Sie ihre Grafik.
- Sehen Sie ein geografisches Muster?
- Handelt es sich um große Knotenbahnhöfe oder eher um kleinere Stationen?
Beschreibung
Das Balkendiagramm “Top 10 Bahnhöfe mit der höchsten durchschnittlichen Verspätung” mit dem Untertitel “(Bahnhöfe mit mindestens 1.000 Halte pro Monat)” zeigt die zehn Bahnhöfe in Deutschland mit der höchsten durchschnittlichen Verspätung. Auf der x-Achse ist die durchschnittliche Verspätung in Minuten abgetragen, auf der y-Achse die entsprechenden Bahnhöfe. Es ist erkennbar, dass unter den Top 10 kein Bahnhof eine durchschnittliche Verspätung von unter zehn Minuten aufweist. Den höchsten Wert verzeichnet Ennepetal (Gevelsberg) mit 14,7 Minuten, dicht gefolgt von Bad Breisig und Sinzig (Rhein) mit jeweils 14,5 Minuten. Mit etwas Abstand folgen Bornheim-Sechtem, Brühl, Roisdorf, Rolandseck, Hochneukirch, Rheydt-Odenkirchen und Zeesen.
Sehen Sie ein geografisches Muster?
Auffällig ist, dass sich die meisten Bahnhöfe in Nordrhein-Westfalen und Rheinland-Pfalz befinden, mit Ausnahme von Zeesen in Brandenburg. Manche Bahnhöfe liegen zudem sehr nah beieinander, was darauf hindeutet, dass sie nacheinander befahren werden und sich Verspätungen entlang der Strecke gleichbleiben oder vegrößern. So bilden Bad Breisig und Sinzig, Bornheim-Sechtem, Brühl und Roisdorf sowie Hochneukirch und Rheydt-Odenkirchen Cluster von Bahnhöfen in unmittelbarer Nähe, während Zeesen, Rolandseck und Ennepetal isoliert liegen. Zusätzlich befindet sich ein Großteil dieser Bahnhöfe in der Nähe von Großstädten wie Köln, Bonn, Mönchengladbach und Berlin. Dies könnte darauf hindeuten, dass Fernverkehrszüge, die durch diese Knotenbahnhöfe fahren, die Verspätungen beeinflussen und dies sich auf die Nahverkehrszüge auswirkt.
Handelt es sich um große Knotenbahnhöfe oder eher um kleinere Stationen?
Bei den Top-10-Bahnhöfen handelt es sich überwiegend um kleinere Stationen mit vergleichsweise wenigen Haltestopps, im Gegensatz zu großen Knotenbahnhöfen, die mehrere Hunderttausend Halte aufweisen können.
Die Anzahl der Halte pro Bahnhof liegt zwischen etwa 1.100 und 2.900:
- Ennepetal: 2.742 Haltestopps
- Bad Breisig / Sinzig: 2.114 Haltestopps jeweils
- Bornheim-Sechtem: 2.274
- Brühl: 2.936
- Roisdorf: 2.274
- Rolandseck: 1.182
- Hochneukirch: 1.898
- Rheydt-Odenkirchen: 1.919
- Zeesen: 1.128
Die geringe Größe und die geografische Nähe einiger Bahnhöfe lassen vermuten, dass Verspätungen sich entlang der Strecke ausbreiten und die einzelnen Bahnhöfe ähnlich stark betreffen.
Wo treffen viele Pendler auf eine unpünktliche Bahn?
Bisher haben Sie Pendler- und Bahndaten getrennt betrachtet. Aber die spannende Frage ist: Wo kommen beide Probleme zusammen? Eine Stadt mit vielen Pendlern und einer unpünktlichen Bahn hat ein größeres Problem als eine Stadt mit wenigen Pendlern und einer unpünktlichen Bahn.
Um diese Frage zu beantworten, müssen Sie die Datensätze verknüpfen. Das Problem: Die Bahndaten sind auf Bahnhofsebene, die Pendlerdaten auf Kreisebene. Sie benötigen ein Mapping, das Bahnhöfe den entsprechenden Kreisen zuordnet.
- In dieser Aufgabe verknüpfen Sie die Bahn- und Pendlerdaten, um
Städte mit Handlungsbedarf zu identifizieren. Nutzen Sie für ihre
Analysen die Datensätze:
bahn,pendlerundbahnhof_mapping.
Das Mapping ordnet Bahnhöfe ihrem Landkreis zu (via AGS = Amtlicher Gemeindeschlüssel). Ihr Ziel: Identifizieren Sie Städte, in denen viele Pendler auf eine unpünktliche Bahn treffen.
- Berechnen Sie für jeden Bahnhof die durchschnittliche Verspätung und die Anzahl der Halte.
- Aggregation auf Kreisebene: Berechnen Sie für jeden Kreis die gewichtete durchschnittliche Verspätung. Gewichten Sie nach der Anzahl der Halte (ein Bahnhof mit 10.000 Halten zählt mehr als einer mit 100).
- Verknüpfen Sie das Ergebnis mit den Pendlerdaten mittels
left_join()über die Variableags. - Problem-Score berechnen: Kombinieren Sie beide Dimensionen mit z-Standardisierung:
\[\text{Problem-Score} = z(\text{Einpendler}) + z(\text{Verspätung})\]
Die z-Standardisierung macht die Werte vergleichbar: \(z(x) = \frac{x - \bar{x}}{s_x}\), wobei \(\bar{x}\) der Mittelwert und \(s_x\) die Standardabweichung ist.
Interpretation: Ein hoher Problem-Score = Viele Pendler + hohe Verspätung = Handlungsbedarf.
Anschließend sollten Sie eine Tabelle der Top 10 Städte nach Problem-Score darstellen und diese kurz beschreiben.
| Top 10 Städte mit höchstem Handlungsbedarf 2025 | |||
| Ranking basierend auf Pendlerzahlen und Verspätungsstatistik | |||
| Stadt | Anzahl Einpendler | Ø Verspätung (min.) | Problem-Score |
|---|---|---|---|
| München, Landeshauptstadt | 455.645 | 5,98 | 3,45 |
| Köln, Stadt | 306.905 | 7,89 | 3,05 |
| Düsseldorf, Stadt | 284.696 | 7,33 | 2,55 |
| Frankfurt am Main, Stadt | 405.856 | 5,14 | 2,54 |
| Berlin, Stadt | 392.324 | 4,70 | 2,18 |
| Hamburg, Freie und Hansestadt | 392.951 | 4,44 | 2,05 |
| Duisburg, Stadt | 86.735 | 8,81 | 1,46 |
| Hamm, Stadt | 22.447 | 9,93 | 1,45 |
| Stuttgart, Landeshauptstadt | 274.442 | 5,30 | 1,38 |
| Bonn, Stadt | 112.607 | 8,00 | 1,28 |
Beschreibung
Die Tabelle “Top 10 Städte mit höchstem Handlungsbedarf 2025” besteht aus den Spalten Stadt, Anzahl Einpendler, Ø Verspätung (min.) und Problem-Score. Sie ist absteigend nach dem Problem-Score sortiert. Der Problem-Score ist die Summe der z-standardisierten Werte von Einpendlern und gewichteter Verspätung. Die durchschnittliche Verspätung liegt in einem Bereich von ungefähr 4 Minuten bis 10 Minuten. Bei der Pendleranzahl gibt es jedoch eine extremst große Spanne von 22.447 (Hamm) bis 455.645 (München). Auf dem ersten Platz liegt die Landeshauptstadt München mit einem Problem-Score von 3,45. Die durchschnittliche Verspätung hier liegt bei 5,98 Minuten, bei einer Pendleranzahl von 455.645. Darauf folgt Köln mit einer höheren durchschnittlichen Verspätung von 7,89, jedoch ist der Problem-Score mit einem Wert von 3,05 niedriger als in München, da die insgesamte Anzahl an Einpendlern bei 306.905 liegt (fast 150.000 weniger als in München). Duisburg und vor allem Hamm stechen aus der Tabelle heraus, da sie wenige Einpendler besitzen (Duisburg 86.735 und Hamm 22.447), aber die durchschnittliche Verspätung bei fast 10 Minuten liegt, ist der Problem-Score dieser Städte unter den Top 10 gelandet.
Interpretation
Treffen eine hohe durschnittliche Verspätung und eine hohe Anzahl an Einpendler aufeinander, steigt der Problem-Score in die Höhe und es besteht Handlungsbedarf. Hierfür kann Köln als Beispiel hergenommen werden, die Einpendlerzahlen sind vergleichsweise höher bei einer ebenso erhöhten durchschnittlichen Verspätung. Jedoch kann auch der Problem-Score hoch sein, wenn ein Faktor extrem ansteigt, während der andere moderat bleibt. So ist es z.B in München der Fall, dass die Einpendlerzahlen extrem hoch sind, wobei die durchschnittliche Verspätung eher im Mittelfeld ist. Im Vergleich z.B Hamm, hier ist die Einpendlerzahl recht gering, jedoch ist die durchschnittliche Verspätung stark erhöht. Zusammenfassend kann gesagt werden, dass Handlungsbedarf sowohl durch eine hohe Verspätung und hohe Einpendlerzahl entstehen kann, aber auch wenn ein Faktor signifikant erhöht ist.
- Erstellen Sie ein Streudiagramm (Scatterplot), das die Beziehung zwischen Einpendlerzahl (x-Achse) und durchschnittlicher Verspätung (y-Achse) visualisiert.
- Zeichnen Sie horizontale und vertikale Linien beim jeweiligen Mittelwert ein, um 4 Quadranten zu bilden
- Färben Sie die Punkte nach Quadrant
- Beschriften Sie die Städte mit den höchsten Problem-Scores
- Nutzen Sie eine logarithmische Skala für die x-Achse
Beschreiben und interpretieren Sie die vier Quadranten:
- Oben rechts: Viele Pendler + hohe Verspätung = ?
- Oben links: Wenige Pendler + hohe Verspätung = ?
- Unten rechts: Viele Pendler + niedrige Verspätung = ?
- Unten links: Wenige Pendler + niedrige Verspätung = ?
Beantworten Sie dabei auch folgende Fragen:
- Warum ist es sinnvoll die x-Achse zu logarithmieren?
- Welche Städte liegen im kritischen Quadranten?
- Was würden Sie der Deutschen Bahn empfehlen?
Beschreibung
Der Scatterplot “Zusammenhang zwischen Pendleraufkommen und Verspätung 2025” weist auf der x-Achse die Anzahl der Einpendler (logarithmiert) und auf der y-Achse die durchschnittliche Verspätung in Minuten auf. Der Plot wird in vier Quadranten aufgeteilt:
I. Quadrant, “Maximaler Handlungsbedarf” (rot): Viele Einpendler und
hohe Verspätung II. Quadrant, “Lokale Schwachstellen” (gelb): Wenige
Einpendler, aber hohe Verspätung.
III. Quadrant, “Kein Handlungsbedarf” (grün): Wenige Einpendler und
geringe Verspätung.
IV. Quadrant, “Vorsicht” (orange): Viele Einpendler und geringe
Verspätung.
Die Top 3 Städte mit dem höchsten Problem-Score aus Aufgabe 9 sind namentlich an ihrem Punkt erwähnt. Diese tauchen alle im roten Quadranten auf, namentlich sind dies Köln, Düsseldorf und München. Die Mehrheit der Standorte verteilt sich auf den grünen und gelben Bereich. Dahinter folgt der rote Quadrant, während im orangen Quadranten die wenigsten Städte liegen.
Interpretation
Eine Logarithmisierung der x-Achse ermöglicht einen besseren Vergleich zwischen den einzelnen Städten, da somit extreme Unterschiede weniger stark visualisiert werden und die Städte näher beieinander liegen. Ohne eine Logarithmierung wäre die Sichtbarkeit von kleineren Städten sehr schlecht gegeben und große Städte hätten einen extremst hohen Abstand zu den kleineren. Viele Pendler und eine hohe Verspätung führt zu dem höchsten Problem-Score. Der Scatterplot verdeutlicht, dass die Problemstädte (Städte mit den höchsten Problem-Scores) in der Regel Großstädte mit einer hohen Anzahl an Einpendlern sind. Die Farbwahl, sprich von rot zu grün, soll den Handlungsbedarf von maximaler Priorität bis zu geringer/keiner Priorität aufzeigen. Die kritischen Quadranten sind rot und orange (I. und IV.). Die Deutsche Bahn sollte sich auf Städte innerhalb dieser Quadranten fokussieren. Da dies Städte mit vielen Einpendlern sind, führen selbst Verspätungen von kleinem oder mittlerem Ausmaß zu einem problematischen Ausmaß, da diese Verspätungen viele Einpendler treffen. Problemstädte mit wenig Einpendlern können vorerst vernachlässigt werden, da hier nur ein kleinster Bruchteil der insgesamten Pendler von Verspätungen betroffen sind. Es handelt sich hierbei um lokale Schwachstellen. Zusammenfassend sollte die Deutsche Bahn ihre Ressourcen vor allem in die Städte im roten Quadranten stecken (äußerst hervorzuheben sind Köln, Düsseldorf und München.). Da hier extrem hohe Pendlerzahlen auf starke Verspätungen treffen, erzielt man dort die größte Wirkung für die Fahrgäste. Bei Städten im orangen Quadranten ist Vorsicht geboten, da hier viele Pendler auf wenig Verspätung treffen. Die momentane Situation in diesem Quadranten ist zwar akzeptabel, eine Verschlechterung der durchschnittlichen Verspätung hätte jedoch Folgen für hunderttausende Pendler. Städte mit weniger Pendlern können im Vergleich dazu erst einmal nachrangig behandelt werden. Im grünen Bereich besteht kein Handlungsbedarf.
Der Vergleich – Auto vs. Bahn
Sie haben nun identifiziert, wo die Bahn Probleme hat: Städte im kritischen Quadranten (viele Pendler + hohe Verspätungen) brauchen dringend Verbesserungen. Aber bevor Sie Empfehlungen aussprechen können, müssen Sie eine zentrale Frage beantworten:
Lohnt sich die Bahn überhaupt – oder ist das Auto trotz Stau schneller?
Denn selbst wenn die Bahn unpünktlich ist, könnte sie immer noch schneller sein als das Auto im Berufsverkehr. Umgekehrt: Eine pünktliche Bahn bringt wenig, wenn das Auto trotzdem schneller ist. Erst der direkte Vergleich zeigt uns, wo die Bahn wirklich konkurrenzfähig ist – und wo nicht.
Methodische Herausforderungen
Für einen fairen Vergleich sollten Sie “Äpfel mit Äpfeln” vergleichen:
- Beim Auto muss der Stau berücksichtigt werden (nicht nur die theoretische Fahrzeit)
- Bei der Bahn muss die Verspätung berücksichtigt werden (nicht nur der Fahrplan)
- Beide Routen müssen dieselben Start- und Endpunkte haben
Für die Auto-Fahrtzeiten nutzen Sie OSRM (Open Source Routing Machine), das auf OpenStreetMap-Daten basiert. OSRM berechnet echte Straßenrouten, keine Luftlinien.
- Erklären Sie in eigenen Worten:
- Warum ist OSRM-Routing für diesen Vergleich besser geeignet als eine
einfache Berechnung nach der Formel
Distanz / Geschwindigkeit? - Welche Faktoren müssen zusätzlich berücksichtigt werden, um einen
realistischen Vergleich zu ermöglichen? Denken Sie an:
- Tageszeit
- Parkplatzsuche
- Fußweg zum Ziel
- Wartezeit und Umsteigen bei der Bahn
Warum ist OSRM-Routing für diesen Vergleich besser geeignet
als eine einfache Berechnung nach der Formel
Distanz / Geschwindigkeit?
Eine einfache Rechnung nach der Formel Distanz / Geschwindigkeit geht von einer idealisierten Situation aus: Sie unterstellt eine gerade Strecke, konstante Geschwindigkeit und keine Störungen. In der Realität verläuft eine Autofahrt jedoch über ein konkretes Straßennetz mit Kurven, Kreuzungen, Tempolimits, Einbahnstraßen und unterschiedlichen Straßentypen. OSRM nutzt reale OpenStreetMap-Daten und berechnet dadurch tatsächliche Routen auf dem Straßennetz, inklusive erlaubter Abbiegevorgänge und realer Weglängen. Dadurch sind die Fahrzeiten deutlich näher an der Realität als bei einer theoretischen Durchschnittsrechnung.
Welche Faktoren müssen zusätzlich berücksichtigt werden, um einen realistischen Vergleich zu ermöglichen?
Für einen realistischen Vergleich zwischen Auto und Bahn reicht es nicht aus, nur die reine Fahrzeit zu betrachten. Entscheidend ist, dass alle Zeitbestandteile berücksichtigt werden, die im Alltag tatsächlich anfallen. Eine wichtige Rolle spielt dabei zunächst die Tageszeit: Je nach Uhrzeit unterscheidet sich die Verkehrsdichte erheblich. Während beim Auto vor allem Berufsverkehr, Wochenenden oder Nachtzeiten die Stauwahrscheinlichkeit beeinflussen, wirken sich diese Faktoren bei der Bahn auf Taktfrequenz, Auslastung und Zuverlässigkeit der Verbindungen aus. Darüber hinaus müssen beim Auto typische Staus eingeplant werden, während bei der Bahn nicht nur der Fahrplan, sondern auch reale Verspätungen berücksichtigt werden sollten. Gerade in Städten kommt beim Autofahren zusätzlich die oft zeitaufwendige Parkplatzsuche hinzu, die die Gesamtfahrzeit spürbar verlängern kann. Auch Fußwege spielen bei beiden Verkehrsmitteln eine Rolle: Beim Auto der Weg vom Parkplatz zum Ziel, bei der Bahn der Weg vom Bahnhof zur Zieladresse. Schließlich sind bei der Bahn Wartezeiten vor der Abfahrt sowie Umstiege ein wichtiger Faktor. Wartezeiten, Umstiegszeiten und mögliche Anschlussverluste können die tatsächliche Reisezeit deutlich verlängern und machen klar, dass die reine Zugfahrzeit allein keinen vollständigen Vergleich erlaubt. Nur wenn all diese Aspekte einbezogen werden, entsteht ein fairer und realistischer Vergleich zwischen Auto und Bahn.
Fazit
OSRM bildet die reale Autofahrt deutlich besser ab als eine einfache Distanz-Geschwindigkeits-Rechnung. Ein wirklich fairer Vergleich zwischen Auto und Bahn entsteht jedoch erst, wenn alle relevanten Zeitkomponenten von Tür zu Tür berücksichtigt werden – nicht nur die reine Fahrtzeit auf der Straße oder Schiene.
- Für die Top 10 Einpendler-Städte wurden typische Pendlerstrecken
definiert (z.B. Dachau \(\rightarrow\)
München, Neuss \(\rightarrow\)
Düsseldorf). Die OSRM-Ergebnisse liegen bereits vor. Nutzen Sie für ihre
Analyse den Datensatz
fahrtzeit.
Erstellen Sie:
- Eine Tabelle mit: Stadt, Strecke, Distanz (km), Auto-Fahrzeit (Hauptverkehrszeit), Bahn-Fahrzeit (real), Differenz
- Berechnen Sie die jährliche Zeitersparnis bei 220 Arbeitstagen und 2x täglichem Pendeln.
Interpretieren Sie ihre Tabelle:
- In wie vielen Fällen ist die Bahn schneller als das Auto?
- Wie viele Stunden pro Jahr kann ein Pendler maximal sparen?
- Gibt es Strecken, bei denen das Auto schneller ist? Woran könnte das liegen?
| Vergleich Auto und Bahn 2025 | ||||||
| Fahrzeitvergleich von Auto und Bahn für eine typische Pendlerstrecke der Top 10 Einpendler - Städte und Ulm | ||||||
| Stadt | Strecke | Distanz (km) | Auto-Fahrzeit-Hauptverkehrszeit (min) | Bahn-Fahrzeit-real (min) | Differenz (min) | jährliche Zeitersparnis (h) |
|---|---|---|---|---|---|---|
| München | Dachau → München | 19,1 | 40,2 | 26,1 | 14,1 | 103,5 |
| Frankfurt | Darmstadt → Frankfurt | 36,0 | 35,8 | 23,0 | 12,8 | 93,9 |
| Hamburg | Harburg → Hamburg | 14,2 | 24,0 | 16,3 | 7,7 | 56,7 |
| Berlin | Potsdam → Berlin | 34,2 | 49,3 | 29,6 | 19,7 | 144,6 |
| Köln | Leverkusen → Köln | 18,3 | 28,7 | 22,8 | 5,9 | 43,3 |
| Düsseldorf | Neuss → Düsseldorf | 12,1 | 27,1 | 17,1 | 10,0 | 73,3 |
| Stuttgart | Esslingen → Stuttgart | 14,0 | 27,2 | 20,2 | 7,0 | 51,6 |
| Nürnberg | Fürth → Nürnberg | 10,4 | 18,9 | 12,9 | 6,0 | 44,4 |
| Essen | Mülheim → Essen | 11,0 | 18,0 | 15,3 | 2,7 | 20,1 |
| Hannover | Celle → Hannover | 42,2 | 54,4 | 40,8 | 13,6 | 99,8 |
| Ulm | Neu-Ulm → Ulm | 3,7 | 8,1 | 8,9 | −0,8 | −5,8 |
Beschreibung
Die Tabelle enthält jeweils eine Beobachtung für jede der Top-10-Einpendlerstädte sowie zusätzlich für Ulm. Jede Beobachtung umfasst eine typische Pendlerstrecke, die dafür benötigte Auto-Fahrzeit während der Hauptverkehrszeit, die reale Fahrzeit mit der Bahn, die daraus resultierende Zeitdifferenz sowie die jährliche Zeitersparnis. Die jährliche Zeitersparnis gibt an, wie viel Zeit ein Pendler pro Jahr einsparen kann, wenn er an 220 Arbeitstagen zweimal täglich die Bahn anstelle des Autos nutzt. Die größte Zeitdifferenz zwischen Auto und Bahn beträgt 19,7 Minuten und tritt auf der Strecke von Potsdam nach Berlin auf, auf der die Bahn deutlich schneller ist als das Auto.
In wie vielen Fällen ist die Bahn schneller als das Auto?
Für alle Top-10-Einpendlerstädte ist die Bahn schneller als das Auto. Ein möglicher Grund dafür ist das in und um diese Städte gut ausgebaute öffentliche Verkehrsnetz. Da es sich um Städte mit besonders hohen Einpendlerzahlen handelt, ist davon auszugehen, dass der Schienenverkehr gezielt auf hohe Verkehrsaufkommen ausgelegt ist. Zudem handelt es sich überwiegend um große Städte, in denen sich die Hauptbahnhöfe meist zentral im Stadtgebiet befinden. Das Auto hat hier einen strukturellen Nachteil, da es häufig zunächst durch stark belastete innerstädtische Verkehrsbereiche fahren muss, was die Staugefahr und damit die Fahrzeit erhöht.
Wie viele Stunden pro Jahr kann ein Pendler maximal sparen?
Die größte jährliche Zeitersparnis ergibt sich auf der Strecke Potsdam \(\rightarrow\) Berlin, wenn der Pendler die Bahn anstelle des Autos nutzt. Die Zeitersparnis beträgt hier 144,6 Stunden. Dies entspricht 18 Arbeitstage, die ein Pendler im Jahr 2025 verloren hat, wenn er das Auto genommen hat.
Gibt es Strecken, bei denen das Auto schneller ist? Woran könnte das liegen?
In der Tabelle gibt es genau eine Strecke, auf der das Auto schneller ist als die Bahn: Neu-Ulm \(\rightarrow\) Ulm. Die Autostrecke beträgt lediglich 3,7 km und die Fahrzeit während der Hauptverkehrszeit liegt bei 8,1 Minuten, während die Bahn nur etwa 0,8 Minuten länger benötigt. Dies lässt sich dadurch erklären, dass die Strecke sehr kurz ist und die Bahn ihre reguläre Reisegeschwindigkeit nicht erreichen kann. Züge benötigen aus dem Stand eine längere Beschleunigungsphase als Autos und müssen zudem frühzeitig wieder abbremsen, um im Bahnhof Ulm zum Stillstand zu kommen. Auf so kurzen Distanzen wirken sich diese betrieblichen Faktoren besonders stark aus, sodass das Auto hier einen leichten Zeitvorteil hat.
- Da Sie alle in Ulm studieren und eventuell aus dem Ulmer Umland
einpendeln, sollten Sie die 5 wichtigsten Pendlerrouten nach
Ulm näher analysieren. Stellen Sie in einem
Dumbbell-Chart (oder Lollipop-Chart) die Unterschiede
zwischen Auto- und Bahnzeiten visuell dar. Nutzen Sie für ihre Analyse
den Datensatz
ulm_routen.
Die 5 wichtigsten Pendlerrouten nach Ulm sind:
- Neu-Ulm \(\rightarrow\) Ulm
- Blaustein \(\rightarrow\) Ulm
- Ehingen \(\rightarrow\) Ulm
- Laupheim \(\rightarrow\) Ulm
- Langenau \(\rightarrow\) Ulm
Markieren Sie, welche Orte keinen Bahnhof haben.
Beschreiben und interpretieren Sie ihre Grafik. Welche Besonderheiten zeigen die ländlichen Strecken?
Hinweis: Nutzen Sie geom_segment() und
geom_point() für ihr Dumbbell-Chart
oder Lollipop-Chart.
Beschreibung
Die Grafik zeigt ein Dumbell-Chart, das für jede Pendlerroute nach Ulm einen blauen Punkt für das Auto und einen roten Punkt für die Bahn darstellt.Die Grafik ist absteigend sortiert nach der Fahrzeit des Autos. Es werden folgende Orte betrachtet: Neu-Ulm, Laupheim, Langenau, Ehingen (Donau) und Blaustein. Die Grafik zeigt wie lange das Auto zur Hauptverkehrszeit und die Bahn in der Realität nach Ulm braucht. Es ist zu erkennen, dass in den meisten Fällen das Auto länger braucht als die Bahn. Für die Strecke Langenau \(\rightarrow\) Ulm weist das Auto die größte Differenz zur Bahn auf. Zudem fällt auf, dass sowohl Auto als auch Bahn für Neu-Ulm \(\rightarrow\) Ulm relativ schnell sind, während Blaustein der einzige Ort ist, bei dem man mit der Bahn länger unterwegs ist.
Interpretation
Die Unterschiede zwischen den Fahrzeiten von Auto und Bahn lassen sich vor allem durch die geografische Lage der Orte sowie die jeweilige Verkehrsinfrastruktur erklären. Besonders Langenau und Ehingen weisen die größten zeitlichen Differenzen auf. Ein möglicher Grund dafür ist die Lage beider Orte an stark frequentierten Verkehrsachsen wie der A7 beziehungsweise der B311. Vor allem zu Hauptverkehrszeiten kann es dort zu stockendem Verkehr oder Staus kommen, wodurch das Auto deutlich an Zeit verliert, während die Bahn von diesen Verkehrseinflüssen weitgehend unbeeinträchtigt bleibt. Für Neu-Ulm sind sowohl Auto als auch Bahn vergleichsweise schnell, wobei die Bahn einen leichten Zeitvorteil aufweist. Dies könnte darauf zurückzuführen sein, dass sich die Bahnhöfe zentral in den Städten befinden. Während das Auto insbesondere zu Stoßzeiten im innerstädtischen Verkehr aufgehalten wird, kann die Bahn die Strecke ohne zusätzliche Zwischenstopps zurücklegen. Laupheim weist trotz seiner größeren Entfernung zu Ulm eine relativ geringe Differenz zwischen Auto- und Bahnfahrzeit auf. Ein möglicher Grund hierfür ist, dass Laupheim nicht direkt an eine leistungsfähige Fernverkehrsstrecke angebunden ist, sodass die Bahn keinen deutlichen Geschwindigkeitsvorteil erzielen kann. Gleichzeitig ist die Straßenverbindung nach Ulm vergleichsweise direkt und verläuft ohne nennenswerte topografische Hindernisse. Wie dem Hinweis in der Grafik zu entnehmen ist, verfügt Blaustein über keinen eigenen Bahnhof. Dies ist ebenfalls ein Grund dafür, dass die Bahnverbindung länger dauert als die Fahrt mit dem Auto, da zunächst ein Zubringerverkehr, beispielsweise mit dem Bus zum nächstgelegenen Bahnhof, notwendig ist, bevor die Weiterfahrt mit der Bahn nach Ulm erfolgen kann.
Fazit
Insgesamt lässt sich festhalten, dass die Bahn, wenn ein Bahnhof vorhanden ist, zur Hauptverkehrszeit schneller ist als das Auto. Gleichzeitig wird deutlich, dass die Unterschiede zwischen Auto und Bahn stark variieren und sowohl Entfernung als auch direkte Verkehrsverbindungen entscheidend für die Wahl des Verkehrsmittels sind.
Die volkswirtschaftlichen Kosten
Verspätungen kosten nicht nur Nerven, sie haben einen realen volkswirtschaftlichen Preis. Jede Minute, die ein Pendler im verspäteten Zug wartet, ist verlorene Arbeitszeit.
Um diese Kosten etwas besser zu quantifizieren sollten Sie sich den Medianlohn der jeweiligen Städte herunterladen und näher analysieren.
- Berechnen Sie die volkswirtschaftlichen Kosten der Bahnverspätungen für die 11 Städte.
Datensätze:
staedte_basis(aus Aufgabe 4) – enthält Einpendler, Medianlohn und Staudaten- Ergebnis aus Aufgabe 9: die gewichtete durchschnittliche Verspätung pro Stadt (in Minuten)
Nutzen Sie die folgenden Annahmen:
Annahmen:
- 220 Arbeitstage pro Jahr
- 2 Fahrten pro Tag (Hin + Zurück)
- Ca. 8,4% der Pendler nutzen die Bahn (nationaler Durchschnitt laut MiD 2023 Kurzbericht)
Berechnen Sie für jede Stadt:
- Anzahl der Bahnpendler (Einpendler × 8,4%)
- Verspätungsstunden pro Jahr (Verspätung × 220 × 2 / 60)
- Kosten pro Pendler (Verspätungsstunden × Stundenlohn)
- Gesamtkosten der Stadt
Erstellen Sie auf Basis ihrer Berechnung eine Tabelle, welche die Anzahl der Bahnpendler, die Verspätungsstunden pro Jahr, die Kosten pro Pendler und die Gesamtkosten der Stadt anschaulich darstellt.
Beschreiben und interpretieren Sie ihre Tabelle. Gehen Sie dabei auch auf die Gesamtkosten der 11 Städte ein. Erklären Sie außerdem, warum der Medianlohn für diese Berechnung besser geeignet ist als der Durchschnittslohn.
Hinweis: Für die Umrechnung auf Stundenlohn: Monatsentgelt / 160 (bei 40h/Woche).
| Volkswirtschaftliche Kosten der Bahnverspätungen 2025 | ||||
| Top 10 Städte mit den höchsten Kosten (zusätzlich Ulm) | ||||
| Stadt | Bahnpendler (Einpendler × 8,4%) | Verspätungsstunden pro Jahr (h) | Kosten / Pendler (€) | Gesamtkosten Stadt (Mio. €) |
|---|---|---|---|---|
| München | 38.274 | 43,9 | 1.328,8 | 50,9 |
| Köln | 25.780 | 57,9 | 1.590,6 | 41,0 |
| Frankfurt am Main | 34.092 | 37,7 | 1.111,1 | 37,9 |
| Düsseldorf | 23.914 | 53,8 | 1.520,0 | 36,3 |
| Hamburg | 33.008 | 32,6 | 922,1 | 30,4 |
| Berlin | 32.955 | 34,5 | 895,5 | 29,5 |
| Stuttgart | 23.053 | 38,9 | 1.138,6 | 26,2 |
| Essen | 11.869 | 54,6 | 1.361,0 | 16,2 |
| Nürnberg | 13.902 | 37,1 | 980,7 | 13,6 |
| Hannover | 11.586 | 43,8 | 1.137,8 | 13,2 |
| Ulm | 5.741 | 29,5 | 795,3 | 4,6 |
| Gesamtsumme | 299,8 | |||
Beschreibung
Die Tabelle “Volkswirtschaftliche Kosten der Bahnverspätungen 2025” mit dem Untertitel “Top 10 Städte mit den höchsten Kosten (zusätzlich Ulm)” besteht aus den Spalten Stadt, Bahnpendler (Einpendler × 8,4%), Verspätungsstunden pro Jahr (h), Kosten / Pendler (€) und Gesamtkosten Stadt (Mio. €). Die Tabelle ist absteigend nach den Gesamtkosten der Stadt sortiert. München trägt mit 51 Millionen Euro die höchsten Gesamtkosten der Städte und besitzt auch die meisten Bahnpendler (38.274). Mit einem Abstand von fast 10 Millionen Euro liegt Köln bei den Gesamtkosten direkt hinter München. Es ist jedoch auffällig, dass die Kosten pro Pendler in Köln am höchsten sind und hier die meisten Verspätungsstunden auftauchen. Hannover belegt den letzten Platz der Top 10 in den Kategorien Anzahl Bahnpendler (11.586) und Gesamtkosten für die Stadt (13 Millionen Euro). Berlin auf Platz 6 der Gesamtkosten sticht hervor, da Berlin innerhalb der Top 10 mit 895,5€ die geringsten Kosten pro Pendler besitzt. Als selektive Erweiterung der Tabelle bildet Ulm den unteren Referenzpunkt und rangiert in allen Kategorien hinter den deutlich größeren Metropolen. Die Gesamtkosten aller Städte betragen insgesamt knapp 300 Millionen Euro.
Interpretation
Zur Ermittlung dieser Kosten wurde durchgängig der Medianlohn herangezogen. Dies ist methodisch sinnvoll, da der Median im Vergleich zum Durchschnitt nicht durch extrem hohe Gehälter verzerrt wird. Er repräsentiert das Einkommen der breiten Pendlermasse und führt somit zu einer realistischen und eher defensiven Schätzung der volkswirtschaftlichen Schäden. Alle der aufgeführten Städte mit Ausnahme von Ulm gehören zu den größten Städten Deutschlands. Ulm dient in diesem Kontext als wichtiger Referenzpunkt für eine kleinere Großstadt. An der Spitze des Rankings steht München. Die Spitzenposition ergibt sich aus der Kombination des höchsten Pendleraufkommens und eines hohen Lohnniveaus. Skaleneffekte werden in der Tabelle verdeutlicht, die Tendenz zeigt auf, dass Pendler in größeren Städten mehr Kosten tragen müssen und die allgemeinen volkswirtschaftlichen Kosten höher sind. Die Gesamtsumme von fast 300 Millionen Euro am Ende der Tabelle verdeutlicht das aggregierte Ausmaß des Problems für die untersuchten Standorte und unterstreicht die Relevanz einer pünktlichen Infrastruktur für die deutsche Wirtschaftsleistung. Zudem ist anzumerken, dass die berechneten Beträge lediglich die direkten Zeitkosten widerspiegeln. In der Realität dürften die Kosten höher ausfallen, da Verspätungen auch Opportunitätskosten nach sich ziehen, wie etwa verpasste Anschlusstermine, Stressbelastung der Arbeitnehmer oder Produktivitätsverluste, die über den reinen Stundenlohn hinausgehen. Hohe Kosten pro Pendler (siehe Köln) können zu einem Attraktivitätsverlust eines Standorts und des ÖPNVs führen.
- Setzen Sie die Kosten der Bahn (aus Aufgabe 14) den Kosten des Autos
gegenüber. Vergleichen Sie diese in einer Szenario-Analyse mittels eines
gestapelten Balkendiagramms. Nutzen Sie für ihre Analysen den Datensatz
staedte_basis.
Berechnen Sie zuerst die Kosten des Autostaus pro Stadt:
- Anzahl der Autopendler (Einpendler × 91,6%)
- Staukosten pro Autopendler (Staustunden × Stundenlohn)
- Gesamtkosten der Stadt durch Autostau
Führen Sie anschließend einen Szenario-Vergleich durch: Was passiert, wenn der Bahnanteil von 8,4% auf 20% steigt?
- Berechnen Sie die Gesamtkosten (Bahn + Auto) für beide Szenarien
- Annahme: Weniger Autos = weniger Stau (z.B. 20% weniger Stauzeit pro Autopendler)
Erstellen Sie ein gestapeltes Balkendiagramm nach Szenario. Beschreiben und intepretieren Sie ihre Grafik. Gehen Sie insbesondere auf die folgenden Fragen ein:
- Wie verteilen sich die Kosten zwischen Bahn und Auto im Status quo?
- Welches Verkehrsmittel verursacht den größeren volkswirtschaftlichen Schaden?
- Was ist die Nettoersparnis bei 20% Bahnanteil?
Beschreibung
Die Grafik mit dem Titel “Volkswirtschaftliche Kosten pro Jahr (2025)” besteht aus zwei gestapelten Balkendiagrammen. Auf der x-Achse werden die jährlichen Kosten in Mio. € abgetragen und auf der y-Achse die Städte. Die einzelnen Balken sind nach der Kostenursache aufgeteilt. Kosten durch Auto (Stau) in rot und Kosten durch Bahn (Verspätung) in blau. Es werden zwei Szenarien gelistet, einmal der Status Quo mit einem Bahnanteil von 8,4% und zusätzlich ein fiktives Szenario mit einem Bahnanteil von 20%. Der Untertitel listet die Gesamtkosten aller Städte auf. Beim Status Quo entsprechen dies 4604 Mio. € und beim Szenario 3721 Mio. €. Zusätzlich zeigt der Untertitel, dass der Umstieg auf das Szenario eine Ersparnis von 883 Mio. € pro Jahr ermöglichen würde. Es werden die Städte mit den größten volkswirtschaftlichen Kosten zusätzlich Ulm gelistet. Bei allen Städten dominiert Stau als Kostenursache hochgradig. Die Kosten durch Bahnverspätungen entsprechen nur einem kleinen Teil der Gesamtkosten. Vergleicht man den Status Quo mit dem Szenario ist zu erkennen, dass die Gesamtkosten und die Kosten durch Stau bei jeder Stadt zurückgehen, aber der Anteil der Kosten verursacht durch Bahnverspätungen minimal ansteigt. München steht an erster Stelle mit Gesamtkosten beim Status Quo von ungefähr 750 Mio. €, davon sind ungefähr 60 Mio. € Bahnverspätungen zuzuordnen und 690 Mio. € dem Stau. Beim Szenario verringern sich die Gesamtkosten auf etwa 625 Mio. €, mit einem Anstieg von circa 125 Mio. € Kosten durch Bahnverspätungen und einem Rückgang der Staukosten auf 500 Mio. €. Dieses Muster ist bei allen Städten wiedererkennbar. Ulm als Vergleichswert weist im Status Quo Gesamtkosten von 55 Mio. € und beim Szenario 46 Mio. € auf.
Interpretation
Das Balkendiagramm verdeutlicht, dass ein Anstieg der Bahnpendler
eine enorme Kostenersparnis mit sich bringt. Selbst wenn der Bahnanteil
nur um 11,6 Prozentpunkte steigt, werden Kosten von 883 Mio. € pro Jahr
eingespart. Ein einzelner Autopendler verursacht somit im Durchschnitt
mehr volkswirtschaftliche Kosten durch Zeitverluste als ein Bahnpendler.
Der volkswirtschaftliche Schaden wird verringert, je mehr Menschen auf
die Bahn umsteigen. Ob sich dieser Trend permanent fortführt, ist jedoch
unklar, da das Schienennetz bei einem steigenden Bahnanteil an physische
Kapazitätsgrenzen stößt. Ohne begleitende Infrastrukturinvestitionen
könnten die Verspätungskosten bei einer weiteren Verlagerung
überproportional ansteigen und die Nettoersparnis schmälern.
Ein weiterer wichtiger Aspekt ist die Flächeneffizienz. Während der
Schienenverkehr eine große Anzahl an Pendlern auf minimalem Raum
transportiert, benötigt der Individualverkehr enorme Flächen für Straßen
und Parkraum. Die hier berechneten Kostenersparnisse von 883 Mio. €
spiegeln also nur einen Teil des Nutzens wider; die Rückgewinnung von
städtischem Lebensraum durch weniger Stau und geringeren Flächenbedarf
ist ein zusätzlicher, nicht monetarisierter Gewinn für die
Allgemeinheit.
Fazit
Zusammenfassend lässt sich sagen, dass der Individualverkehr um einiges höhere volkswirtschaftliche Kosten verursacht als der Schienenverkehr. Eine Verlagerung der Pendlerströme auf die Bahn bietet daher ein enormes Potenzial, die Effizienz des Gesamtsystems zu steigern und jährlich sehr hohe Millionenbeträge einzusparen. Dennoch ist die Forderung, dass mehr Menschen umsteigen sollen, mit Vorsicht zu genießen, da ein permanenter Trend zur Schiene nur dann tragfähig ist, wenn die Infrastruktur entsprechend mitwächst.
Politikempfehlung – Ihre Synthese
Sie haben nun umfangreiche Analysen durchgeführt und viele Erkenntnisse über die Bahn gewonnen. Jetzt ist es Zeit, diese zu einer kohärenten Empfehlung zusammenzufügen.
Szenario: Sie sind Berater:in des Bundesministeriums für Digitales und Verkehr. Die Ministerin bittet Sie um eine evidenzbasierte Politikempfehlung zur Verbesserung des Pendlerverkehrs in Deutschland.
- Formulieren Sie eine Politikempfehlung für das Bundesministerium für Digitales und Verkehr.
Schreiben Sie eine Executive Summary (max. 5 Sätze). Fassen Sie hierbei die wichtigsten Erkenntnisse aus ihrem Projekt zusammen. Was ist die zentrale Botschaft?
Formulieren Sie 3 konkrete Empfehlungen. Jede muss enthalten:
- Ein konkretes Ziel (Was soll erreicht werden?)
- Eine messbare Maßnahme (Wie wird es umgesetzt?)
- Eine Begründung mit Zahlen aus Ihrer Analyse
- Nennen Sie zwei Limitationen Ihrer Datengrundlage
- Was würden Sie mit zusätzlichen Daten noch untersuchen?
Executive Summary
Unsere Analyse zeigt, dass der Pendlerverkehr in Deutschland durch gezielte Verbesserungen bei der Bahn und beim Autoverkehr effizienter gestaltet werden kann. Insbesondere könnten Taktzeiten, Pünktlichkeit und Park+Ride-Infrastruktur die Pendlererfahrung deutlich verbessern und volkswirtschaftliche Kosten senken. Eine evidenzbasierte Strategie, die diese Bereiche adressiert, bietet sowohl wirtschaftliche als auch ökologische Vorteile. Die Ergebnisse legen nahe, dass gezielte Maßnahmen in den größten Städten den größten Effekt haben, wobei weitere Daten zur Ausweitung und Optimierung nötig sind. Die zentrale Botschaft lautet: Investitionen in Bahn-Infrastruktur, Fahrplanoptimierung und Park+Ride-Angebote können die Pendlerzeiten reduzieren und die volkswirtschaftlichen Kosten deutlich verringern.
Empfehlung 1: Um den Anteil der Bahnpendler während der Stoßzeiten zu erhöhen, sollten die Taktzeiten auf stark frequentierten Strecken um 10–15 Minuten verkürzt werden. Unsere Analyse zeigt, dass dadurch die volkswirtschaftlichen Kosten um rund 1,25 Mrd. € reduziert werden könnten. Einschränkend ist jedoch zu beachten, dass die Datenbasis bisher nur 11 Städte umfasst und noch unklar ist, wie stark das Bahnnetz ausgebaut werden kann, bevor es zu weiteren Verspätungen kommt. Mit zusätzlichen Daten zu Knotenbahnhöfen und den Kosten für Infrastrukturverbesserungen ließen sich diese Maßnahmen noch gezielter planen.
Empfehlung 2: Um Verspätungen zu reduzieren und die Pünktlichkeit zu erhöhen, sollten Fahrpläne aktualisiert und Pufferzeiten anhand historischer Verspätungsdaten eingeplant werden. So zeigen die Daten für Köln im Jahr 2025, dass Bahnpendler insgesamt 57,9 Stunden Verspätung hatten. Limitationen bestehen darin, dass die Ursachen der Verspätungen unklar sind und nicht bekannt ist, auf welchen Streckenabschnitten sie entstehen. Weitere Daten zu den genauen Verspätungsursachen und betroffenen Streckenabschnitten würden helfen, die Fahrpläne gezielt zu optimieren.
Empfehlung 3: Um die Stauzeiten im Autoverkehr zu verringern und die Innenstädte zu entlasten, sollten mehr Park+Ride-Angebote an Stadträndern geschaffen und bestehende erweitert werden. Laut Analyse standen Pendler in Köln 2025 durchschnittlich 67 Stunden im Stau, was Kosten von etwa 919 € pro Person verursachte. Limitationen der Daten sind, dass die konkreten Stauursachen sowie die räumliche Verteilung der Stauhotspots unklar sind. Mit zusätzlichen stadtbezogenen Daten könnten Park+Ride-Angebote gezielt an den neuralgischen Punkten platziert werden, um die Wirkung zu maximieren.
Zusatzaufgaben (optional)
Bisher haben Sie zwei Dimensionen betrachtet: Zeit (Bahn ist schneller) und Geld (Verspätungen kosten). Aber es gibt einen dritten, oft vergessenen Aspekt: die Umwelt.
Das Auto ist nicht nur langsamer und teurer; es ist auch ein Klimakiller. Ein durchschnittlicher PKW emittiert z.B. etwa 150 g CO2 pro Personenkilometer.
- Recherchieren Sie die CO2-Emissionsfaktoren und das Mobilitätsverhalten:
- Erstellen Sie eine kleine Tabelle in der Sie die CO2-Emissionen (in
g/Personenkilometer) für folgende Verkehrsmittel auflisten:
- PKW (Durchschnitt)
- PKW (Elektro, deutscher Strommix)
- ICE/IC (Fernverkehr)
- RE/RB (Nahverkehr)
- S-Bahn
- Berechnen Sie einen gewichteten Durchschnitt für die Bahn, wenn 70% der Pendler Nahverkehr und 30% Fernverkehr nutzen.
- Um wie viel Prozent sind die Bahn-Emissionen niedriger als beim Auto?
Hinweis: Nutzen Sie Daten vom Umweltbundesamt oder dem DB Umweltbericht.
| Vergleich CO2-Emissionsfaktoren unterschiedlicher Verkehrsarten | ||
| CO2-Emissionen in g/Personenkilometer und Einsparung gegenüber PKW | ||
| Verkehrsmittel | CO2 (g/Pkm) | Einsparung gegenüber PKW (%) |
|---|---|---|
| PKW (Durchschnitt) | 166,0 | 0,0 |
| PKW (Elektro) | 70,0 | 57,8 |
| ICE/IC (Fernverkehr) | 0,5 | 99,7 |
| RE/RB (Nahverkehr) | 39,7 | 76,1 |
| S-Bahn | 42,0 | 74,7 |
| Bahn-Mix (70/30)¹ | 27,9 | 83,2 |
| ¹Gewichteter Mix: 70% Nahverkehr und 30% Fernverkehr. | ||
- Die Studie “Mobilität in Deutschland” (MiD 2023) ist die wichtigste Datenquelle zum Mobilitätsverhalten in Deutschland. Sie ermöglicht einen Vergleich mit 2017 (vor Corona).
Lesen Sie den MiD 2023 Kurzbericht und beantworten Sie:
- Modal Split: Wie hat sich der Anteil des öffentlichen Verkehrs (ÖV) am Gesamtverkehr zwischen 2017 und 2023 verändert?
- Homeoffice-Effekt: Wie hat sich die durchschnittliche Tagesstrecke verändert? Was ist laut MiD der Hauptgrund für diese Veränderung?
- Stadt vs. Land: Welchen Anteil hat das Deutschlandticket in Metropolen vs. ländlichen Räumen? Was bedeutet das für die Ulm-Region?
- Implikation für CO2: Welche Schlussfolgerung ziehen Sie aus diesen Veränderungen für das CO2-Einsparpotenzial durch Bahnpendeln? (2-3 Sätze)
Wie hat sich der Anteil des öffentlichen Verkehrs (ÖV) am Gesamtverkehr zwischen 2017 und 2023 verändert?
Zwischen 2017 und 2023 hat sich die Struktur des Modal Split in Deutschland spürbar verändert: Der Anteil des öffentlichen Verkehrs am Gesamtverkehr ist zwar weiterhin vergleichsweise gering, zeigt aber einen leichten Aufwärtstrend. 2023 lag der Anteil des ÖV an allen Wegen bundesweit bei etwa 11 %, was im Vergleich zu 2017 einen Anstieg bedeutet. Gleichzeitig ist der Anteil des motorisierten Individualverkehrs (Auto) gesunken, während zu Fuß gehen und Radfahren zugenommen haben - insgesamt also eine leichte Verschiebung hin zu umweltfreundlicheren Verkehrsarten.
Wie hat sich die durchschnittliche Tagesstrecke verändert? Was ist laut MiD der Hauptgrund für diese Veränderung?
Laut MiD 2023 hat sich die durchschnittliche Tagesstrecke pro Person leicht verkürzt - von knapp 40 km auf rund 35 km pro Tag. Auch die durchschnittliche Anzahl der Wege pro Person nahm etwas ab. Der Hauptgrund für diese Entwicklung liegt in veränderten Alltags- und Arbeitsmustern, zu denen auch mehr Homeoffice-Arbeit und weniger klassische Pendelwege beitragen. Dadurch reduzieren sich insbesondere Berufswege, was insgesamt die zurückgelegten Tageskilometer verringert.
Welchen Anteil hat das Deutschlandticket in Metropolen vs. ländlichen Räumen? Was bedeutet das für die Ulm-Region?
Der Deutschlandticket-Anteil unterscheidet sich deutlich zwischen städtischen und ländlichen Räumen. Während in Metropolen ein erheblicher Teil der Bevölkerung dieses Ticket als übliches ÖPNV-Ticket nutzt (z. B. rund 33 % laut ergänzender BMV-Darstellung), beträgt der Anteil in ländlichen Räumen nur etwa 10 %. Dies zeigt, dass das Deutschlandticket vor allem in städtischen Regionen verbreiteter ist, was damit zusammenhängt, dass dort der öffentliche Verkehr dichter und attraktiver ist. Für die Region Ulm bedeutet das: In urbaneren Teilen ist das Deutschlandticket für Pendler und Freizeitfahrten relevanter als in dünn besiedelten, ländlichen Bereichen.
Welche Schlussfolgerung ziehen Sie aus diesen Veränderungen für das CO2-Einsparpotenzial durch Bahnpendeln?
Durch die leichte Zunahme des öffentlichen Verkehrsanteils, die kürzeren Tagesstrecken und eine stärkere Nutzung von Fuß- und Radverkehr zeigt sich ein Potenzial für CO₂-Einsparungen, wenn mehr Wege vom Auto auf den ÖV oder nicht-motorisierte Verkehrsmittel verlagert werden. Insbesondere ein stärkerer ÖV-Anteil im Modal Split kann dazu beitragen, verkehrsbedingte CO₂-Emissionen zu reduzieren, vorausgesetzt, die Verkehrsangebote werden attraktiver und dichter genutzt.
- Berechnen Sie die CO2-Ersparnis für die 11 analysierten Städte.
Datensatz: co2_analyse (aus Aufgabe 4)
– enthält Streckenlängen, Einpendlerzahlen und vorberechnete Werte
Annahmen:
- 220 Arbeitstage pro Jahr
- 2 Fahrten pro Tag (Hin + Zurück)
- CO2-Auto: 150 g/km, CO2-Bahn: 47 g/km (gewichteter Durchschnitt)
Berechnen Sie für jeden Umsteiger (Auto \(\rightarrow\) Bahn):
- Jährliche Kilometer
- CO2-Emissionen mit Auto (kg/Jahr)
- CO2-Emissionen mit Bahn (kg/Jahr)
- Ersparnis (kg/Jahr)
Nun sollten Sie eine Szenario Analyse ähnlich wie in Aufgabe 15 durchführen: Wenn sich der Bahnanteil von 8,4% auf 20% erhöht: wie viele Tonnen CO2 würden in den 11 Städten jährlich eingespart?
Visualisieren Sie die CO2-Ersparnis pro Stadt.
Stellen Sie die Ersparnis in Kontext, um die Ersparnis greifbarer zu machen, z.B. wie viele Mallorca-Flüge (hin + zurück, ~750 kg CO2) entspricht das?
Beschreibung
Die Grafik zeigt ein Szenario für das Jahr 2025, in dem der Anteil der Pendler, die die Bahn nutzen, von 8,4% auf 20% erhöht wird – also mehr als verdoppelt. Als Grundlage für die Berechnung dienen die angenommenen CO₂-Emissionen von 150g/km für das Auto und 47g/km für die Bahn (gewichteter Durchschnitt). Auf der X-Achse sind die jährlich eingesparten CO₂-Mengen in Tonnen dargestellt, von 0 bis 80.000t, während auf der Y-Achse die Top zehn Städte sowie Ulm aufgelistet sind. Besonders auffällig ist, dass Frankfurt im Szenario über 75.000t CO₂ pro Jahr einsparen würde, während die Ersparnis in Ulm nur knapp über 1.000t liegt.
Interpretation
Die Unterschiede in der CO2-Ersparnis zwischen den Städten lassen sich vor allem durch die Anzahl der Pendler erklären: In Städten mit deutlich mehr Pendlern wie Frankfurt würde eine Erhöhung des Bahnanteils viele Personen vom Auto auf die Bahn bringen, was zu erheblichen Einsparungen führt. In kleineren Städten wie Ulm sind die Pendlerzahlen deutlich geringer, sodass trotz einer prozentual gleichen Erhöhung des Bahnanteils die absolute CO2-Ersparnis vergleichsweise klein ausfällt. Insgesamt zeigt das Szenario, dass eine Verdoppelung des Bahnanteils in allen elf betrachteten Städten zu einer jährlichen Gesamteinsparung von 339.416t CO2 im Jahr 2025 führen hätte können. Um die Dimension dieser Zahl greifbarer zu machen: Sie entspricht etwa 452.554 Hin- und Rückflügen nach Mallorca, wobei ein solcher Flug etwa 750kg CO2 verursacht. Das verdeutlicht, dass selbst moderate Veränderungen im Verkehrsverhalten auf städtischer Ebene einen erheblichen Beitrag zur Reduktion von CO2-Emissionen leisten können.
Anhang
Anhang A: Beschreibung der bereitgestellten Datensätze
1. Bahnhof-Kreis-Mapping (bahnhof_ags_mapping.csv)
Dieses Mapping ist essenziell für die Verknüpfung von Bahn- und Pendlerdaten. Die Bahndaten sind auf Bahnhofsebene (z.B. “München Hbf”), die Pendlerdaten auf Kreisebene (z.B. “München, Landeshauptstadt”). Der AGS (Amtlicher Gemeindeschlüssel) ist der Schlüssel, der beide Welten verbindet.
Wichtige Variablen:
station_name: Name des Bahnhofsags: Amtlicher Gemeindeschlüssel (5-stellig für Kreise)kreis_name: Name des Landkreises/der kreisfreien Stadt
2. Fahrtzeit-Vergleich OSRM
(fahrtzeit_osrm_vergleich.csv)
Für einen fairen Vergleich Auto vs. Bahn brauchen wir realistische Fahrtzeiten. OSRM (Open Source Routing Machine) berechnet echte Straßenrouten basierend auf OpenStreetMap – keine Luftlinien, sondern tatsächliche Straßenverbindungen mit Abbiegevorgängen, Geschwindigkeitsbegrenzungen und Straßentypen.
Wichtige Variablen:
stadt: Zielstadt der Pendlerstreckestrecke_name: Beschreibung der Route (z.B. “Dachau \(\rightarrow\) München”)auto_distanz_km: Fahrstrecke mit dem Auto in kmauto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit (mit Staufaktor)bahn_planzeit_min: Fahrzeit laut Fahrplanbahn_verspaetung_min: Durchschnittliche Verspätungbahn_real_min: Realistische Bahnfahrzeit (Fahrplan + Verspätung)
Wie wurde das Routing durchgeführt?
Koordinaten ermitteln: Für jede Pendlerstrecke wurden Start- und Zielkoordinaten definiert (z.B. Stadtzentrum Dachau \(\rightarrow\) München Hauptbahnhof).
OSRM-API abfragen: Über die öffentliche OSRM-Demo-API (
router.project-osrm.org) wurden für jede Route Distanz und Fahrzeit abgefragt. Die API gibt die schnellste Route zurück, basierend auf dem aktuellen Straßennetz.Staufaktor anwenden: Die OSRM-Basisfahrzeit entspricht einer Fahrt bei freiem Verkehr. Für die Hauptverkehrszeit (HVZ) wurde ein Staufaktor von 1,3-1,5 angewendet, basierend auf den INRIX-Daten der jeweiligen Stadt.
Bahn-Daten ergänzen: Die Bahnfahrzeiten stammen aus dem DB-Fahrplan, ergänzt um die durchschnittliche Verspätung aus unserer Analyse.
Weiterführende Links:
- OSRM Projekt-Website – Dokumentation und Demo
- OSRM API-Dokumentation – Technische Details zur API
- OpenStreetMap – Die Kartendaten, auf denen OSRM basiert
- R-Paket
osrm– Für eigene OSRM-Abfragen in R
3. Ulm-Pendlerrouten (ulm_pendlerrouten.csv)
Da Sie in Ulm studieren, analysieren wir die wichtigsten Pendlerrouten in die Stadt genauer. Dieser Datensatz enthält die 5 wichtigsten Einpendler-Gemeinden mit detaillierten Informationen zur Erreichbarkeit.
Wichtige Variablen:
start_ort: Startgemeinde der Pendlerrouteziel_ort: Zielort (Ulm)auto_dauer_min: Fahrzeit mit dem Autoauto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeitbahn_fahrplan_min: Bahnfahrzeit laut Fahrplanbahn_real_min: Realistische Bahnfahrzeithat_bahnhof: TRUE/FALSE – hat der Startort einen Bahnanschluss?pendler_geschaetzt: Geschätzte Anzahl Pendler auf dieser Route
4. Entgeltstatistik (ba_entgeltstatistik_2024.csv)
Um die volkswirtschaftlichen Kosten von Verspätungen zu berechnen, brauchen wir regionale Lohndaten. Diese haben wir von der Bundesagentur für Arbeit heruntergeladen.
Wichtige Variablen:
kreis_name: Name des Kreises/der Stadtags: Amtlicher Gemeindeschlüsselmedianentgelt_brutto_monat: Median-Bruttomonatsentgelt in Euro
Quelle: Bundesagentur für Arbeit, Entgeltstatistik 2024