Motivation

Jeden Morgen das gleiche Bild: Verstopfte Autobahnen, genervte Pendler, verlorene Zeit. 20,5 Millionen Menschen pendeln in Deutschland täglich zur Arbeit – die meisten davon mit dem Auto. Laut INRIX Traffic Scorecard 2024 verlieren Pendler in deutschen Großstädten zwischen 40 und 60 Stunden pro Jahr allein im Stau. Das entspricht fast einer kompletten Arbeitswoche, die im Nichts verpufft.

Die Idee liegt auf der Hand: Wer Bahn fährt, steht nicht im Stau. Aber wie schlägt sich die Bahn im Vergleich zum Auto? Ist sie wirklich schneller? Und wie zuverlässig ist sie eigentlich?

In diesem Projekt analysieren Sie Echtzeitdaten der Deutschen Bahn, Pendlerstatistiken der Bundesagentur für Arbeit, Staudaten von INRIX und die Entgeltstatistik der Bundesagentur für Arbeit. Sie werden herausfinden, dass die Antwort auf die Frage “Sollten mehr Menschen Bahn fahren?” komplexer ist, als man zunächst vermuten würde und dass sie wichtige Implikationen für die Verkehrspolitik hat.

Ihre zentrale Forschungsfrage lautet:

“Sollten mehr Menschen Bahn fahren – und was müsste sich dafür ändern?”

Datengrundlage

In diesem Projekt arbeiten Sie mit mehreren Datensätzen. Ein wichtiger Teil des Projekts ist das eigenständige Beschaffen von Primärdaten aus offiziellen Quellen.

Daten einlesen und verstehen

Bevor Sie mit der Analyse beginnen können, müssen Sie verschiedenste Datensätze einlesen und deren Struktur verstehen. Die Deutsche Bahn stellt über unterschiedliche Schnittstellen Echtzeitdaten für ihre Züge als open-source Daten zur Verfügung, welche per API-Calls geladen werden können. Jedoch gibt es von der Deutschen Bahn keine offizielle Seite, welche historische Daten zu Zugverspätungen, Ausfällen etc. für Fern- und Nahverkehrszüge sammelt. Da wir uns jedoch mit historischen Daten beschäftigen möchten, greifen wir auf Daten zurück, die von Piet Brömmel gesammelt wurden und bei Huggingface im Parquet-Format zur Verfügung gestellt wurden. Das Parquet-Format ist ein effizientes Datenformat und wird oft für große Datenmengen genutzt; in R können Sie diese Daten mit dem arrow-Paket einlesen.

Wie pünktlich ist die Bahn wirklich? Um diese Frage zu beantworten, brauchen Sie echte Verspätungsdaten – nicht nur Pressemitteilungen. Die Bahndaten bilden das Herzstück unserer Analyse: Mit ihnen können Sie berechnen, wie viel Zeit Bahnfahrer durch Verspätungen verlieren und später mit den Stauzeiten der Autofahrer vergleichen.

Die Deutsche Bahn stellt Echtzeitdaten als Open Data zur Verfügung. Das Projekt piebro/deutsche-bahn-data auf Huggingface sammelt diese Daten im Parquet-Format.

Laden Sie die Datei für November 2025 direkt von Huggingface herunter und lesen Sie diesen Datensatz als bahn in R ein.

Zeigen Sie die ersten 10 Zeilen des Datensatzes in einer Tabelle und beantworten Sie anschließend folgende Fragen:

Wie viele Beobachtungen enthält der Datensatz? Welche Variablen sind vorhanden?
Was stellt eine einzelne Beobachtung dar?

Hinweis 1: Sie können auf Huggingface die gesuchte Datei hier finden und direkt die URL zu der Datei in R mitgeben

Hinweis 2: Sie können die Parquet Datei entweder lokal speichern, oder immer direkt per URL einlesen. Falls Sie die Datei lokal speichern, so wird diese nicht auf GitHub Committet, da wir dies in der .gitignore entsprechend eingestellt haben. In diesem Fall sollten alle Teammitglieder die Datei lokal zur Verfügung haben.

Hinweis 3: Achten Sie bei allen Tabellen auf einer saubere Darstellung

train_name	station_name	final_destination_station	delay_in_min	is_canceled
Erste 10 Beobachtungen der Deutschen Bahn (November 2025)
S 2	Stuttgart Hbf	Filderstadt	5	FALSE
S 5	Halle (Saale) Hbf	Leipzig Hbf (tief)	1	FALSE
RE 1	Karlsruhe Hbf	Karlsruhe Hbf	95	FALSE
ALX RE25	Regensburg Hbf	München Hbf	11	FALSE
ICE 775	Mannheim Hbf	Karlsruhe Hbf	1	FALSE
S 9	Flughafen BER	Flughafen BER	1	FALSE
S 8	Halle (Saale) Hbf	Halle (Saale) Hbf	15	FALSE
RB 40	München Hbf	München Hbf	0	FALSE
IC 1952	Köln Hbf	Köln Hbf	40	FALSE
S 1	Freiburg (Breisgau) Hbf	Freiburg (Breisgau) Hbf	0	FALSE

Wie viele Beobachtungen enthält der Datensatz? Welche Variablen sind vorhanden?

Die Tabelle zeigt die ersten zehn Zeilen, was den ersten zehn Beobachtungen entspricht, des Datensatzes bahn aus dem Projekt piebro/deutsche-bahn-data. Insgesamt umfasst der Datensatz 13.943.561 Beobachtungen. Der Datensatz enthält unter anderem folgende Variablen:

train_name – Bezeichnung des Zuges.
station_name – Name des Abfahrbahnhofs.
final_destination_station – Zielbahnhof des Zuges.
delay_in_min – Differenz zwischen geplanter und tatsächlicher Ankunft oder Abfahrt in Minuten.
is_canceled – gibt an, ob der Zug ausgefallen ist (TRUE/FALSE).

Was stellt eine einzelne Beobachtung dar?

Eine einzelne Beobachtung entspricht einem Zughalt eines bestimmten Zuges an einem bestimmten Bahnhof zu einem bestimmten Zeitpunkt. Sie enthält Informationen darüber, wann der Zug geplant halten sollte, wann er tatsächlich gehalten hat, sowie die Verspätung in Minuten. Zusätzlich werden verschiedene Identifikationsnummern bereitgestellt, darunter Bahnhof, Zug, Zugroute und Halt, wodurch eine Analyse von Verspätungen sowohl auf Halt- als auch auf Zugniveau möglich ist.

Wohin pendeln die Menschen? Die Bahndaten zeigen ihnen die Pünktlichkeit der Züge – aber um zu verstehen, wo gute Bahnverbindungen besonders wichtig sind, müssen Sie wissen, wohin die Menschen pendeln. Die Pendlerstatistik der Bundesagentur für Arbeit zeigt genau das: Welche Städte sind die größten Arbeitgeber-Magneten?

Laden Sie den Datensatz pendler_kreise_aufbereitet.csv aus dem Ordner daten in R ein als Datensatz pendler.

Erstellen Sie eine Tabelle der Top 10 Städte nach Einpendlern mit den Spalten: Stadt (kreis_name), Einpendler, Auspendler, Pendlersaldo.

Interpretieren Sie kurz: Welche Städte sind die größten “Pendlermagneten” Deutschlands und warum?

Stadt	Einpendler	Auspendler	Pendlersaldo
Top 10 der Städte mit den meisten Einpendlern 2025
München, Landeshauptstadt	455.645	202.756	252.889
Frankfurt am Main, Stadt	405.856	111.245	294.611
Hamburg, Freie und Hansestadt	392.951	147.328	245.623
Berlin, Stadt	392.324	219.898	172.426
Köln, Stadt	306.905	138.422	168.483
Düsseldorf, Stadt	284.696	97.326	187.370
Stuttgart, Landeshauptstadt	274.442	100.095	174.347
Nürnberg, Stadt	165.496	78.557	86.939
Essen, Stadt	141.296	90.906	50.390
Region Hannover	137.924	69.974	67.950

Beschreibung

Die Tabelle zeigt die Top zehn Städte Deutschlands mit den meisten Einpendlern 2025. Für jede Stadt werden die Anzahl der Einpendler, Auspendler sowie deren Differenz (Pendlersaldo) angegeben. Die Stadt mit den meisten Einpendlern ist die bayerische Landeshauptstadt München mit 455.645 Einpendlern, dicht gefolgt von Frankfurt am Main mit 405.856 Einpendlern, Hamburg mit 392.952 Einpendlern und Berlin mit 392.324 Einpendlern. Das Pendlersaldo zeigt, dass Frankfurt am Main den größten Überschuss an Einpendlern gegenüber Auspendlern aufweist, nämlich 294.611 Einpendler mehr als Auspendler.

Interpretation

Der Grund, warum gerade diese Städte zu den Top 10 gehören, liegt vermutlich darin, dass es sich um Großstädte mit zahlreichen großen Unternehmen handelt. Viele Firmen haben ihren Sitz in den Städten, z.B. BMW in München oder Mercedes-Benz in Stuttgart. Zudem sind in Großstädten mehr Dienstleistungsbetriebe, Banken und öffentliche Einrichtungen angesiedelt als in kleineren Städten oder ländlichen Regionen. In den umliegenden ländlichen Gebieten gibt es oft weniger Arbeitsplätze, sodass viele Bewohner werktags in die Großstädte pendeln. Auch Universitäten und andere Bildungseinrichtungen konzentrieren sich meist in den Städten. Ein gut ausgebautes Verkehrs- und ÖPNV-Netz macht das Pendeln zusätzlich leicht und attraktiv.

Was kostet das Auto? Sie haben jetzt Bahndaten und wissen, wohin die Menschen pendeln. Aber um fair vergleichen zu können, brauchen Sie auch die Alternative: Wie viel Zeit verlieren Autofahrer im Stau? Diese Daten liefert INRIX – ein Unternehmen, das weltweit Verkehrsdaten sammelt. Später werden Sie diese Staukosten mit den Bahnverspätungen vergleichen.

Besuchen Sie die INRIX Global Traffic Scorecard und suchen Sie die Stauzeiten für die Top 10 Städte aus Aufgabe 2 und zusätzlich die Stauzeiten für Ulm. INRIX misst, wie viele Stunden Autofahrer jährlich im Stau verlieren.

Erstellen Sie eine eigene CSV-Datei inrix_staedte_2024.csv mit folgenden Spalten für die geforderten Städte:
- stadt: Name der Stadt
- stau_stunden_jahr: Jährliche Staustunden pro Fahrer
- kosten_eur: Jährliche Kosten pro Fahrer (findet sich in der tiefergehenden Übersicht)
Berechnen Sie für jede Stadt, wie viele Arbeitstage pro Jahr im Stau verloren gehen. Annahme: Ein Arbeitstag = 8 Stunden.

Erstellen Sie anschließend eine schöne Tabelle mit: Stadt, Staustunden/Jahr, verlorene Arbeitstage und beschreiben diese. In welcher Stadt ist die Stausituation am schlimmsten? Wie viele Arbeitstage verliert ein typischer Pendler dort pro Jahr?

Hinweis: Auf der INRIX-Website können Sie nach bei “Jump to City Rankings” -> “Search the List” -> “Germany” oder der konkreten Stadt filtern.

Stadt	Staustunden (h)	Kosten (€)	verlorene Arbeitstage
Staubelastung deutscher Städte 2025
Köln	67	919	8,4
Düsseldorf	63	864	7,9
Berlin	60	823	7,5
Stuttgart	60	823	7,5
München	57	781	7,1
Frankfurt am Main	55	754	6,9
Hannover	54	740	6,8
Hamburg	46	631	5,8
Essen	46	631	5,8
Nürnberg	38	521	4,8
Ulm	30	411	3,8

Beschreibung

Die Tabelle mit dem Titel “Staubelastung deutscher Städte 2024” listet die Top zehn Einpendler-Städte aus Aufgabe zwei (zusätzlich Ulm), sortiert nach Staustunden pro Jahr. Die einzelnen Spalten bestehen aus Stadt, Staustunden (h), Kosten (€) und verlorene Arbeitstage. Köln ist mit 67 Staustunden an erster Stelle, ein typischer Pendler verliert dort durchschnittlich 8,4 Arbeitstage pro Jahr und trägt Kosten von 919€. Es folgen Düsseldorf, Berlin und Stuttgart. In Ulm stehen Autofahrer hingegen nur 30 Stunden pro Jahr im Stau, was 3,8 Arbeitstagen beziehungsweise 411€ entspricht. Der letzte Platz aus den Top 10 Städten aus Aufgabe 2 belegt jedoch Nürnberg mit 38 Staustunden, Kosten von 521€ und verlorene Arbeitstage von 4,8. Es besteht eine positive Korrelation zwischen den Staustunden, den Kosten und den verlorenen Arbeitstagen.

Für die weiteren Analysen stellen wir Ihnen fünf zusätzliche Datensätze bereit. Diese laden Sie jetzt, damit sie in allen folgenden Aufgaben direkt verfügbar sind.

Laden Sie die folgenden Datensätze aus dem Ordner daten und speichern Sie diese unter den angegebenen Variablennamen:

Datei	Variablenname	Verwendet in
`bahnhof_ags_mapping.csv`	`bahnhof_mapping`	Aufgabe 9-10
`fahrtzeit_osrm_vergleich.csv`	`fahrtzeit`	Aufgabe 12
`ulm_pendlerrouten.csv`	`ulm_routen`	Aufgabe 13
`ba_entgeltstatistik_2024.csv`	`entgelt`	für `staedte_basis`
`co2_analyse.csv`	`co2_analyse`	Aufgabe 19 (Bonus)

Verschaffen Sie sich einen ersten Überblick über die Struktur der Daten (z.B. mit glimpse(), dies sollte später in ihrem HTML Dokument nicht sichtbar sein!).

Erstellen Sie außerdem einen Master-Datensatz staedte_basis für die Top-11-Städte (Top 10 Pendlerstädte + Ulm), der die Daten aus pendler, entgelt und inrix kombiniert. Dieser Datensatz vereinfacht die späteren Analysen (ab Aufgabe 14), da alle relevanten Kennzahlen bereits zusammengeführt sind.

Der Master-Datensatz sollte folgende Spalten enthalten:

ags: Amtlicher Gemeindeschlüssel
stadt: Stadtname (Kurzform, z.B. “München”)
einpendler: Anzahl Einpendler
median_monat_eur: Medianlohn pro Monat
median_stunde_eur: Medianlohn pro Stunde (Monatslohn / 160)
stau_stunden_jahr: Stauzeit pro Jahr (aus INRIX)

Hinweis 1: Die Datensätze verwenden unterschiedliche Namensformate: pendler hat offizielle Namen (“München, Landeshauptstadt”), während entgelt und inrix Kurznamen (“München”) verwenden. Nutzen Sie den AGS als zuverlässigen Schlüssel für die Verknüpfung mit pendler. Tipp: entgelt enthält sowohl AGS als auch Kurznamen und eignet sich daher gut als Ausgangspunkt.

Hinweis 2: Eine ausführliche Beschreibung der Datensätze finden Sie im Anhang A.

Die Pünktlichkeit der Deutschen Bahn

Nachdem Sie nun einen Überblick über die Daten haben, welche wir in diesem Projekt verwenden möchten, tauchen Sie tiefer in die Bahndaten ein. Die zentrale Frage ist: Wie zuverlässig ist die Deutsche Bahn wirklich?

Die Bahn unterscheidet verschiedene Zugtypen, vom ICE über den RE bis zur S-Bahn. Jeder Zugtyp hat unterschiedliche Eigenschaften: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Aber welcher Zugtyp ist am pünktlichsten?

Welche Züge sind (un)pünktlich? Nicht alle Züge sind gleich: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Um später sinnvolle Empfehlungen geben zu können, müssen Sie verstehen, welche Zugtypen besonders problematisch sind. Dafür klassifizieren Sie die Züge anhand ihrer Namen. Nutzen Sie für diese Analyse den Datensatz bahn.

Die Variable train_name enthält den Zugnamen (z.B. “ICE 123”, “S 5”, “RE 8”).

Erstellen Sie eine neue Variable zugtyp mit folgenden Kategorien:

Zugtyp	Regel	Beispiel
ICE	beginnt mit “ICE”	ICE 123
IC/EC	beginnt mit “IC” oder “EC”	IC 2012, EC 6
IRE/RE	beginnt mit “RE” oder “IRE”	RE 5, IRE 200
RB	beginnt mit “RB”	RB 26
S-Bahn	beginnt mit “S” (mit Leerzeichen!)	S 5
Sonstige	alle anderen	U 6, STB 123

Erstellen Sie auf dieser Basis eine Tabelle, welche pro Zugtyp folgende Kennzahlen anschaulich darstellt:

Anzahl der Fahrten
Durchschnittliche Verspätung (in Minuten)
Anteil pünktlicher Züge (≤6 Min Verspätung)
Ausfallquote

Beschreiben und Interpretieren Sie die Tabelle.

Weiterhin sollten Sie ihre Ergebnisse verifizieren. Dafür können Sie auf die offizielle Pünktlichkeitswerte der Deutschen Bahn zurückgreifen (recherchieren Sie diese selbstständig).

Stimmen Ihre Ergebnisse mit den offiziellen Werten überein? Falls nicht: Welche methodischen Unterschiede könnten die Abweichung erklären?

Hinweis: Nutzen Sie str_detect() aus dem stringr-Paket. Achten Sie auf die Reihenfolge der Bedingungen!

Zugtyp	Anzahl der Halte	Ø Verspätung (min.)	Anteil pünktlicher Züge (%)¹	Ausfallquote (%)
Pünktlichkeit, Ausfallquoten und Haltestops nach Zugtypen im Jahr 2025
ICE	171.516	12,5	56,7	4,2
IC/EC	70.602	11,0	60,2	7,2
IRE/RE	1.673.555	6,1	74,1	3,6
RB	2.675.028	3,5	85,2	3,2
Sonstige	2.938.815	3,5	84,7	2,6
S-Bahn	6.414.045	2,9	87,4	5,5
¹Ein Zug gilt als pünktlich bei einer Verspätung von ≤ 6 Minuten.

Beschreibung

Die Tabelle “Pünktlichkeit, Ausfallquoten und Haltestops nach Zugtypen im Jahr 2025” besteht aus den Spalten Zugtyp, Anzahl der Fahrten, Ø Verspätung (min.), Anteil pünktlicher Züge (%) und Ausfallquote (%). Die Zugtypen werden nach ICE, IC/EC, IRE/RE, RB, S-Bahn und Sonstige klassifiziert. ICEs haben durchschnittlich die größte Verspätung (12,5 Minuten) und den kleinsten Anteil pünktlicher Züge (56,7%), die Ausfallquote zeigt sich jedoch nicht markant (4,2%). S-Bahnen haben die geringste Verspätung (2,9 Minuten mit 87,4% pünktlicher Züge). IC/ECs stechen mit einer hohen Ausfallquote von 7,2% hervor. Die geringste Ausfallquote mit nur 2,6% liegt bei den Sonstigen, die zweitniedrigste Ausfallquote nehmen RBs mit 3,2% ein. Obwohl ICEs insgesamt unpünktlicher sind, haben sie eine fast doppelt so niedrige Ausfallquote als IC/ECs (4,2% und 7,2%).

Interpretation

Wichtig zu beachten ist, dass nur Züge mit einer Verspätung von ≤6 Minuten als pünktlich kategorisiert werden. Dies spielt vor allem bei S-Bahnen oder Zügen mit einer kurzen Strecke/häufigen Stopps eine Rolle, da hier viel regelmäßiger und in deutlich kürzeren Abständen Züge fahren. Somit kommt die S-Bahn meist pünktlich an, bei Problemen fällt sie jedoch eher komplett aus. Es gibt eine Korrelation zwischen Distanz und Pünktlichkeit. Die Pünktlichkeit sinkt im Fernverkehr (ICE, IC/EC) deutlich ab. Je länger und komplexer eine Strecke ist, desto unpünktlicher ist ein Zug in der Regel. Dass ICEs trotz hoher Unpünktlichkeitswerte trotzdem eine verhältnismäßig moderate Ausfallquote haben, könnte auf eine Priorisierung von ICEs der Deutschen Bahn hindeuten. IC/EC-Züge sind jedoch das Gegenteil, es existiert eine hohe durchschnittliche Verspätung mit der höchsten Ausfallquote. Zusammenfassend lässt sich sagen, dass die Verspätung/Ausfallquote stark von der Art des Zugtyps abhängt. Fernverkehr ist instabiler als Nahverkehr.

Verifizierung

Die offiziellen Werte der Deutschen Bahn für 2024 zeigen für den Fernverkehr (ICE, IC/EC) eine Pünktlichkeit von 62,5% und für den Regionalverkehr (IRE/RE, RB, S-Bahn) 90,7%. Somit liegt tendenziell eine leichte Abweichung vor. Der Trend von pünktlichem Nahverkehr/Regionalverkehr und unpünktlichem Fernverkehr spiegelt sich jedoch in den offiziellen Werten wider. Diese Abweichung lässt sich nicht auf die Klassifizierung der Pünktlichkeit zurückführen, da in beiden Tabellen eine Verspätung von >6 Minuten als unpünktlich gilt. Die ausgefallenen Züge werden im Berichtsjahr nicht aufgelistet. Die leichte Abweichung der Daten könnte sich auf eine unterschiedliche Datenquelle zurückführen, die DB besitzt interne Daten und wir greifen auf getrackte Daten über die API-Schnittstelle zu. Es ist denkbar, dass hier Unterschiede auftauchen.Quelle

In Aufgabe 5 haben Sie gesehen, dass Fernverkehrszüge (ICE, IC/EC) deutlich höhere Verspätungen und Ausfallquoten haben als Nahverkehrszüge (IRE, RE, RB, S-Bahn). Aber wie relevant ist das für den typischen Pendler? Das hängt davon ab, wie viele Züge jeweils unterwegs sind. Nutzen Sie für diese Analyse den Datensatz bahn (mit der in Aufgabe 5 erstellten Variable zugtyp).

Klassifizieren Sie die Züge in zwei Kategorien:

Fernverkehr: ICE, IC/EC
Nahverkehr: IRE, RE, RB, S-Bahn

Erstellen Sie ein Liniendiagramm, das die durchschnittliche Anzahl der Fahrten pro Stunde im Tagesverlauf zeigt:

X-Achse: Uhrzeit (0-23 Uhr)
Y-Achse: Durchschnittliche Anzahl Fahrten pro Stunde
Zwei Linien: eine für Fernverkehr, eine für Nahverkehr (unterschiedliche Farben)

Tipp: Extrahieren Sie die Stunde aus der Variable time mit hour() aus dem lubridate-Paket. Berechnen Sie dann die durchschnittliche Anzahl Fahrten pro Stunde und Zugtyp.

Beschreiben und interpretieren Sie ihre Grafik. Beantworten Sie zusätzlich die folgenden Fragen:

Zu welchen Uhrzeiten fahren die meisten Züge?
Wie unterscheidet sich das Muster zwischen Fern- und Nahverkehr?
Warum ist diese Information wichtig, wenn wir später die Verspätungen analysieren?

Beschreibung

Das Liniendiagramm “durchschnittliche Anzahl der Fahrten pro Stunde im Jahr 2025” zeigt auf der x-Achse die Stunde des Tages (0-23 Uhr) und auf der y-Achse die Anzahl der Fahrten (0-20.000 Fahrten). Es wird zwischen zwei Kategorien unterschieden, dem Fernverkehr in Dunkelblau und dem Nahverkehr in Türkis. Der Nahverkehr besitzt eine deutlich höhere Anzahl an Fahrten als der Fernverkehr mit einem Maximum von ungefähr 18.000 Fahrten um 8 Uhr und 19.000 Fahrten um 18 Uhr. Zwischen 8 und 18 Uhr sind beide Verkehrsarten relativ konstant an ihrem Maximum mit einem leichten Abschwung und wieder Aufschwung des Nahverkehrs (Fernverkehr fast konstant am Maximum mit <1.000 Fahrten). Danach gibt es bei beiden einen Rückgang der Fahrten. Der Nahverkehr ist zwischen 3 und 4 Uhr an seinem Minimum und der Fernverkehr zwischen 1 und 5 Uhr. Somit ist das Muster der beiden Verkehrsarten ähnlich und folgt einem Tag-Nacht-Rhythmus. Insgesamt ist der Fernverkehr verschwindend gering im Vergleich zum Nahverkehr.

Interpretation

Das ähnliche Muster lässt sich dadurch erklären, dass tendenziell bei Tag mehr Fahrten stattfinden als bei Nacht. Tagsüber sind viel mehr Menschen unterwegs als nachts. Die Peaks des Nahverkehrs um 8 und 18 Uhr sind vermutlich die Rushhour, also der Arbeitsbeginn und das Arbeitsende. Viele Pendler fahren zu ihrer Arbeit beziehungsweise nach Hause. Der Fernverkehr bleibt mittags konstant, da Pendler in der Regel keinen Fernverkehr nutzen, sondern auf den Nahverkehr zugreifen. Diese Information ist für unsere weitere Analyse wichtig, da wir sehen, dass viel mehr Menschen den Nahverkehr benutzen als den Fernverkehr. Ebenfalls ist eine Beachtung wichtig, wann Verspätungen auftreten. Verspätungen zu der Mittagszeit oder der Rushhour treffen mehr Pendler und sind teurer als Verspätungen nachts.

Nachdem Sie in Aufgabe 6 herausgefunden haben, dass es deutlich mehr Nahverkehrszüge als Fernverkehrszüge gibt, und diese für Pendler wichtiger sind, sollten Sie sich die Verspätungen der Nahverkehrszüge über den Tag anschauen, da diese vermutlich nicht gleichmäßig über den Tag verteilt sind. Pendler erleben die Bahn vor allem in der Hauptverkehrszeit, d.h. morgens zwischen 7 und 9 Uhr und abends zwischen 16 und 19 Uhr. Aber ist die Bahn zu diesen Zeiten besonders unpünktlich?

Erstellen Sie zwei Heatmaps, die zeigen, wie sich die Verspätungen nach Tageszeit (Stunde) und Wochentag für die Nahverkehrszüge und die Fernverkehrszüge verteilen. Nutzen Sie für diese Analyse den Datensatz bahn.

Extrahieren Sie aus der Variable time die Stunde und den Wochentag.
Filtern Sie auf die relevanten Tageszeiten (5-23 Uhr), da nachts kaum Zugverkehr stattfindet.
Aggregieren Sie die durchschnittliche Verspätung pro Stunde und Wochentag für Nah- und Fernverkehrszüge separat.
Erstellen Sie eine Heatmap mit ggplot2 und geom_tile().

Tipp zur Farbskala: Da Fernverkehrszüge im Durchschnitt höhere Verspätungen haben als Nahverkehrszüge, können Sie unterschiedliche Farbskalen für die beiden Heatmaps verwenden (z.B. Blau-Töne für Nahverkehr, Rot-Töne für Fernverkehr). Dadurch werden die Muster innerhalb jeder Verkehrsart besser sichtbar.

Beschreiben und interpretieren Sie ihre Grafiken.

Wann sind die Verspätungen am höchsten?
Gibt es Unterschiede zwischen Werktagen und Wochenende?
Gibt es Unterschiede zwischen Nah- und Fernverkehrszügen?
Was bedeutet das für Pendler?

Beschreibung

Die Grafik “Verteilung der Verspätungen nach Tageszeit und Wochentag (2025)” zeigt zwei Heatmaps, welche die durchschnittlichen Verspätungen im Nah- und Fernverkehr darstellen. Bei einer Heatmap wird das Schaubild in einzelne Kästchen unterteilt, deren Farbintensität die Höhe der jeweiligen Verspätung widerspiegelt. Auf der x-Achse ist die Stunde des Tages abgetragen, wobei der Zeitraum von 5 Uhr morgens bis 23 Uhr abends betrachtet wird. Die y-Achse zeigt die einzelnen Wochentage. Die Heatmap des Nahverkehrs benutzt eine Skala von 0 bis >5 Minuten in einem roten Farbraum. Die des Fernverkehrs benutzt eine Skala von 0 bis >20 Minuten und ist blau eingefärbt. In der Heatmap des Nahverkehrs ist deutlich zu erkennen, dass die Verspätungen insbesondere ab den Abendstunden (ab etwa 17 Uhr), sowie an Werktagen stärker ausgeprägt sind als zu anderen Zeiten. Zudem lässt sich eine klare Tendenz erhöhter Verspätungen zwischen Dienstag und Donnerstag in den Morgenstunden von etwa 8 bis 10 Uhr feststellen. Die Heatmap des Fernverkehrs zeigt hingegen, dass die Verspätungen hierbei vor allem werktags von 19 bis 23 Uhr auftreten.

Interpretation

Insgesamt weisen Nah- und Fernverkehr ähnliche zeitliche Muster auf, jedoch ist die Intensität und Relevanz der Verspätungen beim Fernverkehr viel geringer, sodass auf eine größere Skala zurückgegriffen werden muss um diese kenntlich zu machen. Im Nahverkehr treten von Montag bis Freitag auch tagsüber erhöhte Verspätungen auf, während diese im Fernverkehr im Tagesverlauf überwiegend moderat bleiben. Für Pendlerinnen und Pendler ist dies besonders relevant, da sich zeigt, dass es vor allem zu den Hauptverkehrszeiten zwischen 8 und 10 Uhr, sowie zwischen 17 und 20 Uhr im Nahverkehr zu vermehrten Verspätungen kommt. Da Pendler überwiegend auf Nahverkehrszüge angewiesen sind, sind sie von diesen Unregelmäßigkeiten besonders betroffen. Aufgrunddessen, dass Fernverkehrszüge den Nahverkehrszügen vorgezogen werden, kann sich deren Verspätung zu der Rushhour auf den Nahverkehr auswirken. Dies hat zur Folge, dass der Nahverkehr verspätet kommt und die Pendler zu spät zur Arbeit kommen.

Von der Zeit zum Ort: Wo entstehen die Verspätungen?

In Aufgabe 7 haben Sie analysiert, wann die Verspätungen auftreten, nämlich vor allem zu den Hauptverkehrszeiten. Aber die nächste wichtige Frage ist: Wo entstehen diese Verspätungen?

Aggregierte Statistiken wie Durchschnittswerte über ganz Deutschland verbergen oft große regionale Unterschiede. Vielleicht gibt es einzelne “Problembahnhöfe”, die den Durchschnitt nach oben ziehen? Oder sind die Verspätungen gleichmäßig über das Netz verteilt? Diese Frage ist wichtig, weil sie unterschiedliche Lösungsansätze impliziert: Bei wenigen Problembahnhöfen könnte die Bahn gezielt investieren, bei flächendeckenden Problemen bräuchten Sie systemische Lösungen.

Identifizieren Sie die 10 unpünktlichsten Bahnhöfe in Deutschland (mit mindestens 1.000 Halten im Monat). Nutzen Sie für diese Analyse den Datensatz bahn.

Erstellen Sie ein Balkendiagramm, das die durchschnittliche Verspätung dieser Bahnhöfe zeigt. Beschriften Sie die Balken mit den Verspätungswerten.

Beschreiben und interpretieren Sie ihre Grafik.

Sehen Sie ein geografisches Muster?
Handelt es sich um große Knotenbahnhöfe oder eher um kleinere Stationen?

Beschreibung

Das Balkendiagramm “Top 10 Bahnhöfe mit der höchsten durchschnittlichen Verspätung” mit dem Untertitel “(Bahnhöfe mit mindestens 1.000 Halte pro Monat)” zeigt die zehn Bahnhöfe in Deutschland mit der höchsten durchschnittlichen Verspätung. Auf der x-Achse ist die durchschnittliche Verspätung in Minuten abgetragen, auf der y-Achse die entsprechenden Bahnhöfe. Es ist erkennbar, dass unter den Top 10 kein Bahnhof eine durchschnittliche Verspätung von unter zehn Minuten aufweist. Den höchsten Wert verzeichnet Ennepetal (Gevelsberg) mit 14,7 Minuten, dicht gefolgt von Bad Breisig und Sinzig (Rhein) mit jeweils 14,5 Minuten. Mit etwas Abstand folgen Bornheim-Sechtem, Brühl, Roisdorf, Rolandseck, Hochneukirch, Rheydt-Odenkirchen und Zeesen.

Sehen Sie ein geografisches Muster?

Auffällig ist, dass sich die meisten Bahnhöfe in Nordrhein-Westfalen und Rheinland-Pfalz befinden, mit Ausnahme von Zeesen in Brandenburg. Manche Bahnhöfe liegen zudem sehr nah beieinander, was darauf hindeutet, dass sie nacheinander befahren werden und sich Verspätungen entlang der Strecke gleichbleiben oder vegrößern. So bilden Bad Breisig und Sinzig, Bornheim-Sechtem, Brühl und Roisdorf sowie Hochneukirch und Rheydt-Odenkirchen Cluster von Bahnhöfen in unmittelbarer Nähe, während Zeesen, Rolandseck und Ennepetal isoliert liegen. Zusätzlich befindet sich ein Großteil dieser Bahnhöfe in der Nähe von Großstädten wie Köln, Bonn, Mönchengladbach und Berlin. Dies könnte darauf hindeuten, dass Fernverkehrszüge, die durch diese Knotenbahnhöfe fahren, die Verspätungen beeinflussen und dies sich auf die Nahverkehrszüge auswirkt.

Handelt es sich um große Knotenbahnhöfe oder eher um kleinere Stationen?

Bei den Top-10-Bahnhöfen handelt es sich überwiegend um kleinere Stationen mit vergleichsweise wenigen Haltestopps, im Gegensatz zu großen Knotenbahnhöfen, die mehrere Hunderttausend Halte aufweisen können.

Die Anzahl der Halte pro Bahnhof liegt zwischen etwa 1.100 und 2.900:

Ennepetal: 2.742 Haltestopps
Bad Breisig / Sinzig: 2.114 Haltestopps jeweils
Bornheim-Sechtem: 2.274
Brühl: 2.936
Roisdorf: 2.274
Rolandseck: 1.182
Hochneukirch: 1.898
Rheydt-Odenkirchen: 1.919
Zeesen: 1.128

Die geringe Größe und die geografische Nähe einiger Bahnhöfe lassen vermuten, dass Verspätungen sich entlang der Strecke ausbreiten und die einzelnen Bahnhöfe ähnlich stark betreffen.

Wo treffen viele Pendler auf eine unpünktliche Bahn?

Bisher haben Sie Pendler- und Bahndaten getrennt betrachtet. Aber die spannende Frage ist: Wo kommen beide Probleme zusammen? Eine Stadt mit vielen Pendlern und einer unpünktlichen Bahn hat ein größeres Problem als eine Stadt mit wenigen Pendlern und einer unpünktlichen Bahn.

Um diese Frage zu beantworten, müssen Sie die Datensätze verknüpfen. Das Problem: Die Bahndaten sind auf Bahnhofsebene, die Pendlerdaten auf Kreisebene. Sie benötigen ein Mapping, das Bahnhöfe den entsprechenden Kreisen zuordnet.

In dieser Aufgabe verknüpfen Sie die Bahn- und Pendlerdaten, um Städte mit Handlungsbedarf zu identifizieren. Nutzen Sie für ihre Analysen die Datensätze: bahn, pendler und bahnhof_mapping.

Das Mapping ordnet Bahnhöfe ihrem Landkreis zu (via AGS = Amtlicher Gemeindeschlüssel). Ihr Ziel: Identifizieren Sie Städte, in denen viele Pendler auf eine unpünktliche Bahn treffen.

Berechnen Sie für jeden Bahnhof die durchschnittliche Verspätung und die Anzahl der Halte.
Aggregation auf Kreisebene: Berechnen Sie für jeden Kreis die gewichtete durchschnittliche Verspätung. Gewichten Sie nach der Anzahl der Halte (ein Bahnhof mit 10.000 Halten zählt mehr als einer mit 100).
Verknüpfen Sie das Ergebnis mit den Pendlerdaten mittels left_join() über die Variable ags.
Problem-Score berechnen: Kombinieren Sie beide Dimensionen mit z-Standardisierung:

\[\text{Problem-Score} = z(\text{Einpendler}) + z(\text{Verspätung})\]

Die z-Standardisierung macht die Werte vergleichbar: \(z(x) = \frac{x - \bar{x}}{s_x}\), wobei \(\bar{x}\) der Mittelwert und \(s_x\) die Standardabweichung ist.

Interpretation: Ein hoher Problem-Score = Viele Pendler + hohe Verspätung = Handlungsbedarf.

Anschließend sollten Sie eine Tabelle der Top 10 Städte nach Problem-Score darstellen und diese kurz beschreiben.

Stadt	Anzahl Einpendler	Ø Verspätung (min.)	Problem-Score
Top 10 Städte mit höchstem Handlungsbedarf 2025
Ranking basierend auf Pendlerzahlen und Verspätungsstatistik
München, Landeshauptstadt	455.645	5,98	3,45
Köln, Stadt	306.905	7,89	3,05
Düsseldorf, Stadt	284.696	7,33	2,55
Frankfurt am Main, Stadt	405.856	5,14	2,54
Berlin, Stadt	392.324	4,70	2,18
Hamburg, Freie und Hansestadt	392.951	4,44	2,05
Duisburg, Stadt	86.735	8,81	1,46
Hamm, Stadt	22.447	9,93	1,45
Stuttgart, Landeshauptstadt	274.442	5,30	1,38
Bonn, Stadt	112.607	8,00	1,28

Beschreibung

Die Tabelle “Top 10 Städte mit höchstem Handlungsbedarf 2025” besteht aus den Spalten Stadt, Anzahl Einpendler, Ø Verspätung (min.) und Problem-Score. Sie ist absteigend nach dem Problem-Score sortiert. Der Problem-Score ist die Summe der z-standardisierten Werte von Einpendlern und gewichteter Verspätung. Die durchschnittliche Verspätung liegt in einem Bereich von ungefähr 4 Minuten bis 10 Minuten. Bei der Pendleranzahl gibt es jedoch eine extremst große Spanne von 22.447 (Hamm) bis 455.645 (München). Auf dem ersten Platz liegt die Landeshauptstadt München mit einem Problem-Score von 3,45. Die durchschnittliche Verspätung hier liegt bei 5,98 Minuten, bei einer Pendleranzahl von 455.645. Darauf folgt Köln mit einer höheren durchschnittlichen Verspätung von 7,89, jedoch ist der Problem-Score mit einem Wert von 3,05 niedriger als in München, da die insgesamte Anzahl an Einpendlern bei 306.905 liegt (fast 150.000 weniger als in München). Duisburg und vor allem Hamm stechen aus der Tabelle heraus, da sie wenige Einpendler besitzen (Duisburg 86.735 und Hamm 22.447), aber die durchschnittliche Verspätung bei fast 10 Minuten liegt, ist der Problem-Score dieser Städte unter den Top 10 gelandet.

Interpretation

Treffen eine hohe durschnittliche Verspätung und eine hohe Anzahl an Einpendler aufeinander, steigt der Problem-Score in die Höhe und es besteht Handlungsbedarf. Hierfür kann Köln als Beispiel hergenommen werden, die Einpendlerzahlen sind vergleichsweise höher bei einer ebenso erhöhten durchschnittlichen Verspätung. Jedoch kann auch der Problem-Score hoch sein, wenn ein Faktor extrem ansteigt, während der andere moderat bleibt. So ist es z.B in München der Fall, dass die Einpendlerzahlen extrem hoch sind, wobei die durchschnittliche Verspätung eher im Mittelfeld ist. Im Vergleich z.B Hamm, hier ist die Einpendlerzahl recht gering, jedoch ist die durchschnittliche Verspätung stark erhöht. Zusammenfassend kann gesagt werden, dass Handlungsbedarf sowohl durch eine hohe Verspätung und hohe Einpendlerzahl entstehen kann, aber auch wenn ein Faktor signifikant erhöht ist.

Erstellen Sie ein Streudiagramm (Scatterplot), das die Beziehung zwischen Einpendlerzahl (x-Achse) und durchschnittlicher Verspätung (y-Achse) visualisiert.

Zeichnen Sie horizontale und vertikale Linien beim jeweiligen Mittelwert ein, um 4 Quadranten zu bilden
Färben Sie die Punkte nach Quadrant
Beschriften Sie die Städte mit den höchsten Problem-Scores
Nutzen Sie eine logarithmische Skala für die x-Achse

Beschreiben und interpretieren Sie die vier Quadranten:

Oben rechts: Viele Pendler + hohe Verspätung = ?
Oben links: Wenige Pendler + hohe Verspätung = ?
Unten rechts: Viele Pendler + niedrige Verspätung = ?
Unten links: Wenige Pendler + niedrige Verspätung = ?

Beantworten Sie dabei auch folgende Fragen:

Warum ist es sinnvoll die x-Achse zu logarithmieren?
Welche Städte liegen im kritischen Quadranten?
Was würden Sie der Deutschen Bahn empfehlen?

Beschreibung

Der Scatterplot “Zusammenhang zwischen Pendleraufkommen und Verspätung 2025” weist auf der x-Achse die Anzahl der Einpendler (logarithmiert) und auf der y-Achse die durchschnittliche Verspätung in Minuten auf. Der Plot wird in vier Quadranten aufgeteilt:

I. Quadrant, “Maximaler Handlungsbedarf” (rot): Viele Einpendler und hohe Verspätung II. Quadrant, “Lokale Schwachstellen” (gelb): Wenige Einpendler, aber hohe Verspätung.
III. Quadrant, “Kein Handlungsbedarf” (grün): Wenige Einpendler und geringe Verspätung.
IV. Quadrant, “Vorsicht” (orange): Viele Einpendler und geringe Verspätung.

Die Top 3 Städte mit dem höchsten Problem-Score aus Aufgabe 9 sind namentlich an ihrem Punkt erwähnt. Diese tauchen alle im roten Quadranten auf, namentlich sind dies Köln, Düsseldorf und München. Die Mehrheit der Standorte verteilt sich auf den grünen und gelben Bereich. Dahinter folgt der rote Quadrant, während im orangen Quadranten die wenigsten Städte liegen.

Interpretation

Eine Logarithmisierung der x-Achse ermöglicht einen besseren Vergleich zwischen den einzelnen Städten, da somit extreme Unterschiede weniger stark visualisiert werden und die Städte näher beieinander liegen. Ohne eine Logarithmierung wäre die Sichtbarkeit von kleineren Städten sehr schlecht gegeben und große Städte hätten einen extremst hohen Abstand zu den kleineren. Viele Pendler und eine hohe Verspätung führt zu dem höchsten Problem-Score. Der Scatterplot verdeutlicht, dass die Problemstädte (Städte mit den höchsten Problem-Scores) in der Regel Großstädte mit einer hohen Anzahl an Einpendlern sind. Die Farbwahl, sprich von rot zu grün, soll den Handlungsbedarf von maximaler Priorität bis zu geringer/keiner Priorität aufzeigen. Die kritischen Quadranten sind rot und orange (I. und IV.). Die Deutsche Bahn sollte sich auf Städte innerhalb dieser Quadranten fokussieren. Da dies Städte mit vielen Einpendlern sind, führen selbst Verspätungen von kleinem oder mittlerem Ausmaß zu einem problematischen Ausmaß, da diese Verspätungen viele Einpendler treffen. Problemstädte mit wenig Einpendlern können vorerst vernachlässigt werden, da hier nur ein kleinster Bruchteil der insgesamten Pendler von Verspätungen betroffen sind. Es handelt sich hierbei um lokale Schwachstellen. Zusammenfassend sollte die Deutsche Bahn ihre Ressourcen vor allem in die Städte im roten Quadranten stecken (äußerst hervorzuheben sind Köln, Düsseldorf und München.). Da hier extrem hohe Pendlerzahlen auf starke Verspätungen treffen, erzielt man dort die größte Wirkung für die Fahrgäste. Bei Städten im orangen Quadranten ist Vorsicht geboten, da hier viele Pendler auf wenig Verspätung treffen. Die momentane Situation in diesem Quadranten ist zwar akzeptabel, eine Verschlechterung der durchschnittlichen Verspätung hätte jedoch Folgen für hunderttausende Pendler. Städte mit weniger Pendlern können im Vergleich dazu erst einmal nachrangig behandelt werden. Im grünen Bereich besteht kein Handlungsbedarf.

Der Vergleich – Auto vs. Bahn

Sie haben nun identifiziert, wo die Bahn Probleme hat: Städte im kritischen Quadranten (viele Pendler + hohe Verspätungen) brauchen dringend Verbesserungen. Aber bevor Sie Empfehlungen aussprechen können, müssen Sie eine zentrale Frage beantworten:

Lohnt sich die Bahn überhaupt – oder ist das Auto trotz Stau schneller?

Denn selbst wenn die Bahn unpünktlich ist, könnte sie immer noch schneller sein als das Auto im Berufsverkehr. Umgekehrt: Eine pünktliche Bahn bringt wenig, wenn das Auto trotzdem schneller ist. Erst der direkte Vergleich zeigt uns, wo die Bahn wirklich konkurrenzfähig ist – und wo nicht.

Methodische Herausforderungen

Für einen fairen Vergleich sollten Sie “Äpfel mit Äpfeln” vergleichen:

Beim Auto muss der Stau berücksichtigt werden (nicht nur die theoretische Fahrzeit)
Bei der Bahn muss die Verspätung berücksichtigt werden (nicht nur der Fahrplan)
Beide Routen müssen dieselben Start- und Endpunkte haben

Für die Auto-Fahrtzeiten nutzen Sie OSRM (Open Source Routing Machine), das auf OpenStreetMap-Daten basiert. OSRM berechnet echte Straßenrouten, keine Luftlinien.

Erklären Sie in eigenen Worten:

Warum ist OSRM-Routing für diesen Vergleich besser geeignet als eine einfache Berechnung nach der Formel Distanz / Geschwindigkeit?
Welche Faktoren müssen zusätzlich berücksichtigt werden, um einen realistischen Vergleich zu ermöglichen? Denken Sie an:
- Tageszeit
- Parkplatzsuche
- Fußweg zum Ziel
- Wartezeit und Umsteigen bei der Bahn

Warum ist OSRM-Routing für diesen Vergleich besser geeignet als eine einfache Berechnung nach der Formel Distanz / Geschwindigkeit?

Eine einfache Rechnung nach der Formel Distanz / Geschwindigkeit geht von einer idealisierten Situation aus: Sie unterstellt eine gerade Strecke, konstante Geschwindigkeit und keine Störungen. In der Realität verläuft eine Autofahrt jedoch über ein konkretes Straßennetz mit Kurven, Kreuzungen, Tempolimits, Einbahnstraßen und unterschiedlichen Straßentypen. OSRM nutzt reale OpenStreetMap-Daten und berechnet dadurch tatsächliche Routen auf dem Straßennetz, inklusive erlaubter Abbiegevorgänge und realer Weglängen. Dadurch sind die Fahrzeiten deutlich näher an der Realität als bei einer theoretischen Durchschnittsrechnung.

Welche Faktoren müssen zusätzlich berücksichtigt werden, um einen realistischen Vergleich zu ermöglichen?

Für einen realistischen Vergleich zwischen Auto und Bahn reicht es nicht aus, nur die reine Fahrzeit zu betrachten. Entscheidend ist, dass alle Zeitbestandteile berücksichtigt werden, die im Alltag tatsächlich anfallen. Eine wichtige Rolle spielt dabei zunächst die Tageszeit: Je nach Uhrzeit unterscheidet sich die Verkehrsdichte erheblich. Während beim Auto vor allem Berufsverkehr, Wochenenden oder Nachtzeiten die Stauwahrscheinlichkeit beeinflussen, wirken sich diese Faktoren bei der Bahn auf Taktfrequenz, Auslastung und Zuverlässigkeit der Verbindungen aus. Darüber hinaus müssen beim Auto typische Staus eingeplant werden, während bei der Bahn nicht nur der Fahrplan, sondern auch reale Verspätungen berücksichtigt werden sollten. Gerade in Städten kommt beim Autofahren zusätzlich die oft zeitaufwendige Parkplatzsuche hinzu, die die Gesamtfahrzeit spürbar verlängern kann. Auch Fußwege spielen bei beiden Verkehrsmitteln eine Rolle: Beim Auto der Weg vom Parkplatz zum Ziel, bei der Bahn der Weg vom Bahnhof zur Zieladresse. Schließlich sind bei der Bahn Wartezeiten vor der Abfahrt sowie Umstiege ein wichtiger Faktor. Wartezeiten, Umstiegszeiten und mögliche Anschlussverluste können die tatsächliche Reisezeit deutlich verlängern und machen klar, dass die reine Zugfahrzeit allein keinen vollständigen Vergleich erlaubt. Nur wenn all diese Aspekte einbezogen werden, entsteht ein fairer und realistischer Vergleich zwischen Auto und Bahn.

Fazit

OSRM bildet die reale Autofahrt deutlich besser ab als eine einfache Distanz-Geschwindigkeits-Rechnung. Ein wirklich fairer Vergleich zwischen Auto und Bahn entsteht jedoch erst, wenn alle relevanten Zeitkomponenten von Tür zu Tür berücksichtigt werden – nicht nur die reine Fahrtzeit auf der Straße oder Schiene.

Für die Top 10 Einpendler-Städte wurden typische Pendlerstrecken definiert (z.B. Dachau \(\rightarrow\) München, Neuss \(\rightarrow\) Düsseldorf). Die OSRM-Ergebnisse liegen bereits vor. Nutzen Sie für ihre Analyse den Datensatz fahrtzeit.

Erstellen Sie:

Eine Tabelle mit: Stadt, Strecke, Distanz (km), Auto-Fahrzeit (Hauptverkehrszeit), Bahn-Fahrzeit (real), Differenz
Berechnen Sie die jährliche Zeitersparnis bei 220 Arbeitstagen und 2x täglichem Pendeln.

Interpretieren Sie ihre Tabelle:

In wie vielen Fällen ist die Bahn schneller als das Auto?
Wie viele Stunden pro Jahr kann ein Pendler maximal sparen?
Gibt es Strecken, bei denen das Auto schneller ist? Woran könnte das liegen?

Stadt	Strecke	Distanz (km)	Auto-Fahrzeit-Hauptverkehrszeit (min)	Bahn-Fahrzeit-real (min)	Differenz (min)	jährliche Zeitersparnis (h)
Vergleich Auto und Bahn 2025
Fahrzeitvergleich von Auto und Bahn für eine typische Pendlerstrecke der Top 10 Einpendler - Städte und Ulm
München	Dachau → München	19,1	40,2	26,1	14,1	103,5
Frankfurt	Darmstadt → Frankfurt	36,0	35,8	23,0	12,8	93,9
Hamburg	Harburg → Hamburg	14,2	24,0	16,3	7,7	56,7
Berlin	Potsdam → Berlin	34,2	49,3	29,6	19,7	144,6
Köln	Leverkusen → Köln	18,3	28,7	22,8	5,9	43,3
Düsseldorf	Neuss → Düsseldorf	12,1	27,1	17,1	10,0	73,3
Stuttgart	Esslingen → Stuttgart	14,0	27,2	20,2	7,0	51,6
Nürnberg	Fürth → Nürnberg	10,4	18,9	12,9	6,0	44,4
Essen	Mülheim → Essen	11,0	18,0	15,3	2,7	20,1
Hannover	Celle → Hannover	42,2	54,4	40,8	13,6	99,8
Ulm	Neu-Ulm → Ulm	3,7	8,1	8,9	−0,8	−5,8

Beschreibung

Die Tabelle enthält jeweils eine Beobachtung für jede der Top-10-Einpendlerstädte sowie zusätzlich für Ulm. Jede Beobachtung umfasst eine typische Pendlerstrecke, die dafür benötigte Auto-Fahrzeit während der Hauptverkehrszeit, die reale Fahrzeit mit der Bahn, die daraus resultierende Zeitdifferenz sowie die jährliche Zeitersparnis. Die jährliche Zeitersparnis gibt an, wie viel Zeit ein Pendler pro Jahr einsparen kann, wenn er an 220 Arbeitstagen zweimal täglich die Bahn anstelle des Autos nutzt. Die größte Zeitdifferenz zwischen Auto und Bahn beträgt 19,7 Minuten und tritt auf der Strecke von Potsdam nach Berlin auf, auf der die Bahn deutlich schneller ist als das Auto.

In wie vielen Fällen ist die Bahn schneller als das Auto?

Für alle Top-10-Einpendlerstädte ist die Bahn schneller als das Auto. Ein möglicher Grund dafür ist das in und um diese Städte gut ausgebaute öffentliche Verkehrsnetz. Da es sich um Städte mit besonders hohen Einpendlerzahlen handelt, ist davon auszugehen, dass der Schienenverkehr gezielt auf hohe Verkehrsaufkommen ausgelegt ist. Zudem handelt es sich überwiegend um große Städte, in denen sich die Hauptbahnhöfe meist zentral im Stadtgebiet befinden. Das Auto hat hier einen strukturellen Nachteil, da es häufig zunächst durch stark belastete innerstädtische Verkehrsbereiche fahren muss, was die Staugefahr und damit die Fahrzeit erhöht.

Wie viele Stunden pro Jahr kann ein Pendler maximal sparen?

Die größte jährliche Zeitersparnis ergibt sich auf der Strecke Potsdam \(\rightarrow\) Berlin, wenn der Pendler die Bahn anstelle des Autos nutzt. Die Zeitersparnis beträgt hier 144,6 Stunden. Dies entspricht 18 Arbeitstage, die ein Pendler im Jahr 2025 verloren hat, wenn er das Auto genommen hat.

Gibt es Strecken, bei denen das Auto schneller ist? Woran könnte das liegen?

In der Tabelle gibt es genau eine Strecke, auf der das Auto schneller ist als die Bahn: Neu-Ulm \(\rightarrow\) Ulm. Die Autostrecke beträgt lediglich 3,7 km und die Fahrzeit während der Hauptverkehrszeit liegt bei 8,1 Minuten, während die Bahn nur etwa 0,8 Minuten länger benötigt. Dies lässt sich dadurch erklären, dass die Strecke sehr kurz ist und die Bahn ihre reguläre Reisegeschwindigkeit nicht erreichen kann. Züge benötigen aus dem Stand eine längere Beschleunigungsphase als Autos und müssen zudem frühzeitig wieder abbremsen, um im Bahnhof Ulm zum Stillstand zu kommen. Auf so kurzen Distanzen wirken sich diese betrieblichen Faktoren besonders stark aus, sodass das Auto hier einen leichten Zeitvorteil hat.

Da Sie alle in Ulm studieren und eventuell aus dem Ulmer Umland einpendeln, sollten Sie die 5 wichtigsten Pendlerrouten nach Ulm näher analysieren. Stellen Sie in einem Dumbbell-Chart (oder Lollipop-Chart) die Unterschiede zwischen Auto- und Bahnzeiten visuell dar. Nutzen Sie für ihre Analyse den Datensatz ulm_routen.

Die 5 wichtigsten Pendlerrouten nach Ulm sind:

Neu-Ulm \(\rightarrow\) Ulm
Blaustein \(\rightarrow\) Ulm
Ehingen \(\rightarrow\) Ulm
Laupheim \(\rightarrow\) Ulm
Langenau \(\rightarrow\) Ulm

Markieren Sie, welche Orte keinen Bahnhof haben.

Beschreiben und interpretieren Sie ihre Grafik. Welche Besonderheiten zeigen die ländlichen Strecken?

Hinweis: Nutzen Sie geom_segment() und geom_point() für ihr Dumbbell-Chart oder Lollipop-Chart.

Beschreibung

Die Grafik zeigt ein Dumbell-Chart, das für jede Pendlerroute nach Ulm einen blauen Punkt für das Auto und einen roten Punkt für die Bahn darstellt.Die Grafik ist absteigend sortiert nach der Fahrzeit des Autos. Es werden folgende Orte betrachtet: Neu-Ulm, Laupheim, Langenau, Ehingen (Donau) und Blaustein. Die Grafik zeigt wie lange das Auto zur Hauptverkehrszeit und die Bahn in der Realität nach Ulm braucht. Es ist zu erkennen, dass in den meisten Fällen das Auto länger braucht als die Bahn. Für die Strecke Langenau \(\rightarrow\) Ulm weist das Auto die größte Differenz zur Bahn auf. Zudem fällt auf, dass sowohl Auto als auch Bahn für Neu-Ulm \(\rightarrow\) Ulm relativ schnell sind, während Blaustein der einzige Ort ist, bei dem man mit der Bahn länger unterwegs ist.

Interpretation

Die Unterschiede zwischen den Fahrzeiten von Auto und Bahn lassen sich vor allem durch die geografische Lage der Orte sowie die jeweilige Verkehrsinfrastruktur erklären. Besonders Langenau und Ehingen weisen die größten zeitlichen Differenzen auf. Ein möglicher Grund dafür ist die Lage beider Orte an stark frequentierten Verkehrsachsen wie der A7 beziehungsweise der B311. Vor allem zu Hauptverkehrszeiten kann es dort zu stockendem Verkehr oder Staus kommen, wodurch das Auto deutlich an Zeit verliert, während die Bahn von diesen Verkehrseinflüssen weitgehend unbeeinträchtigt bleibt. Für Neu-Ulm sind sowohl Auto als auch Bahn vergleichsweise schnell, wobei die Bahn einen leichten Zeitvorteil aufweist. Dies könnte darauf zurückzuführen sein, dass sich die Bahnhöfe zentral in den Städten befinden. Während das Auto insbesondere zu Stoßzeiten im innerstädtischen Verkehr aufgehalten wird, kann die Bahn die Strecke ohne zusätzliche Zwischenstopps zurücklegen. Laupheim weist trotz seiner größeren Entfernung zu Ulm eine relativ geringe Differenz zwischen Auto- und Bahnfahrzeit auf. Ein möglicher Grund hierfür ist, dass Laupheim nicht direkt an eine leistungsfähige Fernverkehrsstrecke angebunden ist, sodass die Bahn keinen deutlichen Geschwindigkeitsvorteil erzielen kann. Gleichzeitig ist die Straßenverbindung nach Ulm vergleichsweise direkt und verläuft ohne nennenswerte topografische Hindernisse. Wie dem Hinweis in der Grafik zu entnehmen ist, verfügt Blaustein über keinen eigenen Bahnhof. Dies ist ebenfalls ein Grund dafür, dass die Bahnverbindung länger dauert als die Fahrt mit dem Auto, da zunächst ein Zubringerverkehr, beispielsweise mit dem Bus zum nächstgelegenen Bahnhof, notwendig ist, bevor die Weiterfahrt mit der Bahn nach Ulm erfolgen kann.

Fazit

Insgesamt lässt sich festhalten, dass die Bahn, wenn ein Bahnhof vorhanden ist, zur Hauptverkehrszeit schneller ist als das Auto. Gleichzeitig wird deutlich, dass die Unterschiede zwischen Auto und Bahn stark variieren und sowohl Entfernung als auch direkte Verkehrsverbindungen entscheidend für die Wahl des Verkehrsmittels sind.

Die volkswirtschaftlichen Kosten

Verspätungen kosten nicht nur Nerven, sie haben einen realen volkswirtschaftlichen Preis. Jede Minute, die ein Pendler im verspäteten Zug wartet, ist verlorene Arbeitszeit.

Um diese Kosten etwas besser zu quantifizieren sollten Sie sich den Medianlohn der jeweiligen Städte herunterladen und näher analysieren.

Berechnen Sie die volkswirtschaftlichen Kosten der Bahnverspätungen für die 11 Städte.

Datensätze:

staedte_basis (aus Aufgabe 4) – enthält Einpendler, Medianlohn und Staudaten
Ergebnis aus Aufgabe 9: die gewichtete durchschnittliche Verspätung pro Stadt (in Minuten)

Nutzen Sie die folgenden Annahmen:

Annahmen:

220 Arbeitstage pro Jahr
2 Fahrten pro Tag (Hin + Zurück)
Ca. 8,4% der Pendler nutzen die Bahn (nationaler Durchschnitt laut MiD 2023 Kurzbericht)

Berechnen Sie für jede Stadt:

Anzahl der Bahnpendler (Einpendler × 8,4%)
Verspätungsstunden pro Jahr (Verspätung × 220 × 2 / 60)
Kosten pro Pendler (Verspätungsstunden × Stundenlohn)
Gesamtkosten der Stadt

Erstellen Sie auf Basis ihrer Berechnung eine Tabelle, welche die Anzahl der Bahnpendler, die Verspätungsstunden pro Jahr, die Kosten pro Pendler und die Gesamtkosten der Stadt anschaulich darstellt.

Beschreiben und interpretieren Sie ihre Tabelle. Gehen Sie dabei auch auf die Gesamtkosten der 11 Städte ein. Erklären Sie außerdem, warum der Medianlohn für diese Berechnung besser geeignet ist als der Durchschnittslohn.

Hinweis: Für die Umrechnung auf Stundenlohn: Monatsentgelt / 160 (bei 40h/Woche).

Stadt	Bahnpendler (Einpendler × 8,4%)	Verspätungsstunden pro Jahr (h)	Kosten / Pendler (€)	Gesamtkosten Stadt (Mio. €)
Volkswirtschaftliche Kosten der Bahnverspätungen 2025
Top 10 Städte mit den höchsten Kosten (zusätzlich Ulm)
München	38.274	43,9	1.328,8	50,9
Köln	25.780	57,9	1.590,6	41,0
Frankfurt am Main	34.092	37,7	1.111,1	37,9
Düsseldorf	23.914	53,8	1.520,0	36,3
Hamburg	33.008	32,6	922,1	30,4
Berlin	32.955	34,5	895,5	29,5
Stuttgart	23.053	38,9	1.138,6	26,2
Essen	11.869	54,6	1.361,0	16,2
Nürnberg	13.902	37,1	980,7	13,6
Hannover	11.586	43,8	1.137,8	13,2
Ulm	5.741	29,5	795,3	4,6
Gesamtsumme				299,8

Beschreibung

Die Tabelle “Volkswirtschaftliche Kosten der Bahnverspätungen 2025” mit dem Untertitel “Top 10 Städte mit den höchsten Kosten (zusätzlich Ulm)” besteht aus den Spalten Stadt, Bahnpendler (Einpendler × 8,4%), Verspätungsstunden pro Jahr (h), Kosten / Pendler (€) und Gesamtkosten Stadt (Mio. €). Die Tabelle ist absteigend nach den Gesamtkosten der Stadt sortiert. München trägt mit 51 Millionen Euro die höchsten Gesamtkosten der Städte und besitzt auch die meisten Bahnpendler (38.274). Mit einem Abstand von fast 10 Millionen Euro liegt Köln bei den Gesamtkosten direkt hinter München. Es ist jedoch auffällig, dass die Kosten pro Pendler in Köln am höchsten sind und hier die meisten Verspätungsstunden auftauchen. Hannover belegt den letzten Platz der Top 10 in den Kategorien Anzahl Bahnpendler (11.586) und Gesamtkosten für die Stadt (13 Millionen Euro). Berlin auf Platz 6 der Gesamtkosten sticht hervor, da Berlin innerhalb der Top 10 mit 895,5€ die geringsten Kosten pro Pendler besitzt. Als selektive Erweiterung der Tabelle bildet Ulm den unteren Referenzpunkt und rangiert in allen Kategorien hinter den deutlich größeren Metropolen. Die Gesamtkosten aller Städte betragen insgesamt knapp 300 Millionen Euro.

Interpretation

Zur Ermittlung dieser Kosten wurde durchgängig der Medianlohn herangezogen. Dies ist methodisch sinnvoll, da der Median im Vergleich zum Durchschnitt nicht durch extrem hohe Gehälter verzerrt wird. Er repräsentiert das Einkommen der breiten Pendlermasse und führt somit zu einer realistischen und eher defensiven Schätzung der volkswirtschaftlichen Schäden. Alle der aufgeführten Städte mit Ausnahme von Ulm gehören zu den größten Städten Deutschlands. Ulm dient in diesem Kontext als wichtiger Referenzpunkt für eine kleinere Großstadt. An der Spitze des Rankings steht München. Die Spitzenposition ergibt sich aus der Kombination des höchsten Pendleraufkommens und eines hohen Lohnniveaus. Skaleneffekte werden in der Tabelle verdeutlicht, die Tendenz zeigt auf, dass Pendler in größeren Städten mehr Kosten tragen müssen und die allgemeinen volkswirtschaftlichen Kosten höher sind. Die Gesamtsumme von fast 300 Millionen Euro am Ende der Tabelle verdeutlicht das aggregierte Ausmaß des Problems für die untersuchten Standorte und unterstreicht die Relevanz einer pünktlichen Infrastruktur für die deutsche Wirtschaftsleistung. Zudem ist anzumerken, dass die berechneten Beträge lediglich die direkten Zeitkosten widerspiegeln. In der Realität dürften die Kosten höher ausfallen, da Verspätungen auch Opportunitätskosten nach sich ziehen, wie etwa verpasste Anschlusstermine, Stressbelastung der Arbeitnehmer oder Produktivitätsverluste, die über den reinen Stundenlohn hinausgehen. Hohe Kosten pro Pendler (siehe Köln) können zu einem Attraktivitätsverlust eines Standorts und des ÖPNVs führen.

Setzen Sie die Kosten der Bahn (aus Aufgabe 14) den Kosten des Autos gegenüber. Vergleichen Sie diese in einer Szenario-Analyse mittels eines gestapelten Balkendiagramms. Nutzen Sie für ihre Analysen den Datensatz staedte_basis.

Berechnen Sie zuerst die Kosten des Autostaus pro Stadt:

Anzahl der Autopendler (Einpendler × 91,6%)
Staukosten pro Autopendler (Staustunden × Stundenlohn)
Gesamtkosten der Stadt durch Autostau

Führen Sie anschließend einen Szenario-Vergleich durch: Was passiert, wenn der Bahnanteil von 8,4% auf 20% steigt?

Berechnen Sie die Gesamtkosten (Bahn + Auto) für beide Szenarien
Annahme: Weniger Autos = weniger Stau (z.B. 20% weniger Stauzeit pro Autopendler)

Erstellen Sie ein gestapeltes Balkendiagramm nach Szenario. Beschreiben und intepretieren Sie ihre Grafik. Gehen Sie insbesondere auf die folgenden Fragen ein:

Wie verteilen sich die Kosten zwischen Bahn und Auto im Status quo?
Welches Verkehrsmittel verursacht den größeren volkswirtschaftlichen Schaden?
Was ist die Nettoersparnis bei 20% Bahnanteil?

Beschreibung

Die Grafik mit dem Titel “Volkswirtschaftliche Kosten pro Jahr (2025)” besteht aus zwei gestapelten Balkendiagrammen. Auf der x-Achse werden die jährlichen Kosten in Mio. € abgetragen und auf der y-Achse die Städte. Die einzelnen Balken sind nach der Kostenursache aufgeteilt. Kosten durch Auto (Stau) in rot und Kosten durch Bahn (Verspätung) in blau. Es werden zwei Szenarien gelistet, einmal der Status Quo mit einem Bahnanteil von 8,4% und zusätzlich ein fiktives Szenario mit einem Bahnanteil von 20%. Der Untertitel listet die Gesamtkosten aller Städte auf. Beim Status Quo entsprechen dies 4604 Mio. € und beim Szenario 3721 Mio. €. Zusätzlich zeigt der Untertitel, dass der Umstieg auf das Szenario eine Ersparnis von 883 Mio. € pro Jahr ermöglichen würde. Es werden die Städte mit den größten volkswirtschaftlichen Kosten zusätzlich Ulm gelistet. Bei allen Städten dominiert Stau als Kostenursache hochgradig. Die Kosten durch Bahnverspätungen entsprechen nur einem kleinen Teil der Gesamtkosten. Vergleicht man den Status Quo mit dem Szenario ist zu erkennen, dass die Gesamtkosten und die Kosten durch Stau bei jeder Stadt zurückgehen, aber der Anteil der Kosten verursacht durch Bahnverspätungen minimal ansteigt. München steht an erster Stelle mit Gesamtkosten beim Status Quo von ungefähr 750 Mio. €, davon sind ungefähr 60 Mio. € Bahnverspätungen zuzuordnen und 690 Mio. € dem Stau. Beim Szenario verringern sich die Gesamtkosten auf etwa 625 Mio. €, mit einem Anstieg von circa 125 Mio. € Kosten durch Bahnverspätungen und einem Rückgang der Staukosten auf 500 Mio. €. Dieses Muster ist bei allen Städten wiedererkennbar. Ulm als Vergleichswert weist im Status Quo Gesamtkosten von 55 Mio. € und beim Szenario 46 Mio. € auf.

Interpretation

Das Balkendiagramm verdeutlicht, dass ein Anstieg der Bahnpendler eine enorme Kostenersparnis mit sich bringt. Selbst wenn der Bahnanteil nur um 11,6 Prozentpunkte steigt, werden Kosten von 883 Mio. € pro Jahr eingespart. Ein einzelner Autopendler verursacht somit im Durchschnitt mehr volkswirtschaftliche Kosten durch Zeitverluste als ein Bahnpendler. Der volkswirtschaftliche Schaden wird verringert, je mehr Menschen auf die Bahn umsteigen. Ob sich dieser Trend permanent fortführt, ist jedoch unklar, da das Schienennetz bei einem steigenden Bahnanteil an physische Kapazitätsgrenzen stößt. Ohne begleitende Infrastrukturinvestitionen könnten die Verspätungskosten bei einer weiteren Verlagerung überproportional ansteigen und die Nettoersparnis schmälern.
Ein weiterer wichtiger Aspekt ist die Flächeneffizienz. Während der Schienenverkehr eine große Anzahl an Pendlern auf minimalem Raum transportiert, benötigt der Individualverkehr enorme Flächen für Straßen und Parkraum. Die hier berechneten Kostenersparnisse von 883 Mio. € spiegeln also nur einen Teil des Nutzens wider; die Rückgewinnung von städtischem Lebensraum durch weniger Stau und geringeren Flächenbedarf ist ein zusätzlicher, nicht monetarisierter Gewinn für die Allgemeinheit.

Fazit

Zusammenfassend lässt sich sagen, dass der Individualverkehr um einiges höhere volkswirtschaftliche Kosten verursacht als der Schienenverkehr. Eine Verlagerung der Pendlerströme auf die Bahn bietet daher ein enormes Potenzial, die Effizienz des Gesamtsystems zu steigern und jährlich sehr hohe Millionenbeträge einzusparen. Dennoch ist die Forderung, dass mehr Menschen umsteigen sollen, mit Vorsicht zu genießen, da ein permanenter Trend zur Schiene nur dann tragfähig ist, wenn die Infrastruktur entsprechend mitwächst.

Politikempfehlung – Ihre Synthese

Sie haben nun umfangreiche Analysen durchgeführt und viele Erkenntnisse über die Bahn gewonnen. Jetzt ist es Zeit, diese zu einer kohärenten Empfehlung zusammenzufügen.

Szenario: Sie sind Berater:in des Bundesministeriums für Digitales und Verkehr. Die Ministerin bittet Sie um eine evidenzbasierte Politikempfehlung zur Verbesserung des Pendlerverkehrs in Deutschland.

Formulieren Sie eine Politikempfehlung für das Bundesministerium für Digitales und Verkehr.

Schreiben Sie eine Executive Summary (max. 5 Sätze). Fassen Sie hierbei die wichtigsten Erkenntnisse aus ihrem Projekt zusammen. Was ist die zentrale Botschaft?

Formulieren Sie 3 konkrete Empfehlungen. Jede muss enthalten:

Ein konkretes Ziel (Was soll erreicht werden?)
Eine messbare Maßnahme (Wie wird es umgesetzt?)
Eine Begründung mit Zahlen aus Ihrer Analyse
Nennen Sie zwei Limitationen Ihrer Datengrundlage
Was würden Sie mit zusätzlichen Daten noch untersuchen?

Executive Summary

Unsere Analyse zeigt, dass der Pendlerverkehr in Deutschland durch gezielte Verbesserungen bei der Bahn und beim Autoverkehr effizienter gestaltet werden kann. Insbesondere könnten Taktzeiten, Pünktlichkeit und Park+Ride-Infrastruktur die Pendlererfahrung deutlich verbessern und volkswirtschaftliche Kosten senken. Eine evidenzbasierte Strategie, die diese Bereiche adressiert, bietet sowohl wirtschaftliche als auch ökologische Vorteile. Die Ergebnisse legen nahe, dass gezielte Maßnahmen in den größten Städten den größten Effekt haben, wobei weitere Daten zur Ausweitung und Optimierung nötig sind. Die zentrale Botschaft lautet: Investitionen in Bahn-Infrastruktur, Fahrplanoptimierung und Park+Ride-Angebote können die Pendlerzeiten reduzieren und die volkswirtschaftlichen Kosten deutlich verringern.

Empfehlung 1: Um den Anteil der Bahnpendler während der Stoßzeiten zu erhöhen, sollten die Taktzeiten auf stark frequentierten Strecken um 10–15 Minuten verkürzt werden. Unsere Analyse zeigt, dass dadurch die volkswirtschaftlichen Kosten um rund 1,25 Mrd. € reduziert werden könnten. Einschränkend ist jedoch zu beachten, dass die Datenbasis bisher nur 11 Städte umfasst und noch unklar ist, wie stark das Bahnnetz ausgebaut werden kann, bevor es zu weiteren Verspätungen kommt. Mit zusätzlichen Daten zu Knotenbahnhöfen und den Kosten für Infrastrukturverbesserungen ließen sich diese Maßnahmen noch gezielter planen.

Empfehlung 2: Um Verspätungen zu reduzieren und die Pünktlichkeit zu erhöhen, sollten Fahrpläne aktualisiert und Pufferzeiten anhand historischer Verspätungsdaten eingeplant werden. So zeigen die Daten für Köln im Jahr 2025, dass Bahnpendler insgesamt 57,9 Stunden Verspätung hatten. Limitationen bestehen darin, dass die Ursachen der Verspätungen unklar sind und nicht bekannt ist, auf welchen Streckenabschnitten sie entstehen. Weitere Daten zu den genauen Verspätungsursachen und betroffenen Streckenabschnitten würden helfen, die Fahrpläne gezielt zu optimieren.

Empfehlung 3: Um die Stauzeiten im Autoverkehr zu verringern und die Innenstädte zu entlasten, sollten mehr Park+Ride-Angebote an Stadträndern geschaffen und bestehende erweitert werden. Laut Analyse standen Pendler in Köln 2025 durchschnittlich 67 Stunden im Stau, was Kosten von etwa 919 € pro Person verursachte. Limitationen der Daten sind, dass die konkreten Stauursachen sowie die räumliche Verteilung der Stauhotspots unklar sind. Mit zusätzlichen stadtbezogenen Daten könnten Park+Ride-Angebote gezielt an den neuralgischen Punkten platziert werden, um die Wirkung zu maximieren.

Zusatzaufgaben (optional)

Bisher haben Sie zwei Dimensionen betrachtet: Zeit (Bahn ist schneller) und Geld (Verspätungen kosten). Aber es gibt einen dritten, oft vergessenen Aspekt: die Umwelt.

Das Auto ist nicht nur langsamer und teurer; es ist auch ein Klimakiller. Ein durchschnittlicher PKW emittiert z.B. etwa 150 g CO2 pro Personenkilometer.

Recherchieren Sie die CO2-Emissionsfaktoren und das Mobilitätsverhalten:

Erstellen Sie eine kleine Tabelle in der Sie die CO2-Emissionen (in g/Personenkilometer) für folgende Verkehrsmittel auflisten:
- PKW (Durchschnitt)
- PKW (Elektro, deutscher Strommix)
- ICE/IC (Fernverkehr)
- RE/RB (Nahverkehr)
- S-Bahn
Berechnen Sie einen gewichteten Durchschnitt für die Bahn, wenn 70% der Pendler Nahverkehr und 30% Fernverkehr nutzen.
Um wie viel Prozent sind die Bahn-Emissionen niedriger als beim Auto?

Hinweis: Nutzen Sie Daten vom Umweltbundesamt oder dem DB Umweltbericht.

Verkehrsmittel	CO2 (g/Pkm)	Einsparung gegenüber PKW (%)
Vergleich CO2-Emissionsfaktoren unterschiedlicher Verkehrsarten
CO2-Emissionen in g/Personenkilometer und Einsparung gegenüber PKW
PKW (Durchschnitt)	166,0	0,0
PKW (Elektro)	70,0	57,8
ICE/IC (Fernverkehr)	0,5	99,7
RE/RB (Nahverkehr)	39,7	76,1
S-Bahn	42,0	74,7
Bahn-Mix (70/30)¹	27,9	83,2
¹Gewichteter Mix: 70% Nahverkehr und 30% Fernverkehr.

Die Studie “Mobilität in Deutschland” (MiD 2023) ist die wichtigste Datenquelle zum Mobilitätsverhalten in Deutschland. Sie ermöglicht einen Vergleich mit 2017 (vor Corona).

Lesen Sie den MiD 2023 Kurzbericht und beantworten Sie:

Modal Split: Wie hat sich der Anteil des öffentlichen Verkehrs (ÖV) am Gesamtverkehr zwischen 2017 und 2023 verändert?
Homeoffice-Effekt: Wie hat sich die durchschnittliche Tagesstrecke verändert? Was ist laut MiD der Hauptgrund für diese Veränderung?
Stadt vs. Land: Welchen Anteil hat das Deutschlandticket in Metropolen vs. ländlichen Räumen? Was bedeutet das für die Ulm-Region?
Implikation für CO2: Welche Schlussfolgerung ziehen Sie aus diesen Veränderungen für das CO2-Einsparpotenzial durch Bahnpendeln? (2-3 Sätze)

Wie hat sich der Anteil des öffentlichen Verkehrs (ÖV) am Gesamtverkehr zwischen 2017 und 2023 verändert?

Zwischen 2017 und 2023 hat sich die Struktur des Modal Split in Deutschland spürbar verändert: Der Anteil des öffentlichen Verkehrs am Gesamtverkehr ist zwar weiterhin vergleichsweise gering, zeigt aber einen leichten Aufwärtstrend. 2023 lag der Anteil des ÖV an allen Wegen bundesweit bei etwa 11 %, was im Vergleich zu 2017 einen Anstieg bedeutet. Gleichzeitig ist der Anteil des motorisierten Individualverkehrs (Auto) gesunken, während zu Fuß gehen und Radfahren zugenommen haben - insgesamt also eine leichte Verschiebung hin zu umweltfreundlicheren Verkehrsarten.

Wie hat sich die durchschnittliche Tagesstrecke verändert? Was ist laut MiD der Hauptgrund für diese Veränderung?

Laut MiD 2023 hat sich die durchschnittliche Tagesstrecke pro Person leicht verkürzt - von knapp 40 km auf rund 35 km pro Tag. Auch die durchschnittliche Anzahl der Wege pro Person nahm etwas ab. Der Hauptgrund für diese Entwicklung liegt in veränderten Alltags- und Arbeitsmustern, zu denen auch mehr Homeoffice-Arbeit und weniger klassische Pendelwege beitragen. Dadurch reduzieren sich insbesondere Berufswege, was insgesamt die zurückgelegten Tageskilometer verringert.

Welchen Anteil hat das Deutschlandticket in Metropolen vs. ländlichen Räumen? Was bedeutet das für die Ulm-Region?

Der Deutschlandticket-Anteil unterscheidet sich deutlich zwischen städtischen und ländlichen Räumen. Während in Metropolen ein erheblicher Teil der Bevölkerung dieses Ticket als übliches ÖPNV-Ticket nutzt (z. B. rund 33 % laut ergänzender BMV-Darstellung), beträgt der Anteil in ländlichen Räumen nur etwa 10 %. Dies zeigt, dass das Deutschlandticket vor allem in städtischen Regionen verbreiteter ist, was damit zusammenhängt, dass dort der öffentliche Verkehr dichter und attraktiver ist. Für die Region Ulm bedeutet das: In urbaneren Teilen ist das Deutschlandticket für Pendler und Freizeitfahrten relevanter als in dünn besiedelten, ländlichen Bereichen.

Welche Schlussfolgerung ziehen Sie aus diesen Veränderungen für das CO2-Einsparpotenzial durch Bahnpendeln?

Durch die leichte Zunahme des öffentlichen Verkehrsanteils, die kürzeren Tagesstrecken und eine stärkere Nutzung von Fuß- und Radverkehr zeigt sich ein Potenzial für CO₂-Einsparungen, wenn mehr Wege vom Auto auf den ÖV oder nicht-motorisierte Verkehrsmittel verlagert werden. Insbesondere ein stärkerer ÖV-Anteil im Modal Split kann dazu beitragen, verkehrsbedingte CO₂-Emissionen zu reduzieren, vorausgesetzt, die Verkehrsangebote werden attraktiver und dichter genutzt.

Berechnen Sie die CO2-Ersparnis für die 11 analysierten Städte.

Datensatz: co2_analyse (aus Aufgabe 4) – enthält Streckenlängen, Einpendlerzahlen und vorberechnete Werte

Annahmen:

220 Arbeitstage pro Jahr
2 Fahrten pro Tag (Hin + Zurück)
CO2-Auto: 150 g/km, CO2-Bahn: 47 g/km (gewichteter Durchschnitt)

Berechnen Sie für jeden Umsteiger (Auto \(\rightarrow\) Bahn):

Jährliche Kilometer
CO2-Emissionen mit Auto (kg/Jahr)
CO2-Emissionen mit Bahn (kg/Jahr)
Ersparnis (kg/Jahr)

Nun sollten Sie eine Szenario Analyse ähnlich wie in Aufgabe 15 durchführen: Wenn sich der Bahnanteil von 8,4% auf 20% erhöht: wie viele Tonnen CO2 würden in den 11 Städten jährlich eingespart?

Visualisieren Sie die CO2-Ersparnis pro Stadt.

Stellen Sie die Ersparnis in Kontext, um die Ersparnis greifbarer zu machen, z.B. wie viele Mallorca-Flüge (hin + zurück, ~750 kg CO2) entspricht das?

Beschreibung

Die Grafik zeigt ein Szenario für das Jahr 2025, in dem der Anteil der Pendler, die die Bahn nutzen, von 8,4% auf 20% erhöht wird – also mehr als verdoppelt. Als Grundlage für die Berechnung dienen die angenommenen CO₂-Emissionen von 150g/km für das Auto und 47g/km für die Bahn (gewichteter Durchschnitt). Auf der X-Achse sind die jährlich eingesparten CO₂-Mengen in Tonnen dargestellt, von 0 bis 80.000t, während auf der Y-Achse die Top zehn Städte sowie Ulm aufgelistet sind. Besonders auffällig ist, dass Frankfurt im Szenario über 75.000t CO₂ pro Jahr einsparen würde, während die Ersparnis in Ulm nur knapp über 1.000t liegt.

Interpretation

Die Unterschiede in der CO2-Ersparnis zwischen den Städten lassen sich vor allem durch die Anzahl der Pendler erklären: In Städten mit deutlich mehr Pendlern wie Frankfurt würde eine Erhöhung des Bahnanteils viele Personen vom Auto auf die Bahn bringen, was zu erheblichen Einsparungen führt. In kleineren Städten wie Ulm sind die Pendlerzahlen deutlich geringer, sodass trotz einer prozentual gleichen Erhöhung des Bahnanteils die absolute CO2-Ersparnis vergleichsweise klein ausfällt. Insgesamt zeigt das Szenario, dass eine Verdoppelung des Bahnanteils in allen elf betrachteten Städten zu einer jährlichen Gesamteinsparung von 339.416t CO2 im Jahr 2025 führen hätte können. Um die Dimension dieser Zahl greifbarer zu machen: Sie entspricht etwa 452.554 Hin- und Rückflügen nach Mallorca, wobei ein solcher Flug etwa 750kg CO2 verursacht. Das verdeutlicht, dass selbst moderate Veränderungen im Verkehrsverhalten auf städtischer Ebene einen erheblichen Beitrag zur Reduktion von CO2-Emissionen leisten können.

Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (`bahnhof_ags_mapping.csv`)

Dieses Mapping ist essenziell für die Verknüpfung von Bahn- und Pendlerdaten. Die Bahndaten sind auf Bahnhofsebene (z.B. “München Hbf”), die Pendlerdaten auf Kreisebene (z.B. “München, Landeshauptstadt”). Der AGS (Amtlicher Gemeindeschlüssel) ist der Schlüssel, der beide Welten verbindet.

Wichtige Variablen:

station_name: Name des Bahnhofs
ags: Amtlicher Gemeindeschlüssel (5-stellig für Kreise)
kreis_name: Name des Landkreises/der kreisfreien Stadt

2. Fahrtzeit-Vergleich OSRM (`fahrtzeit_osrm_vergleich.csv`)

Für einen fairen Vergleich Auto vs. Bahn brauchen wir realistische Fahrtzeiten. OSRM (Open Source Routing Machine) berechnet echte Straßenrouten basierend auf OpenStreetMap – keine Luftlinien, sondern tatsächliche Straßenverbindungen mit Abbiegevorgängen, Geschwindigkeitsbegrenzungen und Straßentypen.

Wichtige Variablen:

stadt: Zielstadt der Pendlerstrecke
strecke_name: Beschreibung der Route (z.B. “Dachau \(\rightarrow\) München”)
auto_distanz_km: Fahrstrecke mit dem Auto in km
auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit (mit Staufaktor)
bahn_planzeit_min: Fahrzeit laut Fahrplan
bahn_verspaetung_min: Durchschnittliche Verspätung
bahn_real_min: Realistische Bahnfahrzeit (Fahrplan + Verspätung)

Wie wurde das Routing durchgeführt?

Koordinaten ermitteln: Für jede Pendlerstrecke wurden Start- und Zielkoordinaten definiert (z.B. Stadtzentrum Dachau \(\rightarrow\) München Hauptbahnhof).
OSRM-API abfragen: Über die öffentliche OSRM-Demo-API (router.project-osrm.org) wurden für jede Route Distanz und Fahrzeit abgefragt. Die API gibt die schnellste Route zurück, basierend auf dem aktuellen Straßennetz.
Staufaktor anwenden: Die OSRM-Basisfahrzeit entspricht einer Fahrt bei freiem Verkehr. Für die Hauptverkehrszeit (HVZ) wurde ein Staufaktor von 1,3-1,5 angewendet, basierend auf den INRIX-Daten der jeweiligen Stadt.
Bahn-Daten ergänzen: Die Bahnfahrzeiten stammen aus dem DB-Fahrplan, ergänzt um die durchschnittliche Verspätung aus unserer Analyse.

Weiterführende Links:

OSRM Projekt-Website – Dokumentation und Demo
OSRM API-Dokumentation – Technische Details zur API
OpenStreetMap – Die Kartendaten, auf denen OSRM basiert
R-Paket osrm – Für eigene OSRM-Abfragen in R

3. Ulm-Pendlerrouten (`ulm_pendlerrouten.csv`)

Da Sie in Ulm studieren, analysieren wir die wichtigsten Pendlerrouten in die Stadt genauer. Dieser Datensatz enthält die 5 wichtigsten Einpendler-Gemeinden mit detaillierten Informationen zur Erreichbarkeit.

Wichtige Variablen:

start_ort: Startgemeinde der Pendlerroute
ziel_ort: Zielort (Ulm)
auto_dauer_min: Fahrzeit mit dem Auto
auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit
bahn_fahrplan_min: Bahnfahrzeit laut Fahrplan
bahn_real_min: Realistische Bahnfahrzeit
hat_bahnhof: TRUE/FALSE – hat der Startort einen Bahnanschluss?
pendler_geschaetzt: Geschätzte Anzahl Pendler auf dieser Route

4. Entgeltstatistik (`ba_entgeltstatistik_2024.csv`)

Um die volkswirtschaftlichen Kosten von Verspätungen zu berechnen, brauchen wir regionale Lohndaten. Diese haben wir von der Bundesagentur für Arbeit heruntergeladen.

Wichtige Variablen:

kreis_name: Name des Kreises/der Stadt
ags: Amtlicher Gemeindeschlüssel
medianentgelt_brutto_monat: Median-Bruttomonatsentgelt in Euro

Quelle: Bundesagentur für Arbeit, Entgeltstatistik 2024

Pendeln in Deutschland

Zeit für die Bahn? – Eine datenbasierte Analyse

Motivation

Datengrundlage

Daten einlesen und verstehen

Die Pünktlichkeit der Deutschen Bahn

Von der Zeit zum Ort: Wo entstehen die Verspätungen?

Wo treffen viele Pendler auf eine unpünktliche Bahn?

Der Vergleich – Auto vs. Bahn

Methodische Herausforderungen

Die volkswirtschaftlichen Kosten

Politikempfehlung – Ihre Synthese

Zusatzaufgaben (optional)

Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (`bahnhof_ags_mapping.csv`)

2. Fahrtzeit-Vergleich OSRM (`fahrtzeit_osrm_vergleich.csv`)

3. Ulm-Pendlerrouten (`ulm_pendlerrouten.csv`)

4. Entgeltstatistik (`ba_entgeltstatistik_2024.csv`)

Pendeln in Deutschland

Zeit für die Bahn? – Eine datenbasierte Analyse

Motivation

Datengrundlage

Daten einlesen und verstehen

Die Pünktlichkeit der Deutschen Bahn

Von der Zeit zum Ort: Wo entstehen die Verspätungen?

Wo treffen viele Pendler auf eine unpünktliche Bahn?

Der Vergleich – Auto vs. Bahn

Methodische Herausforderungen

Die volkswirtschaftlichen Kosten

Politikempfehlung – Ihre Synthese

Zusatzaufgaben (optional)

Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (bahnhof_ags_mapping.csv)

2. Fahrtzeit-Vergleich OSRM (fahrtzeit_osrm_vergleich.csv)

3. Ulm-Pendlerrouten (ulm_pendlerrouten.csv)

4. Entgeltstatistik (ba_entgeltstatistik_2024.csv)

1. Bahnhof-Kreis-Mapping (`bahnhof_ags_mapping.csv`)

2. Fahrtzeit-Vergleich OSRM (`fahrtzeit_osrm_vergleich.csv`)

3. Ulm-Pendlerrouten (`ulm_pendlerrouten.csv`)

4. Entgeltstatistik (`ba_entgeltstatistik_2024.csv`)