Motivation

Jeden Morgen das gleiche Bild: Verstopfte Autobahnen, genervte Pendler, verlorene Zeit. 20,5 Millionen Menschen pendeln in Deutschland täglich zur Arbeit – die meisten davon mit dem Auto. Laut INRIX Traffic Scorecard 2024 verlieren Pendler in deutschen Großstädten zwischen 40 und 60 Stunden pro Jahr allein im Stau. Das entspricht fast einer kompletten Arbeitswoche, die im Nichts verpufft.

Die Idee liegt auf der Hand: Wer Bahn fährt, steht nicht im Stau. Aber wie schlägt sich die Bahn im Vergleich zum Auto? Ist sie wirklich schneller? Und wie zuverlässig ist sie eigentlich?

In diesem Projekt analysieren Sie Echtzeitdaten der Deutschen Bahn, Pendlerstatistiken der Bundesagentur für Arbeit, Staudaten von INRIX und die Entgeltstatistik der Bundesagentur für Arbeit. Sie werden herausfinden, dass die Antwort auf die Frage “Sollten mehr Menschen Bahn fahren?” komplexer ist, als man zunächst vermuten würde und dass sie wichtige Implikationen für die Verkehrspolitik hat.

Ihre zentrale Forschungsfrage lautet:

“Sollten mehr Menschen Bahn fahren – und was müsste sich dafür ändern?”

Datengrundlage

In diesem Projekt arbeiten Sie mit mehreren Datensätzen. Ein wichtiger Teil des Projekts ist das eigenständige Beschaffen von Primärdaten aus offiziellen Quellen.

Daten einlesen und verstehen

Bevor Sie mit der Analyse beginnen können, müssen Sie verschiedenste Datensätze einlesen und deren Struktur verstehen. Die Deutsche Bahn stellt über unterschiedliche Schnittstellen Echtzeitdaten für ihre Züge als open-source Daten zur Verfügung, welche per API-Calls geladen werden können. Jedoch gibt es von der Deutschen Bahn keine offizielle Seite, welche historische Daten zu Zugverspätungen, Ausfällen etc. für Fern- und Nahverkehrszüge sammelt. Da wir uns jedoch mit historischen Daten beschäftigen möchten, greifen wir auf Daten zurück, die von Piet Brömmel gesammelt wurden und bei Huggingface im Parquet-Format zur Verfügung gestellt wurden. Das Parquet-Format ist ein effizientes Datenformat und wird oft für große Datenmengen genutzt; in R können Sie diese Daten mit dem arrow-Paket einlesen.

Wie pünktlich ist die Bahn wirklich? Um diese Frage zu beantworten, brauchen Sie echte Verspätungsdaten – nicht nur Pressemitteilungen. Die Bahndaten bilden das Herzstück unserer Analyse: Mit ihnen können Sie berechnen, wie viel Zeit Bahnfahrer durch Verspätungen verlieren und später mit den Stauzeiten der Autofahrer vergleichen.

Die Deutsche Bahn stellt Echtzeitdaten als Open Data zur Verfügung. Das Projekt piebro/deutsche-bahn-data auf Huggingface sammelt diese Daten im Parquet-Format.

Laden Sie die Datei für November 2025 direkt von Huggingface herunter und lesen Sie diesen Datensatz als bahn in R ein.

Zeigen Sie die ersten 10 Zeilen des Datensatzes in einer Tabelle und beantworten Sie anschließend folgende Fragen:

Wie viele Beobachtungen enthält der Datensatz? Welche Variablen sind vorhanden?
Was stellt eine einzelne Beobachtung dar?

Hinweis 1: Sie können auf Huggingface die gesuchte Datei hier finden und direkt die URL zu der Datei in R mitgeben

Hinweis 2: Sie können die Parquet Datei entweder lokal speichern, oder immer direkt per URL einlesen. Falls Sie die Datei lokal speichern, so wird diese nicht auf GitHub Committet, da wir dies in der .gitignore entsprechend eingestellt haben. In diesem Fall sollten alle Teammitglieder die Datei lokal zur Verfügung haben.

Hinweis 3: Achten Sie bei allen Tabellen auf einer saubere Darstellung

station_name	final_destination_station	train_name	delay_in_min
Deutsche Bahn – Verspätungsdaten (November 2025, erste 10 Zeilen)
Stuttgart Hbf	Filderstadt	S 2	5
Halle (Saale) Hbf	Leipzig Hbf (tief)	S 5	1
Karlsruhe Hbf	Karlsruhe Hbf	RE 1	95
Regensburg Hbf	München Hbf	ALX RE25	11
Mannheim Hbf	Karlsruhe Hbf	ICE 775	1
Flughafen BER	Flughafen BER	S 9	1
Halle (Saale) Hbf	Halle (Saale) Hbf	S 8	15
München Hbf	München Hbf	RB 40	0
Köln Hbf	Köln Hbf	IC 1952	40
Freiburg (Breisgau) Hbf	Freiburg (Breisgau) Hbf	S 1	0
Hinweis: Die Tabelle zeigt eine Auswahl der für die Verspätungsanalyse relevanten Variablen
Quelle: Open-Data-Echtzeitdaten der Deutschen Bahn, bereitgestellt über piebro/deutsche-bahn-data (Hugging Face)

Beschreibung der Tabelle

Die Tabelle zeigt die ersten zehn Beobachtungen des Datensatzes zu Verspätungsdaten der Deutschen Bahn im November 2025. Der vollständige Datensatz umfasst 13.943.561 Beobachtungen und 16 Variablen. Sichtbar sind in der Tabelle die Variablen station_name, final_destination_station, train_name und delay_in_min, wobei es sich um eine Teilansicht des gesamten Datensatzes handelt. Jeder Tabelleneintrag beschreibt einen einzelnen Zughalt an einem bestimmten Bahnhof. Die dargestellten Beobachtungen beziehen sich auf unterschiedliche Bahnhöfe in Deutschland. So treten unter anderem Stuttgart Hbf, Halle (Saale) Hbf, Karlsruhe Hbf, Regensburg Hbf, Mannheim Hbf, Flughafen BER, München Hbf, Köln Hbf und Freiburg (Breisgau) Hbf auf. Auch die Zugarten variieren, darunter S-Bahn-Linien (S2, S5, S8, S9), Regionalzüge (RE 1, RB 40, ALX RE25) sowie Fernverkehrszüge (ICE 775, IC 1952). Die in der Tabelle ausgewiesenen Verspätungen reichen von 0 Minuten (z. B. RB 40 in München Hbf und S1 in Freiburg Hbf) über geringe Abweichungen von 1 Minute bis hin zu deutlich höheren Verspätungen. Besonders auffällig ist ein Eintrag am Karlsruhe Hbf mit einer Verspätung von 95 Minuten (RE 1). Weitere größere Verspätungen zeigen sich am Köln Hbf mit 40 Minuten (IC 1952) sowie in Halle (Saale) Hbf mit 15 Minuten (S8).

Interpretation der Tabelle

Jede Beobachtung im Datensatz beschreibt einen konkreten Zughalt an einem bestimmten Bahnhof zu einem bestimmten Zeitpunkt. Da Züge während einer Fahrt mehrere Stationen bedienen, ist eine einzelne Zugfahrt im Datensatz durch mehrere solcher Beobachtungen vertreten. Die Variable delay_in_min gibt dabei an, wie stark dieser einzelne Halt vom geplanten Fahrplan abweicht. Die konkreten Werte der Tabelle zeigen, dass ein großer Teil der dargestellten Zughalte entweder vollständig pünktlich ist oder nur minimale Abweichungen vom Fahrplan aufweist. In sechs der zehn Beobachtungen beträgt die Verspätung 0 oder 1 Minute, darunter unter anderem der RB 40 in München Hbf, die S1 in Freiburg (Breisgau) Hbf sowie mehrere S-Bahn-Verbindungen mit nur einer Minute Abweichung. Demgegenüber stehen einzelne Zughalte mit sehr hohen Verspätungen, die das Gesamtbild deutlich prägen. Besonders ins Gewicht fällt der Zughalt mit 95 Minuten Verspätung am Karlsruhe Hbf (RE 1). Hinzu kommen weitere starke Abweichungen wie 40 Minuten am Köln Hbf (IC 1952) und 15 Minuten in Halle (Saale) Hbf (S8). Diese drei Beobachtungen allein verursachen zusammen 150 Minuten Verspätung und übertreffen damit den gesamten Zeitverlust der übrigen sieben Beobachtungen deutlich. Auffällig ist zudem, dass diese hohen Verspätungen in unterschiedlichen Zugkategorien auftreten. Während einzelne S-Bahn-Züge pünktlich verkehren, tritt eine relevante Verspätung von 15 Minuten ebenfalls im S-Bahn-Verkehr auf. Gleichzeitig zeigen sich im Regional- und Fernverkehr sowohl pünktliche als auch stark verspätete Halte.

Wohin pendeln die Menschen? Die Bahndaten zeigen ihnen die Pünktlichkeit der Züge – aber um zu verstehen, wo gute Bahnverbindungen besonders wichtig sind, müssen Sie wissen, wohin die Menschen pendeln. Die Pendlerstatistik der Bundesagentur für Arbeit zeigt genau das: Welche Städte sind die größten Arbeitgeber-Magneten?

Laden Sie den Datensatz pendler_kreise_aufbereitet.csv aus dem Ordner daten in R ein als Datensatz pendler.

Erstellen Sie eine Tabelle der Top 10 Städte nach Einpendlern mit den Spalten: Stadt (kreis_name), Einpendler, Auspendler, Pendlersaldo.

Interpretieren Sie kurz: Welche Städte sind die größten “Pendlermagneten” Deutschlands und warum?

Stadt	Einpendler	Auspendler	Pendlersaldo
Top 10 Städte nach Einpendlern
München, Landeshauptstadt	455.645	202.756	252.889
Frankfurt am Main, Stadt	405.856	111.245	294.611
Hamburg, Freie und Hansestadt	392.951	147.328	245.623
Berlin, Stadt	392.324	219.898	172.426
Köln, Stadt	306.905	138.422	168.483
Düsseldorf, Stadt	284.696	97.326	187.370
Stuttgart, Landeshauptstadt	274.442	100.095	174.347
Nürnberg, Stadt	165.496	78.557	86.939
Essen, Stadt	141.296	90.906	50.390
Region Hannover	137.924	69.974	67.950
Quelle: Pendlerstatistik der Bundesagentur für Arbeit

Beschreibung der Tabelle

Die Tabelle „Top 10 Städte nach Einpendlern“ zeigt deutliche Unterschiede in der räumlichen Verteilung von Arbeitsplätzen in Deutschland. Besonders hohe Einpendlerzahlen konzentrieren sich auf wenige Großstädte. München weist mit 455.645 Einpendlern den höchsten Wert auf, gefolgt von Frankfurt am Main (405.856), Hamburg (392.951) und Berlin (392.324). Diese vier Städte vereinen damit jeweils fast oder deutlich über 390.000 tägliche Einpendler. Gleichzeitig verfügen alle zehn Städte über einen positiven Pendlersaldo, was darauf hinweist, dass sie mehr Arbeitsplätze anbieten als durch ihre Wohnbevölkerung gedeckt werden. Die Daten zeigen somit klar, dass sich der tägliche Pendelverkehr auf wenige wirtschaftlich starke Zentren konzentriert, in denen zuverlässige Bahnverbindungen eine besonders große Rolle spielen.

Interpretation der Tabelle

Welche Städte sind die größten „Pendlermagneten“ Deutschlands?

Die größten Pendlermagneten lassen sich anhand der absoluten Einpendlerzahlen und des Pendlersaldos identifizieren. Nach Einpendlern sind München (455.645), Frankfurt am Main (405.856), Hamburg (392.951) und Berlin (392.324) die führenden Städte. Diese vier Städte liegen deutlich über den übrigen Städten der Top 10 und bilden die zentralen Ziele des Pendelverkehrs. Besonders aussagekräftig ist der Pendlersaldo, da er zeigt, wie stark eine Stadt als Arbeitsplatzstandort wirkt. Hier nimmt Frankfurt am Main mit einem Saldo von 294.611 die Spitzenposition ein. Trotz geringerer Einwohnerzahl im Vergleich zu Berlin oder München zieht Frankfurt erheblich mehr Arbeitskräfte an, als dort wohnen. München folgt mit einem Pendlersaldo von 252.889, während Hamburg (245.623) und Düsseldorf (187.370) ebenfalls hohe Werte aufweisen. Städte wie Essen (50.390) oder die Region Hannover (67.950) besitzen zwar ebenfalls positive Salden, sind aber deutlich schwächere Pendlermagneten.

Warum sind diese Städte besonders starke Pendlermagneten?

Die Daten deuten darauf hin, dass die Stärke eines Pendlermagneten weniger von der Einwohnerzahl als vielmehr von der Konzentration von Arbeitsplätzen abhängt. Frankfurt am Main ist hierfür ein besonders gutes Beispiel: Mit nur 111.245 Auspendlern bei gleichzeitig über 405.000 Einpendlern weist die Stadt eine starke funktionale Trennung zwischen Arbeits- und Wohnort auf. München und Berlin haben zwar ebenfalls sehr hohe Einpendlerzahlen, jedoch auch deutlich höhere Auspendlerzahlen (202.756 in München und 219.898 in Berlin), was auf eine stärkere Durchmischung von Wohnen und Arbeiten hinweist. Insgesamt zeigen die Daten, dass Städte mit spezialisierten, überregional bedeutenden Arbeitsmärkten besonders hohe Pendlersalden aufweisen. Daraus folgt, dass gerade in diesen Städten – insbesondere Frankfurt, München, Hamburg und Berlin – leistungsfähige und pünktliche Bahnverbindungen entscheidend sind, da hier täglich mehrere Hunderttausend Pendler auf den öffentlichen Verkehr angewiesen sind.

Was kostet das Auto? Sie haben jetzt Bahndaten und wissen, wohin die Menschen pendeln. Aber um fair vergleichen zu können, brauchen Sie auch die Alternative: Wie viel Zeit verlieren Autofahrer im Stau? Diese Daten liefert INRIX – ein Unternehmen, das weltweit Verkehrsdaten sammelt. Später werden Sie diese Staukosten mit den Bahnverspätungen vergleichen.

Besuchen Sie die INRIX Global Traffic Scorecard und suchen Sie die Stauzeiten für die Top 10 Städte aus Aufgabe 2 und zusätzlich die Stauzeiten für Ulm. INRIX misst, wie viele Stunden Autofahrer jährlich im Stau verlieren.

Erstellen Sie eine eigene CSV-Datei inrix_staedte_2024.csv mit folgenden Spalten für die geforderten Städte:
- stadt: Name der Stadt
- stau_stunden_jahr: Jährliche Staustunden pro Fahrer
- kosten_eur: Jährliche Kosten pro Fahrer (findet sich in der tiefergehenden Übersicht)
Berechnen Sie für jede Stadt, wie viele Arbeitstage pro Jahr im Stau verloren gehen. Annahme: Ein Arbeitstag = 8 Stunden.

Erstellen Sie anschließend eine schöne Tabelle mit: Stadt, Staustunden/Jahr, verlorene Arbeitstage und beschreiben diese. In welcher Stadt ist die Stausituation am schlimmsten? Wie viele Arbeitstage verliert ein typischer Pendler dort pro Jahr?

Hinweis: Auf der INRIX-Website können Sie nach bei “Jump to City Rankings” -> “Search the List” -> “Germany” oder der konkreten Stadt filtern.

Stadt	Staustunden/Jahr	Verlorene Arbeitstage (8h/Tag)	Jährliche Kosten (EUR/Fahrer)
Staubelastung und Kosten pro Fahrer (INRIX 2025)
Köln	67	8,38	919
Düsseldorf	63	7,88	864
Berlin	60	7,50	823
Stuttgart	60	7,50	823
München	57	7,12	781
Frankfurt am Main	55	6,88	754
Hannover	54	6,75	740
Hamburg	46	5,75	631
Essen	46	5,75	631
Nürnberg	38	4,75	521
Ulm	30	3,75	411
Hinweis: Für Essen wurden mangels verfügbarer INRIX-Daten ersatzweise die Werte von Wuppertal verwendet
Quelle: INRIX Global Traffic Scorecard

Beschreibung der Tabelle

Die Tabelle „Staubelastung und Kosten pro Fahrer (INRIX 2025)“ stellt für elf deutsche Städte die jährliche Belastung von Autofahrern durch Staus dar. Grundlage der Daten ist die INRIX Global Traffic Scorecard 2025, die misst, wie viele Stunden Autofahrer pro Jahr im Stau verlieren. Für jede Stadt werden die jährlichen Staustunden pro Fahrer, die daraus abgeleiteten verlorenen Arbeitstage (bei einer Annahme von 8 Stunden pro Arbeitstag) sowie die jährlichen Kosten pro Fahrer in Euro ausgewiesen. Die betrachteten Städte entsprechen den Top-10-Städten nach Einpendlern aus Aufgabe 2 und werden um die Stadt Ulm ergänzt. Die jährlichen Staustunden pro Fahrer variieren deutlich zwischen den Städten und reichen von 30 Stunden in Ulm bis 67 Stunden in Köln. Entsprechend schwankt auch die Zahl der verlorenen Arbeitstage zwischen 3,75 Tagen (Ulm) und 8,38 Tagen (Köln). Besonders hohe Staubelastungen weisen Köln mit 67 Staustunden und Düsseldorf mit 63 Staustunden pro Jahr auf. In Berlin und Stuttgart verlieren Autofahrer jeweils 60 Stunden im Stau, was 7,5 verlorenen Arbeitstagen entspricht. Im Vergleich dazu liegen Hamburg und Essen mit jeweils 46 Staustunden sowie Nürnberg mit 38 Staustunden deutlich niedriger. Die jährlichen Kosten pro Fahrer folgen diesem Muster und reichen von 411 Euro in Ulm bis 919 Euro in Köln. Für die Stadt Essen lagen in der INRIX Global Traffic Scorecard keine eigenständigen Daten vor, weshalb gemäß Aufgabenstellung ersatzweise die Werte der Stadt Wuppertal verwendet wurden. Insgesamt verdeutlicht die Tabelle die erheblichen Unterschiede in der Staubelastung zwischen den Städten und zeigt, dass Autofahrer in den untersuchten Großstädten jährlich mehrere Arbeitstage durch Staus verlieren.

Interpretation der Tabelle

Die Tabelle verdeutlicht, dass die Staubelastung für Autofahrer in deutschen Großstädten erheblich ist und stark zwischen den Städten variiert. Die jährlichen Staustunden pro Fahrer liegen zwischen 30 Stunden in Ulm und 67 Stunden in Köln. Damit verlieren Autofahrer je nach Stadt zwischen 3,75 und 8,38 Arbeitstagen pro Jahr, wenn ein Arbeitstag mit acht Stunden angesetzt wird. Am stärksten betroffen ist Köln, wo Autofahrer durchschnittlich 67 Stunden im Stau verbringen. Dies entspricht mehr als acht verlorenen Arbeitstagen pro Jahr und geht mit den höchsten ausgewiesenen Kosten von 919 Euro pro Fahrer einher. Auch in Düsseldorf (63 Stunden, 7,88 Arbeitstage, 864 Euro) sowie in Berlin und Stuttgart (jeweils 60 Stunden, 7,5 Arbeitstage) ist die Staubelastung sehr hoch. Diese Städte zählen damit zu den Standorten, an denen Pendler besonders viel Zeit im Autoverkehr verlieren. Im Vergleich dazu ist die Stausituation in Nürnberg (38 Stunden, 4,75 Arbeitstage) und insbesondere in Ulm (30 Stunden, 3,75 Arbeitstage) deutlich geringer. Die monetären Kosten liegen dort mit 521 Euro bzw. 411 Euro spürbar unter denen der stark belasteten Großstädte. Der Unterschied zwischen Köln und Ulm beträgt damit 37 Staustunden beziehungsweise 4,63 Arbeitstage pro Jahr, was die Spannweite der Staubelastung verdeutlicht. Insgesamt zeigen die Daten, dass Autofahrer in mehreren großen Pendlerstädten jährlich rund eine bis eineinhalb Arbeitswochen allein durch Staus verlieren. Die Staukosten stellen damit einen relevanten Zeit- und Kostenfaktor für Pendler dar und bilden eine wichtige Vergleichsgröße für die spätere Gegenüberstellung mit den Kosten durch Bahnverspätungen.

Für die weiteren Analysen stellen wir Ihnen fünf zusätzliche Datensätze bereit. Diese laden Sie jetzt, damit sie in allen folgenden Aufgaben direkt verfügbar sind.

Laden Sie die folgenden Datensätze aus dem Ordner daten und speichern Sie diese unter den angegebenen Variablennamen:

Datei	Variablenname	Verwendet in
`bahnhof_ags_mapping.csv`	`bahnhof_mapping`	Aufgabe 9-10
`fahrtzeit_osrm_vergleich.csv`	`fahrtzeit`	Aufgabe 12
`ulm_pendlerrouten.csv`	`ulm_routen`	Aufgabe 13
`ba_entgeltstatistik_2024.csv`	`entgelt`	für `staedte_basis`
`co2_analyse.csv`	`co2_analyse`	Aufgabe 19 (Bonus)

Verschaffen Sie sich einen ersten Überblick über die Struktur der Daten (z.B. mit glimpse(), dies sollte später in ihrem HTML Dokument nicht sichtbar sein!).

Erstellen Sie außerdem einen Master-Datensatz staedte_basis für die Top-11-Städte (Top 10 Pendlerstädte + Ulm), der die Daten aus pendler, entgelt und inrix kombiniert. Dieser Datensatz vereinfacht die späteren Analysen (ab Aufgabe 14), da alle relevanten Kennzahlen bereits zusammengeführt sind.

Der Master-Datensatz sollte folgende Spalten enthalten:

ags: Amtlicher Gemeindeschlüssel
stadt: Stadtname (Kurzform, z.B. “München”)
einpendler: Anzahl Einpendler
median_monat_eur: Medianlohn pro Monat
median_stunde_eur: Medianlohn pro Stunde (Monatslohn / 160)
stau_stunden_jahr: Stauzeit pro Jahr (aus INRIX)

Hinweis 1: Die Datensätze verwenden unterschiedliche Namensformate: pendler hat offizielle Namen (“München, Landeshauptstadt”), während entgelt und inrix Kurznamen (“München”) verwenden. Nutzen Sie den AGS als zuverlässigen Schlüssel für die Verknüpfung mit pendler. Tipp: entgelt enthält sowohl AGS als auch Kurznamen und eignet sich daher gut als Ausgangspunkt.

Hinweis 2: Eine ausführliche Beschreibung der Datensätze finden Sie im Anhang A.

AGS	Stadt	Einpendler	Medianlohn (Monat)	Medianlohn (Stunde)	Stau (Std/Jahr)
Master-Datensatz: Top Pendlerstädte und Ulm
Zusammenführung aus Pendler-, Entgelt- und INRIX-Daten
09162	München	455.645	€4.847,00	€30,29	57
06412	Frankfurt	405.856	€4.712,00	€29,45	55
02000	Hamburg	392.951	€4.527,00	€28,29	46
11000	Berlin	392.324	€4.156,00	€25,98	60
05315	Köln	306.905	€4.398,00	€27,49	67
05111	Düsseldorf	284.696	€4.523,00	€28,27	63
08111	Stuttgart	274.442	€4.689,00	€29,31	60
09564	Nürnberg	165.496	€4.234,00	€26,46	38
05113	Essen	141.296	€3.987,00	€24,92	46
03241	Hannover	137.924	€4.156,00	€25,98	54
08421	Ulm	68.341	€4.312,00	€26,95	30

Beschreibung der Tabelle

In dieser Aufgabe ist der Master-Datensatz erstellt worden, welcher als Basis für die darauf folgenden ökonomischen Berechnungen dient. Hierfür wurden drei ursprünglich getrennte Datenquellen (Pendlerströme / die Entgeltstatistik der Bundesagentur für Arbeit / Staudaten von INRIX) genutzt. Um eine fehlerfreie Zuordnung zwischen den offiziellen administrativen Landkreisen und den städtebasierten Verkehrsdaten sicherstellen zu können, erfolgte die Verknüpfung primär über den Amtlichen Gemeindeschlüssel (AGS). Der resultierende Datensatz umfasst nun die elf für diese Studie relevantesten Städte: die Top 10 Pendlerstädte Deutschlands sowie die Stadt Ulm. Neben den reinen Einpendlerzahlen enthält die Tabelle nun auch wirtschaftliche Kennzahlen wie das monatliche Medianentgelt und den daraus abgeleiteten Stundenlohn. Zudem werden diese ökonomischen Daten durch ddie jährliche Zeitverschwendung im Stau was in den folgenden Aufgaben eine direkte Gegenüberstellung von Zeitkosten und Lohn ermöglicht.

Interpretation der Datensätze und der Tabelle

Ein erster Blick auf die Tabelle zeigt eine Korrelation zwischen der wirtschaftlichen Attraktivität einer Stadt und ihrer Verkehrsbelastung. Wirtschaftshochburgen wie München und Frankfur dominieren nicht nur bei den Einpendlerzahlen, sondern locken Arbeitssuchende auch mit den höchsten Medianlöhnen im gesamten Datensatz an. München sticht dabei Mit fast einer halben Million Einpendlern und Spitzenlöhnen hervor. Jedoch kostet sie die Autofahrern aber mit 74 Staustunden pro Jahr verhältnismäßig viel. Im Gegensatz dazu zeigt der Vergleich mit Ulm, wie sich die Situation in kleineren Großstädten abseits der Großstädte darstellt. Zwar sind die absoluten Pendlerzahlen und das Lohnniveau in Ulm niedriger als in den Top Metropolen, jedoch proitieren Autofahrer hier von einer angenehmeren Verkehrslage mit nur 25 Staustunden. Das zeigt die Schwierigkeit vieler Arbeitnehmerr: Der finanzielle Vorteil eines gut bezahlten Jobs in der Metropole wird oft durch einen massiven Verlust an Lebenszeit auf der Straße erkauft.

Die Pünktlichkeit der Deutschen Bahn

Nachdem Sie nun einen Überblick über die Daten haben, welche wir in diesem Projekt verwenden möchten, tauchen Sie tiefer in die Bahndaten ein. Die zentrale Frage ist: Wie zuverlässig ist die Deutsche Bahn wirklich?

Die Bahn unterscheidet verschiedene Zugtypen, vom ICE über den RE bis zur S-Bahn. Jeder Zugtyp hat unterschiedliche Eigenschaften: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Aber welcher Zugtyp ist am pünktlichsten?

Welche Züge sind (un)pünktlich? Nicht alle Züge sind gleich: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Um später sinnvolle Empfehlungen geben zu können, müssen Sie verstehen, welche Zugtypen besonders problematisch sind. Dafür klassifizieren Sie die Züge anhand ihrer Namen. Nutzen Sie für diese Analyse den Datensatz bahn.

Die Variable train_name enthält den Zugnamen (z.B. “ICE 123”, “S 5”, “RE 8”).

Erstellen Sie eine neue Variable zugtyp mit folgenden Kategorien:

Zugtyp	Regel	Beispiel
ICE	beginnt mit “ICE”	ICE 123
IC/EC	beginnt mit “IC” oder “EC”	IC 2012, EC 6
IRE/RE	beginnt mit “RE” oder “IRE”	RE 5, IRE 200
RB	beginnt mit “RB”	RB 26
S-Bahn	beginnt mit “S” (mit Leerzeichen!)	S 5
Sonstige	alle anderen	U 6, STB 123

Erstellen Sie auf dieser Basis eine Tabelle, welche pro Zugtyp folgende Kennzahlen anschaulich darstellt:

Anzahl der Fahrten
Durchschnittliche Verspätung (in Minuten)
Anteil pünktlicher Züge (≤6 Min Verspätung)
Ausfallquote

Beschreiben und Interpretieren Sie die Tabelle.

Weiterhin sollten Sie ihre Ergebnisse verifizieren. Dafür können Sie auf die offizielle Pünktlichkeitswerte der Deutschen Bahn zurückgreifen (recherchieren Sie diese selbstständig).

Stimmen Ihre Ergebnisse mit den offiziellen Werten überein? Falls nicht: Welche methodischen Unterschiede könnten die Abweichung erklären?

Hinweis: Nutzen Sie str_detect() aus dem stringr-Paket. Achten Sie auf die Reihenfolge der Bedingungen!

Zugtyp	Anzahl Halte	Ø Verspätung (Min)	Pünktlichkeitsquote	Ausfallquote
Pünktlichkeit nach Zugtyp
Vergleich von Fern- und Nahverkehr (November 2025)
S-Bahn	6.414.045	2,94	87,4%	5,5%
Sonstige	2.938.815	3,47	84,7%	2,6%
RB	2.675.028	3,48	85,2%	3,2%
IRE/RE	1.673.555	6,06	74,1%	3,6%
ICE	171.516	12,50	56,7%	4,2%
IC/EC	70.602	11,03	60,2%	7,2%

Beschreibung der Tabelle

Die Tabelle analysiert die Pünktlichkeit der Deutschen Bahn im November 2025, aufgeteilt nach den gängigen Zugtypen. Es werden Kennzahlen wie die Anzahl der Halte, die durchschnittliche Verspätung, die Pünktlichkeitsquote sowie die Ausfallquote gegenübergestellt. Die Daten verdeutlichen primär das enorme Volumen des Nahverkehrs, wobei allein S Bahnen mit über 6,4 Millionen Halten den Großteil des Betriebs ausmachen. Inhaltlich wird eine starke Diskrepanz sichtbar Während nämlich S-Bahnen und Regionalbahnen solide Pünktlichkeitswerte von knapp 83 % erreichen, fallen die Fernzüge (ICE, IC/EC) auf Werte unter 55 % ab. Zudem weisen IC/EC-Züge mit 7,2 % die höchste Ausfallquote aller Kategorien auf.

Interpretation der Tabelle

Analyse der Ergebnisse: Die Daten offenbaren eine klare “Zweiklassengesellschaft” im deutschen Schienenverkehr. Der Nahverkehr, welcher oft in geschlossenen Systemen und auf kürzeren Strecken vorkommt, erweist sich als das stabile Rückgrat der Mobilität mit geringen durchschnittlichen Verspätungen (2-3Minuten). Im Gegensatz dazu ist der Fernverkehr sehr anfällig für Ausfäälle und Störungen. Dass fast jeder zweite Fernzug unpünktlich ist, lässt sich durch die langen Laufwege erklären: Auf Strecken durch ganz Deutschland häufen sich kleine Verzögerungen oft an und Dominoeffekte wirken sich stärker aus.

Vergleich mit offiziellen Werten: Die hier ermittelte Pünktlichkeit im Fernverkehr (ca. 54 %) liegt unter den Werten, die die Deutsche Bahn in der Vergangenheit veröffentlicht hat ( 60 % - 70 %). Diese Abweichung lässt sich durch zwei Unterschiede erklären, die unsere Analyse strenger, aber aus Nutzersicht oft realistischer machen:

Einbeziehung von Ausfällen: In unserer Berechnung wird ein ausgefallener Zug in die Pünktlichkeitsquote eingerechnet. In offiziellen Statistiken wurden Ausfälle teilweise separat betrachtet und minderten die Pünktlichkeitsquote nicht direkt. Für den Pendler ist ein ausgefallener Zug jedoch schlimmer als “nur” eine einfache Verspätung.

Unsere Analyse basiert auf jedem einzelnen Halt. Ein verspäteter ICE von Hamburg nach München, der an 10 Bahnhöfen hält, erzeugt in unserer Statistik 10 verspätete Datenpunkte. Da Fernzüge oft über die gesamte Strecke verspätet sind, gewichtet diese Methode Verspätungen stärker als eine einfache Messung, die beispielsweise nur die Ankunftszeit am Endbahnhof betrachtet.

In Aufgabe 5 haben Sie gesehen, dass Fernverkehrszüge (ICE, IC/EC) deutlich höhere Verspätungen und Ausfallquoten haben als Nahverkehrszüge (IRE, RE, RB, S-Bahn). Aber wie relevant ist das für den typischen Pendler? Das hängt davon ab, wie viele Züge jeweils unterwegs sind. Nutzen Sie für diese Analyse den Datensatz bahn (mit der in Aufgabe 5 erstellten Variable zugtyp).

Klassifizieren Sie die Züge in zwei Kategorien:

Fernverkehr: ICE, IC/EC
Nahverkehr: IRE, RE, RB, S-Bahn

Erstellen Sie ein Liniendiagramm, das die durchschnittliche Anzahl der Fahrten pro Stunde im Tagesverlauf zeigt:

X-Achse: Uhrzeit (0-23 Uhr)
Y-Achse: Durchschnittliche Anzahl Fahrten pro Stunde
Zwei Linien: eine für Fernverkehr, eine für Nahverkehr (unterschiedliche Farben)

Tipp: Extrahieren Sie die Stunde aus der Variable time mit hour() aus dem lubridate-Paket. Berechnen Sie dann die durchschnittliche Anzahl Fahrten pro Stunde und Zugtyp.

Beschreiben und interpretieren Sie ihre Grafik. Beantworten Sie zusätzlich die folgenden Fragen:

Zu welchen Uhrzeiten fahren die meisten Züge?
Wie unterscheidet sich das Muster zwischen Fern- und Nahverkehr?
Warum ist diese Information wichtig, wenn wir später die Verspätungen analysieren?

Beschreibung der Grafik

Das vorliegende Liniendiagramm zeigt das durchschnittliche Zugaufkommen im deutschen Schienennetz über den Verlauf eines Tages im November 2025. Auf der X Achse ist die Uhrzeit in Stunden zu sehen, während die Y Achse die durchschnittliche Anzahl der Zughalte pro Stunde darstellt. Die Daten sind dabei in zwei Kategorien unterteilt, wobei die rote Linie den Fernverkehr (ICE, IC/EC) und die grüne Linie den Nahverkehr (S-Bahn, RB, RE) repräsentiert. Auf den ersten Blick wird deutlich, dass das Verkehrsaufkommen im Nahverkehr ein Vielfaches des Fernverkehrs beträgt und starken zeitlichen Schwankungen unterliegt. Beide Kurven zeigen jedoch ein grundlegendes Tagesmuster mit einem Hochfahren des Betriebs am Morgen und einem nahezu vollständigen Erliegen des Personenverkehrs in den tiefen Nachtstunden.

Interpretation der Grafik

Zu welchen Uhrzeiten fahren die meisten Züge?

Die Verkehrsspitzen im deutschen Bahnnetz sind eindeutig an die klassischen Arbeits und Schulzeiten gekoppelt. Der erste und markanteste Hochpunkt baut sich ab 05:00 Uhr morgens rasch auf und erreicht sein Maximum im Zeitfenster zwischen 06:00 und 08:00 Uhr morgens, nämlich dann wenn die Pendlerströme am stärksten sind. Nach einer leichten Beruhigung zur Mittagszeit folgt am Nachmittag der zweite etwas breitere Hochpunkt zwischen 15:00 und 17:00 Uhr, der den Rückreiseverkehr abbildet. In diesen beiden Zeitfenstern ist die Taktung der Züge am dichtesten, um die enormen Passagiermassen bewältigen zu können. Ab etwa 19:00 Uhr sinkt die Kurve dann kontinuierlich ab, bis der Betrieb in der Nacht auf ein Minimum reduziert wird. Dieses Muster zeigt, dass die gesamte Infrastruktur primär für diese zwei Hochpunkte ausgelegt sein muss.

Wie unterscheidet sich das Muster zwischen Fern- und Nahverkehr?

Der auffälligste Unterschied liegt im Volumen: Die grüne Kurve des Nahverkehrs liegt weit über der des Fernverkehrs, da S-Bahnen und Regionalzüge aufgrund ihrer vielen Halte und langen Fahrzeiten die Masse des Betriebs ausmachen. Strukturell reagiert der Nahverkehr extrem sensibel auf die Tageszeit, mit sehr steilen Anstiegen zu den Stoßzeiten und deutlich sichtbaren Abfällen dazwischen. Im Gegensatz dazu verläuft die Kurve des Fernverkehrs deutlich flacher und gleichmäßiger über den Tag hinweg, ohne die Ausschläge der Pendlerzüge. ICEs und ICs fahren meist in einem festen Taktfahrplan, der weniger von kurzfristigen lokalen Arbeitszeiten abhängt als von der Notwendigkeit, überregionale Verbindungen verlässlich über den Tag anzubieten. Während der Nahverkehr also stark an die Situation der Pendler angepasst ist, funktioniert der Fernverkehr eher wie eine Art Grundangebot. Sprich der Fernverkehr ist nicht auf die vielen Pendler ausgerichtet sondern hat zum Ziel den Streckenverkehr möglichst weit zu decken.

Warum ist diese Information wichtig, wenn wir später die Verspätungen analysieren?

Diese Verteilung ist entscheidend, um über die Wichtigkeit und den Einfluss von Verspätungen richtig schlussfolgern zu können, da nicht jede Verspätungsminute gleich schwer “wiegt”. Eine Betriebsstörung während der morgendlichen Hochpunkten um 07:30 Uhr betrifft aufgrund der enormen Zugdichte eine vielfach höhere Anzahl an Menschen als eine solche Störung am Abend. Zudem ist das System zu den Spitzenzeiten so eng getaktet, dass Verspätungen hier viel schneller zu Dominoeffekten führen, bei welchen sich Verzögerungen auf nachfolgende Züge übertragen. Wenn wir später nur einen einfachen Tagesdurchschnittswert für die Pünktlichkeit heranziehen würden, könnte sich das Bild durch die fehlerfreien Fahrten am Abend ( wovon deutlich weniger Menschen betroffen sind) verfälschen. Die Bahninfrastruktur ist also genau dann am stärksten belastet, wenn es für die Pendler am wichtigsten ist. Eine hohe Verspätungsquote in den “Pendlerzeiten” ist wirtschaftlich viel schwerwiegender als Probleme im schwach frequentierten Nachtverkehr.

Nachdem Sie in Aufgabe 6 herausgefunden haben, dass es deutlich mehr Nahverkehrszüge als Fernverkehrszüge gibt, und diese für Pendler wichtiger sind, sollten Sie sich die Verspätungen der Nahverkehrszüge über den Tag anschauen, da diese vermutlich nicht gleichmäßig über den Tag verteilt sind. Pendler erleben die Bahn vor allem in der Hauptverkehrszeit, d.h. morgens zwischen 7 und 9 Uhr und abends zwischen 16 und 19 Uhr. Aber ist die Bahn zu diesen Zeiten besonders unpünktlich?

Erstellen Sie zwei Heatmaps, die zeigen, wie sich die Verspätungen nach Tageszeit (Stunde) und Wochentag für die Nahverkehrszüge und die Fernverkehrszüge verteilen. Nutzen Sie für diese Analyse den Datensatz bahn.

Extrahieren Sie aus der Variable time die Stunde und den Wochentag.
Filtern Sie auf die relevanten Tageszeiten (5-23 Uhr), da nachts kaum Zugverkehr stattfindet.
Aggregieren Sie die durchschnittliche Verspätung pro Stunde und Wochentag für Nah- und Fernverkehrszüge separat.
Erstellen Sie eine Heatmap mit ggplot2 und geom_tile().

Tipp zur Farbskala: Da Fernverkehrszüge im Durchschnitt höhere Verspätungen haben als Nahverkehrszüge, können Sie unterschiedliche Farbskalen für die beiden Heatmaps verwenden (z.B. Blau-Töne für Nahverkehr, Rot-Töne für Fernverkehr). Dadurch werden die Muster innerhalb jeder Verkehrsart besser sichtbar.

Beschreiben und interpretieren Sie ihre Grafiken.

Wann sind die Verspätungen am höchsten?
Gibt es Unterschiede zwischen Werktagen und Wochenende?
Gibt es Unterschiede zwischen Nah- und Fernverkehrszügen?
Was bedeutet das für Pendler?

Beschreibung der Grafiken

Die Abbildung zeigt zwei Heatmaps zur durchschnittlichen Verspätung im Bahnverkehr nach den für diesen relevanten Tageszeiten (Stunde 5–23) und allen Wochentagen (Mo–So). Links ist der Nahverkehr dargestellt, rechts der Fernverkehr. Bereits anhand der Farbskalen, blau Nah- und rot Fernverkehr, wird deutlich, dass beide Verkehrstypen auf sehr unterschiedlichen Verspätungsniveaus liegen: Im Nahverkehr bewegen sich die durchschnittlichen Werte überwiegend zwischen etwa 1 und 5 Minuten, während der Fernverkehr deutlich höhere Verspätungen im Bereich von ungefähr 5 bis über 20 Minuten aufweist. Im Nahverkehr zeigen sich deutliche zeitliche und wochentagsabhängige Muster. An den Werktagen (Mo–Fr) treten die dunkelsten Blautöne vor allem in zwei Zeitfenstern auf: morgens zwischen etwa 7 und 10 Uhr sowie am späten Nachmittag bzw. frühen Abend zwischen etwa 17 und 20 Uhr. In diesen Bereichen liegen die durchschnittlichen Verspätungen häufig im Bereich von rund 4 bis 5 Minuten. Außerhalb dieser Zeitfenster sind die Werte meist niedriger und bewegen sich überwiegend zwischen etwa 2 und 4 Minuten. Am Wochenende ist die Heatmap insgesamt deutlich heller. Besonders am Sonntag dominieren über den Großteil des Tages sehr helle Blautöne, was auf durchschnittliche Verspätungen von etwa 1 bis 2 Minuten hinweist. Der Samstag liegt meist zwischen Werktagen und Sonntag, zeigt jedoch am späten Nachmittag und Abend teilweise leicht erhöhte Werte. Im Fernverkehr zeigt sich ein anderes Muster. Hier steigt die durchschnittliche Verspätung im Tagesverlauf an. In den frühen Morgenstunden dominieren an vielen Tagen hellere Rottöne, was auf Verspätungen von etwa 5 bis 10 Minuten hindeutet. Ab dem späten Vormittag und insbesondere ab dem Nachmittag werden die Farben deutlich dunkler. Die höchsten Werte treten meist am späten Abend auf, insbesondere zwischen etwa 21 und 23 Uhr. In diesem Zeitraum erreichen die durchschnittlichen Verspätungen häufig Werte von etwa 15 bis über 20 Minuten. Dieses Muster zeigt sich sowohl an Werktagen als auch am Wochenende, wobei insbesondere der Sonntagabend zu den dunkelsten Bereichen der gesamten Heatmap zählt.

Interpretation der Grafiken

Die Heatmaps deuten darauf hin, dass sich die Ursachen und Zeitmuster von Verspätungen im Nahverkehr und im Fernverkehr deutlich unterscheiden und dass dabei der Unterschied zwischen Arbeitstagen und Wochenende eine wichtige Rolle spielt. Im Nahverkehr konzentrieren sich die stärksten Verspätungen klar auf die Arbeitstage und auf die typischen Stoßzeiten. Von Montag bis Freitag sind die dunkelsten Blautöne besonders morgens zwischen 7 und 10 Uhr sowie am späten Nachmittag/Abend zwischen 17 und 20 Uhr sichtbar, was durchschnittliche Verspätungen im Bereich von ungefähr 4–5 Minuten nahelegt. Diese Zeitfenster entsprechen genau dem klassischen Berufsverkehr, weshalb es plausibel ist, dass die höheren Verspätungen durch eine hohe Netzbelastung entstehen: volle Züge, längere Fahrgastwechsel, dichter getaktete Verkehre und ein störanfälliger Betrieb führen dazu, dass sich bereits kleine Störungen schnell auf den Fahrplan auswirken. Am Wochenende zeigt sich im Nahverkehr ein deutlich entspannteres Bild: Der Sonntag ist über weite Strecken sehr hellblau, was eher auf 1–2 Minuten durchschnittliche Verspätung hinweist. Das spricht dafür, dass bei geringerem Pendleraufkommen die Pünktlichkeit spürbar zunimmt. Der Samstag liegt dabei meist zwischen Arbeitstagen und Sonntag, mit moderaten Verzögerungen und einzelnen etwas dunkleren Bereichen am späten Nachmittag/Abend. Im Fernverkehr ist das Muster weniger an die klassischen Pendlerzeiten gekoppelt, sondern stärker vom Tagesverlauf geprägt. An Arbeitstagen steigt die durchschnittliche Verspätung von morgens (hellere Rottöne, etwa 5–10 Minuten) über den Tag hinweg deutlich an und erreicht am späten Abend ihren Höhepunkt. Besonders im Zeitfenster 21 bis 23 Uhr treten die dunkelsten Rotflächen auf, was Verspätungen im Bereich von etwa 15 bis über 20 Minuten nahelegt. Dieses Muster deutet darauf hin, dass sich Störungen im Fernverkehr im Laufe des Tages stärker aufschaukeln: Verspätungen werden von vorherigen Streckenabschnitten „mitgenommen“, Anschlüsse und Engpässe verstärken sich, und am Tagesende ist die Pufferwirkung im System geringer. Auch am Wochenende bleibt dieses Abendproblem sichtbar und gerade der Sonntagabend sticht besonders hervor. Das kann darauf hinweisen, dass hier zusätzlich eine hohe Nachfrage durch Rückreiseverkehr (z.B. Wochenendpendler, Freizeitverkehr) mit den bereits bestehenden betrieblichen Herausforderungen zusammenkommt, wodurch die Pünktlichkeit im Fernverkehr besonders stark leidet. Für Pendler bedeutet dieser Unterschied zwischen Arbeitstagen und Wochenende, dass besonders der Nahverkehr werktags in den Stoßzeiten zwar „nur“ wenige Minuten Verspätung im Durchschnitt zeigt, diese aber im Alltag trotzdem sehr relevant sind, weil sie Umstiege gefährden und Stress verursachen können. Im Fernverkehr ist hingegen weniger die Morgen-Hauptverkehrszeit entscheidend, sondern vor allem die Zuverlässigkeit am Abend: Späte Fernverkehrszüge sind sowohl an Arbeitstagen als auch am Wochenende deutlich verspätungsanfälliger, was für Pendler auf langen Strecken oder mit Umstiegen ein wesentlich höheres Risiko für Reisezeitverlängerungen bedeutet.

Wann sind die Verspätungen am höchsten?

Die höchsten durchschnittlichen Verspätungen treten im Fernverkehr am späten Abend auf. Besonders im Zeitraum von etwa 21 bis 23 Uhr zeigen sich die dunkelsten Bereiche der gesamten Abbildung. In diesem Zeitfenster liegen die durchschnittlichen Verspätungen häufig bei etwa 15 bis über 20 Minuten. Im Nahverkehr treten die höchsten Werte dagegen vor allem an Werktagen während der Hauptverkehrszeiten auf, insbesondere morgens zwischen etwa 7 und 10 Uhr sowie am frühen Abend zwischen etwa 17 und 20 Uhr, mit durchschnittlichen Verspätungen von etwa 4 bis 5 Minuten.

Gibt es Unterschiede zwischen Werktagen und Wochenende?

Ja, besonders im Nahverkehr sind klare Unterschiede erkennbar. An Werktagen treten deutlich höhere durchschnittliche Verspätungen auf als am Wochenende. Während werktags in den Stoßzeiten häufig Werte von etwa 4 bis 5 Minuten erreicht werden, liegen die Werte am Sonntag über weite Teile des Tages nur bei etwa 1 bis 2 Minuten. Im Fernverkehr sind die Unterschiede zwischen Werktagen und Wochenende weniger stark ausgeprägt. Das dominierende Muster ist hier vor allem der Anstieg der Verspätungen im Tagesverlauf, der sowohl an Werktagen als auch am Wochenende sichtbar ist. Allerdings fällt auf, dass insbesondere der Sonntagabend ebenfalls sehr hohe Verspätungswerte aufweist.

Gibt es Unterschiede zwischen Nah- und Fernverkehrszügen?

Ja, es gibt deutliche Unterschiede im Verspätungsniveau. Während die durchschnittlichen Verspätungen im Nahverkehr meist zwischen etwa 1 und 5 Minuten liegen, bewegen sie sich im Fernverkehr überwiegend zwischen etwa 5 und über 20 Minuten. Zusätzlich unterscheiden sich die zeitlichen Muster: Im Nahverkehr konzentrieren sich höhere Verspätungen stärker auf bestimmte Tageszeiten (insbesondere Stoßzeiten), während im Fernverkehr vor allem ein Anstieg der Verspätungen im Tagesverlauf bis zum Abend erkennbar ist.

Was bedeutet das für Pendler?

Für Pendler im Nahverkehr sind vor allem die Stoßzeiten an Werktagen kritisch. Auch wenn die durchschnittlichen Verspätungen hier meist nur wenige Minuten betragen, können bereits Verspätungen von etwa 4 bis 5 Minuten problematisch sein, insbesondere bei knappen Umstiegen. Für Pendler, die Fernverkehrszüge nutzen, ist vor allem der späte Tagesverlauf relevant. Da die durchschnittlichen Verspätungen am Abend häufig im Bereich von 15 Minuten oder mehr liegen, steigt das Risiko von Anschlussverlusten oder deutlich verlängerten Reisezeiten, insbesondere bei komplexeren Reiseketten.

Von der Zeit zum Ort: Wo entstehen die Verspätungen?

In Aufgabe 7 haben Sie analysiert, wann die Verspätungen auftreten, nämlich vor allem zu den Hauptverkehrszeiten. Aber die nächste wichtige Frage ist: Wo entstehen diese Verspätungen?

Aggregierte Statistiken wie Durchschnittswerte über ganz Deutschland verbergen oft große regionale Unterschiede. Vielleicht gibt es einzelne “Problembahnhöfe”, die den Durchschnitt nach oben ziehen? Oder sind die Verspätungen gleichmäßig über das Netz verteilt? Diese Frage ist wichtig, weil sie unterschiedliche Lösungsansätze impliziert: Bei wenigen Problembahnhöfen könnte die Bahn gezielt investieren, bei flächendeckenden Problemen bräuchten Sie systemische Lösungen.

Identifizieren Sie die 10 unpünktlichsten Bahnhöfe in Deutschland (mit mindestens 1.000 Halten im Monat). Nutzen Sie für diese Analyse den Datensatz bahn.

Erstellen Sie ein Balkendiagramm, das die durchschnittliche Verspätung dieser Bahnhöfe zeigt. Beschriften Sie die Balken mit den Verspätungswerten.

Beschreiben und interpretieren Sie ihre Grafik.

Sehen Sie ein geografisches Muster?
Handelt es sich um große Knotenbahnhöfe oder eher um kleinere Stationen?

Beschreibung der Grafik

Das Balkendiagramm zeigt die zehn Bahnhöfe mit der höchsten durchschnittlichen Verspätung in Minuten. Berücksichtigt wurden nur Stationen mit mindestens 1.000 Halten pro Monat. Die Bahnhöfe sind nach durchschnittlicher Verspätung absteigend sortiert. Den höchsten Wert weist Ennepetal (Gevelsberg) mit etwa 14,7 Minuten auf. Dahinter folgen Bad Breisig und Sinzig (Rhein) mit jeweils etwa 14,5 Minuten. Es folgen Bornheim-Sechtem mit etwa 13,6 Minuten, Brühl und Roisdorf mit jeweils etwa 13,3 Minuten, Rolandseck mit etwa 13,2 Minuten, Hochneukirch mit etwa 12,5 Minuten, Rheydt-Odenkirchen mit etwa 12,4 Minuten und Zeesen mit etwa 12,3 Minuten. Alle Stationen liegen damit in einem engen Wertebereich zwischen etwa 12,3 und 14,7 Minuten. Die Differenz zwischen Rang 1 und Rang 10 beträgt rund 2,4 Minuten, während bereits zwischen Rang 1 und Rang 3 nur etwa 0,2 Minuten Unterschied liegen.

Interpretation der Grafik

Auffällig ist zunächst das insgesamt sehr hohe Verspätungsniveau dieser Top-10-Stationen. Alle Bahnhöfe liegen deutlich über 12 Minuten durchschnittlicher Verspätung, mehrere sogar im Bereich von 13 bis knapp 15 Minuten. Dadurch entsteht der Eindruck, dass es sich nicht um einzelne Ausreißer handelt, sondern um Stationen, an denen regelmäßig überdurchschnittlich hohe Verspätungen auftreten. Gleichzeitig fällt auf, dass sich viele der genannten Stationen nicht in großen Metropolzentren befinden, sondern eher kleineren oder mittelgroßen Orten zugeordnet sind. Dadurch wird sichtbar, dass hohe durchschnittliche Verspätungen nicht zwangsläufig an großen zentralen Hauptbahnhöfen entstehen müssen, sondern sich auch auf regionalen Streckenabschnitten oder an wichtigen Zwischenstationen manifestieren können. Darüber hinaus deutet die Häufung mehrerer Stationen in geografisch nahe beieinanderliegenden Regionen darauf hin, dass bestimmte Streckenkorridore oder Verkehrsachsen besonders anfällig für Verspätungen sein könnten. Einzelne Stationen außerhalb dieser Cluster zeigen jedoch gleichzeitig, dass das Problem nicht ausschließlich regional begrenzt ist.

Gibt es ein geografisches Muster?

Ja, es lässt sich eine erkennbare regionale Häufung feststellen, insbesondere im westdeutschen Raum und entlang des Rheins. Mehrere der aufgeführten Bahnhöfe liegen geografisch relativ nah beieinander. Dazu zählen unter anderem Bad Breisig, Sinzig (Rhein) und Rolandseck, die alle entlang der Rheinschiene liegen. Zusätzlich befinden sich mit Bornheim-Sechtem, Brühl und Roisdorf weitere Stationen im Umfeld des Rheinlands bzw. im Raum Köln/Bonn. Auch Rheydt-Odenkirchen und Hochneukirch liegen im westdeutschen Raum. Damit stammt ein großer Teil der Top-10 aus einer zusammenhängenden Verkehrsregion. Gleichzeitig zeigt das Auftreten von Zeesen im Berliner Umland, dass hohe durchschnittliche Verspätungen nicht ausschließlich auf diese Region beschränkt sind. Insgesamt spricht die Grafik daher für eine deutliche regionale Konzentration mit einzelnen Ausnahmen.

Handelt es sich um große Knotenbahnhöfe oder eher um kleinere Stationen?

Bei den meisten aufgeführten Bahnhöfen handelt es sich eher um kleinere bis mittelgroße Stationen und nicht um große nationale Fernverkehrsknoten. In der Liste fehlen typische große Hauptbahnhöfe großer Städte. Stattdessen dominieren Stationen aus kleineren Städten oder Vororten. Gleichzeitig ist wichtig, dass alle Stationen laut Filter mindestens 1.000 Halte pro Monat aufweisen. Die hohen durchschnittlichen Verspätungen basieren daher auf einer relativ großen Anzahl an Beobachtungen und sind nicht nur zufällige Einzelereignisse. Die Grafik zeigt damit, dass hohe durchschnittliche Verspätungen nicht ausschließlich an großen Knotenpunkten auftreten müssen, sondern auch an regional wichtigen Stationen mit regelmäßigem Zugverkehr dauerhaft bestehen können.

Wo treffen viele Pendler auf eine unpünktliche Bahn?

Bisher haben Sie Pendler- und Bahndaten getrennt betrachtet. Aber die spannende Frage ist: Wo kommen beide Probleme zusammen? Eine Stadt mit vielen Pendlern und einer unpünktlichen Bahn hat ein größeres Problem als eine Stadt mit wenigen Pendlern und einer unpünktlichen Bahn.

Um diese Frage zu beantworten, müssen Sie die Datensätze verknüpfen. Das Problem: Die Bahndaten sind auf Bahnhofsebene, die Pendlerdaten auf Kreisebene. Sie benötigen ein Mapping, das Bahnhöfe den entsprechenden Kreisen zuordnet.

In dieser Aufgabe verknüpfen Sie die Bahn- und Pendlerdaten, um Städte mit Handlungsbedarf zu identifizieren. Nutzen Sie für ihre Analysen die Datensätze: bahn, pendler und bahnhof_mapping.

Das Mapping ordnet Bahnhöfe ihrem Landkreis zu (via AGS = Amtlicher Gemeindeschlüssel). Ihr Ziel: Identifizieren Sie Städte, in denen viele Pendler auf eine unpünktliche Bahn treffen.

Berechnen Sie für jeden Bahnhof die durchschnittliche Verspätung und die Anzahl der Halte.
Aggregation auf Kreisebene: Berechnen Sie für jeden Kreis die gewichtete durchschnittliche Verspätung. Gewichten Sie nach der Anzahl der Halte (ein Bahnhof mit 10.000 Halten zählt mehr als einer mit 100).
Verknüpfen Sie das Ergebnis mit den Pendlerdaten mittels left_join() über die Variable ags.
Problem-Score berechnen: Kombinieren Sie beide Dimensionen mit z-Standardisierung:

\[\text{Problem-Score} = z(\text{Einpendler}) + z(\text{Verspätung})\]

Die z-Standardisierung macht die Werte vergleichbar: \(z(x) = \frac{x - \bar{x}}{s_x}\), wobei \(\bar{x}\) der Mittelwert und \(s_x\) die Standardabweichung ist.

Interpretation: Ein hoher Problem-Score = Viele Pendler + hohe Verspätung = Handlungsbedarf.

Anschließend sollten Sie eine Tabelle der Top 10 Städte nach Problem-Score darstellen und diese kurz beschreiben.

Kreis / Stadt	Einpendler	Problem-Score	Ø Verspätung (gewichtet, min)
Top 10 Pendler-Problemregionen
Problem-Score = standardisierte Einpendler (z-Wert) + standardisierte gewichtete Ø-Verspätung (z-Wert)
München	455.645	3,45	5,98
Köln	306.905	3,05	7,89
Düsseldorf	284.696	2,55	7,33
Frankfurt am Main	405.856	2,54	5,14
Berlin	392.324	2,18	4,70
Hamburg	392.951	2,05	4,44
Duisburg	86.735	1,46	8,81
Hamm	22.447	1,45	9,93
Stuttgart	274.442	1,38	5,30
Bonn	112.607	1,28	8,00

Beschreibung der Tabelle

Die Tabelle zeigt die Top 10 Pendler-Problemregionen, basierend auf dem kombinierten Problem-Score nach der Formel standardisierte Einpendler (z-Wert) + standardisierte gewichtete Ø-Verspätung (z-Wert). Zusätzlich werden pro Region die Einpendlerzahl, die durchschnittliche gewichtete Verspätung in Minuten sowie der finale Problem-Score angegeben. An der Spitze steht München mit dem höchsten Problem-Score von 3,45. München hat gleichzeitig die mit Abstand höchste Einpendlerzahl in der Liste (455.645 Einpendler). Die durchschnittliche gewichtete Verspätung beträgt 5,98 Minuten. Auf Platz zwei folgt Köln mit einem Problem-Score von 3,05. Köln weist 306.905 Einpendler auf und besitzt eine deutlich höhere durchschnittliche Verspätung von 7,89 Minuten. Auf den nächsten Plätzen liegen Düsseldorf mit einem Problem-Score von 2,55 sowie Frankfurt am Main mit 2,54. Frankfurt am Main hat 405.856 Einpendler und eine vergleichsweise geringere Ø-Verspätung von 5,14 Minuten. Düsseldorf weist weniger Einpendler (284.696) auf, dafür aber eine deutlich höhere Ø-Verspätung von 7,33 Minuten. Im mittleren Bereich folgen Berlin (Problem-Score 2,18) und Hamburg (Problem-Score 2,05). Berlin hat 392.324 Einpendler bei einer Ø-Verspätung von 4,70 Minuten. Hamburg weist 392.951 Einpendler auf und eine etwas geringere Verspätung von 4,44 Minuten. Die Plätze 7 bis 10 weisen niedrigere Problem-Scores auf, bleiben aber weiterhin positiv. Duisburg erreicht einen Score von 1,46 und hat eine sehr hohe Ø-Verspätung von 8,81 Minuten bei 86.735 Einpendlern. Hamm folgt mit einem Score von 1,45 und weist mit 9,93 Minuten die höchste Ø-Verspätung der Tabelle auf, bei vergleichsweise wenigen Einpendlern (22.447). Stuttgart liegt mit einem Score von 1,38 (Ø-Verspätung 5,30 Minuten, 274.442 Einpendler) vor Bonn mit dem niedrigsten Top-10-Score von 1,28 (Ø-Verspätung 8,00 Minuten, 112.607 Einpendler).

Interpretation der Tabelle

Zuerst ist es wichtig zu verstehen, wie der Problem-Score berechnet wird und warum dabei eine Standardisierung verwendet wird. Der Problem-Score basiert auf der Formel z(Einpendler) + z(Ø-Verspätung). Dabei werden sowohl die Einpendlerzahlen als auch die durchschnittliche Verspätung zunächst standardisiert, das heißt in sogenannte z-Werte umgerechnet. Ein z-Wert gibt an, wie stark ein Wert vom Durchschnitt aller betrachteten Städte abweicht, gemessen in Standardabweichungen. Ein positiver z-Wert bedeutet somit, dass eine Stadt über dem Durchschnitt liegt, ein negativer Wert entsprechend darunter. Die Standardisierung ist notwendig, weil die beiden verwendeten Größen in unterschiedlichen Einheiten gemessen werden. Während die Einpendlerzahlen im Bereich von Zehntausenden bis mehreren Hunderttausend Personen liegen, bewegt sich die durchschnittliche Verspätung nur im Bereich weniger Minuten. Ohne Standardisierung würde die Einpendlerzahl den Problem-Score stark dominieren, da ihre absoluten Werte deutlich größer sind. Durch die Umrechnung in z-Werte werden beide Variablen auf eine gemeinsame Skala gebracht und können gleichgewichtet in die Berechnung eingehen. Dadurch ermöglicht der Problem-Score eine ausgewogene Bewertung von Pendlerregionen. Städte können einen hohen Problem-Score erreichen, weil sehr viele Pendler betroffen sind, weil die Bahnqualität besonders schlecht ist oder weil beide Faktoren gleichzeitig stark ausgeprägt sind. Ziel des Scores ist es somit, vor allem jene Regionen sichtbar zu machen, in denen viele Menschen gleichzeitig von Bahnproblemen betroffen sind und in denen Verbesserungen daher einen besonders großen Effekt hätten.

Die Tabelle zeigt sehr deutlich, dass der Problem-Score nicht nur durch hohe Verspätungen entsteht, sondern durch die Kombination aus Pendleraufkommen und Bahnqualität. München steht mit einem Problem-Score von 3,45 an der Spitze, obwohl die durchschnittliche Verspätung mit 5,98 Minuten nicht die höchste der Liste ist. Entscheidend ist hier die extrem hohe Zahl von 455.645 Einpendlern, was darauf hindeutet, dass besonders viele Menschen von den Problemen betroffen sind. Köln folgt auf Platz zwei (Problem-Score 3,05). Köln hat im Vergleich zu München deutlich weniger Einpendler (306.905), aber eine wesentlich höhere Ø-Verspätung (7,89 Minuten). Dadurch wird sichtbar, dass Köln stärker über die Bahnqualität „nach oben“ gezogen wird, während München stärker über die Pendlerdimension dominiert. Frankfurt am Main und Düsseldorf besitzen nahezu denselben Problem-Score (2,54 vs. 2,55), aber mit unterschiedlichen Profilen: Frankfurt hat sehr viele Einpendler (405.856) bei moderater Verspätung (5,14 Minuten). Düsseldorf hat weniger Einpendler (284.696), dafür aber eine deutlich höhere Verspätung (7,33 Minuten). Die gleiche Gesamtbewertung kann also aus unterschiedlichen Ursachen entstehen. Auch Berlin und Hamburg liegen mit Problem-Scores von 2,18 bzw. 2,05 im oberen Bereich, was vor allem durch das sehr hohe Pendleraufkommen (beide rund 393.000 Einpendler) gestützt wird, obwohl die Ø-Verspätungen vergleichsweise niedrig sind (4,70 Minuten Berlin, 4,44 Minuten Hamburg). Besonders auffällig ist der untere Teil der Top-10: Duisburg und Hamm zeigen sehr hohe Verspätungswerte (8,81 bzw. 9,93 Minuten), liegen aber beim Problem-Score nur bei 1,46 bzw. 1,45, weil die Einpendlerzahlen deutlich geringer sind (insbesondere Hamm mit 22.447). Hamm zeigt damit sehr deutlich, dass extreme Bahnprobleme allein nicht automatisch zu einem Spitzenplatz führen, wenn relativ wenige Pendler betroffen sind.

Erstellen Sie ein Streudiagramm (Scatterplot), das die Beziehung zwischen Einpendlerzahl (x-Achse) und durchschnittlicher Verspätung (y-Achse) visualisiert.

Zeichnen Sie horizontale und vertikale Linien beim jeweiligen Mittelwert ein, um 4 Quadranten zu bilden
Färben Sie die Punkte nach Quadrant
Beschriften Sie die Städte mit den höchsten Problem-Scores
Nutzen Sie eine logarithmische Skala für die x-Achse

Beschreiben und Interpretieren Sie die vier Quadranten:

Oben rechts: Viele Pendler + hohe Verspätung = ?
Oben links: Wenige Pendler + hohe Verspätung = ?
Unten rechts: Viele Pendler + niedrige Verspätung = ?
Unten links: Wenige Pendler + niedrige Verspätung = ?

Beantworten Sie dabei auch folgende Fragen:

Warum ist es sinnvoll die x-Achse zu logarithmieren?
Welche Städte liegen im kritischen Quadranten?
Was würden Sie der Deutschen Bahn empfehlen?

Beschreibung der Tabelle

Diese Tabelle beschreibt den Verkehr der Deutschen Bahn für den Monat November 2025. Sie zeigt, wie zuverlässig die verschiedenen Zugarten wirklich waren. Diese Grafik zeigt als Portfolio Analyse den Zusammenhang zwischen der Anzahl der Einpendler (X-Achse) und der durchschnittlichen Verspätung (Y-Achse) für verschiedene deutsche Städte.

Das Diagramm wird durch die zwei gestrichelten Linien, die jeweils den Durchschnittswert markieren, in vier Quadranten unterteilt, um die Städte in verschiedene Kategorien einzuordnen. Die rot eingefärbten Punkte im Bereich oben rechts, wie Köln oder München, kennzeichnen kritische Regionen, in denen extrem viele Pendler von überdurchschnittlich hohen Verspätungen betroffen sind. Im Gegensatz dazu zeigen die grünen Punkte unten rechts, wie Hamburg, Berlin oder Frankfurt am Main, dass Metropolen trotz sehr hoher Pendlerzahlen einen vergleichsweise pünktlichen Betrieb organisieren können. Die orangefarbenen Punkte oben links, wie Bonn oder Dortmund, weisen auf lokale Probleme hin, bei denen die Bahn unzuverlässig ist, obwohl dort zahlenmäßig weniger Menschen einpendeln als in den Metropolen. Durch die logarithmische Skalierung der X-Achse werden die enormen Größenunterschiede zwischen den Städten optisch ausgeglichen, sodass sowohl riesige Metropolen als auch kleinere Städte in einer einzigen Übersicht vergleichbar sind.

Beschreibung der Quadranten

Oben rechts: Dieser Quadrant ist der problematischste Bereich des Diagramms. Hier treffen extrem hohe Einpendlerzahlen auf überdurchschnittlich hohe Verspätungen. Die enorme Nachfrage trifft auf eine Infrastruktur, welche an ihrer Belastungsgrenze operiert. Jede Minute Verspätung multipliziert sich hier mit sehr vielen Betroffenen, was den wirtschaftlichen Schaden maximiert. Für Pendler bedeutet dies täglichen Stress und Unplanbarkeit auf den wichtigsten Routen.

Oben links: In diesem Bereich ist die Bahn unzuverlässig, obwohl das Passagieraufkommen vergleichsweise gering ist. Dies deutet oft auf strukturelle Vernachlässigung in ländlicheren Räumen hin, etwa eingleisige oder veraltete Strecken, bei denen schon kleine Störungen große Auswirkungen haben. Der Gesamtschaden für das System ist geringer als im kritischen Quadranten, für die betroffenen Anwohner ist die Situation jedoch stark einschränkend und ein Hindernis für den Umstieg auf die Bahn.

Unten rechts: Städte in diesem Quadranten sind trotz einer hohen Last durch viele Pendler in der Lage den Betrieb stabil und sogar überdurchschnittlich zu halten. Dies ist oft ein Indiz für gut ausgebaute und effiziente Betriebskonzepte. Diese Regionen beweisen, dass hohe Auslastung nicht zwangsläufig zu Chaos führen muss, und können als Vorbild für andere Städte benutzt werden.

Unten links: Wenige Pendler treffen auf einen pünktlichen Betrieb. Da die Auslastung gering ist, entstehen kaum Stauungen im Netz. Aus strategischer Sicht besteht hier aktuell der geringste Handlungsbedarf.

Warum ist es sinnvoll, die x-Achse zu logarithmieren?

Die Verteilung der Pendlerzahlen in Deutschland folgt keiner linearen Gleichverteilung. Es gibt wenige extreme Ausreißer nach oben (München oder Frankfurt) und viele an kleineren Landkreisen mit wenigen tausend Pendlern. Würde man eine normale lineare Skala verwenden, würden sich 95 % aller Datenpunkte am linken Rand des Diagramms zu einem unlesbaren Klumpen zusammenquetschen, während die wenigen Metropolen weit rechts isoliert stünden. Die Logarithmierung staucht die großen Werte und zieht die kleinen Werte auseinander. Erst dadurch wird das Muster für alle Kreise sichtbar und vergleichbar, und die Beziehung zwischen Größe und Verspätung lässt sich visuell besser interpretieren.

Welche Städte liegen im kritischen Quadranten?

Basierend auf der Datenanalyse finden sich im kritischen Quadranten fast immer die großen Wirtschaftszentren. Klassische Beispiele sind München, Frankfurt am Main, Hamburg, Stuttgart und Köln. Diese Städte fungieren als massive Jobmotoren, welche täglich eine Vielzahl an Menschen aus dem Umland anziehen. Gleichzeitig sind ihre Hauptbahnhöfe die zentralen Knotenpunkte im deutschen Schienennetz. Wenn es hier zu durcheinander kommt, führen schon kleinste Störungen zu einem Dominoeffekt, die die Verspätungsstatistiken nach oben treiben.

Was würden wir der Deutschen Bahn empfehlen?

Aus der Analyse leitet sich eine klare Priorisierung der Investitionen ab:

Ein Fokus auf die problematischen Städte und Gebiete. Investitionen sollten prioritär in die Städte des Quadranten Oben Rechts fließen. Eine geringe Reduzierung der Verspätung in München oder Frankfurt entlastet täglich Hunderttausende Menschen und spart viele Kosten. In einem ländlichen Kreis (Oben Links) hätte dieselbe Investition einen deutlich kleineren Gesamteffekt.

Bevor Geld man also viel Geld in die “Verschönerung” von Bahnhöfen steckt ( z.B Stuttgart 21), muss die Schieneninfrastruktur in den Engpass Regionen ausgebaut werden, da hier das System kollabiert. Davon hätten Menschen einen weitaus größeren Nutzen.

Der Vergleich – Auto vs. Bahn

Sie haben nun identifiziert, wo die Bahn Probleme hat: Städte im kritischen Quadranten (viele Pendler + hohe Verspätungen) brauchen dringend Verbesserungen. Aber bevor Sie Empfehlungen aussprechen können, müssen Sie eine zentrale Frage beantworten:

Lohnt sich die Bahn überhaupt – oder ist das Auto trotz Stau schneller?

Denn selbst wenn die Bahn unpünktlich ist, könnte sie immer noch schneller sein als das Auto im Berufsverkehr. Umgekehrt: Eine pünktliche Bahn bringt wenig, wenn das Auto trotzdem schneller ist. Erst der direkte Vergleich zeigt uns, wo die Bahn wirklich konkurrenzfähig ist – und wo nicht.

Methodische Herausforderungen

Für einen fairen Vergleich sollten Sie “Äpfel mit Äpfeln” vergleichen:

Beim Auto muss der Stau berücksichtigt werden (nicht nur die theoretische Fahrzeit)
Bei der Bahn muss die Verspätung berücksichtigt werden (nicht nur der Fahrplan)
Beide Routen müssen dieselben Start- und Endpunkte haben

Für die Auto-Fahrtzeiten nutzen Sie OSRM (Open Source Routing Machine), das auf OpenStreetMap-Daten basiert. OSRM berechnet echte Straßenrouten, keine Luftlinien.

Erklären Sie in eigenen Worten:

Warum ist OSRM-Routing für diesen Vergleich besser geeignet als eine einfache Berechnung nach der Formel Distanz / Geschwindigkeit?
Welche Faktoren müssen zusätzlich berücksichtigt werden, um einen realistischen Vergleich zu ermöglichen? Denken Sie an:
- Tageszeit
- Parkplatzsuche
- Fußweg zum Ziel
- Wartezeit und Umsteigen bei der Bahn

Für einen korrekten Vergleich zwischen Auto und Bahn ist die Nutzung der Open Source Routing Machine (OSRM) einer simplen Berechnung nach der Formel „Distanz geteilt durch Durchschnittsgeschwindigkeit“ weit überlegen, da sie die Realität der Straßeninfrastruktur abbildet.

Während eine einfache Formel oft von einer konstanten Geschwindigkeit (z.B 80kmH) und einer direkten Verbindung ausgeht, berechnet OSRM die tatsächliche Route auf Basis des realen Straßennetzes von OpenStreetMap. Dabei werden entscheidende Faktoren wie unterschiedliche Straßentypen (Autobahn, Landstraße, etc), physische Hindernisse wie Flüsse oder Bahnlinien sowie vorgeschriebene Geschwindigkeitsbegrenzungen und notwendige Abbiegevorgänge berücksichtigt. OSRM simuliert also eine echte Navigationsfahrt, anstatt nur eine theoretische Luftlinie oder eine idealisierte Strecke zu berechnen, was die ermittelte Fahrzeit deutlich präziser und realistischer macht.

Um jedoch einen wirklich fairen Vergleich zu ermöglichen, müssen über die reine Fahrzeit hinaus weitere Faktoren berücksichtigt werden welche für die Gesamtreisezeit eine wichtige Rolle spielen. Ein zentraler Aspekt ist die Tageszeit, da Pendlerverkehr typischerweise in den Hauptverkehrszeiten stattfindet, in denen die theoretische Fahrzeit durch Staus und zähfließenden Verkehr stark verlängert wird. Hinzu kommt am Zielort die oft unterschätzte Zeit für die Parkplatzsuche, die in Innenstädten oft ebenfalls Zeit in Anspruch nehmen kann und in reinen Fahrzeitberechnungen fehlt. Ebenso muss der Fußweg zum endgültigen Ziel mit einberechnet werden, da weder das Auto noch die Bahn direkt am Schreibtisch halten können. Diese Weg vom Parkhaus oder Bahnhof zum Arbeitsplatz kann die Bilanz deutlich verschieben. Schließlich ist bei der Bahn auch die Umstiegs und Wartezeit mit einzuberechnen: Anders als beim Auto, das sofort starten kann, ist der Bahnfahrer an Fahrpläne gebunden, muss Pufferzeiten für Anschlüsse einplanen und eventuelle Wartezeiten am Bahnsteig in Kauf nehmen, was die effektive Reisezeit verlängert.

Für die Top 10 Einpendler-Städte wurden typische Pendlerstrecken definiert (z.B. Dachau \(\rightarrow\) München, Neuss \(\rightarrow\) Düsseldorf). Die OSRM-Ergebnisse liegen bereits vor. Nutzen Sie für ihre Analyse den Datensatz fahrtzeit.

Erstellen Sie:

Eine Tabelle mit: Stadt, Strecke, Distanz (km), Auto-Fahrzeit (Hauptverkehrszeit), Bahn-Fahrzeit (real), Differenz
Berechnen Sie die jährliche Zeitersparnis bei 220 Arbeitstagen und 2x täglichem Pendeln.

Interpretieren Sie ihre Tabelle:

In wie vielen Fällen ist die Bahn schneller als das Auto?
Wie viele Stunden pro Jahr kann ein Pendler maximal sparen?
Gibt es Strecken, bei denen das Auto schneller ist? Woran könnte das liegen?

Stadt	Wichtigste Pendlerverbindung	Städteentfernung (km)	Auto HVZ (min)	Bahn real (min)	Δ min (Auto-Bahn)	Δ h/Jahr
Auto (HVZ) vs. Bahn (real): Zeitdifferenz und jährliche Wirkung auf den Top-Pendlerstrecken
Annahme: 220 Arbeitstage, Hin- und Rückfahrt
Berlin	Potsdam → Berlin	34,20	49,30	29,58	19,72	144,63
München	Dachau → München	19,10	40,20	26,08	14,12	103,53
Hannover	Celle → Hannover	42,20	54,40	40,80	13,60	99,76
Frankfurt	Darmstadt → Frankfurt	36,00	35,80	23,00	12,80	93,90
Düsseldorf	Neuss → Düsseldorf	12,10	27,10	17,10	10,00	73,35
Hamburg	Harburg → Hamburg	14,20	24,00	16,27	7,73	56,71
Stuttgart	Esslingen → Stuttgart	14,00	27,20	20,17	7,03	51,55
Nürnberg	Fürth → Nürnberg	10,40	18,90	12,85	6,05	44,37
Köln	Leverkusen → Köln	18,30	28,70	22,79	5,91	43,32
Essen	Mülheim → Essen	11,00	18,00	15,27	2,73	20,05
Ulm	Neu-Ulm → Ulm	3,70	8,10	8,89	−0,79	−5,77

Beschreibung der Tabelle

Die Tabelle vergleicht für mehrere Hauptpendelstrecken die Fahrtzeit mit dem Auto in der Hauptverkehrszeit (Auto HVZ) und mit der Bahn unter realistischen Bedingungen (Bahn real). Zusätzlich wird die Differenz Δ min (Auto − Bahn) angegeben: Positive Werte bedeuten, dass die Bahn schneller ist als das Auto, negative Werte bedeuten, dass das Auto schneller ist. Außerdem wird die jährliche Zeitwirkung als Δ h/Jahr berechnet (bei 220 Arbeitstagen und Hin- und Rückfahrt). In der Tabelle sind insgesamt 11 Strecken aufgeführt. In 10 von 11 Fällen ist die Bahn schneller, was sich daran zeigt, dass Δ min (Auto − Bahn) überwiegend positiv ist. Besonders große Zeitvorteile treten bei Berlin (Potsdam → Berlin) auf: Das Auto benötigt 49,30 Minuten, die Bahn 29,58 Minuten, was einer Differenz von etwa +19,72 Minuten zugunsten der Bahn entspricht. Daraus ergibt sich die höchste jährliche Zeitersparnis von rund 144,63 Stunden pro Jahr. Ebenfalls große Vorteile der Bahn zeigen sich in München (Dachau → München) mit 40,20 Minuten Auto gegenüber 26,08 Minuten Bahn (+14,12 Minuten, 103,53 h/Jahr) sowie in Hannover (Celle → Hannover) mit 54,40 Minuten Auto und 40,80 Minuten Bahn (+13,60 Minuten, 99,76 h/Jahr). Auch Frankfurt (Darmstadt → Frankfurt) weist einen deutlichen Bahn-Vorteil auf (35,80 vs. 23,00 Minuten, +12,80 Minuten, 93,90 h/Jahr). Im mittleren Bereich liegen Strecken wie Düsseldorf (Neuss → Düsseldorf) mit 27,10 vs. 17,10 Minuten (+10,00 Minuten, 73,35 h/Jahr) oder Hamburg (Harburg → Hamburg) mit 24,00 vs. 16,27 Minuten (+7,73 Minuten, 56,71 h/Jahr). Die einzige Ausnahme stellt Ulm (Neu-Ulm → Ulm) dar: Hier ist die Differenz negativ (Δ min = −0,79), weil das Auto mit 8,10 Minuten leicht schneller ist als die Bahn mit 8,89 Minuten. Entsprechend ist auch die jährliche Zeitwirkung negativ (−5,77 Stunden pro Jahr), was bedeutet, dass ein Pendler in diesem Fall über das Jahr hinweg Zeit verlieren würde, wenn er statt Auto Bahn fährt.

Interpretation der Tabelle

Die Ergebnisse zeigen insgesamt ein sehr klares Muster zugunsten der Bahn im realistischen Pendelvergleich. In fast allen betrachteten Relationen ist die Bahn schneller als das Auto in der Hauptverkehrszeit. Besonders auffällig ist dabei, dass sich bereits relativ moderate Zeitunterschiede pro Strecke über das Jahr hinweg zu sehr großen Zeitwirkungen aufsummieren. Beispielsweise führt ein Zeitvorteil von rund 20 Minuten pro Strecke, wie auf der Relation Potsdam → Berlin, über Hin- und Rückfahrt und 220 Arbeitstage zu einer jährlichen Einsparung von deutlich über 140 Stunden. Darüber hinaus zeigt die Tabelle, dass sich große jährliche Effekte nicht nur durch extrem hohe Zeitdifferenzen ergeben, sondern auch durch die Regelmäßigkeit des Pendelns. Schon Differenzen im Bereich von etwa 10 bis 15 Minuten pro Strecke führen zu jährlichen Zeitersparnissen von etwa 70 bis über 100 Stunden. Damit wird sichtbar, dass selbst scheinbar „kleine“ tägliche Zeitvorteile langfristig eine große Rolle für die Lebenszeit von Pendlern spielen können. Gleichzeitig zeigen die Daten auch, dass der Zeitvorteil der Bahn nicht auf allen Strecken gleich stark ausgeprägt ist. Besonders auf kürzeren Distanzen fällt der Unterschied teilweise deutlich kleiner aus. Das zeigt sich beispielsweise bei Essen oder Nürnberg, wo die Zeitdifferenzen nur wenige Minuten betragen. Hier spielt vermutlich eine größere Rolle, dass sich auf kurzen Strecken zusätzliche Systemzeiten wie Wege zum Bahnhof, Wartezeiten oder Umstiege stärker auf die Gesamtfahrzeit auswirken als auf längeren Relationen. Insgesamt unterstützt die Tabelle damit die grundlegende Pendlerperspektive, dass die Bahn vor allem auf klassischen Einpendlerstrecken in größere Städte zeitlich sehr konkurrenzfähig ist oder sogar deutliche Vorteile gegenüber dem Auto in der Hauptverkehrszeit aufweist. Gleichzeitig zeigt sie aber auch, dass dieser Vorteil nicht universell gilt, sondern von Streckenlänge, Verkehrsstruktur und Zugangsinfrastruktur abhängt.

In wie vielen Fällen ist die Bahn schneller als das Auto?

In 10 von 11 Fällen ist die Bahn schneller als das Auto. Das erkennt man daran, dass in 10 Fällen die Differenz Δ min (Auto − Bahn) positiv ist. Nur bei der Strecke Neu-Ulm → Ulm ist die Differenz negativ.

Wie viele Stunden pro Jahr kann ein Pendler maximal sparen?e

Die maximale Zeitersparnis beträgt rund 144,63 Stunden pro Jahr. Dieser Wert tritt bei der Strecke Potsdam → Berlin auf.

Gibt es Strecken, bei denen das Auto schneller ist? Woran könnte das liegen?e

Ja, es gibt eine Strecke, bei der das Auto schneller ist: Neu-Ulm → Ulm. Hier ist das Auto etwa 0,79 Minuten schneller als die Bahn. Über das Jahr ergibt sich daraus ein Zeitnachteil von etwa −5,77 Stunden bei Nutzung der Bahn. Eine mögliche Erklärung liegt in der sehr kurzen Distanz von nur etwa 3,7 km. Auf sehr kurzen Strecken können zusätzliche Zeiten im Bahnverkehr – etwa Wege zum Bahnhof, Wartezeiten oder Umstiege – stärker ins Gewicht fallen. Gleichzeitig kann eine direkte Straßenverbindung dazu führen, dass das Auto auf solchen kurzen Relationen einen leichten Zeitvorteil hat.

Da Sie alle in Ulm studieren und eventuell aus dem Ulmer Umland einpendeln, sollten Sie die 5 wichtigsten Pendlerrouten nach Ulm näher analysieren. Stellen Sie in einem Dumbbell-Chart (oder Lollipop-Chart) die Unterschiede zwischen Auto- und Bahnzeiten visuell dar. Nutzen Sie für ihre Analyse den Datensatz ulm_routen.

Die 5 wichtigsten Pendlerrouten nach Ulm sind:

Neu-Ulm \(\rightarrow\) Ulm
Blaustein \(\rightarrow\) Ulm
Ehingen \(\rightarrow\) Ulm
Laupheim \(\rightarrow\) Ulm
Langenau \(\rightarrow\) Ulm

Markieren Sie, welche Orte keinen Bahnhof haben.

Beschreiben und interpretieren Sie ihre Grafik. Welche Besonderheiten zeigen die ländlichen Strecken?

Hinweis: Nutzen Sie geom_segment() und geom_point() für ihr Dumbbell-Chart oder Lollipop-Chart.

Beschreibung der Grafik

Die Grafik zeigt die Top 5 Pendlerrouten nach Ulm und vergleicht für jeden Startort die Reisezeit mit dem Auto in der Hauptverkehrszeit (HVZ) und der Bahn unter realistischen Bedingungen. Die Reisezeit ist auf der x-Achse in Minuten dargestellt, die Startorte auf der y-Achse (Neu-Ulm, Blaustein, Ehingen (Donau), Laupheim, Langenau). Für jede Route sind zwei farbige Punkte eingezeichnet: Auto (HVZ) in weinrot und Bahn (real) in hellblau. Die Linie zwischen den Punkten markiert die Differenz zwischen beiden Verkehrsmitteln; der weiter links liegende Punkt steht jeweils für die schnellere Reisezeit. Zusätzlich zeigt die Legende „Startort“, ob der Startort einen Bahnhof hat (Symbol „+“) oder keinen Bahnhof (Symbol „×“). Auffällig ist, dass Blaustein als einziger Startort mit dem Symbol „×“ markiert ist und damit keinen Bahnhof hat. Die übrigen Orte sind als „mit Bahnhof“ gekennzeichnet. Bei den Reisezeiten liegen Neu-Ulm und Blaustein im unteren Bereich (ungefähr einstellige bis niedrige zweistellige Minutenwerte), während Ehingen (Donau), Laupheim und Langenau deutlich höhere Reisezeiten zeigen. Besonders bei Ehingen (Donau) ist eine große Differenz sichtbar: der Bahnwert liegt ungefähr bei 25–26 Minuten, während das Auto in der HVZ bei rund 34–35 Minuten liegt. Auch bei Langenau ist der Abstand deutlich: die Bahn liegt ungefähr bei 15 Minuten, das Auto bei etwa 25–26 Minuten. Bei Laupheim sind beide Werte näher beieinander (ca. 22–25 Minuten). Neu-Ulm liegt ganz links und zeigt nur eine sehr kleine Differenz zwischen Auto und Bahn (beide etwa im Bereich 7–9 Minuten). Bei Blaustein liegen beide Punkte ebenfalls relativ nah beieinander (ungefähr 11–13 Minuten), wobei der Ort explizit als „kein Bahnhof“ gekennzeichnet ist.

Interpretation der Grafik

Insgesamt zeigt die Grafik, dass die Bahn (real) bei mehreren der dargestellten Strecken zeitlich konkurrenzfähig oder sogar klar schneller als das Auto in der HVZ ist. Besonders deutlich wird das bei den etwas längeren Relationen: Ehingen (Donau) und Langenau weisen große Zeitvorteile der Bahn auf. Bei Ehingen (Donau) liegt die Bahn bei etwa 25–26 Minuten, während das Auto bei ungefähr 34–35 Minuten liegt – die Bahn ist hier also sichtbar um rund 8–10 Minuten schneller. Ein ähnliches Muster zeigt Langenau, wo die Bahn bei etwa 15 Minuten liegt und das Auto bei etwa 25–26 Minuten, also ein Vorteil der Bahn von grob 10–11 Minuten. Das deutet darauf hin, dass auf diesen Pendelstrecken Stau- und HVZ-Effekte das Auto deutlich ausbremsen, während die Bahn relativ stabil bleibt und ihren Geschwindigkeitsvorteil ausspielen kann. Bei Neu-Ulm ist der Unterschied sehr klein: Auto und Bahn liegen beide im Bereich von ungefähr 7–9 Minuten. Das passt zu der typischen Logik kurzer Distanzen: Hier ist die Strecke so kurz, dass ein grundsätzliches „Geschwindigkeitsargument“ kaum greift und beide Verkehrsmittel nahe beieinanderliegen. Laupheim liegt im mittleren Bereich (ca. 22–25 Minuten) und zeigt ebenfalls nur einen moderaten Unterschied – die Bahn ist zwar tendenziell links vom Auto, aber der Vorteil fällt deutlich kleiner aus als bei Ehingen oder Langenau. Eine besondere Rolle spielt Blaustein, weil der Startort in der Legende als „kein Bahnhof“ markiert ist. Das ist wichtig für die Einordnung der dargestellten Bahnzeit: Wenn es in Blaustein keinen Bahnhof gibt, ist es sehr plausibel, dass die „Bahn (real)“-Reisezeit nicht ausschließlich eine reine Zugfahrt ist, sondern einen Zubringeranteil enthält (z.B. Bus/ÖPNV, Fahrrad oder kurze Autofahrt zu einer Nachbarstation). Dadurch ist die Bahnzeit hier nicht direkt mit „Zug fährt ab Blaustein“ gleichzusetzen, sondern eher als ÖPNV-Gesamtreisezeit bis Ulm zu interpretieren. Genau das ist eine typische Besonderheit ländlicher oder kleinstädtischer Strecken: Der Zugang zum Schienennetz ist nicht immer direkt, und die Reisezeit hängt dann stark von Zubringerwegen, Umstiegen und Taktung ab. Dass Auto und Bahn bei Blaustein dennoch relativ nah beieinander liegen (ungefähr 11–13 Minuten), kann bedeuten, dass die Anbindung nach Ulm trotz fehlendem Bahnhof noch vergleichsweise gut funktioniert – oder dass die Strecke so kurz ist, dass die Zubringerzeit die Bahn nicht stark „bestraft“.

Welche Besonderheiten zeigen die ländlichen Strecken?

Die Grafik legt zwei zentrale Besonderheiten ländlicher bzw. stadtrandnaher Pendelrelationen nahe. Erstens ist die Infrastruktur-Anbindung nicht überall gleich: Blaustein wird explizit als Ort ohne Bahnhof markiert. Das deutet darauf hin, dass Bahnpendeln dort sehr wahrscheinlich eine Kombination aus ÖPNV-Zubringer und Zug (oder generell eine multimodale Reisekette) erfordert, wodurch sich Reisezeiten nicht nur aus der Zugfahrt selbst, sondern auch aus Zugang, Umstieg und Takt ergeben. Zweitens zeigen die weiter entfernten Orte, dass ländliche Pendelwege stark davon profitieren können, wenn eine gute Schienenanbindung existiert: Bei Ehingen (Donau) und Langenau ist die Bahn im Vergleich zur HVZ-Autofahrt klar schneller (jeweils grob 8–11 Minuten Vorteil). Damit wird deutlich, dass ländliche Strecken in zwei Richtungen „kippen“ können: Entweder sind sie bei guter Schienenanbindung sehr attraktiv, oder sie verlieren bei fehlender direkter Bahnhofs-Anbindung an Attraktivität, weil Zubringer- und Umsteigezeiten eine größere Rolle spielen.

Die volkswirtschaftlichen Kosten

Verspätungen kosten nicht nur Nerven, sie haben einen realen volkswirtschaftlichen Preis. Jede Minute, die ein Pendler im verspäteten Zug wartet, ist verlorene Arbeitszeit.

Um diese Kosten etwas besser zu quantifizieren sollten Sie sich den Medianlohn der jeweiligen Städte herunterladen und näher analysieren.

Berechnen Sie die volkswirtschaftlichen Kosten der Bahnverspätungen für die 11 Städte.

Datensätze:

staedte_basis (aus Aufgabe 4) – enthält Einpendler, Medianlohn und Staudaten
Ergebnis aus Aufgabe 9: die gewichtete durchschnittliche Verspätung pro Stadt (in Minuten)

Nutzen Sie die folgenden Annahmen:

Annahmen:

220 Arbeitstage pro Jahr
2 Fahrten pro Tag (Hin + Zurück)
Ca. 8,4% der Pendler nutzen die Bahn (nationaler Durchschnitt laut MiD 2023 Kurzbericht)

Berechnen Sie für jede Stadt:

Anzahl der Bahnpendler (Einpendler × 8,4%)
Verspätungsstunden pro Jahr (Verspätung × 220 × 2 / 60)
Kosten pro Pendler (Verspätungsstunden × Stundenlohn)
Gesamtkosten der Stadt

Erstellen Sie auf Basis ihrer Berechnung eine Tabelle, welche die Anzahl der Bahnpendler, die Verspätungsstunden pro Jahr, die Kosten pro Pendler und die Gesamtkosten der Stadt anschaulich darstellt.

Beschreiben und interpretieren Sie ihre Tabelle. Gehen Sie dabei auch auf die Gesamtkosten der 11 Städte ein. Erklären Sie außerdem, warum der Medianlohn für diese Berechnung besser geeignet ist als der Durchschnittslohn.

Hinweis: Für die Umrechnung auf Stundenlohn: Monatsentgelt / 160 (bei 40h/Woche).

Stadt	Bahnpendler	Verspätung pro Jahr (h)	Kosten pro Pendler (EUR/Jahr)	Gesamtkosten Stadt (EUR/Jahr)
Volkswirtschaftliche Kosten der Bahnverspätungen
11 Städte (220 Arbeitstage, Hin- und Rückfahrt, 8,4 % Bahnanteil; Ø-Verspätung gewichtet nach Halten)
München	38.274	43,9	1.328,78	50.857.934
Frankfurt	34.092	37,7	1.111,06	37.878.234
Hamburg	33.008	32,6	922,13	30.437.681
Berlin	32.955	34,5	895,47	29.510.477
Köln	25.780	57,9	1.590,62	41.006.294
Düsseldorf	23.914	53,8	1.519,95	36.348.812
Stuttgart	23.053	38,9	1.138,56	26.247.450
Nürnberg	13.902	37,1	980,73	13.633.810
Essen	11.869	54,6	1.361,04	16.153.949
Hannover	11.586	43,8	1.137,85	13.182.690
Ulm	5.741	29,5	795,32	4.565.660
Annahmen: 220 Arbeitstage, 2 Fahrten/Tag, 8,4 % Bahnanteil
Gesamtkosten aller 11 Städte: 299,82 Mio EUR pro Jahr

Beschreibung der Tabelle

Die Tabelle stellt die volkswirtschaftlichen Kosten von Bahnverspätungen für elf deutsche Städte dar. Für jede Stadt werden vier zentrale Größen ausgewiesen: die Anzahl der Bahnpendler, die jährlichen Verspätungsstunden pro Pendler, die daraus resultierenden Kosten pro Pendler und Jahr sowie die aggregierten Gesamtkosten pro Stadt. Die Zahl der Bahnpendler ergibt sich aus der jeweiligen Zahl der Einpendler, multipliziert mit einem Bahnanteil von 8,4 %, der dem bundesweiten Durchschnitt entspricht. Die jährlichen Verspätungsstunden pro Pendler basieren auf der gewichteten durchschnittlichen Verspätung pro Halt, hochgerechnet auf 220 Arbeitstage und zwei Fahrten pro Tag. Die monetäre Bewertung erfolgt über einen stundenbasierten Medianlohn, der aus dem regionalen Medianmonatsentgelt abgeleitet wurde. Die Anzahl der Bahnpendler variiert deutlich zwischen den Städten. Sie reicht von 5.741 Bahnpendlern in Ulm bis zu 38.274 in München. Weitere Städte mit hohen Bahnpendlerzahlen sind Frankfurt (34.092), Hamburg (33.008) und Berlin (32.955). Am unteren Ende liegen neben Ulm auch Hannover (11.586) und Essen (11.869). Auch die jährlichen Verspätungsstunden pro Pendler unterscheiden sich stark. Sie reichen von 29,5 Stunden pro Jahr in Ulm bis zu 57,9 Stunden in Köln. Ebenfalls hohe Werte weisen Essen (54,6 Stunden) und Düsseldorf (53,8 Stunden) auf, während Städte wie Hamburg (32,6 Stunden) oder Berlin (34,5 Stunden) vergleichsweise niedrigere Verspätungszeiten aufweisen. Die Kosten pro Pendler spiegeln diese Unterschiede wider und reichen von 795,32 € pro Jahr in Ulm bis zu 1.590,62 € in Köln. Die Gesamtkosten pro Stadt ergeben sich aus der Multiplikation der Kosten pro Pendler mit der Zahl der Bahnpendler. Sie summieren sich über alle elf Städte auf 299,82 Mio. € pro Jahr.

Interpretation der Tabelle

Die Tabelle zeigt, dass Bahnverspätungen in allen betrachteten Städten relevante volkswirtschaftliche Kosten verursachen, deren Höhe jedoch stark von der Kombination aus Bahnpendlerzahl, Verspätungsdauer und Lohnniveau abhängt. Die höchsten Gesamtkosten entstehen in Städten, in denen mehrere dieser Faktoren gleichzeitig hoch sind. Mit 50,86 Mio. € pro Jahr weist München die höchsten Gesamtkosten aller elf Städte auf. Obwohl die Verspätungsstunden pro Pendler mit 43,9 Stunden nicht den Spitzenwert darstellen, führen die höchste Zahl an Bahnpendlern (38.274) und ein vergleichsweise hohes Lohnniveau zu den höchsten absoluten Kosten. Ähnlich verhält es sich in Frankfurt, wo 37,88 Mio. € pro Jahr an Kosten entstehen. Frankfurt kombiniert 34.092 Bahnpendler mit 37,7 Verspätungsstunden und relativ hohen Kosten pro Pendler (1.111,06 €). Auffällig ist, dass Städte mit den höchsten Verspätungsstunden pro Pendler nicht zwangsläufig die höchsten Gesamtkosten verursachen. Köln weist mit 57,9 Stunden den höchsten Zeitverlust pro Pendler auf und hat mit 1.590,62 € auch die höchsten Kosten pro Pendler. Die Gesamtkosten von 41,01 Mio. € liegen jedoch unter denen Münchens, da Köln mit 25.780 Bahnpendlern deutlich weniger Bahnpendler aufweist. Ein ähnliches Muster zeigt sich in Düsseldorf und Essen, die ebenfalls sehr hohe Verspätungsstunden pro Pendler haben, aber geringere Gesamtkosten als die größten Metropolen. Im unteren Bereich der Tabelle liegen Städte wie Ulm, Hannover und Nürnberg. Ulm verursacht mit 4,57 Mio. € pro Jahr die geringsten Gesamtkosten, was sich aus der Kombination von wenigen Bahnpendlern (5.741), niedrigen Verspätungsstunden (29,5) und geringen Kosten pro Pendler ergibt. Nürnberg und Hannover liegen mit 13,63 Mio. € bzw. 13,18 Mio. € im Mittelfeld, obwohl ihre Verspätungszeiten pro Pendler im Vergleich zu anderen Städten nicht besonders niedrig sind. Insgesamt zeigt die Tabelle, dass sich die volkswirtschaftlichen Kosten der Bahnverspätungen über alle elf Städte auf knapp 300 Mio. € pro Jahr summieren. Die Ergebnisse verdeutlichen, dass nicht einzelne Extremwerte, sondern vor allem die Kombination aus Pendleraufkommen und Lohnniveau entscheidend für die Höhe der Gesamtkosten ist. Grund der Verwendung des Medianlohns

Warum ist der Medianlohn für diese Berechnung besser geeignet als der Durchschnittslohn?

Für die Berechnung der volkswirtschaftlichen Kosten ist der Medianlohn besser geeignet als der Durchschnittslohn, da die Lohnverteilung in deutschen Städten stark rechtsschief ist. Insbesondere in großen Metropolen wie München, Frankfurt oder Hamburg gibt es eine vergleichsweise kleine Gruppe sehr hoher Einkommen, die den Durchschnittslohn deutlich nach oben verzerren würden. Dies würde zu einer Überschätzung der Zeitkosten führen. Der Medianlohn bildet hingegen den Lohn einer „typischen“ beschäftigten Person ab, da er genau den Wert angibt, bei dem die Hälfte der Beschäftigten weniger und die andere Hälfte mehr verdient. Für eine Berechnung, die den durchschnittlichen Zeitverlust von Pendlern bewerten soll, liefert der Median daher eine realistischere und robustere Schätzung. Dadurch werden die berechneten Kosten weniger anfällig für Ausreißer und besser vergleichbar zwischen Städten mit unterschiedlichen Einkommensstrukturen.

Setzen Sie die Kosten der Bahn (aus Aufgabe 14) den Kosten des Autos gegenüber. Vergleichen Sie diese in einer Szenario-Analyse mittels eines gestapelten Balkendiagramms. Nutzen Sie für ihre Analysen den Datensatz staedte_basis.

Berechnen Sie zuerst die Kosten des Autostaus pro Stadt:

Anzahl der Autopendler (Einpendler × 91,6%)
Staukosten pro Autopendler (Staustunden × Stundenlohn)
Gesamtkosten der Stadt durch Autostau

Führen Sie anschließend einen Szenario-Vergleich durch: Was passiert, wenn der Bahnanteil von 8,4% auf 20% steigt?

Berechnen Sie die Gesamtkosten (Bahn + Auto) für beide Szenarien
Annahme: Weniger Autos = weniger Stau (z.B. 20% weniger Stauzeit pro Autopendler)

Erstellen Sie ein gestapeltes Balkendiagramm nach Szenario. Beschreiben und intepretieren Sie ihre Grafik. Gehen Sie insbesondere auf die folgenden Fragen ein:

Wie verteilen sich die Kosten zwischen Bahn und Auto im Status quo?
Welches Verkehrsmittel verursacht den größeren volkswirtschaftlichen Schaden?
Was ist die Nettoersparnis bei 20% Bahnanteil?

Beschreibung der Grafik

Die Grafik zeigt die volkswirtschaftlichen Gesamtkosten des Pendelverkehrs für elf deutsche Städte in Form eines horizontalen, gestapelten Balkendiagramms. Die Kosten sind in Millionen Euro pro Jahr angegeben, die Städte werden einzeln auf der y-Achse dargestellt. Die Grafik ist in zwei Szenarien unterteilt, die unterschiedliche Anteile von Auto- und Bahnpendlern abbilden. Im ersten Szenario wird der Status quo mit einem Anteil von 91,6 % Autofahrern und 8,4 % Bahnfahrern dargestellt. Die Balken setzen sich aus zwei Komponenten zusammen: Die Bahnverspätungskosten werden durch einen hellblauen Balken dargestellt, während die Kosten des Autoverkehrs infolge von Stauzeiten in Rot ausgewiesen sind. Die Gesamtlänge des Balkens entspricht den gesamten volkswirtschaftlichen Pendelkosten der jeweiligen Stadt. Das zweite Szenario zeigt eine Situation mit einem erhöhten Bahnanteil von 20 % und einem reduzierten Autoverkehrsanteil von 80 %, verbunden mit der Annahme einer um 20 % geringeren Stauzeit pro Autopendler. In diesem Fall bestehen die Balken aus mehreren farblich differenzierten Teilen. Der hellblaue Anteil repräsentiert weiterhin die Bahnkosten des Status quo, während ein zusätzlicher dunkelblauer Balken die durch den höheren Bahnanteil entstehenden Mehrkosten abbildet. Die Autostaukosten werden erneut in Rot dargestellt, fallen jedoch deutlich geringer aus als im Status quo. Ergänzend wird der ursprüngliche Autokostenanteil aus dem ersten Szenario transparent hinterlegt, um die Veränderung der Staukosten sichtbar zu machen. Am unteren Rand der Grafik ist zudem die Nettoersparnis über alle elf Städte angegeben.

Interpretation der Grafik

Die Grafik verdeutlicht, dass die volkswirtschaftlichen Kosten des Pendelverkehrs im Status quo in allen elf betrachteten Städten in erster Linie durch den Autoverkehr verursacht werden. In jeder Stadt dominiert der Autokostenanteil die Gesamtkosten deutlich, während die Bahnverspätungskosten nur einen vergleichsweise kleinen Teil ausmachen. Dieses Muster zeigt sich unabhängig von der Stadtgröße und ist sowohl in großen Metropolen als auch in kleineren Städten erkennbar. Besonders hohe Gesamtkosten treten in den großen Pendlerzentren auf. München weist im Status quo mit knapp 780 Mio. EUR pro Jahr die höchsten Pendelkosten auf, gefolgt von Frankfurt mit rund 650 Mio. EUR, Berlin mit knapp 590 Mio. EUR und Köln mit etwa 560 Mio. EUR. In diesen Städten entfallen jeweils mehrere Hundert Millionen Euro auf Autostaukosten, während die Bahnkosten im Bereich von wenigen Dutzend Millionen Euro liegen. In kleineren Städten wie Ulm, Nürnberg oder Hannover sind die absoluten Kosten deutlich geringer, die Kostenstruktur bleibt jedoch ähnlich. Im Szenario mit einem erhöhten Bahnanteil von 20 % verschiebt sich die Zusammensetzung der Kosten in allen Städten. Die Bahnkosten steigen sichtbar an, gleichzeitig gehen die Autostaukosten aufgrund der angenommenen Reduktion der Stauzeit um 20 % pro Autopendler deutlich zurück. Der Vergleich der Balken zeigt, dass der Rückgang der Autokosten in jeder Stadt größer ausfällt als der Anstieg der Bahnkosten. Dadurch sinken die gesamten Pendelkosten in allen elf Städten. Die größten absoluten Einsparungen entstehen erneut in den großen Pendlerstädten. In München reduzieren sich die Gesamtkosten um rund 150 Mio. EUR pro Jahr, in Frankfurt um etwa 130 Mio. EUR, in Berlin um rund 120 Mio. EUR und in Köln um etwa 100 Mio. EUR. Auch in mittelgroßen Städten wie Hamburg, Düsseldorf und Stuttgart ergeben sich Einsparungen in der Größenordnung von mehreren Zehn bis über hundert Millionen Euro. Über alle elf Städte hinweg summieren sich diese Effekte zu einer deutlichen gesamtwirtschaftlichen Entlastung.

Wie verteilen sich die Kosten zwischen Bahn und Auto im Status quo?

Im Status quo entfallen in allen elf Städten der überwiegende Teil der volkswirtschaftlichen Kosten auf den Autoverkehr. Der Bahnanteil liegt mit 8,4 % systematisch deutlich unter dem Autokostenanteil. In absoluten Zahlen bedeutet dies beispielsweise, dass in München rund 50 Mio. EUR auf Bahnverspätungen entfallen, während die Autostaukosten über 700 Mio. EUR betragen. Ähnliche Verhältnisse zeigen sich in Frankfurt, Berlin und Köln, wo die Autokosten jeweils ein Vielfaches der Bahnkosten ausmachen.

Welches Verkehrsmittel verursacht den größeren volkswirtschaftlichen Schaden?

Der Autoverkehr verursacht in allen betrachteten Städten den deutlich größeren volkswirtschaftlichen Schaden. Die Staukosten liegen in jeder Stadt um ein Vielfaches über den Bahnverspätungskosten. Selbst dort, wo Bahnverspätungen relativ hoch sind, bleiben die gesamtwirtschaftlichen Kosten der Bahn klar unter denen des Autoverkehrs. Der zentrale Kostentreiber des Pendelverkehrs ist damit eindeutig der Autostau.

Was ist die Nettoersparnis bei 20% Bahnanteil?

Bei einem Anstieg des Bahnanteils auf 20 % ergibt sich über alle elf Städte hinweg eine Nettoersparnis von 882,87 Mio. EUR pro Jahr. Diese Einsparung entsteht, weil die Reduktion der Autostaukosten den gleichzeitigen Anstieg der Bahnverspätungskosten deutlich übersteigt. Die größten absoluten Einsparungen entfallen dabei auf die großen Pendlerstädte München, Frankfurt, Berlin und Köln, in denen der Rückgang der Staukosten besonders stark ausfällt.

Politikempfehlung – Ihre Synthese

Sie haben nun umfangreiche Analysen durchgeführt und viele Erkenntnisse über die Bahn gewonnen. Jetzt ist es Zeit, diese zu einer kohärenten Empfehlung zusammenzufügen.

Szenario: Sie sind Berater:in des Bundesministeriums für Digitales und Verkehr. Die Ministerin bittet Sie um eine evidenzbasierte Politikempfehlung zur Verbesserung des Pendlerverkehrs in Deutschland.

Formulieren Sie eine Politikempfehlung für das Bundesministerium für Digitales und Verkehr.

Schreiben Sie eine Executive Summary (max. 5 Sätze). Fassen Sie hierbei die wichtigsten Erkenntnisse aus ihrem Projekt zusammen. Was ist die zentrale Botschaft?

Formulieren Sie 3 konkrete Empfehlungen. Jede muss enthalten:

Ein konkretes Ziel (Was soll erreicht werden?)
Eine messbare Maßnahme (Wie wird es umgesetzt?)
Eine Begründung mit Zahlen aus Ihrer Analyse
Nennen Sie zwei Limitationen Ihrer Datengrundlage
Was würden Sie mit zusätzlichen Daten noch untersuchen?

Executive Summary

Die vorliegende Analyse des Pendlerverkehrs in Deutschland untersucht zeitliche, betriebliche und volkswirtschaftliche Aspekte des Verkehrsmodus Bahn im Vergleich zum Pkw. Die Ergebnisse zeigen, dass die Bahn auf den meisten untersuchten Pendelrelationen selbst unter Berücksichtigung realer Verspätungen kürzere Reisezeiten aufweist als der motorisierte Individualverkehr in der Hauptverkehrszeit. Gleichzeitig offenbaren die Auswertungen eine starke räumliche Konzentration betrieblicher Probleme auf wenige hochbelastete Pendlerregionen, während der Nahverkehr insgesamt eine vergleichsweise stabile Betriebsqualität zeigt. Szenarien mit einem erhöhten Bahnanteil deuten darauf hin, dass eine Verkehrsverlagerung vom Pkw zur Bahn mit einer Reduktion der gesamtwirtschaftlichen Belastung einhergeht, da stauinduzierte Kosten deutlich zurückgehen. Zentraler Befund der Arbeit ist, dass gezielte Verbesserungen der Zuverlässigkeit und Kapazität der Bahn in stark frequentierten Pendlerkorridoren eine effektive Strategie zur Steigerung der Effizienz des Pendlerverkehrs darstellen.

Empfehlung 1: Engpassorientierte Verbesserung der Betriebsqualität in hochbelasteten Pendlerknoten

Ziel

Reduktion von Verspätungen für eine möglichst große Zahl an Pendlern durch gezielte Maßnahmen an stark belasteten Bahnknoten.

Messbare Maßnahme

Priorisierung von Infrastruktur- und Betriebsmaßnahmen in Pendlerregionen mit hoher Einpendlerzahl und überdurchschnittlicher Verspätung. Der Erfolg wird anhand einer messbaren Senkung der durchschnittlichen Verspätung (in Minuten) sowie der Ausfallquote an diesen Standorten überprüft.

Begründung mit Zahlen aus der Analyse

Die Analyse zeigt eine starke räumliche Konzentration der Probleme: München weist mit 455.645 Einpendlern die höchste Pendlerzahl auf und gleichzeitig eine durchschnittliche Verspätung von 6,07 Minuten, was zu einem hohen Problem-Score von 3,48 führt. Köln folgt mit 306.905 Einpendlern und einer noch höheren durchschnittlichen Verspätung von 7,92 Minuten (Problem-Score 3,05). Verbesserungen an solchen Knoten wirken auf Hunderttausende Pendler täglich und sind damit deutlich effizienter als gleich große Investitionen in Regionen mit geringem Pendleraufkommen.

Limitationen der Datengrundlage

Erstens basieren die Verspätungskennzahlen auf Durchschnittswerten, sodass extreme Einzelereignisse oder besonders problematische Tage nur eingeschränkt sichtbar werden. Zweitens wird die tatsächliche Ursache der Verspätungen (z. B. Infrastruktur, Personal, externe Störungen) nicht differenziert abgebildet.

Zusätzlicher Analysebedarf

Mit zusätzlichen Daten ließe sich untersuchen, welche konkreten Ursachen (z. B. Signaltechnik, Gleisbelegung, Zugdichte) die Verspätungen an einzelnen Knoten dominieren, um Maßnahmen noch zielgenauer ausrichten zu können.

Empfehlung 2: Stärkung des Nahverkehrs in den Hauptverkehrszeiten

Ziel

Erhöhung der Zuverlässigkeit des Bahnpendelverkehrs zu den Zeiten mit der höchsten Nachfrage.

Messbare Maßnahme

Gezielte Ausweitung von Kapazitäten und betrieblichen Puffern im Nahverkehr werktags während der morgendlichen und abendlichen Hauptverkehrszeiten. Als Indikator dient die durchschnittliche Verspätung im Zeitfenster der Pendlerstoßzeiten.

Begründung mit Zahlen aus der AnalyseLimitationen der Datengrundlage

Erstens bildet die Analyse nur durchschnittliche Verspätungen ab und berücksichtigt nicht explizit verpasste Anschlüsse oder subjektive Belastungen für Pendler. Zweitens werden Kapazitätsauslastungen der Züge nicht direkt gemessen.

Zusätzlicher Analysebedarf

Mit zusätzlichen Daten zur Auslastung einzelner Züge ließe sich untersuchen, wie stark Verspätungen mit Überfüllung korrelieren und ob Kapazitätserweiterungen gezielt an einzelnen Linien besonders wirksam wären.

Empfehlung 3: Förderung des Umstiegs vom Auto auf die Bahn auf zeitlich vorteilhaften Relationen

Ziel

Erhöhung des Bahnanteils im Pendlerverkehr und damit Reduktion stauinduzierter Zeit- und Kostenverluste.

Messbare Maßnahme

Fokussierung auf Pendelrelationen, auf denen die Bahn nachweislich schneller ist als das Auto, und gezielte Verbesserung der Angebotsqualität auf diesen Strecken. Der Erfolg wird über den Anstieg des Bahnanteils gegenüber dem Status quo gemessen.

Begründung mit Zahlen aus der AnalyseLimitationen der Datengrundlage

Erstens basiert der Zeitvergleich auf typischen Pendelrelationen und kann individuelle Routenabweichungen nicht vollständig erfassen. Zweitens werden Verhaltensänderungen der Pendler nur implizit angenommen, nicht empirisch gemessen.

Zusätzlicher Analysebedarf

Mit zusätzlichen Daten zum tatsächlichen Mobilitätsverhalten ließe sich untersuchen, wie stark Pendler auf verbesserte Bahnangebote reagieren und ab welchem Zeit- oder Zuverlässigkeitsvorteil ein nachhaltiger Umstieg erfolgt.

Zusatzaufgaben (optional)

Bisher haben Sie zwei Dimensionen betrachtet: Zeit (Bahn ist schneller) und Geld (Verspätungen kosten). Aber es gibt einen dritten, oft vergessenen Aspekt: die Umwelt.

Das Auto ist nicht nur langsamer und teurer; es ist auch ein Klimakiller. Ein durchschnittlicher PKW emittiert z.B. etwa 150 g CO2 pro Personenkilometer.

Recherchieren Sie die CO2-Emissionsfaktoren und das Mobilitätsverhalten:

Erstellen Sie eine kleine Tabelle in der Sie die CO2-Emissionen (in g/Personenkilometer) für folgende Verkehrsmittel auflisten:
- PKW (Durchschnitt)
- PKW (Elektro, deutscher Strommix)
- ICE/IC (Fernverkehr)
- RE/RB (Nahverkehr)
- S-Bahn
Berechnen Sie einen gewichteten Durchschnitt für die Bahn, wenn 70% der Pendler Nahverkehr und 30% Fernverkehr nutzen.
Um wie viel Prozent sind die Bahn-Emissionen niedriger als beim Auto?

Hinweis: Nutzen Sie Daten vom Umweltbundesamt oder dem DB Umweltbericht.

Verkehrsmittel	CO₂e (g/Pkm)
CO₂-Emissionen im Personenverkehr
Gramm CO₂e pro Personenkilometer (inkl. gewichteter Bahn-Mix)
PKW (Durchschnitt)	164,0
PKW (Elektro, deutscher Strommix)	70,0
ICE/IC (Fernverkehr)	26,0
RE/RB (Nahverkehr)	44,0
S-Bahn (Proxy: Straßen-/Stadt-/U-Bahn)	42,0
Bahn (gewichtet: 70% Nah / 30% Fern)	38,6
Quelle: Umweltbundesamt (UBA) – Verkehrsmittelvergleich Personenverkehr, Bezugsjahr 2024. Bahn-Mix (70% Nahverkehr / 30% Fernverkehr): eigene Berechnung auf Basis der UBA-Werte.

Die folgende Tabelle basiert auf offiziellen Emissionsfaktoren des Umweltbundesamts (UBA) aus dem Verkehrsartenvergleich „Vergleich der durchschnittlichen Emissionen einzelner Verkehrsmittel im Personenverkehr“ (Bezugsjahr 2024).¹ Sie zeigt die CO₂-Emissionen in g CO₂e pro Personenkilometer (g/Pkm) für verschiedene Verkehrsmittel und ergänzt zusätzlich einen gewichteten Bahn-Mix, der eine Pendlerverteilung von 70% Nahverkehr und 30% Fernverkehr abbildet. Nach UBA liegt der PKW (Durchschnitt) bei 164,0 g CO₂e/Pkm, während ein Elektro-PKW (deutscher Strommix) mit 70,0 g CO₂e/Pkm deutlich niedriger ausfällt. Im Schienenverkehr liegen die Werte nochmals deutlich darunter: Für den ICE/IC (Fernverkehr) weist die Tabelle 26,0 g CO₂e/Pkm aus, für den RE/RB (Nahverkehr) 44,0 g CO₂e/Pkm. Die S-Bahn wird in dieser Darstellung über den UBA-Wert für Straßen-/Stadt-/U-Bahn abgebildet (als Proxy, da UBA keine separate Zeile „S-Bahn“ ausweist) und liegt bei 42,0 g CO₂e/Pkm. Aus den UBA-Werten für Fern- und Nahverkehr wird anschließend ein realistischer Durchschnitt berechnet: Der Bahn-Mix (70% Nah + 30% Fern) beträgt 38,6 g CO₂e/Pkm.

Auf Basis dieses Bahn-Mix lässt sich der Unterschied zum PKW-Durchschnitt direkt quantifizieren. Verglichen mit 164,0 g CO₂e/Pkm beim Auto verursacht die Bahn im gewichteten Mix nur 38,6 g CO₂e/Pkm. Damit liegen die Bahn-Emissionen um (164,0 − 38,6) / 164,0 ≈ 76,5% niedriger als beim durchschnittlichen PKW. Insgesamt zeigt die Tabelle somit, dass Bahnpendeln selbst bei einem Mix aus Nah- und Fernverkehr deutlich geringere CO₂-Emissionen pro Personenkilometer verursacht als die Nutzung eines durchschnittlichen Autos.

Die Studie “Mobilität in Deutschland” (MiD 2023) ist die wichtigste Datenquelle zum Mobilitätsverhalten in Deutschland. Sie ermöglicht einen Vergleich mit 2017 (vor Corona).

Lesen Sie den MiD 2023 Kurzbericht und beantworten Sie:

Modal Split: Wie hat sich der Anteil des öffentlichen Verkehrs (ÖV) am Gesamtverkehr zwischen 2017 und 2023 verändert?
Homeoffice-Effekt: Wie hat sich die durchschnittliche Tagesstrecke verändert? Was ist laut MiD der Hauptgrund für diese Veränderung?
Stadt vs. Land: Welchen Anteil hat das Deutschlandticket in Metropolen vs. ländlichen Räumen? Was bedeutet das für die Ulm-Region?
Implikation für CO2: Welche Schlussfolgerung ziehen Sie aus diesen Veränderungen für das CO2-Einsparpotenzial durch Bahnpendeln? (2-3 Sätze)

Modal Split Wenn man die Zahlen anschaut sieht man folgendes: Der öffentliche Verkehr (ÖV) wird häufiger genutzt. Gemessen an der Anzahl der Wege ist der Anteil von 10 % (2017) auf 11 % (2023) geklettert. Somit ist, wenn auch nur minimal, eine Steigerung erkennbar. Schaut man aber nicht nur auf die Wege, sondern auf die tatsächlich zurückgelegten Kilometer (Verkehrsleistung), verändert dass das Ergebnis:

Der ÖV macht knapp ein Fünftel der Gesamtleistung aus also ca. 19 %.

Absolut gesehen ist die Leistung sogar leicht gesunken: von rund 600 Mio. auf 564 Mio. Personenkilometer pro Tag. Grund dafür ist der klassische Nahverkehr (ÖPNV) hält sich wacker und ist stabil. Das Problem stellt der Fernbusverkehr dar: Dieser hat sich vom Corona-Knick noch nicht wieder erholt und zieht die Bilanz nach unten. Fazit: Die Leute steigen zwar wieder öfter ein (auch dank Optionen wie dem Deutschlandticket), fahren aber im Schnitt meist kürzere Strecken.

Der Homeoffice Effekt: Weniger Pendeln, andere Wege Wir sind insgesamt weniger am “Reisen”. Die durchschnittliche Tagesstrecke pro Kopf ist geschrumpft unzwar von 39 Kilometern (2017) auf nur noch 35 Kilometer im Jahr 2023. Laut der Studie (MiD) ist der Hauptgrund ganz klar das Homeoffice. Die Unterschiede sind hier massiv:

Ohne Homeoffice: ca. 60 km pro Tag.

Mit Homeoffice: nur gut 20 km pro Tag.

Das entlastet vor allem den Berufsverkehr. Doch nur weil wir online arbeiten, heißt das nicht automatisch weniger Verkehr insgesamt. Die Zeit (und die Kilometer), die wir beim Pendeln sparen, stecken wir oft direkt in Freizeitwege. Wir verlagern die Mobilität also eher, als sie komplett einzusparen.

Stadt vs. Land: Rund 16 % der Menschen ab 14 Jahren besitzen ein Deutschlandticket. Zwar schlüsselt der Bericht das nicht genau nach Wohnort auf, aber die Nutzungsdaten sprechen für sich:

Metropolen: Hier macht der ÖV mit 21 % Anteil den größten Anteil aus. Ländlicher Raum: Hier macht der ÖV nurnoch 6-8% aus.

Und wo steht Ulm? Als Großstadt bzw. Regiopole sitzt Ulm mit einem ÖV-Anteil von 14 % ziemlich genau zwischen den beiden Werten.

Das Potenzial: Ulm steht deutlich besser da als auf dem Land, kommt aber an Metropolen wie Berlin oder Hamburg noch nicht heran.

Die Herausforderung: Das Deutschlandticket ist ein super Türöffner, weil es die Preisbarriere senkt. Aber: Billig allein reicht nicht. Die Zufriedenheit mit dem ÖPNV ist gesunken (selbst in Städten finden ihn nur noch ca. 34–44 % „gut“).

Schlussfolgerung für Ulm: Wenn der Bus nicht oft genug kommt oder unzuverlässig ist, hilft auch das günstigste Ticket nichts. Die Ansprüche sind gestiegen – Qualität und Taktung sind jetzt die entscheidenden Punkte.

Implikation für CO2: Die Ergebnisse sind ein Eindeutig. Durch Verbesserung der Infrastruktur und OPtionen wie dem Deutschlandticket hat sich der ÖPNV zwar stabilisiert, aber von einer echten „Verkehrswende“ sind wir noch ein ganzes Stück entfernt. Das Auto ist nach wie vor beliebter in Deutschland. Das CO2-Einsparpotenzial durch die Bahn ist riesig, aber wir bremsen uns selbst aus. Denn wer nicht pendelt, fährt oft zum Spaß woanders hin (und oft wieder mit dem Auto). Und solange Verspätungen und Ausfälle an der Tagesordnung sind, steigen die Leute nicht dauerhaft um.

Fazit: Wer das CO2-Potenzial wirklich heben will, muss dafür sorgen, dass der ÖV nicht nur eine günstige Alternative, sondern auch eine verlässliche ist.

Berechnen Sie die CO2-Ersparnis für die 11 analysierten Städte.

Datensatz: co2_analyse (aus Aufgabe 4) – enthält Streckenlängen, Einpendlerzahlen und vorberechnete Werte

Annahmen:

220 Arbeitstage pro Jahr
2 Fahrten pro Tag (Hin + Zurück)
CO2-Auto: 150 g/km, CO2-Bahn: 47 g/km (gewichteter Durchschnitt)

Berechnen Sie für jeden Umsteiger (Auto \(\rightarrow\) Bahn):

Jährliche Kilometer
CO2-Emissionen mit Auto (kg/Jahr)
CO2-Emissionen mit Bahn (kg/Jahr)
Ersparnis (kg/Jahr)

Nun sollten Sie eine Szenario Analyse ähnlich wie in Aufgabe 15 durchführen: Wenn sich der Bahnanteil von 8,4% auf 20% erhöht: wie viele Tonnen CO2 würden in den 11 Städten jährlich eingespart?

Visualisieren Sie die CO2-Ersparnis pro Stadt.

Stellen Sie die Ersparnis in Kontext, um die Ersparnis greifbarer zu machen, z.B. wie viele Mallorca-Flüge (hin + zurück, ~750 kg CO2) entspricht das?

Beschreibung der Grafiken

Die Grafik zeigt die CO₂-Emissionen des Pendelverkehrs für elf deutsche Städte in zwei unterschiedlichen Szenarien, dargestellt als horizontale Balkendiagramme. Auf der x-Achse sind die jährlichen CO₂-Emissionen in Tonnen pro Jahr abgetragen, auf der y-Achse die einzelnen Städte.

Im oberen Teil der Grafik wird Szenario 1 (Status quo) mit einem Verkehrsanteil von 91,6 % Autofahrern und 8,4 % Bahnfahrern dargestellt. Die Emissionen sind hier jeweils durch einen einfarbig blauen Balken pro Stadt visualisiert, der die gesamten CO₂-Emissionen des Pendelverkehrs im Status quo abbildet.

Der untere Teil der Grafik zeigt Szenario 2 mit einem erhöhten Bahnanteil von 20 % und einem reduzierten Autoverkehrsanteil von 80 %. Auch hier sind die Emissionen pro Stadt als blaue Balken dargestellt. Zusätzlich ist für jede Stadt ein grauer Balkenanteil ergänzt, der die CO₂-Einsparung gegenüber dem Status quo kennzeichnet. Die Kombination aus blauem und grauem Balken macht sichtbar, wie stark die Emissionen im zweiten Szenario im Vergleich zum Ausgangszustand sinken.

Am unteren Rand der Grafik ist zudem die aggregierte Gesamtersparnis über alle elf Städte ausgewiesen, sowohl in Tonnen CO₂ pro Jahr als auch in einer anschaulichen Umrechnung in die Anzahl von Hin- und Rückflügen nach Mallorca.

Interpretation der Grafiken

Die Grafik zeigt, dass die CO₂-Emissionen des Pendelverkehrs im Status quo stark zwischen den Städten variieren und insbesondere in großen Pendlerzentren sehr hohe Werte erreichen. Frankfurt weist mit knapp 950.000 Tonnen CO₂ pro Jahr die höchsten Emissionen auf, gefolgt von Berlin mit rund 850.000 Tonnen und München mit etwa 550.000 Tonnen. Diese drei Städte liegen damit deutlich über den übrigen Städten und verdeutlichen die starke Konzentration der Emissionen in den größten Arbeitsmarktzentren.

Ein mittleres Emissionsniveau zeigen Städte wie Hannover, Köln und Hamburg, die jeweils im Bereich von etwa 350.000 bis 400.000 Tonnen CO₂ pro Jahr liegen. Niedrigere Emissionen weisen Stuttgart, Düsseldorf, Nürnberg und Essen auf, während Ulm mit deutlich unter 50.000 Tonnen CO₂ pro Jahr den niedrigsten Wert aller betrachteten Städte erreicht.

Im Szenario mit einem erhöhten Bahnanteil von 20 % sinken die CO₂-Emissionen in allen elf Städten sichtbar. Der graue Balkenanteil verdeutlicht, dass die Einsparungen in absoluten Zahlen besonders in den Städten mit den höchsten Ausgangsemissionen groß ausfallen. In Frankfurt und Berlin werden jeweils Einsparungen von deutlich über 100.000 Tonnen CO₂ pro Jahr erreicht, während auch München eine Reduktion im Bereich von rund 50.000 bis 60.000 Tonnen aufweist. In kleineren Städten wie Ulm, Nürnberg oder Essen fallen die absoluten Einsparungen geringer aus, folgen jedoch demselben Muster.

Über alle elf Städte hinweg summieren sich die Emissionsreduktionen auf 339.416 Tonnen CO₂ pro Jahr. Diese Größenordnung verdeutlicht die klimatische Relevanz einer vergleichsweise moderaten Verschiebung des Modal Splits zugunsten der Bahn. Die zusätzliche Umrechnung in etwa 452.554 Hin- und Rückflüge nach Mallorca macht deutlich, dass die Einsparungen nicht nur relativ, sondern auch absolut von erheblicher Bedeutung sind.

Insgesamt zeigt die Grafik, dass der Autoverkehr im Pendelverkehr der zentrale Treiber der CO₂-Emissionen ist und dass eine Erhöhung des Bahnanteils selbst ohne vollständige Verkehrswende zu messbaren und substantiellen Emissionsreduktionen führt, insbesondere in den großen Pendlerstädten.

Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (`bahnhof_ags_mapping.csv`)

Dieses Mapping ist essenziell für die Verknüpfung von Bahn- und Pendlerdaten. Die Bahndaten sind auf Bahnhofsebene (z.B. “München Hbf”), die Pendlerdaten auf Kreisebene (z.B. “München, Landeshauptstadt”). Der AGS (Amtlicher Gemeindeschlüssel) ist der Schlüssel, der beide Welten verbindet.

Wichtige Variablen:

station_name: Name des Bahnhofs
ags: Amtlicher Gemeindeschlüssel (5-stellig für Kreise)
kreis_name: Name des Landkreises/der kreisfreien Stadt

2. Fahrtzeit-Vergleich OSRM (`fahrtzeit_osrm_vergleich.csv`)

Für einen fairen Vergleich Auto vs. Bahn brauchen wir realistische Fahrtzeiten. OSRM (Open Source Routing Machine) berechnet echte Straßenrouten basierend auf OpenStreetMap – keine Luftlinien, sondern tatsächliche Straßenverbindungen mit Abbiegevorgängen, Geschwindigkeitsbegrenzungen und Straßentypen.

Wichtige Variablen:

stadt: Zielstadt der Pendlerstrecke
strecke_name: Beschreibung der Route (z.B. “Dachau \(\rightarrow\) München”)
auto_distanz_km: Fahrstrecke mit dem Auto in km
auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit (mit Staufaktor)
bahn_planzeit_min: Fahrzeit laut Fahrplan
bahn_verspaetung_min: Durchschnittliche Verspätung
bahn_real_min: Realistische Bahnfahrzeit (Fahrplan + Verspätung)

Wie wurde das Routing durchgeführt?

Koordinaten ermitteln: Für jede Pendlerstrecke wurden Start- und Zielkoordinaten definiert (z.B. Stadtzentrum Dachau \(\rightarrow\) München Hauptbahnhof).
OSRM-API abfragen: Über die öffentliche OSRM-Demo-API (router.project-osrm.org) wurden für jede Route Distanz und Fahrzeit abgefragt. Die API gibt die schnellste Route zurück, basierend auf dem aktuellen Straßennetz.
Staufaktor anwenden: Die OSRM-Basisfahrzeit entspricht einer Fahrt bei freiem Verkehr. Für die Hauptverkehrszeit (HVZ) wurde ein Staufaktor von 1,3-1,5 angewendet, basierend auf den INRIX-Daten der jeweiligen Stadt.
Bahn-Daten ergänzen: Die Bahnfahrzeiten stammen aus dem DB-Fahrplan, ergänzt um die durchschnittliche Verspätung aus unserer Analyse.

Weiterführende Links:

OSRM Projekt-Website – Dokumentation und Demo
OSRM API-Dokumentation – Technische Details zur API
OpenStreetMap – Die Kartendaten, auf denen OSRM basiert
R-Paket osrm – Für eigene OSRM-Abfragen in R

3. Ulm-Pendlerrouten (`ulm_pendlerrouten.csv`)

Da Sie in Ulm studieren, analysieren wir die wichtigsten Pendlerrouten in die Stadt genauer. Dieser Datensatz enthält die 5 wichtigsten Einpendler-Gemeinden mit detaillierten Informationen zur Erreichbarkeit.

Wichtige Variablen:

start_ort: Startgemeinde der Pendlerroute
ziel_ort: Zielort (Ulm)
auto_dauer_min: Fahrzeit mit dem Auto
auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit
bahn_fahrplan_min: Bahnfahrzeit laut Fahrplan
bahn_real_min: Realistische Bahnfahrzeit
hat_bahnhof: TRUE/FALSE – hat der Startort einen Bahnanschluss?
pendler_geschaetzt: Geschätzte Anzahl Pendler auf dieser Route

4. Entgeltstatistik (`ba_entgeltstatistik_2024.csv`)

Um die volkswirtschaftlichen Kosten von Verspätungen zu berechnen, brauchen wir regionale Lohndaten. Diese haben wir von der Bundesagentur für Arbeit heruntergeladen.

Wichtige Variablen:

kreis_name: Name des Kreises/der Stadt
ags: Amtlicher Gemeindeschlüssel
medianentgelt_brutto_monat: Median-Bruttomonatsentgelt in Euro

Quelle: Bundesagentur für Arbeit, Entgeltstatistik 2024

https://www.umweltbundesamt.de/sites/default/files/medien/366/bilder/dateien/vtv_2024_pv_tab_pdf.pdf?utm.com ↩︎

Pendeln in Deutschland

Zeit für die Bahn? – Eine datenbasierte Analyse

Motivation

Datengrundlage

Daten einlesen und verstehen

Die Pünktlichkeit der Deutschen Bahn

Von der Zeit zum Ort: Wo entstehen die Verspätungen?

Wo treffen viele Pendler auf eine unpünktliche Bahn?

Der Vergleich – Auto vs. Bahn

Methodische Herausforderungen

Die volkswirtschaftlichen Kosten

Politikempfehlung – Ihre Synthese

Zusatzaufgaben (optional)

Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (`bahnhof_ags_mapping.csv`)

2. Fahrtzeit-Vergleich OSRM (`fahrtzeit_osrm_vergleich.csv`)

3. Ulm-Pendlerrouten (`ulm_pendlerrouten.csv`)

4. Entgeltstatistik (`ba_entgeltstatistik_2024.csv`)

Pendeln in Deutschland

Zeit für die Bahn? – Eine datenbasierte Analyse

Motivation

Datengrundlage

Daten einlesen und verstehen

Die Pünktlichkeit der Deutschen Bahn

Von der Zeit zum Ort: Wo entstehen die Verspätungen?

Wo treffen viele Pendler auf eine unpünktliche Bahn?

Der Vergleich – Auto vs. Bahn

Methodische Herausforderungen

Die volkswirtschaftlichen Kosten

Politikempfehlung – Ihre Synthese

Zusatzaufgaben (optional)

Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (bahnhof_ags_mapping.csv)

2. Fahrtzeit-Vergleich OSRM (fahrtzeit_osrm_vergleich.csv)

3. Ulm-Pendlerrouten (ulm_pendlerrouten.csv)

4. Entgeltstatistik (ba_entgeltstatistik_2024.csv)

1. Bahnhof-Kreis-Mapping (`bahnhof_ags_mapping.csv`)

2. Fahrtzeit-Vergleich OSRM (`fahrtzeit_osrm_vergleich.csv`)

3. Ulm-Pendlerrouten (`ulm_pendlerrouten.csv`)

4. Entgeltstatistik (`ba_entgeltstatistik_2024.csv`)