Motivation

Jeden Morgen das gleiche Bild: Verstopfte Autobahnen, genervte Pendler, verlorene Zeit. 20,5 Millionen Menschen pendeln in Deutschland täglich zur Arbeit – die meisten davon mit dem Auto. Laut INRIX Traffic Scorecard 2024 verlieren Pendler in deutschen Großstädten zwischen 40 und 60 Stunden pro Jahr allein im Stau. Das entspricht fast einer kompletten Arbeitswoche, die im Nichts verpufft.

Die Idee liegt auf der Hand: Wer Bahn fährt, steht nicht im Stau. Aber wie schlägt sich die Bahn im Vergleich zum Auto? Ist sie wirklich schneller? Und wie zuverlässig ist sie eigentlich?

In diesem Projekt analysieren Sie Echtzeitdaten der Deutschen Bahn, Pendlerstatistiken der Bundesagentur für Arbeit, Staudaten von INRIX und die Entgeltstatistik der Bundesagentur für Arbeit. Sie werden herausfinden, dass die Antwort auf die Frage “Sollten mehr Menschen Bahn fahren?” komplexer ist, als man zunächst vermuten würde und dass sie wichtige Implikationen für die Verkehrspolitik hat.

Ihre zentrale Forschungsfrage lautet:

“Sollten mehr Menschen Bahn fahren – und was müsste sich dafür ändern?”

Datengrundlage

In diesem Projekt arbeiten Sie mit mehreren Datensätzen. Ein wichtiger Teil des Projekts ist das eigenständige Beschaffen von Primärdaten aus offiziellen Quellen.

Daten einlesen und verstehen

Bevor Sie mit der Analyse beginnen können, müssen Sie verschiedenste Datensätze einlesen und deren Struktur verstehen. Die Deutsche Bahn stellt über unterschiedliche Schnittstellen Echtzeitdaten für ihre Züge als open-source Daten zur Verfügung, welche per API-Calls geladen werden können. Jedoch gibt es von der Deutschen Bahn keine offizielle Seite, welche historische Daten zu Zugverspätungen, Ausfällen etc. für Fern- und Nahverkehrszüge sammelt. Da wir uns jedoch mit historischen Daten beschäftigen möchten, greifen wir auf Daten zurück, die von Piet Brömmel gesammelt wurden und bei Huggingface im Parquet-Format zur Verfügung gestellt wurden. Das Parquet-Format ist ein effizientes Datenformat und wird oft für große Datenmengen genutzt; in R können Sie diese Daten mit dem arrow-Paket einlesen.

Wie pünktlich ist die Bahn wirklich? Um diese Frage zu beantworten, brauchen Sie echte Verspätungsdaten – nicht nur Pressemitteilungen. Die Bahndaten bilden das Herzstück unserer Analyse: Mit ihnen können Sie berechnen, wie viel Zeit Bahnfahrer durch Verspätungen verlieren und später mit den Stauzeiten der Autofahrer vergleichen.

Die Deutsche Bahn stellt Echtzeitdaten als Open Data zur Verfügung. Das Projekt piebro/deutsche-bahn-data auf Huggingface sammelt diese Daten im Parquet-Format.

Laden Sie die Datei für November 2025 direkt von Huggingface herunter und lesen Sie diesen Datensatz als bahn in R ein.

Zeigen Sie die ersten 10 Zeilen des Datensatzes in einer Tabelle und beantworten Sie anschließend folgende Fragen:

Wie viele Beobachtungen enthält der Datensatz? Welche Variablen sind vorhanden?
Was stellt eine einzelne Beobachtung dar?

Hinweis 1: Sie können auf Huggingface die gesuchte Datei hier finden und direkt die URL zu der Datei in R mitgeben

Hinweis 2: Sie können die Parquet Datei entweder lokal speichern, oder immer direkt per URL einlesen. Falls Sie die Datei lokal speichern, so wird diese nicht auf GitHub Committet, da wir dies in der .gitignore entsprechend eingestellt haben. In diesem Fall sollten alle Teammitglieder die Datei lokal zur Verfügung haben.

Hinweis 3: Achten Sie bei allen Tabellen auf einer saubere Darstellung

Ersten 10 Beobachtungen der Bahndaten (November 2025)
Bahnhof	Zugname	Zielbahnhof	Verspätung (Minuten)	Ausgefallen	Zugtyp	Stationnummer	geplante Ankunftszeit	geänderte Ankunftszeit
Stuttgart Hbf	S 2	Filderstadt	5	FALSE	S	15	2025-11-01 00:55:00	2025-11-01 00:57:00
Halle (Saale) Hbf	S 5	Leipzig Hbf (tief)	1	FALSE	S	1	NA	NA
Karlsruhe Hbf	RE 1	Karlsruhe Hbf	95	FALSE	RE	7	2025-10-31 23:25:00	2025-11-01 01:00:00
Regensburg Hbf	ALX RE25	München Hbf	11	FALSE	ALX	4	2025-11-01 00:35:00	2025-11-01 00:52:00
Mannheim Hbf	ICE 775	Karlsruhe Hbf	1	FALSE	ICE	8	2025-11-01 00:56:00	2025-11-01 00:58:00
Flughafen BER	S 9	Flughafen BER	1	FALSE	S	5	2025-11-01 00:59:00	2025-11-01 01:00:00
Halle (Saale) Hbf	S 8	Halle (Saale) Hbf	15	FALSE	S	6	2025-11-01 00:45:00	2025-11-01 01:00:00
München Hbf	RB 40	München Hbf	0	FALSE	RB	8	2025-11-01 01:00:00	2025-11-01 01:00:00
Köln Hbf	IC 1952	Köln Hbf	40	FALSE	IC	14	2025-11-01 00:20:00	2025-11-01 01:00:00
Freiburg (Breisgau) Hbf	S 1	Freiburg (Breisgau) Hbf	0	FALSE	S	9	2025-11-01 01:00:00	2025-11-01 01:00:00

Beschreibung der Tabelle:

Die Tabelle zeigt die ersten zehn Zeilen des eingelesenen Echtzeitdatensatzes der Deutschen Bahn für November 2025, der direkt von Hugging Face aus dem Projekt „piebro/deutsche-bahn-data“ heruntergeladen wurde.

Anzahl der Beobachtungen:

Der Datensatz für den Monat November 2025 umfasst insgesamt 13.943.561 Beobachtungen und enthält damit rund 14 Millionen einzelne Datensätze.

Variablen im Datensatz bahn:

Der Datensatz beinhaltet umfangreiche Informationen zu Bahnhöfen, Zügen sowie deren zeitlichem Ablauf. Die enthaltenen Variablen lassen sich in mehrere thematische Gruppen einteilen. Dazu zählen Stationsinformationen wie der Bahnhofname (station_name) oder die Bahnhofs-ID (eva), ebenso Zug- und Linienmerkmale wie der Zugname (train_name) oder der Zielbahnhof (final_destination_station). Darüber hinaus enthält der Datensatz zeitliche Angaben zu geplanten und tatsächlichen Ankunfts- und Abfahrtszeiten, beispielsweise arrival_planned_time und arrival_change_time für die Ankunft. Ergänzt werden diese Informationen durch Zuverlässigkeitsindikatoren, insbesondere Verspätungen (delay_in_min) sowie Ausfälle (is_canceled). Insgesamt ermöglicht der Datensatz damit eine detaillierte Analyse der Pünktlichkeit und Zuverlässigkeit des Bahnverkehrs.

Definition einer Beobachtung:

Eine einzelne Beobachtung entspricht einem konkreten Zugereignis innerhalb einer Fahrt, nämlich dem Halt eines bestimmten Zuges an einem bestimmten Bahnhof. Erfasst werden dabei sowohl die geplanten als auch die tatsächlichen Ankunfts- und Abfahrtszeiten sowie die daraus resultierenden Verspätungen oder ein möglicher Ausfall. Ein Zug kann mehrfach im Datensatz erscheinen, da jede Station entlang der Strecke als eigenständige Beobachtung erfasst wird. So unterscheiden sich beispielsweise Verspätung und Ankunftszeit zwischen den Streckenabschnitten von Station A nach B und von Station B nach C. In diesen Fällen handelt es sich um unterschiedliche Beobachtungen. Jede Beobachtung wird eindeutig über die Spalte „id“ identifiziert.

Wohin pendeln die Menschen? Die Bahndaten zeigen ihnen die Pünktlichkeit der Züge – aber um zu verstehen, wo gute Bahnverbindungen besonders wichtig sind, müssen Sie wissen, wohin die Menschen pendeln. Die Pendlerstatistik der Bundesagentur für Arbeit zeigt genau das: Welche Städte sind die größten Arbeitgeber-Magneten?

Laden Sie den Datensatz pendler_kreise_aufbereitet.csv aus dem Ordner daten in R ein als Datensatz pendler.

Erstellen Sie eine Tabelle der Top 10 Städte nach Einpendlern mit den Spalten: Stadt (kreis_name), Einpendler, Auspendler, Pendlersaldo.

Interpretieren Sie kurz: Welche Städte sind die größten “Pendlermagneten” Deutschlands und warum?

Pendlerströme in Deutschland (November 2025) Top-10-Städte sortiert nach Einpendlern
Stadt, Kreis	Einpendler	Auspendler	Pendlersaldo
München, Landeshauptstadt	455.645	202.756	252.889
Frankfurt am Main, Stadt	405.856	111.245	294.611
Hamburg, Freie und Hansestadt	392.951	147.328	245.623
Berlin, Stadt	392.324	219.898	172.426
Köln, Stadt	306.905	138.422	168.483
Düsseldorf, Stadt	284.696	97.326	187.370
Stuttgart, Landeshauptstadt	274.442	100.095	174.347
Nürnberg, Stadt	165.496	78.557	86.939
Essen, Stadt	141.296	90.906	50.390
Region Hannover	137.924	69.974	67.950

Beschreibung der Tabelle:

Die Tabelle „Top 10 Städte nach Einpendlern“ zeigt die zehn Kreise/Städte mit den meisten Einpendlern aus der Pendlerstatistik der Bundesagentur für Arbeit und stellt dazu (jeweils in Tausend) Einpendler, Auspendler sowie den daraus resultierenden Pendlersaldo gegenüber.

Interpretation:

Als größte „Pendlermagneten“ stechen vor allem große Metropolen und zentrale Wirtschaftsstandorte hervor: München liegt mit rund 455,6 Tsd. Einpendlern vorn, gefolgt von Frankfurt am Main (ca. 405,9 Tsd.), Hamburg (ca. 393 Tsd.) und Berlin (ca. 392,3 Tsd.). Diese Städte bündeln viele Arbeitsplätze und wirtschaftliche Aktivitäten, wodurch sie Beschäftigte aus dem Umland stark anziehen. Zusätzlich dürften Wohnungsengpässe und hohe Mieten in den Zentren dazu beitragen, dass viele Menschen außerhalb wohnen und längere Pendelwege in Kauf nehmen, um die Jobchancen in den Ballungsräumen zu nutzen.

Was kostet das Auto? Sie haben jetzt Bahndaten und wissen, wohin die Menschen pendeln. Aber um fair vergleichen zu können, brauchen Sie auch die Alternative: Wie viel Zeit verlieren Autofahrer im Stau? Diese Daten liefert INRIX – ein Unternehmen, das weltweit Verkehrsdaten sammelt. Später werden Sie diese Staukosten mit den Bahnverspätungen vergleichen.

Besuchen Sie die INRIX Global Traffic Scorecard und suchen Sie die Stauzeiten für die Top 10 Städte aus Aufgabe 2 und zusätzlich die Stauzeiten für Ulm. INRIX misst, wie viele Stunden Autofahrer jährlich im Stau verlieren.

Erstellen Sie eine eigene CSV-Datei inrix_staedte_2024.csv mit folgenden Spalten für die geforderten Städte:
- stadt: Name der Stadt
- stau_stunden_jahr: Jährliche Staustunden pro Fahrer
- kosten_eur: Jährliche Kosten pro Fahrer (findet sich in der tiefergehenden Übersicht)
Berechnen Sie für jede Stadt, wie viele Arbeitstage pro Jahr im Stau verloren gehen. Annahme: Ein Arbeitstag = 8 Stunden.

Erstellen Sie anschließend eine schöne Tabelle mit: Stadt, Staustunden/Jahr, verlorene Arbeitstage und beschreiben diese. In welcher Stadt ist die Stausituation am schlimmsten? Wie viele Arbeitstage verliert ein typischer Pendler dort pro Jahr?

Hinweis: Auf der INRIX-Website können Sie nach bei “Jump to City Rankings” -> “Search the List” -> “Germany” oder der konkreten Stadt filtern.

Staubelastung und verlorene Arbeitstage pro Jahr (INRIX 2024)
Stadt	Staustunden/Jahr	Kosten/Fahrer (€)	Verlorene Arbeitstage
Köln	67	919	8.375
Düsseldorf	63	864	7.875
Berlin	60	823	7.500
Stuttgart	60	823	7.500
München	57	781	7.125
Frankfurt	55	754	6.875
Hannover	54	740	6.750
Hamburg	46	631	5.750
Essen*	46	631	5.750
Nürnberg	38	521	4.750
Ulm	30	411	3.750
* Da für Essen keine spezifischen Inrix-Daten verfügbar waren, wurden die Staukennzahlen von Wuppertal als Proxy herangezogen. Grundlage hierfür ist die Annahme struktureller Ähnlichkeiten beider Städte in Bezug auf Verkehrsbelastung, Staukosten und stauinduzierte Arbeitszeitausfälle..

Beschreibung:

Die Tabelle „Staubelastung und verlorene Arbeitstage pro Jahr (INRIX 2024)“ zeigt für die Top-10-Städte nach Einpendlern (aus Aufgabe 2) sowie zusätzlich Ulm die jährlichen Staustunden pro Fahrer, die jährlichen Kosten pro Fahrer (in €) und die daraus berechneten verlorenen Arbeitstage (Staustunden/8).

Interpretation:

Die Stausituation ist in Köln am schlimmsten: Dort verlieren Autofahrer im Schnitt 67 Staustunden pro Jahr, was 8,375 Arbeitstagen (≈ 8,4 Tage) entspricht, bei 919 € Kosten pro Fahrer. Danach folgen Düsseldorf (63 h; 7,875 Tage), Berlin und Stuttgart (je 60 h; 7,5 Tage) sowie München (57 h; 7,125 Tage). Am unteren Ende liegt Ulm mit 30 Staustunden bzw. 3,75 Arbeitstagen und 411 € Kosten pro Fahrer. Insgesamt zeigt sich: Mehr Staustunden bedeuten automatisch mehr verlorene Arbeitstage, und zugleich steigen typischerweise auch die ausgewiesenen Kosten pro Fahrer.

Einordnung im Vergleich zum Pendleraufkommen:

Auffällig ist, dass die Rangfolge nach Staustunden nicht identisch mit der Rangfolge nach Einpendlern ist (z. B. ist Köln stärker betroffen als München, obwohl München ein sehr hohes Pendleraufkommen hat). Das deutet darauf hin, dass Stau nicht nur von der Zahl der Pendler abhängt, sondern auch von Faktoren wie Netzkapazität und Engpässen im Straßennetz, Durchgangsverkehr, Baustellen, Siedlungsstruktur sowie dem Anteil von Auto vs. ÖPNV/Fahrrad im Pendelverkehr.

Für die weiteren Analysen stellen wir Ihnen fünf zusätzliche Datensätze bereit. Diese laden Sie jetzt, damit sie in allen folgenden Aufgaben direkt verfügbar sind.

Laden Sie die folgenden Datensätze aus dem Ordner daten und speichern Sie diese unter den angegebenen Variablennamen:

Datei	Variablenname	Verwendet in
`bahnhof_ags_mapping.csv`	`bahnhof_mapping`	Aufgabe 9-10
`fahrtzeit_osrm_vergleich.csv`	`fahrtzeit`	Aufgabe 12
`ulm_pendlerrouten.csv`	`ulm_routen`	Aufgabe 13
`ba_entgeltstatistik_2024.csv`	`entgelt`	für `staedte_basis`
`co2_analyse.csv`	`co2_analyse`	Aufgabe 19 (Bonus)

Verschaffen Sie sich einen ersten Überblick über die Struktur der Daten (z.B. mit glimpse(), dies sollte später in ihrem HTML Dokument nicht sichtbar sein!).

Erstellen Sie außerdem einen Master-Datensatz staedte_basis für die Top-11-Städte (Top 10 Pendlerstädte + Ulm), der die Daten aus pendler, entgelt und inrix kombiniert. Dieser Datensatz vereinfacht die späteren Analysen (ab Aufgabe 14), da alle relevanten Kennzahlen bereits zusammengeführt sind.

Der Master-Datensatz sollte folgende Spalten enthalten:

ags: Amtlicher Gemeindeschlüssel
stadt: Stadtname (Kurzform, z.B. “München”)
einpendler: Anzahl Einpendler
median_monat_eur: Medianlohn pro Monat
median_stunde_eur: Medianlohn pro Stunde (Monatslohn / 160)
stau_stunden_jahr: Stauzeit pro Jahr (aus INRIX)

Hinweis 1: Die Datensätze verwenden unterschiedliche Namensformate: pendler hat offizielle Namen (“München, Landeshauptstadt”), während entgelt und inrix Kurznamen (“München”) verwenden. Nutzen Sie den AGS als zuverlässigen Schlüssel für die Verknüpfung mit pendler. Tipp: entgelt enthält sowohl AGS als auch Kurznamen und eignet sich daher gut als Ausgangspunkt.

Hinweis 2: Eine ausführliche Beschreibung der Datensätze finden Sie im Anhang A.

Masterdatensatz staedte_basis
AGS	Stadt	Anzahl Einpendler	Medianlohn/Monat (€)	Medianlohn/h (€)	Staustunden/Jahr
09162	München	455.645.000	4.847	30,29	57
06412	Frankfurt	405.856.000	4.712	29,45	55
02000	Hamburg	392.951.000	4.527	28,29	46
11000	Berlin	392.324.000	4.156	25,98	60
05315	Köln	306.905.000	4.398	27,49	67
05111	Düsseldorf	284.696.000	4.523	28,27	63
08111	Stuttgart	274.442.000	4.689	29,31	60
09564	Nürnberg	165.496.000	4.234	26,46	38
05113	Essen	141.296.000	3.987	24,92	46
03241	Hannover	137.924.000	4.156	25,98	54
08421	Ulm	68.341	4.312	26,95	30

Die Pünktlichkeit der Deutschen Bahn

Nachdem Sie nun einen Überblick über die Daten haben, welche wir in diesem Projekt verwenden möchten, tauchen Sie tiefer in die Bahndaten ein. Die zentrale Frage ist: Wie zuverlässig ist die Deutsche Bahn wirklich?

Die Bahn unterscheidet verschiedene Zugtypen, vom ICE über den RE bis zur S-Bahn. Jeder Zugtyp hat unterschiedliche Eigenschaften: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Aber welcher Zugtyp ist am pünktlichsten?

Welche Züge sind (un)pünktlich? Nicht alle Züge sind gleich: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Um später sinnvolle Empfehlungen geben zu können, müssen Sie verstehen, welche Zugtypen besonders problematisch sind. Dafür klassifizieren Sie die Züge anhand ihrer Namen. Nutzen Sie für diese Analyse den Datensatz bahn.

Die Variable train_name enthält den Zugnamen (z.B. “ICE 123”, “S 5”, “RE 8”).

Erstellen Sie eine neue Variable zugtyp mit folgenden Kategorien:

Zugtyp	Regel	Beispiel
ICE	beginnt mit “ICE”	ICE 123
IC/EC	beginnt mit “IC” oder “EC”	IC 2012, EC 6
IRE/RE	beginnt mit “RE” oder “IRE”	RE 5, IRE 200
RB	beginnt mit “RB”	RB 26
S-Bahn	beginnt mit “S” (mit Leerzeichen!)	S 5
Sonstige	alle anderen	U 6, STB 123

Erstellen Sie auf dieser Basis eine Tabelle, welche pro Zugtyp folgende Kennzahlen anschaulich darstellt:

Anzahl der Fahrten
Durchschnittliche Verspätung (in Minuten)
Anteil pünktlicher Züge (≤6 Min Verspätung)
Ausfallquote

Beschreiben und Interpretieren Sie die Tabelle.

Weiterhin sollten Sie ihre Ergebnisse verifizieren. Dafür können Sie auf die offizielle Pünktlichkeitswerte der Deutschen Bahn zurückgreifen (recherchieren Sie diese selbstständig).

Stimmen Ihre Ergebnisse mit den offiziellen Werten überein? Falls nicht: Welche methodischen Unterschiede könnten die Abweichung erklären?

Hinweis: Nutzen Sie str_detect() aus dem stringr-Paket. Achten Sie auf die Reihenfolge der Bedingungen!

Pünktlichkeit und Ausfälle nach Zugtyp (November 2025)
Zugtyp	Anzahl der Fahrten	Ø Verspätung (Min)	Pünktlichkeitsanteil (≤6 Min) (%)	Ausfälle (%)
S-Bahn	6.414.045	2,94	87,41	5,48
Sonstige	2.938.815	3,47	84,67	2,62
RB	2.675.028	3,48	85,20	3,18
IRE/RE	1.673.555	6,06	74,13	3,62
ICE	171.516	12,50	56,75	4,23
IC/EC	70.602	11,03	60,24	7,18

Beschreibung:

Die Tabelle „Pünktlichkeit und Ausfälle nach Zugtyp (November 2025)“ fasst für die aus train_name abgeleiteten Zugtypen (ICE, IC/EC, IRE/RE, RB, S-Bahn, Sonstige) die Anzahl der erfassten Fahrten/Beobachtungen, die durchschnittliche Verspätung (Min.), den Pünktlichkeitsanteil (≤ 6 Min) sowie die Ausfallquote (%) zusammen.

Interpretation:

Am unpünktlichsten ist der Fernverkehr: ICE (Ø 12,50 Min; 56,75 % pünktlich) und IC/EC (Ø 11,03 Min; 60,24 % pünktlich) zeigen die höchsten Durchschnittsverspätungen und gleichzeitig die niedrigsten Pünktlichkeitsanteile. Im Regionalverkehr ist das Bild deutlich stabiler: RB (Ø 3,48 Min; 85,20 %) und S-Bahn (Ø 2,94 Min; 87,41 %) schneiden am besten ab, während IRE/RE mit Ø 6,06 Min und 74,13 % spürbar schlechter ist als RB und S-Bahn. Auffällig ist außerdem die Ausfallseite: IC/EC weist die höchste Ausfallquote (7,18 %) auf, und auch die S-Bahn hat trotz hoher Pünktlichkeit eine vergleichsweise hohe Ausfallquote (5,48 %). Das passt zu der Idee, dass im Nahverkehr eher einzelne Leistungen gestrichen werden, um den restlichen Takt zu stabilisieren, während im Fernverkehr häufiger versucht wird, die Fahrt zumindest verspätet durchzuführen.

Verifikation mit offiziellen DB-Werten:

Für November 2025 weist die Deutsche Bahn im Fernverkehr eine betriebliche Pünktlichkeit von 54,5 % sowie eine Reisendenpünktlichkeit von 61,9 % aus. In unserer Tabelle liegen die Pünktlichkeitsanteile (≤ 6 Min) bei 56,75 % für ICE und 60,24 % für IC/EC. Für den Nahverkehr nennt die Deutsche Bahn für November 2025 eine betriebliche Pünktlichkeit von 85,2 %; unsere Werte liegen bei 87,41 % (S-Bahn), 85,20 % (RB) und 74,13 % (IRE/RE), wobei der Wert für RB nahezu deckungsgleich ist.¹

Mögliche Gründe für Abweichungen:

Wenn Ihre Werte von offiziellen DB-Quoten abweichen, liegt das meist nicht daran, dass „eine Seite falsch“ ist, sondern daran, dass Definitionen und Zähleinheiten unterschiedlich sind. Erstens kann schon die Pünktlichkeitsdefinition variieren: Ob „≤ 6 Minuten“ oder „< 6 Minuten“ gezählt wird, macht bei vielen Fahrten nahe der Schwelle einen messbaren Unterschied. Zusätzlich verwendet die DB teils andere Konzepte wie Reisendenpünktlichkeit, die sich auf die Ankunft am Ziel (und ggf. auf längere Toleranzgrenzen) bezieht, während Open-Data-Auswertungen häufig auf den verfügbaren Zeitstempeln und einem einheitlichen Grenzwert operieren.

Zweitens ist entscheidend, was genau gezählt wird. In den Echtzeitdaten ist eine Beobachtung häufig ein Halt/Stop innerhalb einer Zugfahrt. Offizielle Kennzahlen beziehen sich dagegen typischerweise auf Züge, Zugfahrten oder Ankünfte an Zielbahnhöfen. Wenn Sie stop-basiert aggregieren, bekommen Zugtypen mit vielen Halten (z. B. S-Bahn) automatisch sehr viele Beobachtungen, und Verspätungen an Zwischenhalten fließen stärker ein als in einer Ziel-Ankunftslogik. Das kann sowohl Mittelwerte als auch Pünktlichkeitsanteile verschieben.

Drittens unterscheiden sich oft die Regeln zum Umgang mit Ausfällen. In Open-Data-Beständen sind Ausfälle manchmal nur indirekt erkennbar (z. B. fehlende Updates, gestrichene Halte, kurzfristige Fahrplanänderungen). Die DB kann intern präziser definieren, wann eine Leistung als „ausgefallen“ zählt und ob sie in die Pünktlichkeitsquote eingeht oder separat berichtet wird. Je nachdem, ob Ausfälle aus der Grundgesamtheit herausgerechnet oder als „unpünktlich“ gewertet werden, ändern sich die Quoten spürbar.

Viertens spielt die Datenabdeckung und Bereinigung eine Rolle. Open-Data-Echtzeitdaten können Lücken haben (z. B. regionale Unterschiede, technische Ausfälle, fehlende Zuordnung), und die Ergebnisse hängen davon ab, wie Sie unplausible Werte filtern, wie Sie Fahrten abgrenzen und welche Zeitpunkte als „geplant“ vs. „ist“ herangezogen werden. Schließlich kann auch die Klassifikation über train_name zu Abweichungen führen: Randfälle, uneinheitliche Namensschemata oder Sonderzüge landen dann in „Sonstige“ oder im falschen Zugtyp, während die DB intern eine eindeutigere Fahrzeug- und Produktzuordnung hat.

In Aufgabe 5 haben Sie gesehen, dass Fernverkehrszüge (ICE, IC/EC) deutlich höhere Verspätungen und Ausfallquoten haben als Nahverkehrszüge (IRE, RE, RB, S-Bahn). Aber wie relevant ist das für den typischen Pendler? Das hängt davon ab, wie viele Züge jeweils unterwegs sind. Nutzen Sie für diese Analyse den Datensatz bahn (mit der in Aufgabe 5 erstellten Variable zugtyp).

Klassifizieren Sie die Züge in zwei Kategorien:

Fernverkehr: ICE, IC/EC
Nahverkehr: IRE, RE, RB, S-Bahn

Erstellen Sie ein Liniendiagramm, das die durchschnittliche Anzahl der Fahrten pro Stunde im Tagesverlauf zeigt:

X-Achse: Uhrzeit (0-23 Uhr)
Y-Achse: Durchschnittliche Anzahl Fahrten pro Stunde
Zwei Linien: eine für Fernverkehr, eine für Nahverkehr (unterschiedliche Farben)

Tipp: Extrahieren Sie die Stunde aus der Variable time mit hour() aus dem lubridate-Paket. Berechnen Sie dann die durchschnittliche Anzahl Fahrten pro Stunde und Zugtyp.

Beschreiben und interpretieren Sie ihre Grafik. Beantworten Sie zusätzlich die folgenden Fragen:

Zu welchen Uhrzeiten fahren die meisten Züge?
Wie unterscheidet sich das Muster zwischen Fern- und Nahverkehr?
Warum ist diese Information wichtig, wenn wir später die Verspätungen analysieren?

Beschreibung der Grafik:

Das Liniendiagramm zeigt für jede Uhrzeit von 0 bis 23 Uhr die durchschnittliche Anzahl der Fahrten pro Stunde, getrennt nach Nahverkehr und Fernverkehr. Auf der x-Achse steht die Uhrzeit, auf der y-Achse die durchschnittliche Fahrtenzahl; dargestellt sind zwei Linien, die den Tagesverlauf beider Kategorien abbilden.

Zu welchen Uhrzeiten fahren die meisten Züge?:

Im Nahverkehr liegen die höchsten Werte am späten Nachmittag/frühen Abend (ca. 16–18 Uhr) und zusätzlich auf hohem Niveau am Vormittag (etwa 8–10 Uhr). Nach einem Tief in den frühen Morgenstunden (ca. 3–5 Uhr) steigt die Kurve ab 6 Uhr sehr stark an. Im Fernverkehr liegen die höchsten Werte über den Tag verteilt eher in einem breiten Plateau (ungefähr 9–19 Uhr) und nehmen ab dem späten Abend ab.

Wie unterscheidet sich das Muster zwischen Fern- und Nahverkehr?:

Der Nahverkehr zeigt ein klar pendlergeprägtes Profil: starker Anstieg am Morgen, hohe Taktung über den Tag und ein ausgeprägtes Hoch am Nachmittag/Abend. Der Fernverkehr verläuft deutlich flacher: Er steigt morgens moderat an, bleibt tagsüber relativ konstant und fällt erst abends spürbar ab. Außerdem liegt das Niveau des Nahverkehrs im Diagramm um ein Vielfaches über dem des Fernverkehrs.

Warum ist diese Information wichtig für die spätere Verspätungsanalyse?:

Die Grafik ist wichtig, weil sie zeigt, wo Verspätungen „wirken“: Zu den Pendelzeiten fahren besonders viele Züge, vor allem im Nahverkehr. Dadurch können selbst kleinere durchschnittliche Verspätungen im Nahverkehr in der Summe sehr viele Reisende betreffen. Umgekehrt sind hohe durchschnittliche Verspätungen im Fernverkehr zwar problematisch, betreffen aber gemessen an der Fahrtenzahl pro Stunde einen deutlich kleineren Teil des täglichen Zuggeschehens.

Allgemeine Interpretation:

Insgesamt macht die Grafik deutlich, dass der Bahnalltag der meisten Menschen – insbesondere von Pendlern – stark vom Nahverkehr geprägt ist. Der Tagesverlauf folgt typisch urbanen Mobilitätsmustern: minimale Aktivität in der Nacht, ein kräftiger Hochlauf am Morgen und ein zweites Hoch rund um den Feierabend. Der Fernverkehr spielt im Vergleich dazu eine ergänzende Rolle mit gleichmäßigerer Verteilung über den Tag. Für die spätere Bewertung von Pünktlichkeit bedeutet das: Die gesellschaftliche Relevanz von Verspätungen hängt nicht nur von deren Höhe ab, sondern vor allem davon, ob sie in Zeitfenstern auftreten, in denen sehr viele Fahrten stattfinden.

Nachdem Sie in Aufgabe 6 herausgefunden haben, dass es deutlich mehr Nahverkehrszüge als Fernverkehrszüge gibt, und diese für Pendler wichtiger sind, sollten Sie sich die Verspätungen der Nahverkehrszüge über den Tag anschauen, da diese vermutlich nicht gleichmäßig über den Tag verteilt sind. Pendler erleben die Bahn vor allem in der Hauptverkehrszeit, d.h. morgens zwischen 7 und 9 Uhr und abends zwischen 16 und 19 Uhr. Aber ist die Bahn zu diesen Zeiten besonders unpünktlich?

Erstellen Sie zwei Heatmaps, die zeigen, wie sich die Verspätungen nach Tageszeit (Stunde) und Wochentag für die Nahverkehrszüge und die Fernverkehrszüge verteilen. Nutzen Sie für diese Analyse den Datensatz bahn.

Extrahieren Sie aus der Variable time die Stunde und den Wochentag.
Filtern Sie auf die relevanten Tageszeiten (5-23 Uhr), da nachts kaum Zugverkehr stattfindet.
Aggregieren Sie die durchschnittliche Verspätung pro Stunde und Wochentag für Nah- und Fernverkehrszüge separat.
Erstellen Sie eine Heatmap mit ggplot2 und geom_tile().

Tipp zur Farbskala: Da Fernverkehrszüge im Durchschnitt höhere Verspätungen haben als Nahverkehrszüge, können Sie unterschiedliche Farbskalen für die beiden Heatmaps verwenden (z.B. Blau-Töne für Nahverkehr, Rot-Töne für Fernverkehr). Dadurch werden die Muster innerhalb jeder Verkehrsart besser sichtbar.

Beschreiben und interpretieren Sie ihre Grafiken.

Wann sind die Verspätungen am höchsten?
Gibt es Unterschiede zwischen Werktagen und Wochenende?
Gibt es Unterschiede zwischen Nah- und Fernverkehrszügen?
Was bedeutet das für Pendler?

Beschreibung der Grafiken:

Die Abbildung besteht aus zwei Heatmaps für November 2025. Links wird der Fernverkehr (ICE, IC/EC) gezeigt, rechts der Nahverkehr (IRE, RE, RB, S-Bahn). Auf der y-Achse steht der Wochentag, auf der x-Achse die Uhrzeit (gefiltert auf 5–23 Uhr). Jedes farbige Feld (Tile) repräsentiert die durchschnittliche Verspätung in Minuten für die jeweilige Kombination aus Wochentag und Stunde. Wichtig ist, dass die Farbskalen unterschiedlich sind: Im Nahverkehr bildet die Skala etwa 2–5 Minuten ab, im Fernverkehr etwa 5–20+ Minuten; die Farben sind daher nicht direkt zwischen den beiden Heatmaps vergleichbar, sondern vor allem innerhalb jeder Heatmap.

Wann sind die Verspätungen am höchsten?:

Im Fernverkehr steigen die durchschnittlichen Verspätungen im Tagesverlauf sichtbar an und sind am späten Abend am höchsten, besonders ab etwa 20 Uhr bis 23 Uhr. Die dunkelsten Felder liegen häufig in diesem Zeitfenster, was auf die stärkste Verspätungsbelastung am Tagesende hindeutet. Im Nahverkehr liegen die höchsten durchschnittlichen Verspätungen vor allem werktags in den späten Nachmittags- und frühen Abendstunden (grob 18–20 Uhr). Morgens sind die Werte niedriger und nehmen im Laufe des Tages zu, bevor sie am späten Abend wieder abflachen.

Gibt es Unterschiede zwischen Werktagen und Wochenende?:

Im Nahverkehr ist der Unterschied deutlich: Montag bis Freitag sind die Felder tagsüber insgesamt dunkler als am Wochenende, besonders in den typischen Arbeits- und Pendelzeiten. Samstag und Sonntag wirken über weite Teile des Tages heller, was auf geringere durchschnittliche Verspätungen hindeutet. Im Fernverkehr ist der Kontrast zwischen Werktagen und Wochenende weniger stark, aber ebenfalls erkennbar: Am Wochenende sind viele Stunden tendenziell etwas „ruhiger“, während die späten Abendstunden auch am Wochenende relativ verspätungsanfällig bleiben.

Gibt es Unterschiede zwischen Nah- und Fernverkehrszügen?:

Ja, und zwar in zwei Dimensionen. Erstens ist das Verspätungsniveau im Fernverkehr insgesamt deutlich höher (Skala bis 20+ Minuten), während der Nahverkehr meist im Bereich weniger Minuten liegt. Zweitens unterscheiden sich die Muster: Im Nahverkehr ist die Verspätung stärker an Nachfragespitzen gekoppelt (werktags, besonders am Abendpeak), während sich im Fernverkehr ein Akkumulationsmuster zeigt – je später der Tag, desto größer die durchschnittlichen Verspätungen. Das passt zu langen Umläufen und der Tatsache, dass sich selbst kleine Störungen über viele Stationen und Umläufe hinweg „aufsummieren“ können.

Was bedeutet das für Pendler?:

Für typische Pendler, die überwiegend Nahverkehr nutzen, ist entscheidend, dass die Verspätungen gerade unter der Woche in den Hauptverkehrszeiten am stärksten sind. Das heißt: Genau dann, wenn viele Menschen zur Arbeit oder nach Hause fahren, steigt die Wahrscheinlichkeit, im Alltag spürbar Zeit zu verlieren – auch wenn es im Mittel „nur“ wenige Minuten sind. Für Pendler, die regelmäßig Fernverkehr nutzen (z. B. lange Distanzen), sind vor allem späte Fahrten riskanter, weil die durchschnittlichen Verspätungen dort am höchsten ausfallen und Anschlussrisiken zunehmen. Insgesamt ist damit nicht nur die Höhe der Verspätung relevant, sondern auch, wann sie auftritt: Verspätungen in Pendelzeiten haben für den Alltag die größte Wirkung.

Allgemeine Interpretation:

Die Heatmaps zeigen ein konsistentes Bild aus Netzauslastung und Verspätungsfortpflanzung. Im Nahverkehr scheinen hohe Taktung und Spitzenlast zu den Tagesrandzeiten der Arbeit (insbesondere am Abend) die Pünktlichkeit zu drücken. Im Fernverkehr dominieren eher kumulative Effekte über den Tag: Verspätungen werden im Tagesverlauf „mitgenommen“ und erreichen am Abend ihren Höhepunkt. Gleichzeitig sollte man im Hinterkopf behalten, dass es sich um Durchschnittswerte handelt: Ob wenige extreme Ausreißer oder viele moderate Verspätungen dahinterstehen, sieht man hier nicht – ebenso wenig wie die Rolle von Ausfällen, die die wahrgenommene Zuverlässigkeit für Pendler zusätzlich beeinflussen können.

Von der Zeit zum Ort: Wo entstehen die Verspätungen?

In Aufgabe 7 haben Sie analysiert, wann die Verspätungen auftreten, nämlich vor allem zu den Hauptverkehrszeiten. Aber die nächste wichtige Frage ist: Wo entstehen diese Verspätungen?

Aggregierte Statistiken wie Durchschnittswerte über ganz Deutschland verbergen oft große regionale Unterschiede. Vielleicht gibt es einzelne “Problembahnhöfe”, die den Durchschnitt nach oben ziehen? Oder sind die Verspätungen gleichmäßig über das Netz verteilt? Diese Frage ist wichtig, weil sie unterschiedliche Lösungsansätze impliziert: Bei wenigen Problembahnhöfen könnte die Bahn gezielt investieren, bei flächendeckenden Problemen bräuchten Sie systemische Lösungen.

Identifizieren Sie die 10 unpünktlichsten Bahnhöfe in Deutschland (mit mindestens 1.000 Halten im Monat). Nutzen Sie für diese Analyse den Datensatz bahn.

Erstellen Sie ein Balkendiagramm, das die durchschnittliche Verspätung dieser Bahnhöfe zeigt. Beschriften Sie die Balken mit den Verspätungswerten.

Beschreiben und interpretieren Sie ihre Grafik.

Sehen Sie ein geografisches Muster?
Handelt es sich um große Knotenbahnhöfe oder eher um kleinere Stationen?

Beschreibung der Grafik:

Das Balkendiagramm zeigt die 10 unpünktlichsten Bahnhöfe in Deutschland im November 2025, gemessen an der durchschnittlichen Verspätung (in Minuten). Berücksichtigt wurden nur Stationen mit mindestens 1.000 Halten im Monat, um zufällige Ausreißer bei sehr selten bedienten Bahnhöfen zu vermeiden. Die Balken sind zusätzlich mit den jeweiligen Verspätungswerten beschriftet; die durchschnittlichen Verspätungen liegen in dieser Top-10 zwischen 12,3 und 14,7 Minuten.

Interpretation:

Ein klares Muster ist, dass die höchsten Durchschnittsverspätungen nicht bei den „klassischen“ großen Hauptbahnhöfen auftauchen, sondern überwiegend bei kleineren bis mittelgroßen Stationen. Das deutet darauf hin, dass diese Bahnhöfe Verspätungen oft nicht primär selbst verursachen, sondern dass Verzögerungen aus dem umliegenden Netz dort sichtbar ankommen. Gleichzeitig ist ein geografisches Cluster erkennbar: Mehrere der genannten Stationen liegen im Westen Deutschlands, insbesondere im Raum Nordrhein-Westfalen/Rheinland (z. B. Ennepetal, Bornheim-Sechtem, Brühl, Roisdorf) sowie entlang des Rheins (z. B. Bad Breisig, Sinzig, Rolandseck). Die räumliche Häufung spricht eher für strecken- bzw. korridorbezogene Ursachen als für reine „Bahnhofseffekte“ – etwa hohe Streckenauslastung, Engpässe in der Infrastruktur, Baustellen, Mischverkehr (Regional/Fern/Güter) oder Störanfälligkeit auf einzelnen Abschnitten.

Für die weitere Analyse ist das wichtig, weil es zeigt, dass Verspätungen im Netz konzentriert auftreten: Wer auf solchen Korridoren pendelt, hat ein deutlich höheres Risiko für

Zeitverluste als der Durchschnitt. Maßnahmen, die gezielt diese belasteten Streckenabschnitte stabilisieren (Kapazität, Signaltechnik, Betriebsführung), könnten daher vergleichsweise große Verbesserungen bewirken.

Wo treffen viele Pendler auf eine unpünktliche Bahn?

Bisher haben Sie Pendler- und Bahndaten getrennt betrachtet. Aber die spannende Frage ist: Wo kommen beide Probleme zusammen? Eine Stadt mit vielen Pendlern und einer unpünktlichen Bahn hat ein größeres Problem als eine Stadt mit wenigen Pendlern und einer unpünktlichen Bahn.

Um diese Frage zu beantworten, müssen Sie die Datensätze verknüpfen. Das Problem: Die Bahndaten sind auf Bahnhofsebene, die Pendlerdaten auf Kreisebene. Sie benötigen ein Mapping, das Bahnhöfe den entsprechenden Kreisen zuordnet.

In dieser Aufgabe verknüpfen Sie die Bahn- und Pendlerdaten, um Städte mit Handlungsbedarf zu identifizieren. Nutzen Sie für ihre Analysen die Datensätze: bahn, pendler und bahnhof_mapping.

Das Mapping ordnet Bahnhöfe ihrem Landkreis zu (via AGS = Amtlicher Gemeindeschlüssel). Ihr Ziel: Identifizieren Sie Städte, in denen viele Pendler auf eine unpünktliche Bahn treffen.

Berechnen Sie für jeden Bahnhof die durchschnittliche Verspätung und die Anzahl der Halte.
Aggregation auf Kreisebene: Berechnen Sie für jeden Kreis die gewichtete durchschnittliche Verspätung. Gewichten Sie nach der Anzahl der Halte (ein Bahnhof mit 10.000 Halten zählt mehr als einer mit 100).
Verknüpfen Sie das Ergebnis mit den Pendlerdaten mittels left_join() über die Variable ags.
Problem-Score berechnen: Kombinieren Sie beide Dimensionen mit z-Standardisierung:

\[\text{Problem-Score} = z(\text{Einpendler}) + z(\text{Verspätung})\]

Die z-Standardisierung macht die Werte vergleichbar: \(z(x) = \frac{x - \bar{x}}{s_x}\), wobei \(\bar{x}\) der Mittelwert und \(s_x\) die Standardabweichung ist.

Interpretation: Ein hoher Problem-Score = Viele Pendler + hohe Verspätung = Handlungsbedarf.

Anschließend sollten Sie eine Tabelle der Top 10 Städte nach Problem-Score darstellen und diese kurz beschreiben.

Top 10 Landkreise mit den problematischsten Bahnhöfen für Pendler
Stadt / Kreis	AGS	Einpendleranzahl	gewichtete durchschn. Verspätung (min)	Problem-Score*
München, Landeshauptstadt	09162	455.645	5,98	3,45
Köln, Stadt	05315	306.905	7,89	3,06
Düsseldorf, Stadt	05111	284.696	7,33	2,55
Frankfurt am Main, Stadt	06412	405.856	5,14	2,54
Berlin, Stadt	11000	392.324	4,70	2,18
Hamburg, Freie und Hansestadt	02000	392.951	4,44	2,05
Duisburg, Stadt	05112	86.735	8,81	1,46
Hamm, Stadt	05915	22.447	9,93	1,44
Stuttgart, Landeshauptstadt	08111	274.442	5,30	1,38
Bonn, Stadt	05314	112.607	8,00	1,27
*Berechnung des Problem-Scores: Addition der z-standardisierten Werte von Einpendlern und (gewichteter) durchschnittlicher Verspätung.

Beschreibung der Tabelle:

Die Tabelle „Top 10 Städte/Kreise nach Problem-Score“ zeigt für die zehn bestplatzierten Kreise eine Kombination aus Pendleraufkommen und Bahnzuverlässigkeit. Grundlage sind (1) die auf Kreisebene nach Halten gewichtete durchschnittliche Verspätung aus den Bahndaten und (2) die Einpendlerzahlen aus der Pendlerstatistik; beide Größen werden z-standardisiert und zum Problem-Score addiert.

Interpretation der Top-10 nach Problem-Score:

Den höchsten Problem-Score erreicht München (Landeshauptstadt). Hier ist die durchschnittliche Verspätung mit 6,08 Minuten nicht extrem, trifft aber aufgrund von rund 456.000 Einpendlern besonders viele Personen. Danach folgen Köln und Düsseldorf, wo hohe Einpendlerzahlen mit überdurchschnittlichen Verspätungen zusammenfallen. Frankfurt am Main liegt trotz sehr hoher Einpendlerzahlen etwas niedriger, weil die durchschnittliche Verspätung vergleichsweise geringer ausfällt. Berlin und Hamburg erscheinen ebenfalls weit oben, da dort schon moderate Verspätungen wegen des großen Pendleraufkommens stark ins Gewicht fallen. Städte wie Duisburg, Hamm oder Bonn landen in den Top 10 eher deshalb, weil die Verspätungswerte relativ hoch sind und damit den Score zusätzlich nach oben ziehen.

Einordnung des Problem-Scores:

Die Tabelle macht sichtbar, dass Handlungsbedarf vor allem dort entsteht, wo viele Pendler und Unpünktlichkeit gleichzeitig auftreten. Große Städte können deshalb auch bei nur moderaten Verspätungen sehr weit oben stehen, während kleinere Städte dann in die Top 10 rutschen, wenn die Verspätungen im Kreis besonders hoch sind.

Erstellen Sie ein Streudiagramm (Scatterplot), das die Beziehung zwischen Einpendlerzahl (x-Achse) und durchschnittlicher Verspätung (y-Achse) visualisiert.

Zeichnen Sie horizontale und vertikale Linien beim jeweiligen Mittelwert ein, um 4 Quadranten zu bilden
Färben Sie die Punkte nach Quadrant
Beschriften Sie die Städte mit den höchsten Problem-Scores
Nutzen Sie eine logarithmische Skala für die x-Achse

Beschreiben und Interpretieren Sie die vier Quadranten:

Oben rechts: Viele Pendler + hohe Verspätung = ?
Oben links: Wenige Pendler + hohe Verspätung = ?
Unten rechts: Viele Pendler + niedrige Verspätung = ?
Unten links: Wenige Pendler + niedrige Verspätung = ?

Beantworten Sie dabei auch folgende Fragen:

Warum ist es sinnvoll die x-Achse zu logarithmieren?
Welche Städte liegen im kritischen Quadranten?
Was würden Sie der Deutschen Bahn empfehlen?

Beschreibung der Grafik:

Das Streudiagramm zeigt für jeden Kreis den Zusammenhang zwischen Einpendlerzahl auf der x-Achse (logarithmisch skaliert) und der gewichteten durchschnittlichen Verspätung in Minuten auf der y-Achse. Eine vertikale und eine horizontale gestrichelte Linie markieren jeweils den Mittelwert der Einpendlerzahl und der Verspätung und teilen die Punkte in vier Quadranten. Die Punkte sind nach Quadrant eingefärbt, und Kreise mit besonders hohen Problem-Scores sind zusätzlich mit ihren Namen beschriftet.

Interpretation der vier Quadranten:

Oben rechts liegen Kreise mit überdurchschnittlich vielen Einpendlern und überdurchschnittlicher Verspätung. Das ist der kritischste Bereich, weil Verspätungen hier sehr viele Pendler gleichzeitig treffen und damit besonders hohe Alltags- und Wohlfahrtsverluste verursachen. Oben links stehen Kreise mit vergleichsweise wenigen Einpendlern, aber hohen Verspätungen. Hier ist die Unpünktlichkeit zwar deutlich, die betroffene Pendlerzahl ist jedoch geringer; der Handlungsbedarf ist eher operativ und streckenbezogen, nicht primär über die Pendlerdimension getrieben. Unten rechts befinden sich Kreise mit vielen Einpendlern, aber unterdurchschnittlicher Verspätung. Die Bahn ist dort relativ zuverlässig, gleichzeitig ist das System empfindlich, weil schon kleine Verschlechterungen wegen der großen Pendlerbasis spürbare Effekte hätten. Unten links liegen Kreise mit wenigen Einpendlern und niedriger Verspätung; hier ist die aktuelle Lage unauffällig und es besteht kein akuter Handlungsdruck.

Warum die x-Achse logarithmisch skaliert ist:

Die Einpendlerzahlen unterscheiden sich stark zwischen Metropolen und kleineren Kreisen. Eine lineare Skala würde dazu führen, dass große Städte die Darstellung dominieren und Unterschiede im mittleren und unteren Bereich kaum noch sichtbar wären. Durch die Log-Skalierung werden Größenordnungen besser vergleichbar, Muster in allen Bereichen der Verteilung werden erkennbar und die Quadrantenlogik bleibt auch für kleinere Kreise interpretierbar.

Welche Städte im kritischen Quadranten liegen:

Im oberen rechten Quadranten sind die beschrifteten Kreise Köln und Düsseldorf deutlich zu sehen; auch München liegt in diesem Bereich, weil die Einpendlerzahl sehr hoch ist und die durchschnittliche Verspätung oberhalb des Mittelwerts liegt. Diese Kreise stehen damit für die Kombination aus hoher Nachfrage und spürbarer Unzuverlässigkeit und sind aus Pendlerperspektive die prioritären Problemräume.

Empfehlungen für die Deutsche Bahn:

Für den oberen rechten Quadranten sollte die DB vorrangig dort ansetzen, wo sich Verspätungen auf stark nachgefragten Korridoren fortpflanzen. Sinnvoll sind Maßnahmen, die die Betriebsstabilität erhöhen und Engpässe reduzieren, etwa durch Kapazitäts- und Signaltechnikmaßnahmen auf belasteten Zuläufen, robustere Fahrpläne mit ausreichenden Pufferzeiten sowie eine bessere Entflechtung von Verkehren, wo Mischverkehr regelmäßig Störungen verstärkt. Für Kreise oben links ist ein stärker zielgerichtetes Vorgehen passend, bei dem konkrete Streckenabschnitte, Baustellenlagen oder Knotenabhängigkeiten identifiziert und lokal entschärft werden. Kreise unten rechts sollten eng überwacht werden, weil sie aufgrund der hohen Pendlerzahlen besonders sensibel auf Qualitätsverschlechterungen reagieren, auch wenn das aktuelle Niveau gut ist.

Allgemeine Interpretation:

Die Handlungsbedarfs-Matrix macht sichtbar, dass hohe Verspätungen allein noch nicht den größten gesellschaftlichen Schaden bedeuten. Entscheidend ist die Kombination aus Verspätung und der Anzahl der Betroffenen. Genau deshalb sind Kreise mit sehr hoher Pendlerzahl auch dann prioritär, wenn die durchschnittliche Verspätung „nur“ moderat ist, während Kreise mit sehr hohen Verspätungen, aber geringer Pendlerzahl eher für gezielte, punktuelle Optimierungen sprechen.

Der Vergleich – Auto vs. Bahn

Sie haben nun identifiziert, wo die Bahn Probleme hat: Städte im kritischen Quadranten (viele Pendler + hohe Verspätungen) brauchen dringend Verbesserungen. Aber bevor Sie Empfehlungen aussprechen können, müssen Sie eine zentrale Frage beantworten:

Lohnt sich die Bahn überhaupt – oder ist das Auto trotz Stau schneller?

Denn selbst wenn die Bahn unpünktlich ist, könnte sie immer noch schneller sein als das Auto im Berufsverkehr. Umgekehrt: Eine pünktliche Bahn bringt wenig, wenn das Auto trotzdem schneller ist. Erst der direkte Vergleich zeigt uns, wo die Bahn wirklich konkurrenzfähig ist – und wo nicht.

Methodische Herausforderungen

Für einen fairen Vergleich sollten Sie “Äpfel mit Äpfeln” vergleichen:

Beim Auto muss der Stau berücksichtigt werden (nicht nur die theoretische Fahrzeit)
Bei der Bahn muss die Verspätung berücksichtigt werden (nicht nur der Fahrplan)
Beide Routen müssen dieselben Start- und Endpunkte haben

Für die Auto-Fahrtzeiten nutzen Sie OSRM (Open Source Routing Machine), das auf OpenStreetMap-Daten basiert. OSRM berechnet echte Straßenrouten, keine Luftlinien.

Erklären Sie in eigenen Worten:

Warum ist OSRM-Routing für diesen Vergleich besser geeignet als eine einfache Berechnung nach der Formel Distanz / Geschwindigkeit?
Welche Faktoren müssen zusätzlich berücksichtigt werden, um einen realistischen Vergleich zu ermöglichen? Denken Sie an:
- Tageszeit
- Parkplatzsuche
- Fußweg zum Ziel
- Wartezeit und Umsteigen bei der Bahn

Warum OSRM-Routing für den Vergleich geeigneter ist als Distanz geteilt durch Geschwindigkeit:

Für den Vergleich zwischen Auto und Bahn ist OSRM deutlich besser geeignet als eine einfache Rechnung nach dem Muster Distanz durch Geschwindigkeit, weil diese Formel die Realität des Straßenverkehrs stark vereinfacht. Sie unterstellt eine konstante Durchschnittsgeschwindigkeit und eine direkte Strecke, obwohl Autofahrten tatsächlich über ein konkretes Straßennetz verlaufen. OSRM nutzt OpenStreetMap-Daten und berechnet die Route entlang realer Straßen, wodurch Umwege, Einbahnstraßen, Abbiegevorgänge, Kreuzungen, Autobahnabschnitte und innerstädtische Netzeffekte in die Fahrzeit einfließen. Gerade in Städten würde eine pauschale Distanzrechnung die Fahrzeit oft deutlich unterschätzen oder überschätzen, weil die tatsächliche Streckenführung stark von der Luftlinie abweichen kann. Damit liefert OSRM eine wesentlich belastbarere Grundlage, wenn man Auto und Bahn fair vergleichen will.

Welche zusätzlichen Faktoren für einen realistischen Vergleich berücksichtigt werden müssen:

Ein fairer Vergleich muss über die reine Fahrzeit hinausgehen und die gesamte Reisezeit von Tür zu Tür abbilden. Die Tageszeit spielt dabei eine zentrale Rolle, weil sowohl Staus im Autoverkehr als auch betriebliche Störungen und Auslastung im Bahnverkehr je nach Uhrzeit stark variieren. Insbesondere zu Pendelzeiten kann die Differenz zwischen theoretischer und tatsächlicher Fahrzeit deutlich größer sein als außerhalb der Spitzenstunden.

Beim Auto kommt hinzu, dass die Reise nicht mit der Ankunft im Zielgebiet endet. In vielen Innenstädten ist die Parkplatzsuche ein relevanter Zeitblock, der je nach Standort und Uhrzeit mehrere Minuten betragen kann und damit die effektive Reisezeit spürbar verlängert. Daran schließt sich häufig ein Fußweg vom Parkplatz zum tatsächlichen Ziel an, der ebenfalls zur Gesamtzeit zählt.

Bei der Bahn müssen zusätzlich zur Fahrplanzeit Verspätungen berücksichtigt werden, weil sie die tatsächliche Ankunftszeit beeinflussen. Außerdem entstehen Zeiten durch Wartephasen vor Abfahrt sowie durch Umstiege. Umstiege verlängern nicht nur die Reisezeit, sondern erhöhen auch die Unsicherheit, weil Anschlusszüge verpasst werden können und zusätzliche Pufferzeiten nötig werden. Auch beim Bahnweg fällt ein Fußweg an, etwa vom Bahnhof oder der Haltestelle bis zum Ziel. Erst wenn diese Komponenten systematisch mitgerechnet werden, ist der Vergleich zwischen Auto und Bahn realistisch und aussagekräftig.

Fazit:

OSRM ist für die Autoseite die passendere Grundlage, weil es reale Routen auf dem Straßennetz abbildet und damit deutlich näher an tatsächlichen Fahrzeiten liegt als eine pauschale Distanzrechnung. Für einen fairen Vergleich müssen anschließend auf beiden Seiten die relevanten Zusatzzeiten einbezogen werden, sodass am Ende die realistische Tür-zu-Tür-Reisezeit gegenübergestellt wird.

Für die Top 10 Einpendler-Städte wurden typische Pendlerstrecken definiert (z.B. Dachau \(\rightarrow\) München, Neuss \(\rightarrow\) Düsseldorf). Die OSRM-Ergebnisse liegen bereits vor. Nutzen Sie für ihre Analyse den Datensatz fahrtzeit.

Erstellen Sie:

Eine Tabelle mit: Stadt, Strecke, Distanz (km), Auto-Fahrzeit (Hauptverkehrszeit), Bahn-Fahrzeit (real), Differenz
Berechnen Sie die jährliche Zeitersparnis bei 220 Arbeitstagen und 2x täglichem Pendeln.

Interpretieren Sie ihre Tabelle:

In wie vielen Fällen ist die Bahn schneller als das Auto?
Wie viele Stunden pro Jahr kann ein Pendler maximal sparen?
Gibt es Strecken, bei denen das Auto schneller ist? Woran könnte das liegen?

Vergleich Auto vs. Bahn auf typischen Pendlerstrecken (Top-10 Einpendler-Städte)
Stadt	Strecke	Distanz (km)	Auto-Fahrzeit HVZ (min)	Bahn-Fahrzeit real (min)	Differenz (min)	Jährliche Zeitersparnis (h)
Berlin	Potsdam → Berlin	34,2	49,3	29,58	19,72	151,2
München	Dachau → München	19,1	40,2	26,08	14,12	108,2
Hannover	Celle → Hannover	42,2	54,4	40,80	13,60	104,3
Frankfurt	Darmstadt → Frankfurt	36,0	35,8	23,00	12,80	98,2
Düsseldorf	Neuss → Düsseldorf	12,1	27,1	17,10	10,00	76,7
Hamburg	Harburg → Hamburg	14,2	24,0	16,27	7,73	59,3
Stuttgart	Esslingen → Stuttgart	14,0	27,2	20,17	7,03	53,9
Nürnberg	Fürth → Nürnberg	10,4	18,9	12,85	6,05	46,4
Köln	Leverkusen → Köln	18,3	28,7	22,79	5,91	45,3
Essen	Mülheim → Essen	11,0	18,0	15,27	2,73	21,0
Ulm	Neu-Ulm → Ulm	3,7	8,1	8,89	-0,79	-6,0

Beschreibung der Tabelle:

Die Tabelle „Vergleich Auto vs. Bahn auf typischen Pendlerstrecken (Top-10 Einpendler-Städte)“ stellt für ausgewählte Pendlerrelationen je Stadt die Distanz in Kilometern, die Auto-Fahrzeit in der Hauptverkehrszeit, die reale Bahn-Fahrzeit sowie die daraus berechnete Zeitdifferenz in Minuten dar. Zusätzlich wird auf Basis von 220 Arbeitstagen und zwei Fahrten pro Tag die jährliche Zeitersparnis in Stunden ausgewiesen, wobei positive Werte einen Zeitvorteil der Bahn und negative Werte einen Zeitvorteil des Autos bedeuten.

Interpretation der Ergebnisse:

In 10 von 11 betrachteten Fällen ist die Bahn schneller als das Auto in der Hauptverkehrszeit. Der größte Zeitvorteil ergibt sich auf der Strecke Potsdam → Berlin, wo die Bahn pro einfache Fahrt rund 19,72 Minuten schneller ist und sich daraus eine maximale jährliche Zeitersparnis von etwa 151,2 Stunden ergibt. Auch auf den Relationen Dachau → München, Celle → Hannover und Darmstadt → Frankfurt liegen die jährlichen Einsparungen jeweils deutlich über 100 Stunden, was zeigt, dass die Bahn auf mehreren stark nachgefragten Pendlerstrecken selbst unter Berücksichtigung realer Verspätungen zeitlich sehr konkurrenzfähig ist.

Strecken, bei denen das Auto schneller ist:

Eine Ausnahme ist Neu-Ulm → Ulm, wo das Auto mit 8,1 Minuten gegenüber 8,89 Minuten bei der Bahn leicht schneller ist, was zu einer negativen jährlichen Differenz von etwa minus 6 Stunden führt. Das kann vor allem an der sehr kurzen Distanz liegen, bei der zusätzliche Bahnkomponenten wie Zugang zur Station, potenzielle Wartezeit und die geringere Netzabdeckung im Nahbereich relativ stärker ins Gewicht fallen, während der Autoweg direkt und ohne Systemwechsel erfolgt.

Allgemeine Einordnung:

Insgesamt deutet die Tabelle darauf hin, dass Stauzeiten im Berufsverkehr bei vielen Pendlerrelationen einen größeren Zeitnachteil für das Auto erzeugen als die Verspätungen der Bahn die Bahnfahrzeit verlängern. Besonders auf mittleren und längeren Strecken kumuliert der Stauvorteil zugunsten der Bahn deutlich, während bei sehr kurzen Relationen kleine Zusatzzeiten die Bahn schnell relativ unattraktiver machen können.

Da Sie alle in Ulm studieren und eventuell aus dem Ulmer Umland einpendeln, sollten Sie die 5 wichtigsten Pendlerrouten nach Ulm näher analysieren. Stellen Sie in einem Dumbbell-Chart (oder Lollipop-Chart) die Unterschiede zwischen Auto- und Bahnzeiten visuell dar. Nutzen Sie für ihre Analyse den Datensatz ulm_routen.

Die 5 wichtigsten Pendlerrouten nach Ulm sind:

Neu-Ulm \(\rightarrow\) Ulm
Blaustein \(\rightarrow\) Ulm
Ehingen \(\rightarrow\) Ulm
Laupheim \(\rightarrow\) Ulm
Langenau \(\rightarrow\) Ulm

Markieren Sie, welche Orte keinen Bahnhof haben.

Beschreiben und interpretieren Sie ihre Grafik. Welche Besonderheiten zeigen die ländlichen Strecken?

Hinweis: Nutzen Sie geom_segment() und geom_point() für ihr Dumbbell-Chart oder Lollipop-Chart.

Beschreibung der Grafik:

Das Dumbbell-Chart vergleicht für fünf Pendelrouten nach Ulm die Fahrzeit mit dem Auto in der Hauptverkehrszeit und die reale Bahnfahrzeit inklusive Verspätungen. Auf der y-Achse stehen die Startorte im Umland, auf der x-Achse die Fahrzeit in Minuten. Pro Route markieren zwei Punkte die Zeiten von Auto und Bahn; die verbindende Linie macht den Zeitabstand zwischen den Verkehrsmitteln sichtbar. Orte ohne Bahnhof werden in der Darstellung explizit gekennzeichnet, sodass erkennbar ist, wo die Bahnzeit durch Zubringer, Umwege oder zusätzliche Wegeanteile geprägt sein kann.

Interpretation der Ergebnisse:

Auf den längeren Relationen ist die Bahn in dieser Auswahl überwiegend schneller als das Auto. Besonders deutlich ist der Vorteil auf den Strecken Ehingen → Ulm und Langenau → Ulm, wo der Abstand zwischen Bahn- und Autozeit klar zugunsten der Bahn ausfällt. Auf Laupheim → Ulm ist der Unterschied kleiner, aber weiterhin zugunsten der Bahn erkennbar, sodass beide Verkehrsmittel zeitlich relativ nahe beieinanderliegen. Im direkten Stadtumland sind die Unterschiede insgesamt gering: Neu-Ulm → Ulm liegt nahezu auf Augenhöhe, während Blaustein → Ulm leicht zugunsten des Autos ausfällt.

Besonderheiten ländlicher Strecken und Orte ohne Bahnhof:

Die Grafik zeigt typische Muster ländlicher Pendelrelationen: Auf längeren Strecken wirkt sich Stau im Berufsverkehr beim Auto stärker aus, während die Bahn durch eine relativ direkte Schienenführung Zeitvorteile erzielen kann. Gleichzeitig können im ländlichen Raum Bahnzeiten stärker durch die „letzte Meile“ geprägt sein, etwa durch Zubringerwege, geringere Taktfrequenzen und zusätzliche Wartezeiten. Das wird besonders relevant, wenn ein Ort keinen Bahnhof hat, wie in der Grafik für Blaustein markiert: Dann kommen zum eigentlichen Bahnabschnitt zusätzliche Wege- und Warteanteile hinzu, die bei kurzen Distanzen schnell den Ausschlag geben und den Autovorteil erklären können. Insgesamt wird damit sichtbar, dass die Bahn im Umland vor allem dann überzeugt, wenn die Schienenanbindung direkt ist und die Reise nicht durch Zubringer- und Umstiegszeiten dominiert wird.

Die volkswirtschaftlichen Kosten

Verspätungen kosten nicht nur Nerven, sie haben einen realen volkswirtschaftlichen Preis. Jede Minute, die ein Pendler im verspäteten Zug wartet, ist verlorene Arbeitszeit.

Um diese Kosten etwas besser zu quantifizieren sollten Sie sich den Medianlohn der jeweiligen Städte herunterladen und näher analysieren.

Berechnen Sie die volkswirtschaftlichen Kosten der Bahnverspätungen für die 11 Städte.

Datensätze:

staedte_basis (aus Aufgabe 4) – enthält Einpendler, Medianlohn und Staudaten
Ergebnis aus Aufgabe 9: die gewichtete durchschnittliche Verspätung pro Stadt (in Minuten)

Nutzen Sie die folgenden Annahmen:

Annahmen:

220 Arbeitstage pro Jahr
2 Fahrten pro Tag (Hin + Zurück)
Ca. 8,4% der Pendler nutzen die Bahn (nationaler Durchschnitt laut MiD 2023 Kurzbericht)

Berechnen Sie für jede Stadt:

Anzahl der Bahnpendler (Einpendler × 8,4%)
Verspätungsstunden pro Jahr (Verspätung × 220 × 2 / 60)
Kosten pro Pendler (Verspätungsstunden × Stundenlohn)
Gesamtkosten der Stadt

Erstellen Sie auf Basis ihrer Berechnung eine Tabelle, welche die Anzahl der Bahnpendler, die Verspätungsstunden pro Jahr, die Kosten pro Pendler und die Gesamtkosten der Stadt anschaulich darstellt.

Beschreiben und interpretieren Sie ihre Tabelle. Gehen Sie dabei auch auf die Gesamtkosten der 11 Städte ein. Erklären Sie außerdem, warum der Medianlohn für diese Berechnung besser geeignet ist als der Durchschnittslohn.

Hinweis: Für die Umrechnung auf Stundenlohn: Monatsentgelt / 160 (bei 40h/Woche).

Zeitverluste durch Bahnverspätungen und ihre volkswirtschaftlichen Kosten Hierbei werden die Top 10 Einpendlerstädte und Ulm betrachtet
Stadt	Bahnpendleranzahl (Einpendler × 8,4%)	Verspätungsstunden pro Jahr (h/Jahr)	Kosten pro Pendler (Euro/Jahr)	Gesamtkosten der Stadt (Euro/Jahr)
München	38.274	43,9	1.329,73	50.894.086,02
Köln	25.780	57,9	1.591,67	41.033.252,60
Frankfurt	34.092	37,7	1.110,27	37.851.324,84
Düsseldorf	23.914	53,8	1.520,93	36.371.520,02
Hamburg	33.008	32,6	922,25	30.441.628,00
Berlin	32.955	34,5	896,31	29.537.896,05
Stuttgart	23.053	38,9	1.140,16	26.284.108,48
Essen	11.869	53,3	1.328,24	15.764.880,56
Nürnberg	13.902	35,6	941,98	13.095.405,96
Hannover	11.586	42,5	1.104,15	12.792.681,90
Ulm	5.741	28,5	768,07	4.409.489,87

Beschreibung der Tabelle:

Die Tabelle „Zeitverluste durch Bahnverspätungen und ihre volkswirtschaftlichen Kosten“ berechnet für die Top-10-Einpendlerstädte plus Ulm die ökonomischen Kosten von Bahnverspätungen. Verwendet werden die Einpendlerzahl, die gewichtete durchschnittliche Verspätung pro Stadt (in Minuten) sowie der Medianlohn, der über Monatsentgelt/160 in einen Stundenlohn umgerechnet wird. Unter den Annahmen von 220 Arbeitstagen pro Jahr, zwei Fahrten pro Tag und einem Bahnanteil von 8,4% ergeben sich vier Größen: Bahnpendleranzahl (Einpendler × 8,4%), Verspätungsstunden pro Jahr (Verspätung × 220 × 2 / 60), Kosten pro Pendler (Verspätungsstunden × Stundenlohn) und daraus die Gesamtkosten der Stadt.

Interpretation der Ergebnisse:

Die höchsten Gesamtkosten entstehen dort, wo viele Bahnpendler auf relevante Verspätungen und ein hohes Lohnniveau treffen. München liegt mit 50.894.086,02 Euro pro Jahr vorn, obwohl die Verspätungsstunden pro Pendler (43,9 h/Jahr) nicht der höchste Wert sind; ausschlaggebend ist die hohe Bahnpendleranzahl (38.274). Köln (41.033.252,60 Euro) und Düsseldorf (36.371.520,02 Euro) stechen insbesondere durch sehr hohe Verspätungsstunden pro Pendler hervor (57,9 bzw. 53,8 h/Jahr), was sich auch in hohen Kosten pro Pendler widerspiegelt (1.591,67 bzw. 1.520,93 Euro/Jahr). Frankfurt erreicht 37.851.324,84 Euro bei vergleichsweise niedrigeren Verspätungsstunden (37,7 h/Jahr), was vor allem mit der großen Bahnpendlerzahl (34.092) zusammenhängt. Berlin und Hamburg liegen trotz moderaterer Kosten pro Pendler (896,31 bzw. 922,25 Euro/Jahr) bei hohen Gesamtkosten (29.537.896,05 bzw. 30.441.628,00 Euro), weil die Zahl der Bahnpendler groß ist. Ulm bildet erwartungsgemäß das untere Ende der Skala (4.409.489,87 Euro), da sowohl Bahnpendleranzahl als auch Verspätungsstunden niedriger ausfallen.

Gesamtkosten der 11 Städte:

Über alle 11 Städte summieren sich die berechneten Kosten auf 298.476.274,30 Euro pro Jahr. Dieser Wert ist als Teilstichprobe zu verstehen: Er bildet nur die ausgewählten Städte ab und ist keine Hochrechnung auf Deutschland insgesamt.

Zentrale Ergebnisse:

Die Ergebnisse zeigen, dass Bahnverspätungen erhebliche volkswirtschaftliche Kosten verursachen. Besonders hohe Gesamtkosten entstehen in Städten mit einer Kombination aus hoher Pendlerzahl, relevanten Verspätungen und hohem Lohnniveau.

Den höchsten volkswirtschaftlichen Schaden weist München auf. Trotz einer moderaten durchschnittlichen Verspätung summieren sich die Kosten aufgrund der hohen Zahl an Bahnpendlern auf rund 51,7 Millionen Euro pro Jahr. Auch Köln, Frankfurt und Düsseldorf verursachen jährliche Gesamtkosten von jeweils über 35 Millionen Euro. In diesen Städten treffen hohe Pendlerzahlen auf überdurchschnittliche Verspätungen, was die gesamtwirtschaftlichen Effekte stark verstärkt.

Städte wie Hamburg und Berlin weisen trotz vergleichsweise niedrigerer Verspätungsstunden ebenfalls hohe Gesamtkosten auf, was vor allem auf die große Anzahl an Bahnpendlern zurückzuführen ist. Demgegenüber fallen die Gesamtkosten in kleineren Städten wie Ulm deutlich geringer aus, obwohl auch hier Verspätungen auftreten.

In der Summe belaufen sich die volkswirtschaftlichen Kosten der Bahnverspätungen für die betrachteten 11 Städte auf einen dreistelligen Millionenbetrag pro Jahr, was die gesamtgesellschaftliche Relevanz des Problems unterstreicht.

Warum ist der Medianlohn besser geeignet als der Durchschnittslohn?:

Für die Berechnung der volkswirtschaftlichen Kosten wird bewusst der Medianlohn verwendet und nicht der Durchschnittslohn. Der Median stellt das mittlere Einkommen dar und ist weniger anfällig für Verzerrungen durch sehr hohe Einkommen einzelner Spitzenverdiener.

Der Durchschnittslohn würde die tatsächlichen Kosten überschätzen, da er durch wenige sehr hohe Einkommen nach oben gezogen wird und somit nicht repräsentativ für den „typischen“ Pendler ist. Der Medianlohn hingegen bildet die Einkommenssituation der Mehrheit der Beschäftigten realistischer ab und eignet sich daher besser zur Bewertung der gesamtwirtschaftlichen Zeitverluste durch Bahnverspätungen.

Fazit:

Insgesamt zeigt die Analyse, dass Bahnverspätungen nicht nur individuelle Unannehmlichkeiten darstellen, sondern erhebliche ökonomische Kosten verursachen. Besonders in Städten mit vielen Pendlern und hohem Lohnniveau besteht ein klarer wirtschaftlicher Anreiz, die Zuverlässigkeit des Bahnverkehrs gezielt zu verbessern.

Setzen Sie die Kosten der Bahn (aus Aufgabe 14) den Kosten des Autos gegenüber. Vergleichen Sie diese in einer Szenario-Analyse mittels eines gestapelten Balkendiagramms. Nutzen Sie für ihre Analysen den Datensatz staedte_basis.

Berechnen Sie zuerst die Kosten des Autostaus pro Stadt:

Anzahl der Autopendler (Einpendler × 91,6%)
Staukosten pro Autopendler (Staustunden × Stundenlohn)
Gesamtkosten der Stadt durch Autostau

Führen Sie anschließend einen Szenario-Vergleich durch: Was passiert, wenn der Bahnanteil von 8,4% auf 20% steigt?

Berechnen Sie die Gesamtkosten (Bahn + Auto) für beide Szenarien
Annahme: Weniger Autos = weniger Stau (z.B. 20% weniger Stauzeit pro Autopendler)

Erstellen Sie ein gestapeltes Balkendiagramm nach Szenario. Beschreiben und intepretieren Sie ihre Grafik. Gehen Sie insbesondere auf die folgenden Fragen ein:

Wie verteilen sich die Kosten zwischen Bahn und Auto im Status quo?
Welches Verkehrsmittel verursacht den größeren volkswirtschaftlichen Schaden?
Was ist die Nettoersparnis bei 20% Bahnanteil?

Beschreibung der Grafik:

Das gestapelte Balkendiagramm stellt die volkswirtschaftlichen Kosten pro Jahr für ausgewählte Städte in zwei Szenarien gegenüber: oben den Status quo mit 8,4% Bahnanteil, unten ein Szenario mit 20% Bahnanteil. Für jede Stadt sind die Gesamtkosten als Summe aus zwei gestapelten Komponenten dargestellt: Kosten durch Autostau und Kosten durch Bahnverspätungen. Die x-Achse zeigt die Kosten pro Jahr in Millionen Euro, die y-Achse die betrachteten Städte. Durch die zwei Panels ist direkt sichtbar, wie sich die Gesamtkosten und ihre Zusammensetzung zwischen den Szenarien verändern.

Wie verteilen sich die Kosten zwischen Bahn und Auto im Status quo?:

Im Status quo dominiert in allen dargestellten Städten die Autokomponente deutlich. Die Kosten durch Autostau machen den weitaus größten Anteil der Gesamtkosten aus, während die Bahnkomponente nur einen vergleichsweise kleinen Teil beisteuert. Besonders ausgeprägt ist diese Dominanz in den großen Pendlerstädten wie München, Frankfurt, Berlin, Köln, Düsseldorf und Hamburg, wo die Gesamtkosten vor allem durch den Stau im Autoverkehr getragen werden.

Welches Verkehrsmittel verursacht den größeren volkswirtschaftlichen Schaden?:

Im Vergleich der beiden Komponenten ist der Autoverkehr klar der größere Kostentreiber. Selbst dort, wo Bahnverspätungen sichtbar sind, bleibt ihr Anteil an den Gesamtkosten deutlich unter dem der Staukosten. Die Grafik macht damit deutlich, dass der volkswirtschaftliche Schaden im Pendelverkehr in erster Linie durch Zeitverluste im Straßenverkehr entsteht.

Was ist die Nettoersparnis bei 20% Bahnanteil?:

Im 20%-Szenario verschiebt sich die Kostenstruktur: Der Bahnanteil an den Gesamtkosten steigt, gleichzeitig sinkt die Autokomponente, weil bei weniger Autopendlern zusätzlich eine Reduktion der Stauzeit pro Autopendler angenommen wird. In der Gesamtsicht fallen die Balken im 20%-Szenario bei den meisten Städten kürzer aus als im Status quo, was auf eine Nettoentlastung hindeutet. Der größte absolute Rückgang zeigt sich in den Städten mit besonders hohen Staukosten im Ausgangszustand, insbesondere München, Frankfurt und Berlin, weil dort eine Reduktion des Autoverkehrs besonders stark in geringeren Staukosten sichtbar wird.

Interpretation und Fazit:

Die Grafik zeigt, dass ein höherer Bahnanteil trotz steigender Bahnkosten insgesamt zu niedrigeren volkswirtschaftlichen Gesamtkosten führen kann, weil die Einsparungen beim Autostau den zusätzlichen Kostenblock der Bahn überwiegen. Damit spricht die Szenarioanalyse dafür, dass eine Verlagerung von Pendelverkehr zur Bahn vor allem in großen Pendlerstädten das Potenzial hat, die größten gesamtwirtschaftlichen Zeitverluste zu reduzieren, sofern die zusätzliche Nachfrage im Bahnverkehr betrieblich aufgefangen werden kann.

Politikempfehlung – Ihre Synthese

Sie haben nun umfangreiche Analysen durchgeführt und viele Erkenntnisse über die Bahn gewonnen. Jetzt ist es Zeit, diese zu einer kohärenten Empfehlung zusammenzufügen.

Szenario: Sie sind Berater:in des Bundesministeriums für Digitales und Verkehr. Die Ministerin bittet Sie um eine evidenzbasierte Politikempfehlung zur Verbesserung des Pendlerverkehrs in Deutschland.

Formulieren Sie eine Politikempfehlung für das Bundesministerium für Digitales und Verkehr.

Schreiben Sie eine Executive Summary (max. 5 Sätze). Fassen Sie hierbei die wichtigsten Erkenntnisse aus ihrem Projekt zusammen. Was ist die zentrale Botschaft?

Formulieren Sie 3 konkrete Empfehlungen. Jede muss enthalten:

Ein konkretes Ziel (Was soll erreicht werden?)
Eine messbare Maßnahme (Wie wird es umgesetzt?)
Eine Begründung mit Zahlen aus Ihrer Analyse
Nennen Sie zwei Limitationen Ihrer Datengrundlage
Was würden Sie mit zusätzlichen Daten noch untersuchen?

Zusammenfassung:

In Deutschland pendeln täglich rund 20,5 Mio. Menschen, und in Großstädten gehen laut INRIX pro Person jährlich etwa 40–60 Stunden im Stau verloren. In unserer Top-10/Top-11-Stichprobe werden die volkswirtschaftlichen Pendelkosten klar vom Autoverkehr dominiert (über 75% der Gesamtkosten), während die Bahn im Fernverkehr zugleich nur 56,7–60,2% Pünktlichkeit bei einer Schwelle von ≤6 Minuten erreicht und im Mittel 11–12 Minuten verspätet ist. Trotz des kleineren Bahnanteils entstehen in Pendler-Hotspots erhebliche Verspätungskosten, etwa in München (ca. 51,7 Mio. €), Köln (ca. 40,5 Mio. €) und Frankfurt (ca. 36,8 Mio. €) pro Jahr. In einem vereinfachten Szenario steigt der Bahnanteil von 8,4% auf 20% und die Stauzeit sinkt um 20%, wodurch die Gesamtkosten in unserer Rechnung um 846.468 € zurückgehen. Die zentrale Botschaft lautet: Wer Zeitverluste und Emissionen senken will, muss Staukosten im Auto spürbar reduzieren und gleichzeitig die Zuverlässigkeit der Bahn in den wichtigsten Pendlerkorridoren erhöhen, zumal die Bahn mit 38,6 g CO₂e/pkm gegenüber 164 g beim Pkw rund 76,5% klimafreundlicher ist.

Empfehlung 1: Zuverlässigkeit der Bahn in Pendlerkorridoren priorisieren: Ziel:

Kurzfristig spürbare Zeitgewinne für Pendlerinnen und Pendler erzielen, indem Verspätungen dort sinken, wo sie die meisten Menschen treffen, also in den großen Knoten und auf deren Zulaufstrecken.

Messbare Maßnahme:

Ein Programm „Pünktlichkeit in Pendlerkorridoren“ soll bis 2028 die Fernverkehrs-Pünktlichkeit bei der Definition ≤6 Minuten von aktuell 56,7–60,2% auf mindestens 70% erhöhen und die durchschnittliche Fernverkehrsverspätung von etwa 11–12 Minuten auf unter 8 Minuten senken. Der operative Schwerpunkt liegt auf den Hauptverkehrszeiten (ungefähr 5–9 Uhr sowie 16–19 Uhr), weil in diesen Zeitfenstern das Pendelaufkommen besonders hoch ist und Stabilitätseffekte am stärksten wirken.

Begründung mit Zahlen aus der Analyse:

Die wirtschaftliche Relevanz ist in den Hotspots sichtbar: Allein die aus Verspätungen abgeleiteten jährlichen Kosten liegen in unserer Rechnung bei rund 51,7 Mio. € für München, 40,5 Mio. € für Köln und 36,8 Mio. € für Frankfurt. Zusätzlich zeigen die Pro-Kopf-Größenordnungen, dass sich Verspätungen für einzelne Bahnpendler erheblich summieren können, beispielsweise Nürnberg mit etwa 941 € pro Jahr und Hannover mit etwa 1.104 € pro Jahr in unserer Rechnung.

Zwei Limitationen der Datengrundlage:

Erstens basiert die Bahn-Auswertung auf Zughalten statt auf vollständigen Reisen, sodass Zwischenhalte, Anschlusssituationen und ein mögliches „Aufholen“ von Verspätungen nicht vollständig abgebildet werden. Zweitens beruht die räumliche Zuordnung auf einem Bahnhof-zu-Kreis-Mapping, das zwangsläufig Unschärfen enthält und damit die Präzision auf Kreisebene begrenzt.

Was wir mit zusätzlichen Daten noch untersuchen würden:

Mit journey-basierten Daten inklusive Umstiegen und Anschlusssicherheit sowie mit Auslastungs- und Fahrgastdaten je Linie ließe sich bestimmen, wo Verspätungen die meisten Personen treffen und welche Maßnahmen den größten Nutzen pro Euro erzeugen. Ergänzend würden Störungs- und Ursachenkennziffern (Infrastruktur, Disposition, Fahrzeugverfügbarkeit) helfen, die Haupttreiber in den Pendlerkorridoren zielgenau zu adressieren.

Empfehlung 2: Modal-Shift in Top-Regionen auslösen und Staukosten senken: Ziel:

Den größten Kostentreiber reduzieren, indem in stark belasteten Regionen der Anteil der Autopendler sinkt, Stauzeiten pro Fahrer zurückgehen und die Gesamtverluste im Pendelverkehr spürbar fallen.

Messbare Maßnahme:

Ein regional fokussiertes Pendlerprogramm soll bis 2030 in den betrachteten Top-Regionen den Bahnanteil als Zielgröße auf mindestens 20% anheben (statt 8,4%) und parallel eine Reduktion der Stauzeit pro Autopendler um 20% erreichen. Das wird an konkrete Angebots- und Kapazitätsbausteine gekoppelt, insbesondere zusätzliche Takte und höhere Kapazitäten in der HVZ, verlässliche Zubringer (Bus, Park-and-Ride) sowie ein aktives Verkehrsmanagement zur Glättung von Stauspitzen.

Begründung mit Zahlen aus der Analyse:

In der Stichprobe entfallen über 75% der volkswirtschaftlichen Pendelkosten auf den Autoverkehr, was den Hebel im Straßenverkehr unterstreicht. Die Stauintensität ist hoch, etwa Düsseldorf mit 60 Staustunden pro Jahr, was rund 7,5 Arbeitstagen entspricht. Entsprechend groß sind die abgeleiteten Stadtkosten, beispielsweise München mit etwa 695,4 Mio. €, Nürnberg mit etwa 140,4 Mio. € und Ulm mit etwa 57,4 Mio. € pro Jahr in unserer Rechnung. In unserem Szenario mit 20% Bahnanteil und 20% weniger Stauzeit sinken die Gesamtkosten um 846.468 €, was den Nettoeffekt in der Modellrechnung zeigt.

Zwei Limitationen der Datengrundlage:

Erstens ist der verwendete Bahnanteil von 8,4% ein Durchschnittswert und kann regional deutlich abweichen, sodass lokale Potenziale und Wirkungen anders ausfallen können als im vereinfachten Ansatz. Zweitens sind die INRIX-Stauwerte stadtweite Durchschnittswerte, die nicht jede Pendelrelation abbilden, und für einzelne Städte können Werte fehlen oder nur eingeschränkt vergleichbar sein.

Was wir mit zusätzlichen Daten noch untersuchen würden:

Mit origin-destination Pendlerströmen (Wohnort–Arbeitsort), regionalen Modal-Splits und Ticketdaten (Jobticket, Deutschlandticket-Nutzung) ließe sich quantifizieren, auf welchen Korridoren ein Wechsel zur Bahn am wahrscheinlichsten ist. Zusätzlich würden Kapazitäts- und Auslastungsprofile helfen, zu prüfen, ob Angebotsausweitungen die Nachfrage aufnehmen können, ohne die Zuverlässigkeit zu verschlechtern.

Empfehlung 3: Zeitverlust und CO₂ als Steuerungsgrößen verpflichtend monitoren: Ziel:

Verkehrspolitik stärker ergebnisorientiert steuern, indem Zeitverluste (Stau und Verspätung) und Emissionen regelmäßig gemessen, transparent berichtet und bei Zielverfehlung konsequent nachgesteuert werden.

Messbare Maßnahme:

Ein monatliches Pendel-Dashboard für die wichtigsten Regionen soll Pünktlichkeit (≤6 Minuten), durchschnittliche Verspätung und Ausfälle im Bahnverkehr sowie Staustunden im Straßenverkehr und CO₂e pro Personenkilometer abbilden. Bis 2030 wird ein Zielpfad festgelegt, der eine deutliche Reduktion der Zeitverluste und der Emissionsintensität verlangt und bei Abweichungen automatisch Maßnahmen auslöst, etwa zusätzliche Kapazität oder Betriebsstabilisierung in den relevantesten Korridoren.

Begründung mit Zahlen aus der Analyse:

Die Klimadimension ist eindeutig: 38,6 g CO₂e/pkm für die Bahn gegenüber 164 g beim Pkw entsprechen rund 76,5% geringeren Emissionen pro Personenkilometer. Gleichzeitig zeigen unsere Ergebnisse zur Unpünktlichkeit, dass Hotspots existieren und Verspätungen an problematischen Stationen (bei mindestens 1.000 Halten im Monat) im Bereich von etwa 12–16 Minuten liegen können. Zudem ist die Nachfrageentwicklung im ÖPNV im Zeitvergleich träge, etwa von 10% (2017) auf 11% (2023), was die Notwendigkeit einer konsequenten Steuerung unterstreicht.

Zwei Limitationen der Datengrundlage:

Erstens beruhen CO₂-Faktoren auf Durchschnittswerten und können je nach Auslastung, Fahrzeugmix und regionalem Strommix abweichen. Zweitens hängen absolute Kosten- und Zeiteffekte von Modellannahmen ab, etwa Arbeitstage pro Jahr, Pendelhäufigkeit und der gewählten Pünktlichkeitsschwelle, auch wenn die relativen Muster in der Analyse stabil bleiben.

Was wir mit zusätzlichen Daten noch untersuchen würden:

Mit realen Personenkilometern nach Region, Auslastungsdaten und einer detaillierten Energie- und Fahrzeugstruktur ließe sich die Klimawirkung pro Korridor präziser bewerten. Ergänzend würden Anschluss- und Umsteigedaten sowie Vorher-Nachher-Auswertungen erlauben, Maßnahmen kausal zu evaluieren, also zu messen, welche Intervention Stau, Verspätung und Emissionen tatsächlich senkt und zu welchen Kosten.

Zusatzaufgaben (optional)

Bisher haben Sie zwei Dimensionen betrachtet: Zeit (Bahn ist schneller) und Geld (Verspätungen kosten). Aber es gibt einen dritten, oft vergessenen Aspekt: die Umwelt.

Das Auto ist nicht nur langsamer und teurer; es ist auch ein Klimakiller. Ein durchschnittlicher PKW emittiert z.B. etwa 150 g CO2 pro Personenkilometer.

Recherchieren Sie die CO2-Emissionsfaktoren und das Mobilitätsverhalten:

Erstellen Sie eine kleine Tabelle in der Sie die CO2-Emissionen (in g/Personenkilometer) für folgende Verkehrsmittel auflisten:
- PKW (Durchschnitt)
- PKW (Elektro, deutscher Strommix)
- ICE/IC (Fernverkehr)
- RE/RB (Nahverkehr)
- S-Bahn
Berechnen Sie einen gewichteten Durchschnitt für die Bahn, wenn 70% der Pendler Nahverkehr und 30% Fernverkehr nutzen.
Um wie viel Prozent sind die Bahn-Emissionen niedriger als beim Auto?

Hinweis: Nutzen Sie Daten vom Umweltbundesamt oder dem DB Umweltbericht.

Verkehrsmittel	g CO₂e / PKM
CO₂e-Emissionen nach Verkehrsmittel
Angaben in g CO₂e pro Personenkilometer (g/PKM)
PKW (Durchschnitt)	164
PKW (Elektro, deutscher Strommix)	70
ICE/IC (Fernverkehr)	26
RE/RB (Nahverkehr)	44
S-Bahn (Proxy = Nahverkehr, da UBA nicht separat)	44
S-Bahn: Proxy = Eisenbahn Nahverkehr (UBA nicht separat ausgewiesen).

Bahn (70% NV / 30% FV) in g CO₂e / PKM	Bahn vs. PKW: % niedriger
Auswertung
Gewichteter Bahn-Mix und Vergleich zum PKW
38.6	76.5

Die Tabelle zeigt die CO₂e-Emissionen pro Personenkilometer (g/Personenkilometer) für ausgewählte Verkehrsmittel. Der durchschnittliche PKW liegt bei 164 g/PKM, ein Elektro-PKW (deutscher Strommix) bei 70 g/PKM. Bei der Bahn sind die Werte deutlich niedriger: ICE/IC (Fernverkehr) verursacht 26 g/PKM, RE/RB (Nahverkehr) 44 g/PKM. Für die S-Bahn wurde mangels separater Ausweisung derselbe Faktor wie für den Nahverkehr angesetzt (44 g/PKM).

Was bedeutet CO₂e? CO₂e steht für „CO₂-Äquivalente“. Das ist eine gemeinsame Maßeinheit für die Klimawirkung verschiedener Treibhausgase: Nicht nur CO₂, sondern auch z. B. Methan (CH₄) oder Lachgas (N₂O) werden anhand ihrer Erwärmungswirkung in „entsprechende“ CO₂-Mengen umgerechnet. Deshalb nutzen Institutionen wie das Umweltbundesamt häufig CO₂e, weil damit Treibhausgaswirkungen vergleichbar in einer Zahl zusammengefasst werden (je nach Methodik teils auch inklusive energiebereitstellungsbezogener Emissionen, z. B. Strommix).

Erkenntniss: Für Pendler, die zu 70 % Nahverkehr und zu 30 % Fernverkehr nutzen, ergibt sich für die Bahn ein gewichteter Durchschnitt von 38,6 g/PKM. Verglichen mit dem durchschnittlichen PKW sind die Bahn-Emissionen damit um 76,5 % niedriger (38,6 g/PKM statt 164 g/PKM).

Die Studie “Mobilität in Deutschland” (MiD 2023) ist die wichtigste Datenquelle zum Mobilitätsverhalten in Deutschland. Sie ermöglicht einen Vergleich mit 2017 (vor Corona).

Lesen Sie den MiD 2023 Kurzbericht und beantworten Sie:

Modal Split: Wie hat sich der Anteil des öffentlichen Verkehrs (ÖV) am Gesamtverkehr zwischen 2017 und 2023 verändert?
Homeoffice-Effekt: Wie hat sich die durchschnittliche Tagesstrecke verändert? Was ist laut MiD der Hauptgrund für diese Veränderung?
Stadt vs. Land: Welchen Anteil hat das Deutschlandticket in Metropolen vs. ländlichen Räumen? Was bedeutet das für die Ulm-Region?
Implikation für CO2: Welche Schlussfolgerung ziehen Sie aus diesen Veränderungen für das CO2-Einsparpotenzial durch Bahnpendeln? (2-3 Sätze)

Modal Split: Von 2017 bis 2023 ist der Anteil des öffentlichen Verkehrs (ÖV) an allen zurückgelegten Wegen von 10% auf 11% gestiegen. ² Gleichzeitig wuchs der Anteil der zu Fuß zurückgelegten Wege von 22% auf 26%. Die Tabelle „Wege in Mio. pro Tag / Personenkilometer in Mio. pro Tag“ im MiD2023-Kurzbericht zeigt, dass die durchschnittliche Anzahl der Wege pro Tag von 26Mio. auf 27Mio. angestiegen ist, während die insgesamt zurückgelegten Personenkilometer von 605Mio. auf 564Mio. gesunken sind. Der Anteil des ÖV an den Personenkilometern beträgt etwa ein Fünftel. ³

Homeoffice-Effekt: Laut dem MiD-2023-Kurzbericht ist die durchschnittliche Tagesstrecke pro Person zwischen 2017 und 2023 leicht gesunken. Eine Tabelle im Bericht zeigt eine Abnahme von rund 5 km pro Person und Tag, was eine bemerkenswerte Veränderung darstellt. Als Gründe für den Rückgang der durchschnittlichen Tagesstrecke werden im Bericht mehrere Einflussfaktoren genannt, darunter strukturelle Veränderungen im Mobilitätsverhalten sowie die zunehmende Nutzung von Online-Angeboten für Arbeit, Einkauf und Versorgung. Auch die wachsende Verbreitung von Homeoffice wird im Text als ein Faktor genannt, der sich weiterhin auf das Mobilitätsverhalten auswirkt und zur Reduzierung von Pendelwegen beiträgt. ⁴

Stadt vs. Land: Bei der Nutzung des Deutschlandtickets zeigt sich ein deutlicher Unterschied zwischen städtischen und ländlichen Regionen: In Metropolen nutzen etwa 33 % der Bevölkerung das Deutschlandticket als übliche Fahrkarte, während der Anteil in ländlichen Räumen nur bei rund 10 % liegt. ⁵ Für die Ulm-Region, die als mittelgroße Stadt mit ländlichem Umland gilt, bedeutet dies, dass das Potenzial für die Deutschlandticket-Nutzung in dichter besiedelten Bereichen höher ist, während auf dem Land die Abhängigkeit vom Auto nach wie vor groß bleibt. Daraus ergibt sich ein Handlungsbedarf, um Angebot und Attraktivität des öffentlichen Verkehrs für Pendler im Umland zu steigern. ⁶

Implikation für CO2: Die leichten Veränderungen im Mobilitätsverhalten deuten auf ein moderates CO₂-Einsparpotenzial durch vermehrtes Bahnpendeln hin. Die Verlagerung vom Auto hin zu öffentlichen Verkehrsmitteln und aktiven Verkehrsmitteln wie Rad und Fuß, zusammen mit der gestiegenen Nutzung des Deutschlandtickets, kann insbesondere in städtischen Regionen die Pkw-Kilometer und damit die CO₂-Emissionen reduzieren. In ländlichen Gebieten ist das Potenzial hingegen begrenzter, sodass zusätzliche Maßnahmen notwendig sind, um ähnliche Effekte zu erzielen. ⁷

Stadt vs. Land:

Bei der Nutzung des Deutschlandtickets zeigt sich ein deutlicher Unterschied zwischen städtischen und ländlichen Regionen: In Metropolen nutzen etwa 33 % der Bevölkerung das Deutschlandticket als übliche Fahrkarte, während der Anteil in ländlichen Räumen nur bei rund 10 % liegt (BMV, MiD 2023). Für die Ulm-Region, die als mittelgroße Stadt mit ländlichem Umland gilt, bedeutet dies, dass das Potenzial für die Deutschlandticket-Nutzung in dichter besiedelten Bereichen höher ist, während auf dem Land die Abhängigkeit vom Auto nach wie vor groß bleibt. Daraus ergibt sich ein Handlungsbedarf, um Angebot und Attraktivität des öffentlichen Verkehrs für Pendler im Umland zu steigern.

Berechnen Sie die CO2-Ersparnis für die 11 analysierten Städte.

Datensatz: co2_analyse (aus Aufgabe 4) – enthält Streckenlängen, Einpendlerzahlen und vorberechnete Werte

Annahmen:

220 Arbeitstage pro Jahr
2 Fahrten pro Tag (Hin + Zurück)
CO2-Auto: 150 g/km, CO2-Bahn: 47 g/km (gewichteter Durchschnitt)

Berechnen Sie für jeden Umsteiger (Auto \(\rightarrow\) Bahn):

Jährliche Kilometer
CO2-Emissionen mit Auto (kg/Jahr)
CO2-Emissionen mit Bahn (kg/Jahr)
Ersparnis (kg/Jahr)

Nun sollten Sie eine Szenario Analyse ähnlich wie in Aufgabe 15 durchführen: Wenn sich der Bahnanteil von 8,4% auf 20% erhöht: wie viele Tonnen CO2 würden in den 11 Städten jährlich eingespart?

Visualisieren Sie die CO2-Ersparnis pro Stadt.

Stellen Sie die Ersparnis in Kontext, um die Ersparnis greifbarer zu machen, z.B. wie viele Mallorca-Flüge (hin + zurück, ~750 kg CO2) entspricht das?

Beschreibung und Interpretation der CO₂-Ersparnis

Die Abbildung zeigt die jährliche CO₂-Ersparnis in den elf untersuchten Städten, die sich ergibt, wenn der Bahnanteil im Pendlerverkehr von derzeit 8,4 % auf 20 % steigt. Berücksichtigt wird dabei ausschließlich die zusätzliche Verlagerung von Pendlerinnen und Pendlern vom Auto auf die Bahn. Es zeigt sich, dass die CO₂-Einsparpotenziale stark zwischen den Städten variieren. Besonders hohe Einsparungen ergeben sich in großen Metropolregionen wie Frankfurt, Berlin und München. Diese Städte vereinen eine hohe Zahl an Einpendlern mit vergleichsweise langen Pendeldistanzen, sodass bereits ein moderater Anstieg des Bahnanteils zu erheblichen Emissionsreduktionen führt. In Frankfurt und Berlin können jeweils mehrere zehntausend Tonnen CO₂ pro Jahr eingespart werden. Mittlere Einsparpotenziale weisen Städte wie Hannover, Köln und Hamburg auf. Obwohl auch hier viele Pendler unterwegs sind, fallen die Effekte geringer aus, da entweder die Pendelstrecken kürzer sind oder die Einpendlerzahlen niedriger liegen als in den größten Metropolen. Deutlich geringere Einsparungen zeigen sich in kleineren Städten wie Nürnberg, Essen und insbesondere Ulm. Dort sind sowohl die absoluten Pendlerzahlen als auch die durchschnittlichen Pendeldistanzen geringer, sodass selbst ein deutlicher Anstieg des Bahnanteils nur begrenzte CO₂-Reduktionen ermöglicht.

Einordnung der Ergebnisse Insgesamt verdeutlicht die Analyse, dass bereits eine realistische Verschiebung des Modal Splits zugunsten der Bahn erhebliche Klimavorteile bringen kann. Der Pendlerverkehr stellt damit einen zentralen Hebel für die Reduktion verkehrsbedingter CO₂-Emissionen dar, insbesondere in großen Städten und Ballungsräumen. Die Ergebnisse unterstreichen zudem, dass verkehrspolitische Maßnahmen zur Stärkung des Schienenverkehrs vor allem dort besonders wirksam sind, wo hohe Pendlerströme und längere Wegstrecken zusammenkommen.

Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (`bahnhof_ags_mapping.csv`)

Dieses Mapping ist essenziell für die Verknüpfung von Bahn- und Pendlerdaten. Die Bahndaten sind auf Bahnhofsebene (z.B. “München Hbf”), die Pendlerdaten auf Kreisebene (z.B. “München, Landeshauptstadt”). Der AGS (Amtlicher Gemeindeschlüssel) ist der Schlüssel, der beide Welten verbindet.

Wichtige Variablen:

station_name: Name des Bahnhofs
ags: Amtlicher Gemeindeschlüssel (5-stellig für Kreise)
kreis_name: Name des Landkreises/der kreisfreien Stadt

2. Fahrtzeit-Vergleich OSRM (`fahrtzeit_osrm_vergleich.csv`)

Für einen fairen Vergleich Auto vs. Bahn brauchen wir realistische Fahrtzeiten. OSRM (Open Source Routing Machine) berechnet echte Straßenrouten basierend auf OpenStreetMap – keine Luftlinien, sondern tatsächliche Straßenverbindungen mit Abbiegevorgängen, Geschwindigkeitsbegrenzungen und Straßentypen.

Wichtige Variablen:

stadt: Zielstadt der Pendlerstrecke
strecke_name: Beschreibung der Route (z.B. “Dachau \(\rightarrow\) München”)
auto_distanz_km: Fahrstrecke mit dem Auto in km
auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit (mit Staufaktor)
bahn_planzeit_min: Fahrzeit laut Fahrplan
bahn_verspaetung_min: Durchschnittliche Verspätung
bahn_real_min: Realistische Bahnfahrzeit (Fahrplan + Verspätung)

Wie wurde das Routing durchgeführt?

Koordinaten ermitteln: Für jede Pendlerstrecke wurden Start- und Zielkoordinaten definiert (z.B. Stadtzentrum Dachau \(\rightarrow\) München Hauptbahnhof).
OSRM-API abfragen: Über die öffentliche OSRM-Demo-API (router.project-osrm.org) wurden für jede Route Distanz und Fahrzeit abgefragt. Die API gibt die schnellste Route zurück, basierend auf dem aktuellen Straßennetz.
Staufaktor anwenden: Die OSRM-Basisfahrzeit entspricht einer Fahrt bei freiem Verkehr. Für die Hauptverkehrszeit (HVZ) wurde ein Staufaktor von 1,3-1,5 angewendet, basierend auf den INRIX-Daten der jeweiligen Stadt.
Bahn-Daten ergänzen: Die Bahnfahrzeiten stammen aus dem DB-Fahrplan, ergänzt um die durchschnittliche Verspätung aus unserer Analyse.

Weiterführende Links:

OSRM Projekt-Website – Dokumentation und Demo
OSRM API-Dokumentation – Technische Details zur API
OpenStreetMap – Die Kartendaten, auf denen OSRM basiert
R-Paket osrm – Für eigene OSRM-Abfragen in R

3. Ulm-Pendlerrouten (`ulm_pendlerrouten.csv`)

Da Sie in Ulm studieren, analysieren wir die wichtigsten Pendlerrouten in die Stadt genauer. Dieser Datensatz enthält die 5 wichtigsten Einpendler-Gemeinden mit detaillierten Informationen zur Erreichbarkeit.

Wichtige Variablen:

start_ort: Startgemeinde der Pendlerroute
ziel_ort: Zielort (Ulm)
auto_dauer_min: Fahrzeit mit dem Auto
auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit
bahn_fahrplan_min: Bahnfahrzeit laut Fahrplan
bahn_real_min: Realistische Bahnfahrzeit
hat_bahnhof: TRUE/FALSE – hat der Startort einen Bahnanschluss?
pendler_geschaetzt: Geschätzte Anzahl Pendler auf dieser Route

4. Entgeltstatistik (`ba_entgeltstatistik_2024.csv`)

Um die volkswirtschaftlichen Kosten von Verspätungen zu berechnen, brauchen wir regionale Lohndaten. Diese haben wir von der Bundesagentur für Arbeit heruntergeladen.

Wichtige Variablen:

kreis_name: Name des Kreises/der Stadt
ags: Amtlicher Gemeindeschlüssel
medianentgelt_brutto_monat: Median-Bruttomonatsentgelt in Euro

Quelle: Bundesagentur für Arbeit, Entgeltstatistik 2024

Pendeln in Deutschland

Zeit für die Bahn? – Eine datenbasierte Analyse

Motivation

Datengrundlage

Daten einlesen und verstehen

Die Pünktlichkeit der Deutschen Bahn

Von der Zeit zum Ort: Wo entstehen die Verspätungen?

Wo treffen viele Pendler auf eine unpünktliche Bahn?

Der Vergleich – Auto vs. Bahn

Methodische Herausforderungen

Die volkswirtschaftlichen Kosten

Politikempfehlung – Ihre Synthese

Zusatzaufgaben (optional)

Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (`bahnhof_ags_mapping.csv`)

2. Fahrtzeit-Vergleich OSRM (`fahrtzeit_osrm_vergleich.csv`)

3. Ulm-Pendlerrouten (`ulm_pendlerrouten.csv`)

4. Entgeltstatistik (`ba_entgeltstatistik_2024.csv`)

Pendeln in Deutschland

Zeit für die Bahn? – Eine datenbasierte Analyse

Motivation

Datengrundlage

Daten einlesen und verstehen

Die Pünktlichkeit der Deutschen Bahn

Von der Zeit zum Ort: Wo entstehen die Verspätungen?

Wo treffen viele Pendler auf eine unpünktliche Bahn?

Der Vergleich – Auto vs. Bahn

Methodische Herausforderungen

Die volkswirtschaftlichen Kosten

Politikempfehlung – Ihre Synthese

Zusatzaufgaben (optional)

Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (bahnhof_ags_mapping.csv)

2. Fahrtzeit-Vergleich OSRM (fahrtzeit_osrm_vergleich.csv)

3. Ulm-Pendlerrouten (ulm_pendlerrouten.csv)

4. Entgeltstatistik (ba_entgeltstatistik_2024.csv)

1. Bahnhof-Kreis-Mapping (`bahnhof_ags_mapping.csv`)

2. Fahrtzeit-Vergleich OSRM (`fahrtzeit_osrm_vergleich.csv`)

3. Ulm-Pendlerrouten (`ulm_pendlerrouten.csv`)

4. Entgeltstatistik (`ba_entgeltstatistik_2024.csv`)