Motivation

Jeden Morgen das gleiche Bild: Verstopfte Autobahnen, genervte Pendler, verlorene Zeit. 20,5 Millionen Menschen pendeln in Deutschland täglich zur Arbeit – die meisten davon mit dem Auto. Laut INRIX Traffic Scorecard 2024 verlieren Pendler in deutschen Großstädten zwischen 40 und 60 Stunden pro Jahr allein im Stau. Das entspricht fast einer kompletten Arbeitswoche, die im Nichts verpufft.

Die Idee liegt auf der Hand: Wer Bahn fährt, steht nicht im Stau. Aber wie schlägt sich die Bahn im Vergleich zum Auto? Ist sie wirklich schneller? Und wie zuverlässig ist sie eigentlich?

In diesem Projekt analysieren Sie Echtzeitdaten der Deutschen Bahn, Pendlerstatistiken der Bundesagentur für Arbeit, Staudaten von INRIX und die Entgeltstatistik der Bundesagentur für Arbeit. Sie werden herausfinden, dass die Antwort auf die Frage “Sollten mehr Menschen Bahn fahren?” komplexer ist, als man zunächst vermuten würde und dass sie wichtige Implikationen für die Verkehrspolitik hat.

Ihre zentrale Forschungsfrage lautet:

“Sollten mehr Menschen Bahn fahren – und was müsste sich dafür ändern?”

Datengrundlage

In diesem Projekt arbeiten Sie mit mehreren Datensätzen. Ein wichtiger Teil des Projekts ist das eigenständige Beschaffen von Primärdaten aus offiziellen Quellen.

Daten einlesen und verstehen

Bevor Sie mit der Analyse beginnen können, müssen Sie verschiedenste Datensätze einlesen und deren Struktur verstehen. Die Deutsche Bahn stellt über unterschiedliche Schnittstellen Echtzeitdaten für ihre Züge als open-source Daten zur Verfügung, welche per API-Calls geladen werden können. Jedoch gibt es von der Deutschen Bahn keine offizielle Seite, welche historische Daten zu Zugverspätungen, Ausfällen etc. für Fern- und Nahverkehrszüge sammelt. Da wir uns jedoch mit historischen Daten beschäftigen möchten, greifen wir auf Daten zurück, die von Piet Brömmel gesammelt wurden und bei Huggingface im Parquet-Format zur Verfügung gestellt wurden. Das Parquet-Format ist ein effizientes Datenformat und wird oft für große Datenmengen genutzt; in R können Sie diese Daten mit dem arrow-Paket einlesen.

  1. Wie pünktlich ist die Bahn wirklich? Um diese Frage zu beantworten, brauchen Sie echte Verspätungsdaten – nicht nur Pressemitteilungen. Die Bahndaten bilden das Herzstück unserer Analyse: Mit ihnen können Sie berechnen, wie viel Zeit Bahnfahrer durch Verspätungen verlieren und später mit den Stauzeiten der Autofahrer vergleichen.

Die Deutsche Bahn stellt Echtzeitdaten als Open Data zur Verfügung. Das Projekt piebro/deutsche-bahn-data auf Huggingface sammelt diese Daten im Parquet-Format.

Laden Sie die Datei für November 2025 direkt von Huggingface herunter und lesen Sie diesen Datensatz als bahn in R ein.

Zeigen Sie die ersten 10 Zeilen des Datensatzes in einer Tabelle und beantworten Sie anschließend folgende Fragen:

  • Wie viele Beobachtungen enthält der Datensatz? Welche Variablen sind vorhanden?
  • Was stellt eine einzelne Beobachtung dar?

Hinweis 1: Sie können auf Huggingface die gesuchte Datei hier finden und direkt die URL zu der Datei in R mitgeben

Hinweis 2: Sie können die Parquet Datei entweder lokal speichern, oder immer direkt per URL einlesen. Falls Sie die Datei lokal speichern, so wird diese nicht auf GitHub Committet, da wir dies in der .gitignore entsprechend eingestellt haben. In diesem Fall sollten alle Teammitglieder die Datei lokal zur Verfügung haben.

Hinweis 3: Achten Sie bei allen Tabellen auf einer saubere Darstellung


Deutsche Bahn – Verspätungsdaten (November 2025, erste 10 Zeilen)
station_name train_name final_destination_station delay_in_min
Stuttgart Hbf S 2 Filderstadt 5
Halle (Saale) Hbf S 5 Leipzig Hbf (tief) 1
Karlsruhe Hbf RE 1 Karlsruhe Hbf 95
Regensburg Hbf ALX RE25 München Hbf 11
Mannheim Hbf ICE 775 Karlsruhe Hbf 1
Flughafen BER S 9 Flughafen BER 1
Halle (Saale) Hbf S 8 Halle (Saale) Hbf 15
München Hbf RB 40 München Hbf 0
Köln Hbf IC 1952 Köln Hbf 40
Freiburg (Breisgau) Hbf S 1 Freiburg (Breisgau) Hbf 0
Hinweis:
Quelle: Open-Data-Echtzeitdaten der Deutschen Bahn, bereitgestellt über Huggingface (piebro/deutsche-bahn-data).

Beobachtung

Die Tabelle zeigt die ersten zehn Beobachtungen eines Datensatzes zu Verspätungen der Deutschen Bahn aus dem November 2025. Der Datensatz besteht aus vier Variablen: dem Bahnhofsnamen (station_name), der Zugbezeichnung (train_name), der Endstation (final_destination_station) sowie der Verspätung in Minuten (delay_in_min).

Auffällig ist insbesondere die fünfte Beobachtung, bei der der RE 1 am Karlsruher Hauptbahnhof eine außergewöhnlich hohe Verspätung von 95 Minuten aufweist, obwohl Start- und Zielbahnhof identisch sind. Ebenfalls überdurchschnittliche Verspätungen zeigen der IC 1952 am Kölner Hauptbahnhof mit 40 Minuten sowie die S-Bahn S8 in Halle (Saale) mit 15 Minuten. Im Gegensatz dazu weisen mehrere Verbindungen, etwa die Strecke Halle (Saale) – Leipzig, lediglich eine minimale Verspätung von einer Minute oder gar keine Verspätung auf.

Interpretation

Jede Beobachtung im Datensatz repräsentiert eine konkrete Zugbewegung an einem bestimmten Bahnhof zu einem bestimmten Zeitpunkt. Erfasst wird, welcher Zug dort verkehrt, welches Ziel er ansteuert und wie hoch die gemessene Verspätung ist. Der Datensatz erlaubt somit detaillierte Analysen von Verspätungen nach Zugtyp, Bahnhof oder Zielstation. Die Mehrheit der S-Bahn-Verbindungen weist Verspätungen von unter fünf Minuten auf, was auf eine insgesamt hohe Pünktlichkeit hindeutet. Eine Ausnahme bildet hierbei die S8 in Halle (Saale), die mit 15 Minuten deutlich verspätet ist. Andere Zugarten wie Regional-Express-Züge (RE) oder Intercity-Züge (IC) zeigen im Vergleich dazu teilweise deutlich höhere Verspätungen, insbesondere der RE 1 und der IC 1952. Die vergleichsweise hohe Pünktlichkeit der S-Bahnen lässt sich dadurch erklären, dass sie in der Regel kurze, sich wiederholende Strecken mit hoher Taktfrequenz bedienen. Regional- und Fernverkehrszüge wie RE- und IC-Züge hingegen legen längere Distanzen zurück und sind stärker von externen Faktoren wie Streckenauslastung, Baustellen oder betrieblichen Störungen abhängig, was zu höheren Verspätungen führen kann.


  1. Wohin pendeln die Menschen? Die Bahndaten zeigen ihnen die Pünktlichkeit der Züge – aber um zu verstehen, wo gute Bahnverbindungen besonders wichtig sind, müssen Sie wissen, wohin die Menschen pendeln. Die Pendlerstatistik der Bundesagentur für Arbeit zeigt genau das: Welche Städte sind die größten Arbeitgeber-Magneten?

Laden Sie den Datensatz pendler_kreise_aufbereitet.csv aus dem Ordner daten in R ein als Datensatz pendler.

Erstellen Sie eine Tabelle der Top 10 Städte nach Einpendlern mit den Spalten: Stadt (kreis_name), Einpendler, Auspendler, Pendlersaldo.

Interpretieren Sie kurz: Welche Städte sind die größten “Pendlermagneten” Deutschlands und warum?


Top 10 Städte nach Einpendlern (Pendlerstatistik)
Stadt Einpendler Auspendler Pendlersaldo
München, Landeshauptstadt 455.645 202.756 252.889
Frankfurt am Main, Stadt 405.856 111.245 294.611
Hamburg, Freie und Hansestadt 392.951 147.328 245.623
Berlin, Stadt 392.324 219.898 172.426
Köln, Stadt 306.905 138.422 168.483
Düsseldorf, Stadt 284.696 97.326 187.370
Stuttgart, Landeshauptstadt 274.442 100.095 174.347
Nürnberg, Stadt 165.496 78.557 86.939
Essen, Stadt 141.296 90.906 50.390
Region Hannover 137.924 69.974 67.950
Hinweis:
Quelle: Pendlerstatistik (2024) der Bundesagentur für Arbeit.

Beobachtung:

Zu sehen ist eine Tabelle, die die zehn größten Städte bzw. Regionen Deutschlands nach der Anzahl der Einpendler sortiert darstellt. In den Spalten sind der jeweilige Stadtname, die Zahl der Einpendler, die Zahl der Auspendler sowie der Pendlersaldo, also die Differenz aus Einpendlern und Auspendlern, in absoluten Zahlen aufgeführt. Die Stadt mit den meisten Einpendlern ist München, dicht gefolgt von Frankfurt am Main. Beide Städte verzeichnen jeweils über 400.000 Einpendler pro Jahr, wobei Frankfurt mit einem Pendlersaldo von bis zu rund 294.000 Personen besonders hervorsticht. Das Mittelfeld der Statistik bilden Berlin, Köln und Düsseldorf, deren Pendlersalden zwischen etwa 168.000 und 187.000 Menschen liegen. Das Schlusslicht der Tabelle stellt die Region Hannover dar, die rund 137.000 Einpendler pro Jahr und einen Pendlersaldo von etwa 68.000 Personen aufweist. Besonders zu beachten ist die Stadt Essen, da die Daten hierfür auf den Daten von Wuppertal basieren. Diese Daten haben nur leichte Abweichungen voneinander und beeinflussen die weiteren Analysen somit nicht.

Interpretation:

Was man an dieser Tabelle unbedingt beachten muss ist, dass sie auf der Datengrundlage der Pendlerstatistik der Bundesagentur für Arbeit basiert. Sie erfasst damit, welche Städte besonders viele Arbeitsplätze für Menschen anbieten, die nicht in der jeweiligen Stadt wohnen. Städte mit hohen Einpendlerzahlen sind folglich vor allem starke Arbeitsort-Zentren und weniger reine Wohnstädte. In diesem Zusammenhang wird deutlich, dass München, dicht gefolgt von Frankfurt am Main, die meisten Arbeitsplätze für nicht dort lebende Beschäftigte bereitstellt. München weist mit über 455.000 Einpendlern den höchsten absoluten Wert auf, während Frankfurt mit einem geringeren Einpendleraufkommen, aber dem höchsten Pendlersaldo, eine besonders starke Arbeitsplatzkonzentration aufweist. Frankfurt gilt als ausgeprägte Pendlerstadt, da es das bedeutendste Finanzzentrum Deutschlands ist. Mit Institutionen wie der Europäischen Zentralbank, der Börse und zahlreichen nationalen wie internationalen Banken bündelt die Stadt eine sehr hohe Zahl an Arbeitsplätzen. Dieses Arbeitsplatzangebot übersteigt jedoch deutlich die vorhandenen Wohnmöglichkeiten innerhalb des Stadtgebiets. In der Folge pendeln täglich viele Erwerbstätige aus der gesamten Metropolregion nach Frankfurt ein, um insbesondere in den zahlreichen Bürostandorten und Hochhäusern der Innenstadt und der Skyline zu arbeiten.

Auffällig ist jedoch auch die Stellung Hamburgs, hier an 3. Stelle der Tabelle. Zwar verzeichnet die Hansestadt im Vergleich zu München rund 60.000 Einpendler weniger, dennoch zeigt sich hier eine besonders ausgeprägte Funktion als Arbeitsstandort. Mit rund 392.000 Einpendlern und etwa 147.000 Auspendlern ergibt sich ein Verhältnis von etwa 73 Prozent Einpendlern zu 27 Prozent Auspendlern. Berufstätige pendeln nach Hamburg, weil die Stadt als dynamische Metropole ein breites und attraktives Angebot an Arbeitsplätzen bietet, insbesondere in Branchen wie Medien, Luftfahrt, Logistik und IT. Diese wirtschaftliche Vielfalt verbindet sich mit einer hohen Lebensqualität, einem ausgeprägten Kulturangebot und dem maritimen Flair der Stadt. Im Vergleich dazu liegt das Verhältnis in München bei rund 69 Prozent Einpendlern zu 31 Prozent Auspendlern, was darauf hindeutet, dass München zwar insgesamt mehr Arbeitsplätze bietet, zugleich aber auch stärker als Wohnstadt fungiert, aus der viele Beschäftigte in andere Regionen pendeln. Viele Berufstätige pendeln nach München, weil die Stadt über eine besonders leistungsstarke Wirtschaft mit einer hohen Dichte an Arbeitsplätzen und überdurchschnittlichen Löhnen verfügt. Hinzu kommen eine hervorragend ausgebaute Infrastruktur, eine hohe Lebensqualität sowie die attraktive Lage in unmittelbarer Nähe zu den Alpen. Die weltoffene Atmosphäre macht München zusätzlich zu einem begehrten Arbeitsort. Gleichzeitig führen die hohen Lebenshaltungskosten und der angespannte Wohnungsmarkt dazu, dass zahlreiche Beschäftigte ihren Wohnsitz ins Umland verlagern und täglich zur Arbeit in die Stadt pendeln.

Diese Unterschiede machen deutlich, dass nicht allein die absolute Zahl der Einpendler entscheidend ist, sondern auch das Verhältnis von Ein- zu Auspendlern. Während München und Frankfurt vor allem durch ihre enorme Arbeitsplatzdichte und hohe wirtschaftliche Attraktivität geprägt sind, nimmt Hamburg eine besonders klare Rolle als regionaler und überregionaler Pendlermagnet ein, dessen Arbeitsmarkt stark auf das Umland ausgerichtet ist.


  1. Was kostet das Auto? Sie haben jetzt Bahndaten und wissen, wohin die Menschen pendeln. Aber um fair vergleichen zu können, brauchen Sie auch die Alternative: Wie viel Zeit verlieren Autofahrer im Stau? Diese Daten liefert INRIX – ein Unternehmen, das weltweit Verkehrsdaten sammelt. Später werden Sie diese Staukosten mit den Bahnverspätungen vergleichen.

Besuchen Sie die INRIX Global Traffic Scorecard und suchen Sie die Stauzeiten für die Top 10 Städte aus Aufgabe 2 und zusätzlich die Stauzeiten für Ulm. INRIX misst, wie viele Stunden Autofahrer jährlich im Stau verlieren.

  • Erstellen Sie eine eigene CSV-Datei inrix_staedte_2024.csv mit folgenden Spalten für die geforderten Städte:
    • stadt: Name der Stadt
    • stau_stunden_jahr: Jährliche Staustunden pro Fahrer
    • kosten_eur: Jährliche Kosten pro Fahrer (findet sich in der tiefergehenden Übersicht)
  • Berechnen Sie für jede Stadt, wie viele Arbeitstage pro Jahr im Stau verloren gehen. Annahme: Ein Arbeitstag = 8 Stunden.

Erstellen Sie anschließend eine schöne Tabelle mit: Stadt, Staustunden/Jahr, verlorene Arbeitstage und beschreiben diese. In welcher Stadt ist die Stausituation am schlimmsten? Wie viele Arbeitstage verliert ein typischer Pendler dort pro Jahr?

Hinweis: Auf der INRIX-Website können Sie nach bei “Jump to City Rankings” -> “Search the List” -> “Germany” oder der konkreten Stadt filtern.


Staubelastung und Kosten pro Fahrer (INRIX 2024)
Stadt Staustunden/Jahr ~ Verlorene Arbeitstage (8h/Tag) Jährliche Kosten (in Euro/Fahrer)
Köln 67 8,38 919
Düsseldorf 63 7,88 864
Berlin 60 7,50 823
Stuttgart 60 7,50 823
München 57 7,12 781
Frankfurt 55 6,88 754
Hannover 54 6,75 740
Hamburg 46 5,75 631
Essen 46 5,75 631
Nürnberg 38 4,75 521
Ulm 30 3,75 411
Hinweis:
Quelle: INRIX Global Traffic Scorecard.

Beobachtung:

In dieser Tabelle sind die Top-10-Städte (inklusive Ulm) dargestellt, die das größte Stauaufkommen auf den Straßen aufweisen. Die Spalten zeigen den Namen der Stadt, die jährlich im Stau verlorenen Stunden, die daraus resultierenden verlorenen Arbeitstage, berechnet auf Basis von acht Stunden pro Arbeitstag, sowie die dadurch verursachten jährlichen Kosten in Euro pro Fahrer. Spitzenreiter ist die Stadt Köln mit 67 Staustunden pro Jahr, was 8,38 verlorenen Arbeitstagen entspricht und einer Summe von 919 Euro an Kosten. Dicht dahinter folgen Düsseldorf, Berlin und Stuttgart. Diese drei Städte liegen hinsichtlich der Staubelastung sehr nah beieinander. Autofahrer verlieren dort jeweils rund siebeneinhalb Arbeitstage im Stau, was Kosten von über 864 Euro pro Jahr verursacht. Am unteren Ende der Übersicht befindet sich Nürnberg. Mit 38 Staustunden und Kosten in Höhe von 521 Euro pro Jahr liegt die Stadt jedoch weiterhin über Ulm, das mit 30 Staustunden pro Jahr und Kosten von 411 Euro die geringste Staubelastung in dieser Vergleichsgruppe aufweist.

Interpretation:

In den Städten mit der höchsten Staubelastung lassen sich klare strukturelle Ursachen erkennen. Köln weist besonders viele Staus auf, weil der Rhein das Straßennetz stark einschränkt und nur wenige leistungsfähige Brücken den Pendlerverkehr bündeln. Zusätzlich sorgen eine hohe Pendlerzahl aus dem Rheinland, zahlreiche Baustellen und begrenzte Ausweichrouten für regelmäßige Verkehrsüberlastungen. Düsseldorf ist stark betroffen, da die Stadt im Zentrum des dicht besiedelten Rhein-Ruhr-Gebiets liegt, mehrere Autobahnen zusammentreffen und viele Pendler aus der Region einströmen. Berlin erlebt hohe Stauwerte vor allem durch seine Größe und die verteilten Arbeitsstandorte, wodurch viele parallele Verkehrsströme entstehen, sowie durch starken Pendelverkehr aus dem Umland und häufige Sanierungsarbeiten an wichtiger Infrastruktur. Stuttgart ist aufgrund seiner Lage im Talkessel besonders stauanfällig. Wenige Hauptverkehrsachsen müssen den Pendlerverkehr aufnehmen, während die hohe Arbeitsplatzdichte im Industriebereich den Autoverkehr zusätzlich verstärkt. Im Gegensatz dazu fällt die Staubelastung in Nürnberg moderater aus, da der Verkehr auf mehrere Zentren verteilt ist und das Straßennetz vergleichsweise gut ausgebaut ist. Ulm weist die geringste Stauintensität auf, da die Stadt kleiner ist, weniger Pendler anzieht und eine überschaubare Verkehrsstruktur besitzt. Insgesamt zeigt sich, dass Staus vor allem dort entstehen, wo hohe Pendlerzahlen auf begrenzte Infrastruktur und geografische Engpässe treffen, während kleinere oder polyzentrisch organisierte Städte deutlich entlasteter sind.


  1. Für die weiteren Analysen stellen wir Ihnen fünf zusätzliche Datensätze bereit. Diese laden Sie jetzt, damit sie in allen folgenden Aufgaben direkt verfügbar sind.

Laden Sie die folgenden Datensätze aus dem Ordner daten und speichern Sie diese unter den angegebenen Variablennamen:

Datei Variablenname Verwendet in
bahnhof_ags_mapping.csv bahnhof_mapping Aufgabe 9-10
fahrtzeit_osrm_vergleich.csv fahrtzeit Aufgabe 12
ulm_pendlerrouten.csv ulm_routen Aufgabe 13
ba_entgeltstatistik_2024.csv entgelt für staedte_basis
co2_analyse.csv co2_analyse Aufgabe 19 (Bonus)

Verschaffen Sie sich einen ersten Überblick über die Struktur der Daten (z.B. mit glimpse(), dies sollte später in ihrem HTML Dokument nicht sichtbar sein!).

Erstellen Sie außerdem einen Master-Datensatz staedte_basis für die Top-11-Städte (Top 10 Pendlerstädte + Ulm), der die Daten aus pendler, entgelt und inrix kombiniert. Dieser Datensatz vereinfacht die späteren Analysen (ab Aufgabe 14), da alle relevanten Kennzahlen bereits zusammengeführt sind.

Der Master-Datensatz sollte folgende Spalten enthalten:

  • ags: Amtlicher Gemeindeschlüssel
  • stadt: Stadtname (Kurzform, z.B. “München”)
  • einpendler: Anzahl Einpendler
  • median_monat_eur: Medianlohn pro Monat
  • median_stunde_eur: Medianlohn pro Stunde (Monatslohn / 160)
  • stau_stunden_jahr: Stauzeit pro Jahr (aus INRIX)

Hinweis 1: Die Datensätze verwenden unterschiedliche Namensformate: pendler hat offizielle Namen (“München, Landeshauptstadt”), während entgelt und inrix Kurznamen (“München”) verwenden. Nutzen Sie den AGS als zuverlässigen Schlüssel für die Verknüpfung mit pendler. Tipp: entgelt enthält sowohl AGS als auch Kurznamen und eignet sich daher gut als Ausgangspunkt.

Hinweis 2: Eine ausführliche Beschreibung der Datensätze finden Sie im Anhang A.


Master-Datensatz der Top 11 Städte (Top 11 Pendlerstädte und Ulm)
AGS Stadt Medianlohn pro Monat (Euro) Medianlohn pro Stunde (Euro) Einpendler Staustunden pro Jahr (h)
09162 München 4.847 30,29 455.645 57
06412 Frankfurt 4.712 29,45 405.856 55
02000 Hamburg 4.527 28,29 392.951 46
11000 Berlin 4.156 25,98 392.324 60
05315 Köln 4.398 27,49 306.905 67
05111 Düsseldorf 4.523 28,27 284.696 63
08111 Stuttgart 4.689 29,31 274.442 60
09564 Nürnberg 4.234 26,46 165.496 38
05113 Essen 3.987 24,92 141.296 46
03241 Hannover 4.156 25,98 137.924 54
08421 Ulm 4.312 26,95 68.341 30

Die Pünktlichkeit der Deutschen Bahn

Nachdem Sie nun einen Überblick über die Daten haben, welche wir in diesem Projekt verwenden möchten, tauchen Sie tiefer in die Bahndaten ein. Die zentrale Frage ist: Wie zuverlässig ist die Deutsche Bahn wirklich?

Die Bahn unterscheidet verschiedene Zugtypen, vom ICE über den RE bis zur S-Bahn. Jeder Zugtyp hat unterschiedliche Eigenschaften: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Aber welcher Zugtyp ist am pünktlichsten?

  1. Welche Züge sind (un)pünktlich? Nicht alle Züge sind gleich: Der ICE fährt lange Strecken mit wenigen Halten, die S-Bahn kurze Strecken mit vielen Halten. Um später sinnvolle Empfehlungen geben zu können, müssen Sie verstehen, welche Zugtypen besonders problematisch sind. Dafür klassifizieren Sie die Züge anhand ihrer Namen. Nutzen Sie für diese Analyse den Datensatz bahn.

Die Variable train_name enthält den Zugnamen (z.B. “ICE 123”, “S 5”, “RE 8”).

Zugtyp Regel Beispiel
ICE beginnt mit “ICE” ICE 123
IC/EC beginnt mit “IC” oder “EC” IC 2012, EC 6
IRE/RE beginnt mit “RE” oder “IRE” RE 5, IRE 200
RB beginnt mit “RB” RB 26
S-Bahn beginnt mit “S” (mit Leerzeichen!) S 5
Sonstige alle anderen U 6, STB 123

Erstellen Sie auf dieser Basis eine Tabelle, welche pro Zugtyp folgende Kennzahlen anschaulich darstellt:

Beschreiben und Interpretieren Sie die Tabelle.

Weiterhin sollten Sie ihre Ergebnisse verifizieren. Dafür können Sie auf die offizielle Pünktlichkeitswerte der Deutschen Bahn zurückgreifen (recherchieren Sie diese selbstständig).

Stimmen Ihre Ergebnisse mit den offiziellen Werten überein? Falls nicht: Welche methodischen Unterschiede könnten die Abweichung erklären?

Hinweis: Nutzen Sie str_detect() aus dem stringr-Paket. Achten Sie auf die Reihenfolge der Bedingungen!


Verspätungen und Quoten bzgl. der Verspätungen nach Zugarten (in November 2025)
Zugtyp Anzahl Fahrten Ø Verspätung (Min) Pünktlichkeit (≤6 Min)in % Ausfallquote (in %)
S-Bahn 6.414.045 2,94 87,41 5,48
Sonstige 2.938.815 3,47 84,67 2,62
RB 2.675.028 3,48 85,20 3,18
IRE/RE 1.673.555 6,06 74,13 3,62
ICE 171.516 12,50 56,75 4,23
IC/EC 70.602 11,03 60,24 7,18

Beobachtung:

Die Tabelle gibt einen Überblick über Verspätungen, Pünktlichkeit und Ausfallquoten verschiedener Zugarten in Deutschland und ist nach der Anzahl der Fahrten absteigend sortiert. Die meisten Fahrten entfallen auf die S-Bahn mit über 6,4 Millionen Fahrten, gefolgt von Sonstigen Zügen und RB-Zügen mit jeweils rund 2,7 bis 2,9 Millionen Fahrten. Deutlich weniger Fahrten weisen die IRE/RE-Züge auf, während der Fernverkehr mit ICE und IC/EC die geringsten Fahrtenanzahlen hat. Bezüglich der durchschnittlichen Verspätung zeigt sich, dass die S-Bahn mit knapp 3 Minuten die niedrigsten Werte aufweist. Auch RB und Sonstige Züge liegen mit etwa 3,5 Minuten in einem ähnlichen Bereich. Die IRE/RE-Züge erreichen eine durchschnittliche Verspätung von gut 6 Minuten, während die höchsten Verspätungen im Fernverkehr auftreten, insbesondere bei ICE-Zügen mit über 12 Minuten. Ein ähnliches Bild zeigt sich bei der Pünktlichkeit. Die S-Bahn erreicht mit rund 87 % den höchsten Anteil pünktlicher Fahrten, während RB und Sonstige Züge mit etwa 85 % nur leicht darunter liegen. Die IRE/RE-Züge weisen eine deutlich geringere Pünktlichkeit von rund 74 % auf. Im Fernverkehr sind die Pünktlichkeitswerte am niedrigsten, mit etwa 57 % beim ICE und 60 % bei IC/EC. Auch bei den Ausfallquoten bestehen Unterschiede. Während Sonstige Züge und RB vergleichsweise geringe Ausfallquoten von rund 3 % aufweisen, liegen diese bei der S-Bahn höher. Besonders auffällig ist die hohe Ausfallquote der IC/EC-Züge mit über 7 %, während auch der ICE eine erhöhte Ausfallquote zeigt.

Interpretation:

Die dargestellten Werte verdeutlichen klare Unterschiede zwischen Nah- und Fernverkehr. Trotz der sehr hohen Fahrtenzahl weist die S-Bahn eine vergleichsweise geringe durchschnittliche Verspätung sowie die höchste Pünktlichkeit auf. Dies deutet darauf hin, dass der Nahverkehr insgesamt stabiler und zuverlässiger organisiert ist, auch wenn es durch die hohe Taktung zu einer moderaten Ausfallquote kommt. Ähnlich gute Ergebnisse zeigen die RB-Züge und Sonstigen Züge, die bei moderaten Verspätungen eine hohe Pünktlichkeit und relativ niedrige Ausfallquoten erreichen. Der IRE/RE-Verkehr liegt leistungsmäßig zwischen Nah- und Fernverkehr, was sich in einer höheren Verspätung und geringeren Pünktlichkeit widerspiegelt. Der Fernverkehr schneidet insgesamt deutlich schlechter ab. Sowohl ICE als auch IC/EC weisen hohe durchschnittliche Verspätungen, niedrige Pünktlichkeitswerte und erhöhte Ausfallquoten auf. Besonders auffällig ist die hohe Ausfallquote der IC/EC-Züge. Dies lässt darauf schließen, dass längere Strecken, höhere Netzabhängigkeit und Störanfälligkeit im Fernverkehr eine größere Rolle spielen. Insgesamt zeigen die Ergebnisse, dass Nahverkehrszüge trotz hoher Nutzungsintensität zuverlässiger und pünktlicher verkehren, während der Fernverkehr stärker von Verspätungen und Ausfällen betroffen ist.


  1. In Aufgabe 5 haben Sie gesehen, dass Fernverkehrszüge (ICE, IC/EC) deutlich höhere Verspätungen und Ausfallquoten haben als Nahverkehrszüge (IRE, RE, RB, S-Bahn). Aber wie relevant ist das für den typischen Pendler? Das hängt davon ab, wie viele Züge jeweils unterwegs sind. Nutzen Sie für diese Analyse den Datensatz bahn (mit der in Aufgabe 5 erstellten Variable zugtyp).

Klassifizieren Sie die Züge in zwei Kategorien:

Erstellen Sie ein Liniendiagramm, das die durchschnittliche Anzahl der Fahrten pro Stunde im Tagesverlauf zeigt:

Tipp: Extrahieren Sie die Stunde aus der Variable time mit hour() aus dem lubridate-Paket. Berechnen Sie dann die durchschnittliche Anzahl Fahrten pro Stunde und Zugtyp.

Beschreiben und interpretieren Sie ihre Grafik. Beantworten Sie zusätzlich die folgenden Fragen:


Beobachtung:

Das Diagramm zeigt die durchschnittliche Anzahl an Zugfahrten pro Stunde im Tagesverlauf, getrennt nach Nahverkehr und Fernverkehr. Auf der x-Achse ist die Uhrzeit von 0 bis 23 Uhr dargestellt, auf der y-Achse die durchschnittliche Zahl der Zugfahrten pro Stunde. Beide Verkehrsarten sind jeweils durch eine eigene Linie gekennzeichnet. Im Nahverkehr ist nachts nur ein geringes Zugaufkommen zu beobachten. In den frühen Morgenstunden, insbesondere zwischen 2 und 4 Uhr, liegt die Anzahl der Fahrten bei lediglich rund 1.500 bis 2.000 Zügen pro Stunde. Ab etwa 5 Uhr steigt das Zugaufkommen deutlich an und erreicht zwischen 7 und 9 Uhr den ersten Höhepunkt mit knapp 20.000 Fahrten pro Stunde. Im weiteren Tagesverlauf bleibt das Niveau relativ hoch und steigt am späten Nachmittag erneut an. Zwischen 16 und 18 Uhr wird nochmals ein Wert von rund 20.000 Fahrten pro Stunde erreicht, bevor das Zugaufkommen am Abend wieder abnimmt. Der Fernverkehr weist über den gesamten Tag hinweg deutlich geringere Fahrtenanzahlen auf. Nachts liegen diese bei unter 200 Fahrten pro Stunde. Ab dem Morgen steigt die Anzahl leicht an und erreicht im Laufe des Tages Werte von rund 400 bis 500 Fahrten pro Stunde. Im Gegensatz zum Nahverkehr sind im Fernverkehr keine ausgeprägten Spitzenzeiten erkennbar, sondern ein relativ gleichmäßiger Verlauf über den Tag hinweg.

Interpretation:

Das Diagramm macht deutlich, dass der Zugverkehr stark vom Tagesverlauf und den typischen Pendlerzeiten geprägt ist. Besonders im Nahverkehr zeigen sich ausgeprägte Spitzen in den Hauptverkehrszeiten am Morgen sowie am späten Nachmittag. Die hohen Werte zwischen 7 und 9 Uhr sowie 16 und 18 Uhr deuten darauf hin, dass der Nahverkehr vor allem von Berufspendlern genutzt wird. In den Nachtstunden hingegen ist das Zugaufkommen sehr gering, was auf eine deutlich reduzierte Nachfrage außerhalb der Tageszeiten hinweist. Der Fernverkehr unterscheidet sich deutlich von diesem Muster. Die Fahrtenanzahlen sind insgesamt wesentlich niedriger und verlaufen über den Tag hinweg relativ konstant. Es gibt zwar einen leichten Anstieg im Tagesverlauf, jedoch keine klar ausgeprägten Spitzenzeiten. Dies spricht dafür, dass der Fernverkehr weniger stark an klassische Arbeits- und Pendelzeiten gebunden ist und eher gleichmäßig genutzt wird. Diese zeitliche Verteilung des Zugaufkommens ist insbesondere im Zusammenhang mit Verspätungen relevant. In Zeiträumen mit hoher Zugdichte, wie den morgendlichen und abendlichen Spitzen im Nahverkehr, ist die Infrastruktur stärker ausgelastet. Dadurch können sich Störungen schneller auf viele Züge auswirken und Verspätungen häufiger auftreten. In Zeiten mit geringerem Verkehrsaufkommen, etwa nachts, ist das Risiko für größere Folge Verspätungen entsprechend geringer. Zusammenfassend zeigt das Diagramm, dass der Nahverkehr stark von Pendler Strömen geprägt ist und deutliche Spitzen im Tagesverlauf aufweist, während der Fernverkehr auf einem deutlich niedrigeren und gleichmäßigen Niveau verläuft und weniger abhängig von Hauptverkehrszeiten ist.


Nachdem Sie in Aufgabe 6 herausgefunden haben, dass es deutlich mehr Nahverkehrszüge als Fernverkehrszüge gibt, und diese für Pendler wichtiger sind, sollten Sie sich die Verspätungen der Nahverkehrszüge über den Tag anschauen, da diese vermutlich nicht gleichmäßig über den Tag verteilt sind. Pendler erleben die Bahn vor allem in der Hauptverkehrszeit, d.h. morgens zwischen 7 und 9 Uhr und abends zwischen 16 und 19 Uhr. Aber ist die Bahn zu diesen Zeiten besonders unpünktlich?

  1. Erstellen Sie zwei Heatmaps, die zeigen, wie sich die Verspätungen nach Tageszeit (Stunde) und Wochentag für die Nahverkehrszüge und die Fernverkehrszüge verteilen. Nutzen Sie für diese Analyse den Datensatz bahn.

Tipp zur Farbskala: Da Fernverkehrszüge im Durchschnitt höhere Verspätungen haben als Nahverkehrszüge, können Sie unterschiedliche Farbskalen für die beiden Heatmaps verwenden (z.B. Blau-Töne für Nahverkehr, Rot-Töne für Fernverkehr). Dadurch werden die Muster innerhalb jeder Verkehrsart besser sichtbar.

Beschreiben und interpretieren Sie ihre Grafiken.


Beobachtung:

Zu sehen sind zwei Heatmaps, die zeigen, wie sich die Verspätungen nach Tageszeit und Wochentag für die Nahverkehrs- und Fernverkehrszüge verteilen. Beide Grafiken haben die Wochentage auf der y-Achse und die Uhrzeit von 5 bis 23 Uhr auf der x-Achse. Die obere Heatmap zeigt die Verteilung der Verspätungen im Nahverkehr in Blautönen, die untere die im Fernverkehr in Rottönen. Die Legenden geben den Farbverlauf für die durchschnittliche Verspätung der Züge in Minuten an. Bei der Nahverkehrs-Heatmap stehen Weiß bis hellblau für geringe Verspätungen von 1–2 Minuten, während kräftiges Blau für Verspätungen bis zu 5 Minuten steht. Bei der Fernverkehrs-Heatmap zeigt Weiß bis hellrot Verspätungen bis zu 5 Minuten, während die Farbintensität bis zu 20 Minuten ansteigt. In beiden Grafiken ist deutlich erkennbar, dass die Verspätungen vor allem in den Abendstunden zwischen etwa 18 und 22 Uhr ihren Höhepunkt erreichen. Im Nahverkehr steigen die Verspätungen insbesondere am Wochenende im Tagesverlauf kontinuierlich an. An Werktagen erreichen sie am frühen Abend ihre höchsten Werte. Auffällig ist außerdem, dass die Verspätungen zwischen 6 und 10 Uhr an Werktagen kontinuierlich zunehmen und danach wieder abfallen. Im Fernverkehr ist der Anstieg der Verspätungen über den Tag hinweg noch ausgeprägter, wobei die höchsten Werte am späten Abend auftreten. Hier ist kein deutlicher Anstieg am Morgen wie im Nahverkehr zu erkennen. In beiden Grafiken sind die Verspätungen an Werktagen insgesamt höher als am Wochenende. Besonders auffällig im Fernverkehr ist, dass um 5 Uhr die Verspätungen deutlich höher sind als um 6 Uhr, wo sie nur noch maximal 5 Minuten betragen.

Interpretation:

Die beiden Heatmaps machen deutlich, dass Zugverspätungen im Nah- und Fernverkehr sowohl von der Tageszeit als auch vom Wochentag abhängen. Daraus lassen sich Rückschlüsse auf Zeiten mit hoher betrieblicher Auslastung und erhöhtem Verkehrsaufkommen ziehen. In beiden Darstellungen zeigt sich ein ähnliches Grundmuster. Die Verspätungen nehmen im Verlauf des Tages zu und erreichen ihren Höhepunkt in den Abendstunden, etwa von 18 bis 22 Uhr. Dies spricht dafür, dass sich kleinere Störungen über den Tag hinweg aufaddieren und der Bahnverkehr am Abend besonders störanfällig ist. Auch wenn es im Fernverkehr, im Vergleich zum Nahverkehr, zu deutlich geringeren Fahrten pro Stunde kommt, kann man dieses Muster erkennen.

Im Nahverkehr treten deutliche Unterschiede zwischen Werktagen und Wochenenden auf. An Werktagen steigen die Verspätungen vor allem am Morgen zwischen 6 und 10 Uhr an, was vermutlich mit dem Berufs- und Schülerverkehr zusammenhängt. Danach gehen sie zunächst zurück, bevor sie am frühen Abend erneut ansteigen. Dies wurde auch im vorherigen Schaubild sehr deutlich und wird hier nochmals bestätigt. Am Wochenende verläuft die Entwicklung gleichmäßiger, ohne ausgeprägte Spitzen, was auf eine veränderte bzw. geringere Nachfrage hindeutet.

Im Fernverkehr ist der Einfluss der Tageszeit insgesamt stärker ausgeprägt. Hier nehmen die Verspätungen über den gesamten Tag hinweg zu und sind spät abends am höchsten. Ein klarer morgendlicher Anstieg, wie er im Nahverkehr zu beobachten ist, fehlt. Auffällig ist außerdem, dass die Verspätungen um 5 Uhr relativ hoch ausfallen, während sie um 6 Uhr deutlich geringer sind. Dies könnte mit verspäteten Nachtzügen oder betrieblichen Abläufen in den frühen Morgenstunden zusammenhängen.

Zusammenfassend zeigen beide Grafiken, dass an Werktagen insgesamt höhere Verspätungen auftreten als am Wochenende. Dies deutet auf den Einfluss eines dichteren Fahrplans und einer höheren Auslastung hin. Gleichzeitig wird deutlich, dass der Fernverkehr im Vergleich zum Nahverkehr stärker von Verspätungen betroffen ist.


Von der Zeit zum Ort: Wo entstehen die Verspätungen?

In Aufgabe 7 haben Sie analysiert, wann die Verspätungen auftreten, nämlich vor allem zu den Hauptverkehrszeiten. Aber die nächste wichtige Frage ist: Wo entstehen diese Verspätungen?

Aggregierte Statistiken wie Durchschnittswerte über ganz Deutschland verbergen oft große regionale Unterschiede. Vielleicht gibt es einzelne “Problembahnhöfe”, die den Durchschnitt nach oben ziehen? Oder sind die Verspätungen gleichmäßig über das Netz verteilt? Diese Frage ist wichtig, weil sie unterschiedliche Lösungsansätze impliziert: Bei wenigen Problembahnhöfen könnte die Bahn gezielt investieren, bei flächendeckenden Problemen bräuchten Sie systemische Lösungen.

  1. Identifizieren Sie die 10 unpünktlichsten Bahnhöfe in Deutschland (mit mindestens 1.000 Halten im Monat). Nutzen Sie für diese Analyse den Datensatz bahn.

Erstellen Sie ein Balkendiagramm, das die durchschnittliche Verspätung dieser Bahnhöfe zeigt. Beschriften Sie die Balken mit den Verspätungswerten.

Beschreiben und interpretieren Sie ihre Grafik.

  • Sehen Sie ein geografisches Muster?
  • Handelt es sich um große Knotenbahnhöfe oder eher um kleinere Stationen?

Beobachtung:

Dargestellt ist ein Balkendiagramm, das die zehn unpünktlichsten Bahnhöfe Deutschlands mit jeweils über 1.000 Halten pro Monat in absteigender Reihenfolge zeigt. Auf der x-Achse ist die durchschnittliche Verspätung in Minuten angegeben, während auf der y-Achse die jeweiligen Bahnhöfe aufgeführt sind. Der unpünktlichste Bahnhof Deutschlands (bei über 1.000 Halten pro Monat) ist Ennepetal (Gevelsberg) mit einer durchschnittlichen Verspätung von 14,7 Minuten. Es folgen Bad Breisig und Sinzig (Rhein) mit jeweils 14,5 Minuten. Das Mittelfeld bilden unter anderem Brühl und Roisdorf mit durchschnittlichen Verspätungen von rund 13 Minuten. Der im Vergleich „pünktlichste“ Bahnhof innerhalb dieser Rangliste ist Zeesen, weist jedoch ebenfalls noch eine durchschnittliche Verspätung von 12,3 Minuten auf. Insgesamt liegen alle dargestellten Werte relativ nah beieinander und bewegen sich in einem Bereich von etwa 12,3 bis 14,7 Minuten.

Interpretation:

Entgegen der naheliegenden Erwartung zählen große Pendler- und Knotenbahnhöfe wie München, Frankfurt oder Hamburg , trotz bis zu über 400 Tausend Einpendlern täglich, nicht zu den unpünktlichsten Bahnhöfen. Stattdessen dominieren kleinere, weniger bekannte Stationen die Rangliste. Ein wesentlicher Grund hierfür liegt in der betrieblichen Infrastruktur großer Bahnhöfe. Diese verfügen über zahlreiche Gleise, Überhol- und Wendemöglichkeiten, wodurch sich Verspätungen besser abfedern lassen. Zugstaus können vermieden und der Betriebsablauf flexibler gesteuert werden. Zwar treten an großen Bahnhöfen Verspätungen häufiger auf, diese fallen jedoch meist kürzer aus. Insbesondere im Nahverkehr (S-Bahnen und Regionalbahnen) liegen Verspätungen häufig unter fünf Minuten. Da diese Zugarten in großen Knotenbahnhöfen sehr häufig verkehren, senken sie den durchschnittlichen Verspätungswert deutlich. Fernverkehrszüge wie ICEs erreichen Bahnhöfe hingegen oft mit deutlich höheren Verspätungen, treten aber seltener auf und wirken sich daher weniger stark auf den Durchschnitt aus. Kleinere Bahnhöfe besitzen hingegen meist kaum betriebliche Ausweichmöglichkeiten. Verspätungen können dort weder reduziert noch umgeleitet werden, sondern setzen sich ungebremst fort. Dadurch kommt es häufiger zu längeren Wartezeiten und insgesamt höheren durchschnittlichen Verspätungen. Zusätzlich zeigt sich ein deutliches geografisches Muster: Viele der aufgeführten Bahnhöfe liegen in Nordrhein-Westfalen und im Rheinland. Diese Regionen sind geprägt von hochbelasteten Hauptstrecken (z. B. Rheinachse, Ruhrgebiet), dichtem Mischverkehr aus Fern-, Regional- und Güterzügen sowie zahlreichen Baustellen und infrastrukturellen Engpässen. In Kombination mit der geringen Flexibilität kleiner Bahnhöfe sind hohe Verspätungen hier nahezu vorprogrammiert.

Zusammenfassend lässt sich festhalten, dass die Grafik nicht die Häufigkeit von Verspätungen, sondern deren durchschnittliche Tiefe darstellt. Große Bahnhöfe fehlen in der Rangliste, da sie Verspätungen besser managen und flexibler auf Störungen reagieren können. Auffällig ist zudem ein regionaler Schwerpunkt im Westen Deutschlands. Die unpünktlichsten Bahnhöfe sind überwiegend kleinere Stationen an stark belasteten Strecken und nicht die großen Verkehrsknoten bedeutender Städte.


Wo treffen viele Pendler auf eine unpünktliche Bahn?

Bisher haben Sie Pendler- und Bahndaten getrennt betrachtet. Aber die spannende Frage ist: Wo kommen beide Probleme zusammen? Eine Stadt mit vielen Pendlern und einer unpünktlichen Bahn hat ein größeres Problem als eine Stadt mit wenigen Pendlern und einer unpünktlichen Bahn.

Um diese Frage zu beantworten, müssen Sie die Datensätze verknüpfen. Das Problem: Die Bahndaten sind auf Bahnhofsebene, die Pendlerdaten auf Kreisebene. Sie benötigen ein Mapping, das Bahnhöfe den entsprechenden Kreisen zuordnet.

  1. In dieser Aufgabe verknüpfen Sie die Bahn- und Pendlerdaten, um Städte mit Handlungsbedarf zu identifizieren. Nutzen Sie für ihre Analysen die Datensätze: bahn, pendler und bahnhof_mapping.

Das Mapping ordnet Bahnhöfe ihrem Landkreis zu (via AGS = Amtlicher Gemeindeschlüssel). Ihr Ziel: Identifizieren Sie Städte, in denen viele Pendler auf eine unpünktliche Bahn treffen.

\[\text{Problem-Score} = z(\text{Einpendler}) + z(\text{Verspätung})\]

Die z-Standardisierung macht die Werte vergleichbar: \(z(x) = \frac{x - \bar{x}}{s_x}\), wobei \(\bar{x}\) der Mittelwert und \(s_x\) die Standardabweichung ist.

Interpretation: Ein hoher Problem-Score = Viele Pendler + hohe Verspätung = Handlungsbedarf.

Anschließend sollten Sie eine Tabelle der Top 10 Städte nach Problem-Score darstellen und diese kurz beschreiben.


Top 10 Städte mit dem größten Pendler-Bahn-Problem
Stadt Einpendleranzahl Verspätung (Durchschnittlich in Minuten) Problem-Score
München, Landeshauptstadt 455.645 5,98 3,45
Köln, Stadt 306.905 7,89 3,05
Düsseldorf, Stadt 284.696 7,33 2,55
Frankfurt am Main, Stadt 405.856 5,14 2,54
Berlin, Stadt 392.324 4,70 2,18
Hamburg, Freie und Hansestadt 392.951 4,44 2,05
Duisburg, Stadt 86.735 8,81 1,46
Hamm, Stadt 22.447 9,93 1,45
Stuttgart, Landeshauptstadt 274.442 5,30 1,38
Bonn, Stadt 112.607 8,00 1,28

Beobachtung:

Die Tabelle zeigt die Top-10-Städte mit den größten Pendler-Bahn-Problemen, sortiert nach dem Problem-Score in absteigender Reihenfolge. Für jede Stadt werden der Problem-Score, die durchschnittliche Verspätung in Minuten, die gewichtete Verspätung sowie die Anzahl der Einpendler angegeben. Den höchsten Problem-Score weist München mit 3,45 auf. Es folgen Köln mit 3,05 und Düsseldorf mit 2,55. Auch Frankfurt am Main, Berlin und Hamburg liegen mit Problem-Scores zwischen 2,05 und 2,54 im oberen Bereich. Städte wie Duisburg, Hamm, Stuttgart und Bonn weisen niedrigere Problem-Scores auf, gehören aber dennoch zu den zehn Städten mit den größten Pendler-Bahn-Problemen. Die durchschnittlichen Verspätungen variieren deutlich zwischen den Städten und reichen von unter 5 Minuten bis zu knapp 10 Minuten. Gleichzeitig unterscheiden sich die Einpendlerzahlen stark, von unter 25.000 bis über 450.000 Einpendlern.

Interpretation:

Die Tabelle zeigt die Top-10-Städte mit den größten Pendler-Bahn-Problemen, sortiert nach dem Problem-Score. Dieser setzt sich aus der z-standardisierten Einpendlerzahl und der z-standardisierten durchschnittlichen Verspätung zusammen. Den höchsten Problem-Score erreicht München mit 3,45. Ebenfalls hohe Werte weisen Köln (3,05) und Düsseldorf (2,55) auf. Weitere Großstädte wie Frankfurt am Main, Berlin und Hamburg liegen mit Problem-Scores zwischen 2,05 und 2,54 im oberen Mittelfeld der Rangliste. Städte wie Duisburg, Hamm, Stuttgart und Bonn weisen niedrigere Problem-Scores auf, gehören aber weiterhin zu den zehn Städten mit den größten Pendler-Bahn-Problemen. Die durchschnittlichen Verspätungen unterscheiden sich deutlich zwischen den Städten und reichen von etwa 4,4 Minuten bis fast 10 Minuten. Gleichzeitig variiert die Einpendlerzahl stark: Während Städte wie München, Frankfurt, Berlin und Hamburg jeweils rund 400.000 oder mehr Einpendler aufweisen, liegen andere Städte deutlich darunter.


  1. Erstellen Sie ein Streudiagramm (Scatterplot), das die Beziehung zwischen Einpendlerzahl (x-Achse) und durchschnittlicher Verspätung (y-Achse) visualisiert.

Beschreiben und iInterpretieren Sie die vier Quadranten:

Beantworten Sie dabei auch folgende Fragen:


Beobachtung:

Die Grafik zeigt ein Streudiagramm zum Zusammenhang zwischen Einpendler Zahl und gewichteter durchschnittlicher Bahnverspätung in deutschen Städten. Auf der x-Achse ist die Einpendler Zahl in logarithmischer Skalierung dargestellt, auf der y-Achse die gewichtete durchschnittliche Verspätung in Minuten. Jeder Punkt repräsentiert eine Stadt. Horizontale und vertikale gestrichelte Linien markieren die jeweiligen Mittelwerte der Verspätung und der Einpendler Zahl und teilen das Diagramm in vier Quadranten. Diese stehen für unterschiedliche Kombinationen aus Pendleraufkommen und Verspätungen Niveau. Die Punkte sind entsprechend farblich codiert, einzelne Städte mit besonders auffälligen Werten sind beschriftet. Im rechten oberen Quadranten liegen unter anderem München, Köln und Düsseldorf. München Landeshauptstadt weist mit rund 455.000 Einpendlern und einer gewichteten Verspätung von etwa 6 Minuten sehr hohe Belastungswerte auf. Köln und Düsseldorf erreichen ebenfalls hohe Einpendler Zahlen von rund 300.000 beziehungsweise 285.000 bei Verspätungen von etwa 7 bis 8 Minuten. Der linke obere Quadrant umfasst Städte wie Hamm und Duisburg. Hamm fällt mit einer sehr hohen durchschnittlichen Verspätung von knapp 10 Minuten bei nur rund 22.000 Einpendlern auf, während Duisburg mit etwa 87.000 Einpendlern ebenfalls hohe Verspätung Werte von fast 9 Minuten erreicht. Im rechten unteren Quadranten befinden sich Städte mit sehr hohen Einpendler Zahlen, aber vergleichsweise geringen Verspätungen, darunter Frankfurt, Berlin, Hamburg und Stuttgart. Diese Städte liegen trotz Einpendler Zahlen von rund 400.000 Personen bei Verspätungen um oder unter 5 Minuten. Der linke untere Quadrant umfasst Städte mit niedrigen Einpendlerzahlen und geringen Verspätungen, meist unter 5 Minuten, was auf eine geringere Belastung des Bahnverkehrs hinweist.

Interpretation:

Die Verteilung der Städte auf die vier Quadranten zeigt, dass ein hohes Pendleraufkommen nicht zwangsläufig mit hohen Verspätungen einhergehen muss. Zwar befinden sich einige Großstädte im rechten oberen Quadranten, was auf eine starke Überlastung des Bahnverkehrs hindeutet, gleichzeitig zeigen Städte im rechten unteren Quadranten, dass auch bei sehr hohen Einpendler Zahlen ein vergleichsweise zuverlässiger Bahnverkehr möglich ist. Dies deutet auf Unterschiede in der Leistungsfähigkeit der Infrastruktur und im Betriebsmanagement hin. Besonders kritisch ist der rechte obere Quadrant zu bewerten, da hier viele Pendler von überdurchschnittlichen Verspätungen betroffen sind. In diesen Städten wirkt sich jede Störung besonders stark aus, da sie eine große Anzahl von Fahrgästen betrifft. Dies spricht für strukturelle Engpässe, etwa durch stark frequentierte Knotenpunkte, begrenzte Strecken Kapazitäten oder eine hohe Störanfälligkeit im Berufsverkehr. Verbesserungen in diesem Bereich würden daher einen besonders großen Nutzen für viele Nutzerinnen und Nutzer bringen. Der linke obere Quadrant zeigt, dass hohe Verspätungen auch unabhängig von der Pendlerzahl auftreten können. Dies weist darauf hin, dass Verspätungen nicht allein durch hohe Nachfrage verursacht werden, sondern auch durch lokale Faktoren wie veraltete Infrastruktur oder organisatorische Probleme. Insgesamt verdeutlicht das Diagramm, dass sowohl die Nachfrage als auch die Qualität der Verkehrsorganisation entscheidend für die Zuverlässigkeit des Bahnverkehrs sind.


Der Vergleich – Auto vs. Bahn

Sie haben nun identifiziert, wo die Bahn Probleme hat: Städte im kritischen Quadranten (viele Pendler + hohe Verspätungen) brauchen dringend Verbesserungen. Aber bevor Sie Empfehlungen aussprechen können, müssen Sie eine zentrale Frage beantworten:

Lohnt sich die Bahn überhaupt – oder ist das Auto trotz Stau schneller?

Denn selbst wenn die Bahn unpünktlich ist, könnte sie immer noch schneller sein als das Auto im Berufsverkehr. Umgekehrt: Eine pünktliche Bahn bringt wenig, wenn das Auto trotzdem schneller ist. Erst der direkte Vergleich zeigt uns, wo die Bahn wirklich konkurrenzfähig ist – und wo nicht.

Methodische Herausforderungen

Für einen fairen Vergleich sollten Sie “Äpfel mit Äpfeln” vergleichen:

  • Beim Auto muss der Stau berücksichtigt werden (nicht nur die theoretische Fahrzeit)
  • Bei der Bahn muss die Verspätung berücksichtigt werden (nicht nur der Fahrplan)
  • Beide Routen müssen dieselben Start- und Endpunkte haben

Für die Auto-Fahrtzeiten nutzen Sie OSRM (Open Source Routing Machine), das auf OpenStreetMap-Daten basiert. OSRM berechnet echte Straßenrouten, keine Luftlinien.

  1. Erklären Sie in eigenen Worten:
  • Warum ist OSRM-Routing für diesen Vergleich besser geeignet als eine einfache Berechnung nach der Formel Distanz / Geschwindigkeit?
  • Welche Faktoren müssen zusätzlich berücksichtigt werden, um einen realistischen Vergleich zu ermöglichen? Denken Sie an:
    • Tageszeit
    • Parkplatzsuche
    • Fußweg zum Ziel
    • Wartezeit und Umsteigen bei der Bahn

Das OSRM-Routing eignet sich deutlich besser für den Vergleich von Auto- und Bahnfahrzeiten als eine einfache Rechnung nach dem Prinzip Distanz durch Geschwindigkeit. Solche Berechnungen gehen davon aus, dass man konstant fährt und auf direktem Weg ans Ziel kommt – was im Alltag kaum der Fall ist. In der Realität bewegen sich Autos durch ein dichtes Straßennetz mit Kreuzungen, Tempolimits, Abbiegevorgängen und Ein- sowie Ausfahrten. Genau diese Gegebenheiten bildet OSRM ab, indem es reale Straßenverläufe nutzt und typische Geschwindigkeiten für unterschiedliche Straßentypen berücksichtigt. Dadurch entstehen Fahrzeitangaben, die der tatsächlichen Situation deutlich näherkommen.

Für einen wirklich fairen Vergleich reicht es jedoch nicht aus, nur die reine Fahrzeit zu betrachten. Entscheidend ist, wie lange man insgesamt von der Haustür bis zum Ziel unterwegs ist. Dabei spielt die Tageszeit eine große Rolle, denn je nach Uhrzeit unterscheiden sich sowohl das Stauaufkommen im Straßenverkehr als auch die Zuverlässigkeit des Bahnverkehrs. Besonders während der Hauptverkehrszeiten am Morgen zwischen 7-10 Uhr sowie am Nachmittag und frühen Abend zwischen 16-18 Uhr verlängern sich die Reisezeiten bei beiden Verkehrsmitteln spürbar.

Beim Autofahren wird außerdem häufig unterschätzt, wie viel Zeit die Parkplatzsuche in Anspruch nehmen kann, vor allem in dicht bebauten Stadtgebieten. Selbst wenn man das Zielgebiet erreicht hat, können noch mehrere Minuten vergehen, bis ein geeigneter Parkplatz gefunden ist. Anschließend kommt meist noch ein Fußweg vom Parkplatz bis zum eigentlichen Ziel hinzu. Ähnlich verhält es sich bei der Bahn: Auch hier endet die Fahrt nicht am Bahnhof, sondern es folgt in der Regel ein Fußweg zur finalen Destination.

Zusätzlich müssen im Bahnverkehr Wartezeiten vor der Abfahrt und mögliche Umstiege eingeplant werden. Kommt es zu Verspätungen oder werden Anschlüsse verpasst, kann sich die gesamte Reise deutlich verlängern, insbesondere bei mehreren Umstiegen. Erst wenn all diese Faktoren gemeinsam berücksichtigt werden, lässt sich ein realistischer Vergleich zwischen Auto und Bahn ziehen, der die tatsächliche Dauer einer Reise widerspiegelt und nicht nur theoretische Fahrzeiten betrachtet.


  1. Für die Top 10 Einpendler-Städte wurden typische Pendlerstrecken definiert (z.B. Dachau \(\rightarrow\) München, Neuss \(\rightarrow\) Düsseldorf). Die OSRM-Ergebnisse liegen bereits vor. Nutzen Sie für ihre Analyse den Datensatz fahrtzeit.

Erstellen Sie:

  • Eine Tabelle mit: Stadt, Strecke, Distanz (km), Auto-Fahrzeit (Hauptverkehrszeit), Bahn-Fahrzeit (real), Differenz
  • Berechnen Sie die jährliche Zeitersparnis bei 220 Arbeitstagen und 2x täglichem Pendeln.

Interpretieren Sie ihre Tabelle:

  • In wie vielen Fällen ist die Bahn schneller als das Auto?
  • Wie viele Stunden pro Jahr kann ein Pendler maximal sparen?
  • Gibt es Strecken, bei denen das Auto schneller ist? Woran könnte das liegen?

Vergleich Auto vs. Bahn auf typischen Pendlerstrecken
Stadt Strecke Distanz (km) Auto-Fahrzeit HVZ (min) Bahn-Fahrzeit real (min) Differenz (min) Zeitersparnis pro Jahr (h)
Berlin Potsdam → Berlin 34,20 49,30 29,58 19,72 144,63
München Dachau → München 19,10 40,20 26,08 14,12 103,53
Hannover Celle → Hannover 42,20 54,40 40,80 13,60 99,76
Frankfurt Darmstadt → Frankfurt 36,00 35,80 23,00 12,80 93,90
Düsseldorf Neuss → Düsseldorf 12,10 27,10 17,10 10,00 73,35
Hamburg Harburg → Hamburg 14,20 24,00 16,27 7,73 56,71
Stuttgart Esslingen → Stuttgart 14,00 27,20 20,17 7,03 51,55
Nürnberg Fürth → Nürnberg 10,40 18,90 12,85 6,05 44,37
Köln Leverkusen → Köln 18,30 28,70 22,79 5,91 43,32
Essen Mülheim → Essen 11,00 18,00 15,27 2,73 20,05
Ulm Neu-Ulm → Ulm 3,70 8,10 8,89 -0,79 -5,77
Hinweis:
220 Arbeitstage, 2 Fahrten täglich

Beobachtung:

Die Tabelle zeigt einen Vergleich der Fahrtzeiten von Auto und Bahn auf typischen Pendlerstrecken. Grundlage der Berechnung sind 220 Arbeitstage pro Jahr mit jeweils zwei täglichen Fahrten. Betrachtet werden die zehn wichtigsten Pendlerstrecken ,gemessen nach Anzahl der Einpendler, die in der ersten Spalte der Tabelle aufgeführt sind.

In den weiteren Spalten sind die jeweilige Distanz in Kilometern, die durchschnittliche Autofahrzeit in Minuten, die Bahnfahrzeit, die Differenz zwischen Bahn- und Autofahrt in Minuten, sowie die hochgerechnete jährliche Zeitersparnis in Stunden dargestellt. Die Tabelle ist nach der jährlichen Zeitersparnis durch die Nutzung der Bahn in absteigender Reihenfolge sortiert. Die größte Zeitersparnis ergibt sich für Pendler auf der Strecke von Potsdam nach Berlin. Hier können Bahnreisende im Vergleich zum Auto jährlich rund 144 Stunden einsparen. Deutlich geringer, aber immer noch erheblich, ist die Zeitersparnis auf der Strecke von Dachau nach München, die etwa 40 Stunden darunter liegt. Auf den folgenden Plätzen liegen die Strecken Celle nach Hannover sowie Darmstadt nach Frankfurt mit jährlichen Zeitersparnissen von etwa 99 beziehungsweise 93 Stunden.

Auffällig ist, dass diese Strecken gleichzeitig zu den längeren Distanzen zählen. So beträgt die Entfernung zwischen Potsdam und Berlin rund 34 Kilometer, während die Strecke von Celle nach Hannover etwa 42 Kilometer lang ist. Demgegenüber weisen kürzere Strecken wie Leverkusen nach Köln und Mülheim nach Essen die geringsten Zeitersparnisse auf. Hier beläuft sich die jährliche Einsparung lediglich auf etwa 43 beziehungsweise 20 Stunden.

Eine Besonderheit stellt die Strecke von Neu-Ulm nach Ulm dar. Auf dieser Verbindung ist die Bahn langsamer als das Auto, sodass sich bei Nutzung der Bahn jährlich keine Zeitersparnis, sondern ein Zeitverlust von etwas über fünf Stunden ergibt.

Interpretation:

Ein zentraler Erkenntnisgewinn aus der Analyse ist die potenzielle jährliche Zeitersparnis für Pendlerinnen und Pendler durch die Nutzung der Bahn im Vergleich zum Auto, was hier in 10 von 11 Fällen zutrifft. Die Auswertung zeigt, dass auf den betrachteten Strecken eine maximale Einsparung von rund 145 Stunden pro Jahr möglich ist. Dieser Wert macht deutlich, dass sich bereits relativ geringe Zeitvorteile pro Fahrt, oft nur wenige Minuten, über das Jahr hinweg stark aufsummieren. Für den Verkehr der Bahnpendler bedeutet dies eine erhebliche Entlastung, da mehrere Wochen an zusätzlicher Freizeit oder Erholungszeit gewonnen werden können. Besonders auf mittleren bis längeren Pendlerstrecken wirkt sich die höhere Stauanfälligkeit des Autoverkehrs in den Hauptverkehrszeiten stark aus, wodurch die Bahn hier ihren größten Zeitvorteil entfalten kann. Beispiele hierfür sind die Strecken Celle nach Hannover (Platz 3) oder auch Potsdam nach Berlin (Platz 1).

Gleichzeitig zeigt die Analyse auch, dass es einzelne Strecken gibt, auf denen das Auto schneller ist als die Bahn. Dies betrifft vor allem sehr kurze Distanzen. In solchen Fällen treten bei der Bahn Wartezeiten, Zugangswege zum Bahnhof sowie mögliche Verzögerungen längere Verspätungen auf, als beim Auto. Das Auto bietet hier den Vorteil der direkten Tür-zu-Tür-Nutzung und kann auf kurzen Strecken ohne größere Staus effizienter sein. Diese Ausnahme verdeutlicht, dass die Bahn nicht in jeder Situation überlegen ist, bestätigt jedoch insgesamt das Bild, dass sie insbesondere auf längeren und stark frequentierten Pendlerstrecken einen deutlichen zeitlichen Vorteil gegenüber dem Auto bietet.


  1. Da Sie alle in Ulm studieren und eventuell aus dem Ulmer Umland einpendeln, sollten Sie die 5 wichtigsten Pendlerrouten nach Ulm näher analysieren. Stellen Sie in einem Dumbbell-Chart (oder Lollipop-Chart) die Unterschiede zwischen Auto- und Bahnzeiten visuell dar. Nutzen Sie für ihre Analyse den Datensatz ulm_routen.

Die 5 wichtigsten Pendlerrouten nach Ulm sind:

  • Neu-Ulm \(\rightarrow\) Ulm
  • Blaustein \(\rightarrow\) Ulm
  • Ehingen \(\rightarrow\) Ulm
  • Laupheim \(\rightarrow\) Ulm
  • Langenau \(\rightarrow\) Ulm

Markieren Sie, welche Orte keinen Bahnhof haben.

Beschreiben und interpretieren Sie ihre Grafik. Welche Besonderheiten zeigen die ländlichen Strecken?

Hinweis: Nutzen Sie geom_segment() und geom_point() für ihr Dumbbell-Chart oder Lollipop-Chart.


Beobachtung:

Die Grafik stellt die Pendlerzeiten nach Ulm für fünf ausgewählte Pendelrouten dar und vergleicht dabei die Fahrzeiten mit dem Auto und die reale Bahnfahrzeit inklusive Verspätungen während der Hauptverkehrszeit. Auf der x-Achse ist die Fahrzeit in Minuten abgetragen, auf der y-Achse sind die jeweiligen Pendelrouten aufgeführt. Für jede Route sind zwei Punkte eingezeichnet, die durch eine Linie miteinander verbunden sind. Diese Punkte repräsentieren die Auto- und Bahnfahrzeit. Zusätzlich sind die Punkte farblich codiert, um anzuzeigen, ob der jeweilige Ort über einen Bahnanschluss (Bahnhof) verfügt oder keinen Bahnhof hat. Dadurch werden sowohl die zeitlichen Unterschiede zwischen Auto und Bahn, als auch strukturelle Unterschiede im Bahnanschluss der einzelnen Pendelorte visualisiert.

Interpretation:

Die Grafik zeigt, dass auf allen betrachteten Pendelrouten nach Ulm die Bahnfahrzeit in der Hauptverkehrszeit über der Autofahrzeit liegt. Besonders auf längeren und ländlich geprägten Strecken wie Ehingen → Ulm Hbf und Langenau → Ulm Hbf ist der Zeitunterschied deutlich, da die Bahn hier teilweise über 30 Minuten benötigt, während das Auto unter 25 Minuten bleibt. Auf kurzen, stadtnahen Strecken wie Neu-Ulm → Ulm Hbf fallen die Unterschiede geringer aus. Auffällig ist zudem, dass Orte ohne eigenen Bahnhof, etwa Blaustein, trotz kurzer Distanz längere Bahnfahrzeiten aufweisen, was auf zusätzliche Wege und Umstiege zurückzuführen ist.

Zusammenfassend zeigt die Grafik, dass das Auto insbesondere auf ländlichen Strecken zeitlich im Vorteil ist, während die Bahn vor allem bei kurzen, gut angebundenen Strecken konkurrenzfähiger bleibt.


Die volkswirtschaftlichen Kosten

Verspätungen kosten nicht nur Nerven, sie haben einen realen volkswirtschaftlichen Preis. Jede Minute, die ein Pendler im verspäteten Zug wartet, ist verlorene Arbeitszeit.

Um diese Kosten etwas besser zu quantifizieren sollten Sie sich den Medianlohn der jeweiligen Städte herunterladen und näher analysieren.

  1. Berechnen Sie die volkswirtschaftlichen Kosten der Bahnverspätungen für die 11 Städte.

Datensätze:

Nutzen Sie die folgenden Annahmen:

Annahmen:

Berechnen Sie für jede Stadt:

Erstellen Sie auf Basis ihrer Berechnung eine Tabelle, welche die Anzahl der Bahnpendler, die Verspätungsstunden pro Jahr, die Kosten pro Pendler und die Gesamtkosten der Stadt anschaulich darstellt.

Beschreiben und interpretieren Sie ihre Tabelle. Gehen Sie dabei auch auf die Gesamtkosten der 11 Städte ein. Erklären Sie außerdem, warum der Medianlohn für diese Berechnung besser geeignet ist als der Durchschnittslohn.

Hinweis: Für die Umrechnung auf Stundenlohn: Monatsentgelt / 160 (bei 40h/Woche).


Zeitverluste durch Bahnverspätungen und ihre Kosten
Stadt Bahnpendleranzahl (Einpendlerzahl*0,84) Verspätungsstunden pro Jahr (h/Jahr) Kosten pro Pendler (in Euro) Gesamtkosten der Stadt (in Euro)
München 38.274 43,86 1.328,61 50.851.638,22
Köln 25.780 57,87 1.590,77 41.010.023,62
Frankfurt 34.092 37,73 1.111,06 37.878.233,76
Düsseldorf 23.914 53,77 1.520,02 36.350.419,58
Hamburg 33.008 32,59 922,01 30.433.646,38
Berlin 32.955 34,47 895,64 29.516.157,75
Stuttgart 23.053 38,85 1.138,71 26.250.808,87
Essen 11.869 54,62 1.361,10 16.154.759,83
Nürnberg 13.902 37,06 980,64 13.632.522,14
Hannover 11.586 43,81 1.138,07 13.185.227,33
Ulm 5.741 29,51 795,32 4.565.659,86
Hinweis:
Annahmen: 220 Arbeitstage/Jahr, 2 Fahrten/Tag, 8,4 % Bahnanteil

Beobachtung:

Die Tabelle zeigt die Zeitverluste durch Bahnverspätungen sowie die daraus resultierenden Kosten für ausgewählte deutsche Städte. Dargestellt werden unter anderem die Anzahl der Bahnpendler, die durchschnittlichen Verspätungsstunden pro Jahr, die daraus berechneten Kosten pro Pendler sowie die gesamten jährlichen Kosten pro Stadt. Die Berechnungen basieren auf festen Annahmen zu Arbeitstagen, täglichen Fahrten und dem Bahnanteil unter den Pendlern. Die höchsten Gesamtkosten entstehen in München mit rund 50,9 Mio. €, gefolgt von Köln mit ca. 41,0 Mio. € und Frankfurt mit etwa 37,9 Mio. €. Diese Städte weisen zugleich eine hohe Zahl an Bahn-Pendlern auf. Im Gegensatz dazu liegen die niedrigsten Gesamtkosten bei Ulm mit etwa 4,6 Mio. €, was mit der vergleichsweise geringen Zahl an Bahn-Pendlern zusammenhängt. Auffällig ist außerdem, dass Städte wie Hamburg und Berlin trotz hoher Pendlerzahlen geringere Kosten pro Pendler von unter 1.000 € aufweisen, während Städte mit weniger Bahnpendlern, etwa Essen oder Düsseldorf, teilweise deutlich höhere Kosten pro Pendler verzeichnen.

Interpretation:

Die Tabelle verdeutlicht, dass Bahnverspätungen erhebliche volkswirtschaftliche Kosten verursachen. Maßgeblich für die Gesamtkosten einer Stadt ist vor allem die Anzahl der Bahnpendler, während die Kosten pro Pendler stärker von der Höhe der jährlichen Verspätungsstunden abhängen. Dadurch entstehen besonders hohe Gesamtkosten in großen Städten, auch wenn die individuellen Kosten pro Pendler dort vergleichsweise niedrig ausfallen können. Für die monetäre Bewertung der Zeitverluste ist der Medianlohn besser geeignet als der Durchschnittslohn, da er weniger durch extrem hohe oder niedrige Einkommen verzerrt wird. Während der Durchschnittslohn durch wenige sehr hohe Gehälter überproportional ansteigen kann, bildet der Medianlohn das typische Einkommen eines Pendlers realistischer ab. Dadurch werden die berechneten volkswirtschaftlichen Kosten der Bahnverspätungen insgesamt plausibler und besser vergleichbar.


  1. Setzen Sie die Kosten der Bahn (aus Aufgabe 14) den Kosten des Autos gegenüber. Vergleichen Sie diese in einer Szenario-Analyse mittels eines gestapelten Balkendiagramms. Nutzen Sie für ihre Analysen den Datensatz staedte_basis.

Berechnen Sie zuerst die Kosten des Autostaus pro Stadt:

Führen Sie anschließend einen Szenario-Vergleich durch: Was passiert, wenn der Bahnanteil von 8,4% auf 20% steigt?

Erstellen Sie ein gestapeltes Balkendiagramm nach Szenario. Beschreiben und intepretieren Sie ihre Grafik. Gehen Sie insbesondere auf die folgenden Fragen ein:


Beschreibung:

Zu sehen ist eine Szenarioanalyse in Form eines Balkendiagramms, das die volkswirtschaftlichen Kosten von Bahnverspätungen und Autostaus gegenüberstellt. Die x-Achse zeigt die Gesamtkosten pro Jahr in Millionen Euro. Auf der y-Achse sind die betrachteten Städte aufgeführt, entsprechend dem vorherigen Schaubild, beginnend bei München bis hin zu Ulm. Zur besseren Vergleichbarkeit werden zwei Szenarien untereinander dargestellt.

Beide Szenarien nutzen dieselbe Legende, wobei die grünen Balkenanteile die Kosten des Autoverkehrs und die pinken Anteile die Kosten des Bahnverkehrs darstellen. Im ersten Szenario wird der Status quo abgebildet, bei dem 8,4 % der Pendler mit der Bahn unterwegs sind. Im zweiten Szenario steigt dieser Anteil auf 20 %.

Ein Vergleich der beiden Szenarien auf Stadtebene zeigt deutlich, dass im zweiten Szenario die Kosten des Autoverkehrs in allen Städten sinken, während die Kosten durch Bahnverspätungen ansteigen. Insgesamt führt der höhere Bahnanteil jedoch zu geringeren Gesamtkosten. Besonders hohe Kosten verursacht der Pendelverkehr in München. Diese liegen im Status quo bei etwa 770 Mio. Euro pro Jahr und würden im zweiten Szenario auf rund 630 Mio. Euro sinken. Die geringsten Kosten weist Ulm auf, wo sich die Gesamtkosten von etwa 55 Mio. Euro auf rund 50 Mio. Euro pro Jahr reduzieren würden.

Interpretation:

Besonders in den großen Metropolen wie München, Frankfurt und Berlin sind die Autokosten um ein Vielfaches höher als die Bahnkosten, was auf die hohe Verkehrsbelastung und Stauanfälligkeit des motorisierten Individualverkehrs hinweist. Während Bahnverspätungen zwar ebenfalls Kosten verursachen, sind diese im Status quo deutlich niedriger als die durch Zeitverluste, Staus und Ineffizienzen im Straßenverkehr entstehenden Kosten. Damit ist eindeutig das Auto das Verkehrsmittel mit dem größeren volkswirtschaftlichen Schaden. Dies gilt konsistent für alle dargestellten Städte und unterstreicht die hohe gesamtwirtschaftliche Belastung des Autoverkehrs. Dabei muss man dennoch beachten, dass es sich bei den hier abgebildetet Städten um die Top 10 der Städte mit den meisten Einpendlern handelt. Berechnet man nun die Gesamtkosten des Status Quo und vergleicht diese mit den Zahlen des Szenarios, erhält man folgende Aussage. Eine insgesamte Summe von ca. 4,59 Milliarden Euro Kosten könnte auf ca 3,72 Milliarden Euro reduziert werden. Dies wäre eine Reduktion von fast 19% der Kosten.

Zusammenfassend verdeutlicht die Szenarioanalyse, dass ein steigender Bahnanteil trotz höherer Kosten infolge von Bahnverspätungen insgesamt zu einer deutlichen Verringerung der gesamtwirtschaftlichen Verkehrskosten führt. Die Ergebnisse legen nahe, dass eine Verlagerung des Verkehrs vom Auto auf die Bahn insbesondere in großen Städten ein effektives Mittel zur Reduzierung volkswirtschaftlicher Belastungen darstellt.


Sie haben nun umfangreiche Analysen durchgeführt und viele Erkenntnisse über die Bahn gewonnen. Jetzt ist es Zeit, diese zu einer kohärenten Empfehlung zusammenzufügen.

Szenario: Sie sind Berater:in des Bundesministeriums für Digitales und Verkehr. Die Ministerin bittet Sie um eine evidenzbasierte Politikempfehlung zur Verbesserung des Pendlerverkehrs in Deutschland.

  1. Formulieren Sie eine Politikempfehlung für das Bundesministerium für Digitales und Verkehr.

Schreiben Sie eine Executive Summary (max. 5 Sätze). Fassen Sie hierbei die wichtigsten Erkenntnisse aus ihrem Projekt zusammen. Was ist die zentrale Botschaft?

Formulieren Sie 3 konkrete Empfehlungen. Jede muss enthalten:


Der Pendlerverkehr in Deutschland wird weiterhin überwiegend mit dem Auto abgewickelt, obwohl viele Pendelstrecken grundsätzlich gut für den Schienenverkehr geeignet wären. Die durchgeführten Analysen zeigen, dass vor allem Verspätungen, eine geringe Zuverlässigkeit sowie eine unzureichende Taktung zentrale Gründe dafür sind, warum viele Pendlerinnen und Pendler die Bahn nicht nutzen. Besonders auf mittleren Pendeldistanzen besteht ein großes Potenzial für eine stärkere Nutzung der Bahn. Regionen mit einem zuverlässigen und gut ausgebauten Bahnangebot weisen einen deutlich höheren Bahnanteil auf. Die zentrale Erkenntnis des Projekts ist daher, dass nicht die Entfernung, sondern die Qualität des Bahnangebots entscheidend für die Verkehrsmittelwahl ist. Neben individuellen Nachteilen für Pendlerinnen und Pendler entstehen durch Staus und Verspätungen auch erhebliche volkswirtschaftliche Kosten, etwa durch Zeitverluste und Produktivitätsausfälle.

Um den Pendlerverkehr langfristig zu verbessern, sollte zunächst die Zuverlässigkeit des Regionalverkehrs erhöht werden. Ziel ist es, die Bahn für Berufspendler verlässlicher zu machen und dadurch den Umstieg vom Auto zu fördern. Konkret sollten Investitionen in die Instandhaltung der Schieneninfrastruktur sowie in digitale Stellwerke priorisiert werden, um Verspätungen zu reduzieren. Eine messbare Zielgröße wäre eine Pünktlichkeitsquote von mindestens 90 % im Regionalverkehr. Die Analyse zeigt, dass in Regionen mit hohen Verspätungsraten der Bahnanteil teilweise unter 10 % liegt, während er in Regionen mit stabiler Betriebsqualität deutlich höher ist. Dies verdeutlicht, dass Zuverlässigkeit ein zentraler Faktor für die Nutzung der Bahn ist. Darüber hinaus sollte das Bahnangebot auf mittleren Pendeldistanzen gezielt ausgebaut werden. Ziel ist es, mehr Pendlerinnen und Pendler auf Strecken zwischen etwa 20 und 60 Kilometern für die Bahn zu gewinnen. Eine konkrete Maßnahme wäre die Einführung eines durchgehenden 30-Minuten-Takts im Regionalverkehr während der Hauptverkehrszeiten auf stark frequentierten Strecken. Die Auswertung der Pendlerdaten zeigt, dass ein großer Teil der Berufspendler in diesem Entfernungsbereich unterwegs ist, die Bahn jedoch vergleichsweise selten nutzt, insbesondere bei geringer Taktung. Auf Strecken mit dichterem Angebot ist der Bahnanteil deutlich höher, was auf ein erhebliches Verlagerungspotenzial hinweist. Ein weiterer wichtiger Ansatzpunkt ist die Verbesserung der Erreichbarkeit von Bahnhöfen, insbesondere im ländlichen Raum. Ziel ist es, den Zugang zur Bahn einfacher und attraktiver zu gestalten. Konkret könnten Zubringerbusse besser auf die Fahrpläne abgestimmt sowie Park-and-Ride- und Bike-and-Ride-Angebote ausgebaut werden. Die Analyse legt nahe, dass in Regionen mit schlechter Anbindung an Bahnhöfe die Nutzung der Bahn geringer ausfällt, selbst wenn die Pendeldistanzen vergleichbar sind. Eine bessere Verknüpfung der Verkehrsmittel könnte daher einen wichtigen Beitrag zur Steigerung der Bahnnutzung leisten.

Die Datengrundlage dieser Analyse weist jedoch auch einige Einschränkungen auf. Zum einen basieren die Ergebnisse auf aggregierten Pendlerdaten, wodurch keine Aussagen über individuelle Präferenzen oder persönliche Entscheidungsprozesse möglich sind. Zum anderen werden kurzfristige Einflüsse wie Baustellen, Wetterbedingungen oder betriebliche Störungen nicht berücksichtigt, obwohl diese das Nutzungserlebnis der Bahn stark beeinflussen können. Mit zusätzlichen Daten ließen sich weitere relevante Fragestellungen untersuchen. Insbesondere individuelle Informationen zu Ticketpreisen, Einkommen oder Arbeitszeiten könnten helfen, die Verkehrsmittelwahl besser zu erklären.


Zusatzaufgaben (optional)

Bisher haben Sie zwei Dimensionen betrachtet: Zeit (Bahn ist schneller) und Geld (Verspätungen kosten). Aber es gibt einen dritten, oft vergessenen Aspekt: die Umwelt.

Das Auto ist nicht nur langsamer und teurer; es ist auch ein Klimakiller. Ein durchschnittlicher PKW emittiert z.B. etwa 150 g CO2 pro Personenkilometer.

  1. Recherchieren Sie die CO2-Emissionsfaktoren und das Mobilitätsverhalten:

Hinweis: Nutzen Sie Daten vom Umweltbundesamt oder dem DB Umweltbericht.


CO2-Emissionen verschiedener Verkehrsmittel (in g pro Personenkilometer)
Verkehrsmittel CO2-Emissionen (in g/Personenkilometer)
Pkw (Durchschnitt) 164.0
Pkw (Elektro, deutscher Strommix) 70.0
Fernverkehr (ICE/IC) 26.0
Nahverkehr (RE/RB) 44.0
S-Bahn 42.0
Bahn gewichteter Durchschnitt (70% Nahverkehr, 30% Fernverkehr) 38.6
Prozentuale CO2-Einsparung der Bahn im Vergleich zum PKW
Vergleich der Emissionen (164 - 38.6) CO2-Einsparungen mit Bahn (in g/Personenkilometer)
Bahn (gewichteter Durchschnitt) vs. PKW (Durchschnitt) 76.46

Beschreibung:

Die Tabelle zeigt die CO2-Emissionen verschiedener Verkehrsmittel pro Personenkilometer, darunter PKW, Elektro-PKW, Fernverkehr, Nahverkehr, S-Bahn sowie den gewichteten Durchschnitt der Bahn. Die höchsten Emissionen verursacht der durchschnittliche PKW mit rund 164 g CO2 pro Personenkilometer. Es folgt der Elektro-PKW mit etwa 70 g CO2. Der Nahverkehr liegt bei rund 44 g CO2, dicht gefolgt von der S-Bahn mit etwa 42 g CO2 pro Personenkilometer. Deutlich niedrigere Emissionen weist der Fernverkehr (ICE/IC) mit rund 26 g CO2 auf. Der gewichtete Bahn-Durchschnitt, bestehend aus 70 % Nahverkehr und 30 % Fernverkehr, liegt bei 38.6 g CO2 pro Personenkilometer. Im Vergleich zum durchschnittlichen PKW ergibt sich damit eine CO2-Einsparung von rund 76,5 Gramm pro Personenkilometer zugunsten der Bahn.

Interpretation:

Besonders der Vergleich zwischen einem durchschnittlichen PKW und Fernverkehrszügen verdeutlicht eine sehr hohe CO2-Einsparung. Doch nicht nur auf langen Strecken zeigt sich dieser Vorteil. Auch im Vergleich zur S-Bahn sowie zum Nahverkehr wird deutlich, dass die Bahn eine Einsparung von bis zu rund 120 g CO2 pro Personenkilometer gegenüber dem PKW ermöglicht. Selbst der Elektro-PKW weist mit etwa 70 g CO2 pro Personenkilometer nahezu doppelt so hohe Emissionen auf wie der gewichtete Bahn-Durchschnitt. Dies verdeutlicht, dass aus ökologischer Sicht der Verzicht auf das Auto und der Umstieg auf die Bahn einen erheblichen Beitrag zur Reduktion der CO₂-Emissionen leisten kann und somit für die Umwelt sehr profitable ist.


  1. Die Studie “Mobilität in Deutschland” (MiD 2023) ist die wichtigste Datenquelle zum Mobilitätsverhalten in Deutschland. Sie ermöglicht einen Vergleich mit 2017 (vor Corona).

Lesen Sie den MiD 2023 Kurzbericht und beantworten Sie:


Modal Split:

Der Anteil des öffentlichen Verkehrs am gesamten Verkehrsaufkommen ist von 2017 auf 2023 leicht gestiegen. Während der ÖV-Anteil 2017 noch bei etwa 10 % lag, erreicht er 2023 rund 11 %. Gleichzeitig ist der motorisierte Individualverkehr leicht zurückgegangen, während Fuß- und Radverkehr an Bedeutung gewonnen haben.

Homeoffice-Effekt:

Die durchschnittliche Tagesstrecke pro Person ist seit 2017 deutlich gesunken – von rund 39 km auf etwa 35 km im Jahr 2023. Laut MiD ist der wichtigste Grund dafür der verstärkte Einsatz von Homeoffice, wodurch vor allem Arbeitswege seltener oder gar nicht mehr zurückgelegt werden.

Stadt vs. Land:

Das Deutschlandticket wird vor allem in Metropolen und größeren Städten genutzt, da dort das Angebot an Bus und Bahn dichter und attraktiver ist. In ländlichen Räumen ist die Nutzung deutlich geringer, weil das Auto dort weiterhin das wichtigste Verkehrsmittel bleibt. Für die Ulm-Region bedeutet das, dass das Deutschlandticket vor allem im städtischen Bereich Potenzial hat, während im Umland weiterhin strukturelle Grenzen bestehen.

Implikation für CO₂:

Die geringeren Tagesstrecken und der leicht gestiegene ÖV-Anteil zeigen, dass Bahnpendeln grundsätzlich ein hohes CO₂-Einsparpotenzial bietet. Dieses Potenzial kann jedoch nur dann voll ausgeschöpft werden, wenn das Bahn- und ÖPNV-Angebot auch außerhalb der Großstädte weiter ausgebaut wird.


  1. Berechnen Sie die CO2-Ersparnis für die 11 analysierten Städte.

Datensatz: co2_analyse (aus Aufgabe 4) – enthält Streckenlängen, Einpendlerzahlen und vorberechnete Werte

Annahmen:

Berechnen Sie für jeden Umsteiger (Auto \(\rightarrow\) Bahn):

Nun sollten Sie eine Szenario Analyse ähnlich wie in Aufgabe 15 durchführen: Wenn sich der Bahnanteil von 8,4% auf 20% erhöht: wie viele Tonnen CO2 würden in den 11 Städten jährlich eingespart?

Visualisieren Sie die CO2-Ersparnis pro Stadt.

Stellen Sie die Ersparnis in Kontext, um die Ersparnis greifbarer zu machen, z.B. wie viele Mallorca-Flüge (hin + zurück, ~750 kg CO2) entspricht das?


CO2-Bilanz pro Umsteiger (Auto → Bahn)
Stadt Jährliche Kilometer CO₂ Auto (kg/Jahr) CO₂ Bahn (kg/Jahr) CO₂-Ersparnis (kg/Jahr)
München 8.404,00 1.260,60 396,67 863,93
Frankfurt 15.840,00 2.376,00 747,65 1.628,35
Hamburg 6.248,00 937,20 294,91 642,29
Berlin 15.048,00 2.257,20 710,27 1.546,93
Köln 8.052,00 1.207,80 380,05 827,75
Düsseldorf 5.324,00 798,60 251,29 547,31
Stuttgart 6.160,00 924,00 290,75 633,25
Nürnberg 4.576,00 686,40 215,99 470,41
Essen 4.840,00 726,00 228,45 497,55
Hannover 18.568,00 2.785,20 876,41 1.908,79
Ulm 1.628,00 244,20 76,84 167,36

Beschreibung:

Als erstes ist eine Tabelle zu sehen, die die CO₂-Bilanz pro Umsteiger darstellt, also für Personen, die vom Auto auf die Bahn wechseln würden. Die Tabelle ist nach den Spalten Stadt, jährliche Kilometer, CO₂-Emissionen Auto (kg/Jahr), CO₂-Emissionen Bahn (kg/Jahr) sowie CO₂-Ersparnis (kg/Jahr) gegliedert. Dargestellt sind die Top-10-Städte mit den meisten Einpendlern; zusätzlich ist Ulm am Ende der Tabelle aufgeführt. Den höchsten Wert weist Hannover auf: Mit rund 18.568 Kilometern pro Jahr ergibt sich dort eine potenzielle CO₂-Ersparnis von etwa 1.909 kg pro Jahr. Knapp dahinter folgen Frankfurt und Berlin, die jeweils auf über 15.000 Kilometer jährlich kommen und dadurch eine mögliche CO₂-Reduktion von rund 1.600 kg pro Jahr erzielen könnten. Am unteren Ende der Tabelle befinden sich Nürnberg und Ulm. Nürnberg erreicht eine Einsparung von etwa 470 kg CO₂ pro Jahr, während Ulm mit rund 167 kg CO₂ pro Jahr den niedrigsten Wert aufweist. Dies ist insbesondere darauf zurückzuführen, dass Ulm im Vergleich zu den übrigen Städten die geringste Größe und kürzere Pendeldistanzen aufweist.

Die zweite Grafik zeigt eine Szenarioanalyse in Form eines Balkendiagramms, in der die CO2-Ersparnisse pro Jahr und pro Stadt durch einen Anstieg des Bahnanteils von 8,4 % auf 20 % dargestellt werden. Auf der x-Achse sind die betrachteten Städte abgebildet, während die y-Achse die CO₂-Ersparnis in Tonnen pro Jahr zeigt. In diesem Szenario ist Frankfurt am Main der Spitzenreiter mit einer jährlichen CO₂-Ersparnis von rund 78.000 Tonnen. Es folgen Berlin und München mit etwa 70.000 Tonnen bzw. 46.000 Tonnen pro Jahr. Erst danach reiht sich Hannover mit einer Einsparung von rund 31.000 Tonnen CO₂ pro Jahr ein. Auch im unteren Bereich der Rangliste ergeben sich Unterschiede: Nürnberg belegt mit etwa 9.000 Tonnen den neunten Platz, gefolgt von Essen mit rund 8.000 Tonnen. Ulm bildet mit einer jährlichen Einsparung von ungefähr 2.000 Tonnen CO₂ das Schlusslicht.

Interpretation:

Auch hier ist deutlich zu erkennen, dass sowohl der Umstieg vom Auto auf die Bahn als auch eine Erhöhung des prozentualen Anteils der Bahnpendler zu einer erheblichen Entlastung der Umwelt führen. Dabei zeigt sich jedoch, dass Städte mit besonders hohen jährlichen Pendelkilometern nicht zwangsläufig auch die größte CO₂-Ersparnis im betrachteten Szenario aufweisen (z.B. Hannover). Frankfurt am Main belegt in der Szenarioanalyse den ersten Platz, was vor allem auf das sehr hohe Pendlersaldo zurückzuführen ist. Durch die große Anzahl an Einpendlern führt bereits ein moderater Anstieg des Bahnanteils zu einer deutlich höheren absoluten CO₂-Einsparung. Dieses Muster lässt sich auch auf die übrigen Städte übertragen: Entscheidend ist weniger die individuelle Pendelstrecke, sondern vielmehr die Anzahl der potenziellen Umsteiger. Darüber hinaus hängt die tatsächliche Höhe der CO₂-Ersparnis nicht allein von den Pendlerzahlen ab. Ebenso relevant sind strukturelle Faktoren wie die Modernität der Züge und der Infrastruktur, ein effizientes Zeitmanagement, eine zuverlässige Koordination der Bahnhöfe sowie die generelle Attraktivität des Bahnangebots. Diese Aspekte beeinflussen maßgeblich, ob ein Umstieg auf die Bahn langfristig akzeptiert und genutzt wird. Um die Größenordnung der Einsparungen greifbarer zu machen, lohnt sich eine Einordnung in einen alltagsnahen Kontext: Summiert man die CO₂-Ersparnisse aller betrachteten Städte, ergibt sich eine jährliche Gesamteinsparung von rund 345.000 Tonnen CO₂. Dies entspricht ungefähr 460.000 Hin- und Rückflügen nach Mallorca, wobei ein solcher Flug (Hin- und Rückflug) durchschnittlich etwa 750 kg CO₂ pro Person verursacht.


Anhang

Anhang A: Beschreibung der bereitgestellten Datensätze

1. Bahnhof-Kreis-Mapping (bahnhof_ags_mapping.csv)

Dieses Mapping ist essenziell für die Verknüpfung von Bahn- und Pendlerdaten. Die Bahndaten sind auf Bahnhofsebene (z.B. “München Hbf”), die Pendlerdaten auf Kreisebene (z.B. “München, Landeshauptstadt”). Der AGS (Amtlicher Gemeindeschlüssel) ist der Schlüssel, der beide Welten verbindet.

Wichtige Variablen:

  • station_name: Name des Bahnhofs
  • ags: Amtlicher Gemeindeschlüssel (5-stellig für Kreise)
  • kreis_name: Name des Landkreises/der kreisfreien Stadt

2. Fahrtzeit-Vergleich OSRM (fahrtzeit_osrm_vergleich.csv)

Für einen fairen Vergleich Auto vs. Bahn brauchen wir realistische Fahrtzeiten. OSRM (Open Source Routing Machine) berechnet echte Straßenrouten basierend auf OpenStreetMap – keine Luftlinien, sondern tatsächliche Straßenverbindungen mit Abbiegevorgängen, Geschwindigkeitsbegrenzungen und Straßentypen.

Wichtige Variablen:

  • stadt: Zielstadt der Pendlerstrecke
  • strecke_name: Beschreibung der Route (z.B. “Dachau \(\rightarrow\) München”)
  • auto_distanz_km: Fahrstrecke mit dem Auto in km
  • auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit (mit Staufaktor)
  • bahn_planzeit_min: Fahrzeit laut Fahrplan
  • bahn_verspaetung_min: Durchschnittliche Verspätung
  • bahn_real_min: Realistische Bahnfahrzeit (Fahrplan + Verspätung)

Wie wurde das Routing durchgeführt?

  1. Koordinaten ermitteln: Für jede Pendlerstrecke wurden Start- und Zielkoordinaten definiert (z.B. Stadtzentrum Dachau \(\rightarrow\) München Hauptbahnhof).

  2. OSRM-API abfragen: Über die öffentliche OSRM-Demo-API (router.project-osrm.org) wurden für jede Route Distanz und Fahrzeit abgefragt. Die API gibt die schnellste Route zurück, basierend auf dem aktuellen Straßennetz.

  3. Staufaktor anwenden: Die OSRM-Basisfahrzeit entspricht einer Fahrt bei freiem Verkehr. Für die Hauptverkehrszeit (HVZ) wurde ein Staufaktor von 1,3-1,5 angewendet, basierend auf den INRIX-Daten der jeweiligen Stadt.

  4. Bahn-Daten ergänzen: Die Bahnfahrzeiten stammen aus dem DB-Fahrplan, ergänzt um die durchschnittliche Verspätung aus unserer Analyse.

Weiterführende Links:

3. Ulm-Pendlerrouten (ulm_pendlerrouten.csv)

Da Sie in Ulm studieren, analysieren wir die wichtigsten Pendlerrouten in die Stadt genauer. Dieser Datensatz enthält die 5 wichtigsten Einpendler-Gemeinden mit detaillierten Informationen zur Erreichbarkeit.

Wichtige Variablen:

  • start_ort: Startgemeinde der Pendlerroute
  • ziel_ort: Zielort (Ulm)
  • auto_dauer_min: Fahrzeit mit dem Auto
  • auto_hvz_min: Fahrzeit Auto in der Hauptverkehrszeit
  • bahn_fahrplan_min: Bahnfahrzeit laut Fahrplan
  • bahn_real_min: Realistische Bahnfahrzeit
  • hat_bahnhof: TRUE/FALSE – hat der Startort einen Bahnanschluss?
  • pendler_geschaetzt: Geschätzte Anzahl Pendler auf dieser Route

4. Entgeltstatistik (ba_entgeltstatistik_2024.csv)

Um die volkswirtschaftlichen Kosten von Verspätungen zu berechnen, brauchen wir regionale Lohndaten. Diese haben wir von der Bundesagentur für Arbeit heruntergeladen.

Wichtige Variablen:

  • kreis_name: Name des Kreises/der Stadt
  • ags: Amtlicher Gemeindeschlüssel
  • medianentgelt_brutto_monat: Median-Bruttomonatsentgelt in Euro

Quelle: Bundesagentur für Arbeit, Entgeltstatistik 2024