Zugverspätungen gehören zu den drängendsten nationalen Herausforderungen Deutschlands. Im Jahr 2023 erreichte mehr als ein Drittel aller Fernverkehrszüge ihr Ziel verspätet. In diesem Projekt entwickelte ich ein Machine-Learning-Modell zur Vorhersage systemischer Verspätungen, das für eine gezielte Auswahl stark betroffener Strecken eine Präzision von über 90 % erzielte.
Das Projekt veranschaulicht meine bevorzugte Herangehensweise an besonders komplexe Data-Science-Probleme:
? Sorgfältige Datenanalyse: Visualisierung wichtiger Details auf niedriger Ebene statt ausschließlicher Betrachtung statistischer Zusammenfassungen.
? Komplexitätsreduktion: Schrittweise Zerlegung großer, komplexer Probleme in kleinere, handhabbare Aufgaben.
? Klare Kommunikation der Ergebnisse: Umfassende Evaluierung der Modelle sowie sorgfältige Herausarbeitung ihrer Stärken und Schwächen, um Stakeholder fundiert zu informieren.
Technologiestack: Python, AWS SageMaker, LightGBM, scikit-learn, Optuna, OpenStreetMap + Overpass API, polars, pandas, geopandas, shapely, plotly, kepler.gl, marimo, uv, ruff