Data Scientist
Aktualisiert am 03.12.2024
Profil
Mitarbeiter eines Dienstleisters
Verfügbar ab: 03.12.2024
Verfügbar zu: 100%
davon vor Ort: 100%
Skill-Profil eines fest angestellten Mitarbeiters des Dienstleisters
Deutsch
Muttersprache
Englisch
verhandlungssicher
Spanisch
Grundkenntnisse
Französisch
Grundkenntnisse

Einsatzorte

Einsatzorte

Deutschland
nicht möglich

Projekte

Projekte

3 Monate
2024-09 - heute

Entwicklung eines interaktiven Tools zur Analyse von YouTube-Kommentaren

Data Scientist Python NLTK spaCy ...
Data Scientist
In diesem Projekt liegt der Fokus auf der Analyse von Kommentaren die im sozialen Netzwerk YouTube verfasst wurden. Ziel des Projektes ist ein interaktives Tool zu erstellen, welches einem Kanalbesitzer die Möglichkeit gibt eine aggregierte Sicht auf die Stimmung, sowie die relevanten Themen in den Kommentaren zu erhalten und diese tiefer zu analysieren. Dafür entwickelt er von Grund auf alle essenziellen Bereiche dieser Anwendung. Von der Abfrage der Kommentar-Daten aus der YouTube-API, deren Vorverarbeitung und Speicherung in einer Datenbank bis hin zur Visualisierung dieser in der interaktiven Weboberfläche. Für die Auswahl der Datenbankarchitektur wurde mit MongoDB auch eine NoSQL-Datenbank (MongoDB) verprobt. Der Großteil der Daten wird nun jedoch in einer PostgreSQL-Datenbank abgelegt. Die Vorverarbeitung von textuellen Daten mit NLTK, spaCy und selbst geschriebenen Methoden spielt bei der Entwicklung eine zentrale Rolle. Gerade in der aktuellen Phase, in der ein Klassifikator für die Stimmungsanalyse gebaut wird, haben diese Schritte große Relevanz. Neben der Nutzung von AWS Comprehend und der ChatGPT-API wird evaluiert, welchen Vorteil ein eigens, in der Domäne entwickelter Klassifikator bringen kann.
  • Natural Language Processing (NLP)
    • Vorverarbeitung von textuellen Daten
    • Entwicklung einer Suchmaschine für Kommentare
    • Entwicklung und Evaluation verschiedener Klassifikatoren für die Stimmung der Kommentare
  • Tool-Entwicklung
    • Datenabfrage aus der YouTube-API
    • Entwicklung von hilfreichen Visualisierungen für die Analyse der Kommentare
    • Implementierung eines ORM-Modells mit SQL Alchemy
    • Implementierung einer PostgreSQL, sowie MongoDB-Datenbank
Python NLTK spaCy Plotly Dash Pandas loguru SQLA PostgreSQL (DBeaver) MongoDB (MongoDBCompass) GitLab Jira AWS Comprehend ChatGPT API YouTube API Software Entwicklung Kanban Fachwissen über Soziale Medien Klassifikationsverfahren NoSQL-Datenbanken
Soziale Medien, Koblenz
3 Jahre
2022-01 - 2024-12

Entwicklung eines interaktiven Tools für einen Werkekapazitätsabgleich

Python Entwickler, Data Analyst und Teilprojektleiter Python PostgreSQL DBeaver ...
Python Entwickler, Data Analyst und Teilprojektleiter
In diesem Projekt bei einem Konzern im Bereich Mobilität und Logistik war er an der Weiterentwicklung eines Tools zum strategischen Kapazitätsabgleich der Werke beteiligt. Für die Konzernsteuerung war es von großem Interesse, Transparenz über die Auslastung sowie die freien Kapazitäten der Instandhaltungswerke zu schaffen. Hierzu wurde eine Tool-Suite entwickelt, die szenario basiert einen detaillierten Kapazitätsabgleich durch Gegenüberstellung von Bedarf und Angebot ermöglicht. Während der Analysen wurde aufgrund der hohen Sichtbarkeit des Projektes bis hin zum Vorstand ein besonderes Augenmerk auf die Qualität der Daten sowie der erstellten Ergebnisse gelegt. Dabei ging es auch darum, durch die Analysen Anomalien zu erkennen und sich somit auf die Fehlersuche und -behebung zu fokussieren. Durch das gewonnene Vertrauen wurde ihm die Teilprojektleitung für die Neuentwicklung eines weiteren Tools für die Suite übertragen. Hier kamen zu den rein operativen Aufgaben nun auch Planungsaufgaben und Personalführung hinzu. Durch diese Position war er stärker in die weitere Entwicklung des Gesamtprojektes eingebunden und konnte tiefe Einblicke in den Konzern und die unterschiedlichen Interessen der Stakeholder gewinnen. In der Kommunikation mit den Stakeholdern war ein gutes Erwartungsmanagement sowie Mediation ein wesentlicher Aspekt.
  • Statistische Datenanalyse
    • Machbarkeitsstudien für die Implementierung neuer Methoden
    • Sensitivitäts- und Datenqualitätsanalysen
  • Backend-Entwicklung
    • Implementierung geeigneter Datenverarbeitungsmethoden und Validierer
    • Implementierung parametrisierbarer Tests mit pyTest
    • Implementierung eines ORM-Modells mit SQL Alchemy
  • Teilprojektleitung
    • Kommunikation mit Stakeholdern
    • ?Konzeptionsarbeit sowie Erarbeitung und Priorisierung von Aufgaben mit klarem Anforderungsprofil
Python PostgreSQL DBeaver GitLab Confluence Jira Software Entwicklung (Test-Driven-Development) Kanban Scrum Fachwissen in der Fahrzeuginstandhaltung Teilprojektleitung und Konzernerfahrung
Fahrzeuginstandhaltung, Logistik, Frankfurt
3 Monate
2021-10 - 2021-12

Entwicklung eines interaktiven Dashboards für die Produktionsprogrammplanung

Python Entwickler Python (PyCharm; plotly;dash;SQLAlchemy;pandas;pytest;dash-testing;selenium) PostgreSQL DBeaver GitLab ...
Python Entwickler
In diesem Projekt bei einem Konzern im Bereich Mobilität und Logistik war er an der Weiterentwicklung eines Planungstools für die Fahrzeuginstandhaltung beteiligt. Seine Aufgaben reichten von der Optimierung des bestehenden Codes über die Aufnahme von Anforderungen bis hin zur finalen Implementierung. Insbesondere entwickelte er ein interaktives Dashboard, das mit Plotly Dash realisiert wurde. Außerdem hat er die CI/CD Pipeline erstellt und gewartet, die automatisiertes Testen und Deployment aus GitLab ermöglichte.
  • Anforderungen der Endnutzer in Gesprächen erfassen und auf Machbarkeit prüfen
  • Weiterentwicklung des bereits existierenden Dashboards, u. a. hinsichtlich
    • Performance-Optimierung
    • Hinzufügen neuer Features und eines neuen Designs
    • Finden und Beheben von Bugs
  • Aufbau einer CI Pipeline
    • Aufsetzen einer AWS EC2 Instanz und Einrichtung als GitLab Runner
    • Entwicklung der GitLab CI Pipeline mit Docker Images
    • Entwicklung von Tests der Dash-App mit Dash Testing und Selenium
Python (PyCharm; plotly;dash;SQLAlchemy;pandas;pytest;dash-testing;selenium) PostgreSQL DBeaver GitLab Docker AWS Jira Software Entwicklung Software Testing Kanban Datenverarbeitung Anforderungsmanagement Continuous Integration (CI) Continuous Deployment (CD) Code Optimierung Webscraping
Fahrzeuginstandhaltung, Logistik, Frankfurt
1 Monat
2021-10 - 2021-10

Entwicklung eines interaktiven Zeiterfassungstools zur Dateneingabe, -bearbeitung und -pflege

Python Entwickler Python (PyCharm;plotly; dash;pandas;psycopg2) PostgreSQL GitHub ...
Python Entwickler
Ziel des Projektes war die Entwicklung eines funktionalen Zeiterfassungstools für ein mittelständisches Unternehmen. Dabei kümmerte sich Jannis nicht nur um die Entwicklung, sondern nahm von Beginn an die Anforderungen des Kunden entgegen und plante die fachgerechte Implementierung dieser. Außerdem kümmerte er sich um die Aufsetzung einer PostgreSQL-Datenbank, in der die von Plotly Dash erfassten und verarbeiteten Daten gespeichert wurden.
  • Ableitung der Aufgaben zur Umsetzung der Kundenanforderungen
  • Entwicklung und Konfiguration einer PostgreSQL-Datenbank, einschließlich Berechtigungsmanagement
  • Implementierung eines Frontends zur Erfassung und Bearbeitung von Arbeitszeiten
  • Implementierung von Softwaretests für die CI
  • Bereitstellung der Anwendung auf dem Server des Kunden
Python (PyCharm;plotly; dash;pandas;psycopg2) PostgreSQL GitHub Jira Datenbankmanagement Softwareentwicklung Anforderungsmanagement Continuous Integration (CI)
Einzelhandel, Koblenz
2 Monate
2021-07 - 2021-08

Analyse verschiedener Bewertungsmethoden des Information Retrieval zur Optimierung eines Scoring-Mechanismus

Python Entwickler Python (pandas) PostgreSQL Elasticsearch ...
Python Entwickler
Ziel des Projektes war es, die bereits bestehende Baseline für das Scoring von Ausschreibungen bezüglich des Skillsets eines Mitarbeiters mit weiteren etablierten Information-Retrieval-Methoden zu vergleichen und somit eine Entscheidungsgrundlage für eine geeignete Scoring-Methode zu liefern. Die verschiedenen Information Retrieval Methoden wurden manuell implementiert und die Laufzeiten der Berechnungen optimiert. Darüber hinaus galt es, eine geeignete Metrik zur Bewertung der Ergebnisse auszuwählen, zu implementieren und die Ergebnisse für das Management adäquat aufzubereiten.
  • Preprocessing der Ausschreibungen
  • Auslesen und Aufbereiten der Skillsets der Mitarbeiter aus Excel Dateien
  • Implementierung der verschiedenen Scoring Methoden und der Evaluations-Metrik
  • Validierung und Aufbereitung der Ergebnisse, sowie deren Präsentation
Python (pandas) PostgreSQL Elasticsearch Elastic Stack Gitea Trello Textverarbeitung und Natural Language Processing (NLP) Preprocessing Information Retrieval TF-IDF BM25 Language Models Statistische Evaluation verschiedener Methoden
IT-Unternehmensberatung, Montabaur
3 Monate
2021-05 - 2021-07

Entwicklung eines Clustering-Algorithmus für Ausschreibungen mit Hilfe von Word Embeddings

Data Scientist Python Elasticsearch PostgreSQL ...
Data Scientist
Ziel des Projektes ist die Entwicklung einer Software zur automatisierten Erfassung und Analyse von öffentlich zugänglichen Projektausschreibungen und deren Abgleich mit den im System hinterlegten Skill-Sets der verfügbaren Kandidaten, um automatisiert und zeitnah Alerts für den Vertrieb zu generieren. Als qualitätssteigernde Maßnahme wurde in diesem Projekt von ihm ein Clustering-Algorithmus entwickelt, der ähnliche Ausschreibungen verschiedener Plattformen gruppiert. Dies geschieht auf Basis der Distanz einer vektorisierten Repräsentation der Ausschreibungen. Es wurde ein Doc2Vec Modell trainiert, um die Vektorrepräsentationen zu berechnen und abschließend mit vortrainierten Modellen zu vergleichen.
  • Verarbeitung von Ausschreibungen in Textform
    • Analyse verschiedener Aufbereitungsmethoden
    • Training und Integration eines Doc2Vec Modells
  • Entwicklung und Implementierung eines eigenen Cluster-Algorithmus
    • Entscheidung für ein Distanzmaß
    • Optimierung der Berechnung dieses Distanzmaßes
  • Schnittstellen
    • Schnittstelle von Python und Elasticsearch herstellen
    • Schnittstelle von Python und der Postgres Datenbank herstellen
Python Elasticsearch PostgreSQL Machine Learning (ML) Textverarbeitung und Natural Language Processing (NLP) Word Embeddings Optimierung wiederkehrender Berechnungen
IT-Unternehmensberatung, Montabaur
5 Monate
2021-01 - 2021-05

Entwicklung einer Lyric-Suchmaschine mit Machine Learning Features

Data Scientist Python Webscraping Textverarbeitung und Natural Language Processing (NLP) ...
Data Scientist
Im Rahmen eines Projekts an der Universität Edinburgh wurde eine Suchmaschine für Lyrics entwickelt. Dies ermöglichte ein tiefes Eintauchen in die Mechanik einer Suchmaschine sowie in verschiedene Methoden zur Bewertung relevanter Suchergebnisse. Er war an der Entwicklung verschiedener Module für die Suchmaschine beteiligt. So implementierte er eine Methode zur Vorhersage der Sprache eines Liedes anhand des Liedtextes. Des Weiteren implementierte er ein responsives Query-Completion-System, das nicht nur Wörter, sondern auch ganze Zeilen in der Suchleiste vervollständigt und so dem Benutzer ein besseres Nutzererlebnis ermöglicht. Schließlich entwickelte er ein Recommender-System basierend auf musikalischen Features der Lieder, welches Nutzer:innen ähnliche Titel vorschlägt.
  • Datenaufbereitung der Lyrics
  • Scoring von Suchmaschinen
    • Implementierung eines Inverted-Index
    • Implementierung verschiedener Suchmethoden (Boolean, Phrase-Search, ...)
    • Analyse verschiedener Aufbereitungsschritte und deren Auswirkung auf die Suchergebnisse
    • Entwicklung und Implementierung eines eigenen Scoring-Mechanismus
  • Query-Vervollständigung von Sätzen und Wörtern anhand von n-grams
  • Webscraping von musikalischen Merkmalen
  • Recommender-System
    • Gespräche mit Experten, um Domänen-Wissen zu erlangen
    • Verarbeitung der musikalischen Merkmale von Liedern
    • Ähnlichkeitsberechnung von Lyrics über Doc2Vec
    • Entwicklung, Implementierung und Fine-Tuning eines Scores für die Ähnlichkeit von Liedern
Python Webscraping Textverarbeitung und Natural Language Processing (NLP) Scoring von Suchmaschinen Prediction einer Sprache Query-Vervollständigung (n-grams) Recommender System
Edinburgh
1 Monat
2020-11 - 2020-11

Analyse des Radverkehrs in Schottland zur Ableitung von Handlungsempfehlungen

Data Scientist Python (plotly; folium; geopandas) Datenanalyse und -verständnis Arbeit mit Geodaten
Data Scientist
Im Rahmen eines Projektes an der Universität Edinburgh wurde ein Verkehrsdatensatz aus Großbritannien zur Verfügung gestellt, anhand dessen die Entwicklung des Radverkehrs analysiert werden sollte. Primäres Ziel war es, die in den Daten erkennbaren Entwicklungen visuell aufzubereiten. In diesem Rahmen wurden interaktive Darstellungen einschließlich Kartendarstellungen unter Verwendung der verfügbaren Geodaten entwickelt. Aus den aufbereiteten Visualisierungen konnten schließlich Handlungsempfehlungen abgeleitet werden.
  • Datenanalyse
  • Datenanreicherung aus externen Quellen
  • Identifizierung interessanter Entwicklungen in den Daten
  • Erstellen von interaktiven Darstellungen mit plotly
  • Erstellen von interaktiven Karten mit folium
Python (plotly; folium; geopandas) Datenanalyse und -verständnis Arbeit mit Geodaten
Edinburgh
4 Monate
2020-05 - 2020-08

Klassifikation der Sentiments von Film-Reviews mit Hilfe von Word Embeddings

Bachelorand Python R Shiny PostgreSQL ...
Bachelorand
Es wurde eine Anwendung entwickelt, die Filmkritiken von einer bekannten Rezensionsseite sammelte. Daraufhin wurde ein Online-Tool mit R Shiny entwickelt, welches die Nutzer:innen befragte, ob die angezeigte Rezension positiv oder negativ klingen. Auf diese Weise konnten zuverlässige Daten gesammelt werden. Alle Daten wurden in einer PostgreSQL Datenbank gespeichert. Die Daten wurden in Python ausgewertet, auf Unregelmäßigkeiten überprüft und verschiedene Klassifikationsansätze basierend auf Word Embeddings getestet. Schließlich wurden die verschiedenen Modelle analysiert und verglichen.
  • Aufsetzen einer global erreichbaren Datenbank
  • Implementierung einer neuen webbasierten Anwendung mit R Shiny
    • Schnittstellen zu Datenbank etablieren
    • Integration von Interaktionsmöglichkeiten für Nutzer:innen
    • Integration eines Login-Systems für Nutzer:innen
  • Datenauswertung/ -aufbereitung
    • Statistische Analyse auf Verzerrungen der Daten
    • Aufbereitung von Textdaten
  • Machine Learning
    • Implementierung verschiedener Word Embeddings (z.B. GloVe, word2vec)
    • Trainieren eines neuronalen Netzes als Klassifikator
Python R Shiny PostgreSQL Textverarbeitung und Natural Language Processing (NLP) Word Embeddings Datensammlung Datenbankmanagement Bereitstellung eines Online Tools
Trier
7 Monate
2019-11 - 2020-05

Entwicklung eines interaktiven Risikomanagement-Tools für Portfolios

Data Analyst R Shiny (Plotly) MySQL HTML ...
Data Analyst
In Zusammenarbeit mit KPMG Luxembourg wurde an der Hochschule Trier ein Risikomanagement-Tool für Portfolios mit R Shiny entwickelt. Die primäre Aufgabe von ihm bestand darin, die Daten in einer korrekten und leicht verständlichen Art und Weise in der Applikation darzustellen. Der Fokus lag dabei auf der Interaktivität der Anwendung. So konnten mit allen Darstellungen interagiert und ein detaillierter Bericht direkt per E-Mail versendet werden.
  • Projektmanagement
    • Zeitmanagement, Setzen von Meilensteinen und deren Überprüfung
    • Datenbankmodell entwickeln
  • Risikomanagement von Portfolios
    • Recherche verschiedener Methoden des Value at Risk
  • Implementierung einer webbasierten Anwendung mit R Shiny
    • Schnittstellen zu Datenbank etablieren
    • Berechnung des Value at Risk implementieren
    • Entwicklung sinnvoller, leicht verständlicher, interaktiver Darstellungen der Daten
    • Implementierung einer Möglichkeit eine detaillierte E-Mail mit Berichten direkt aus der App zu versenden
    • Design der Web-App entwickeln
R Shiny (Plotly) MySQL HTML CSS Projektmanagement Datenbankmanagement Risikomanagement von Portfolios
Unternehmensberatung, Trier
1 Monat
2019-09 - 2019-09

Bedarfsprognose für eine bundesweit tätige Autovermietung

Data Scientist Python Datenanalyse Programmierung einer Data-Pipeline
Data Scientist
In diesem Projekt wurde für eine deutschlandweit tätige Autovermietung der Bedarf an zu mietenden Fahrzeugen prognostiziert. Durch eine Umstellung beim Kunden hatte sich der Datenzufluss für das Modell stark verändert. Mit Hilfe von ihm wurden zunächst die neuen mit den alten Daten verglichen, wobei relevante Unterschiede festgestellt wurden, die die Validität des bisher verwendeten Modells stark negativ beeinflussten. Aufgrund der gewonnenen Erkenntnisse konnte dieses Problem behoben werden. In diesem Zusammenhang war Jannis auch für die Umstellung der Datenpipeline auf das neue Datenformat verantwortlich.
  • Datenanalyse und -vergleich zwischen neuem und altem System
  • Bereitstellung einer geeigneten Data-Pipeline-Architektur zur Integration der neuen Daten
Python Datenanalyse Programmierung einer Data-Pipeline
Kfz-Vermietung, Paderborn
3 Monate
2019-07 - 2019-09

Reinforcement Learning im Kühlprozess eines Bio-Reaktors

Data Scientist Python (TensorFlow; tf-agents; OpenAI gym) Reinforcement Learning Wahrscheinlichkeiten und Statistische Modellierung
Data Scientist
Im Rahmen dieses Projektes wurden verschiedene Reinforcement Learning Agenten in verschiedenen vordefinierten Umgebungen getestet und die Ergebnisse validiert. Anschließend wurde von Jannis ein Simulator eines Bioreaktors programmiert, in dem der Reinforcement Learning Agent die Aufgabe hatte, den Output der Anlage zu optimieren. Die Stellschrauben hierfür waren die Durchflussmenge und die Temperatur der Kühlflüssigkeit. In dieser Umgebung wurde der Agent für eine State-of-the-Art-Präsentation evaluiert. Zusätzlich zu diesen Aufgaben beschäftigte sich Jannis mit der Modellierung von Policies für den Agenten in verschiedenen Umgebungen mit Wahrscheinlichkeitsverteilungen, um ein optimales Verhalten zu erreichen.
  • Modellierung der Handlungswahrscheinlichkeiten des Agenten in einem bestimmten Zustand
  • Umprogrammierung von gym-Environments für passenden Schnittstellen mit tf-agents
  • Programmierung eines Bioreaktorsimulators
  • Evaluation der Trainingsergebnisse verschiedener RL-Agenten
Python (TensorFlow; tf-agents; OpenAI gym) Reinforcement Learning Wahrscheinlichkeiten und Statistische Modellierung
produzierendes Gewerbe, Paderborn
3 Monate
2019-03 - 2019-05

Klassifikation der Rückzahlungswahrscheinlichkeit von Bank-Kunden

Data Scientist R (ggplot;tidyr;dplyr;mice) Datenanalyse und -verständnis Datenaufbereitung ...
Data Scientist
m Rahmen eines Projektes an der Hochschule Trier wurde ein Datensatz einer Bank zur Verfügung gestellt, der neben kundenspezifischen Merkmalen auch die rechtzeitige Rückzahlungswahrscheinlichkeit von Kunden abbildete. Nachdem die Daten auf Auffälligkeiten und fehlende Daten überprüft wurden, konnten diese entfernt oder durch eines von zwei Imputationsverfahren ersetzt werden. Im Anschluss daran wurden verschiedene Klassifikationsverfahren angewandt und schließlich zur Ermittlung des besten Klassifikators verglichen.
  • Erstellung aussagekräftiger Diagramme zur Datenanalyse
  • Auswahl und Implementierung von Imputationsmethoden
  • Entwicklung und Implementierung der Klassifikationsverfahren
  • Auswertung der Klassifikationsverfahren
R (ggplot;tidyr;dplyr;mice) Datenanalyse und -verständnis Datenaufbereitung Imputation mit mice Imputation mit kNN Klassifikationsverfahren Decision Trees Random Forest Naive Bayes Gradient Boosted Tree Auswertung der verschiedenen Klassifikationsverfahren
Bankenwesen, Trier

Aus- und Weiterbildung

Aus- und Weiterbildung

2020 ? 2021
Studium - Statistics with Data Science
University of Edinburgh
Abschluss: Master of Science

2017 ? 2020
Studium - Wirtschaftsinformatik
Hochschule Trier
Schwerpunkt auf Datenverarbeitung, -auswertung und künstliche Intelligenz
Abschluss: Bachelor of Science

FORTBILDUNGEN & ZERTIFIZIERUNGEN
  • AWS Certified Cloud Practitioner

Kompetenzen

Kompetenzen

Produkte / Standards / Erfahrungen / Methoden

Profil
Der Mitarbeiter ist ein qualifizierter und überaus engagierter Data Scientist. Er hat sein fundiertes Wissen in der Textverarbeitung, Datenanalyse sowie der Entwicklung interaktiver Tools in anspruchsvolle Projekte eingebracht und maßgeblich zu deren Erfolg beigetragen. Ein Schwerpunkt seiner Arbeit liegt im Bereich des Natural Language Processing und der Verwendung von Word-Embeddings. Bereits in seiner Bachelorarbeit beschäftigte er sich mit der Performance-Verbesserung eines Klassifikators zur Stimmungsanalyse. In einem weiteren Projekt zur Analyse von Ausschreibungen hat er einen Clustering-Algorithmus entwickelt, der ähnliche Ausschreibungen gruppiert und so eine gezielte Vertriebsstrategie ermöglicht. Auch die Extraktion der relevantesten Themen aus Texten wie Nutzerkommentaren ist für ihn bereits ein bekanntes Feld. Darüber hinaus demonstriert er fundierte Kenntnisse in der Visualisierung von Analyseergebnissen in interaktiven Dashboards und dem Aufbau von Datenbanksystemen, was ihn in die Lage versetzt, effiziente Datenflüsse vom Import bis zur Endauswertung sicherzustellen. Diese Kenntnisse nutzte er in einem komplexen, dreijährigen Projekt in der Logistik-Branche. Hier zeigte er seinen Qualitätsanspruch und sein hohes technisches Verständnis insbesondere durch sorgfältige Sensitivitätsanalysen, effiziente, wartbare Implementierungen und gezieltes Hinterfragen von bisher verwendeten Methoden. Seine Fähigkeit, komplexe Ideen klar zu kommunizieren und eng mit verschiedenen Stakeholdern zusammenzuarbeiten, half, Projekte zügig voranzubringen und ein hohes Maß an Akzeptanz zu schaffen. Seine Arbeitsweise ist geprägt von präziser Planung und einem zielgerichteten Umgang mit Herausforderungen, was ihn in bisherigen Projekten zu einem geschätzten Kollegen und wertvollen Projektpartner macht. Gerne bringt er seine Stärken und Erfahrungen auch in Ihr Projekt ein.

Er ist ein vielseitiger und erfahrener Data Scientist mit Schwerpunkten im Machine Learning (ML) sowie in der Textverarbeitung/ Text Mining/ Natural Language Processing (NLP). Darüber hinaus verfügt er über praktische Erfahrungen mit Programmier-, Skript- und Abfragesprachen wie SQL, R und Python samt zahlreicher Frameworks und Bibliotheken, wie plotly, dash und pandas.

EXPERTISE
  • Data Science
  • Machine Learning (ML)
  • Textverarbeitung, Text Mining, Natural Language
  • Processing (NLP)
  • Information Retrieval, Web Scraping
  • Klassifikation und Clustering
  • Reinforcement Learning, Deep Learning
  • (bayesische) Datenanalyse
  • Datenmodellierung
  • agile Software-Entwicklung

TECHNOLOGIEN & PRODUKTE
  • PyCharm
  • Git, GitLab
  • TensorFlow
  • AWS (z.B.: Comprehend)
  • OpenAI-API (ChatGPT)
  • ElasticSearch, ElasticStack
  • Visual Studio Code
  • Jupyter Notebook
  • Anaconda
  • DBeaver
  • Atom

STATISTIK-WERKZEUGE
  • RStudio
  • Excel

BERUFLICHER WERDEGANG

2021 - heute
Firma: auf Anfrage

2018 - 2020
Position: Wissenschaftliche Hilfskraft im Bereich Statistik
Firma: Hochschule Trier

2019
Position: Praktikant
Firma: pmOne Analytics, Paderborn

2018 - 2019
Position: Wissenschaftliche Hilfskraft in den Bereichen Mathematik und Data Mining
Firma: Hochschule Trier

2015 - 2018
Position: Videoproduktion für Leadership Choices, Wiesbaden

Betriebssysteme

Windows
Linux

Programmiersprachen

JavaScript
CSS
HTML
Java
R + Shiny
SQL
Python
Pandas, Plotly, Dash, SQLAlchemy, NLTK, spaCy, pytest, poetry, precommit


Datenbanken

PostgreSQL
MongoDB
MySQL
MariaDB

Branchen

Branchen

  • Logistik und Transport
  • Soziale Medien
  • Finanzwesen
  • produzierendes Gewerbe
  • IT-Unternehmensberatung

Einsatzorte

Einsatzorte

Deutschland
nicht möglich

Projekte

Projekte

3 Monate
2024-09 - heute

Entwicklung eines interaktiven Tools zur Analyse von YouTube-Kommentaren

Data Scientist Python NLTK spaCy ...
Data Scientist
In diesem Projekt liegt der Fokus auf der Analyse von Kommentaren die im sozialen Netzwerk YouTube verfasst wurden. Ziel des Projektes ist ein interaktives Tool zu erstellen, welches einem Kanalbesitzer die Möglichkeit gibt eine aggregierte Sicht auf die Stimmung, sowie die relevanten Themen in den Kommentaren zu erhalten und diese tiefer zu analysieren. Dafür entwickelt er von Grund auf alle essenziellen Bereiche dieser Anwendung. Von der Abfrage der Kommentar-Daten aus der YouTube-API, deren Vorverarbeitung und Speicherung in einer Datenbank bis hin zur Visualisierung dieser in der interaktiven Weboberfläche. Für die Auswahl der Datenbankarchitektur wurde mit MongoDB auch eine NoSQL-Datenbank (MongoDB) verprobt. Der Großteil der Daten wird nun jedoch in einer PostgreSQL-Datenbank abgelegt. Die Vorverarbeitung von textuellen Daten mit NLTK, spaCy und selbst geschriebenen Methoden spielt bei der Entwicklung eine zentrale Rolle. Gerade in der aktuellen Phase, in der ein Klassifikator für die Stimmungsanalyse gebaut wird, haben diese Schritte große Relevanz. Neben der Nutzung von AWS Comprehend und der ChatGPT-API wird evaluiert, welchen Vorteil ein eigens, in der Domäne entwickelter Klassifikator bringen kann.
  • Natural Language Processing (NLP)
    • Vorverarbeitung von textuellen Daten
    • Entwicklung einer Suchmaschine für Kommentare
    • Entwicklung und Evaluation verschiedener Klassifikatoren für die Stimmung der Kommentare
  • Tool-Entwicklung
    • Datenabfrage aus der YouTube-API
    • Entwicklung von hilfreichen Visualisierungen für die Analyse der Kommentare
    • Implementierung eines ORM-Modells mit SQL Alchemy
    • Implementierung einer PostgreSQL, sowie MongoDB-Datenbank
Python NLTK spaCy Plotly Dash Pandas loguru SQLA PostgreSQL (DBeaver) MongoDB (MongoDBCompass) GitLab Jira AWS Comprehend ChatGPT API YouTube API Software Entwicklung Kanban Fachwissen über Soziale Medien Klassifikationsverfahren NoSQL-Datenbanken
Soziale Medien, Koblenz
3 Jahre
2022-01 - 2024-12

Entwicklung eines interaktiven Tools für einen Werkekapazitätsabgleich

Python Entwickler, Data Analyst und Teilprojektleiter Python PostgreSQL DBeaver ...
Python Entwickler, Data Analyst und Teilprojektleiter
In diesem Projekt bei einem Konzern im Bereich Mobilität und Logistik war er an der Weiterentwicklung eines Tools zum strategischen Kapazitätsabgleich der Werke beteiligt. Für die Konzernsteuerung war es von großem Interesse, Transparenz über die Auslastung sowie die freien Kapazitäten der Instandhaltungswerke zu schaffen. Hierzu wurde eine Tool-Suite entwickelt, die szenario basiert einen detaillierten Kapazitätsabgleich durch Gegenüberstellung von Bedarf und Angebot ermöglicht. Während der Analysen wurde aufgrund der hohen Sichtbarkeit des Projektes bis hin zum Vorstand ein besonderes Augenmerk auf die Qualität der Daten sowie der erstellten Ergebnisse gelegt. Dabei ging es auch darum, durch die Analysen Anomalien zu erkennen und sich somit auf die Fehlersuche und -behebung zu fokussieren. Durch das gewonnene Vertrauen wurde ihm die Teilprojektleitung für die Neuentwicklung eines weiteren Tools für die Suite übertragen. Hier kamen zu den rein operativen Aufgaben nun auch Planungsaufgaben und Personalführung hinzu. Durch diese Position war er stärker in die weitere Entwicklung des Gesamtprojektes eingebunden und konnte tiefe Einblicke in den Konzern und die unterschiedlichen Interessen der Stakeholder gewinnen. In der Kommunikation mit den Stakeholdern war ein gutes Erwartungsmanagement sowie Mediation ein wesentlicher Aspekt.
  • Statistische Datenanalyse
    • Machbarkeitsstudien für die Implementierung neuer Methoden
    • Sensitivitäts- und Datenqualitätsanalysen
  • Backend-Entwicklung
    • Implementierung geeigneter Datenverarbeitungsmethoden und Validierer
    • Implementierung parametrisierbarer Tests mit pyTest
    • Implementierung eines ORM-Modells mit SQL Alchemy
  • Teilprojektleitung
    • Kommunikation mit Stakeholdern
    • ?Konzeptionsarbeit sowie Erarbeitung und Priorisierung von Aufgaben mit klarem Anforderungsprofil
Python PostgreSQL DBeaver GitLab Confluence Jira Software Entwicklung (Test-Driven-Development) Kanban Scrum Fachwissen in der Fahrzeuginstandhaltung Teilprojektleitung und Konzernerfahrung
Fahrzeuginstandhaltung, Logistik, Frankfurt
3 Monate
2021-10 - 2021-12

Entwicklung eines interaktiven Dashboards für die Produktionsprogrammplanung

Python Entwickler Python (PyCharm; plotly;dash;SQLAlchemy;pandas;pytest;dash-testing;selenium) PostgreSQL DBeaver GitLab ...
Python Entwickler
In diesem Projekt bei einem Konzern im Bereich Mobilität und Logistik war er an der Weiterentwicklung eines Planungstools für die Fahrzeuginstandhaltung beteiligt. Seine Aufgaben reichten von der Optimierung des bestehenden Codes über die Aufnahme von Anforderungen bis hin zur finalen Implementierung. Insbesondere entwickelte er ein interaktives Dashboard, das mit Plotly Dash realisiert wurde. Außerdem hat er die CI/CD Pipeline erstellt und gewartet, die automatisiertes Testen und Deployment aus GitLab ermöglichte.
  • Anforderungen der Endnutzer in Gesprächen erfassen und auf Machbarkeit prüfen
  • Weiterentwicklung des bereits existierenden Dashboards, u. a. hinsichtlich
    • Performance-Optimierung
    • Hinzufügen neuer Features und eines neuen Designs
    • Finden und Beheben von Bugs
  • Aufbau einer CI Pipeline
    • Aufsetzen einer AWS EC2 Instanz und Einrichtung als GitLab Runner
    • Entwicklung der GitLab CI Pipeline mit Docker Images
    • Entwicklung von Tests der Dash-App mit Dash Testing und Selenium
Python (PyCharm; plotly;dash;SQLAlchemy;pandas;pytest;dash-testing;selenium) PostgreSQL DBeaver GitLab Docker AWS Jira Software Entwicklung Software Testing Kanban Datenverarbeitung Anforderungsmanagement Continuous Integration (CI) Continuous Deployment (CD) Code Optimierung Webscraping
Fahrzeuginstandhaltung, Logistik, Frankfurt
1 Monat
2021-10 - 2021-10

Entwicklung eines interaktiven Zeiterfassungstools zur Dateneingabe, -bearbeitung und -pflege

Python Entwickler Python (PyCharm;plotly; dash;pandas;psycopg2) PostgreSQL GitHub ...
Python Entwickler
Ziel des Projektes war die Entwicklung eines funktionalen Zeiterfassungstools für ein mittelständisches Unternehmen. Dabei kümmerte sich Jannis nicht nur um die Entwicklung, sondern nahm von Beginn an die Anforderungen des Kunden entgegen und plante die fachgerechte Implementierung dieser. Außerdem kümmerte er sich um die Aufsetzung einer PostgreSQL-Datenbank, in der die von Plotly Dash erfassten und verarbeiteten Daten gespeichert wurden.
  • Ableitung der Aufgaben zur Umsetzung der Kundenanforderungen
  • Entwicklung und Konfiguration einer PostgreSQL-Datenbank, einschließlich Berechtigungsmanagement
  • Implementierung eines Frontends zur Erfassung und Bearbeitung von Arbeitszeiten
  • Implementierung von Softwaretests für die CI
  • Bereitstellung der Anwendung auf dem Server des Kunden
Python (PyCharm;plotly; dash;pandas;psycopg2) PostgreSQL GitHub Jira Datenbankmanagement Softwareentwicklung Anforderungsmanagement Continuous Integration (CI)
Einzelhandel, Koblenz
2 Monate
2021-07 - 2021-08

Analyse verschiedener Bewertungsmethoden des Information Retrieval zur Optimierung eines Scoring-Mechanismus

Python Entwickler Python (pandas) PostgreSQL Elasticsearch ...
Python Entwickler
Ziel des Projektes war es, die bereits bestehende Baseline für das Scoring von Ausschreibungen bezüglich des Skillsets eines Mitarbeiters mit weiteren etablierten Information-Retrieval-Methoden zu vergleichen und somit eine Entscheidungsgrundlage für eine geeignete Scoring-Methode zu liefern. Die verschiedenen Information Retrieval Methoden wurden manuell implementiert und die Laufzeiten der Berechnungen optimiert. Darüber hinaus galt es, eine geeignete Metrik zur Bewertung der Ergebnisse auszuwählen, zu implementieren und die Ergebnisse für das Management adäquat aufzubereiten.
  • Preprocessing der Ausschreibungen
  • Auslesen und Aufbereiten der Skillsets der Mitarbeiter aus Excel Dateien
  • Implementierung der verschiedenen Scoring Methoden und der Evaluations-Metrik
  • Validierung und Aufbereitung der Ergebnisse, sowie deren Präsentation
Python (pandas) PostgreSQL Elasticsearch Elastic Stack Gitea Trello Textverarbeitung und Natural Language Processing (NLP) Preprocessing Information Retrieval TF-IDF BM25 Language Models Statistische Evaluation verschiedener Methoden
IT-Unternehmensberatung, Montabaur
3 Monate
2021-05 - 2021-07

Entwicklung eines Clustering-Algorithmus für Ausschreibungen mit Hilfe von Word Embeddings

Data Scientist Python Elasticsearch PostgreSQL ...
Data Scientist
Ziel des Projektes ist die Entwicklung einer Software zur automatisierten Erfassung und Analyse von öffentlich zugänglichen Projektausschreibungen und deren Abgleich mit den im System hinterlegten Skill-Sets der verfügbaren Kandidaten, um automatisiert und zeitnah Alerts für den Vertrieb zu generieren. Als qualitätssteigernde Maßnahme wurde in diesem Projekt von ihm ein Clustering-Algorithmus entwickelt, der ähnliche Ausschreibungen verschiedener Plattformen gruppiert. Dies geschieht auf Basis der Distanz einer vektorisierten Repräsentation der Ausschreibungen. Es wurde ein Doc2Vec Modell trainiert, um die Vektorrepräsentationen zu berechnen und abschließend mit vortrainierten Modellen zu vergleichen.
  • Verarbeitung von Ausschreibungen in Textform
    • Analyse verschiedener Aufbereitungsmethoden
    • Training und Integration eines Doc2Vec Modells
  • Entwicklung und Implementierung eines eigenen Cluster-Algorithmus
    • Entscheidung für ein Distanzmaß
    • Optimierung der Berechnung dieses Distanzmaßes
  • Schnittstellen
    • Schnittstelle von Python und Elasticsearch herstellen
    • Schnittstelle von Python und der Postgres Datenbank herstellen
Python Elasticsearch PostgreSQL Machine Learning (ML) Textverarbeitung und Natural Language Processing (NLP) Word Embeddings Optimierung wiederkehrender Berechnungen
IT-Unternehmensberatung, Montabaur
5 Monate
2021-01 - 2021-05

Entwicklung einer Lyric-Suchmaschine mit Machine Learning Features

Data Scientist Python Webscraping Textverarbeitung und Natural Language Processing (NLP) ...
Data Scientist
Im Rahmen eines Projekts an der Universität Edinburgh wurde eine Suchmaschine für Lyrics entwickelt. Dies ermöglichte ein tiefes Eintauchen in die Mechanik einer Suchmaschine sowie in verschiedene Methoden zur Bewertung relevanter Suchergebnisse. Er war an der Entwicklung verschiedener Module für die Suchmaschine beteiligt. So implementierte er eine Methode zur Vorhersage der Sprache eines Liedes anhand des Liedtextes. Des Weiteren implementierte er ein responsives Query-Completion-System, das nicht nur Wörter, sondern auch ganze Zeilen in der Suchleiste vervollständigt und so dem Benutzer ein besseres Nutzererlebnis ermöglicht. Schließlich entwickelte er ein Recommender-System basierend auf musikalischen Features der Lieder, welches Nutzer:innen ähnliche Titel vorschlägt.
  • Datenaufbereitung der Lyrics
  • Scoring von Suchmaschinen
    • Implementierung eines Inverted-Index
    • Implementierung verschiedener Suchmethoden (Boolean, Phrase-Search, ...)
    • Analyse verschiedener Aufbereitungsschritte und deren Auswirkung auf die Suchergebnisse
    • Entwicklung und Implementierung eines eigenen Scoring-Mechanismus
  • Query-Vervollständigung von Sätzen und Wörtern anhand von n-grams
  • Webscraping von musikalischen Merkmalen
  • Recommender-System
    • Gespräche mit Experten, um Domänen-Wissen zu erlangen
    • Verarbeitung der musikalischen Merkmale von Liedern
    • Ähnlichkeitsberechnung von Lyrics über Doc2Vec
    • Entwicklung, Implementierung und Fine-Tuning eines Scores für die Ähnlichkeit von Liedern
Python Webscraping Textverarbeitung und Natural Language Processing (NLP) Scoring von Suchmaschinen Prediction einer Sprache Query-Vervollständigung (n-grams) Recommender System
Edinburgh
1 Monat
2020-11 - 2020-11

Analyse des Radverkehrs in Schottland zur Ableitung von Handlungsempfehlungen

Data Scientist Python (plotly; folium; geopandas) Datenanalyse und -verständnis Arbeit mit Geodaten
Data Scientist
Im Rahmen eines Projektes an der Universität Edinburgh wurde ein Verkehrsdatensatz aus Großbritannien zur Verfügung gestellt, anhand dessen die Entwicklung des Radverkehrs analysiert werden sollte. Primäres Ziel war es, die in den Daten erkennbaren Entwicklungen visuell aufzubereiten. In diesem Rahmen wurden interaktive Darstellungen einschließlich Kartendarstellungen unter Verwendung der verfügbaren Geodaten entwickelt. Aus den aufbereiteten Visualisierungen konnten schließlich Handlungsempfehlungen abgeleitet werden.
  • Datenanalyse
  • Datenanreicherung aus externen Quellen
  • Identifizierung interessanter Entwicklungen in den Daten
  • Erstellen von interaktiven Darstellungen mit plotly
  • Erstellen von interaktiven Karten mit folium
Python (plotly; folium; geopandas) Datenanalyse und -verständnis Arbeit mit Geodaten
Edinburgh
4 Monate
2020-05 - 2020-08

Klassifikation der Sentiments von Film-Reviews mit Hilfe von Word Embeddings

Bachelorand Python R Shiny PostgreSQL ...
Bachelorand
Es wurde eine Anwendung entwickelt, die Filmkritiken von einer bekannten Rezensionsseite sammelte. Daraufhin wurde ein Online-Tool mit R Shiny entwickelt, welches die Nutzer:innen befragte, ob die angezeigte Rezension positiv oder negativ klingen. Auf diese Weise konnten zuverlässige Daten gesammelt werden. Alle Daten wurden in einer PostgreSQL Datenbank gespeichert. Die Daten wurden in Python ausgewertet, auf Unregelmäßigkeiten überprüft und verschiedene Klassifikationsansätze basierend auf Word Embeddings getestet. Schließlich wurden die verschiedenen Modelle analysiert und verglichen.
  • Aufsetzen einer global erreichbaren Datenbank
  • Implementierung einer neuen webbasierten Anwendung mit R Shiny
    • Schnittstellen zu Datenbank etablieren
    • Integration von Interaktionsmöglichkeiten für Nutzer:innen
    • Integration eines Login-Systems für Nutzer:innen
  • Datenauswertung/ -aufbereitung
    • Statistische Analyse auf Verzerrungen der Daten
    • Aufbereitung von Textdaten
  • Machine Learning
    • Implementierung verschiedener Word Embeddings (z.B. GloVe, word2vec)
    • Trainieren eines neuronalen Netzes als Klassifikator
Python R Shiny PostgreSQL Textverarbeitung und Natural Language Processing (NLP) Word Embeddings Datensammlung Datenbankmanagement Bereitstellung eines Online Tools
Trier
7 Monate
2019-11 - 2020-05

Entwicklung eines interaktiven Risikomanagement-Tools für Portfolios

Data Analyst R Shiny (Plotly) MySQL HTML ...
Data Analyst
In Zusammenarbeit mit KPMG Luxembourg wurde an der Hochschule Trier ein Risikomanagement-Tool für Portfolios mit R Shiny entwickelt. Die primäre Aufgabe von ihm bestand darin, die Daten in einer korrekten und leicht verständlichen Art und Weise in der Applikation darzustellen. Der Fokus lag dabei auf der Interaktivität der Anwendung. So konnten mit allen Darstellungen interagiert und ein detaillierter Bericht direkt per E-Mail versendet werden.
  • Projektmanagement
    • Zeitmanagement, Setzen von Meilensteinen und deren Überprüfung
    • Datenbankmodell entwickeln
  • Risikomanagement von Portfolios
    • Recherche verschiedener Methoden des Value at Risk
  • Implementierung einer webbasierten Anwendung mit R Shiny
    • Schnittstellen zu Datenbank etablieren
    • Berechnung des Value at Risk implementieren
    • Entwicklung sinnvoller, leicht verständlicher, interaktiver Darstellungen der Daten
    • Implementierung einer Möglichkeit eine detaillierte E-Mail mit Berichten direkt aus der App zu versenden
    • Design der Web-App entwickeln
R Shiny (Plotly) MySQL HTML CSS Projektmanagement Datenbankmanagement Risikomanagement von Portfolios
Unternehmensberatung, Trier
1 Monat
2019-09 - 2019-09

Bedarfsprognose für eine bundesweit tätige Autovermietung

Data Scientist Python Datenanalyse Programmierung einer Data-Pipeline
Data Scientist
In diesem Projekt wurde für eine deutschlandweit tätige Autovermietung der Bedarf an zu mietenden Fahrzeugen prognostiziert. Durch eine Umstellung beim Kunden hatte sich der Datenzufluss für das Modell stark verändert. Mit Hilfe von ihm wurden zunächst die neuen mit den alten Daten verglichen, wobei relevante Unterschiede festgestellt wurden, die die Validität des bisher verwendeten Modells stark negativ beeinflussten. Aufgrund der gewonnenen Erkenntnisse konnte dieses Problem behoben werden. In diesem Zusammenhang war Jannis auch für die Umstellung der Datenpipeline auf das neue Datenformat verantwortlich.
  • Datenanalyse und -vergleich zwischen neuem und altem System
  • Bereitstellung einer geeigneten Data-Pipeline-Architektur zur Integration der neuen Daten
Python Datenanalyse Programmierung einer Data-Pipeline
Kfz-Vermietung, Paderborn
3 Monate
2019-07 - 2019-09

Reinforcement Learning im Kühlprozess eines Bio-Reaktors

Data Scientist Python (TensorFlow; tf-agents; OpenAI gym) Reinforcement Learning Wahrscheinlichkeiten und Statistische Modellierung
Data Scientist
Im Rahmen dieses Projektes wurden verschiedene Reinforcement Learning Agenten in verschiedenen vordefinierten Umgebungen getestet und die Ergebnisse validiert. Anschließend wurde von Jannis ein Simulator eines Bioreaktors programmiert, in dem der Reinforcement Learning Agent die Aufgabe hatte, den Output der Anlage zu optimieren. Die Stellschrauben hierfür waren die Durchflussmenge und die Temperatur der Kühlflüssigkeit. In dieser Umgebung wurde der Agent für eine State-of-the-Art-Präsentation evaluiert. Zusätzlich zu diesen Aufgaben beschäftigte sich Jannis mit der Modellierung von Policies für den Agenten in verschiedenen Umgebungen mit Wahrscheinlichkeitsverteilungen, um ein optimales Verhalten zu erreichen.
  • Modellierung der Handlungswahrscheinlichkeiten des Agenten in einem bestimmten Zustand
  • Umprogrammierung von gym-Environments für passenden Schnittstellen mit tf-agents
  • Programmierung eines Bioreaktorsimulators
  • Evaluation der Trainingsergebnisse verschiedener RL-Agenten
Python (TensorFlow; tf-agents; OpenAI gym) Reinforcement Learning Wahrscheinlichkeiten und Statistische Modellierung
produzierendes Gewerbe, Paderborn
3 Monate
2019-03 - 2019-05

Klassifikation der Rückzahlungswahrscheinlichkeit von Bank-Kunden

Data Scientist R (ggplot;tidyr;dplyr;mice) Datenanalyse und -verständnis Datenaufbereitung ...
Data Scientist
m Rahmen eines Projektes an der Hochschule Trier wurde ein Datensatz einer Bank zur Verfügung gestellt, der neben kundenspezifischen Merkmalen auch die rechtzeitige Rückzahlungswahrscheinlichkeit von Kunden abbildete. Nachdem die Daten auf Auffälligkeiten und fehlende Daten überprüft wurden, konnten diese entfernt oder durch eines von zwei Imputationsverfahren ersetzt werden. Im Anschluss daran wurden verschiedene Klassifikationsverfahren angewandt und schließlich zur Ermittlung des besten Klassifikators verglichen.
  • Erstellung aussagekräftiger Diagramme zur Datenanalyse
  • Auswahl und Implementierung von Imputationsmethoden
  • Entwicklung und Implementierung der Klassifikationsverfahren
  • Auswertung der Klassifikationsverfahren
R (ggplot;tidyr;dplyr;mice) Datenanalyse und -verständnis Datenaufbereitung Imputation mit mice Imputation mit kNN Klassifikationsverfahren Decision Trees Random Forest Naive Bayes Gradient Boosted Tree Auswertung der verschiedenen Klassifikationsverfahren
Bankenwesen, Trier

Aus- und Weiterbildung

Aus- und Weiterbildung

2020 ? 2021
Studium - Statistics with Data Science
University of Edinburgh
Abschluss: Master of Science

2017 ? 2020
Studium - Wirtschaftsinformatik
Hochschule Trier
Schwerpunkt auf Datenverarbeitung, -auswertung und künstliche Intelligenz
Abschluss: Bachelor of Science

FORTBILDUNGEN & ZERTIFIZIERUNGEN
  • AWS Certified Cloud Practitioner

Kompetenzen

Kompetenzen

Produkte / Standards / Erfahrungen / Methoden

Profil
Der Mitarbeiter ist ein qualifizierter und überaus engagierter Data Scientist. Er hat sein fundiertes Wissen in der Textverarbeitung, Datenanalyse sowie der Entwicklung interaktiver Tools in anspruchsvolle Projekte eingebracht und maßgeblich zu deren Erfolg beigetragen. Ein Schwerpunkt seiner Arbeit liegt im Bereich des Natural Language Processing und der Verwendung von Word-Embeddings. Bereits in seiner Bachelorarbeit beschäftigte er sich mit der Performance-Verbesserung eines Klassifikators zur Stimmungsanalyse. In einem weiteren Projekt zur Analyse von Ausschreibungen hat er einen Clustering-Algorithmus entwickelt, der ähnliche Ausschreibungen gruppiert und so eine gezielte Vertriebsstrategie ermöglicht. Auch die Extraktion der relevantesten Themen aus Texten wie Nutzerkommentaren ist für ihn bereits ein bekanntes Feld. Darüber hinaus demonstriert er fundierte Kenntnisse in der Visualisierung von Analyseergebnissen in interaktiven Dashboards und dem Aufbau von Datenbanksystemen, was ihn in die Lage versetzt, effiziente Datenflüsse vom Import bis zur Endauswertung sicherzustellen. Diese Kenntnisse nutzte er in einem komplexen, dreijährigen Projekt in der Logistik-Branche. Hier zeigte er seinen Qualitätsanspruch und sein hohes technisches Verständnis insbesondere durch sorgfältige Sensitivitätsanalysen, effiziente, wartbare Implementierungen und gezieltes Hinterfragen von bisher verwendeten Methoden. Seine Fähigkeit, komplexe Ideen klar zu kommunizieren und eng mit verschiedenen Stakeholdern zusammenzuarbeiten, half, Projekte zügig voranzubringen und ein hohes Maß an Akzeptanz zu schaffen. Seine Arbeitsweise ist geprägt von präziser Planung und einem zielgerichteten Umgang mit Herausforderungen, was ihn in bisherigen Projekten zu einem geschätzten Kollegen und wertvollen Projektpartner macht. Gerne bringt er seine Stärken und Erfahrungen auch in Ihr Projekt ein.

Er ist ein vielseitiger und erfahrener Data Scientist mit Schwerpunkten im Machine Learning (ML) sowie in der Textverarbeitung/ Text Mining/ Natural Language Processing (NLP). Darüber hinaus verfügt er über praktische Erfahrungen mit Programmier-, Skript- und Abfragesprachen wie SQL, R und Python samt zahlreicher Frameworks und Bibliotheken, wie plotly, dash und pandas.

EXPERTISE
  • Data Science
  • Machine Learning (ML)
  • Textverarbeitung, Text Mining, Natural Language
  • Processing (NLP)
  • Information Retrieval, Web Scraping
  • Klassifikation und Clustering
  • Reinforcement Learning, Deep Learning
  • (bayesische) Datenanalyse
  • Datenmodellierung
  • agile Software-Entwicklung

TECHNOLOGIEN & PRODUKTE
  • PyCharm
  • Git, GitLab
  • TensorFlow
  • AWS (z.B.: Comprehend)
  • OpenAI-API (ChatGPT)
  • ElasticSearch, ElasticStack
  • Visual Studio Code
  • Jupyter Notebook
  • Anaconda
  • DBeaver
  • Atom

STATISTIK-WERKZEUGE
  • RStudio
  • Excel

BERUFLICHER WERDEGANG

2021 - heute
Firma: auf Anfrage

2018 - 2020
Position: Wissenschaftliche Hilfskraft im Bereich Statistik
Firma: Hochschule Trier

2019
Position: Praktikant
Firma: pmOne Analytics, Paderborn

2018 - 2019
Position: Wissenschaftliche Hilfskraft in den Bereichen Mathematik und Data Mining
Firma: Hochschule Trier

2015 - 2018
Position: Videoproduktion für Leadership Choices, Wiesbaden

Betriebssysteme

Windows
Linux

Programmiersprachen

JavaScript
CSS
HTML
Java
R + Shiny
SQL
Python
Pandas, Plotly, Dash, SQLAlchemy, NLTK, spaCy, pytest, poetry, precommit


Datenbanken

PostgreSQL
MongoDB
MySQL
MariaDB

Branchen

Branchen

  • Logistik und Transport
  • Soziale Medien
  • Finanzwesen
  • produzierendes Gewerbe
  • IT-Unternehmensberatung

Vertrauen Sie auf Randstad

Im Bereich Freelancing
Im Bereich Arbeitnehmerüberlassung / Personalvermittlung

Fragen?

Rufen Sie uns an +49 89 500316-300 oder schreiben Sie uns:

Das Freelancer-Portal

Direktester geht's nicht! Ganz einfach Freelancer finden und direkt Kontakt aufnehmen.