Data Scientist / Data Analyst mit KI Know-How
Aktualisiert am 02.05.2024
Profil
Mitarbeiter eines Dienstleisters
Remote-Arbeit
Verfügbar ab: 02.05.2024
Verfügbar zu: 100%
davon vor Ort: 100%
Skill-Profil eines fest angestellten Mitarbeiters des Dienstleisters
Deutsch
Muttersprache
Englisch
verhandlungssicher
Serbisch
Grundkenntnisse

Einsatzorte

Einsatzorte

Deutschland, Schweiz, Österreich
möglich

Projekte

Projekte

7 Monate
2023-10 - 2024-04

Implementierung eines datengetriebenen Chatbots

Data Scientist, Prompt Engineer OpenAI ChatGPT GPT-4 Visual Studio Code ...
Data Scientist, Prompt Engineer
Implementierung eines datengetriebenen Chatbots für den Kundensupport mit Hilfe Künstlicher Intelligenz
  • Ein Großteil der anfallenden Tickets im Kundensupport eines bedeutenden Software-Herstellers für die Baubranche ist mittels verfügbarer Dokumentationen und FAQs lösbar. Zur Entlastung des Kundensupports wurde als ?erster Ansprechpartner? ein Chatbot implementiert, welcher auf der Grundlage der vorhandenen umfangreichen Dokumentation einen Großteil der Kundenanfragen direkt beantworten kann. Dabei sollte der Bot in die bestehende Support-Infrastruktur des Unternehmens eingebunden werden.
  • Zur Generierung der Antworten wurde das GPT-4 Sprachmodell von OpenAI genutzt, welches bezüglich des Sprachverständnisses zum Zeitpunkt des Projekts führend war. Die Implementierung erfolgte in Python, wobei mit Hilfe des Langchain Framework dem Sprachmodell spezifisches Wissen über die Produkte zur Verfügung gestellt wurde.
  • Neben der eigentlichen Implementierung liegt ein wichtiger Schwerpunkt des Projektes auf der sauberen Auswahl des Datenkontextes und der Beeinflussung des Antwortstils von GPT-4 durch Prompt Engineering. Dies ist insbesondere bei Fragen kritisch, die mit dem gegebenen Datenkontext nicht unmittelbar beantwortet werden können. Zu diesem Zweck wurden Testsets aus realen Supportanfragen zusammengestellt und deren Antworten ausgewertet.


Aufgaben:

  • Ausführliche Evaluierung bezüglich der Optionen zur Realisierung eines Kundenservice-Chatbots u. a.:
    • Optimales Sprachmodell
    • Möglichkeiten zur Einbindung der Kontextdaten
  • Implementierung des Chatbots
    • Programmierung in Python mit Nutzung des Langchain Frameworks
    • ?Deployment auf Azure OpenAI
  • Zusammenarbeit mit dem Kundensupport zur Erlangung von Feedback durch menschliche Experten
  • Filterung der eingelesenen Daten (Data Cleaning)
  • Steuerung des KI-Verhaltens mittels Prompt Engineering

OpenAI ChatGPT GPT-4 Visual Studio Code Langchain Framework Python Fork Git Client Jira Gradio Natural Language Processing (NLP) Prompt Engineering Large Language Models (LLMs) Scrum Data Cleaning Einbinden Kontextdaten (Dokus; FAQs)
Softwareentwicklung
Köln
1 Jahr 11 Monate
2021-11 - 2023-09

Datenanalyse im Rahmen der Migration und Restrukturierung des Know-Your-Customer-Prozesses

Data Analyst DBeaver Impala SQL Jupyter Notebook ...
Data Analyst
Datenanalyse im Rahmen der Migration und Restrukturierung des Know-Your-Customer-Prozesses einer Bank
  • Die Umstellung der Know-Your-Customer (KYC)-Infrastruktur erforderte die Anpassung und Migration der bis zu 900.000 Kundendatensätze der Geschäftsbank auf eine neue Datenbankarchitektur. Neben der Transformation der Kundendaten auf neue Datenfelder, war insbesondere eine umfassende Analyse des aktuellen Datenbestandes entscheidend. Ziel war es, die Daten korrekt in die neue Architektur zu integrieren, wobei z. B. Qualitätsmängel im aktuellen Bestand erkannt und behoben werden sollten - insbesondere im Hinblick auf steuerliche und regulatorische compliance.
  • Die Schwerpunkte der Arbeiten lagen auf der Datenqualität, wie z.B. der Identifizierung von fehlerhaften/ fehlenden Einträgen und Dubletten. Diesbezüglich ergab eine umfangreiche Analyse, dass knapp 2% der Kundenpopulation im Datenbestand Dubletten aufwies. Weitere Aspekte waren die statistische Analyse der Risikobewertungen der Kunden auf Basis der Branche (bei Unternehmen), oder aber das Erkennen von Inkonsistenzen, z.B. bezüglich der registrierten Adresse und der Umsatzsteuer-Identifikationsnummer.
  • Im Hinblick auf die Transformation der Daten auf die neue Architektur wurden Skripte und Mappingtabellen erstellt, welche kategorische Daten auf die neue Struktur abbilden.


Aufgaben:

  • Detaillierte Analyse der vorhandenen Datenbasis im Hinblick auf die Ziele:
    • Qualitätssicherung
    • ?Korrektes Mapping der Daten auf die neue Datenbankarchitektur
  • Kollaboration mit Arbeitsgruppen unterschiedlicher Workstreams, um deren Arbeitsprozesse bezüglich der neuen Architektur zu optimieren
  • Dokumentation und Präsentation der Ergebnisse für die Managementebene

DBeaver Impala SQL Jupyter Notebook Power Query Editor SharePoint Prüfung der Datenqualität- Fehlende/Fehlerhafte Einträge- Duplikate Pivottabellen Datenaufbereitung MS Excel Powerpoint Python Datenanalyse Statische Analyse Verteilungen Relative Häufigkeiten Absolute Häufigkeiten
Banken & Finanzdienstleistungen
Berlin
2 Monate
2020-09 - 2020-10

Entwicklung eines Modells zur Identifizierung von COVID-19

Data Scientist Visual Studio Code Spyder Jupyter Notebook ...
Data Scientist
Entwicklung eines Modells zur Identifizierung von COVID-19 in Röntgenbildern des Thorax
  • Im Rahmen des Projekts wurden leistungsfähige Klassifikationsmodelle trainiert, um anhand von Röntgenbildern des Brustkorbs die zugrunde liegende Erkrankung zu identifizieren. Dabei kamen sowohl klassische Techniken des maschinellen Lernens (Support Vector Classifier, Entscheidungsbäume) als auch neuronale Netze zum Einsatz.
  • Um eine Überanpassung (Overfitting) an das Trainingssample zu vermeiden, wurden rotierte und gespiegelte Bilder im Training verwendet. Beim klassischen maschinellen Lernen wurde ein Parametertuning durchgeführt, um eine optimale Leistung zu erzielen. Bei den neuronalen Netzen wurden verschiedene Architekturen (z.B. Anzahl der Neuronen in den Schichten, Anzahl und Größe der Filter) getestet. Dabei wurde auch Wert auf eine schlanke Netzgröße gelegt, um einen guten Kompromiss zwischen Performance und Trainingsgeschwindigkeit zu erreichen.
  • Das Ergebnis war eine Genauigkeit von ca. 92% für die besten Modelle, wobei der Support Vector Classifier und die Convolutional Neural Networks im Allgemeinen am besten abschnitten.


Aufgaben:

  • Implementierung des Datenimports
  • Implementieren der Bildaufbereitung (Skalieren und Normieren der Bilder)
  • Implementierung klassischer Ansätze des Machine Learning
  • Implementierung von Deep Learning Modulen
  • Programmieren umfangreicher Testszenarien zur Evaluierung der Performance bei unterschiedlichen Parametern

Visual Studio Code Spyder Jupyter Notebook Dokumentation Data Augmentation Kreuzvalidierung Parameter-Tuning Machine Learning Deep Learning Scikit-learn TensorFlow Python AI
Data Science Weiterbildung
Bocholt, Forchheim
1 Jahr 7 Monate
2018-10 - 2020-04

Lehrtätigkeit in den Übungsklassen für Mathematik und Physik

Dozent Hilfsmittel im Unterricht (bspw. Beamer) Mathematik Differentialrechnung ...
Dozent
  • Bachelor- und Masterstudierende haben in den meisten Studiengängen zusätzlich zu den Vorlesungen so genannte Übungsklassen. In diesen werden die Inhalte der Vorlesungen geübt und vertieft.
  • In der Mathematik wird besonderer Wert auf Aspekte gelegt, die in vielen Bereichen der Physik eine wichtige Rolle spielen. Dies sind insbesondere die Differential- und Integralrechnung, mit deren Hilfe z.B. die zeitliche Änderung einer Größe berechnet werden kann. Auch die Vektorrechnung ist in diesem Zusammenhang ein wichtiges Thema, da viele physikalische Größen Vektoren im mathematischen Sinne sind.
  • Diese mathematischen Konzepte finden dann unter anderem Anwendung in der klassischen Mechanik oder im Elektromagnetismus.


Aufgaben:

  • Vertiefung und Anwendung des Vorlesungsinhalts
  • Gemeinsames Erarbeiten des Lösungsweges zu zahlreichen Aufgabenstellungen
  • Individuelle Hilfe für Studenten bei Schwierigkeiten in einem bestimmten Bereich
  • Ansprechpartner insbesondere vor Klausuren
  • Prüfungsaufsicht

Hilfsmittel im Unterricht (bspw. Beamer) Mathematik Differentialrechnung Integralrechnung Vektorrechnung Physik Mechanik Thermodynamik Elektromagnetismus
University of Keele
Keele (GB)
4 Jahre
2015-10 - 2019-09

Planung, Entwicklung und Implementierung eines vollautomatischen Systems

Physiker PyCharm SAOImageDS9 Linux ...
Physiker
Planung, Entwicklung und Implementierung eines vollautomatischen Systems zur Identifikation und Klassifikation junger Sternpopulationen
  • Ziel war die Realisierung eines Systems zur großflächigen Untersuchung der Entwicklung junger Sternpopulationen. Die verwendeten Daten basierten auf astronomischen Beobachtungsdaten, die in ihrer Kombination von hoher Bildauflösung, hoher Lichtempfindlichkeit und großem Sichtfeld einzigartig sind. Aus diesen Bildern wurden Tabellen generiert, die unter anderem Position, Helligkeit und Farbe von Millionen von Objekten enthalten.
  • Unter Verwendung bekannter Teilmengen (d.h. bereits bekannter Populationen junger Sterne) wurde mittels schließender Statistik ermittelt, welche Bandbreite an Farb- und Helligkeitskombinationen von diesen Objekten zu erwarten war. Auf dieser Basis identifiziert das System junge Sternpopulationen und gibt die statistische Signifikanz dieser Detektion an. Eine weitere Eingrenzung der Eigenschaften (z.B. Alter der Sterne) erfolgt durch den Vergleich mit Sternmodellen.


Aufgaben:

  • Bestimmung der Eigenschaften junger Sterne durch schließende Statistik
  • Implementierung eines Data Cleaning Skripts, das die angegebene Farbe in den Daten korrigiert (Objekte sind oft gerötet, siehe Sonne bei Auf- oder Untergang)
  • Implementierung einer Testversion, die bereits bekannte Sternpopulationen untersucht
  • Umfangreiche Tests zum Vergleich der detektierten jungen Sterne mit Sternmodellen
  • Erweiterung der Testversion auf den vollständigen Datensatz
  • Bugfixing während des gesamten Entwicklungsprozesses

PyCharm SAOImageDS9 Linux MacOS OpenOffice Aufwandsschätzung Datenaufbereitung SQL Dokumentation Statistische Analyse und Fehlerfortpflanzung Konzeption und Implementierung von Testszenarien Datenmanipulation Statistik Numpy Pandas Scipy Python IDL agiles Projektmanagement Meilensteintrendanalyse
Astronomie & Astrophysik
Keele (GB), Garching bei München
1 Jahr
2018-02 - 2019-01

Entwicklung eines Systems zur Detektion

Physiker PyCharm SAOImageDS9 NOAO-IRAF ...
Physiker
Entwicklung eines Systems zur Detektion von Sternen mit variabler Helligkeit durch Analyse ihrer Lichtkurven
  • Durch Beobachtung desselben Himmelsabschnitts zu verschiedenen Zeiten können Helligkeitsschwankungen von Objekten festgestellt werden. Die graphische Darstellung der Helligkeit in Abhängigkeit von der Zeit wird als Lichtkurve bezeichnet.
  • Für eine detaillierte Analyse dieser Lichtkurven wurden die beobachteten Helligkeitsschwankungen mit den zu erwartenden Ungenauigkeiten des Beobachtungsinstruments verglichen. Dies geschah mit Hilfe von Gauß-Tests, die die statistische Signifikanz dieser Schwankungen ermittelten. Nur bei ausreichender Signifikanz wurde die Nullhypothese (alle Schwankungen sind auf Ungenauigkeiten des Instruments zurückzuführen) verworfen. Die Analyse einer möglichen periodischen Schwankung wurde mit Lomb-Scargle-Periodogrammen aus der Astropy-Bibliothek durchgeführt.
  • Schließlich wurden typische Eigenschaften der gefundenen variablen Sterne mit Methoden der deskriptiven Statistik bestimmt (z.B. Mittelwert und Median der Helligkeitsschwankungen).


Aufgaben:

  • Aggregation der Helligkeitswerte aus allen Beobachtungen, so dass die Daten dem richtigen Himmelskörper zugeordnet sind
  • Genaue Bestimmung der zu erwartenden Helligkeitsschwankungen aufgrund des Instrumentenfehlers
  • Analyse zur Bestimmung der statistischen Signifikanz der beobachteten Helligkeitsschwankungen mittels Gauß-Tests unter Berücksichtigung des Instrumentenfehlers
  • Implementierung eines Klassifikationssystems zur Kategorisierung der gefundenen variablen Objekte in Abhängigkeit ihrer Lichtkurve

PyCharm SAOImageDS9 NOAO-IRAF PyRAF Linux Zeitreihenanalyse Periodogramme Hypothesentests Dokumentation
Astronomie & Astrophysik
Keele (GB), Garching bei München

Aus- und Weiterbildung

Aus- und Weiterbildung

2015 ? 2019
Promotion - Physik
Keele University (GB) und der Europäischen Südsternwarte
Abschluss: Doktortitel

2013 ? 2015
Studium - Astrophysik
Ludwig-Maximilians-Universität, München
Abschluss: Master

2010 ? 2013
Studium - Physik
Ludwig-Maximilians-Universität, München
Abschluss: Bachelor

FORTBILDUNGEN & ZERTIFIZIERUNGEN
  • PCAP: Certified Associate in Python Programming
  • ISTQB Certified Tester
  • AWS Certified Cloud Practitioner
  • Leibniz Bildungsinstitut: Python und Data Science

Position

Position

Data Scientist / Data Analyst mit KI Know-How

Kompetenzen

Kompetenzen

Schwerpunkte

Data Scientist mit umfangreichen Kenntnissen von Methoden und Algorithmen u.a. zu
  • Exploration und Extraktion von Wissen aus Datenbeständen
  • Bilderkennung
  • Natural Language Processing (NLP)
  • Zeitreihenanalyse (Time Series Analysis)
  • Prompt Engineering
  • KI-Chatbots
  • Python Entwicklung
  • Cloud und Big Data

Aufgabenbereiche

  • Statistische Analysen und Methoden
  • Datenanalyse, -verarbeitung, -manipulation und -visualisierung
  • Chatbots
  • Data Mining, Data Cleaning
  • Machine Learning, Deep Learning & Künstliche Intelligenz (KI, AI)
  • Large Language Models (LLMs), Convolutional Neural Networks (CNNs)
  • Natural Language Processing (NLP)

Produkte / Standards / Erfahrungen / Methoden

Jupyter Notebook
Visual Studio Code
PyCharm
Spyder
OpenAI ChatGPT
GPT-4
Azure OpenAI
Anaconda
Fork Git Client
Jira
Impala
Hive
SQL
Excel
Numpy
Scipy
Profil
  • Während seines Promotionsstudiums sammelte der Kandidat umfangreiche Erfahrungen in der Datenanalyse und der Anwendung statistischer Methoden. Als Stipendiat der Europäischen Organisation für astronomische Forschung in der südlichen Hemisphäre arbeitete er mit Rohdaten aus State-of-the-Art Observatorien. 
  • In diesem Zusammenhang konnte er sich umfangreiche Kenntnisse in den Programmiersprachen Python und IDL (Interactive Data Language) sowie in Bibliotheken zur Analyse, Manipulation, Verarbeitung und Visualisierung von Daten aneignen. Seine Ergebnisse präsentierte er in regelmäßigen Meetings und auch auf internationalen Konferenzen.
  • Im Rahmen einer fachlichen Qualifizierung zum Data Scientist erwarb er fundierte Kenntnisse in weiteren Methoden und Algorithmen zur Extraktion von Wissen aus Datenbeständen. Dazu gehören unter anderem Bilderkennung, Natural Language Processing (NLP) und Zeitreihenanalyse (Time Series Analysis). Dies führte zu einem Projekt, bei dem die zugrunde liegenden Erkrankungen anhand von Röntgenaufnahmen des Brustkorbs identifiziert werden sollten. Hierzu wurden Techniken aus dem Bereich des Deep Learning erfolgreich eingesetzt.
  • In seinen Kundenprojekten setzte er seine Expertise unter anderem für die Datenanalyse im Rahmen der Migration und Restrukturierung der IT-Landschaft einer Bank ein. Dies beinhaltete die Umstellung der "golden source" für das Reporting gegenüber Steuerbehörden und Regulatoren (z.B. BaFin). Dabei setzte er Tools wie Impala SQL und Python ein, arbeitete mit verschiedenen Arbeitsgruppen zusammen, und bereitete Informationen für die Managementebene auf.
  • Derzeit arbeitet der Kandidat an der Implementierung eines Kundenservice-Chatbots für ein Softwareunternehmen, wobei dies unter Anwendung der agilen Methode Scrum erfolgt. Im Zuge dieses Projekts erlangte er tiefergehende Kenntnisse im Bereich der Künstlichen Intelligenz (KI), insbesondere bezüglich Large Language Modellen (LLM) und des Prompt Engineering. Gerne bringt dieser Kandidat seine Stärken und Erfahrungen auch in Ihr Projekt ein.

BERUFLICHER WERDEGANG

2021 - heute
Position: Data Science Consultant 
Firma: auf Anfrage

2018 - 2020
Position: Lehrtätigkeit in Mathematik und Physik 
Firma: University of Keele, England

Betriebssysteme

Windows
Linux
MacOS

Programmiersprachen

Python
Pandas
Numpy
Matplotlib
Scikit-learn
TensorFlow
Keras
IDL
C/C++
XML
JSON

Datenbanken

MySQL
PostgreSQL

Branchen

Branchen

  • Physik
  • Baugewerbe
  • Banken & Finanzdienstleistungen
  • Softwareentwicklung

Einsatzorte

Einsatzorte

Deutschland, Schweiz, Österreich
möglich

Projekte

Projekte

7 Monate
2023-10 - 2024-04

Implementierung eines datengetriebenen Chatbots

Data Scientist, Prompt Engineer OpenAI ChatGPT GPT-4 Visual Studio Code ...
Data Scientist, Prompt Engineer
Implementierung eines datengetriebenen Chatbots für den Kundensupport mit Hilfe Künstlicher Intelligenz
  • Ein Großteil der anfallenden Tickets im Kundensupport eines bedeutenden Software-Herstellers für die Baubranche ist mittels verfügbarer Dokumentationen und FAQs lösbar. Zur Entlastung des Kundensupports wurde als ?erster Ansprechpartner? ein Chatbot implementiert, welcher auf der Grundlage der vorhandenen umfangreichen Dokumentation einen Großteil der Kundenanfragen direkt beantworten kann. Dabei sollte der Bot in die bestehende Support-Infrastruktur des Unternehmens eingebunden werden.
  • Zur Generierung der Antworten wurde das GPT-4 Sprachmodell von OpenAI genutzt, welches bezüglich des Sprachverständnisses zum Zeitpunkt des Projekts führend war. Die Implementierung erfolgte in Python, wobei mit Hilfe des Langchain Framework dem Sprachmodell spezifisches Wissen über die Produkte zur Verfügung gestellt wurde.
  • Neben der eigentlichen Implementierung liegt ein wichtiger Schwerpunkt des Projektes auf der sauberen Auswahl des Datenkontextes und der Beeinflussung des Antwortstils von GPT-4 durch Prompt Engineering. Dies ist insbesondere bei Fragen kritisch, die mit dem gegebenen Datenkontext nicht unmittelbar beantwortet werden können. Zu diesem Zweck wurden Testsets aus realen Supportanfragen zusammengestellt und deren Antworten ausgewertet.


Aufgaben:

  • Ausführliche Evaluierung bezüglich der Optionen zur Realisierung eines Kundenservice-Chatbots u. a.:
    • Optimales Sprachmodell
    • Möglichkeiten zur Einbindung der Kontextdaten
  • Implementierung des Chatbots
    • Programmierung in Python mit Nutzung des Langchain Frameworks
    • ?Deployment auf Azure OpenAI
  • Zusammenarbeit mit dem Kundensupport zur Erlangung von Feedback durch menschliche Experten
  • Filterung der eingelesenen Daten (Data Cleaning)
  • Steuerung des KI-Verhaltens mittels Prompt Engineering

OpenAI ChatGPT GPT-4 Visual Studio Code Langchain Framework Python Fork Git Client Jira Gradio Natural Language Processing (NLP) Prompt Engineering Large Language Models (LLMs) Scrum Data Cleaning Einbinden Kontextdaten (Dokus; FAQs)
Softwareentwicklung
Köln
1 Jahr 11 Monate
2021-11 - 2023-09

Datenanalyse im Rahmen der Migration und Restrukturierung des Know-Your-Customer-Prozesses

Data Analyst DBeaver Impala SQL Jupyter Notebook ...
Data Analyst
Datenanalyse im Rahmen der Migration und Restrukturierung des Know-Your-Customer-Prozesses einer Bank
  • Die Umstellung der Know-Your-Customer (KYC)-Infrastruktur erforderte die Anpassung und Migration der bis zu 900.000 Kundendatensätze der Geschäftsbank auf eine neue Datenbankarchitektur. Neben der Transformation der Kundendaten auf neue Datenfelder, war insbesondere eine umfassende Analyse des aktuellen Datenbestandes entscheidend. Ziel war es, die Daten korrekt in die neue Architektur zu integrieren, wobei z. B. Qualitätsmängel im aktuellen Bestand erkannt und behoben werden sollten - insbesondere im Hinblick auf steuerliche und regulatorische compliance.
  • Die Schwerpunkte der Arbeiten lagen auf der Datenqualität, wie z.B. der Identifizierung von fehlerhaften/ fehlenden Einträgen und Dubletten. Diesbezüglich ergab eine umfangreiche Analyse, dass knapp 2% der Kundenpopulation im Datenbestand Dubletten aufwies. Weitere Aspekte waren die statistische Analyse der Risikobewertungen der Kunden auf Basis der Branche (bei Unternehmen), oder aber das Erkennen von Inkonsistenzen, z.B. bezüglich der registrierten Adresse und der Umsatzsteuer-Identifikationsnummer.
  • Im Hinblick auf die Transformation der Daten auf die neue Architektur wurden Skripte und Mappingtabellen erstellt, welche kategorische Daten auf die neue Struktur abbilden.


Aufgaben:

  • Detaillierte Analyse der vorhandenen Datenbasis im Hinblick auf die Ziele:
    • Qualitätssicherung
    • ?Korrektes Mapping der Daten auf die neue Datenbankarchitektur
  • Kollaboration mit Arbeitsgruppen unterschiedlicher Workstreams, um deren Arbeitsprozesse bezüglich der neuen Architektur zu optimieren
  • Dokumentation und Präsentation der Ergebnisse für die Managementebene

DBeaver Impala SQL Jupyter Notebook Power Query Editor SharePoint Prüfung der Datenqualität- Fehlende/Fehlerhafte Einträge- Duplikate Pivottabellen Datenaufbereitung MS Excel Powerpoint Python Datenanalyse Statische Analyse Verteilungen Relative Häufigkeiten Absolute Häufigkeiten
Banken & Finanzdienstleistungen
Berlin
2 Monate
2020-09 - 2020-10

Entwicklung eines Modells zur Identifizierung von COVID-19

Data Scientist Visual Studio Code Spyder Jupyter Notebook ...
Data Scientist
Entwicklung eines Modells zur Identifizierung von COVID-19 in Röntgenbildern des Thorax
  • Im Rahmen des Projekts wurden leistungsfähige Klassifikationsmodelle trainiert, um anhand von Röntgenbildern des Brustkorbs die zugrunde liegende Erkrankung zu identifizieren. Dabei kamen sowohl klassische Techniken des maschinellen Lernens (Support Vector Classifier, Entscheidungsbäume) als auch neuronale Netze zum Einsatz.
  • Um eine Überanpassung (Overfitting) an das Trainingssample zu vermeiden, wurden rotierte und gespiegelte Bilder im Training verwendet. Beim klassischen maschinellen Lernen wurde ein Parametertuning durchgeführt, um eine optimale Leistung zu erzielen. Bei den neuronalen Netzen wurden verschiedene Architekturen (z.B. Anzahl der Neuronen in den Schichten, Anzahl und Größe der Filter) getestet. Dabei wurde auch Wert auf eine schlanke Netzgröße gelegt, um einen guten Kompromiss zwischen Performance und Trainingsgeschwindigkeit zu erreichen.
  • Das Ergebnis war eine Genauigkeit von ca. 92% für die besten Modelle, wobei der Support Vector Classifier und die Convolutional Neural Networks im Allgemeinen am besten abschnitten.


Aufgaben:

  • Implementierung des Datenimports
  • Implementieren der Bildaufbereitung (Skalieren und Normieren der Bilder)
  • Implementierung klassischer Ansätze des Machine Learning
  • Implementierung von Deep Learning Modulen
  • Programmieren umfangreicher Testszenarien zur Evaluierung der Performance bei unterschiedlichen Parametern

Visual Studio Code Spyder Jupyter Notebook Dokumentation Data Augmentation Kreuzvalidierung Parameter-Tuning Machine Learning Deep Learning Scikit-learn TensorFlow Python AI
Data Science Weiterbildung
Bocholt, Forchheim
1 Jahr 7 Monate
2018-10 - 2020-04

Lehrtätigkeit in den Übungsklassen für Mathematik und Physik

Dozent Hilfsmittel im Unterricht (bspw. Beamer) Mathematik Differentialrechnung ...
Dozent
  • Bachelor- und Masterstudierende haben in den meisten Studiengängen zusätzlich zu den Vorlesungen so genannte Übungsklassen. In diesen werden die Inhalte der Vorlesungen geübt und vertieft.
  • In der Mathematik wird besonderer Wert auf Aspekte gelegt, die in vielen Bereichen der Physik eine wichtige Rolle spielen. Dies sind insbesondere die Differential- und Integralrechnung, mit deren Hilfe z.B. die zeitliche Änderung einer Größe berechnet werden kann. Auch die Vektorrechnung ist in diesem Zusammenhang ein wichtiges Thema, da viele physikalische Größen Vektoren im mathematischen Sinne sind.
  • Diese mathematischen Konzepte finden dann unter anderem Anwendung in der klassischen Mechanik oder im Elektromagnetismus.


Aufgaben:

  • Vertiefung und Anwendung des Vorlesungsinhalts
  • Gemeinsames Erarbeiten des Lösungsweges zu zahlreichen Aufgabenstellungen
  • Individuelle Hilfe für Studenten bei Schwierigkeiten in einem bestimmten Bereich
  • Ansprechpartner insbesondere vor Klausuren
  • Prüfungsaufsicht

Hilfsmittel im Unterricht (bspw. Beamer) Mathematik Differentialrechnung Integralrechnung Vektorrechnung Physik Mechanik Thermodynamik Elektromagnetismus
University of Keele
Keele (GB)
4 Jahre
2015-10 - 2019-09

Planung, Entwicklung und Implementierung eines vollautomatischen Systems

Physiker PyCharm SAOImageDS9 Linux ...
Physiker
Planung, Entwicklung und Implementierung eines vollautomatischen Systems zur Identifikation und Klassifikation junger Sternpopulationen
  • Ziel war die Realisierung eines Systems zur großflächigen Untersuchung der Entwicklung junger Sternpopulationen. Die verwendeten Daten basierten auf astronomischen Beobachtungsdaten, die in ihrer Kombination von hoher Bildauflösung, hoher Lichtempfindlichkeit und großem Sichtfeld einzigartig sind. Aus diesen Bildern wurden Tabellen generiert, die unter anderem Position, Helligkeit und Farbe von Millionen von Objekten enthalten.
  • Unter Verwendung bekannter Teilmengen (d.h. bereits bekannter Populationen junger Sterne) wurde mittels schließender Statistik ermittelt, welche Bandbreite an Farb- und Helligkeitskombinationen von diesen Objekten zu erwarten war. Auf dieser Basis identifiziert das System junge Sternpopulationen und gibt die statistische Signifikanz dieser Detektion an. Eine weitere Eingrenzung der Eigenschaften (z.B. Alter der Sterne) erfolgt durch den Vergleich mit Sternmodellen.


Aufgaben:

  • Bestimmung der Eigenschaften junger Sterne durch schließende Statistik
  • Implementierung eines Data Cleaning Skripts, das die angegebene Farbe in den Daten korrigiert (Objekte sind oft gerötet, siehe Sonne bei Auf- oder Untergang)
  • Implementierung einer Testversion, die bereits bekannte Sternpopulationen untersucht
  • Umfangreiche Tests zum Vergleich der detektierten jungen Sterne mit Sternmodellen
  • Erweiterung der Testversion auf den vollständigen Datensatz
  • Bugfixing während des gesamten Entwicklungsprozesses

PyCharm SAOImageDS9 Linux MacOS OpenOffice Aufwandsschätzung Datenaufbereitung SQL Dokumentation Statistische Analyse und Fehlerfortpflanzung Konzeption und Implementierung von Testszenarien Datenmanipulation Statistik Numpy Pandas Scipy Python IDL agiles Projektmanagement Meilensteintrendanalyse
Astronomie & Astrophysik
Keele (GB), Garching bei München
1 Jahr
2018-02 - 2019-01

Entwicklung eines Systems zur Detektion

Physiker PyCharm SAOImageDS9 NOAO-IRAF ...
Physiker
Entwicklung eines Systems zur Detektion von Sternen mit variabler Helligkeit durch Analyse ihrer Lichtkurven
  • Durch Beobachtung desselben Himmelsabschnitts zu verschiedenen Zeiten können Helligkeitsschwankungen von Objekten festgestellt werden. Die graphische Darstellung der Helligkeit in Abhängigkeit von der Zeit wird als Lichtkurve bezeichnet.
  • Für eine detaillierte Analyse dieser Lichtkurven wurden die beobachteten Helligkeitsschwankungen mit den zu erwartenden Ungenauigkeiten des Beobachtungsinstruments verglichen. Dies geschah mit Hilfe von Gauß-Tests, die die statistische Signifikanz dieser Schwankungen ermittelten. Nur bei ausreichender Signifikanz wurde die Nullhypothese (alle Schwankungen sind auf Ungenauigkeiten des Instruments zurückzuführen) verworfen. Die Analyse einer möglichen periodischen Schwankung wurde mit Lomb-Scargle-Periodogrammen aus der Astropy-Bibliothek durchgeführt.
  • Schließlich wurden typische Eigenschaften der gefundenen variablen Sterne mit Methoden der deskriptiven Statistik bestimmt (z.B. Mittelwert und Median der Helligkeitsschwankungen).


Aufgaben:

  • Aggregation der Helligkeitswerte aus allen Beobachtungen, so dass die Daten dem richtigen Himmelskörper zugeordnet sind
  • Genaue Bestimmung der zu erwartenden Helligkeitsschwankungen aufgrund des Instrumentenfehlers
  • Analyse zur Bestimmung der statistischen Signifikanz der beobachteten Helligkeitsschwankungen mittels Gauß-Tests unter Berücksichtigung des Instrumentenfehlers
  • Implementierung eines Klassifikationssystems zur Kategorisierung der gefundenen variablen Objekte in Abhängigkeit ihrer Lichtkurve

PyCharm SAOImageDS9 NOAO-IRAF PyRAF Linux Zeitreihenanalyse Periodogramme Hypothesentests Dokumentation
Astronomie & Astrophysik
Keele (GB), Garching bei München

Aus- und Weiterbildung

Aus- und Weiterbildung

2015 ? 2019
Promotion - Physik
Keele University (GB) und der Europäischen Südsternwarte
Abschluss: Doktortitel

2013 ? 2015
Studium - Astrophysik
Ludwig-Maximilians-Universität, München
Abschluss: Master

2010 ? 2013
Studium - Physik
Ludwig-Maximilians-Universität, München
Abschluss: Bachelor

FORTBILDUNGEN & ZERTIFIZIERUNGEN
  • PCAP: Certified Associate in Python Programming
  • ISTQB Certified Tester
  • AWS Certified Cloud Practitioner
  • Leibniz Bildungsinstitut: Python und Data Science

Position

Position

Data Scientist / Data Analyst mit KI Know-How

Kompetenzen

Kompetenzen

Schwerpunkte

Data Scientist mit umfangreichen Kenntnissen von Methoden und Algorithmen u.a. zu
  • Exploration und Extraktion von Wissen aus Datenbeständen
  • Bilderkennung
  • Natural Language Processing (NLP)
  • Zeitreihenanalyse (Time Series Analysis)
  • Prompt Engineering
  • KI-Chatbots
  • Python Entwicklung
  • Cloud und Big Data

Aufgabenbereiche

  • Statistische Analysen und Methoden
  • Datenanalyse, -verarbeitung, -manipulation und -visualisierung
  • Chatbots
  • Data Mining, Data Cleaning
  • Machine Learning, Deep Learning & Künstliche Intelligenz (KI, AI)
  • Large Language Models (LLMs), Convolutional Neural Networks (CNNs)
  • Natural Language Processing (NLP)

Produkte / Standards / Erfahrungen / Methoden

Jupyter Notebook
Visual Studio Code
PyCharm
Spyder
OpenAI ChatGPT
GPT-4
Azure OpenAI
Anaconda
Fork Git Client
Jira
Impala
Hive
SQL
Excel
Numpy
Scipy
Profil
  • Während seines Promotionsstudiums sammelte der Kandidat umfangreiche Erfahrungen in der Datenanalyse und der Anwendung statistischer Methoden. Als Stipendiat der Europäischen Organisation für astronomische Forschung in der südlichen Hemisphäre arbeitete er mit Rohdaten aus State-of-the-Art Observatorien. 
  • In diesem Zusammenhang konnte er sich umfangreiche Kenntnisse in den Programmiersprachen Python und IDL (Interactive Data Language) sowie in Bibliotheken zur Analyse, Manipulation, Verarbeitung und Visualisierung von Daten aneignen. Seine Ergebnisse präsentierte er in regelmäßigen Meetings und auch auf internationalen Konferenzen.
  • Im Rahmen einer fachlichen Qualifizierung zum Data Scientist erwarb er fundierte Kenntnisse in weiteren Methoden und Algorithmen zur Extraktion von Wissen aus Datenbeständen. Dazu gehören unter anderem Bilderkennung, Natural Language Processing (NLP) und Zeitreihenanalyse (Time Series Analysis). Dies führte zu einem Projekt, bei dem die zugrunde liegenden Erkrankungen anhand von Röntgenaufnahmen des Brustkorbs identifiziert werden sollten. Hierzu wurden Techniken aus dem Bereich des Deep Learning erfolgreich eingesetzt.
  • In seinen Kundenprojekten setzte er seine Expertise unter anderem für die Datenanalyse im Rahmen der Migration und Restrukturierung der IT-Landschaft einer Bank ein. Dies beinhaltete die Umstellung der "golden source" für das Reporting gegenüber Steuerbehörden und Regulatoren (z.B. BaFin). Dabei setzte er Tools wie Impala SQL und Python ein, arbeitete mit verschiedenen Arbeitsgruppen zusammen, und bereitete Informationen für die Managementebene auf.
  • Derzeit arbeitet der Kandidat an der Implementierung eines Kundenservice-Chatbots für ein Softwareunternehmen, wobei dies unter Anwendung der agilen Methode Scrum erfolgt. Im Zuge dieses Projekts erlangte er tiefergehende Kenntnisse im Bereich der Künstlichen Intelligenz (KI), insbesondere bezüglich Large Language Modellen (LLM) und des Prompt Engineering. Gerne bringt dieser Kandidat seine Stärken und Erfahrungen auch in Ihr Projekt ein.

BERUFLICHER WERDEGANG

2021 - heute
Position: Data Science Consultant 
Firma: auf Anfrage

2018 - 2020
Position: Lehrtätigkeit in Mathematik und Physik 
Firma: University of Keele, England

Betriebssysteme

Windows
Linux
MacOS

Programmiersprachen

Python
Pandas
Numpy
Matplotlib
Scikit-learn
TensorFlow
Keras
IDL
C/C++
XML
JSON

Datenbanken

MySQL
PostgreSQL

Branchen

Branchen

  • Physik
  • Baugewerbe
  • Banken & Finanzdienstleistungen
  • Softwareentwicklung

Vertrauen Sie auf GULP

Im Bereich Freelancing
Im Bereich Arbeitnehmerüberlassung / Personalvermittlung

Fragen?

Rufen Sie uns an +49 89 500316-300 oder schreiben Sie uns:

Das GULP Freelancer-Portal

Direktester geht's nicht! Ganz einfach Freelancer finden und direkt Kontakt aufnehmen.