Konzeption und Beratung zur Umsetzung einer unternehmensweiten Datenstrategie zur Unterstützung datengetrieben im Unternehmen arbeiten zu können
Konzeption und Planung zum Aufbau einer unternehmenseigenen Digitalisierungs- und DataLab Abteilung
Aufbau einer Data-Governance Strategie
Vorstellung der Konzepte gegenüber dem Management (C-Level)
Hierzu Erhebung von IST-Zuständen zu den Themen: Technologie, Kultur, Talenten, Daten, Struktur
Entwicklung und Evaluation von neuen Geschäftsfeldern
Basierend auf diesen Ergebnissen: Erarbeitungen einer unternehmensweiten Datenstrategie und Themenspezifische Beratung (bspw. datenbasierte Softwarearchitektur, virtuelle Datenlayer)
2021-04 - heute: Unterstützung bei der Migration von SAP ERP auf SAP S4/Hana
Aufgaben
Optimierung des vorhandenen Datenmodels
Erhebung des IST-Zustands
Erhebung des SOLL-Zustands mit Hilfe von Workshops, Testmodellen, Testreihen, A/B-Testing, Fragebögen
2022-01 - heute: Unterstützung beim Aufbau einer CO2-Monitoring Plattform
Aufgaben
Entwurf einer Azure- und Snowflake basierten Batch-Processing Datenpipeline mit Visualisierung und Darstellung in Tableau
Aufbau einer Code-Plattform zum Parsen von Energiedaten übermittelt als XML
Zusammenstellen und Optimieren von Matillion-Jobs zum Abbilden von ETL / ELT Strecken (bspw. Augmentation, Filterung, Joins von Datenbeständen).
2020-06 - heute: Konzeptionierung und Umsetzung eines Metastammdatenmodells und Metdatenkatalog
Aufgaben
Konzeptionierung eines Datenkatalogs, um die Daten perspektivisch in Analysen, KPI-Reports und KI-Anwendungsfällen nutzbar zu machen
Innerhalb der Konzeptionierung soll insbesondere auf den IST-Zustand bzgl. des Datenflusses der kaufmännisch, technischen und geobasierten Daten innerhalb von Prozessen eingegangen werden.
Der SOLL-Zustand, optimiert alle Aspekte der typischen Datenpipeline; hierzu gehören u.a. Datenbereinigungsstrategien, Strategien zur Vermeidung von Dateninkonsistenzen, Definitionen von Masterdatenressourcen, Identifikation von Datenzugreifenden und -ändernden Prozessen
Mit Hilfe von datenwissenschaftlichen Techniken soll die allgemeine Datenqualität in und zwischen den einzelnen Datenquellen überprüft werden
Optimierung des vorhandenen Datenmodels, um zukunftssicherer in Bezug auf Datenzentrierung arbeiten zu können
2020-11 - 2021-03: Konzeptionierung eines Datenmodels zum Management von Betriebskostendaten
Aufgaben
Zielsetzung
Vergleichbarkeit mit anderen Marktteilnehmern
Standardisierung von Datenmodellen
Zertifizierung und Erfüllung von gesetzlichen Vorgaben (CO2-Monitoring)
Hierzu Erhebung des IST-Zustandes, Interviews und Requirements-Engineering mit Stakeholdern, Analyse der Anwendungsfälle und Prozesse. Entwurf eines Datenmodells, welches die Zielsetzungen erfüllen kann. Überprüfung des Datenmodells innerhalb von Workshops mit den Anwendern und innerhalb von PoCs zu geplanten Anwendungsfällen basierend auf künstlicher Intelligenz, Business und Benchmarking Analysen.
* Beratung und Umsetzung zu LLM-basiertem (OpenAI GPT-4) Anwendungsfall zur Analyse und Priorisierung von Incident-Tickets.
Umsetzung, Implementierung und Produktivsetzung des zugehörigen Q&A Chatbots. Hierzu Auswahl und Aufbau der Softwarearchitektur und geeigeneten Azure Service-Komponenten (Cognitive/AI Search, Blob Storage, Private Endpoints, OpenAI Service, Docker, Kubernertes, App Services).
Prompt Engineering, Aufbereitung und Optimierung des Suchindex. Bereitstellung an die Stakeholder als Web-basierte App.
Beratung und Umsetzung zur Optimierung der Data Analytics Systeme, Datenarchitektur und Datenmodellierung mit Datenspeicherung.
Planung und Konzeption zur Migration der Datenanalyse Hard- und Softwarekomponenten zur Widerherstellung einer Aktualität und Sicherheit der Systeme.
Initiale Bereitstellung eines Q&A Systems für Studienkurse in deutscher Sprache. Verbesserung der Antwortqualität und Zuverlässigkeit des bisherigen Q&A Systems.
Konzeption und Umsetzung eines LLM basierten Question-Answering Services für
den Syntethic Teaching Assistant. Hierzu Aufbau einer Haystack basierten NLPPipelineErweiterung der vorhandenen KI-Platttform:
Integration von Explainable AI (SHAP Values / Shapley, L1/L2, t-SNE, ?)
Komplettaufbau verschiedenster Model Monitorings basierend auf statistischer Feature für LSTM, Gradient oder XG Boosting Modelle, Binärmodelle (Random Forests, SVM, etc), Anomalie Modelle
Feature Monitoring basierend auf statistischer Feature
Integration von Cleanlab zur Elimination von Noisy Labeln, Erkennung beruht hierbei auf Confidence Learning
Model Reviews und Model Optimierungen durchgeführt, um Laufzeit, Speicherbedarf, Model Vorhersage Qualität zu verbessern und mitunter Kollinearität und Korrelationen zu eliminieren/ reduzieren.
Aufbau neuer KI-basierter Produkte zur Anomalie-Erkennung teilweise mit Hilfe von Dataiku Recepies. Klassische ML und Deep Learning Verfahren. Optimierung von vorhandenen Zeitreihen-Analysen und Trenderkennung (STL) via Gridsearch und mit weiteren Algorithmen und Verfahren zur Anomalie- und Mustererkennung (RobustSTL, Dynamic-Time-Warping, LSTM, Isolation Forests)
Entwurf und Implementierung von End-to-End Tests, Unit Tests und CI/CD Pipelines.
pySpark Funktionen geschrieben. Teilweise Spark UDFs als pandas Funktion nachimplemnetiert, um Applikationsentwicklern ein vernünftiges Debugging zu ermöglichen.
Konzeptionierung und Umsetzung von ORM-basierten Datenbankzugriffen für DB-Unabhängigen Code
Konzeptionierung und Umsetzung von Identity/ Autoinkrement Tabellen
Implementierung komplexer View und Tabellen-Generierungen zur Augmentierung von Daten, Joins verschiedener Datenquellen, Verarbeitung vieler Datenmengen, teilweise Extrakte aus JSON Objekten.
Diverse Refactoring und Migrationsaufgaben.
Komplettaufbau einer Ticketgeneriernden After Deployment Plattform mit SoX Relevanz und finanzieller Bewertung von Incidents:
Mit Hilfe der Jira API werden Tickets für Fachbereiche und POs generiert
Tickets werden generiert, wenn Schwellwerte zu basierend auf Statistischen Verfahren (Kullback-Leibler, Jensen-Shannon, Population Stability Index, Boosting) anschlagen.
Integration in unternehmenseigenem Scheduler, damit Jobs zur Generierung von Tickets batchartig zu bestimmten Zeitpunkten ausgeführt werden
Komplettaufbau als CI/CD Pipeline mit Linting Stage für Code Standards, End-to-end, Unit und Integrationtests für Code Qualität und automatischen Deployments.
Überwachung der Datenbank-Schemata mit Flyway
Komplettaufbau, Tests, CI/CD Pipeline, und Ausrollens eines Dockercontainers für Cloudinstanzen, welcher die unternehmenseigenen Plattformcodes als Bibliotheken enthält, welcher Jupyterlab enthält, um Model-Entwicklungsprozesse zu vereinfachen und alle Verbindungen (mit unterschiedlichen Zugriffs- und Sicherheitsmodi, bspw. Zertifikatdateien) zu den verschiedensten Datenquellen bereitstellt.
Datenquellen: Relationale DB (Oracle), distributed (HDFS via Hive), S3 bzw. EBS. Einbindung der verschiedenen Datenquellen in Python Code zum performanten und zuverlässigen Lesen, Verarbeiten und Speichern der Daten.
Lift der Plattform in die Azure Cloud
Darüber hinaus
Visualisierungen von Daten und dem Monitoring in Tableau als sich täglich aktualisierendes Dashboard. Besonderer Herausforderung hierbei: die Synchronisation der Daten aus verschiedenen Prozessen, um Informationen aus Model, Feature und Konfigurationsdaten oder aus verschiedenen Datenquellen (Oracle, Hive) zusammen zu bringen.
Digital Workforce - KI-basierte Projektteamempfehlung, Markt- und Trendanalyse von Fähigkeiten und Projekten, Business Analyse/Business Intelligence
Planung und Strategische Umsetzung eines PoC innerhalb eines Docker Containers auf der Open Telecom Cloud (OTC)
Herzu: Konzeption und Nachverfolgung des Aufbaus einer ETL-Pipeline, welche Daten aus verschiedenen Quellen (web-gescrapte Daten, API-basierte Daten, Daten aus Labeling) zusammenführt, bereinigt und zum Modeltraining und der -prädiktion vorbereitet.
Für die Projektteam-Empfehlung müssen Informationen zu Skills und Erfahrungsleveln aus unstrukturierten Daten extrahiert werden. Hierzu werden verschiedene Named Entities semi-automatisch mit Hilfe eines selbst-trainierten BERT Models extrahiert; dessen Input Daten dienten dazu, die Zieldaten besser zu repräsentieren.
Die Entitäten stehen in gewisser Relation zueinander, daher werden automatische Subgraph-Generierungsalgorihthmen, Graph- und Semantic Map Embeddings (TransE: Translate Model for KG Embedding, SME) angewendet, um semantische Relationen abzubilden. Hierbei war die Informationsextraktion von erheblicher Bedeutung
Für die Trendanalyse der aktuellen Marktsituation müssen Onlineressourcen gecrawled werden und basierend auf diesen Zeitreihen aufgebaut werden; diese müssen entsprechend verarbeitet werden, um einen Saisonalität zu extrahieren und mögliche Trends und Trendwenden des Jobmarkts zu prognostizieren
Die Implementierung der Teilprojekte wurde in einem typischen Python Data Science Stack vorgenommen: Daten in pandas Dataframes geladen, diese via statsmodels (STL) in Saisonalität, Trend und Residuen zerlegt und mit Matplotlib visualisiert
Entwicklung und Begleitung der Umsetzung einer geeigneten Datenlabelling-Strategie, um die Model-Performances zu verbessern
Entwicklung und Begleitung der Umsetzung von Code-Standards, CI-CD und Datenpipelines, End-to-End (E2e) und Unittests
Darüber hinaus Strategieentwicklung, Unternehmensberatung und Strukturierung, Planung und Betreuung von Projektfortschritten von bestehenden Projekten im Rahmen der digital Workforce. Entwicklung von weiteren Anwendungsfällen im Bereich der digital Workforce.
Aufbau und Planung einer Datenpipeline, hierzu u.a.
Sichtung, Identifikation und Synchronisierung geeigneter Datenquellen. Entwicklung von Strategien zum Umgang Dateninkonsistenzen
Planung und Entwicklung einer Pipeline, die den maschinellen Lernen Lebenszyklus abbildet:
Trainings, Test, Evaluierung, Validierung und Optimierung. Pipeline dient dem Erkennen von Leitungszuständen, hierzu u.a. Verfahren zur Anomalie-Erkennung, Regression und Klassifikationen implementiert und evaluiert.
Mitwirkung bei der Umsetzung der container- und cloudbasierten ML-basierten Produktiv-Pipeline
Über die Gesamte Projektlaufzeit: Erstellung von Visualisierungen, Dashboards und Reporting für C-Ebene
Das existierende RTOS System wurde analysiert, optimiert und erweitert, sodass die Zeilenkamera integriert werden konnte
Die Integration der Zeilenkamera wurde vorgenommen
Voraussetzung für die erfolgreiche Integration war der Aufbau einer Hardware/ Software Testumgebung
Identifikation von KI-geeigneten Anwendungsfällen
Durchführung von Workshops zu den betreffenden Anwendungsfällen
Aufnahme des IST und SOLL-Zustands in Bezug auf die Anwendungsfälle und den zur Umsetzung notwendigen Daten
Unterstützung bei der Einführung und Umsetzung einer Unternehmensweiten KI-Strategie
Implementierung eines KI-Anwendungsfalls
Identifikation der optimalen technischen Parameter in Bezug auf Produktionsintention, bspw. Qualität, Schnelligkeit, Zuverlässigkeit
Hierzu Durchlaufen der Datenpipeline:
Dateninventarisierung
Datenaufbereitung und -bereinigung
Datenaugmentierung
Zusammenführen von Daten aus verschiedenen Ressourcen (Elastic Stack, R-Server Umgebung)
Entwurf und Umsetzung einer Architektur zur Pseudonymisierung von Dokumenten
Entwurf und Implementierung eines Algorithmus zur Erkennung von persönlichen Daten und deren Typen, bspw. Adressen, in Dokumenten und deren Substitution durch randomisierte aber typ-erhaltende Daten
Implementierung als REST API
Entwurf, Implementierung und technische Leitung über ein Team von Data Scientisten zur Erstellung der KI/Data Science Software zur Zustandsüberwachung und zur vorhersagenden Wartung (Predictive Maintenance) von mechanischen Anlagen, basierend auf Zeitreihen-Daten (Akustik-Sensor Daten) und abgestimmt auf die (I)IoT-ähnliche Architektur und die Small-Single-Board Hardware (Raspberry/IndustrialPi)
Durchführung der Datenpipeline: Sichtung, Auswertung, Korrektur, Augmentation und Annotations-Strategie der vorhandenen Daten und der Daten Konzeption für zukünftige Daten
Entwurf und Implementierung des Demonstrators (außer des GUI-Clients) als Analogie zu einer der mechanischen Anlagen zu Demonstrationszwecken auf Messen und für Kundengespräche
Umsetzung als IoT-Stack:
Akustik-Daten werden aufgenommen und nah-echtzeit von einer KI-Implementierung auf einer Small-Single-Board Hardware ausgewertet
Die Resultate der KI-Auswertung werden als MQTT Nachrichten an einen Client gesendet
Entwurf und technische Leitung zur Implementierung einer KI/Data Science Software zur Erkennung von Aktivitäten und zur Vorhersage von Greif-Bewegungen
Implementierung als IoT-ähnliche Architektur zur Echtzeit Sensor-Fusion und -Aligning (Video und IMU-Sensor)
Technische Leitung über ein Team von Data Scientisten, BV-Experten und Studenten
Erstellung eines Wissensgraphen aus unstrukturierten Text- und Bilddaten
Automatische Bildunterschriften-Generierung (mit Hilfe u.a. von GANs und LSTMs), Bildkategorisierung, und Objekterkennung
Text- und Bildobjekt-Korrespondenz-Erkennung
Konzeption und Umsetzung eines Ranking Algorithmus basierend auf diversen Merkmalen, bspw. semantischer Ähnlichkeiten von abstrakten Themen zu den Zielbildern
Implementierung u.a. als HPC-fähiger Graph-Endpoint
Entwurf und Implementierung einer KI- und BV-Software zur Echtzeit-Erkennung von Aktivitäten und zur Erstellung von Navigationshinweisen basierend auf Kameradaten
Entwurf und Implementierung eines Augmented-Reality (AR) Clients zur Einblendung von Navigations- und Arbeitshinweisen auf der verwendeten Datenbrille
Hierbei wurde eine hardwarenahe Entwicklung durchgeführt (u.a. OpenCV-Contribution), da die Datenbrille in einem Beta-Status ohne vollständige Treiber und Framework-Unterstützung ausgeliefert wurde
Gestartet als technische Leitung eines studentischen Projekts
Durchführung der hardwarenahen Entwicklung und Finalisierung des Projektes als Entwicklerin
Senior Data Scientist mit Schwerpunkt künstlicher Intelligenz (KI), Sensorik und Bildverarbeitung
Technologien und Tools
Machine/ Deep Learning
scikit-learn
Tensorflow
Caffee
RankLib
Bildverarbeitung
OpenCV
Halcon
NLP
spaCy
CoreNLP
(Big) Data
pyspark/ Spark
Hadoop
Hue
Pandas
Dataframes
Kafka
Ambari
Hive
Bee
AR/VR
OpenGL
No-SQL
Neo4j
MongoDB
IoT
Eclipse Kura
AWS IoT
MQTT
Datenvisualisierung
PowerBI
Tableau
Kibana
Bokeh
Datenaustausch/Schnittstellen
REST
JSON
Cloud
AWS (S3, EC2, Sage maker, Route 53, Load Balancer)
Container
Docker
Kubernetes
Tools
Jupyter (python)
Git
Jira
SVN
PM
Agile (Scrum)
Beruflicher Werdegang
2018-09 - heute
Position: Senior Data Scientist & AI-Expert, CEO
Firma: auf Anfrage
2018-02 - 2018-08
Position: Seniorspecialist Software Architektur, maschinelles Lernen und Data Science
Firma: DB Systel GmbH, Frankfurt am Main
2012-11 - 2017-12
Position: Wissenschaftliche Mitarbeiterin
Firma: Universität Mannheim, Mannheim / Data and Web Science Group, Focus Area: Natural Language Processing.
2007-12 - 2012-10
Position: IT Administrator
Firma: TOMRA Sorting Solutions GmbH, Mülheim-Kärlich
Konzeption und Beratung zur Umsetzung einer unternehmensweiten Datenstrategie zur Unterstützung datengetrieben im Unternehmen arbeiten zu können
Konzeption und Planung zum Aufbau einer unternehmenseigenen Digitalisierungs- und DataLab Abteilung
Aufbau einer Data-Governance Strategie
Vorstellung der Konzepte gegenüber dem Management (C-Level)
Hierzu Erhebung von IST-Zuständen zu den Themen: Technologie, Kultur, Talenten, Daten, Struktur
Entwicklung und Evaluation von neuen Geschäftsfeldern
Basierend auf diesen Ergebnissen: Erarbeitungen einer unternehmensweiten Datenstrategie und Themenspezifische Beratung (bspw. datenbasierte Softwarearchitektur, virtuelle Datenlayer)
2021-04 - heute: Unterstützung bei der Migration von SAP ERP auf SAP S4/Hana
Aufgaben
Optimierung des vorhandenen Datenmodels
Erhebung des IST-Zustands
Erhebung des SOLL-Zustands mit Hilfe von Workshops, Testmodellen, Testreihen, A/B-Testing, Fragebögen
2022-01 - heute: Unterstützung beim Aufbau einer CO2-Monitoring Plattform
Aufgaben
Entwurf einer Azure- und Snowflake basierten Batch-Processing Datenpipeline mit Visualisierung und Darstellung in Tableau
Aufbau einer Code-Plattform zum Parsen von Energiedaten übermittelt als XML
Zusammenstellen und Optimieren von Matillion-Jobs zum Abbilden von ETL / ELT Strecken (bspw. Augmentation, Filterung, Joins von Datenbeständen).
2020-06 - heute: Konzeptionierung und Umsetzung eines Metastammdatenmodells und Metdatenkatalog
Aufgaben
Konzeptionierung eines Datenkatalogs, um die Daten perspektivisch in Analysen, KPI-Reports und KI-Anwendungsfällen nutzbar zu machen
Innerhalb der Konzeptionierung soll insbesondere auf den IST-Zustand bzgl. des Datenflusses der kaufmännisch, technischen und geobasierten Daten innerhalb von Prozessen eingegangen werden.
Der SOLL-Zustand, optimiert alle Aspekte der typischen Datenpipeline; hierzu gehören u.a. Datenbereinigungsstrategien, Strategien zur Vermeidung von Dateninkonsistenzen, Definitionen von Masterdatenressourcen, Identifikation von Datenzugreifenden und -ändernden Prozessen
Mit Hilfe von datenwissenschaftlichen Techniken soll die allgemeine Datenqualität in und zwischen den einzelnen Datenquellen überprüft werden
Optimierung des vorhandenen Datenmodels, um zukunftssicherer in Bezug auf Datenzentrierung arbeiten zu können
2020-11 - 2021-03: Konzeptionierung eines Datenmodels zum Management von Betriebskostendaten
Aufgaben
Zielsetzung
Vergleichbarkeit mit anderen Marktteilnehmern
Standardisierung von Datenmodellen
Zertifizierung und Erfüllung von gesetzlichen Vorgaben (CO2-Monitoring)
Hierzu Erhebung des IST-Zustandes, Interviews und Requirements-Engineering mit Stakeholdern, Analyse der Anwendungsfälle und Prozesse. Entwurf eines Datenmodells, welches die Zielsetzungen erfüllen kann. Überprüfung des Datenmodells innerhalb von Workshops mit den Anwendern und innerhalb von PoCs zu geplanten Anwendungsfällen basierend auf künstlicher Intelligenz, Business und Benchmarking Analysen.
* Beratung und Umsetzung zu LLM-basiertem (OpenAI GPT-4) Anwendungsfall zur Analyse und Priorisierung von Incident-Tickets.
Umsetzung, Implementierung und Produktivsetzung des zugehörigen Q&A Chatbots. Hierzu Auswahl und Aufbau der Softwarearchitektur und geeigeneten Azure Service-Komponenten (Cognitive/AI Search, Blob Storage, Private Endpoints, OpenAI Service, Docker, Kubernertes, App Services).
Prompt Engineering, Aufbereitung und Optimierung des Suchindex. Bereitstellung an die Stakeholder als Web-basierte App.
Beratung und Umsetzung zur Optimierung der Data Analytics Systeme, Datenarchitektur und Datenmodellierung mit Datenspeicherung.
Planung und Konzeption zur Migration der Datenanalyse Hard- und Softwarekomponenten zur Widerherstellung einer Aktualität und Sicherheit der Systeme.
Initiale Bereitstellung eines Q&A Systems für Studienkurse in deutscher Sprache. Verbesserung der Antwortqualität und Zuverlässigkeit des bisherigen Q&A Systems.
Konzeption und Umsetzung eines LLM basierten Question-Answering Services für
den Syntethic Teaching Assistant. Hierzu Aufbau einer Haystack basierten NLPPipelineErweiterung der vorhandenen KI-Platttform:
Integration von Explainable AI (SHAP Values / Shapley, L1/L2, t-SNE, ?)
Komplettaufbau verschiedenster Model Monitorings basierend auf statistischer Feature für LSTM, Gradient oder XG Boosting Modelle, Binärmodelle (Random Forests, SVM, etc), Anomalie Modelle
Feature Monitoring basierend auf statistischer Feature
Integration von Cleanlab zur Elimination von Noisy Labeln, Erkennung beruht hierbei auf Confidence Learning
Model Reviews und Model Optimierungen durchgeführt, um Laufzeit, Speicherbedarf, Model Vorhersage Qualität zu verbessern und mitunter Kollinearität und Korrelationen zu eliminieren/ reduzieren.
Aufbau neuer KI-basierter Produkte zur Anomalie-Erkennung teilweise mit Hilfe von Dataiku Recepies. Klassische ML und Deep Learning Verfahren. Optimierung von vorhandenen Zeitreihen-Analysen und Trenderkennung (STL) via Gridsearch und mit weiteren Algorithmen und Verfahren zur Anomalie- und Mustererkennung (RobustSTL, Dynamic-Time-Warping, LSTM, Isolation Forests)
Entwurf und Implementierung von End-to-End Tests, Unit Tests und CI/CD Pipelines.
pySpark Funktionen geschrieben. Teilweise Spark UDFs als pandas Funktion nachimplemnetiert, um Applikationsentwicklern ein vernünftiges Debugging zu ermöglichen.
Konzeptionierung und Umsetzung von ORM-basierten Datenbankzugriffen für DB-Unabhängigen Code
Konzeptionierung und Umsetzung von Identity/ Autoinkrement Tabellen
Implementierung komplexer View und Tabellen-Generierungen zur Augmentierung von Daten, Joins verschiedener Datenquellen, Verarbeitung vieler Datenmengen, teilweise Extrakte aus JSON Objekten.
Diverse Refactoring und Migrationsaufgaben.
Komplettaufbau einer Ticketgeneriernden After Deployment Plattform mit SoX Relevanz und finanzieller Bewertung von Incidents:
Mit Hilfe der Jira API werden Tickets für Fachbereiche und POs generiert
Tickets werden generiert, wenn Schwellwerte zu basierend auf Statistischen Verfahren (Kullback-Leibler, Jensen-Shannon, Population Stability Index, Boosting) anschlagen.
Integration in unternehmenseigenem Scheduler, damit Jobs zur Generierung von Tickets batchartig zu bestimmten Zeitpunkten ausgeführt werden
Komplettaufbau als CI/CD Pipeline mit Linting Stage für Code Standards, End-to-end, Unit und Integrationtests für Code Qualität und automatischen Deployments.
Überwachung der Datenbank-Schemata mit Flyway
Komplettaufbau, Tests, CI/CD Pipeline, und Ausrollens eines Dockercontainers für Cloudinstanzen, welcher die unternehmenseigenen Plattformcodes als Bibliotheken enthält, welcher Jupyterlab enthält, um Model-Entwicklungsprozesse zu vereinfachen und alle Verbindungen (mit unterschiedlichen Zugriffs- und Sicherheitsmodi, bspw. Zertifikatdateien) zu den verschiedensten Datenquellen bereitstellt.
Datenquellen: Relationale DB (Oracle), distributed (HDFS via Hive), S3 bzw. EBS. Einbindung der verschiedenen Datenquellen in Python Code zum performanten und zuverlässigen Lesen, Verarbeiten und Speichern der Daten.
Lift der Plattform in die Azure Cloud
Darüber hinaus
Visualisierungen von Daten und dem Monitoring in Tableau als sich täglich aktualisierendes Dashboard. Besonderer Herausforderung hierbei: die Synchronisation der Daten aus verschiedenen Prozessen, um Informationen aus Model, Feature und Konfigurationsdaten oder aus verschiedenen Datenquellen (Oracle, Hive) zusammen zu bringen.
Digital Workforce - KI-basierte Projektteamempfehlung, Markt- und Trendanalyse von Fähigkeiten und Projekten, Business Analyse/Business Intelligence
Planung und Strategische Umsetzung eines PoC innerhalb eines Docker Containers auf der Open Telecom Cloud (OTC)
Herzu: Konzeption und Nachverfolgung des Aufbaus einer ETL-Pipeline, welche Daten aus verschiedenen Quellen (web-gescrapte Daten, API-basierte Daten, Daten aus Labeling) zusammenführt, bereinigt und zum Modeltraining und der -prädiktion vorbereitet.
Für die Projektteam-Empfehlung müssen Informationen zu Skills und Erfahrungsleveln aus unstrukturierten Daten extrahiert werden. Hierzu werden verschiedene Named Entities semi-automatisch mit Hilfe eines selbst-trainierten BERT Models extrahiert; dessen Input Daten dienten dazu, die Zieldaten besser zu repräsentieren.
Die Entitäten stehen in gewisser Relation zueinander, daher werden automatische Subgraph-Generierungsalgorihthmen, Graph- und Semantic Map Embeddings (TransE: Translate Model for KG Embedding, SME) angewendet, um semantische Relationen abzubilden. Hierbei war die Informationsextraktion von erheblicher Bedeutung
Für die Trendanalyse der aktuellen Marktsituation müssen Onlineressourcen gecrawled werden und basierend auf diesen Zeitreihen aufgebaut werden; diese müssen entsprechend verarbeitet werden, um einen Saisonalität zu extrahieren und mögliche Trends und Trendwenden des Jobmarkts zu prognostizieren
Die Implementierung der Teilprojekte wurde in einem typischen Python Data Science Stack vorgenommen: Daten in pandas Dataframes geladen, diese via statsmodels (STL) in Saisonalität, Trend und Residuen zerlegt und mit Matplotlib visualisiert
Entwicklung und Begleitung der Umsetzung einer geeigneten Datenlabelling-Strategie, um die Model-Performances zu verbessern
Entwicklung und Begleitung der Umsetzung von Code-Standards, CI-CD und Datenpipelines, End-to-End (E2e) und Unittests
Darüber hinaus Strategieentwicklung, Unternehmensberatung und Strukturierung, Planung und Betreuung von Projektfortschritten von bestehenden Projekten im Rahmen der digital Workforce. Entwicklung von weiteren Anwendungsfällen im Bereich der digital Workforce.
Aufbau und Planung einer Datenpipeline, hierzu u.a.
Sichtung, Identifikation und Synchronisierung geeigneter Datenquellen. Entwicklung von Strategien zum Umgang Dateninkonsistenzen
Planung und Entwicklung einer Pipeline, die den maschinellen Lernen Lebenszyklus abbildet:
Trainings, Test, Evaluierung, Validierung und Optimierung. Pipeline dient dem Erkennen von Leitungszuständen, hierzu u.a. Verfahren zur Anomalie-Erkennung, Regression und Klassifikationen implementiert und evaluiert.
Mitwirkung bei der Umsetzung der container- und cloudbasierten ML-basierten Produktiv-Pipeline
Über die Gesamte Projektlaufzeit: Erstellung von Visualisierungen, Dashboards und Reporting für C-Ebene
Das existierende RTOS System wurde analysiert, optimiert und erweitert, sodass die Zeilenkamera integriert werden konnte
Die Integration der Zeilenkamera wurde vorgenommen
Voraussetzung für die erfolgreiche Integration war der Aufbau einer Hardware/ Software Testumgebung
Identifikation von KI-geeigneten Anwendungsfällen
Durchführung von Workshops zu den betreffenden Anwendungsfällen
Aufnahme des IST und SOLL-Zustands in Bezug auf die Anwendungsfälle und den zur Umsetzung notwendigen Daten
Unterstützung bei der Einführung und Umsetzung einer Unternehmensweiten KI-Strategie
Implementierung eines KI-Anwendungsfalls
Identifikation der optimalen technischen Parameter in Bezug auf Produktionsintention, bspw. Qualität, Schnelligkeit, Zuverlässigkeit
Hierzu Durchlaufen der Datenpipeline:
Dateninventarisierung
Datenaufbereitung und -bereinigung
Datenaugmentierung
Zusammenführen von Daten aus verschiedenen Ressourcen (Elastic Stack, R-Server Umgebung)
Entwurf und Umsetzung einer Architektur zur Pseudonymisierung von Dokumenten
Entwurf und Implementierung eines Algorithmus zur Erkennung von persönlichen Daten und deren Typen, bspw. Adressen, in Dokumenten und deren Substitution durch randomisierte aber typ-erhaltende Daten
Implementierung als REST API
Entwurf, Implementierung und technische Leitung über ein Team von Data Scientisten zur Erstellung der KI/Data Science Software zur Zustandsüberwachung und zur vorhersagenden Wartung (Predictive Maintenance) von mechanischen Anlagen, basierend auf Zeitreihen-Daten (Akustik-Sensor Daten) und abgestimmt auf die (I)IoT-ähnliche Architektur und die Small-Single-Board Hardware (Raspberry/IndustrialPi)
Durchführung der Datenpipeline: Sichtung, Auswertung, Korrektur, Augmentation und Annotations-Strategie der vorhandenen Daten und der Daten Konzeption für zukünftige Daten
Entwurf und Implementierung des Demonstrators (außer des GUI-Clients) als Analogie zu einer der mechanischen Anlagen zu Demonstrationszwecken auf Messen und für Kundengespräche
Umsetzung als IoT-Stack:
Akustik-Daten werden aufgenommen und nah-echtzeit von einer KI-Implementierung auf einer Small-Single-Board Hardware ausgewertet
Die Resultate der KI-Auswertung werden als MQTT Nachrichten an einen Client gesendet
Entwurf und technische Leitung zur Implementierung einer KI/Data Science Software zur Erkennung von Aktivitäten und zur Vorhersage von Greif-Bewegungen
Implementierung als IoT-ähnliche Architektur zur Echtzeit Sensor-Fusion und -Aligning (Video und IMU-Sensor)
Technische Leitung über ein Team von Data Scientisten, BV-Experten und Studenten
Erstellung eines Wissensgraphen aus unstrukturierten Text- und Bilddaten
Automatische Bildunterschriften-Generierung (mit Hilfe u.a. von GANs und LSTMs), Bildkategorisierung, und Objekterkennung
Text- und Bildobjekt-Korrespondenz-Erkennung
Konzeption und Umsetzung eines Ranking Algorithmus basierend auf diversen Merkmalen, bspw. semantischer Ähnlichkeiten von abstrakten Themen zu den Zielbildern
Implementierung u.a. als HPC-fähiger Graph-Endpoint
Entwurf und Implementierung einer KI- und BV-Software zur Echtzeit-Erkennung von Aktivitäten und zur Erstellung von Navigationshinweisen basierend auf Kameradaten
Entwurf und Implementierung eines Augmented-Reality (AR) Clients zur Einblendung von Navigations- und Arbeitshinweisen auf der verwendeten Datenbrille
Hierbei wurde eine hardwarenahe Entwicklung durchgeführt (u.a. OpenCV-Contribution), da die Datenbrille in einem Beta-Status ohne vollständige Treiber und Framework-Unterstützung ausgeliefert wurde
Gestartet als technische Leitung eines studentischen Projekts
Durchführung der hardwarenahen Entwicklung und Finalisierung des Projektes als Entwicklerin
Senior Data Scientist mit Schwerpunkt künstlicher Intelligenz (KI), Sensorik und Bildverarbeitung
Technologien und Tools
Machine/ Deep Learning
scikit-learn
Tensorflow
Caffee
RankLib
Bildverarbeitung
OpenCV
Halcon
NLP
spaCy
CoreNLP
(Big) Data
pyspark/ Spark
Hadoop
Hue
Pandas
Dataframes
Kafka
Ambari
Hive
Bee
AR/VR
OpenGL
No-SQL
Neo4j
MongoDB
IoT
Eclipse Kura
AWS IoT
MQTT
Datenvisualisierung
PowerBI
Tableau
Kibana
Bokeh
Datenaustausch/Schnittstellen
REST
JSON
Cloud
AWS (S3, EC2, Sage maker, Route 53, Load Balancer)
Container
Docker
Kubernetes
Tools
Jupyter (python)
Git
Jira
SVN
PM
Agile (Scrum)
Beruflicher Werdegang
2018-09 - heute
Position: Senior Data Scientist & AI-Expert, CEO
Firma: auf Anfrage
2018-02 - 2018-08
Position: Seniorspecialist Software Architektur, maschinelles Lernen und Data Science
Firma: DB Systel GmbH, Frankfurt am Main
2012-11 - 2017-12
Position: Wissenschaftliche Mitarbeiterin
Firma: Universität Mannheim, Mannheim / Data and Web Science Group, Focus Area: Natural Language Processing.
2007-12 - 2012-10
Position: IT Administrator
Firma: TOMRA Sorting Solutions GmbH, Mülheim-Kärlich