Data Pipelines unter Berücksichtigung von SWE und DevOps Prinzipien. Java, Scala, Python, SQL, IaC
Aktualisiert am 11.04.2024
Profil
Freiberufler / Selbstständiger
Remote-Arbeit
Verfügbar ab: 11.04.2024
Verfügbar zu: 100%
davon vor Ort: 50%
Programmierung mit Aggregationen
Stream Processing Batch Processing Kollaboration mit Data Scientisten
Deutsch
Muttersprache
Englisch
Fortgeschritten

Einsatzorte

Einsatzorte

Deutschland
möglich

Projekte

Projekte

5 Monate
2023-12 - heute

Datenbereitstellung für eine Analyseplattform

Zur Datenbereitstellung werden täglich Dateien aus einem Objektspeicher in Iceberg Tabellen mittels einer cloudnativen Anwendung überführt.


Beiträge zum Projekt

  • Aufbau einer ETL-Strecke mittels Python Pandas Bibliothek und Orchestrierung über AWS Stepfunctions und Ausführung über Glue-Jobs mit Python Shell und Lambdas und Infrastrukturbereitstellung über CDK
TRANSPORT/LOGISTIK
3 Monate
2023-07 - 2023-09

Microstream Micronaut Applikation

Im Rahmen eines Blueprint-Projektes wurde eine Microservice-Architektur mit Micronaut und Microstream sowie gRPC als Austauschprotokoll als eine lokale Kubernetes-Applikation aufgesetzt.

BLUEPRINT
1 Jahr 1 Monat
2022-07 - 2023-07

Datenbereitstellung für eine Analyseplattform

Senior Data Engineer Azure Dev Beratungsleistungen Engagement & Flexibilität ...
Senior Data Engineer
Zur Datenbereitstellung aus verschiedenen Datenquellen in ein zentralisiertes Data Warehouse mit Snowflake als Analyseplattform für weiterführendes BI-Reporting eines Flugzeugherstellers wird ein Low-Code-ETL-Tool verwendet.

Persönliche Beiträge zum Projekt
  • Dataintegration/Low-Coding mit ETL Tool Ab Initio.
  • Conceptual design zur IoT-Datenbereitstellung
  • Streaming job deployment zur Datenbereitstellung einer Analyseplattform
  • Konzept zur Schemaevolution und DataOps mit partieller Umsetzung
Azure Dev Beratungsleistungen Engagement & Flexibilität Git Jenkins administration Kundenorientierung Qualitätsbewusstsein Shell / Bash Snowflake SQL Statements Stream Processing Terraform scripting
AEROSPACE
1 Jahr 4 Monate
2022-03 - 2023-06

Tool migration data provisioning and curation analytical platform

Senior Data Engineer Analytisches Denken Azure Data Factory Beratungsleistungen ...
Senior Data Engineer
Zur Datenbereitstellung aus verschiedenen Datenquellen für eine Analyseplattform für weiterführendes BI-Reporting eines norwegischen öffentlichen Dienstes wurde das aktuelle Data Warehouse und die damit einhergehenden Datenverarbeitungsstrecken in ein modernes Technologieumfeld migriert.

Persönliche Beiträge zum Projekt
  • ETL-Pipeline Migration von SSIS flows zu Azure Data Factory Dataflows mit unterliegendem Spark cluster
  • Dateneinspeisung und Datenverarbeitung in das bestehende Data Warehouse mit Azure SQL
  • Individuelles lokales Testframework in C#
Analytisches Denken Azure Data Factory Beratungsleistungen Qualitätsbewusstsein SQL Statements C#
PUBLIC ADMINISTRATION
3 Monate
2021-12 - 2022-02

MLOps Blueprint Sagemaker

Senior Data Engineer
Senior Data Engineer

Implementierung einer MLOps deployment pipeline mit AWS Sagemaker zur Bilderkennung als eine Out-of-the-box-solution für die Bereitstellung in verschiedenen Kundenumgebungen 

 Sagemaker pipeline setup für Data Science unter der Verwendung einer

selbst bereit gestellten Modellimplementierung zur Bilderkennung
  • Sagemaker pipelinedefinition unter der Verwendung von Sagemaker Python libraries zur image runtime definition
  • Pipeline setup mit Modellevaluation und Modellregistrierung
  • Modellinference zusammen mit der Modellendpunktbereitstellung
  • IaC zur CI/CD stack-Bereitstellung


Persönliche Beiträge zum Projekt

  • Unterstützung und Funktion als Wissensvermittlung im MLOps-Projekt-setup basierend auf dem vorherigen Kunden-POC
  • Fokus in dem internen POC lag auf der automatisierten out-of-the- Box-Bereitstellung der gesamten MLOps-Projekt-Infrastruktur in Sagemaker
  • CI/CD, event rules, git repositories, endpoint definitions, bucket setup, IAM policy handling, naming conventions wurden über Cloudformation definiert und automatisiert bereitgestellt
  • Ausarbeitung von Dokumentation, Marketingmaterial, Systemdemo
INFORMATION TECHNOLOGY
5 Monate
2021-10 - 2022-02

Evaluation Datenbereitstellung für Analyse Plattform

Senior Data Engineer Beratungsleistungen Engagement & Flexibilität Kubernetes administration ...
Senior Data Engineer
Zur Datenbereitstellung von verschiedenen Datenquellen für die Analyseplattform eines Flugzeugherstellers wurde die Big Data/ Streaming Plattform Ververica für die Dateneinspeisung, -bereinigung und -bereitstellung evaluiert. Ververica ist von den Erfindern von Apache Flink entwickelt. Apache Flink ist einer der Big Player im Big Data / Real-time/Stream Umfeld.

Persönliche Beiträge zum Projekt
  • Setup Kubernetes Infrastruktur
  • Setup Ververica Plattform als eine Kubernetes Application mit Pod Bereitstellung über Helm chart management
  • Streaming job deployment über die Ververica Plattform unter der Verwendung der SQL API über den SQL Editor von Ververica
  • Ververica deployed Flink jobs als Kubernetes Pods
  • Dateneinspeisung und Datenverarbeitung für die Bereitstellung von Slowly Changing Dimensions zur Dimensions- und Faktenbereitstellung mit SQL
Beratungsleistungen Engagement & Flexibilität Kubernetes administration Kundenorientierung SQL Statements Stream Processing Ververica platform
AEROSPACE
8 Monate
2021-03 - 2021-10

Aufbau einer self-service Big Data Plattform

Senior Data Engineer Google Kubernetes Engine Apache Kafka als Message Broker Kafka Streams & Kafka Connect für die Verarbeitung der Kafka Messages ...
Senior Data Engineer
Aufbau einer self-service Big Data Plattform in der Google Cloud Platform. Im Tagesgeschäft des Auftraggebers werden eine Vielzahl
von Daten in unterschiedlichen Systemen generiert und vorgehalten, zudem
existierte eine Data Warehouse Lösung on Premises. Ziel des Projekts war
Daten aus allen Datenquellen in einem zentralen Data Lake zu konsolidieren
und das Data Warehouse abzulösen. Damit sollen die Daten zentral für Nutzer,
Partnerunternehmen sowie für neue Anwendungen verfügbar gemacht werden.
Ein klassischer Data Lake erlaubt das Speichern von Rohdaten ungeachtet des
Datenformats und der Datenqualität. In diesem Projekt wurde diese Philosophie
bewusst zu Gunsten einer hohen Datenqualität und vertrauenswürdigen
Datenlandschaft verworfen. Daher werden neue Daten schon bei der Anlieferung
von eigens entwickelten Microservices (Data-Ingest-Apps) je Datenquelle
geprüft, verarbeitet und im Fehlerfall abgelehnt. Diese Microservices sind in Containern implementiert und werden in der Kubernetes ausgeführt, so dass durch horizontale Skalierung selbst große Datenmengen schnell verarbeitet werden können. Die so angenommenen Daten werden über einen Message Broker verteilt und asynchron mittels diverser weiterer Microservices weiterverarbeitet und letztendlich gespeichert.


Ziele

  • Aufbau eines Data Lakes bzw. Datawarehouse für heterogene strukturierte und unstrukturierte Datenquellen
  • Verwendung moderner Big Data Technologien
  • Anwendung der Public Cloud (Google Cloud Platform)
  • Hochgradige Skalierbarkeit
  • Gewährleistung hoher Datenqualität
  • Eliminieren von Datensilos im Unternehmen
  • Self-Service Funktionen für erhöhte Akzeptanz und Effizienz


Fakten

  • Datenvolumen:150 TB Daten
  • Datenquellen: 5000+ Topics, 500+ channels
  • Datenverarbeitung: 23MB/s eingehend; ~30 MB/s ausgehend

Persönliche Beiträge zum Projekt
  • Entwicklung, Unterstützung und Beratung zum architektonischen Design einer Kafka Streams Applikation über die SQL Abstraktionsschicht ksqlDB.
  • Deployment als eine Kubernetesapplikation
  • Aggregationen und Transformationen über den Kafka Tabellenmechanismus in Echtzeit
Google Kubernetes Engine Apache Kafka als Message Broker Kafka Streams & Kafka Connect für die Verarbeitung der Kafka Messages Java für die Implementierung von individuellen Microservices für die Datenverarbeitung Qlik Attunity für die Anbindung von SAP Google Big Query als Data Warehouse MongoDB als Datenspeicher Infrastructure Automatisierung via Terraform Apache Kafka Streams integration BigData Konzeption BigQuery Build Systems GCP Jenkins job configuration Kafka Connect development Kafka ksqlDB development Kubernetes administration sbt Scala Shell / Bash Stream Processing
CONSUMER PRODUCTS
1 Monat
2021-05 - 2021-05

Unterstützung eines Basefarm Team

Senior System Engineer AWS CodePipeline AWS Development AWS Sagemaker ...
Senior System Engineer
Die Unterstützung beinhaltete die Implementierung einer ML Ops Deployment Pipeline mit AWS Sagemaker für deren NLP Anwendungsfall.

Persönliche Beiträge zum Projekt
  • Aufsetzen einer gesamten templatebasierten Sagemaker pipeline unter der Verwendung einer angepassten ML Bibliothek zur Ausführung einer Kurztextkategorisierung mit CPU und GPU Verarbeitung.
  • Pythonimplementierung für das Modelltraining unter der Verwendung des Spacy/Textcat Algorithmus zur Klassifikation mittels der Bereitstellung der darunter liegenden Ausführungsumgebung über ein Pytorch/PythonImage
  • Pipelineimplementierung zur Modellevaluation und Modellregistrierung
  • Pipelineimplementierung zur Modellableitung und -bereitstellung in Echtzeit
  • Die Pipelinedefinition besteht aus einer CI/CD-Bereitstellung mit AWS Codepipeline bereitgestellt über Cloudformation
AWS CodePipeline AWS Development AWS Sagemaker Cloudformation MLOps Python
INFORMATION TECHNOLOGY
4 Monate
2020-09 - 2020-12

RestApi Ingest low code

Senior Data Engineer Analytisches Denken Azure ARM Templating Azure Datafactory ...
Senior Data Engineer
Zahlungen von Kunden für einen Getränkelieferanten bereitgestellt über eine RestAPI mussten in einen Data Lake eingespeist werden für weitere Berichterstellung, Analyse und Vergleich zu internen SAP-Systemen.

Persönliche Beiträge zum Projekt
  • RestApi Einspeisung
  • Konfigurierbares Aufsetzen einer Datenbereitstellungspipeline für Zahlungsdaten
  • Low code tooling Verwendung
  • Tooling: Azure Data Factory, Azure ARM deployment
Analytisches Denken Azure ARM Templating Azure Datafactory Azure Dev Jenkins job configuration Requirement engineering SQL Statements Persönliche Beiträge zum Projekt
FOOD & BEVERAGE
5 Monate
2020-08 - 2020-12

Datalake Bereitstellung

Senior Data Engineer Azure ARM Templating Azure Datafactory Azure Dev ...
Senior Data Engineer
Data Lake Bereitstellung für einen Getränkelieferanten zur Kombination verschiedener Datenquellen von verschiedenen Abteilungen in eine zentrale Datenbereitstellungsschicht für darauf aufbauendes Echtzeit-BI-Reporting.

Persönliche Beiträge zum Projekt
  • Azure Eventhub als Datenquelleneinspeisung in den Data Lake
  • Generisches Aufsetzen einer Pipeline zur Echtzeitverarbeitung und Datenbereitstellung in Echtzeit
  • Entwicklung einer konfigurierbaren ETL streaming Applikation zur Kombination verschiedener eventbasierter Datenquellen, welches über den Eventhub von Azure bereitgestellt wurden
  • Streaming framework ist konfigurierbar über Yaml-Dateien bereitgestellt, welche in spezieller Versionskontrolle integriert wurden
  • Bei Änderung der entsprechenden Konfiguration wurde eine neue Joausführung über ein Databricks cluster gestartet
  • Infrastrukturbereitstellung über ARM templates
  • Job orchestration und Scheduling über Azure Datafactory
  • Tooling: Spark Structured Streaming, Jenkins, Databricks, Azure Datafactory, Azure Eventhub, Azure Blob Storage Gen2, Azure ARM
Azure ARM Templating Azure Datafactory Azure Dev BigData Konzeption Build Systems Continuous Delivery Data Lake Beratungsleistungen Docker Englisch Git Jenkins job configuration Requirement engineering sbt Scala Shell / Bash Spark Spark Structured Streaming SQL Statements UML
FOOD & BEVERAGE
1 Jahr
2020-01 - 2020-12

Cloud Native Applications SIG

Data Engineer Apache Kafka Apache Kafka Streams integration BigData Konzeption ...
Data Engineer
Entwicklung einer Blueprint Lösung eines Data Lakes basierend auf OpenShift und Cutting Edge Data Engineering.

Persönliche Beiträge zum Projekt
  • Entwicklung eines Kafka Streams real-time Datenfeed Microservice with Scala DSL
  • Bereitgestellt als ein Openshift/Kubernetes Deployment
  • Spezifische Echtzeitaggregationen mittels der Verwnedung von Kafka Tabellen und der Kafka Streams topology.
  • Entwicklung und Bereitstellung einer Kafka-Connect-Applikation als ein Openshift/Kubernetes deployment
  • Bereitstellung der gesamten Apache Kafkaarchitektur inkl, Zookeeper, Schemaregistry, Broker, Kafka-Connect, Control-center über eine spezielle Deploymentpipeline inkl. Containerisierung mit Jenkins und SBT
Apache Kafka Apache Kafka Streams integration BigData Konzeption Build Systems Continuous Delivery Docker Git Jenkins job configuration Kafka Connect development Kafka ksqlDB development sbt Scala
INFORMATION TECHNOLOGY
8 Monate
2019-07 - 2020-02

Machine Learning Pipeline

Data Engineer Analytisches Denken Apache Airflow Atlassian Bamboo plan configuration ...
Data Engineer
In Produktbereich Medienmessung einer Konsumforschungsfirma wurde ein konfigurierbares und generisches NLP framework zur Kurztextkategorisierung entwickelt. Ein konkreter Anwendungsfall war die Kategorisierung von Suchergebnissen von verschiedenen Suchmaschinen über Machine Learning.
Die Machine Learning Engine beinhaltet ein generischen Mechanismus über
SQL zum Feature Engineering und eine konfigurierbare Modellauswahl mit
Hyperparameterkonfiguration zusammen mit der Konfigurierbarkeit
verschiedener Data Science Transformatoren zur Tokenisierung, Bereinigung
und Vorverarbeitung und konfigurierbarer Validierungsfunktionalität.
Das Machine Learning framework wurde dediziert für die Verwendung von Data
Scientisten entwickelt. Bei der darunter liegenden Ausführungsumgebung handelte es sich um Apache Spark, dadurch wurde die verteilte Ausführung der Machine Learning Algorithmen auf einer Clusterumgebung gewährleistet.

Persönliche Beiträge zum Projekt
  • Pipeline setup mit Spark MLibs and Spark SQL mittels Scala
  • Dateibasierte Konfigurierbarkeit über JSON.
  • Featureengineering und Modelltraining wurde über eine verteilte AWS-EMR-Clusterumgebung ausgeführt und über Apache Airflow orchestriert
  • Featureengineering beinhaltete die Definition von SQL Ausdrücken, welche über den Spark SQL Parser zur partitionierten verteilten Verarbeitung auf dem Cluster übermittelt wurden
  • CI/CD mit der der Definition von Buildplänen und Bereitstellungsplänen über Atlassians Bamboo.
  • SBT als Build tool für die Scalabibliotheksbereitstellung und Kompilierung
Analytisches Denken Apache Airflow Atlassian Bamboo plan configuration AWS Development AWS EMR BigData Konzeption Build Systems Continuous Delivery Git Gradle Build Tool Requirement engineering Scala Scrum Spark Spark ML Spark SQL
MARKTFORSCHUNG
1 Jahr 2 Monate
2018-07 - 2019-08

Generische Datenanreicherungs- und Fusionierungspipeline

Data Engineer Apache Airflow AWS Development BigData Konzeption ...
Data Engineer
Im Produktbereich Mediamessung eines Konsumforschungsunternehmens musste aus Gründen der stetigen Wiederverwendung statistischer Fusionierungs- und Imputationsalgorithmen zur künstlichen Panelerzeugung und- anreicherung eine generische Engine zur Verwendung von Data Scientisten entwickelt werden.
Das beinhaltete generisches Feature Engineering und spezifische firmeneigene
konfigurierbare Fusionierungsmechanismen.

Persönliche Beiträge zum Projekt
  • Generisches Feature Engineering mit SQL über eine Spark SQL-Übersetzung nach Java im Hintergrund mit Dateninput vom Hive Warehouse
  • Fusionsalgorithmus konfigurierbar von den Data Scientisten bereitgestellt und containerbasiert in eine AWS EMR-ECS Data Scientist Pipeline inkludiert und orchestriert über Apache Airflow.
  • CI/CD zur Buildplan- and Bereitstellungsplandefinition über Atlassian Bamboo
Apache Airflow AWS Development BigData Konzeption Build Systems Continuous Delivery Docker Git Gradle Build Tool Jenkins job configuration Requirement engineering Scrum Selbstmanagement Spark SQL Statements UML
MARKTFORSCHUNG
1 Jahr 2 Monate
2017-07 - 2018-08

Apache Pig migration to Apache Spark SQL

Data Engineer Analytisches Denken Apache Airflow Apache Hadoop ...
Data Engineer
In einem Konsumforschungsunternehmen mussten diverse Datenbereitstellungs, -verarbeitungs und -anreicherungs - Pipelines vonR o der Apache Pig nach Apache Spark aus Gründen der Wartbarkeit im Softwareengineering, Portierbarkeit und Performance von On-Premise in die Cloud migriert werden.

Persönliche Beiträge zum Projekt
  • Spark SQL durch die Ablösung von Apache Pig/ R
  • Unit Testing
  • CI/CD for build plan and deployment plan definition over Atlassian Bamboo.
  • Apache Oozie nach Apache Airflow
  • Gradle upgrades
Analytisches Denken Apache Airflow Apache Hadoop Apache Oozie workflow configuration Apache Pig development Atlassian Bamboo plan configuration BigData Konzeption Build Systems Cloudera Dev Continuous Delivery Docker Git Gradle Build Tool Java Spark SQL Statements UML
MARKTFORSCHUNG
8 Monate
2017-01 - 2017-08

Migration lokale Medienmessung Niederlande auf die globale Technologiestandardisierung

Data Engineer Apache Hadoop Apache Oozie workflow configuration Apache Pig development ...
Data Engineer
Eine lokale Zweigstelle zur Medienmessung eines globalen Konsumforschungsunternehmens sollte auf den global standardisierten Technologiestack migriert werden.

Persönliche Beiträge zum Projekt
  • Datenfeedbereitstellung zur Internet-, Radio- und Fernsehmessung
  • Datenmodellgenerierung, Datenaggregationen, -transformationen, - projektionen mit Blacklisting und Whitelisting Mechanismen.
  • Apache Pig, Pig UDFs, Oozie auf einem On-Premise Cloudera-Hadoop Cluster
  • Buildtooling Gradle
  • Pigtests
  • Data ingest über Hive warehouse.
  • CI/CD mit Build und Bereitstellungsplänen über Atlassian Bamboo
Apache Hadoop Apache Oozie workflow configuration Apache Pig development Atlassian Bamboo plan configuration BigData Konzeption Build Systems Cloudera Dev Continuous Delivery Gradle Build Tool Java Kundenorientierung Requirement engineering Selbstmanagement UML
MARKTFORSCHUNG

Aus- und Weiterbildung

Aus- und Weiterbildung

1 Monat
2023-03 - 2023-03

Machine Learning Engineering for Production (MLOps)

Zertifikat,
Zertifikat
2 Jahre 1 Monat
2021-02 - 2023-02

Microsoft Certified Azure IoT Developer Specialty

Zertifikat,
Zertifikat
2 Jahre 1 Monat
2021-01 - 2023-01

Lightbend Inc. Certified Reactive Architect Exam

Zertifikat,
Zertifikat
2 Jahre 9 Monate
2013-10 - 2016-06

Business Informatics

Master,
Master
  • Thesis auf Anfrage
4 Jahre 9 Monate
2008-10 - 2013-06

Business Informatics

Bachelor,
Bachelor
  • Thesis auf Anfrage
2 Jahre 5 Monate
2004-09 - 2007-01

Apprenticeship

Business Informatics (IHK qualification),
Business Informatics (IHK qualification)

Kompetenzen

Kompetenzen

Top-Skills

Programmierung mit Aggregationen Stream Processing Batch Processing Kollaboration mit Data Scientisten

Produkte / Standards / Erfahrungen / Methoden

Profil:

Data Engineer mit zielorientierter und organisierter Arbeitsweise. Starker Fokus auf der Verwendung hochqualitativer, innovativer cutting-edge Technologien. Stetige Berücksichtigung und Integration von Projekt-, Nutzer-, und Unternehmensanforderungen.


Skillset (Programmiersprachen, Systeme, Tools):

  • Ab Initio; Apache Airflow; Apache Hadoop administration; Apache Kafka
  • Apache Kafka Streams integration; Apache Oozie workflow configuration
  • Apache Pig development; Atlassian Bamboo plan configuration, AWS EMR
  • AWS CodePipeline pipeline creation; AWS Development; AWS ECS, AWS IoT Core
  • AWS Lambda; AWS Sagemaker; Azure ARM Templating, Azure Datafactory
  • Azure Dev; Azure SQL; Beratung / Workshop-Leitung; Beratungsleistungen
  • BigData Konzeption; BigQuery; Build Systems; C#; Cloudera Dev; Cloudformation
  • Continuous Delivery; Data Lake Beratungsleistungen; Databricks; TortoiseSVN
  • Distributed Thinking; Docker; Eclipse Plugin Development; Flink; GCP; Git
  • Gradle Build Tool; Java; Jenkins job configuration; Kafka Connect development
  • Kafka ksqlDB development; Kubernetes administration; Maven; MLOps; Python
  • Requirement engineering; sbt; Scala; Scrum; shell; Shell / Bash, SQL Statements
  • Snowflake Spark; Spark ML; Spark SQL; Spark Structured Streaming; ; UML
  • Stream Processing; Terraform scripting;  Cloudera Data Platform Administration
  • Vertrieb / Angebotserstellung; Ververica platform; Vorträge und Präsentationen


Beruflicher Werdegang:

11/2023 - heute  

Rolle: Data Engineer

Kunde: DB Systel


10/2022 - 09/2023 

Rolle: Data Engineer

Kunde: Orange Business (former unbelievable machine company)


03/2021 - 09/2022

Rolle: Data Engineer

Kunde: The unbelievable machine company


08/2020 - 12/2020 

Rolle: Data Engineer

Kunde: Durstexpress 


03/2020 - 07/2020 

Rolle: Data Engineer

Kunde: The unbelievable machine company


07/2016 - 02/2020

Rolle: Data Engineer

Kunde: GfK


10/2014 - 06/2016

Rolle: Software Engineer

Kunde: Fraunhofer FOKUS


10/2010 - 09/2014

Rolle: Software Engineer

Kunde: Fraunhofer FIRST


10/2008 - 09/2010 

Rolle: Data Engineer with MS Access

Kunde: ITDZ Berlin


02/2007 - 09/2008

Rolle: Assistance Product Management IT-integration services

Kunde: ITDZ Berlin 


Semesterpraktika:

09/2015 - 04/2016

Rolle: Data Engineer

Kunde: Plista (HDFS & Cassandra evaluation)


01/2016 - 03/2016

Rolle: Software Engineer

Kunde: Fraunhofer Fokus (Cybersecurity - Testframework)

Einsatzorte

Einsatzorte

Deutschland
möglich

Projekte

Projekte

5 Monate
2023-12 - heute

Datenbereitstellung für eine Analyseplattform

Zur Datenbereitstellung werden täglich Dateien aus einem Objektspeicher in Iceberg Tabellen mittels einer cloudnativen Anwendung überführt.


Beiträge zum Projekt

  • Aufbau einer ETL-Strecke mittels Python Pandas Bibliothek und Orchestrierung über AWS Stepfunctions und Ausführung über Glue-Jobs mit Python Shell und Lambdas und Infrastrukturbereitstellung über CDK
TRANSPORT/LOGISTIK
3 Monate
2023-07 - 2023-09

Microstream Micronaut Applikation

Im Rahmen eines Blueprint-Projektes wurde eine Microservice-Architektur mit Micronaut und Microstream sowie gRPC als Austauschprotokoll als eine lokale Kubernetes-Applikation aufgesetzt.

BLUEPRINT
1 Jahr 1 Monat
2022-07 - 2023-07

Datenbereitstellung für eine Analyseplattform

Senior Data Engineer Azure Dev Beratungsleistungen Engagement & Flexibilität ...
Senior Data Engineer
Zur Datenbereitstellung aus verschiedenen Datenquellen in ein zentralisiertes Data Warehouse mit Snowflake als Analyseplattform für weiterführendes BI-Reporting eines Flugzeugherstellers wird ein Low-Code-ETL-Tool verwendet.

Persönliche Beiträge zum Projekt
  • Dataintegration/Low-Coding mit ETL Tool Ab Initio.
  • Conceptual design zur IoT-Datenbereitstellung
  • Streaming job deployment zur Datenbereitstellung einer Analyseplattform
  • Konzept zur Schemaevolution und DataOps mit partieller Umsetzung
Azure Dev Beratungsleistungen Engagement & Flexibilität Git Jenkins administration Kundenorientierung Qualitätsbewusstsein Shell / Bash Snowflake SQL Statements Stream Processing Terraform scripting
AEROSPACE
1 Jahr 4 Monate
2022-03 - 2023-06

Tool migration data provisioning and curation analytical platform

Senior Data Engineer Analytisches Denken Azure Data Factory Beratungsleistungen ...
Senior Data Engineer
Zur Datenbereitstellung aus verschiedenen Datenquellen für eine Analyseplattform für weiterführendes BI-Reporting eines norwegischen öffentlichen Dienstes wurde das aktuelle Data Warehouse und die damit einhergehenden Datenverarbeitungsstrecken in ein modernes Technologieumfeld migriert.

Persönliche Beiträge zum Projekt
  • ETL-Pipeline Migration von SSIS flows zu Azure Data Factory Dataflows mit unterliegendem Spark cluster
  • Dateneinspeisung und Datenverarbeitung in das bestehende Data Warehouse mit Azure SQL
  • Individuelles lokales Testframework in C#
Analytisches Denken Azure Data Factory Beratungsleistungen Qualitätsbewusstsein SQL Statements C#
PUBLIC ADMINISTRATION
3 Monate
2021-12 - 2022-02

MLOps Blueprint Sagemaker

Senior Data Engineer
Senior Data Engineer

Implementierung einer MLOps deployment pipeline mit AWS Sagemaker zur Bilderkennung als eine Out-of-the-box-solution für die Bereitstellung in verschiedenen Kundenumgebungen 

 Sagemaker pipeline setup für Data Science unter der Verwendung einer

selbst bereit gestellten Modellimplementierung zur Bilderkennung
  • Sagemaker pipelinedefinition unter der Verwendung von Sagemaker Python libraries zur image runtime definition
  • Pipeline setup mit Modellevaluation und Modellregistrierung
  • Modellinference zusammen mit der Modellendpunktbereitstellung
  • IaC zur CI/CD stack-Bereitstellung


Persönliche Beiträge zum Projekt

  • Unterstützung und Funktion als Wissensvermittlung im MLOps-Projekt-setup basierend auf dem vorherigen Kunden-POC
  • Fokus in dem internen POC lag auf der automatisierten out-of-the- Box-Bereitstellung der gesamten MLOps-Projekt-Infrastruktur in Sagemaker
  • CI/CD, event rules, git repositories, endpoint definitions, bucket setup, IAM policy handling, naming conventions wurden über Cloudformation definiert und automatisiert bereitgestellt
  • Ausarbeitung von Dokumentation, Marketingmaterial, Systemdemo
INFORMATION TECHNOLOGY
5 Monate
2021-10 - 2022-02

Evaluation Datenbereitstellung für Analyse Plattform

Senior Data Engineer Beratungsleistungen Engagement & Flexibilität Kubernetes administration ...
Senior Data Engineer
Zur Datenbereitstellung von verschiedenen Datenquellen für die Analyseplattform eines Flugzeugherstellers wurde die Big Data/ Streaming Plattform Ververica für die Dateneinspeisung, -bereinigung und -bereitstellung evaluiert. Ververica ist von den Erfindern von Apache Flink entwickelt. Apache Flink ist einer der Big Player im Big Data / Real-time/Stream Umfeld.

Persönliche Beiträge zum Projekt
  • Setup Kubernetes Infrastruktur
  • Setup Ververica Plattform als eine Kubernetes Application mit Pod Bereitstellung über Helm chart management
  • Streaming job deployment über die Ververica Plattform unter der Verwendung der SQL API über den SQL Editor von Ververica
  • Ververica deployed Flink jobs als Kubernetes Pods
  • Dateneinspeisung und Datenverarbeitung für die Bereitstellung von Slowly Changing Dimensions zur Dimensions- und Faktenbereitstellung mit SQL
Beratungsleistungen Engagement & Flexibilität Kubernetes administration Kundenorientierung SQL Statements Stream Processing Ververica platform
AEROSPACE
8 Monate
2021-03 - 2021-10

Aufbau einer self-service Big Data Plattform

Senior Data Engineer Google Kubernetes Engine Apache Kafka als Message Broker Kafka Streams & Kafka Connect für die Verarbeitung der Kafka Messages ...
Senior Data Engineer
Aufbau einer self-service Big Data Plattform in der Google Cloud Platform. Im Tagesgeschäft des Auftraggebers werden eine Vielzahl
von Daten in unterschiedlichen Systemen generiert und vorgehalten, zudem
existierte eine Data Warehouse Lösung on Premises. Ziel des Projekts war
Daten aus allen Datenquellen in einem zentralen Data Lake zu konsolidieren
und das Data Warehouse abzulösen. Damit sollen die Daten zentral für Nutzer,
Partnerunternehmen sowie für neue Anwendungen verfügbar gemacht werden.
Ein klassischer Data Lake erlaubt das Speichern von Rohdaten ungeachtet des
Datenformats und der Datenqualität. In diesem Projekt wurde diese Philosophie
bewusst zu Gunsten einer hohen Datenqualität und vertrauenswürdigen
Datenlandschaft verworfen. Daher werden neue Daten schon bei der Anlieferung
von eigens entwickelten Microservices (Data-Ingest-Apps) je Datenquelle
geprüft, verarbeitet und im Fehlerfall abgelehnt. Diese Microservices sind in Containern implementiert und werden in der Kubernetes ausgeführt, so dass durch horizontale Skalierung selbst große Datenmengen schnell verarbeitet werden können. Die so angenommenen Daten werden über einen Message Broker verteilt und asynchron mittels diverser weiterer Microservices weiterverarbeitet und letztendlich gespeichert.


Ziele

  • Aufbau eines Data Lakes bzw. Datawarehouse für heterogene strukturierte und unstrukturierte Datenquellen
  • Verwendung moderner Big Data Technologien
  • Anwendung der Public Cloud (Google Cloud Platform)
  • Hochgradige Skalierbarkeit
  • Gewährleistung hoher Datenqualität
  • Eliminieren von Datensilos im Unternehmen
  • Self-Service Funktionen für erhöhte Akzeptanz und Effizienz


Fakten

  • Datenvolumen:150 TB Daten
  • Datenquellen: 5000+ Topics, 500+ channels
  • Datenverarbeitung: 23MB/s eingehend; ~30 MB/s ausgehend

Persönliche Beiträge zum Projekt
  • Entwicklung, Unterstützung und Beratung zum architektonischen Design einer Kafka Streams Applikation über die SQL Abstraktionsschicht ksqlDB.
  • Deployment als eine Kubernetesapplikation
  • Aggregationen und Transformationen über den Kafka Tabellenmechanismus in Echtzeit
Google Kubernetes Engine Apache Kafka als Message Broker Kafka Streams & Kafka Connect für die Verarbeitung der Kafka Messages Java für die Implementierung von individuellen Microservices für die Datenverarbeitung Qlik Attunity für die Anbindung von SAP Google Big Query als Data Warehouse MongoDB als Datenspeicher Infrastructure Automatisierung via Terraform Apache Kafka Streams integration BigData Konzeption BigQuery Build Systems GCP Jenkins job configuration Kafka Connect development Kafka ksqlDB development Kubernetes administration sbt Scala Shell / Bash Stream Processing
CONSUMER PRODUCTS
1 Monat
2021-05 - 2021-05

Unterstützung eines Basefarm Team

Senior System Engineer AWS CodePipeline AWS Development AWS Sagemaker ...
Senior System Engineer
Die Unterstützung beinhaltete die Implementierung einer ML Ops Deployment Pipeline mit AWS Sagemaker für deren NLP Anwendungsfall.

Persönliche Beiträge zum Projekt
  • Aufsetzen einer gesamten templatebasierten Sagemaker pipeline unter der Verwendung einer angepassten ML Bibliothek zur Ausführung einer Kurztextkategorisierung mit CPU und GPU Verarbeitung.
  • Pythonimplementierung für das Modelltraining unter der Verwendung des Spacy/Textcat Algorithmus zur Klassifikation mittels der Bereitstellung der darunter liegenden Ausführungsumgebung über ein Pytorch/PythonImage
  • Pipelineimplementierung zur Modellevaluation und Modellregistrierung
  • Pipelineimplementierung zur Modellableitung und -bereitstellung in Echtzeit
  • Die Pipelinedefinition besteht aus einer CI/CD-Bereitstellung mit AWS Codepipeline bereitgestellt über Cloudformation
AWS CodePipeline AWS Development AWS Sagemaker Cloudformation MLOps Python
INFORMATION TECHNOLOGY
4 Monate
2020-09 - 2020-12

RestApi Ingest low code

Senior Data Engineer Analytisches Denken Azure ARM Templating Azure Datafactory ...
Senior Data Engineer
Zahlungen von Kunden für einen Getränkelieferanten bereitgestellt über eine RestAPI mussten in einen Data Lake eingespeist werden für weitere Berichterstellung, Analyse und Vergleich zu internen SAP-Systemen.

Persönliche Beiträge zum Projekt
  • RestApi Einspeisung
  • Konfigurierbares Aufsetzen einer Datenbereitstellungspipeline für Zahlungsdaten
  • Low code tooling Verwendung
  • Tooling: Azure Data Factory, Azure ARM deployment
Analytisches Denken Azure ARM Templating Azure Datafactory Azure Dev Jenkins job configuration Requirement engineering SQL Statements Persönliche Beiträge zum Projekt
FOOD & BEVERAGE
5 Monate
2020-08 - 2020-12

Datalake Bereitstellung

Senior Data Engineer Azure ARM Templating Azure Datafactory Azure Dev ...
Senior Data Engineer
Data Lake Bereitstellung für einen Getränkelieferanten zur Kombination verschiedener Datenquellen von verschiedenen Abteilungen in eine zentrale Datenbereitstellungsschicht für darauf aufbauendes Echtzeit-BI-Reporting.

Persönliche Beiträge zum Projekt
  • Azure Eventhub als Datenquelleneinspeisung in den Data Lake
  • Generisches Aufsetzen einer Pipeline zur Echtzeitverarbeitung und Datenbereitstellung in Echtzeit
  • Entwicklung einer konfigurierbaren ETL streaming Applikation zur Kombination verschiedener eventbasierter Datenquellen, welches über den Eventhub von Azure bereitgestellt wurden
  • Streaming framework ist konfigurierbar über Yaml-Dateien bereitgestellt, welche in spezieller Versionskontrolle integriert wurden
  • Bei Änderung der entsprechenden Konfiguration wurde eine neue Joausführung über ein Databricks cluster gestartet
  • Infrastrukturbereitstellung über ARM templates
  • Job orchestration und Scheduling über Azure Datafactory
  • Tooling: Spark Structured Streaming, Jenkins, Databricks, Azure Datafactory, Azure Eventhub, Azure Blob Storage Gen2, Azure ARM
Azure ARM Templating Azure Datafactory Azure Dev BigData Konzeption Build Systems Continuous Delivery Data Lake Beratungsleistungen Docker Englisch Git Jenkins job configuration Requirement engineering sbt Scala Shell / Bash Spark Spark Structured Streaming SQL Statements UML
FOOD & BEVERAGE
1 Jahr
2020-01 - 2020-12

Cloud Native Applications SIG

Data Engineer Apache Kafka Apache Kafka Streams integration BigData Konzeption ...
Data Engineer
Entwicklung einer Blueprint Lösung eines Data Lakes basierend auf OpenShift und Cutting Edge Data Engineering.

Persönliche Beiträge zum Projekt
  • Entwicklung eines Kafka Streams real-time Datenfeed Microservice with Scala DSL
  • Bereitgestellt als ein Openshift/Kubernetes Deployment
  • Spezifische Echtzeitaggregationen mittels der Verwnedung von Kafka Tabellen und der Kafka Streams topology.
  • Entwicklung und Bereitstellung einer Kafka-Connect-Applikation als ein Openshift/Kubernetes deployment
  • Bereitstellung der gesamten Apache Kafkaarchitektur inkl, Zookeeper, Schemaregistry, Broker, Kafka-Connect, Control-center über eine spezielle Deploymentpipeline inkl. Containerisierung mit Jenkins und SBT
Apache Kafka Apache Kafka Streams integration BigData Konzeption Build Systems Continuous Delivery Docker Git Jenkins job configuration Kafka Connect development Kafka ksqlDB development sbt Scala
INFORMATION TECHNOLOGY
8 Monate
2019-07 - 2020-02

Machine Learning Pipeline

Data Engineer Analytisches Denken Apache Airflow Atlassian Bamboo plan configuration ...
Data Engineer
In Produktbereich Medienmessung einer Konsumforschungsfirma wurde ein konfigurierbares und generisches NLP framework zur Kurztextkategorisierung entwickelt. Ein konkreter Anwendungsfall war die Kategorisierung von Suchergebnissen von verschiedenen Suchmaschinen über Machine Learning.
Die Machine Learning Engine beinhaltet ein generischen Mechanismus über
SQL zum Feature Engineering und eine konfigurierbare Modellauswahl mit
Hyperparameterkonfiguration zusammen mit der Konfigurierbarkeit
verschiedener Data Science Transformatoren zur Tokenisierung, Bereinigung
und Vorverarbeitung und konfigurierbarer Validierungsfunktionalität.
Das Machine Learning framework wurde dediziert für die Verwendung von Data
Scientisten entwickelt. Bei der darunter liegenden Ausführungsumgebung handelte es sich um Apache Spark, dadurch wurde die verteilte Ausführung der Machine Learning Algorithmen auf einer Clusterumgebung gewährleistet.

Persönliche Beiträge zum Projekt
  • Pipeline setup mit Spark MLibs and Spark SQL mittels Scala
  • Dateibasierte Konfigurierbarkeit über JSON.
  • Featureengineering und Modelltraining wurde über eine verteilte AWS-EMR-Clusterumgebung ausgeführt und über Apache Airflow orchestriert
  • Featureengineering beinhaltete die Definition von SQL Ausdrücken, welche über den Spark SQL Parser zur partitionierten verteilten Verarbeitung auf dem Cluster übermittelt wurden
  • CI/CD mit der der Definition von Buildplänen und Bereitstellungsplänen über Atlassians Bamboo.
  • SBT als Build tool für die Scalabibliotheksbereitstellung und Kompilierung
Analytisches Denken Apache Airflow Atlassian Bamboo plan configuration AWS Development AWS EMR BigData Konzeption Build Systems Continuous Delivery Git Gradle Build Tool Requirement engineering Scala Scrum Spark Spark ML Spark SQL
MARKTFORSCHUNG
1 Jahr 2 Monate
2018-07 - 2019-08

Generische Datenanreicherungs- und Fusionierungspipeline

Data Engineer Apache Airflow AWS Development BigData Konzeption ...
Data Engineer
Im Produktbereich Mediamessung eines Konsumforschungsunternehmens musste aus Gründen der stetigen Wiederverwendung statistischer Fusionierungs- und Imputationsalgorithmen zur künstlichen Panelerzeugung und- anreicherung eine generische Engine zur Verwendung von Data Scientisten entwickelt werden.
Das beinhaltete generisches Feature Engineering und spezifische firmeneigene
konfigurierbare Fusionierungsmechanismen.

Persönliche Beiträge zum Projekt
  • Generisches Feature Engineering mit SQL über eine Spark SQL-Übersetzung nach Java im Hintergrund mit Dateninput vom Hive Warehouse
  • Fusionsalgorithmus konfigurierbar von den Data Scientisten bereitgestellt und containerbasiert in eine AWS EMR-ECS Data Scientist Pipeline inkludiert und orchestriert über Apache Airflow.
  • CI/CD zur Buildplan- and Bereitstellungsplandefinition über Atlassian Bamboo
Apache Airflow AWS Development BigData Konzeption Build Systems Continuous Delivery Docker Git Gradle Build Tool Jenkins job configuration Requirement engineering Scrum Selbstmanagement Spark SQL Statements UML
MARKTFORSCHUNG
1 Jahr 2 Monate
2017-07 - 2018-08

Apache Pig migration to Apache Spark SQL

Data Engineer Analytisches Denken Apache Airflow Apache Hadoop ...
Data Engineer
In einem Konsumforschungsunternehmen mussten diverse Datenbereitstellungs, -verarbeitungs und -anreicherungs - Pipelines vonR o der Apache Pig nach Apache Spark aus Gründen der Wartbarkeit im Softwareengineering, Portierbarkeit und Performance von On-Premise in die Cloud migriert werden.

Persönliche Beiträge zum Projekt
  • Spark SQL durch die Ablösung von Apache Pig/ R
  • Unit Testing
  • CI/CD for build plan and deployment plan definition over Atlassian Bamboo.
  • Apache Oozie nach Apache Airflow
  • Gradle upgrades
Analytisches Denken Apache Airflow Apache Hadoop Apache Oozie workflow configuration Apache Pig development Atlassian Bamboo plan configuration BigData Konzeption Build Systems Cloudera Dev Continuous Delivery Docker Git Gradle Build Tool Java Spark SQL Statements UML
MARKTFORSCHUNG
8 Monate
2017-01 - 2017-08

Migration lokale Medienmessung Niederlande auf die globale Technologiestandardisierung

Data Engineer Apache Hadoop Apache Oozie workflow configuration Apache Pig development ...
Data Engineer
Eine lokale Zweigstelle zur Medienmessung eines globalen Konsumforschungsunternehmens sollte auf den global standardisierten Technologiestack migriert werden.

Persönliche Beiträge zum Projekt
  • Datenfeedbereitstellung zur Internet-, Radio- und Fernsehmessung
  • Datenmodellgenerierung, Datenaggregationen, -transformationen, - projektionen mit Blacklisting und Whitelisting Mechanismen.
  • Apache Pig, Pig UDFs, Oozie auf einem On-Premise Cloudera-Hadoop Cluster
  • Buildtooling Gradle
  • Pigtests
  • Data ingest über Hive warehouse.
  • CI/CD mit Build und Bereitstellungsplänen über Atlassian Bamboo
Apache Hadoop Apache Oozie workflow configuration Apache Pig development Atlassian Bamboo plan configuration BigData Konzeption Build Systems Cloudera Dev Continuous Delivery Gradle Build Tool Java Kundenorientierung Requirement engineering Selbstmanagement UML
MARKTFORSCHUNG

Aus- und Weiterbildung

Aus- und Weiterbildung

1 Monat
2023-03 - 2023-03

Machine Learning Engineering for Production (MLOps)

Zertifikat,
Zertifikat
2 Jahre 1 Monat
2021-02 - 2023-02

Microsoft Certified Azure IoT Developer Specialty

Zertifikat,
Zertifikat
2 Jahre 1 Monat
2021-01 - 2023-01

Lightbend Inc. Certified Reactive Architect Exam

Zertifikat,
Zertifikat
2 Jahre 9 Monate
2013-10 - 2016-06

Business Informatics

Master,
Master
  • Thesis auf Anfrage
4 Jahre 9 Monate
2008-10 - 2013-06

Business Informatics

Bachelor,
Bachelor
  • Thesis auf Anfrage
2 Jahre 5 Monate
2004-09 - 2007-01

Apprenticeship

Business Informatics (IHK qualification),
Business Informatics (IHK qualification)

Kompetenzen

Kompetenzen

Top-Skills

Programmierung mit Aggregationen Stream Processing Batch Processing Kollaboration mit Data Scientisten

Produkte / Standards / Erfahrungen / Methoden

Profil:

Data Engineer mit zielorientierter und organisierter Arbeitsweise. Starker Fokus auf der Verwendung hochqualitativer, innovativer cutting-edge Technologien. Stetige Berücksichtigung und Integration von Projekt-, Nutzer-, und Unternehmensanforderungen.


Skillset (Programmiersprachen, Systeme, Tools):

  • Ab Initio; Apache Airflow; Apache Hadoop administration; Apache Kafka
  • Apache Kafka Streams integration; Apache Oozie workflow configuration
  • Apache Pig development; Atlassian Bamboo plan configuration, AWS EMR
  • AWS CodePipeline pipeline creation; AWS Development; AWS ECS, AWS IoT Core
  • AWS Lambda; AWS Sagemaker; Azure ARM Templating, Azure Datafactory
  • Azure Dev; Azure SQL; Beratung / Workshop-Leitung; Beratungsleistungen
  • BigData Konzeption; BigQuery; Build Systems; C#; Cloudera Dev; Cloudformation
  • Continuous Delivery; Data Lake Beratungsleistungen; Databricks; TortoiseSVN
  • Distributed Thinking; Docker; Eclipse Plugin Development; Flink; GCP; Git
  • Gradle Build Tool; Java; Jenkins job configuration; Kafka Connect development
  • Kafka ksqlDB development; Kubernetes administration; Maven; MLOps; Python
  • Requirement engineering; sbt; Scala; Scrum; shell; Shell / Bash, SQL Statements
  • Snowflake Spark; Spark ML; Spark SQL; Spark Structured Streaming; ; UML
  • Stream Processing; Terraform scripting;  Cloudera Data Platform Administration
  • Vertrieb / Angebotserstellung; Ververica platform; Vorträge und Präsentationen


Beruflicher Werdegang:

11/2023 - heute  

Rolle: Data Engineer

Kunde: DB Systel


10/2022 - 09/2023 

Rolle: Data Engineer

Kunde: Orange Business (former unbelievable machine company)


03/2021 - 09/2022

Rolle: Data Engineer

Kunde: The unbelievable machine company


08/2020 - 12/2020 

Rolle: Data Engineer

Kunde: Durstexpress 


03/2020 - 07/2020 

Rolle: Data Engineer

Kunde: The unbelievable machine company


07/2016 - 02/2020

Rolle: Data Engineer

Kunde: GfK


10/2014 - 06/2016

Rolle: Software Engineer

Kunde: Fraunhofer FOKUS


10/2010 - 09/2014

Rolle: Software Engineer

Kunde: Fraunhofer FIRST


10/2008 - 09/2010 

Rolle: Data Engineer with MS Access

Kunde: ITDZ Berlin


02/2007 - 09/2008

Rolle: Assistance Product Management IT-integration services

Kunde: ITDZ Berlin 


Semesterpraktika:

09/2015 - 04/2016

Rolle: Data Engineer

Kunde: Plista (HDFS & Cassandra evaluation)


01/2016 - 03/2016

Rolle: Software Engineer

Kunde: Fraunhofer Fokus (Cybersecurity - Testframework)

Vertrauen Sie auf GULP

Im Bereich Freelancing
Im Bereich Arbeitnehmerüberlassung / Personalvermittlung

Fragen?

Rufen Sie uns an +49 89 500316-300 oder schreiben Sie uns:

Das GULP Freelancer-Portal

Direktester geht's nicht! Ganz einfach Freelancer finden und direkt Kontakt aufnehmen.