Data Engineer mit acht Jahren Projekterfahrung (Data / Kafka, Cloud, Python / Kotlin / Java)
Aktualisiert am 01.04.2026
Profil
Freiberufler / Selbstständiger
Remote-Arbeit
Verfügbar ab: 30.06.2026
Verfügbar zu: 100%
davon vor Ort: 25%
Data Engineering
Kafka
Datenbanken
ETL
CI/CD
Airflow
Spark Streaming
Kafka Streams
AWS
Kubernetes
Docker
Gitlab
Git
Java
Python
Kotlin
SQL
NoSQL
Apache Spark
Vertex AI
LLM
dbt
PostgreSQL
Deutsch
Muttersprache
English
Verhandlungssicher
Französisch
Fortgeschritten

Einsatzorte

Einsatzorte

Deutschland, Schweiz, Österreich
möglich

Projekte

Projekte

2 Jahre 6 Monate
2023-10 - heute

Entwicklung und Architektur von Datenplattform (Kafka, GCP) und Document AI Integration

Data Lead und Engineer Kotlin Python dbt ...
Data Lead und Engineer

Für ein Logistikunternehmen wird eine flexible und skalierbare Datenplattform auf Basis von Kafka und GCP für die Anbindung und Integration einer heterogenen Datenlandschaft entwickelt. Die Daten werden mittels Kotlin-Microservices aus verschiedenen Quellen (File-Transfer via Google Cloud Storage, SFTP, Webhooks, REST-API) ausgelesen, geparst und nach Kafka geschrieben. Die Integration in Zielsysteme wie z.B. GCP AlloyDb erfolgt über Kafka Connect und JDBC. Mittels DBT werden die Verknüpfung der Datenquellen sowie Transformationen nach den Business-Regeln der Stakeholder umgesetzt. Zusätzlich wurden Konzepte zu Archivierung und Daten-Replay entworfen, um eine zuverlässige Datenlieferung zu gewährleisten. Ein weiterer wichtiger Bestandteil ist die Sicherung der Datenqualität mittels Monitoring und automatisierter Korrektur-Mechansimen. Schließlich werden umfangreiche Datenpipelines im Document Management und Intelligence entwickelt. Dokumente aus verschiedenen Quellen werden integriert, klassifiziert und zusammengeführt. In einem separaten Schritt erfolgt die automatisierte Daten-Extrahierung mittels DocumentAI sowie LLMs, um neue Informationen nutzbar zu machen und eine automatische Zuordnung der Dokumente mit anderen Unternehmensdaten zu ermöglichen. 

Kotlin Python dbt GCP Cloud Storage AlloyDB PostgreSQL Kubernetes Terraform CI/CD Datenqualität Metabase Akka Pekko Kafka Connect Kafka Kafka Streams EDI ASN X12 DocumentAI Vertex AI LLM GenAI Gemini
Logistik-Branche
6 Monate
2023-04 - 2023-09

Automatisierung des Monitoring und Alerting für ETL Pipelines

Data Engineer Openshift Grafana Prometheus ...
Data Engineer

Im Zuge der Produktivsetzung einer firmenweiten Datenplattform wurde das Monitoring und Alerting automatisiert. Dies beinhaltet das Setup einer Dashboards-As-Code Infrastruktur, in der sa?mtliche Dashboards und Alerts als Jsonnet-Code definiert und u?ber Git versioniert werden. Sa?mtliche Funktionen ko?nnen automatisiert auf alle Grafana Instanzen ausgerollt werden, wodurch fehleranfa?llige und zeitraubende manuelle Anpassungen u?ber das User Interface entfallen. Zusa?tzlich wurden Metriken fu?r die U?berwachung der ETL-Pipelines implementiert.

  • Grafana
  • Prometheus
  • Java
  • OpenShift
  • Grafonnet / Jsonnet fu?r die Dashboard Definition

Grafana Prometheus
Openshift Grafana Prometheus Java Grafonnet Jsonnet
Versicherung
6 Monate
2023-01 - 2023-06

Real-time Datenintegration mit Kafka / Versicherungswesen

Data Engineer Kafka Kafka Streams Kafka Connect ...
Data Engineer

Daten verschiedener Quellsysteme werden von Java / Kafka Streams Microservices gelesen, angereichert und fu?r die Anforderungen der Zielsysteme angepasst. Die Daten werden mittels Kafka Connect in die Zielsysteme geladen, beispielsweise u?ber JDBC Konnektoren.

  • Apache Kafka (Kafka Streams, Kafka Connect)

  • Java, Quarkus

  • Red Hat OpenShift

  • Splunk, SignalFX 

Kafka OpenShift Splunk SignalFX Prometheus Confluent Oracle MS SQL Server
Kafka Kafka Streams Kafka Connect Quarkus Prometheus Confluent Oracle MS SQL Server SQL Splunk Testautomatisierung
Versicherung
1 Jahr 10 Monate
2021-02 - 2022-11

Stream Processing und Integration für Marketing Automation

Python Kotlin Kafka ...

Kundendaten (Vertragsdaten, Bewegungsdaten) wurden als Stream von mehreren Quellsystemen konsumiert und in ein externes Marketing Tool integriert. Nutzerpräferenzen wurden in Echtzeit berechnet, und erlauben dem CRM Team so die präzise Kundensegmentierung und personalisierte Kommunikation.

  • Apache Kafka (Kafka Streams)
  • Migration von legacy AWS Kinesis System
  • Apache Spark (DStreams API, Structured Streaming)
  • Kubernetes, kustomize
  • CI/CD (Gitlab CI)
Kafka Kinesis Kubernetes
Python Kotlin Kafka Kafka Streams Kinesis CICD Kubernetes Terraform
10 Monate
2020-05 - 2021-02

ETL / Datenintegration für Reporting

Python Airflow Kubernetes ...

Kundendaten wurden aus mehreren Quellsystem mittels zuverlässiger ETL Pipelines integriert, in einem Data Lake gespeichert und aufbereitet und für firmeninterne Abteilungen bereitgestellt, um Reporting und Kunden-Analysen zu ermöglichen. 


  • Umfassende Konzepte für DSGVO / GDPR (Löschung, Beauskunftung)
  • Kubernetes / spark-on-k8s, kustomize
  • Airflow für workload scheduling
  • AWS cloud (S3, RDS), terraform
  • Pyspark
  • CI/CD (Gitlab CI)
Sparkasse Kubernetes AWS
Python Airflow Kubernetes kustomize terraform AWS S3 Amazon RDS Pyspark Apache Spark Gitlab
6 Monate
2019-11 - 2020-04

Real-Time Integration von Finanz-Transaktionsdaten

Java Scala Kafka ...

Finanz-Transaktionsdaten wurden mit Apache Kafka integriert: Die Daten wurden als Events von Quellsystemen verarbeitet, beispielsweise als CDC Messages von relationalen Datenbanken). Mittels Kafka Streams Applikationen werden die Daten verarbeitet und in Zielsysteme geschrieben. Automatisierte Integration Tests überprüfen die Daten direkt in den Zielsystemen.

Kafka
Java Scala Kafka Kafka Streams CDC RDBMS
1 Jahr 7 Monate
2018-05 - 2019-11

Analytics Plattform

Eine firmeninterne Datenanalyse Plattform wurde betrieben, um Teams die Entwicklung und den Betrieb von Analytischen Datenprodukten zu ermöglichen. Die Plattform stellt eine Abstraktionsschicht für verschiedene Big Data Technologien bereit auf Basis der Hortonworks Data Platform (Hadoop, YARN, Spark, Hive, Oozie). 
  • Architektur der Plattform, beispielsweise Data Lake Struktur, Security Konzepte, Self Service Konzepte
  • Entwicklung von Python tools für den standardisierten Zugang zu HDP Hadoop Ressourcen ( (Hadoop, Hive, Spark, Oozie, Ranger)
  • CI/CD mit Jenkins, SonarQube, Artifactory
  • Architektur und Entwicklung  von Logging Architektur auf Basis von Kafka und Splunk


10 Monate
2018-09 - 2019-06

Absatzprognose-Tool mit Machine Learning

Python Keras Jenkins ...

Eine Machine Learning Applikation wurde entwickelt, die Absatzprognosen in Abhängigkeit zu Preisnachlässen erstellt, um die Preisnachlässe zu definieren, die den Umsatz maxisimiert. Die Vorhersage wurde mit Machine Learning Libraries (Tensorflow, Keras) und historischen Verkaufsdaten umgesetzt. Die Applikation wurde in weitere unternehmensinterne Systeme integriert.

  • Consulting für interne Mitarbeiter zu Software Engineering best practices (CI/CD, Testing, Code Analyse, Deployment Automatisierung, Development Workflows)
  • Apache Spark, Hive, Oozie
  • Keras, Python, Conda, IntelliJ, Git
  • Jenkins, SonarQube, Artifactory
Python Keras Jenkins SonarQube Apache Spark Hive Oozie

Aus- und Weiterbildung

Aus- und Weiterbildung

3 Jahre
2014-10 - 2017-09

Computer Science

MSc, TU Berlin
MSc
TU Berlin

Verteilte Systeme, Datenbanken, Software Engineering

4 Jahre
2010-10 - 2014-09

Informatik Studium

BSc, Karlsruher Institut für Technologie (KIT)
BSc
Karlsruher Institut für Technologie (KIT)
4 Jahre
2010-10 - 2014-09

Computer Science (Auslandsjahr)

Imperial College London
Imperial College London

Kompetenzen

Kompetenzen

Top-Skills

Data Engineering Kafka Datenbanken ETL CI/CD Airflow Spark Streaming Kafka Streams AWS Kubernetes Docker Gitlab Git Java Python Kotlin SQL NoSQL Apache Spark Vertex AI LLM dbt PostgreSQL

Programmiersprachen

Python
Java
Scala
Kotlin

Einsatzorte

Einsatzorte

Deutschland, Schweiz, Österreich
möglich

Projekte

Projekte

2 Jahre 6 Monate
2023-10 - heute

Entwicklung und Architektur von Datenplattform (Kafka, GCP) und Document AI Integration

Data Lead und Engineer Kotlin Python dbt ...
Data Lead und Engineer

Für ein Logistikunternehmen wird eine flexible und skalierbare Datenplattform auf Basis von Kafka und GCP für die Anbindung und Integration einer heterogenen Datenlandschaft entwickelt. Die Daten werden mittels Kotlin-Microservices aus verschiedenen Quellen (File-Transfer via Google Cloud Storage, SFTP, Webhooks, REST-API) ausgelesen, geparst und nach Kafka geschrieben. Die Integration in Zielsysteme wie z.B. GCP AlloyDb erfolgt über Kafka Connect und JDBC. Mittels DBT werden die Verknüpfung der Datenquellen sowie Transformationen nach den Business-Regeln der Stakeholder umgesetzt. Zusätzlich wurden Konzepte zu Archivierung und Daten-Replay entworfen, um eine zuverlässige Datenlieferung zu gewährleisten. Ein weiterer wichtiger Bestandteil ist die Sicherung der Datenqualität mittels Monitoring und automatisierter Korrektur-Mechansimen. Schließlich werden umfangreiche Datenpipelines im Document Management und Intelligence entwickelt. Dokumente aus verschiedenen Quellen werden integriert, klassifiziert und zusammengeführt. In einem separaten Schritt erfolgt die automatisierte Daten-Extrahierung mittels DocumentAI sowie LLMs, um neue Informationen nutzbar zu machen und eine automatische Zuordnung der Dokumente mit anderen Unternehmensdaten zu ermöglichen. 

Kotlin Python dbt GCP Cloud Storage AlloyDB PostgreSQL Kubernetes Terraform CI/CD Datenqualität Metabase Akka Pekko Kafka Connect Kafka Kafka Streams EDI ASN X12 DocumentAI Vertex AI LLM GenAI Gemini
Logistik-Branche
6 Monate
2023-04 - 2023-09

Automatisierung des Monitoring und Alerting für ETL Pipelines

Data Engineer Openshift Grafana Prometheus ...
Data Engineer

Im Zuge der Produktivsetzung einer firmenweiten Datenplattform wurde das Monitoring und Alerting automatisiert. Dies beinhaltet das Setup einer Dashboards-As-Code Infrastruktur, in der sa?mtliche Dashboards und Alerts als Jsonnet-Code definiert und u?ber Git versioniert werden. Sa?mtliche Funktionen ko?nnen automatisiert auf alle Grafana Instanzen ausgerollt werden, wodurch fehleranfa?llige und zeitraubende manuelle Anpassungen u?ber das User Interface entfallen. Zusa?tzlich wurden Metriken fu?r die U?berwachung der ETL-Pipelines implementiert.

  • Grafana
  • Prometheus
  • Java
  • OpenShift
  • Grafonnet / Jsonnet fu?r die Dashboard Definition

Grafana Prometheus
Openshift Grafana Prometheus Java Grafonnet Jsonnet
Versicherung
6 Monate
2023-01 - 2023-06

Real-time Datenintegration mit Kafka / Versicherungswesen

Data Engineer Kafka Kafka Streams Kafka Connect ...
Data Engineer

Daten verschiedener Quellsysteme werden von Java / Kafka Streams Microservices gelesen, angereichert und fu?r die Anforderungen der Zielsysteme angepasst. Die Daten werden mittels Kafka Connect in die Zielsysteme geladen, beispielsweise u?ber JDBC Konnektoren.

  • Apache Kafka (Kafka Streams, Kafka Connect)

  • Java, Quarkus

  • Red Hat OpenShift

  • Splunk, SignalFX 

Kafka OpenShift Splunk SignalFX Prometheus Confluent Oracle MS SQL Server
Kafka Kafka Streams Kafka Connect Quarkus Prometheus Confluent Oracle MS SQL Server SQL Splunk Testautomatisierung
Versicherung
1 Jahr 10 Monate
2021-02 - 2022-11

Stream Processing und Integration für Marketing Automation

Python Kotlin Kafka ...

Kundendaten (Vertragsdaten, Bewegungsdaten) wurden als Stream von mehreren Quellsystemen konsumiert und in ein externes Marketing Tool integriert. Nutzerpräferenzen wurden in Echtzeit berechnet, und erlauben dem CRM Team so die präzise Kundensegmentierung und personalisierte Kommunikation.

  • Apache Kafka (Kafka Streams)
  • Migration von legacy AWS Kinesis System
  • Apache Spark (DStreams API, Structured Streaming)
  • Kubernetes, kustomize
  • CI/CD (Gitlab CI)
Kafka Kinesis Kubernetes
Python Kotlin Kafka Kafka Streams Kinesis CICD Kubernetes Terraform
10 Monate
2020-05 - 2021-02

ETL / Datenintegration für Reporting

Python Airflow Kubernetes ...

Kundendaten wurden aus mehreren Quellsystem mittels zuverlässiger ETL Pipelines integriert, in einem Data Lake gespeichert und aufbereitet und für firmeninterne Abteilungen bereitgestellt, um Reporting und Kunden-Analysen zu ermöglichen. 


  • Umfassende Konzepte für DSGVO / GDPR (Löschung, Beauskunftung)
  • Kubernetes / spark-on-k8s, kustomize
  • Airflow für workload scheduling
  • AWS cloud (S3, RDS), terraform
  • Pyspark
  • CI/CD (Gitlab CI)
Sparkasse Kubernetes AWS
Python Airflow Kubernetes kustomize terraform AWS S3 Amazon RDS Pyspark Apache Spark Gitlab
6 Monate
2019-11 - 2020-04

Real-Time Integration von Finanz-Transaktionsdaten

Java Scala Kafka ...

Finanz-Transaktionsdaten wurden mit Apache Kafka integriert: Die Daten wurden als Events von Quellsystemen verarbeitet, beispielsweise als CDC Messages von relationalen Datenbanken). Mittels Kafka Streams Applikationen werden die Daten verarbeitet und in Zielsysteme geschrieben. Automatisierte Integration Tests überprüfen die Daten direkt in den Zielsystemen.

Kafka
Java Scala Kafka Kafka Streams CDC RDBMS
1 Jahr 7 Monate
2018-05 - 2019-11

Analytics Plattform

Eine firmeninterne Datenanalyse Plattform wurde betrieben, um Teams die Entwicklung und den Betrieb von Analytischen Datenprodukten zu ermöglichen. Die Plattform stellt eine Abstraktionsschicht für verschiedene Big Data Technologien bereit auf Basis der Hortonworks Data Platform (Hadoop, YARN, Spark, Hive, Oozie). 
  • Architektur der Plattform, beispielsweise Data Lake Struktur, Security Konzepte, Self Service Konzepte
  • Entwicklung von Python tools für den standardisierten Zugang zu HDP Hadoop Ressourcen ( (Hadoop, Hive, Spark, Oozie, Ranger)
  • CI/CD mit Jenkins, SonarQube, Artifactory
  • Architektur und Entwicklung  von Logging Architektur auf Basis von Kafka und Splunk


10 Monate
2018-09 - 2019-06

Absatzprognose-Tool mit Machine Learning

Python Keras Jenkins ...

Eine Machine Learning Applikation wurde entwickelt, die Absatzprognosen in Abhängigkeit zu Preisnachlässen erstellt, um die Preisnachlässe zu definieren, die den Umsatz maxisimiert. Die Vorhersage wurde mit Machine Learning Libraries (Tensorflow, Keras) und historischen Verkaufsdaten umgesetzt. Die Applikation wurde in weitere unternehmensinterne Systeme integriert.

  • Consulting für interne Mitarbeiter zu Software Engineering best practices (CI/CD, Testing, Code Analyse, Deployment Automatisierung, Development Workflows)
  • Apache Spark, Hive, Oozie
  • Keras, Python, Conda, IntelliJ, Git
  • Jenkins, SonarQube, Artifactory
Python Keras Jenkins SonarQube Apache Spark Hive Oozie

Aus- und Weiterbildung

Aus- und Weiterbildung

3 Jahre
2014-10 - 2017-09

Computer Science

MSc, TU Berlin
MSc
TU Berlin

Verteilte Systeme, Datenbanken, Software Engineering

4 Jahre
2010-10 - 2014-09

Informatik Studium

BSc, Karlsruher Institut für Technologie (KIT)
BSc
Karlsruher Institut für Technologie (KIT)
4 Jahre
2010-10 - 2014-09

Computer Science (Auslandsjahr)

Imperial College London
Imperial College London

Kompetenzen

Kompetenzen

Top-Skills

Data Engineering Kafka Datenbanken ETL CI/CD Airflow Spark Streaming Kafka Streams AWS Kubernetes Docker Gitlab Git Java Python Kotlin SQL NoSQL Apache Spark Vertex AI LLM dbt PostgreSQL

Programmiersprachen

Python
Java
Scala
Kotlin

Vertrauen Sie auf Randstad

Im Bereich Freelancing
Im Bereich Arbeitnehmerüberlassung / Personalvermittlung

Fragen?

Rufen Sie uns an +49 89 500316-300 oder schreiben Sie uns:

Das Freelancer-Portal

Direktester geht's nicht! Ganz einfach Freelancer finden und direkt Kontakt aufnehmen.