As an experienced Senior Data Engineer with a Master of Science in Business Informatics and over 9 years of proven experience in various industries an
Aktualisiert am 07.08.2024
Profil
Freiberufler / Selbstständiger
Remote-Arbeit
Verfügbar ab: 07.08.2024
Verfügbar zu: 100%
davon vor Ort: 100%
Databricks
SQL
Python
AWS
Azure
Terraform
SAP HANA
Data Engineer
Englisch
Akademische Kenntnisse: C2
Deutsch
Muttersprache

Einsatzorte

Einsatzorte

Deutschland, Schweiz, Österreich
möglich

Projekte

Projekte

3 years 6 months
2021-01 - 2024-06

Aufbau eines Cloud Data Lakehouse auf Databricks

Lead Data Engineer
Lead Data Engineer
  • Aufbau eines Cloud Data Lakehouse auf Databricks
  • Konzeptionalisierung & Requirements Engineering inkl. User Stories, Milestones, uvm. nach SCRUM
  • Anbindung von Quelldatensystemen wie SalesForce, Teradata, MSSQL und SAP (S/4 HANA & SAP C4C)
  • Konzeption & Implementierung der Lakehouse Layerstruktur mit Domain Driven Design Pattern
  • Konzeption & Implementierung eines Data Quality & Data Testing Frameworks unter Berücksichtigung von verschiedenen Datenqualitätsdimensionen sowie der Validierung von Soft- und Hard Rules
  • Implementierung von Datentransformationspipelines über 100 GB pro Tag
  • Einsatz nativer Azure Cloud Services wie bspw. Azure Databricks, Azure Data Factory & Azure Event Hubs
  • Modellierung & Implementierung eines Business Core Data Models (Data Vault)
  • Identifikation & Implementierung von Machine Learning Use-Cases unter Berücksichtigung von MLOps basierend auf MLflow
  • Konzeption und Implementierung von GenAI Usecases:
    • SentenceTransformer (sBert & DistilUse) und Large Language Models (Llama2) zur Deduplication von Adressen mit dem Ziel der Erstellung eines Golden Records mittels Vector Store (FAISS und Milvus)
    • ?Computer ?Vision und Identifikation von Attributen zur Auswertung von Facilities mittels Satellitendaten
Deutsche Post DHL Group
2 years
2022-01 - 2023-12

Design & Konzeption eines Cloud Data Lakehouse

Lead Data Engineer
Lead Data Engineer
  • Design & Konzeption eines Cloud Data Lakehouse im eCommerce-Kontext mittels Databricks
  • Requirements Engineering & Dokumentation der Use-Cases
  • Modellierung der Layerarchitektur
  • Einführung Data Quality Framework
  • Modellierung des Core-Layers für Logistik-& Salesanalysen basierend auf Kimball
  • Integration von verschiedenen Quellsystemen wie MySQL, APIs, Event Streams, SAP S4/HANA, Postgres, MSSQL
  • Einführung von Self-Service Data Marts im Sales- und Marketingkontext
  • Entwicklung eines generischen Connector-Frameworks zur schnellen und effizienten Integration von neuen Datenquellen
  • Migration von Hive Catalog auf Unity Catalog
The Quality Group GmbH
3 years
2018-01 - 2020-12

Migration SAS Data Platform

Data Engineer
Data Engineer
  • Migration SAS Data Platform auf Cloud Based Open Source Architektur auf Python inklusive Apache Spark, SQL, Pandas, Numpy, Rapids
  • Requirements Engineering & Dokumentation der bestehenden (Real-Time) Reporting Use Cases und Core Data Warehouse Layer
  • Aufbau und Implementierung Multi-Node Apache Airflow System zur Workflow Orchestrierung für ETL & Machine Learning Jobs
  • Migration der SAS-Lösungen auf hochperformante Python Skripte
  • Entwicklung eines generischen Connector-Frameworks zur schnellen und effizienten Integration von neuen Datenquellen inkl SAP HANA und Teradata
  • Integration von Streaming Daten über Pub&Sub System (Apache Kafka)
DHL Post und Paket Germany
2 years 8 months
2015-05 - 2017-12

Extraktion und Transformation von Brief- und Paket Daten

Data Engineer
Data Engineer
  • Extraktion und Transformation von Brief- und Paket Daten aus Quellsystemen wie SAP S4/HANA, Teradata und Event-Streams mittels Apache Spark
  • Konzeption, Aufbau und Beladen eines Datenmodells für Finance Reporting Usecases (Forderungsmanagement / Accounts Receivable)
  • Definition und Implementierung eines Kennzahlensystems (Balanced Scorecards) inklusive Value-Driver-Tree Implementierung in PowerBI
  • Aufbau und Implementierung Multi-Node Apache Airflow System zur Workflow Orchestrierung für ETL und Data Sharing mit anderen Business Units innerhalb der Organisation
Deutsche Post DHL Finance & HR Services

Aus- und Weiterbildung

Aus- und Weiterbildung

2 years 7 months
2015-05 - 2017-11

Wirtschaftsinformatik

Master of Science, Universität Duisburg-Essen (Essen, Germany)
Master of Science
Universität Duisburg-Essen (Essen, Germany)
  • IT Consulting & Data Engineering
3 years 7 months
2011-10 - 2015-04

Wirtschaftsinformatik

Bachelor of Science, Universität Duisburg-Essen (Essen, Germany)
Bachelor of Science
Universität Duisburg-Essen (Essen, Germany)

Kompetenzen

Kompetenzen

Top-Skills

Databricks SQL Python AWS Azure Terraform SAP HANA Data Engineer

Produkte / Standards / Erfahrungen / Methoden

Resümee

  • Als erfahrener Senior Data Engineer mit einem Master of Science in Wirtschaftsinformatik und über 9 Jahren nachgewiesener Erfahrung in verschiedenen Branchen und Unternehmen bringe ich umfassende Kenntnisse in der Konzeption und Implementierung robuster und skalierbarer Datenlösungen in Azure und AWS mit. 
  • Dabei nutze ich Technologien wie Python, SQL, Spark, Azure Databricks, Azure Data Factory, Synapse, Azure Event Hub & Kafka sowie Apache Airflow über verschiedene Datenbanken hinweg, einschließlich SAP, Teradata, SQLund NoSQL-Datenbanken. Darüber hinaus zählen auch DevOps-Praktiken mit CI/CD und Terraform zu meinen Kompetenzen.


Fähigkeiten

  • Python & SQL
  • Data Engineering: Real Time Processing Frameworks (Apache Spark & PySpark, Pandas, Polars, DuckDB)
  • Aufbau Data- & ETL-Pipelines auf Quellsystemen wie SAP HANA, SAP C4C, MySQL, Teradata, Postgres, SQLServer, APIs
  • Aufbau Data Architekturen und -plattformen: Data Warehouse, Data Lake, Data Lakehouse
  • Databricks
  • Python: PySpark, Pandas, Polars, DuckDB, numpy, scikit-learn, rapids, FastAPI
  • AWS, Azure und GCP: Message Queues (AWS SNS / Azure Service Bus, Google Pub&Sub und Apache Kafka), Databases & Data Warehousing (AWS Athena & AWS Redshift, Azure Synapse, Google BigQuery), Serverless (AWS Lambda, Azure Functions, Google Cloud Functions)
  • Workflow-Orchestrierung: Azure Data Factory, Apache Airflow, Dagster, Google Cloud DataFlow
  • Test-Driven Development & SOLID
  • Project & Code Management: Jira & Confluence, Git (GitLab, GitHub, BitBucket)
  • Infrastructure as Code: Terraform
  • Requirements Engineering & Consulting in den Bereichen Company Data Strategy & Cloud Architectures

Einsatzorte

Einsatzorte

Deutschland, Schweiz, Österreich
möglich

Projekte

Projekte

3 years 6 months
2021-01 - 2024-06

Aufbau eines Cloud Data Lakehouse auf Databricks

Lead Data Engineer
Lead Data Engineer
  • Aufbau eines Cloud Data Lakehouse auf Databricks
  • Konzeptionalisierung & Requirements Engineering inkl. User Stories, Milestones, uvm. nach SCRUM
  • Anbindung von Quelldatensystemen wie SalesForce, Teradata, MSSQL und SAP (S/4 HANA & SAP C4C)
  • Konzeption & Implementierung der Lakehouse Layerstruktur mit Domain Driven Design Pattern
  • Konzeption & Implementierung eines Data Quality & Data Testing Frameworks unter Berücksichtigung von verschiedenen Datenqualitätsdimensionen sowie der Validierung von Soft- und Hard Rules
  • Implementierung von Datentransformationspipelines über 100 GB pro Tag
  • Einsatz nativer Azure Cloud Services wie bspw. Azure Databricks, Azure Data Factory & Azure Event Hubs
  • Modellierung & Implementierung eines Business Core Data Models (Data Vault)
  • Identifikation & Implementierung von Machine Learning Use-Cases unter Berücksichtigung von MLOps basierend auf MLflow
  • Konzeption und Implementierung von GenAI Usecases:
    • SentenceTransformer (sBert & DistilUse) und Large Language Models (Llama2) zur Deduplication von Adressen mit dem Ziel der Erstellung eines Golden Records mittels Vector Store (FAISS und Milvus)
    • ?Computer ?Vision und Identifikation von Attributen zur Auswertung von Facilities mittels Satellitendaten
Deutsche Post DHL Group
2 years
2022-01 - 2023-12

Design & Konzeption eines Cloud Data Lakehouse

Lead Data Engineer
Lead Data Engineer
  • Design & Konzeption eines Cloud Data Lakehouse im eCommerce-Kontext mittels Databricks
  • Requirements Engineering & Dokumentation der Use-Cases
  • Modellierung der Layerarchitektur
  • Einführung Data Quality Framework
  • Modellierung des Core-Layers für Logistik-& Salesanalysen basierend auf Kimball
  • Integration von verschiedenen Quellsystemen wie MySQL, APIs, Event Streams, SAP S4/HANA, Postgres, MSSQL
  • Einführung von Self-Service Data Marts im Sales- und Marketingkontext
  • Entwicklung eines generischen Connector-Frameworks zur schnellen und effizienten Integration von neuen Datenquellen
  • Migration von Hive Catalog auf Unity Catalog
The Quality Group GmbH
3 years
2018-01 - 2020-12

Migration SAS Data Platform

Data Engineer
Data Engineer
  • Migration SAS Data Platform auf Cloud Based Open Source Architektur auf Python inklusive Apache Spark, SQL, Pandas, Numpy, Rapids
  • Requirements Engineering & Dokumentation der bestehenden (Real-Time) Reporting Use Cases und Core Data Warehouse Layer
  • Aufbau und Implementierung Multi-Node Apache Airflow System zur Workflow Orchestrierung für ETL & Machine Learning Jobs
  • Migration der SAS-Lösungen auf hochperformante Python Skripte
  • Entwicklung eines generischen Connector-Frameworks zur schnellen und effizienten Integration von neuen Datenquellen inkl SAP HANA und Teradata
  • Integration von Streaming Daten über Pub&Sub System (Apache Kafka)
DHL Post und Paket Germany
2 years 8 months
2015-05 - 2017-12

Extraktion und Transformation von Brief- und Paket Daten

Data Engineer
Data Engineer
  • Extraktion und Transformation von Brief- und Paket Daten aus Quellsystemen wie SAP S4/HANA, Teradata und Event-Streams mittels Apache Spark
  • Konzeption, Aufbau und Beladen eines Datenmodells für Finance Reporting Usecases (Forderungsmanagement / Accounts Receivable)
  • Definition und Implementierung eines Kennzahlensystems (Balanced Scorecards) inklusive Value-Driver-Tree Implementierung in PowerBI
  • Aufbau und Implementierung Multi-Node Apache Airflow System zur Workflow Orchestrierung für ETL und Data Sharing mit anderen Business Units innerhalb der Organisation
Deutsche Post DHL Finance & HR Services

Aus- und Weiterbildung

Aus- und Weiterbildung

2 years 7 months
2015-05 - 2017-11

Wirtschaftsinformatik

Master of Science, Universität Duisburg-Essen (Essen, Germany)
Master of Science
Universität Duisburg-Essen (Essen, Germany)
  • IT Consulting & Data Engineering
3 years 7 months
2011-10 - 2015-04

Wirtschaftsinformatik

Bachelor of Science, Universität Duisburg-Essen (Essen, Germany)
Bachelor of Science
Universität Duisburg-Essen (Essen, Germany)

Kompetenzen

Kompetenzen

Top-Skills

Databricks SQL Python AWS Azure Terraform SAP HANA Data Engineer

Produkte / Standards / Erfahrungen / Methoden

Resümee

  • Als erfahrener Senior Data Engineer mit einem Master of Science in Wirtschaftsinformatik und über 9 Jahren nachgewiesener Erfahrung in verschiedenen Branchen und Unternehmen bringe ich umfassende Kenntnisse in der Konzeption und Implementierung robuster und skalierbarer Datenlösungen in Azure und AWS mit. 
  • Dabei nutze ich Technologien wie Python, SQL, Spark, Azure Databricks, Azure Data Factory, Synapse, Azure Event Hub & Kafka sowie Apache Airflow über verschiedene Datenbanken hinweg, einschließlich SAP, Teradata, SQLund NoSQL-Datenbanken. Darüber hinaus zählen auch DevOps-Praktiken mit CI/CD und Terraform zu meinen Kompetenzen.


Fähigkeiten

  • Python & SQL
  • Data Engineering: Real Time Processing Frameworks (Apache Spark & PySpark, Pandas, Polars, DuckDB)
  • Aufbau Data- & ETL-Pipelines auf Quellsystemen wie SAP HANA, SAP C4C, MySQL, Teradata, Postgres, SQLServer, APIs
  • Aufbau Data Architekturen und -plattformen: Data Warehouse, Data Lake, Data Lakehouse
  • Databricks
  • Python: PySpark, Pandas, Polars, DuckDB, numpy, scikit-learn, rapids, FastAPI
  • AWS, Azure und GCP: Message Queues (AWS SNS / Azure Service Bus, Google Pub&Sub und Apache Kafka), Databases & Data Warehousing (AWS Athena & AWS Redshift, Azure Synapse, Google BigQuery), Serverless (AWS Lambda, Azure Functions, Google Cloud Functions)
  • Workflow-Orchestrierung: Azure Data Factory, Apache Airflow, Dagster, Google Cloud DataFlow
  • Test-Driven Development & SOLID
  • Project & Code Management: Jira & Confluence, Git (GitLab, GitHub, BitBucket)
  • Infrastructure as Code: Terraform
  • Requirements Engineering & Consulting in den Bereichen Company Data Strategy & Cloud Architectures

Vertrauen Sie auf Randstad

Im Bereich Freelancing
Im Bereich Arbeitnehmerüberlassung / Personalvermittlung

Fragen?

Rufen Sie uns an +49 89 500316-300 oder schreiben Sie uns:

Das Freelancer-Portal

Direktester geht's nicht! Ganz einfach Freelancer finden und direkt Kontakt aufnehmen.