AWS Senior Data Engineer | Business Intelligence Specialist | Data Cloud Architekt | Snowflake Certified
Aktualisiert am 25.02.2025
Profil
Freiberufler / Selbstständiger
Remote-Arbeit
Verfügbar ab: 01.03.2025
Verfügbar zu: 100%
davon vor Ort: 100%
Python
AWS
Azure
Kafka
ETL
Git
Cloud Computing
Kubernetes
Linux
SQL
Snowflake
PostgreSQL
Business Intelligence
Databricks
Amazon EC2
Amazon Dynamo
MS Azure SQL Database
Dashboard
NoSQL
Oracle
PL/SQL
Oracleentwicklung
English
fließend
Deutsch
Fließend

Einsatzorte

Einsatzorte

Frankfurt am Main (+200km) Hamburg (+200km) Munich (+200km) Berlin (+200km) Nuremberg (+200km) Cologne (+200km) Dortmund (+200km) Stuttgart (+200km)
Deutschland, Schweiz, Österreich
möglich

Projekte

Projekte

5 months
2024-11 - 2025-03

Aufbau des Berichtswesens und DWH für Projektdaten

Snowflake Data Architekt, Data Engineer Python Terraform Sternschema
Snowflake Data Architekt, Data Engineer

Das Hauptziel des Projekts war die Datenaufbereitung für Reporting und Analysen auf Basis der Planisware-Daten, insbesondere für MicroStrategy-Berichte. Hierzu wurden ein spezifisches Data Warehouse in Snowflake auf der Google Cloud Platform (GCP) für die Planisware-Projektdaten aufgebaut sowie Dimensionen und Fakten modelliert.

Aufgaben:
? Integration von Daten in das Data Warehouse und Zusammenarbeit im laufenden Projekt zur Einführung von Snowpark.
? Datenmodellierung in der 3. Normalform (3NF) und im Sternschema.
? Design, Implementierung und Betrieb von ETL/ELT-Prozessen unter Verwendung von Tools wie Informatica, Matillion, Snowflake, SSIS und Azure Data Factory.
? Mitarbeit bei der Weiterentwicklung und Modernisierung der Business-Intelligence-Landschaft in der Google Cloud Platform (Data Lake / Data Mesh).
Ergebnisse:
? Zentrale Übersicht über Projektdaten: Durch die Datenaufbereitung und -modellierung wurde eine verbesserte Transparenz über die verschiedenen Projekte des Kunden erreicht.
? Optimierte Datenstrategie für Projektdaten: Standardisierung und Strukturierung der Daten zur Bereitstellung einer konsistenten und zuverlässigen Grundlage für das Reporting.
? Effiziente Datenintegration: Entwicklung einer Schnittstelle zu Planisware zur automatisierten Erfassung und Verarbeitung der Projektdaten.
? Verbesserte Berichts- und Analysemöglichkeiten: Bereitstellung aufbereiteter Daten für MicroStrategy-Berichte, um fundierte Entscheidungen auf Basis der Planisware-Daten treffen zu können.
? Skalierbare Architektur: Einsatz von Snowflake und der Google Cloud Platform zur Sicherstellung einer flexiblen Erweiterbarkeit und eines effizienten Umgangs mit wachsenden Datenmengen.


Planisware Snowflake GitLab GCP Google Cloud Platform
Python Terraform Sternschema
dm-drogerie markt
Karlsruhe (Baden)
1 year 6 months
2023-09 - 2025-02

Aufbau des DWH und Reportingsysteme

Lead Data Engineer / Big Data Architekt Python dbt
Lead Data Engineer / Big Data Architekt
· Dekomposition und Vereinfachung der Gesamtarchitektur des Databricks-Projekts, um sie sicherer, modularer und wartungsfreundlicher zu machen.
· Implementierung von Pipelines für den Empfang von Daten in verschiedenen Formaten (di-rekt über REST, als Dateien im Blob-Speicher, Mongo DB-Dokumente usw.)
· Hinzufügen neuer Transformationen der Daten in das spezifizierte Datenmodell gemäß ei-ner definierten Geschäftslogik (Databricks, PySpark, Delta Tables, Azure Data Factory und natürlich SQL-Abfragen)
· Einrichtung eines Data Lakehouse (Azure SQL und Time Series Mongo DB)
· Ermöglicht die Durchführung des ETL-Prozesses fast in Echtzeit; die Dateien werden sofort nach Erhalt oder in kleinen Stapeln alle x Sekunden verarbeitet: Pushen von Daten aus verschiedenen Quellen an Kafka ESB und deren Verarbeitung durch Delta Live Tables
· Entwickeln und Konfigurieren von Services und DWH-Systemen in der Azure Cloud-Umgebung
· Leitung eines Teams von Dateningenieuren: Planung und Priorisierung von Aufgaben, Teamimplementierung neuer Funktionen in die IT-Systeme des Kunden, Durchführung von Retro- und Tagesbesprechungen
· Entwicklung des MVP für das dbt-Projekt mit anschließender Implementierung in die Pro-duktionsumgebung der IT-Systeme des Kunden. Dies ermöglichte es, die Analyse der ak-tuellen Datentransformationen zu vereinfachen und die Suche nach Fehlern in der Ge-schäftslogik zu erleichtern.
· Erstellung von Datensätzen auf der Grundlage der internen Dokumentation und des beste-henden Datenmodells, um Azure AI Search mit Daten zu füllen und eine intelligente Ana-lyseplattform zu entwickeln (LLM + Azure KI Services)
Aufgaben im Bereich Data Lakehouse:
? Entwicklung einer Data-Lakehouse-Architektur mit Databricks und Delta Lake, um die Vorteile von Data Lakes und Data Warehouses zu vereinen.
? Implementierung von Delta Live Tables für die Verarbeitung von Streaming- und Batch-Daten in Echtzeit.
? Gestaltung und Aufbau eines skalierbaren und flexiblen Data Lakehouse, um große Mengen unterschiedlicher Datenformate effizient zu verarbeiten und zu analysieren.
? Sicherstellung der Datenqualität und -konsistenz im Data Lakehouse durch Implementierung von Validierungs- und Monitoring-Mechanismen.

Ergebnisse:
? Skalierbarkeit: Das neue System ist in der Lage, die wachsenden Datenmengen effizient zu verarbeiten und zu analysieren. (Skalierbarkeit um 400 % gesteigert).
? Flexibilität: Die Cloud-native Architektur ermöglicht eine flexible Anpassung an sich än-dernde Geschäftsanforderungen. (Vereinfachung der Integration neuer Datenquellen und Geschäftslogik).
? Performance: Die Datenverarbeitung erfolgt deutlich schneller und effizienter. (Verkür-zung der Datenverarbeitungszeit um 80 %).
? Wartbarkeit: Der Code ist sauber, modular und gut dokumentiert, was die Wartung und Weiterentwicklung vereinfacht. (Reduktion der Ausfallzeiten auf unter 5 %).
Azure SQL Server Azure Synapse Analytics Azure Data Factory Databricks dbt Confluence Azure DevOps
Python dbt
Carl Zeiss
Aalen (Württemberg)
10 months
2024-01 - 2024-10

Automatisierung der Datenverarbeitung für dynamische Preisgestaltung

Snowflake Data Architekt Python dbt Dagster ...
Snowflake Data Architekt
· Automatisierung der Datenverarbeitung für die dynamische Preisgestaltung hat die Fehler-quote, die früher durch die manuelle Datenaufbereitung verursacht wurde, erheblich ver-ringert.
· Entwicklung des MVP für das dbt-Projekt mit anschließender Implementierung in die Pro-duktionsumgebung der IT-Systeme des Kunden. Dies ermöglichte es, die Analyse der ak-tuellen Datentransformationen zu vereinfachen und die Suche nach Fehlern in der Ge-schäftslogik zu erleichtern.
· Die Implementierung der dbt ermöglichte auch ein besseres und detaillierteres Testen der resultierenden Daten.
· Entwicklung der automatisierten Generierung von Data Lineage, um Business Analysten ein besseres Verständnis des Prozesses und der Struktur der Abhängigkeiten in den Da-tenschichten zu ermöglichen.

Ergebnisse:
· Reduzierter Fehleranteil: Die Anzahl der fehlerhaften Daten in den Pipelines konnte um 15 % reduziert werden, was zu einer zuverlässigeren Datengrundlage für Preisanpas-sungsmodelle führt.
· Verkürzte Entwicklungszeit: Die Implementierung neuer Datenpipelines konnte um 50 % beschleunigt werden, wodurch sich das EVU schneller an veränderte Marktbedingungen anpassen kann.
· Modernisierte Datenarchitektur: Eine neue, skalierbare und performante Datenarchitektur wurde modelliert, die die Grundlage für die Entwicklung neuer intelligenter Preisanpas-sungssysteme bildet.
· Optimierte Datenpipelines: dbt wurde implementiert und die Pipelines optimiert, um eine ef-fiziente und flexible Datenverarbeitung zu gewährleisten.
· Darstellung der Daten in Grafana
Technologie-Stack: dbt, Dagster, Azure Cloud, Python, Snowflake, Azure Data Factory, Azure Kubernetes Service (AKS), DuckDB, Grafana Tools: Jira, Confluence
dbt Dagster Azure Cloud Python Snowflake Azure Data Factory Azure Kubernetes Service (AKS) DuckDB Grafana Tools: Jira Confluence
Python dbt Dagster Azure Cloud Snowflake Azure Data Factory Azure Kubernetes Service (AKS) DuckDB Grafana Tools: Jira Confluence
E.ON
Munich
1 year 2 months
2022-04 - 2023-05

Aufbau des DWH und Reportingsysteme

Senior Data Engineer / Business Intelligenz Spezialist AWS Python asyncio ...
Senior Data Engineer / Business Intelligenz Spezialist
· Entwicklung und Einführung eines Modells für maschinelles Lernen, das zur Vorhersage von Mieten mit einer Genauigkeit von über 91 % verwendet wurde.
· Erstellung eines Modells zur Optimierung der Vorhersage von Immobilienbewertungen an-hand von Textbeschreibungen.
· Entwicklung in Python von ETL-Pipelines für Reporting (Dagster mit dbt)
· Entwicklung von Berichten, die GIS-Daten und -Strukturen verwenden, um operative Indika-toren auf einer Europakarte darzustellen
· Entwerfen von technischen Datenbankmodellen in Data Vault
· Automatisierung interner Prozesse: Einführung von automatisierten CI/CD, Python/SQL Testen in die Produktionsumgebung.
· Organisation der Migration von Daten von Azure (Microsoft SQL-Server) zum Snowflake
· Planen einer Architektur und Implementieren eines Testsystems für Fachanwender zur Ein-haltung hoher Datenqualitätsstandards
Tableau AWS GitHub DataDog
AWS Python asyncio Snowflake Tableau DataDog Dagster dbt CloudWatch S3 Kinesis Step Functions AWS Glue Kafka Firehose Amazon EMR Tools: GitHub Jira Confluence Miro
Catella
Berlin
1 year 3 months
2021-10 - 2022-12

Digitalisierung des Meldewesens

Senior Data Engineer / Business Intelligenz Spezialist Java DataStage Oracle DB 21c ...
Senior Data Engineer / Business Intelligenz Spezialist

  • Entwicklung von ETL-Pipelines für Meldewesensysteme. Beschleunigung der gesamten täglichen Ladezeit um bis zu 40%
  • Mitarbeit an Digitalisierungsprojekten der Bank (Spezifikation der Architektur von ETL-, Data Lake- und DWH-Systemen).
  • Automatisierung interner Prozesse: Einführung von automatisierten CI/CD, Testen in die Produktionsumgebung.
  • Vorbereitung von Spikes und Prototypen für die Migration älterer ETL-Lösungen in die Cloud-Infrastruktur

Java DataStage Oracle DB 21c PL/SQL Databricks + Spark Azure PowerShell Tools: Bitbucket Jira Confluence
ING-DiBa
Frankfurt am Main
2 years 1 month
2019-10 - 2021-10

Migration des DWHs für Meldewesen

IT-Berater, Data Engineering und Business Intelligenz Python Informatica DB2 ...
IT-Berater, Data Engineering und Business Intelligenz

  • Implementierung von komplexen Datenintegrationsprozessen auf Basis moderner ETL-Frameworks in Informatica;
  • Entwerfen von technischen Datenbankmodellen auf der Basis verschiedener Modellierungsparadigmen (3NF, Data Vault, Star, ...);
  • Co-Design von kundenspezifischen Frameworks innerhalb der eingesetzten ETL-Tools;
  • Automatisierung von Datenqualitätstests für ETL-Pipelines (PL/SQL, Bash, Jenkins).

Python Informatica DB2 PL/SQL Unix (AIX) & bash Tools: Gerrit Jira Confluence
KFW
Frankfurt am Main
7 months
2019-04 - 2019-10

Aufbau von Big-Data-Pipelines für Tradingdaten

Data Engineer / Data Scientist Python Pandas Matplotlib ...
Data Engineer / Data Scientist

  • Zeitreihenanalyse, Gruppierung, Anomalieerkennung, Dimensionalitätsreduktion
  • Datenanalyse von Big Data im Finanzhandel. Verwaltung von mehr als 3 TB an Datensätzen mit Zeitreihen.
  • Das ETL-Szenario wurde umgeschrieben, um es von 11 Verarbeitungsstunden auf 45 Minuten zu beschleunigen.
  • Verhinderung von Geldverlusten durch das entwickelte Alarmsystem für die Qualität der Handelsdaten
  • Standardisierung des Beitrags von ETL-Skripten zur aktuellen Datenpipeline unter Verwendung von BPMN und DFD (Datenflussdiagramm)

Python Pandas Matplotlib Dask Linux & bash NumPy SciPy Vertica DB MySQL Tools: GitLab Jira Confluence Apache AirFlow Real-Time data Processing
WorldQuant
Saint Petersburg
9 months
2018-02 - 2018-10

Datenanalyse für Marketing Team

Data Scientist Python Scikit-learn GreenPlum ...
Data Scientist

  • Entwicklung von Modellen zur Vorhersage der profitabelsten Kundengruppen mit Hilfe von Random Forest Classifier (Vorhersage von Marketing Qualified Leads)
  • Modellierung und Prognose von Kundenzahlungsströmen.
  • Erstellen eines Mikrodienstes zur Bereitstellung regelmäßiger Datensätze für einen ständig selbstlernenden NLP-Algorithmus für maschinelles Lernen, der einen intelligenten Nachrichten-Feed bereitstellt.
  • Etablierung von Standards für die Dokumentation von Data-Science-Modellen
  • Entwicklung von Marketingberichten in Tableau für die tägliche Nutzung und ETL-Prozesse unter Verwendung von Google Analytics API

Python Scikit-learn GreenPlum Docker GIT Linux NumPy Tableau Gitlab Jira
IQ Option
Saint Petersburg
2 years 8 months
2015-07 - 2018-02

Automatisierung von Dokumenten im Kunden- und Logistikmanagement

System Analyst, Data Analyst Highcharts JS MS SQL MS SQL-Server ...
System Analyst, Data Analyst

  • Integrierung und leitende Entwicklung einer internen Android-Anwendung zur Digitalisierung von Geschäftsprozessen
  • Entwicklung der persönlichen Kontoanwendung für Firmenkunden. Google Play, AppStore.
  • Datenanalyse im Bereich Internet-Marketing mit Integration verschiedener Dashboards in das Unternehmens-CRM
  • Leitung der Entwicklung des internen Marketing-Tools: Überprüfung der Abnahmetestspezifikationen und gelegentliche Durchführung von Abnahmetests der entwickelten Funktionalität, Erstellung der Spezifikations
  • Vorbereiten von Finanzberichten für die Unternehmensleitung
  • Entwicklung von ETL-Pipelines in SQL-Server Integration Services

Highcharts JS MS SQL MS SQL-Server PHP Python BPMN UML Archimate Web service schemas (WSDL/XSD)
Baltic Land
Saint Petersburg
2 years 1 month
2013-07 - 2015-07

Cloud IT-Infrastruktur Aufbau

Systemingenieur Windows Server Docker Linux ...
Systemingenieur

Das Projekt wurde ins Leben gerufen, nachdem ein Problem im Zusammenhang mit dem schnellen Wachstum des Unternehmens erkannt wurde: das Fehlen einer komfortablen und kostengünstigen Unternehmensinfrastruktur, die für die Arbeit mit umfangreichen Desktop-Anwendungen wie 1C Accounting, 1C Salary und Staff Management erforderlich ist. Daher wurde beschlossen, alle Daten von den lokalen Büro-PCs auf den Cloud-Server zu migrieren, wo die notwendige Infrastruktur wie ein Terminalserver für den Fernzugriff auf die gewünschten Anwendungen eingerichtet werden sollte. Im Rahmen dieses Projektes wurden Windows 2012 Server mit MS SQL-Server, Windows Terminal Server 1C Programme installiert, ein Raid 10 Disk Array erstellt und das inkrementelle Backup System konfiguriert.

Verantwortlichkeiten:

  • Betrieb von Windows Server 2012 (Terminal Server 1C), Ubuntu Server 12.04 (Web Services Firma, XMPP Chat für Mitarbeiter, VPN für Remote Desktop Access)"
  • Anpassung des Cloud-Systems EDI (OwnCloud / Nextcloud + Onlyoffice Dokumentenserver)
  • Entwicklung einer Software zur Automatisierung der Erstellung von physischen Mailings
  • Pflege von Backups und Reservierungen

Windows Server Docker Linux Nginx Python PowerShell OpenSSL
Prometey
Saint Petersburg

Aus- und Weiterbildung

Aus- und Weiterbildung

2017 - 2019

Master of Science in Wirtschaftsinformatik

Technische Universität Ilmenau - Deutschland



2013 - 2017

Bachelor of Science in Wirtschaftsinformatik

Saint Petersburg State University


Zertifikate


**Mai 2024:** [Fabric Analytics Engineer Associate](https://learn.microsoft.com/en-gb/users/bogdanlashkov/credentials/e231780ad8387295)

**Jan 2024:** [Azure AI Fundamentals](https://learn.microsoft.com/en-us/users/bogdanlashkov/credentials/14a8f0b519eea9fa)

**Nov 2023:** [AWS Certified Data Analytics ? Specialty](https://www.credly.com/badges/3812b3fd-a0f4-4573-a312-2bee33a5dccf/public_url)

**Feb 2023:** [Snowflake Certification](https://www.credly.com/badges/2fc625dc-368f-450c-b87c-69a48d6d79d3/public_url)

**Jun 2018:** [Introduction to Data Science in Python](https://www.coursera.org/account/accomplishments/verify/A6QG38NVW56M)

**Jul 2018:** [Functional Programming Principles in Scala](https://www.coursera.org/account/accomplishments/verify/TRF4Z4ZNT5AE)

**Aug 2018:** [Applied Plotting, Charting & Data Representation in Python](https://www.coursera.org/account/accomplishments/certificate/7WWVQX9YE299)

**Sep 2018:** [Functional Program Design in Scala](https://www.coursera.org/account/accomplishments/verify/TRF4Z4ZNT5AE)

**Sep 2018:** [Applied Machine Learning in Python](https://www.coursera.org/account/accomplishments/certificate/7WWVQX9YE299)

Kompetenzen

Kompetenzen

Top-Skills

Python AWS Azure Kafka ETL Git Cloud Computing Kubernetes Linux SQL Snowflake PostgreSQL Business Intelligence Databricks Amazon EC2 Amazon Dynamo MS Azure SQL Database Dashboard NoSQL Oracle PL/SQL Oracleentwicklung

Produkte / Standards / Erfahrungen / Methoden

Python
Experte
Datenbanken
Experte
Data Vault
Experte
Databricks
Experte
SQL
Experte
Snowflake
Experte
Azure
Experte
AWS
Fortgeschritten
GCP
Fortgeschritten
Tableau
Fortgeschritten
Power BI
Experte
Sehr geehrte Damen und Herren,
herzlich willkommen auf meinem Profil und besten Dank für Ihr Interesse!
Als Data Cloud Architekt und Lead Data Engineer verfüge ich über mehr als zwölf Jahre Erfahrung in der IT-Beratung. In dieser Zeit realisierte ich Projekte für namhafte Unternehmen wie DM, E.ON, Carl Zeiss, Encavis, ING, KfW, WorldQuant, Catella und IQ Option. Meine Expertise umfasst folgende Kernbereiche:

Cloud Data Engineering
Datenmigration & -integration
Data-Lake-Architekturen
BI-/Data-Warehouse-Lösungen

Fachkompetenz im Überblick:

Architektur & Entwicklung : Konzeption, Design und Implementierung von ETL/ELT-Pipelines für Data Warehouses und Data Lakes mit Tools wie Apache Airflow, Kafka, AWS Glue, Databricks (Azure), Informatica PowerCenter und Azure Data Factory.
Datenmodellierung : Spezialisiert auf dimensionale Modellierung (Star/Snowflake-Schema) und Data Vault 2.0 (Raw/Business Vault).
Datenquellen : Umgang mit strukturierten/halbstrukturierten Formaten (Datenbanken, Parquet, REST-APIs, CSV/XML/JSON).
Datenschichtdesign : Aufbau mehrstufiger Architekturen (Stage Layer, Core Layer, Reporting Layer) zur Optimierung von Datenqualität und Prozesseffizienz.
Teamkoordination : Agile Zusammenarbeit mit Datenarchitekten, Business-Analysten und Produktmanagern bei der Spezifikation von Anforderungen und Systemdesigns.
Projektmethodik : Aktive Mitwirkung in Scrum-Prozessen (Sprint-Planning, User-Story-Erstellung, Task-Definition).

Technologiestack
ETL-Tools :
Apache Airflow, Kafka, PySpark, AWS Glue, Databricks (Azure), dbt, Informatica PowerCenter, Azure Data Factory
Datenbanken :
Snowflake, Redshift, Oracle 21c, Microsoft SQL Server 2019, IBM DB2, Hadoop HDFS, PostgreSQL 10.7, MySQL, Amazon Aurora
Big Data :
Vertica, Dask, Greenplum, ClickHouse, AWS Glue, Kinesis, Hadoop 2.0, Hive
Cloud :
AWS, Databricks, S3, AWS RDS (PostgreSQL), Azure Blobs, Azure Batch, Azure Data Factory, Kubernetes, Docker
Reporting & Visualisierung :
Power BI, Tableau, Shiny, Matplotlib, Plotly
Modellierung :
3. Normalform (3NF), Dimensional Modeling, Data Vault 2.0
Methodiken :
Agile, Scrum, Waterfall
Programmiersprachen :
Python (Flask, Pandas, PyTorch, Scikit-learn, PM4Py), R, PowerShell, JavaScript, Java, SQL/T-SQL/PL-SQL, UNIX/Bash
Data Science :

Data Mining : Betriebsdatenanalyse, Process Mining (PM4Py), Web Scraping (Selenium)
Machine Learning : Deep Learning, Computer Vision, NLP, Statistische Modellierung

Modellierungstools :
SAP PowerDesigner
Integration & Planung :

Informatica IICS (Data & Application Integration)
BMC Control-M 9.0.19, Automic UC4, Systemd Timers

Systeme & Infrastruktur :
Linux, AIX, Windows; Hochverfügbarkeitslösungen (RAC, Failover-Cluster), CI/CD, Microservices
Projektmanagement :
Ressourcensteuerung, Qualitätssicherung, A/B-Testing, Kanban


Branchen

Branchen

Drogeriehandel, Energiesektor, Erneuerbare Energien, Banking, Feinmechanik und Optik

Einsatzorte

Einsatzorte

Frankfurt am Main (+200km) Hamburg (+200km) Munich (+200km) Berlin (+200km) Nuremberg (+200km) Cologne (+200km) Dortmund (+200km) Stuttgart (+200km)
Deutschland, Schweiz, Österreich
möglich

Projekte

Projekte

5 months
2024-11 - 2025-03

Aufbau des Berichtswesens und DWH für Projektdaten

Snowflake Data Architekt, Data Engineer Python Terraform Sternschema
Snowflake Data Architekt, Data Engineer

Das Hauptziel des Projekts war die Datenaufbereitung für Reporting und Analysen auf Basis der Planisware-Daten, insbesondere für MicroStrategy-Berichte. Hierzu wurden ein spezifisches Data Warehouse in Snowflake auf der Google Cloud Platform (GCP) für die Planisware-Projektdaten aufgebaut sowie Dimensionen und Fakten modelliert.

Aufgaben:
? Integration von Daten in das Data Warehouse und Zusammenarbeit im laufenden Projekt zur Einführung von Snowpark.
? Datenmodellierung in der 3. Normalform (3NF) und im Sternschema.
? Design, Implementierung und Betrieb von ETL/ELT-Prozessen unter Verwendung von Tools wie Informatica, Matillion, Snowflake, SSIS und Azure Data Factory.
? Mitarbeit bei der Weiterentwicklung und Modernisierung der Business-Intelligence-Landschaft in der Google Cloud Platform (Data Lake / Data Mesh).
Ergebnisse:
? Zentrale Übersicht über Projektdaten: Durch die Datenaufbereitung und -modellierung wurde eine verbesserte Transparenz über die verschiedenen Projekte des Kunden erreicht.
? Optimierte Datenstrategie für Projektdaten: Standardisierung und Strukturierung der Daten zur Bereitstellung einer konsistenten und zuverlässigen Grundlage für das Reporting.
? Effiziente Datenintegration: Entwicklung einer Schnittstelle zu Planisware zur automatisierten Erfassung und Verarbeitung der Projektdaten.
? Verbesserte Berichts- und Analysemöglichkeiten: Bereitstellung aufbereiteter Daten für MicroStrategy-Berichte, um fundierte Entscheidungen auf Basis der Planisware-Daten treffen zu können.
? Skalierbare Architektur: Einsatz von Snowflake und der Google Cloud Platform zur Sicherstellung einer flexiblen Erweiterbarkeit und eines effizienten Umgangs mit wachsenden Datenmengen.


Planisware Snowflake GitLab GCP Google Cloud Platform
Python Terraform Sternschema
dm-drogerie markt
Karlsruhe (Baden)
1 year 6 months
2023-09 - 2025-02

Aufbau des DWH und Reportingsysteme

Lead Data Engineer / Big Data Architekt Python dbt
Lead Data Engineer / Big Data Architekt
· Dekomposition und Vereinfachung der Gesamtarchitektur des Databricks-Projekts, um sie sicherer, modularer und wartungsfreundlicher zu machen.
· Implementierung von Pipelines für den Empfang von Daten in verschiedenen Formaten (di-rekt über REST, als Dateien im Blob-Speicher, Mongo DB-Dokumente usw.)
· Hinzufügen neuer Transformationen der Daten in das spezifizierte Datenmodell gemäß ei-ner definierten Geschäftslogik (Databricks, PySpark, Delta Tables, Azure Data Factory und natürlich SQL-Abfragen)
· Einrichtung eines Data Lakehouse (Azure SQL und Time Series Mongo DB)
· Ermöglicht die Durchführung des ETL-Prozesses fast in Echtzeit; die Dateien werden sofort nach Erhalt oder in kleinen Stapeln alle x Sekunden verarbeitet: Pushen von Daten aus verschiedenen Quellen an Kafka ESB und deren Verarbeitung durch Delta Live Tables
· Entwickeln und Konfigurieren von Services und DWH-Systemen in der Azure Cloud-Umgebung
· Leitung eines Teams von Dateningenieuren: Planung und Priorisierung von Aufgaben, Teamimplementierung neuer Funktionen in die IT-Systeme des Kunden, Durchführung von Retro- und Tagesbesprechungen
· Entwicklung des MVP für das dbt-Projekt mit anschließender Implementierung in die Pro-duktionsumgebung der IT-Systeme des Kunden. Dies ermöglichte es, die Analyse der ak-tuellen Datentransformationen zu vereinfachen und die Suche nach Fehlern in der Ge-schäftslogik zu erleichtern.
· Erstellung von Datensätzen auf der Grundlage der internen Dokumentation und des beste-henden Datenmodells, um Azure AI Search mit Daten zu füllen und eine intelligente Ana-lyseplattform zu entwickeln (LLM + Azure KI Services)
Aufgaben im Bereich Data Lakehouse:
? Entwicklung einer Data-Lakehouse-Architektur mit Databricks und Delta Lake, um die Vorteile von Data Lakes und Data Warehouses zu vereinen.
? Implementierung von Delta Live Tables für die Verarbeitung von Streaming- und Batch-Daten in Echtzeit.
? Gestaltung und Aufbau eines skalierbaren und flexiblen Data Lakehouse, um große Mengen unterschiedlicher Datenformate effizient zu verarbeiten und zu analysieren.
? Sicherstellung der Datenqualität und -konsistenz im Data Lakehouse durch Implementierung von Validierungs- und Monitoring-Mechanismen.

Ergebnisse:
? Skalierbarkeit: Das neue System ist in der Lage, die wachsenden Datenmengen effizient zu verarbeiten und zu analysieren. (Skalierbarkeit um 400 % gesteigert).
? Flexibilität: Die Cloud-native Architektur ermöglicht eine flexible Anpassung an sich än-dernde Geschäftsanforderungen. (Vereinfachung der Integration neuer Datenquellen und Geschäftslogik).
? Performance: Die Datenverarbeitung erfolgt deutlich schneller und effizienter. (Verkür-zung der Datenverarbeitungszeit um 80 %).
? Wartbarkeit: Der Code ist sauber, modular und gut dokumentiert, was die Wartung und Weiterentwicklung vereinfacht. (Reduktion der Ausfallzeiten auf unter 5 %).
Azure SQL Server Azure Synapse Analytics Azure Data Factory Databricks dbt Confluence Azure DevOps
Python dbt
Carl Zeiss
Aalen (Württemberg)
10 months
2024-01 - 2024-10

Automatisierung der Datenverarbeitung für dynamische Preisgestaltung

Snowflake Data Architekt Python dbt Dagster ...
Snowflake Data Architekt
· Automatisierung der Datenverarbeitung für die dynamische Preisgestaltung hat die Fehler-quote, die früher durch die manuelle Datenaufbereitung verursacht wurde, erheblich ver-ringert.
· Entwicklung des MVP für das dbt-Projekt mit anschließender Implementierung in die Pro-duktionsumgebung der IT-Systeme des Kunden. Dies ermöglichte es, die Analyse der ak-tuellen Datentransformationen zu vereinfachen und die Suche nach Fehlern in der Ge-schäftslogik zu erleichtern.
· Die Implementierung der dbt ermöglichte auch ein besseres und detaillierteres Testen der resultierenden Daten.
· Entwicklung der automatisierten Generierung von Data Lineage, um Business Analysten ein besseres Verständnis des Prozesses und der Struktur der Abhängigkeiten in den Da-tenschichten zu ermöglichen.

Ergebnisse:
· Reduzierter Fehleranteil: Die Anzahl der fehlerhaften Daten in den Pipelines konnte um 15 % reduziert werden, was zu einer zuverlässigeren Datengrundlage für Preisanpas-sungsmodelle führt.
· Verkürzte Entwicklungszeit: Die Implementierung neuer Datenpipelines konnte um 50 % beschleunigt werden, wodurch sich das EVU schneller an veränderte Marktbedingungen anpassen kann.
· Modernisierte Datenarchitektur: Eine neue, skalierbare und performante Datenarchitektur wurde modelliert, die die Grundlage für die Entwicklung neuer intelligenter Preisanpas-sungssysteme bildet.
· Optimierte Datenpipelines: dbt wurde implementiert und die Pipelines optimiert, um eine ef-fiziente und flexible Datenverarbeitung zu gewährleisten.
· Darstellung der Daten in Grafana
Technologie-Stack: dbt, Dagster, Azure Cloud, Python, Snowflake, Azure Data Factory, Azure Kubernetes Service (AKS), DuckDB, Grafana Tools: Jira, Confluence
dbt Dagster Azure Cloud Python Snowflake Azure Data Factory Azure Kubernetes Service (AKS) DuckDB Grafana Tools: Jira Confluence
Python dbt Dagster Azure Cloud Snowflake Azure Data Factory Azure Kubernetes Service (AKS) DuckDB Grafana Tools: Jira Confluence
E.ON
Munich
1 year 2 months
2022-04 - 2023-05

Aufbau des DWH und Reportingsysteme

Senior Data Engineer / Business Intelligenz Spezialist AWS Python asyncio ...
Senior Data Engineer / Business Intelligenz Spezialist
· Entwicklung und Einführung eines Modells für maschinelles Lernen, das zur Vorhersage von Mieten mit einer Genauigkeit von über 91 % verwendet wurde.
· Erstellung eines Modells zur Optimierung der Vorhersage von Immobilienbewertungen an-hand von Textbeschreibungen.
· Entwicklung in Python von ETL-Pipelines für Reporting (Dagster mit dbt)
· Entwicklung von Berichten, die GIS-Daten und -Strukturen verwenden, um operative Indika-toren auf einer Europakarte darzustellen
· Entwerfen von technischen Datenbankmodellen in Data Vault
· Automatisierung interner Prozesse: Einführung von automatisierten CI/CD, Python/SQL Testen in die Produktionsumgebung.
· Organisation der Migration von Daten von Azure (Microsoft SQL-Server) zum Snowflake
· Planen einer Architektur und Implementieren eines Testsystems für Fachanwender zur Ein-haltung hoher Datenqualitätsstandards
Tableau AWS GitHub DataDog
AWS Python asyncio Snowflake Tableau DataDog Dagster dbt CloudWatch S3 Kinesis Step Functions AWS Glue Kafka Firehose Amazon EMR Tools: GitHub Jira Confluence Miro
Catella
Berlin
1 year 3 months
2021-10 - 2022-12

Digitalisierung des Meldewesens

Senior Data Engineer / Business Intelligenz Spezialist Java DataStage Oracle DB 21c ...
Senior Data Engineer / Business Intelligenz Spezialist

  • Entwicklung von ETL-Pipelines für Meldewesensysteme. Beschleunigung der gesamten täglichen Ladezeit um bis zu 40%
  • Mitarbeit an Digitalisierungsprojekten der Bank (Spezifikation der Architektur von ETL-, Data Lake- und DWH-Systemen).
  • Automatisierung interner Prozesse: Einführung von automatisierten CI/CD, Testen in die Produktionsumgebung.
  • Vorbereitung von Spikes und Prototypen für die Migration älterer ETL-Lösungen in die Cloud-Infrastruktur

Java DataStage Oracle DB 21c PL/SQL Databricks + Spark Azure PowerShell Tools: Bitbucket Jira Confluence
ING-DiBa
Frankfurt am Main
2 years 1 month
2019-10 - 2021-10

Migration des DWHs für Meldewesen

IT-Berater, Data Engineering und Business Intelligenz Python Informatica DB2 ...
IT-Berater, Data Engineering und Business Intelligenz

  • Implementierung von komplexen Datenintegrationsprozessen auf Basis moderner ETL-Frameworks in Informatica;
  • Entwerfen von technischen Datenbankmodellen auf der Basis verschiedener Modellierungsparadigmen (3NF, Data Vault, Star, ...);
  • Co-Design von kundenspezifischen Frameworks innerhalb der eingesetzten ETL-Tools;
  • Automatisierung von Datenqualitätstests für ETL-Pipelines (PL/SQL, Bash, Jenkins).

Python Informatica DB2 PL/SQL Unix (AIX) & bash Tools: Gerrit Jira Confluence
KFW
Frankfurt am Main
7 months
2019-04 - 2019-10

Aufbau von Big-Data-Pipelines für Tradingdaten

Data Engineer / Data Scientist Python Pandas Matplotlib ...
Data Engineer / Data Scientist

  • Zeitreihenanalyse, Gruppierung, Anomalieerkennung, Dimensionalitätsreduktion
  • Datenanalyse von Big Data im Finanzhandel. Verwaltung von mehr als 3 TB an Datensätzen mit Zeitreihen.
  • Das ETL-Szenario wurde umgeschrieben, um es von 11 Verarbeitungsstunden auf 45 Minuten zu beschleunigen.
  • Verhinderung von Geldverlusten durch das entwickelte Alarmsystem für die Qualität der Handelsdaten
  • Standardisierung des Beitrags von ETL-Skripten zur aktuellen Datenpipeline unter Verwendung von BPMN und DFD (Datenflussdiagramm)

Python Pandas Matplotlib Dask Linux & bash NumPy SciPy Vertica DB MySQL Tools: GitLab Jira Confluence Apache AirFlow Real-Time data Processing
WorldQuant
Saint Petersburg
9 months
2018-02 - 2018-10

Datenanalyse für Marketing Team

Data Scientist Python Scikit-learn GreenPlum ...
Data Scientist

  • Entwicklung von Modellen zur Vorhersage der profitabelsten Kundengruppen mit Hilfe von Random Forest Classifier (Vorhersage von Marketing Qualified Leads)
  • Modellierung und Prognose von Kundenzahlungsströmen.
  • Erstellen eines Mikrodienstes zur Bereitstellung regelmäßiger Datensätze für einen ständig selbstlernenden NLP-Algorithmus für maschinelles Lernen, der einen intelligenten Nachrichten-Feed bereitstellt.
  • Etablierung von Standards für die Dokumentation von Data-Science-Modellen
  • Entwicklung von Marketingberichten in Tableau für die tägliche Nutzung und ETL-Prozesse unter Verwendung von Google Analytics API

Python Scikit-learn GreenPlum Docker GIT Linux NumPy Tableau Gitlab Jira
IQ Option
Saint Petersburg
2 years 8 months
2015-07 - 2018-02

Automatisierung von Dokumenten im Kunden- und Logistikmanagement

System Analyst, Data Analyst Highcharts JS MS SQL MS SQL-Server ...
System Analyst, Data Analyst

  • Integrierung und leitende Entwicklung einer internen Android-Anwendung zur Digitalisierung von Geschäftsprozessen
  • Entwicklung der persönlichen Kontoanwendung für Firmenkunden. Google Play, AppStore.
  • Datenanalyse im Bereich Internet-Marketing mit Integration verschiedener Dashboards in das Unternehmens-CRM
  • Leitung der Entwicklung des internen Marketing-Tools: Überprüfung der Abnahmetestspezifikationen und gelegentliche Durchführung von Abnahmetests der entwickelten Funktionalität, Erstellung der Spezifikations
  • Vorbereiten von Finanzberichten für die Unternehmensleitung
  • Entwicklung von ETL-Pipelines in SQL-Server Integration Services

Highcharts JS MS SQL MS SQL-Server PHP Python BPMN UML Archimate Web service schemas (WSDL/XSD)
Baltic Land
Saint Petersburg
2 years 1 month
2013-07 - 2015-07

Cloud IT-Infrastruktur Aufbau

Systemingenieur Windows Server Docker Linux ...
Systemingenieur

Das Projekt wurde ins Leben gerufen, nachdem ein Problem im Zusammenhang mit dem schnellen Wachstum des Unternehmens erkannt wurde: das Fehlen einer komfortablen und kostengünstigen Unternehmensinfrastruktur, die für die Arbeit mit umfangreichen Desktop-Anwendungen wie 1C Accounting, 1C Salary und Staff Management erforderlich ist. Daher wurde beschlossen, alle Daten von den lokalen Büro-PCs auf den Cloud-Server zu migrieren, wo die notwendige Infrastruktur wie ein Terminalserver für den Fernzugriff auf die gewünschten Anwendungen eingerichtet werden sollte. Im Rahmen dieses Projektes wurden Windows 2012 Server mit MS SQL-Server, Windows Terminal Server 1C Programme installiert, ein Raid 10 Disk Array erstellt und das inkrementelle Backup System konfiguriert.

Verantwortlichkeiten:

  • Betrieb von Windows Server 2012 (Terminal Server 1C), Ubuntu Server 12.04 (Web Services Firma, XMPP Chat für Mitarbeiter, VPN für Remote Desktop Access)"
  • Anpassung des Cloud-Systems EDI (OwnCloud / Nextcloud + Onlyoffice Dokumentenserver)
  • Entwicklung einer Software zur Automatisierung der Erstellung von physischen Mailings
  • Pflege von Backups und Reservierungen

Windows Server Docker Linux Nginx Python PowerShell OpenSSL
Prometey
Saint Petersburg

Aus- und Weiterbildung

Aus- und Weiterbildung

2017 - 2019

Master of Science in Wirtschaftsinformatik

Technische Universität Ilmenau - Deutschland



2013 - 2017

Bachelor of Science in Wirtschaftsinformatik

Saint Petersburg State University


Zertifikate


**Mai 2024:** [Fabric Analytics Engineer Associate](https://learn.microsoft.com/en-gb/users/bogdanlashkov/credentials/e231780ad8387295)

**Jan 2024:** [Azure AI Fundamentals](https://learn.microsoft.com/en-us/users/bogdanlashkov/credentials/14a8f0b519eea9fa)

**Nov 2023:** [AWS Certified Data Analytics ? Specialty](https://www.credly.com/badges/3812b3fd-a0f4-4573-a312-2bee33a5dccf/public_url)

**Feb 2023:** [Snowflake Certification](https://www.credly.com/badges/2fc625dc-368f-450c-b87c-69a48d6d79d3/public_url)

**Jun 2018:** [Introduction to Data Science in Python](https://www.coursera.org/account/accomplishments/verify/A6QG38NVW56M)

**Jul 2018:** [Functional Programming Principles in Scala](https://www.coursera.org/account/accomplishments/verify/TRF4Z4ZNT5AE)

**Aug 2018:** [Applied Plotting, Charting & Data Representation in Python](https://www.coursera.org/account/accomplishments/certificate/7WWVQX9YE299)

**Sep 2018:** [Functional Program Design in Scala](https://www.coursera.org/account/accomplishments/verify/TRF4Z4ZNT5AE)

**Sep 2018:** [Applied Machine Learning in Python](https://www.coursera.org/account/accomplishments/certificate/7WWVQX9YE299)

Kompetenzen

Kompetenzen

Top-Skills

Python AWS Azure Kafka ETL Git Cloud Computing Kubernetes Linux SQL Snowflake PostgreSQL Business Intelligence Databricks Amazon EC2 Amazon Dynamo MS Azure SQL Database Dashboard NoSQL Oracle PL/SQL Oracleentwicklung

Produkte / Standards / Erfahrungen / Methoden

Python
Experte
Datenbanken
Experte
Data Vault
Experte
Databricks
Experte
SQL
Experte
Snowflake
Experte
Azure
Experte
AWS
Fortgeschritten
GCP
Fortgeschritten
Tableau
Fortgeschritten
Power BI
Experte
Sehr geehrte Damen und Herren,
herzlich willkommen auf meinem Profil und besten Dank für Ihr Interesse!
Als Data Cloud Architekt und Lead Data Engineer verfüge ich über mehr als zwölf Jahre Erfahrung in der IT-Beratung. In dieser Zeit realisierte ich Projekte für namhafte Unternehmen wie DM, E.ON, Carl Zeiss, Encavis, ING, KfW, WorldQuant, Catella und IQ Option. Meine Expertise umfasst folgende Kernbereiche:

Cloud Data Engineering
Datenmigration & -integration
Data-Lake-Architekturen
BI-/Data-Warehouse-Lösungen

Fachkompetenz im Überblick:

Architektur & Entwicklung : Konzeption, Design und Implementierung von ETL/ELT-Pipelines für Data Warehouses und Data Lakes mit Tools wie Apache Airflow, Kafka, AWS Glue, Databricks (Azure), Informatica PowerCenter und Azure Data Factory.
Datenmodellierung : Spezialisiert auf dimensionale Modellierung (Star/Snowflake-Schema) und Data Vault 2.0 (Raw/Business Vault).
Datenquellen : Umgang mit strukturierten/halbstrukturierten Formaten (Datenbanken, Parquet, REST-APIs, CSV/XML/JSON).
Datenschichtdesign : Aufbau mehrstufiger Architekturen (Stage Layer, Core Layer, Reporting Layer) zur Optimierung von Datenqualität und Prozesseffizienz.
Teamkoordination : Agile Zusammenarbeit mit Datenarchitekten, Business-Analysten und Produktmanagern bei der Spezifikation von Anforderungen und Systemdesigns.
Projektmethodik : Aktive Mitwirkung in Scrum-Prozessen (Sprint-Planning, User-Story-Erstellung, Task-Definition).

Technologiestack
ETL-Tools :
Apache Airflow, Kafka, PySpark, AWS Glue, Databricks (Azure), dbt, Informatica PowerCenter, Azure Data Factory
Datenbanken :
Snowflake, Redshift, Oracle 21c, Microsoft SQL Server 2019, IBM DB2, Hadoop HDFS, PostgreSQL 10.7, MySQL, Amazon Aurora
Big Data :
Vertica, Dask, Greenplum, ClickHouse, AWS Glue, Kinesis, Hadoop 2.0, Hive
Cloud :
AWS, Databricks, S3, AWS RDS (PostgreSQL), Azure Blobs, Azure Batch, Azure Data Factory, Kubernetes, Docker
Reporting & Visualisierung :
Power BI, Tableau, Shiny, Matplotlib, Plotly
Modellierung :
3. Normalform (3NF), Dimensional Modeling, Data Vault 2.0
Methodiken :
Agile, Scrum, Waterfall
Programmiersprachen :
Python (Flask, Pandas, PyTorch, Scikit-learn, PM4Py), R, PowerShell, JavaScript, Java, SQL/T-SQL/PL-SQL, UNIX/Bash
Data Science :

Data Mining : Betriebsdatenanalyse, Process Mining (PM4Py), Web Scraping (Selenium)
Machine Learning : Deep Learning, Computer Vision, NLP, Statistische Modellierung

Modellierungstools :
SAP PowerDesigner
Integration & Planung :

Informatica IICS (Data & Application Integration)
BMC Control-M 9.0.19, Automic UC4, Systemd Timers

Systeme & Infrastruktur :
Linux, AIX, Windows; Hochverfügbarkeitslösungen (RAC, Failover-Cluster), CI/CD, Microservices
Projektmanagement :
Ressourcensteuerung, Qualitätssicherung, A/B-Testing, Kanban


Branchen

Branchen

Drogeriehandel, Energiesektor, Erneuerbare Energien, Banking, Feinmechanik und Optik

Vertrauen Sie auf Randstad

Im Bereich Freelancing
Im Bereich Arbeitnehmerüberlassung / Personalvermittlung

Fragen?

Rufen Sie uns an +49 89 500316-300 oder schreiben Sie uns:

Das Freelancer-Portal

Direktester geht's nicht! Ganz einfach Freelancer finden und direkt Kontakt aufnehmen.