Big Data, Data Science, Business Intelligence, Data Warehousing, Cloud Computing
Aktualisiert am 23.09.2024
Profil
Freiberufler / Selbstständiger
Remote-Arbeit
Verfügbar ab: 07.01.2025
Verfügbar zu: 100%
davon vor Ort: 100%
Apache Spark
Apache Hadoop
AWS
Pentaho
Python
Pyspark
Java
SQL
Hive
Impala
Cloudera
MongoDB
Business Inteligence
Big Data
ETL
Scrum
Data Warehousing
Data Engineering
Cloud Computing
Data Science
Apache NiFi
Apache Airflow
Kafka

Einsatzorte

Einsatzorte

München (+50km)
möglich

Projekte

Projekte

4 Monate
2023-12 - 2024-03

Entwicklung einer In-silico Drug-Design Plattform (Teilprojekt 4)

Data Engineer, Data Scientist Cloud Computing Software-Entwicklung Data Engineering
Data Engineer, Data Scientist

Entwicklung einer (serverless Cloud) Anwendung zur Gene-Expressions Analyse


Aufgaben:

  • Design und Implementierung der Software-Komponenten / Daten-Pipelines
  • Aufsetzen von Deployment-Pipelines
  • Performance Analyse und (Kosten-) Optimierung
  • Technische Dokumentation


Git BitBucket Atlassian JIRA AWS GraphQL ReactJS D3 Python PyCharm Parquet PySPark Apache Spark Pandas Jupyter Docker
Cloud Computing Software-Entwicklung Data Engineering
Remote
10 Monate
2023-02 - 2023-11

Entwicklung einer In-silico Drug-Design Plattform (Teilprojekt 3)

Data Engineer, Data Scientist Cloud Computing Software-Entwicklung Data Engineering
Data Engineer, Data Scientist

Entwicklung einer Pipeline zum Design von Antikörpern auf Basis eines GPU/CPU On-Premise Clusters


Aufgaben:

  • Durchführung von Proof-Of-Concepts
  •  Design und Implementierung der Software-Komponenten / Daten-Pipelines
  • Performance Analyse und Optimierung
  • Technische Dokumentation
  • Statistische Analysen und Evaluierungen von ML-Modellen
Git BitBucket Atlassian JIRA Python PyCharm Parquet Apache Spark PySpark Raytracing Pandas Jupyter PyRosetta PyMol PyTorch Java Eclipse Maven Docker
Cloud Computing Software-Entwicklung Data Engineering
Remote
1 Jahr
2022-04 - 2023-03

Entwicklung einer In-silico Drug-Design Plattform (Teilprojekt 2)

Data Engineer, Data Scientist Cloud Computing Software-Entwicklung Data Engineering
Data Engineer, Data Scientist

Entwicklung einer Pipeline zum High-Throughput (Small Molecule) Docking auf Basis einer serverless Cloud-Architektur


Aufgaben:

  • Durchführung von Proof-Of-Concepts
  • Design und Implementierung der Software-Komponenten / Daten-Pipelines
  • Performance Analyse und Optimierung
  •  Technische Dokumentation
  • Statistische Analysen und Evaluierungen von ML-Modellen
Git BitBucket Atlassian JIRA AWS Python PyCharm Parquet Apache Spark PySpark Pandas Jupyter Keras Scikit-Learn Docker
Cloud Computing Software-Entwicklung Data Engineering
Remote
7 Monate
2021-09 - 2022-03

Entwicklung einer In-silico Drug-Design Plattform (Teilprojekt 1)

Data Engineer, Data Scientist Cloud Computing Software-Entwicklung Data Engineering
Data Engineer, Data Scientist

Entwicklung einer Pipeline zur Transformation und Anreicherung von Massenspektrometrie-Daten zur graph-basierten Analyse in der Cloud


Aufgaben:

  • Durchführung von Proof-Of-Concepts
  • Design und Implementierung der Software-Komponenten / Daten-Pipelines
  • Performance Analyse und Optimierung
  • Technische Dokumentation

AWS Java Docker Git BitBucket Atlassian JIRA Eclipse Maven Jira Parquet Avro
Cloud Computing Software-Entwicklung Data Engineering
Remote
2 Jahre 6 Monate
2019-01 - 2021-06

Entwicklung einer Pipeline zur Transformation von Unternehmensdaten

Data Engineer Big Data Data Engineering Scrum
Data Engineer

Entwicklung einer Pipeline zur Transformation von Unternehmensdaten in das zentrale Data Backend einer Analytics/AI Anwendung

Ziel des Projekts ist die Neuimplementierung einer auf Stored Procedures basierten

Transformation großer Mengen an Rohdaten für die effiziente Verarbeitung durch eine Analytics Anwendung mit dem Ziel Unternehmensprozesse zu optimieren

  • Entwicklung eines Proof-Of-Concepts bzgl der Verwendung von Spark
  • Einführung von PySpark mit signifikanter Verbesserung der Performance bzgl Laufzeit / Speichernutzung
  • Einführung von Airflow zur Orchestrierung der Data-Transformation Tasks
  • Integration von AWS Elastic MapReduce in die Daten-Pipeline
  • Mitentwicklung der Software-Komponenten / Code Reviews
  • Integration von Logging, Monitoring und Alerting Infrastruktur
  • Planung und Aufbau von Infrastruktur für automatisierte Tests
  • Performance Analyse und Optimierung
  • Technische Dokumentation
  • Beratung zur Verbesserung des Entwicklungsprozesses / Moderation von Retrospektiven

SAP HANA HANA Development Tools SQL Stored Procedures DBeaver Python PySpark Pandas Pytest PyCharm Eclipse Docker BitBucket Git Jenkins Confluence JIRA Parquet AWS Airflow Apache Spark Amazon Web Service
Big Data Data Engineering Scrum
München
1 Jahr
2018-01 - 2018-12

Entwicklung eines Data Lake basiertem Data Warehouse in der Cloud

Data Engineer Data Warehousing Cloud Computing Software Engineering ...
Data Engineer

Für eine B2B-Vernetzungsplattform in der Cloud, gebaut nach den Prinzipien der
Microservices und dem Event Sourcing, sollte ein Data Warehouse entwickelt werden welches in der Lage ist die Daten/Events aus dem Produktivsystem in Echtzeit abzugreifen und in einem zentralen Data Lake für direkte Analysen oder Downstream-Weiterverarbeitung zu integrieren.
  • Definition von fachlichen Kern Use-Cases für die Entwicklung eines Prototypen und Minimum Viable Products
  • Analyse und Dokumentation technischer Schnittstellen und fachlichen Events des Produktivsystems
  • Diskussion / Entwurf der technischen Gesamt-Architektur
  • Evaluation von Technologien zur SQL-basierten Analyse von Daten (Schema-on-Read, Schema-on-Write)
  • Durchführung von Benchmark-/Performance-Tests
  • Entwicklung/Anpassung von NiFi-Flows für den Data-Ingest aus dem Produktivsystem

  • Erstellung von Cloudformation Templates für diverse Infrastruktur-Komponenten
  • Entwicklung von Lambda Funktionen
  • Entwicklung von Deployment-Pipelines
  • Durchführung von Integrations-Tests
AWS Redshift Spectrum Athena Impala Kite Avro Parquet NiFi Docker Ansible Java JDBC JUnit Mockito Eclipse Python PyCharm BitBucket Git Maven Jenkins Confluence Jira
Data Warehousing Cloud Computing Software Engineering DevOps Scrum
Mercateo Gruppe
München
2 Jahre
2017-01 - 2018-12

Migration vorhandener Business Intelligence, Data Warehouse und Big Data Infrastruktur nach AWS

Data Engineer Big Data Data Warehousing Data Science ...
Data Engineer
Iterative Migration vorhandener Business Intelligence, Data Warehouse und Big Data
Infrastruktur nach AWS als Teil einer unternehmensweiten IT-Strategie
  • Erstellung eines Proof-Of-Concepts für die Migration des Business Intelligence Servers (Pentaho) nach AWS sowie Begleitung der Umsetzung durch Diskussion technischer Lösungen und Durchführung technischer Reviews
  • Erstellung eines Proof-Of-Concepts für die Migration des bestehenden On-Premises DWH Analytics Layer nach AWS Redshift inklusive der Durchführung von Last- und Performance-Tests
  • Planung und Umsetzung des vollautomatischen Deployments von Cloudera Infrastruktur nach AWS
  • Migration historischer Daten aus dem HDFS des On-Premises Cloudera Clusters nach S3/Glacier
  • Erstellung eines initialen Konzepts für die Migration von ETL Testinfrastruktur nach AWS als Diskussionsgrundlage
  • Erstellung eines Proof-Of-Concepts für die horizontale Skalierung (Distributed Computing) von Scikit-Learn mit Spark auf AWS Cloudera Infrastruktur
AWS Docker Logzio Prometheus Ansible Cloudera Director Pentaho Data Integration Pentaho Business Analytics SQL PostgreSQL Sqirrel DBeaver Java JDBC JUnit Eclipse Python Locust PyTest Scikit-Learn PyData PyCharm Spark BitBucket Git Maven Confluence Jira
Big Data Data Warehousing Data Science Cloud Computing DevOps Scrum
Mercateo Gruppe
München
6 Monate
2016-07 - 2016-12

Implementierung eines Modells zur Vorhersage von Churn-Kandidaten

Business Intelligence Data Science Data Engineering ...
Implementierung eines Modells zur Vorhersage von Churn-Kandidaten inklusive der Visualisierung in einem analytischem Dashboard. Zur Unterstützung vertrieblicher Aktivitäten sollte ein statistisches Modell zur Prognose des zukünftigen Kaufverhaltens der Kunden der eCommerce Plattform umgesetzt werden. Berechnete Prognose-Scores sollten in Form eines interaktiven, analytischen Dashboards visualisiert werden.
  • Recherche wissenschaftlicher Literatur zum Thema Churn bzw Prognose des Kaufverhaltens von Kunden
  • Analyse der relevanten Quelldaten
  • Umsetzung und Anpassung eines in der Literatur vorhandenen statistischen Prognose-Modells
  • Evaluierung der Vorhersage-Performance
  • Entwicklung einer vollautomatischen Data-Pipeline für die Modell-Kalibrierung bzw für die tägliche Neuberechnung von Churn-Scores für alle aktiven Kunden
  • Planung und Umsetzung von analytischen Dashboards für die Visualisierung der Vorhersage-Performance sowie für die Visualisierung der berechneten Scores im fachlichen Kontext
  • Erstellung von Screencasts zum schnellen Einstieg fachlicher Nutzer
  • Technische Dokumentation der Front-To-Back Architektur
Pentaho Data Integration Pentaho CTools WEKA SQL PostgreSQL SQirrel Java JDBC JNDI JUnit Eclipse BitBucket Git Maven Jenkins Confluence Jira
Business Intelligence Data Science Data Engineering Software Engineering
Mercateo Gruppe
München
1 Jahr
2015-07 - 2016-06

Einführung von Hadoop, Spark und MongoDB für Big Data Analytics

Big Data Data Warehousing Data Engineering ...
Erweiterung des bestehenden, klassischen Data Warehouses um Hadoop (Cloudera), Spark und MongoDB für die effiziente Speicherung und Analyse von operativen Massendaten (Artikel, Dupletten, Preise, Logs).
  • Aufbau und Wartung eines Cloudera Clusters
  • Integration von Hadoop und Spark mit der bestehenden ETL- und Business Intelligence Platform
  • Evaluation von Storage-Formaten für optimale Query-Performance
  • Mitentwicklung und Umsetzung von Konzepten zur Historisierung von Massendaten
  • Migration bestehender Batch-/ETL Prozesse sowie Reporting-Lösungen nach Hadoop
  • Entwicklung einer Spark-basierten Batch-Analyse (als Pilotprojekt für die generelle Nutzung von Spark im Unternehmen) als operative Teilkomponente für die Berechnung optimaler Artikelpreise der E-Commerce Plattform
  • Aufbau eines MongoDB Replica Sets als NoSQL Staging DB plus Data Pipeline für die Integration semistrukturierter Log/Messdaten aus dem Produktivsystem
Pentaho Data Integration Pentaho Business Analytics Hadoop Cloudera Manager HUE HDFS HBase SQOOP Hive Impala Parquet Avro Spark MongoDB SQL PostgreSQL SQirrel Java JDBC JUnit Eclipse Git Ant Jenkins Confluence Jira
Big Data Data Warehousing Data Engineering Business Inteligence Scrum
München
3 Monate
2015-04 - 2015-06

Entwicklung von Reporting-Lösungen zur Analyse des Online-Kundenverhaltens

Business Inteligence Reporting Data Engineering ...

Aufgabe war die Entwicklung diverser (statistischer) Reports zur Analyse des Online-Verhaltens von Kunden zur Unterstützung von Produktmanagement, Marketing und Vertrieb. Implementiert wurden Reports zur Analyse von A/B Tests, Vorher/Nachher Analysen der Kundenwertentwicklungsowie Funnel Analysen. Im Vordergrund stand die Berechnung von statistischen Signifikanzen sowie eine ansprechende Visualisierung der Ergebnisse.

Aufgaben:

  • Analyse der Anforderungen durch Gespräche mit den fachlichen Stakeholdern
  • Analyse der Datenquellen
  • Front-To-Back Entwicklung der Reports
  • Technische sowie fachliche Dokumentation und Support
  • Im Fall der A/B Test Analysen: Entwicklung eines Frameworks zur wiederholbaren Durchführung neuer A/B Tests auf Basis der gleichen Infrastruktur
Pentaho Data Integration Pentaho Business Analytics Hadoop HUE HDFS SQOOP Impala Parquet SQL PostgreSQL SQirrel Java JBDC JUnit Eclipse Git Ant Jenkins Confluence Jira
Business Inteligence Reporting Data Engineering Data Analytics Statistics
München
2 Jahre
2013-04 - 2015-03

Aufbau eines zentralen Data Warehouse und Einführung von Pentaho als Business Intelligence Lösung

Data Warehousing Data Engineering Business Intelligence ...

Ziel des Projekts war die Ablösung von diversen, verteilten (z.T. eigen-entwickelten) Reporting-Lösungen einer stark wachsenden B2B E-Commerce Plattform durch ein zentrales Data Warehouse in Kombination mit Pentaho als Business Intelligence System.

  • Analyse von Quellsystemen (Oracle, SQL-Server, SAP, RMI Services, Flat Files)
  • Modellierung und Implementierung des neuen Data Warehouse (Staging- und Analytics Layer)
  • Entwicklung von ETL Strecken zur Anbindung der Live-Systeme
  • Migration der Funktionalität bestehender Auswertungssysteme nach Pentaho
  • Anforderungsanalysen, Machbarkeitsschätzungen
  • Entwicklung von Standard-Reports, OLAP Cubes, Dashboards
  • Performance Analyse und Optimierung
  • Troubleshooting und Kommunikation mit dem Pentaho Support
  • Planung und Durchführung von Pentaho Release Updates
  • Schulung der Anwender in der Nutzung von Pentaho
Pentaho Data Integration Pentaho Business Analytics SQL PostgreSQL Oracle SQirrel PgAdmin Python PyCharm Java Spring Boot Spring Data Spring Cloud Config RMI JDBC JUnit Eclipse CVS Ant Jenkins Confluence Jira
Data Warehousing Data Engineering Business Intelligence Software Engineering
Mercateo Gruppe
München
1 Jahr 6 Monate
2011-10 - 2013-03

Erweiterung des existierenden Adserver Systems um eine regelbasierte Empfehlungs-Engine

Software Engineering Data Analytics Web Analytics
  • Design, Implementierung und Integration (Front-To-Back) der neuen Komponnete in die Plattform

  • Generelle Wartung des Adserver Systems und Implementierung von Feature Requests

  • Entwicklung von Prozessen und Tools für Tracking und Analyse des Nutzerverhaltens zur Ermittlung der Performance von Werbekampagnen

Java JDBC RMI JUnit Selenium Servlets JSP Struts Wicket Hibernate SQL Oracle CVS Ant Eclipse Jira Confluence
Software Engineering Data Analytics Web Analytics
München
2 Jahre 10 Monate
2008-12 - 2011-09

Einführung der Handelsplattform Calypso für Zins- und Kreditderivate

Software Engineering Business Analyse Scrum
  • Design und Implementierung von neuen oder Erweiterung bestehender Business-Kompenenten (z.B.: Market Conformity Checks, Real-Time Interfaces, Risk Visualization, Pricing, Reporting)
  • Anforderungsanalyse
  • Definition von Regressionstests
  • Production Support
  • Technische Dokumention
Java JDBC RMI Swing JUnit EasyMock Velocity SQL SQirrel Sybase XML XSLT UML SVN Tibco Rendezvous Jprofiler CruiseControl Windows Solaris OS Eclipse Jira HP QualityCenter Lotus Notes MS Office Suite Magic Draw UML
Software Engineering Business Analyse Scrum
Stuttgart
4 Jahre
2004-10 - 2008-09

Analyse metabolischer Netzwerke

Scientific Research Machine Learning Software Engineering
  • Entwicklung von Methoden und Tools für die Vorhersage der subzellulären Lokalisation von Proteinen durch Anwendung von Machine Learning
  • Entwicklung von effizienten Datenstrukturen und Suchalgorithmen für die Extraktion relevanter Informationen aus komplexen Netzwerkdaten durch Anwendung graphentheoretischer Methoden
  • Erweiterung der objektorientierten und relationalen Datenmodelle sowie der Datenintegationsfunktionalität einer Open Source Bibliothek für die Analyse biochemischer Netzwerke
C++ Python R PHP JavaScript SQL MySQL XML GraphViz Boost GDB Support Vector Machines Decision Trees libSVM C4.5 SciTE CVS Zope Server MS Office Suite Latex
Scientific Research Machine Learning Software Engineering
Tübingen
6 Monate
2002-04 - 2002-09

Entwicklung einer web-basierten Software

Software Engineering Business Analyse
Entwicklung einer web-basierten Software für die effiziente buchhalterische Erfassung von
Bereitschafts- / Rufbereitschaftszeiten und Notarzteinsätzen des medizinischen Personals inklusive der Generierung von Gehaltsabrechnungen
  • Anforderungsanalyse und Aufwandsschätzung
  • Design und Implementierung der Software sowie der zugrunde liegenden Datenbank
  • Präsentation von Prototyp und Endversion
  • Dokumentation und Installation sowie Einführung der HR-Mitarbeiter in die Software
Perl CVS SQL MySQL Apache HTTP Server SciTE Windows MS Office Suite
Software Engineering Business Analyse
Kreiskrankenhaus Sinsheim
Sinsheim

Aus- und Weiterbildung

Aus- und Weiterbildung

Ausbildung

  • Promotion in Bioinformatik (2009)
    Abschluß: magna cum laude
  • Diplom in Informatik (2004)
    Abschluß: 1,3


Zertifizierungen

  • AWS Solution Architect ? Associate, 2018

  • Cloudera Certified Data Engineer (CCP), 2017

  • M101J: MongoDB for Java Developers, MongoDB University, 2016

  • M102: MongoDB for DBAs, MongoDB University, 2016

  • Pentaho Architect Bootcamp, Pentaho, 2013

  • Sun Certified Java Programmer (SCJP), 2010

Position

Position

Planung und Entwicklung robuster, skalierbarer Lösungen im Bereich Data Engineering, Data Science und Cloud Computing (Hadoop, Spark, Pentaho, AWS, Airflow).

Kompetenzen

Kompetenzen

Top-Skills

Apache Spark Apache Hadoop AWS Pentaho Python Pyspark Java SQL Hive Impala Cloudera MongoDB Business Inteligence Big Data ETL Scrum Data Warehousing Data Engineering Cloud Computing Data Science Apache NiFi Apache Airflow Kafka

Schwerpunkte

  • Big Data / Data Science

  • Business Intelligence / Data Warehousing

  • Cloud Computing

Produkte / Standards / Erfahrungen / Methoden

Profil

  • Starke analytische, konzeptionelle und kommunikative Fähigkeiten. Hohe Eigeninitiative sowie selbständiges und ergebnisorientiertes Arbeiten.
  • 19 Jahre IT-Erfahrung in unterschiedlichen Rollen (Software Engineer, Data Engineer, Data Analyst, Data Scientist).
  • Mehr als zehn Jahre Erfahrung in der Anwendung agiler Projektmanagementmethoden (Scrum, Kanban).
  • Sehr vertraut mit relevanten (Big) Data Themen wie Business Intelligence, Data Warehousing, Data Analytics / Data Science sowie mehrere Jahre Erfahrung in der Anwendung moderner Technologien wie AWS, Hadoop, Spark und Pentaho sowie ihrer Ökosysteme.


IT-Skills

+++ (sehr gut), ++(gut), +(Grundkenntnisse vorhanden)

  • Big Data
    • Hadoop +++

    • Cloudera (CDH) +
    • Spark +++

    • MongoDB +++

    • Kafka ++
    • ElasticSearch +
  • Data Science
    • Machine Learning +++
    • ?WEKA ++
    • libSVM +++
    • TensorFlow +

    • Scikit-Learn +++

    • NumPy ++

    • Pandas ++

    • Matplotlib ++

    • Jupyter ++

    • R +

  • Business Intelligence
    • Reporting +++

    • OLAP +++

    • Dashboards +++

    • Pentaho Business Analytics +++

    • Pentaho CTools +++

  • Data Warehousing
    • Data Modeling +++

    • Star-Schema +++

    • ETL +++

    • Data Lake +++

    • Pentaho Data Integration +++

    • Apache NiFi ++
    • Apache Airflow +++
  • Rel. Databases
    • SQL +++

    • Postgresql +++

    • MySQL ++

    • Hive +++

    • Impala +++

    • Redshift +++

    • Oracle +

    • DB2 +

    • SAP HANA +
  • DevOps
    • Ansible +++

    • Docker ++

    • Kubernetes +
    • Jenkins +

    • Bash +++

    • Filebeat +
    • Kibana +
    • Chronograf +
    • Grafana +
    • Prometheus +
  • Cloud Computing
    • Amazon Web Services +++

  • Software Engineering
    • OOA /OOD /OOP +++

    • Design Patterns +++

    • Domain Driven Design +

    • Mircoservices +

    • REST Services +

    • Event Sourcing +

  • Java-Stack
    • ?JDBC +++
    • JUnit +++

    • Mockito ++

    • Hibernate ++

    • Spring +

    • Spring Boot +

    • Struts +

    • Wicket ++

    • RMI ++

    • Servlets ++

    • JSP ++

    • Tomcat ++

  • IDEs
    • Eclipse +++

    • PyCharm ++

  • Data / Storage Formats
    • JSON +++

    • XML ++

    • Parquet +++

    • Avro +++

  • Version Control
    • BitBucket ++

    • Git +++

    • SVN ++

    • CVS ++

  • Build
    • Maven +++

    • Ant +

    • Gradle +
  • Agile Methods
    • Scrum +++

    • Kanban ++

  • Documentation / Issue Tracking
    • Confluence +++

    • Jira +++

    • Word ++

    • OpenOffice ++

    • Latex +

Betriebssysteme

Linux
Windows

Programmiersprachen

Java
Python
Scala
C++
Perl
PHP
JavaScript

Branchen

Branchen

Gesundheitswesen, Forschung, Finanzdienstleistung, E-Commerce, Wirtschaftsprüfung, Biotechnologie

Einsatzorte

Einsatzorte

München (+50km)
möglich

Projekte

Projekte

4 Monate
2023-12 - 2024-03

Entwicklung einer In-silico Drug-Design Plattform (Teilprojekt 4)

Data Engineer, Data Scientist Cloud Computing Software-Entwicklung Data Engineering
Data Engineer, Data Scientist

Entwicklung einer (serverless Cloud) Anwendung zur Gene-Expressions Analyse


Aufgaben:

  • Design und Implementierung der Software-Komponenten / Daten-Pipelines
  • Aufsetzen von Deployment-Pipelines
  • Performance Analyse und (Kosten-) Optimierung
  • Technische Dokumentation


Git BitBucket Atlassian JIRA AWS GraphQL ReactJS D3 Python PyCharm Parquet PySPark Apache Spark Pandas Jupyter Docker
Cloud Computing Software-Entwicklung Data Engineering
Remote
10 Monate
2023-02 - 2023-11

Entwicklung einer In-silico Drug-Design Plattform (Teilprojekt 3)

Data Engineer, Data Scientist Cloud Computing Software-Entwicklung Data Engineering
Data Engineer, Data Scientist

Entwicklung einer Pipeline zum Design von Antikörpern auf Basis eines GPU/CPU On-Premise Clusters


Aufgaben:

  • Durchführung von Proof-Of-Concepts
  •  Design und Implementierung der Software-Komponenten / Daten-Pipelines
  • Performance Analyse und Optimierung
  • Technische Dokumentation
  • Statistische Analysen und Evaluierungen von ML-Modellen
Git BitBucket Atlassian JIRA Python PyCharm Parquet Apache Spark PySpark Raytracing Pandas Jupyter PyRosetta PyMol PyTorch Java Eclipse Maven Docker
Cloud Computing Software-Entwicklung Data Engineering
Remote
1 Jahr
2022-04 - 2023-03

Entwicklung einer In-silico Drug-Design Plattform (Teilprojekt 2)

Data Engineer, Data Scientist Cloud Computing Software-Entwicklung Data Engineering
Data Engineer, Data Scientist

Entwicklung einer Pipeline zum High-Throughput (Small Molecule) Docking auf Basis einer serverless Cloud-Architektur


Aufgaben:

  • Durchführung von Proof-Of-Concepts
  • Design und Implementierung der Software-Komponenten / Daten-Pipelines
  • Performance Analyse und Optimierung
  •  Technische Dokumentation
  • Statistische Analysen und Evaluierungen von ML-Modellen
Git BitBucket Atlassian JIRA AWS Python PyCharm Parquet Apache Spark PySpark Pandas Jupyter Keras Scikit-Learn Docker
Cloud Computing Software-Entwicklung Data Engineering
Remote
7 Monate
2021-09 - 2022-03

Entwicklung einer In-silico Drug-Design Plattform (Teilprojekt 1)

Data Engineer, Data Scientist Cloud Computing Software-Entwicklung Data Engineering
Data Engineer, Data Scientist

Entwicklung einer Pipeline zur Transformation und Anreicherung von Massenspektrometrie-Daten zur graph-basierten Analyse in der Cloud


Aufgaben:

  • Durchführung von Proof-Of-Concepts
  • Design und Implementierung der Software-Komponenten / Daten-Pipelines
  • Performance Analyse und Optimierung
  • Technische Dokumentation

AWS Java Docker Git BitBucket Atlassian JIRA Eclipse Maven Jira Parquet Avro
Cloud Computing Software-Entwicklung Data Engineering
Remote
2 Jahre 6 Monate
2019-01 - 2021-06

Entwicklung einer Pipeline zur Transformation von Unternehmensdaten

Data Engineer Big Data Data Engineering Scrum
Data Engineer

Entwicklung einer Pipeline zur Transformation von Unternehmensdaten in das zentrale Data Backend einer Analytics/AI Anwendung

Ziel des Projekts ist die Neuimplementierung einer auf Stored Procedures basierten

Transformation großer Mengen an Rohdaten für die effiziente Verarbeitung durch eine Analytics Anwendung mit dem Ziel Unternehmensprozesse zu optimieren

  • Entwicklung eines Proof-Of-Concepts bzgl der Verwendung von Spark
  • Einführung von PySpark mit signifikanter Verbesserung der Performance bzgl Laufzeit / Speichernutzung
  • Einführung von Airflow zur Orchestrierung der Data-Transformation Tasks
  • Integration von AWS Elastic MapReduce in die Daten-Pipeline
  • Mitentwicklung der Software-Komponenten / Code Reviews
  • Integration von Logging, Monitoring und Alerting Infrastruktur
  • Planung und Aufbau von Infrastruktur für automatisierte Tests
  • Performance Analyse und Optimierung
  • Technische Dokumentation
  • Beratung zur Verbesserung des Entwicklungsprozesses / Moderation von Retrospektiven

SAP HANA HANA Development Tools SQL Stored Procedures DBeaver Python PySpark Pandas Pytest PyCharm Eclipse Docker BitBucket Git Jenkins Confluence JIRA Parquet AWS Airflow Apache Spark Amazon Web Service
Big Data Data Engineering Scrum
München
1 Jahr
2018-01 - 2018-12

Entwicklung eines Data Lake basiertem Data Warehouse in der Cloud

Data Engineer Data Warehousing Cloud Computing Software Engineering ...
Data Engineer

Für eine B2B-Vernetzungsplattform in der Cloud, gebaut nach den Prinzipien der
Microservices und dem Event Sourcing, sollte ein Data Warehouse entwickelt werden welches in der Lage ist die Daten/Events aus dem Produktivsystem in Echtzeit abzugreifen und in einem zentralen Data Lake für direkte Analysen oder Downstream-Weiterverarbeitung zu integrieren.
  • Definition von fachlichen Kern Use-Cases für die Entwicklung eines Prototypen und Minimum Viable Products
  • Analyse und Dokumentation technischer Schnittstellen und fachlichen Events des Produktivsystems
  • Diskussion / Entwurf der technischen Gesamt-Architektur
  • Evaluation von Technologien zur SQL-basierten Analyse von Daten (Schema-on-Read, Schema-on-Write)
  • Durchführung von Benchmark-/Performance-Tests
  • Entwicklung/Anpassung von NiFi-Flows für den Data-Ingest aus dem Produktivsystem

  • Erstellung von Cloudformation Templates für diverse Infrastruktur-Komponenten
  • Entwicklung von Lambda Funktionen
  • Entwicklung von Deployment-Pipelines
  • Durchführung von Integrations-Tests
AWS Redshift Spectrum Athena Impala Kite Avro Parquet NiFi Docker Ansible Java JDBC JUnit Mockito Eclipse Python PyCharm BitBucket Git Maven Jenkins Confluence Jira
Data Warehousing Cloud Computing Software Engineering DevOps Scrum
Mercateo Gruppe
München
2 Jahre
2017-01 - 2018-12

Migration vorhandener Business Intelligence, Data Warehouse und Big Data Infrastruktur nach AWS

Data Engineer Big Data Data Warehousing Data Science ...
Data Engineer
Iterative Migration vorhandener Business Intelligence, Data Warehouse und Big Data
Infrastruktur nach AWS als Teil einer unternehmensweiten IT-Strategie
  • Erstellung eines Proof-Of-Concepts für die Migration des Business Intelligence Servers (Pentaho) nach AWS sowie Begleitung der Umsetzung durch Diskussion technischer Lösungen und Durchführung technischer Reviews
  • Erstellung eines Proof-Of-Concepts für die Migration des bestehenden On-Premises DWH Analytics Layer nach AWS Redshift inklusive der Durchführung von Last- und Performance-Tests
  • Planung und Umsetzung des vollautomatischen Deployments von Cloudera Infrastruktur nach AWS
  • Migration historischer Daten aus dem HDFS des On-Premises Cloudera Clusters nach S3/Glacier
  • Erstellung eines initialen Konzepts für die Migration von ETL Testinfrastruktur nach AWS als Diskussionsgrundlage
  • Erstellung eines Proof-Of-Concepts für die horizontale Skalierung (Distributed Computing) von Scikit-Learn mit Spark auf AWS Cloudera Infrastruktur
AWS Docker Logzio Prometheus Ansible Cloudera Director Pentaho Data Integration Pentaho Business Analytics SQL PostgreSQL Sqirrel DBeaver Java JDBC JUnit Eclipse Python Locust PyTest Scikit-Learn PyData PyCharm Spark BitBucket Git Maven Confluence Jira
Big Data Data Warehousing Data Science Cloud Computing DevOps Scrum
Mercateo Gruppe
München
6 Monate
2016-07 - 2016-12

Implementierung eines Modells zur Vorhersage von Churn-Kandidaten

Business Intelligence Data Science Data Engineering ...
Implementierung eines Modells zur Vorhersage von Churn-Kandidaten inklusive der Visualisierung in einem analytischem Dashboard. Zur Unterstützung vertrieblicher Aktivitäten sollte ein statistisches Modell zur Prognose des zukünftigen Kaufverhaltens der Kunden der eCommerce Plattform umgesetzt werden. Berechnete Prognose-Scores sollten in Form eines interaktiven, analytischen Dashboards visualisiert werden.
  • Recherche wissenschaftlicher Literatur zum Thema Churn bzw Prognose des Kaufverhaltens von Kunden
  • Analyse der relevanten Quelldaten
  • Umsetzung und Anpassung eines in der Literatur vorhandenen statistischen Prognose-Modells
  • Evaluierung der Vorhersage-Performance
  • Entwicklung einer vollautomatischen Data-Pipeline für die Modell-Kalibrierung bzw für die tägliche Neuberechnung von Churn-Scores für alle aktiven Kunden
  • Planung und Umsetzung von analytischen Dashboards für die Visualisierung der Vorhersage-Performance sowie für die Visualisierung der berechneten Scores im fachlichen Kontext
  • Erstellung von Screencasts zum schnellen Einstieg fachlicher Nutzer
  • Technische Dokumentation der Front-To-Back Architektur
Pentaho Data Integration Pentaho CTools WEKA SQL PostgreSQL SQirrel Java JDBC JNDI JUnit Eclipse BitBucket Git Maven Jenkins Confluence Jira
Business Intelligence Data Science Data Engineering Software Engineering
Mercateo Gruppe
München
1 Jahr
2015-07 - 2016-06

Einführung von Hadoop, Spark und MongoDB für Big Data Analytics

Big Data Data Warehousing Data Engineering ...
Erweiterung des bestehenden, klassischen Data Warehouses um Hadoop (Cloudera), Spark und MongoDB für die effiziente Speicherung und Analyse von operativen Massendaten (Artikel, Dupletten, Preise, Logs).
  • Aufbau und Wartung eines Cloudera Clusters
  • Integration von Hadoop und Spark mit der bestehenden ETL- und Business Intelligence Platform
  • Evaluation von Storage-Formaten für optimale Query-Performance
  • Mitentwicklung und Umsetzung von Konzepten zur Historisierung von Massendaten
  • Migration bestehender Batch-/ETL Prozesse sowie Reporting-Lösungen nach Hadoop
  • Entwicklung einer Spark-basierten Batch-Analyse (als Pilotprojekt für die generelle Nutzung von Spark im Unternehmen) als operative Teilkomponente für die Berechnung optimaler Artikelpreise der E-Commerce Plattform
  • Aufbau eines MongoDB Replica Sets als NoSQL Staging DB plus Data Pipeline für die Integration semistrukturierter Log/Messdaten aus dem Produktivsystem
Pentaho Data Integration Pentaho Business Analytics Hadoop Cloudera Manager HUE HDFS HBase SQOOP Hive Impala Parquet Avro Spark MongoDB SQL PostgreSQL SQirrel Java JDBC JUnit Eclipse Git Ant Jenkins Confluence Jira
Big Data Data Warehousing Data Engineering Business Inteligence Scrum
München
3 Monate
2015-04 - 2015-06

Entwicklung von Reporting-Lösungen zur Analyse des Online-Kundenverhaltens

Business Inteligence Reporting Data Engineering ...

Aufgabe war die Entwicklung diverser (statistischer) Reports zur Analyse des Online-Verhaltens von Kunden zur Unterstützung von Produktmanagement, Marketing und Vertrieb. Implementiert wurden Reports zur Analyse von A/B Tests, Vorher/Nachher Analysen der Kundenwertentwicklungsowie Funnel Analysen. Im Vordergrund stand die Berechnung von statistischen Signifikanzen sowie eine ansprechende Visualisierung der Ergebnisse.

Aufgaben:

  • Analyse der Anforderungen durch Gespräche mit den fachlichen Stakeholdern
  • Analyse der Datenquellen
  • Front-To-Back Entwicklung der Reports
  • Technische sowie fachliche Dokumentation und Support
  • Im Fall der A/B Test Analysen: Entwicklung eines Frameworks zur wiederholbaren Durchführung neuer A/B Tests auf Basis der gleichen Infrastruktur
Pentaho Data Integration Pentaho Business Analytics Hadoop HUE HDFS SQOOP Impala Parquet SQL PostgreSQL SQirrel Java JBDC JUnit Eclipse Git Ant Jenkins Confluence Jira
Business Inteligence Reporting Data Engineering Data Analytics Statistics
München
2 Jahre
2013-04 - 2015-03

Aufbau eines zentralen Data Warehouse und Einführung von Pentaho als Business Intelligence Lösung

Data Warehousing Data Engineering Business Intelligence ...

Ziel des Projekts war die Ablösung von diversen, verteilten (z.T. eigen-entwickelten) Reporting-Lösungen einer stark wachsenden B2B E-Commerce Plattform durch ein zentrales Data Warehouse in Kombination mit Pentaho als Business Intelligence System.

  • Analyse von Quellsystemen (Oracle, SQL-Server, SAP, RMI Services, Flat Files)
  • Modellierung und Implementierung des neuen Data Warehouse (Staging- und Analytics Layer)
  • Entwicklung von ETL Strecken zur Anbindung der Live-Systeme
  • Migration der Funktionalität bestehender Auswertungssysteme nach Pentaho
  • Anforderungsanalysen, Machbarkeitsschätzungen
  • Entwicklung von Standard-Reports, OLAP Cubes, Dashboards
  • Performance Analyse und Optimierung
  • Troubleshooting und Kommunikation mit dem Pentaho Support
  • Planung und Durchführung von Pentaho Release Updates
  • Schulung der Anwender in der Nutzung von Pentaho
Pentaho Data Integration Pentaho Business Analytics SQL PostgreSQL Oracle SQirrel PgAdmin Python PyCharm Java Spring Boot Spring Data Spring Cloud Config RMI JDBC JUnit Eclipse CVS Ant Jenkins Confluence Jira
Data Warehousing Data Engineering Business Intelligence Software Engineering
Mercateo Gruppe
München
1 Jahr 6 Monate
2011-10 - 2013-03

Erweiterung des existierenden Adserver Systems um eine regelbasierte Empfehlungs-Engine

Software Engineering Data Analytics Web Analytics
  • Design, Implementierung und Integration (Front-To-Back) der neuen Komponnete in die Plattform

  • Generelle Wartung des Adserver Systems und Implementierung von Feature Requests

  • Entwicklung von Prozessen und Tools für Tracking und Analyse des Nutzerverhaltens zur Ermittlung der Performance von Werbekampagnen

Java JDBC RMI JUnit Selenium Servlets JSP Struts Wicket Hibernate SQL Oracle CVS Ant Eclipse Jira Confluence
Software Engineering Data Analytics Web Analytics
München
2 Jahre 10 Monate
2008-12 - 2011-09

Einführung der Handelsplattform Calypso für Zins- und Kreditderivate

Software Engineering Business Analyse Scrum
  • Design und Implementierung von neuen oder Erweiterung bestehender Business-Kompenenten (z.B.: Market Conformity Checks, Real-Time Interfaces, Risk Visualization, Pricing, Reporting)
  • Anforderungsanalyse
  • Definition von Regressionstests
  • Production Support
  • Technische Dokumention
Java JDBC RMI Swing JUnit EasyMock Velocity SQL SQirrel Sybase XML XSLT UML SVN Tibco Rendezvous Jprofiler CruiseControl Windows Solaris OS Eclipse Jira HP QualityCenter Lotus Notes MS Office Suite Magic Draw UML
Software Engineering Business Analyse Scrum
Stuttgart
4 Jahre
2004-10 - 2008-09

Analyse metabolischer Netzwerke

Scientific Research Machine Learning Software Engineering
  • Entwicklung von Methoden und Tools für die Vorhersage der subzellulären Lokalisation von Proteinen durch Anwendung von Machine Learning
  • Entwicklung von effizienten Datenstrukturen und Suchalgorithmen für die Extraktion relevanter Informationen aus komplexen Netzwerkdaten durch Anwendung graphentheoretischer Methoden
  • Erweiterung der objektorientierten und relationalen Datenmodelle sowie der Datenintegationsfunktionalität einer Open Source Bibliothek für die Analyse biochemischer Netzwerke
C++ Python R PHP JavaScript SQL MySQL XML GraphViz Boost GDB Support Vector Machines Decision Trees libSVM C4.5 SciTE CVS Zope Server MS Office Suite Latex
Scientific Research Machine Learning Software Engineering
Tübingen
6 Monate
2002-04 - 2002-09

Entwicklung einer web-basierten Software

Software Engineering Business Analyse
Entwicklung einer web-basierten Software für die effiziente buchhalterische Erfassung von
Bereitschafts- / Rufbereitschaftszeiten und Notarzteinsätzen des medizinischen Personals inklusive der Generierung von Gehaltsabrechnungen
  • Anforderungsanalyse und Aufwandsschätzung
  • Design und Implementierung der Software sowie der zugrunde liegenden Datenbank
  • Präsentation von Prototyp und Endversion
  • Dokumentation und Installation sowie Einführung der HR-Mitarbeiter in die Software
Perl CVS SQL MySQL Apache HTTP Server SciTE Windows MS Office Suite
Software Engineering Business Analyse
Kreiskrankenhaus Sinsheim
Sinsheim

Aus- und Weiterbildung

Aus- und Weiterbildung

Ausbildung

  • Promotion in Bioinformatik (2009)
    Abschluß: magna cum laude
  • Diplom in Informatik (2004)
    Abschluß: 1,3


Zertifizierungen

  • AWS Solution Architect ? Associate, 2018

  • Cloudera Certified Data Engineer (CCP), 2017

  • M101J: MongoDB for Java Developers, MongoDB University, 2016

  • M102: MongoDB for DBAs, MongoDB University, 2016

  • Pentaho Architect Bootcamp, Pentaho, 2013

  • Sun Certified Java Programmer (SCJP), 2010

Position

Position

Planung und Entwicklung robuster, skalierbarer Lösungen im Bereich Data Engineering, Data Science und Cloud Computing (Hadoop, Spark, Pentaho, AWS, Airflow).

Kompetenzen

Kompetenzen

Top-Skills

Apache Spark Apache Hadoop AWS Pentaho Python Pyspark Java SQL Hive Impala Cloudera MongoDB Business Inteligence Big Data ETL Scrum Data Warehousing Data Engineering Cloud Computing Data Science Apache NiFi Apache Airflow Kafka

Schwerpunkte

  • Big Data / Data Science

  • Business Intelligence / Data Warehousing

  • Cloud Computing

Produkte / Standards / Erfahrungen / Methoden

Profil

  • Starke analytische, konzeptionelle und kommunikative Fähigkeiten. Hohe Eigeninitiative sowie selbständiges und ergebnisorientiertes Arbeiten.
  • 19 Jahre IT-Erfahrung in unterschiedlichen Rollen (Software Engineer, Data Engineer, Data Analyst, Data Scientist).
  • Mehr als zehn Jahre Erfahrung in der Anwendung agiler Projektmanagementmethoden (Scrum, Kanban).
  • Sehr vertraut mit relevanten (Big) Data Themen wie Business Intelligence, Data Warehousing, Data Analytics / Data Science sowie mehrere Jahre Erfahrung in der Anwendung moderner Technologien wie AWS, Hadoop, Spark und Pentaho sowie ihrer Ökosysteme.


IT-Skills

+++ (sehr gut), ++(gut), +(Grundkenntnisse vorhanden)

  • Big Data
    • Hadoop +++

    • Cloudera (CDH) +
    • Spark +++

    • MongoDB +++

    • Kafka ++
    • ElasticSearch +
  • Data Science
    • Machine Learning +++
    • ?WEKA ++
    • libSVM +++
    • TensorFlow +

    • Scikit-Learn +++

    • NumPy ++

    • Pandas ++

    • Matplotlib ++

    • Jupyter ++

    • R +

  • Business Intelligence
    • Reporting +++

    • OLAP +++

    • Dashboards +++

    • Pentaho Business Analytics +++

    • Pentaho CTools +++

  • Data Warehousing
    • Data Modeling +++

    • Star-Schema +++

    • ETL +++

    • Data Lake +++

    • Pentaho Data Integration +++

    • Apache NiFi ++
    • Apache Airflow +++
  • Rel. Databases
    • SQL +++

    • Postgresql +++

    • MySQL ++

    • Hive +++

    • Impala +++

    • Redshift +++

    • Oracle +

    • DB2 +

    • SAP HANA +
  • DevOps
    • Ansible +++

    • Docker ++

    • Kubernetes +
    • Jenkins +

    • Bash +++

    • Filebeat +
    • Kibana +
    • Chronograf +
    • Grafana +
    • Prometheus +
  • Cloud Computing
    • Amazon Web Services +++

  • Software Engineering
    • OOA /OOD /OOP +++

    • Design Patterns +++

    • Domain Driven Design +

    • Mircoservices +

    • REST Services +

    • Event Sourcing +

  • Java-Stack
    • ?JDBC +++
    • JUnit +++

    • Mockito ++

    • Hibernate ++

    • Spring +

    • Spring Boot +

    • Struts +

    • Wicket ++

    • RMI ++

    • Servlets ++

    • JSP ++

    • Tomcat ++

  • IDEs
    • Eclipse +++

    • PyCharm ++

  • Data / Storage Formats
    • JSON +++

    • XML ++

    • Parquet +++

    • Avro +++

  • Version Control
    • BitBucket ++

    • Git +++

    • SVN ++

    • CVS ++

  • Build
    • Maven +++

    • Ant +

    • Gradle +
  • Agile Methods
    • Scrum +++

    • Kanban ++

  • Documentation / Issue Tracking
    • Confluence +++

    • Jira +++

    • Word ++

    • OpenOffice ++

    • Latex +

Betriebssysteme

Linux
Windows

Programmiersprachen

Java
Python
Scala
C++
Perl
PHP
JavaScript

Branchen

Branchen

Gesundheitswesen, Forschung, Finanzdienstleistung, E-Commerce, Wirtschaftsprüfung, Biotechnologie

Vertrauen Sie auf Randstad

Im Bereich Freelancing
Im Bereich Arbeitnehmerüberlassung / Personalvermittlung

Fragen?

Rufen Sie uns an +49 89 500316-300 oder schreiben Sie uns:

Das Freelancer-Portal

Direktester geht's nicht! Ganz einfach Freelancer finden und direkt Kontakt aufnehmen.