Data Analyst/Data Scientist, Data Engineering, SQL
Aktualisiert am 14.10.2023
Profil
Mitarbeiter eines Dienstleisters
Remote-Arbeit
Verfügbar ab: 15.10.2023
Verfügbar zu: 100%
davon vor Ort: 20%
Skill-Profil eines fest angestellten Mitarbeiters des Dienstleisters
Englisch
Verhandlungssicher
Deutsch
Muttersprache

Einsatzorte

Köln (+50km)
Deutschland, Österreich
möglich

Projekte

6 Monate
2023-03 - 2023-08

Analyse von Callcenter-Kundendaten für ein Logistik-Unternehmen

Data Scientist Python SQL SQL-Programmierung
Data Scientist
? Aktualisierung und Pflege des zugrundeliegenden Datenmodelles in Power BI
? Erstanalyse der Daten in Python/Databricks, data cleaning und Berechnung
diverser Aggregationen (pandas)
? Visualisierungen von Anrufern und Redialern (Zeitreihenanalyse) in Microsoft
Power BI zur Bestimmung der Kernzeiten
Azure Databricks Power BI MS Azure SQL Database
Python SQL SQL-Programmierung
Köln
10 Monate
2022-11 - 2023-08

Vorhersage von Ereignissen nach bestimmten Faktoren mithilfe von Machine Learning Algorithmen auf der Basis von Databricks mit Python

Data Analyst/Machine Learning Engineer numpy pandas Scikit-learn ...
Data Analyst/Machine Learning Engineer
? Erstanalyse des Datasets mithilfe von Pandas, Seaborn und Matplotlib (Python)
zur Evaluierung des passenden Machine Learning Models
? Cross Validation für folgende Machine Learning Algorithmen: Random Forest,
Regression, Neuronales Netzwerk, Decision Tree, Logistic Regression und
K-Nearest Neighbours in Python (Scikit-learn, numpy)
? Evaluierung unterschiedlicher Modelle
? Deployment des Machine Learning Models (Random Forest) in Databricks,
Speicherung des Models im Azure Data Lake
? Visualisierung der Ergebnisse mit matplotlib und Seaborn (Python), Validierung
der Ergebnisse
Azure Cloud Azure Data Factory Azure Data Lake (Gen 2) Azure Databricks Power BI Visual Studio Code
numpy pandas Scikit-learn Matplotlib Seaborn Python
Köln
7 Monate
2023-01 - 2023-07

Data Mining und (Geo)Datenanalyse

Data Scientist Python numpy pandas ...
Data Scientist
? Web Scraping von Address- und Kontaktdaten sowie Google-Ratings mit selenium
? Web Scraping von Leitregion-Daten von wikipedia mit Pythons wikipedia-library
? Gruppierung nach Leitregion und Datenanalyse/Visualisierung mit pandas und
seaborn
? Splitting der Tabelle in kleinere Tabellen mit numpy und Geocoding der Web
Scraping-Ergebnisse (Ableitung von Geokoordinaten aus Addressen) mit geopy
? Visualisierung der Geocoding-Ergebnisse mit folium
? Web Scraping und Filtering möglicher URLs
Selenium Power BI MS Azure SQL Database Databricks RStudio
Python numpy pandas geopy folium
Köln
9 Monate
2022-11 - 2023-07

Erstellung einer Machine Learning-Pipeline zur Identifizierung ähnlicher Jobbeschreibungen (Text Similarity) für Einträge eines Jobportales

Data Engineer und Data Scientist scikit-learn pandas Python ...
Data Engineer und Data Scientist
? Tokenisierung und Data Cleaning von Jobbeschreibungen innerhalb eines
DataFrames (Databricks/Python)
? Vektorisierung und Berechnung der Cosinus-Ähnlichkeit aller möglichen
Kombinationen von Jobbeschreibungen (Databricks/Python)
? JOIN der berechneten ähnlichen Jobs auf entsprechende IDs und Evaluierung der
Ergebnisse in Zusammenarbeit mit HR (Databricks/Python)
? Speicherung der Ergebnisse in einer Azure SQL-Datenbank
Databricks Azure SQL Datenbank Power BI
scikit-learn pandas Python spacy T-SQL
Köln
9 Monate
2022-11 - 2023-07

Erstellung eines Recommendation Systems für eine Mitarbeiter-Auftragszuordnung für einen IT-Dienstleister mithilfe von Azure Databricks, Azure Data Factory, Python, Azure SQL Server, Azure Apache Spark Cluster und Azure Blob Storage (Gen2)

Data Analyst und Data Scientist ETL numpy pandas ...
Data Analyst und Data Scientist
? Aufsetzen einer Azure-Infrastruktur (Databricks, Datafactory, SQL Server, Spark
Cluster, Blob Storage (Gen2))
? Egänzung und Debugging eines Web Scraping Workflows in Azure Databricks auf
Basis von beautifulsoup (bs4, requests, Python) zur Auslese unterschiedlicher
Web-Auftragsportale
? Aufbereitung, Datacleaning und Strukturierung der unstrukturierten Daten mittels
NLP (Nature Language Prozessing), Vektorisierungs-Methode TF-IDF (term
frequency-inverse document frequency) in Azure Databricks
? Zuordnung der Projekte zu den Aufträgen durch Nature Language Prozessing
(NLP)-Methoden wie N-Gramm-Tokenisierung, Lemmatisierung und
anschließendem Vergleich durch Cosine-Similarity in Form eines Azure Data
Bricks Notebooks (Python und PySparkSQL)
? Nutzung von Fuzzy-Modellen in Python (NLTK) für Daten und Zeiten, um auch bei
fehlerhaft geschriebenen Aufträgen eine Zuordnung auf die Mitarbeiter zu
ermöglichen
? Evaluierung der entwickelten Machine Learning Modelle mithilfe von überprüften
Testdaten des Fachbereichs
? Durchführung von Hyper Parameter Tuning zur Optimierung des Machine
Learning Models in Databricks und Python
? Implementierung der Orchestrierung und ETL Prozesse in Azure Data Factory.
Entwicklung von Prozeduren auf der Azure SQL Datenbank zur Verarbeitung der
strukturierten Daten im SQL Server Management Studio (SSMS) und Azure Data
Studio
? Analyse und Darstellung der Ergebnisse aus dem Machine Learning Modell
mithilfe von Python
? Mitarbeit in einem SCRUM-Team
? Speicherung der strukturierten Daten in einer Azure SQL Datenbank
? Ergänzung der zugrundeliegenden Datenbank um neue Variablen
? Konzipierung des Rankings für Zuordnungen von Job auf Mitarbeiter*innen,
Evaluierung der Ergebnisse in Absprache mit HR
Azure Data Factory Azure Cloud Azure Data Lake (Gen 2) Azure Databricks Azure SQL Database SQL Server Management Studio (SSMS) Power BI Azure Data Studio beautifulsoup (bs4) ChatGPT
ETL numpy pandas Apache Spark / pyspark Scikit-learn PySparkSQL Python sklearn beautifulsoup (bs4) Transact-SQL (T-SQL) HTML requests
Heringer Consulting
Köln
3 Jahre 2 Monate
2019-05 - 2022-06

Statistische Programmierungen und Auswertungen im Bereich Ökotoxikologie/ Umweltwissenschaften

Data Scientist R tidyverse Pandas ...
Data Scientist
? Entwicklung von Unterschiedlichen Modellen wie Anova, Ancova, Permanova,
Mixed Models, Regression Modelling (R) zur Analyse quantitativer Daten aus dem
Bereich der Ökotoxikologie (Umweltwissenschaften) mit R
? Durchführung statistischer Tests und statistische Beratung mit R. Aufbereitung und
Visualisierung der Daten in ggplot2 (R)
? Umsetzung der Data Cleaning (regex) und Data Preparation (Pivoting) in den
ETL-Strecken in Python und R. Durchführung von Data Analysen der aufbereiten

Daten mithilfe von RStudio

? Datenanalyse von Mitarbeiter- und Kundenbefragungen mit SQL Server, Microsoft

Excel und Python

? Aufsetzen von Online-Befragungen mit LimeSurvey

? Fragebogenentwicklung und -validierung mit Python und Microsoft Excel

? Datenbankmanagement und Stammdatenmanagement: Aktualisierung und Pflege

der Mitarbeiter- und Kundendatenbanken mit SSMS und Microsoft Access

RStudio SQL Server Microsoft Excel Microsoft Access SQL Server Management Studio
R tidyverse Pandas Python LimeSurvey
5 Jahre 6 Monate
2017-01 - 2022-06

Datenanalyse im Bereich Environmental Psychology für einen Auftraggeber des öffentlichen Dienstes

Data Analyst R Python
Data Analyst
? Principal component analysis (in R) zur Analyse der Hauptmerkmale, die
Aufgeschlossenheit gegenüber umweltpositiven Einstellungen erklären können
? Visualisierung und Präsentation der Analyse mithilfe von R und Office-Produkten
? Datenerhebung zur Untersuchung der Einstellungen gegenüber Umwelt und
Umweltschutz junger Chines*innen
? Erstellung des Fragebogens: Verwendung des Environmental Attitudes Inventory
(EAI) sowie Erstellung eigener Items
R Studio Jupyter Notebook
R Python
5 Jahre 6 Monate
2017-01 - 2022-06

Konzeption und Entwicklung eines Anonymisierungsprozesses für die Auswertung medizinischer Daten

Data Scientist Python Matlab Pandas ...
Data Scientist
? Erstellung und Umsetzung eines Konzepts für das Anonymisieren von
Gesundheitsdaten mithilfe von Python, um dem Datenschutzrichtlinien gerecht zu
werden (Unnachvollziehbarkeit auf echte Personen)
? Verarbeitung der aufbereiteten Daten zur Berechnung von Zeitdifferenzen und
klinisch relevanter Kennzahlen mithilfe von Python in Jupyter Notebooks
? Erstellung eines ausführlich kommentierten Jupyter Notebooks zu
Demonstrationszwecken
? Visualisierung und Präsentation der erhaltenen Analyseergebnisse
Jupyter Notebook
Python Matlab Pandas Seaborn
4 Jahre
2017-01 - 2020-12

Datenanalyse im Bereich Environmental Physics und erneuerbarer Energie

Data Analyst/Data Scientist R Studio ggplot2 Python ...
Data Analyst/Data Scientist
? Scraping von Relevanten Daten aus dem Web mithilfe von dem package "beautiful
soup" und "pandas" in Python, Zusammenführungen und Berechnungen von KPIs
für ökotoxikologischer Daten mithilfe von RStudio
? Datenanalysen für Landnutzungsbewertungen (NDMS, Permanova ?) mithilfe
von statistischen Methoden in R
? Visualisierungen mit R und ggplot2 (Scatterplots, Heat Maps ?) und statistische

Beratung

? Entwicklung eines Prozesses für das Sammeln von Open Source-Daten und

geophysikalischen Daten mithilfe von Python

? Entwicklung eines Datenbankmodels für das Speichern der gesammelten Daten

für spätere Analysen in SQL Server

? Data Cleaning und Aggregation der gesammelten Daten in R und Python

? Analyse und Kartographie der gesammelten und aufbereiteten Daten mithilfe von

QGIS und RStudio

? Analyse und Vergleich unterschiedlicher Parameter auf die zeitliche Entwicklung

für Daten aus dem Umwelt-Sektor mithilfe von R

? Graphische Auswertung der Ergebnisse mit ggplot2 und RStudio

? Simulierung unterschiedlicher Szenarien in predator-prey-Dynamiken in R

(Zeitreihenanalysen)

? Aufbereitung und Vorstellung der Analyse-Ergebnisse in mehreren Gremien

? Untersuchung auf Bioindikatoren und Schadstoffe mithilfe von R und Python

? Auswertung und graphische Darstellung der Ergebnisse mit ggplot2 (R Studio)

? Probenahmen von geklärtem Wasser im Freiland

? Aufbereitung und Präsentation der Analyseergebnisse für das Analysten Team

R Studio ggplot2 Python Datenbanken QGIS SQL Server
R Studio ggplot2 Python Python (Beautiful Soup Pandas Beautiful Soup SQL
1 Jahr
2018-01 - 2018-12

GIS-Spezialist (QGIS)

Data Analyst/Data Scientist Python R
Data Analyst/Data Scientist
? Erstellung eines Algorithmus zur automatisierten Zuordnung einzelner Bäume zu
öffentlichen Objekten mithilfe von R (RStudio) und Python (Pandas)
? Visualisierung und Präsentation der Analysierten Ergebnisse für die Staekholder
mithilfe von R und Office-Produkten (PowerPoint)
? Georeferenzierung geographischer Objekte
? Bearbeitung öffentlicher Aufträge: Kartographie von Liegenschaften und
öffentlichen Anlagen im urbanen Raum
? Dokumentation verschiedener Geoverarbeitungs-Tools für Kund*innen und
Mitarbeiter*innen
QGIS RStudio MS Office
Python R

Aus- und Weiterbildung

8 Monate
2023-01 - 2023-08

Microsoft Certified: Power BI Data Analyst Associate

Power BI Datenanalyse und Reporting
4 Monate
2022-11 - 2023-02

Microsoft Certified: Azure Data Engineer Associate

Azure Data Engineering mit Schwerpunkt auf 

  • Azure SQL Datenbank
  • Azure Databricks
  • Azure Data Factory
  • Azure Blob Storage
  • Azure Datenverarbeitung

5 Jahre 1 Monat
2011-01 - 2016-01

Environmental Sciences

Master, Tübingen
Master
Tübingen
Datenanalyse, Datenaufbereitung, Data Mining und Data Science

Position

Data Scientist, Data Engineer and Data Analyst with 6 years of experience in the areas of data science, data mining, data analysis, data engineering and geo data.

Kompetenzen

Schwerpunkte

Data Science
Development of statistical and machine learning models
Predictive analytics and classification
Natural Language Processing
Time-series analysis
Geographic Information Systems (GIS)
Spatial data analysis
Cartography and visualization
Geocoding and geoprocessing
Business Intelligence
Development of dashboards and reports using Power BI
Data visualization and decision support
KPI tracking and business analysis
Data Analysis
Descriptive statistics and visualization
Exploratory data analysis
Hypothesis testing and inferential statistics
Reporting and dashboard creation
Data Management and Engineering
ETL processes (Extract, Transform, Load)
Data cleaning and preprocessing
Data modeling and architecture
Working with big data and databases
Automation of workflows and working with APIs
Cloud Computing and Platforms
Azure services for data science and analytics
Serverless computing and containerization
Data storage and management in the cloud

Branchen

  • Environmental Economics
  • Healthcare
  • IT
  • Industry
  • Public sector
  • Research
  • Energie


Vertrauen Sie auf GULP

Im Bereich Freelancing
Im Bereich Arbeitnehmerüberlassung / Personalvermittlung

Fragen?

Rufen Sie uns an +49 89 500316-300 oder schreiben Sie uns:

Das GULP Freelancer-Portal

Direktester geht's nicht! Ganz einfach Freelancer finden und direkt Kontakt aufnehmen.