Datenanalytiker (?Data Scientist?) mit Expertise in Statistik & maschinellem Lernen, Suchmaschinen, und Datenanalyse im Finanzbereich.
Aktualisiert am 09.07.2024
Profil
Freiberufler / Selbstständiger
Remote-Arbeit
Verfügbar ab: 14.07.2024
Verfügbar zu: 100%
davon vor Ort: 5%
Data Scientist
Suchmaschine
Big Data
Business Intelligence
Python
Predictive Analytics
Predictive Modeling
Predictive Maintenance
Text Mining
Apache Solr
Elastic Search
Apache Lucene
Redis
Linux
Perl
Lua
QGIS
Deutsch
Muttersprache
Englisch
7 Jahre Auslandsaufenthalt

Einsatzorte

Einsatzorte

Deutschland, Österreich, Schweiz
Ich bin ausschließlich für 100% Remote Projekte verfügbar. (Ausnahme: Bis zu 3 Tage am Stück für einen vor-Ort Einsatz. Bis zu 1 Einsatz pro Monat vor-Ort. Höherer Tagessatz anwendbar).
möglich

Projekte

Projekte

3 Jahre 8 Monate
2018-08 - 2022-03

Mathematische Modellierung & Simulation von Suchmaschinen-Anonymität

Senior Backend Engineer Data Science Cloud Infrastruktur Suchmaschinen ...
Senior Backend Engineer

Im Auftrag eines Betreibers einer datenschutzfreundlichen Internet-Suchmaschine arbeitete ich an einem strategisch maßgeblichen Projekt auf Vorstandsebene:?Inhalt war die Formulierung eines mathematischen Modells der Anonymitäts-Eigenschaften im Datenaustausch mit Dienstanbietern.

Aufgrund der Tatsache daß es diesbezüglich kein weitgehend akzeptiertes und weitgehend publiziertes Modell für die relevanten Datenstrukturen gab, war kreative mathematische Problemlösung nötig um ein derartiges Modell zu entwickeln.

Aus dem commitment des Auftraggebers im Hinblick auf die Privatsphäre der Nutzer ergab sich die Notwendigkeit, spezielle Methodik zu entwickeln um Statistiken aus dem Produktionssystem zu extrahieren welche die Privatsphäre der Nutzer respektierte.?Diese wurden dann durch Monte Carlo Simulation zu Session-Information gemacht die in unserer Analyse an die Stelle ?echter? Session-Information treten konnte.

Diese Daten konnten dann durch unseren Anonymisierungs-Prozess laufen sowie einen Evaluation-Prozess in dem die Anonymität der Daten pre/post Anonymisierung quantifiziert wurde.

Linux Perl Python Amazon EC2 Amazon S3 Elasticsearch Apache Solr Kyoto Cabinet Clickhouse PostgreSQL QGIS matplotlib numpy scipy scikit-learn
Data Science Cloud Infrastruktur Suchmaschinen NoSQL Analytic Cube
100% remote
1 Jahr 11 Monate
2017-02 - 2018-12

Textmining in Geschäftsvorgangsdokumentation

Data Science Berater Data Science
Data Science Berater

Entwickelt wurde ein Werkzeug welches durch automatische Textanalyse (text mining) treffsicher jene Telefónica Network Operations Geschäftsvorgänge identifiziert die die Aufmerksamkeit des Managements erfordern.

Ausgangspunkt für dieses Projekt waren Daten die von Telefónica Germany, dem größten Mobilfunkanbieter Deutschlands, in einem Ticketing System gesammelt wurden.

Mithilfe von Statistischer Sprachverarbeitung (statistical natural language processing) wurde eine Modellbildung vorgenommen die es ermöglicht aufgrund von Textinhalten automatisch Vorhersagen zu treffen, ob ein in einem Ticket dokumentierter Geschäftsvorgang mit hoher Wahrscheinlichkeit eine lange Bearbeitungszeit erfordern wird.

Das Endprodukt war ein Alerting System welches in der Lage war Warnungen per E-Mail an verschiedene Manager auszusenden, wenn Geschäftsvorgänge schief laufen oder anderweitig Aufmerksamkeit benötigen.

Kyoto Cabinet Linux Docker NoSQL Python matplotlib numpy scikit-learn scipy QGIS Apache Hadoop HDFS Hive HBase Phoenix Kafka Tableau
Data Science
Telefónica Germany Gmbh & Co OHG
München
8 Monate
2016-06 - 2017-01

Geographische Analyse von Anruferinformationen

Verantwortlicher für Maschinelles Lernen Data Science
Verantwortlicher für Maschinelles Lernen

Im Zuge von Flowminders humanitärer Arbeit in einem Krisengebiet im mittleren Osten extrahierte ich deskriptive Statistiken und kreierte geographisch-räumliche Visualisierungen aus de-identifizierten Anruferinformationen (call data records) vom Betreiber eines Mobilfunknetzwerks.

Die Kerndatenquelle hatte eine Größenordnung im Terabytebereich und musste zunächst von uns für den Zweck der statistischen Analyse aufbereitet werden.? Die hauptsächlichen Anforderungen hierbei waren effiziente Berechnung und Integration von heterogenen Datenquellen.

Im Zuge meiner Analyse extrahierte ich deskriptive Statistiken und erstellte geographisch-räumliche Visualisierungen von verschiedensten Charakteristiken der Daten.

Das Projektteam war multidisziplinär zusammengesetzt aus Data Science Experten und Experten im Anwendungsbereich.?Es gab eine starke Kultur, gewonnene Resultate durch Anwendungsexpertise zu kontextualisieren und anwendbare Einblicke (actionable insight) zu gewinnen.

Zusätzlich zu meiner Rolle im Projektteam, war ich auch Flowminders Themenverantwortlicher für maschinelles Lernen (machine learning), und konnte somit meine entsprechende Expertise über die Grenzen einzelner Projektteams hinweg einbringen.

Linux Python numpy scipy matplotlib ipython scikit-learn PostgreSQL NoSQL Kyoto Cabinet LevelDB
Data Science
Flowminder Stiftung
100% remote
4 Jahre 4 Monate
2012-10 - 2017-01

Internetbeobachtungsplattform

Geschäftsführer
Geschäftsführer

Eine Internetbeobachtungsplattform wurde durch mein Unternehmen entwickelt und betrieben wird. Meine Infrastruktur empfängt digitale Aussendungen, wie Posts auf News Webseiten, Blogs, etc. und filtert diese nach Relevanz.

Der Computer erhält Feedback über die Relevanz einzelner Aussendungen basierend auf kleinen Stichproben und nutzt Techniken aus der statistischen Sprachverarbeitung (statistical natural language processing) um Textmuster zu erkennen, die relevante von irrelevanten Inhalten unterscheiden.

Der Computer erkennt weiters Erwähnungen von geographischen Entitäten und ermöglicht es somit, Inhalte nach geographischem Bezug zu gruppieren, oder als Relevanzkriterium zu nutzen.

Da diese Mustererkennung für jeden Klienten individuell erfolgt, kann ich maßgeschneiderte Inhalte liefern.

NoSQL MongoDB Linux Python
Linz (A-4030, A-4040, A-4020)
6 Monate
2015-12 - 2016-05

Suchmaschine für eine Leitstellensoftware

Elasticsearch Experte Suchmaschinen
Elasticsearch Experte

Im Rahmen von Eurofunk?s Leitstellenlösung für Blaulichtorganisationen (eOCS Emergency Operations Center Suite) sollte eine ?allgemeine Suche? sowie eine Suche über rechtlich relevante Auditdaten entwickelt werden. Eurofunk beauftragte uns mit der Datenmodellierung sowie der Konfiguration um Elasticsearch in einer verteilten Umgebung mit maximaler Verfügbarkeit und Fehlertoleranz zu betreiben.

Dieses Projekt stellte ungewöhnlich hohe Anforderungen:
Robustheit, Fehlertoleranz, Zustellgarantieren für digitale Nachrichten, und all das in einem Kontext von niedriger Toleranz für operatives Risiko und Wartungszeiten.

Wir entwarfen eine Netzwerktopologie und eine Konfiguration
für die Elasticsearch Suchmaschine, basierend auf unserer
Erfahrung mit Suchmaschinenprojekten. Wir führten Tests und Simulationen durch um sicher zu stellen, daß das Setup als Ganzes den anspruchsvollen Anforderungen entsprach.

Weiters erstellten wir ein Datenmodell um qualitativ hochwertige Reihungen von Suchergebnissen zu ermöglichen, und brachten unsere Expertise auch im Hinblick auf die Gestaltung der Benutzerschnittstelle ein.

Elasticsearch logstash kibana beats RabbitMQ
Suchmaschinen
Eurofunk Kappacher GmbH
Salzburg (Österreich)
2 Jahre 9 Monate
2013-07 - 2016-03

Nachfrageanalyse im Tourismus

Mitglied / Sitz im Steering Committee Data Science
Mitglied / Sitz im Steering Committee

Das insightTourism Projekt wurde zum Teil aus öffentlichen Geldern finanziert, und widmete sich der Analyse der Nachfrage nach Tourismusangeboten, basierend auf wissenschaftlichen Modellen. Mein Beitrag zum Projekt war meine Expertise auf dem Gebiet der automatischen Verarbeitung von Sprache (natural language processing).

Zu meinen Aufgabenbereichen gehörte die programmatische Interaktion des wissenschaftlichen Modells mit Twitter, insbesondere die automatische Erkennung von Erwähnungen geographischer Entitäten, und die Vorverarbeitung von geographisch relevanten Metadaten.?Von größter Bedeutung war das von mir entwickelte Tool um die Relevanz und den Tourismusbezug von Tweets zunächst händisch zu markieren, und das darauf basierende Modell welches die Erkennung von Relevanz und Tourismusbezug in weiterer Folge automatisierte.

Als Vollmitglied im Konsortium mit Sitz im Steering Committee war ich, gemeinsam mit den anderen Projektpartnern aus dem privatwirtschaftlichen, öffentlich-rechtlichen, und akademischen Bereich, mit verantwortlich dafür, Ziele festzulegen und die Richtung vorzugeben für dieses Forschungsprojekt im Volumen von einer halben Million Euro.

NoSQL MongoDB Linux Python numpy scipy matplotlib ipython scikit-learn
Data Science
Forschungsförderungsgesellschaft (FFG)
Linz (A-4030, A-4040, A-4020)
5 Monate
2015-07 - 2015-11

Datenanalyse für eine Versicherung

Data Science Berater Data Science
Data Science Berater

Im Zuge dieses Projektes analysierte ich interne Datenquellen der Oberösterreichischen Versicherung mit Data Science Methoden. Insbesondere nahm ich eine automatische Mustererkennung mittels maschinellem lernen (machine learning) und eine Modellbildung zwecks Vorhersage (predictive modelling) vor.?Die Ergebnisse präsentierte ich unmittelbar auf Vorstandsebene.

Zur Verfügung gestellt wurden Rohdaten aus unternehmenseigenen IT Infrastrukturen.?Um diese in ein homogenes und für Analysezwecke geeignetes Format zu bringen führte ich umfangreiche Datenvorverarbeitungen (preprocessing) durch.

Die Daten wurden dann mithilfe bayesscher Methoden einer multivariaten Analyse unterzogen.?Untersucht wurden also Kombinationen von Variablen die aus den Daten hervorgingen, anstatt die Variablen einzeln und in Isolation zu betrachten.

Daraus ließen sich sowohl anwendbare Einblicke (actionable insight) ableiten, als auch eine Modellbildung mit unmittelbaren Anwendungen für den Auftraggeber.

[URL auf Anfrage]

Linux Python numpy scipy matplotlib ipython scikit-learn Kyoto Cabinet LevelDB
Data Science
Oberösterreichische Versicherung AG
Linz (A-4030, A-4040, A-4020)
2 Jahre 6 Monate
2012-12 - 2015-05

Clickoptimierung für einen Suchmaschinenanbieter

Search Engineer Suchmaschinen Data Science Column-Store Datenbanken ...
Search Engineer

Bei Juju, einer Jobsuchmaschine in den U.S.A., war ich als einzige Person verantwortlich für die Analyse von Daten über Suchanfragen, Resultate, und die dazugehörigen Clicks (Clickoptimierung = clickrate analysis).?Ich führte eine Reihe von Projekten zur Modellbildung durch.?Zu meinen Aufgaben zählte weiters die Konzeptionierung, Implementierung und fortlaufende Verbesserung der zugrunde liegenden Infrastruktur.

Juju ist eines von nur einer handvoll Unternehmen, die in den U.S.A. eine Job-Suchmaschine und ein dazugehöriges Werbenetzwerk selbst betreiben.?Aufgrund der clickbasierten Umsatzstruktur (cost per click) ist der Geschäftsprozess der Clickoptimierung, der von mir betreut wurde, für Juju von großer Bedeutung.

Die größte technische Herausforderung war die Größenordnung der Datenmenge: Die zentrale analytische Tabelle hatte über einhundert Spalten, und hunderte von Milliarden von Datensätzen.

Während meiner gesamten Zeit bei Juju arbeitete ich eng mit dem CEO zusammen, wobei diese Zusammenarbeit nicht auf den technischen Bereich beschränkt war.?So bestand zum Beispiel zeitweise mehr als die Hälfte des technischen Personals aus Personen bei denen ich Bewerbungsgespräche führte und die aufgrund meiner Empfehlung eingestellt wurden.

[URL auf Anfrage]

Apache Solr Amazon Redshift Amazon EC2 Amazon S3 Amazon EMR Linux Python numpy scipy matplotlib ipython scikit-learn
Suchmaschinen Data Science Column-Store Datenbanken Cloud Infrastruktur
Juju, Inc.
100% remote
9 Monate
2013-07 - 2014-03

Erstimplementierung einer Suchmaschine

Projektleiter für Technische Belange Suchmaschinen
Projektleiter für Technische Belange

Die Theklatur GmbH, welche zu dieser Zeit kein eigenes technisches Personal beschäftigte, hatte mein Unternehmen mit der Konzeptionierung, Implementierung und fortlaufenden Verbesserung einer Suchmaschine betraut.?Im Zuge der Durchführung dieses Projektes koordinierte ich ein Team bestehend aus 5 Juniorentwicklern, sowie die Tätigkeiten einiger Subunternehmer über 6 Monate, und implementierte die wichtigsten Teile des Systems selbst.

Die Website traktoro.net ermöglicht es ihren Nutzern, Angebote für gebrauchte Landmaschinen, stammend aus einer Vielzahl von webbasierten Marktplätzen, an zentraler Stelle zu durchsuchen.

Unsere Implementierung enthielt eine Vielzahl von Komponenten, insbesondere scraper, Backendinfrastruktur zum zeitlich optimierten Auslesen und strukturierten Speichern von Inhalten, sowie das Suchmaschinenfrontend.

Apache Solr Linux Python NoSQL MongoDB RabbitMQ Celery
Suchmaschinen
Theklatur GmbH
Linz (A-4030, A-4040, A-4020)
1 Jahr 9 Monate
2010-06 - 2012-02

Algorithmic & Quant Trading Strategist

HFT / Analytische Infrastruktur Data Science Analytic Cube Column-Store Datenbanken
HFT / Analytische Infrastruktur

Als Mitglied eines kleinen Teams von Händlern (traders) und Analytikern (strategists), war ich als Einziger verantwortlich für die Konzeptionierung, Implementierung und fortlaufende Verbesserung unserer Datensammlung und der darauf basierenden Softwarewerkzeuge (management decision support systems).?Weiters habe ich die laufenden Entscheidungsprozesse durch eine Vielzahl von Studien und Analysen unterstützt die auf diesen Daten basierten.

Unser Geschäftsbereich war eine eigenständige hochfrequente Handelsstrategie (high-frequency trading), die einen wesentlichen Beitrag zu Goldman Sachs? Angebot von Liquidität im Aktienhandel an Europas Börsen leistete.

Innerhalb dieses Geschäftsbereichs spielte meine Infrastruktur eine zentrale Rolle.?Die Darstellung verschiedenster Geschäftsvorgänge und der anhängigen Daten in Form von Tabellen und Visualisierungen, die von mir selbst entwickelt wurde, bildete ein Vokabular an Konzepten das prägend war dafür wie Entscheidungsträger über diese Vorgänge dachten, und dazugehörige Probleme und Lösungsansätze einander kommunizierten.

Herzstück dieser Infrastruktur war eine Tabelle mit mehreren zehnmillionen Datensätzen und über einhundert Spalten, mit Informationen die aus einer breiten Palette von Informationsquellen automatisch konsolidiert und vorverarbeitet, und dann über eine analytische Infrastruktur zugänglich gemacht wurden.

SAP IQ Sybase IQ Python C Linux
Data Science Analytic Cube Column-Store Datenbanken
Goldman Sachs Services Ltd
London

Aus- und Weiterbildung

Aus- und Weiterbildung

Akademischer Werdegang

2014

University of Malta
freier Vortragender, Machine Learning for Natural Language Processing
Lehrveranstaltungsleiter: verantwortlich fu?r Auswahl und Aufbereitung der Inhalte, Abhalten der Vorlesungen & Pru?fungen, und abschließende Benotung.

2006?10

University of Cambridge
Doktorat, Computer Science and Technology mit DOC Stipendium der O?sterreichischen Akademie der Wissenschaften, EPSRC DTA Stipendium, und Stipendium als honorary Cambridge European Scholar.

2005?06 

University of Cambridge
M.Phil., Computer Speech, Text, and Internet Technology
mit EPSRC Stipendium, Cambridge European Bursary.

2003?04

University of Derby in Austria
B.Sc., Computer Studies

Zusatzqualifikationen

2015
Buchhaltungsassistent
WIFI Linz

Level 3 Certificate in Securities & Derivatives
Chartered Institute for Securities & Investments als Voraussetzung fu?r Eintragung als ?registered person? an der britischen Financial Services Authority (der jetzigen FCA).

Kompetenzen

Kompetenzen

Top-Skills

Data Scientist Suchmaschine Big Data Business Intelligence Python Predictive Analytics Predictive Modeling Predictive Maintenance Text Mining Apache Solr Elastic Search Apache Lucene Redis Linux Perl Lua QGIS

Schwerpunkte

Data Science
ETL (extract/transform/load)
Natural Language Processing
NoSQL Datenbanken
Suchmaschinen
unstrukturierte / schwach strukturierte Daten

Aufgabenbereiche

Big Data
Business Intelligence
Data Science
Natural Language Processing
Predictive Modelling
Suchmaschinen
Text Analysis

Produkte / Standards / Erfahrungen / Methoden

Amazon EC2
Amazon EMR
Amazon S3
Analytic Cube
Apache Hadoop
beats
Celery
Cloud Infrastruktur
Column-Store Datenbanken
Docker
HDFS
Hive
ipython
Kafka
kibana
Kyoto Cabinet
LevelDB
logstash
matplotlib
numpy
Phoenix
QGIS
scikit-learn
scipy
Sybase IQ
Tableau

Betriebssysteme

Linux

Programmiersprachen

C
C++
Java
Perl
Python

Datenbanken

Amazon Redshift
Apache SolR
Clickhouse
Elasticsearch
HBase
Lucene
MongoDB
MySQL
NoSQL
PostgreSQL
Redis
SAP IQ

Datenkommunikation

RabbitMQ
Redis
ZeroMQ

Berechnung / Simulation / Versuch / Validierung

Bayessche Inferenz
Deskriptive Statistik
Machine Learning
Statistik
Visualisierungen

Branchen

Branchen

  • Web Suchmaschinen
  • Finanz & Banking
  • Telekommunikation
  • Medien
  • Forschung

Einsatzorte

Einsatzorte

Deutschland, Österreich, Schweiz
Ich bin ausschließlich für 100% Remote Projekte verfügbar. (Ausnahme: Bis zu 3 Tage am Stück für einen vor-Ort Einsatz. Bis zu 1 Einsatz pro Monat vor-Ort. Höherer Tagessatz anwendbar).
möglich

Projekte

Projekte

3 Jahre 8 Monate
2018-08 - 2022-03

Mathematische Modellierung & Simulation von Suchmaschinen-Anonymität

Senior Backend Engineer Data Science Cloud Infrastruktur Suchmaschinen ...
Senior Backend Engineer

Im Auftrag eines Betreibers einer datenschutzfreundlichen Internet-Suchmaschine arbeitete ich an einem strategisch maßgeblichen Projekt auf Vorstandsebene:?Inhalt war die Formulierung eines mathematischen Modells der Anonymitäts-Eigenschaften im Datenaustausch mit Dienstanbietern.

Aufgrund der Tatsache daß es diesbezüglich kein weitgehend akzeptiertes und weitgehend publiziertes Modell für die relevanten Datenstrukturen gab, war kreative mathematische Problemlösung nötig um ein derartiges Modell zu entwickeln.

Aus dem commitment des Auftraggebers im Hinblick auf die Privatsphäre der Nutzer ergab sich die Notwendigkeit, spezielle Methodik zu entwickeln um Statistiken aus dem Produktionssystem zu extrahieren welche die Privatsphäre der Nutzer respektierte.?Diese wurden dann durch Monte Carlo Simulation zu Session-Information gemacht die in unserer Analyse an die Stelle ?echter? Session-Information treten konnte.

Diese Daten konnten dann durch unseren Anonymisierungs-Prozess laufen sowie einen Evaluation-Prozess in dem die Anonymität der Daten pre/post Anonymisierung quantifiziert wurde.

Linux Perl Python Amazon EC2 Amazon S3 Elasticsearch Apache Solr Kyoto Cabinet Clickhouse PostgreSQL QGIS matplotlib numpy scipy scikit-learn
Data Science Cloud Infrastruktur Suchmaschinen NoSQL Analytic Cube
100% remote
1 Jahr 11 Monate
2017-02 - 2018-12

Textmining in Geschäftsvorgangsdokumentation

Data Science Berater Data Science
Data Science Berater

Entwickelt wurde ein Werkzeug welches durch automatische Textanalyse (text mining) treffsicher jene Telefónica Network Operations Geschäftsvorgänge identifiziert die die Aufmerksamkeit des Managements erfordern.

Ausgangspunkt für dieses Projekt waren Daten die von Telefónica Germany, dem größten Mobilfunkanbieter Deutschlands, in einem Ticketing System gesammelt wurden.

Mithilfe von Statistischer Sprachverarbeitung (statistical natural language processing) wurde eine Modellbildung vorgenommen die es ermöglicht aufgrund von Textinhalten automatisch Vorhersagen zu treffen, ob ein in einem Ticket dokumentierter Geschäftsvorgang mit hoher Wahrscheinlichkeit eine lange Bearbeitungszeit erfordern wird.

Das Endprodukt war ein Alerting System welches in der Lage war Warnungen per E-Mail an verschiedene Manager auszusenden, wenn Geschäftsvorgänge schief laufen oder anderweitig Aufmerksamkeit benötigen.

Kyoto Cabinet Linux Docker NoSQL Python matplotlib numpy scikit-learn scipy QGIS Apache Hadoop HDFS Hive HBase Phoenix Kafka Tableau
Data Science
Telefónica Germany Gmbh & Co OHG
München
8 Monate
2016-06 - 2017-01

Geographische Analyse von Anruferinformationen

Verantwortlicher für Maschinelles Lernen Data Science
Verantwortlicher für Maschinelles Lernen

Im Zuge von Flowminders humanitärer Arbeit in einem Krisengebiet im mittleren Osten extrahierte ich deskriptive Statistiken und kreierte geographisch-räumliche Visualisierungen aus de-identifizierten Anruferinformationen (call data records) vom Betreiber eines Mobilfunknetzwerks.

Die Kerndatenquelle hatte eine Größenordnung im Terabytebereich und musste zunächst von uns für den Zweck der statistischen Analyse aufbereitet werden.? Die hauptsächlichen Anforderungen hierbei waren effiziente Berechnung und Integration von heterogenen Datenquellen.

Im Zuge meiner Analyse extrahierte ich deskriptive Statistiken und erstellte geographisch-räumliche Visualisierungen von verschiedensten Charakteristiken der Daten.

Das Projektteam war multidisziplinär zusammengesetzt aus Data Science Experten und Experten im Anwendungsbereich.?Es gab eine starke Kultur, gewonnene Resultate durch Anwendungsexpertise zu kontextualisieren und anwendbare Einblicke (actionable insight) zu gewinnen.

Zusätzlich zu meiner Rolle im Projektteam, war ich auch Flowminders Themenverantwortlicher für maschinelles Lernen (machine learning), und konnte somit meine entsprechende Expertise über die Grenzen einzelner Projektteams hinweg einbringen.

Linux Python numpy scipy matplotlib ipython scikit-learn PostgreSQL NoSQL Kyoto Cabinet LevelDB
Data Science
Flowminder Stiftung
100% remote
4 Jahre 4 Monate
2012-10 - 2017-01

Internetbeobachtungsplattform

Geschäftsführer
Geschäftsführer

Eine Internetbeobachtungsplattform wurde durch mein Unternehmen entwickelt und betrieben wird. Meine Infrastruktur empfängt digitale Aussendungen, wie Posts auf News Webseiten, Blogs, etc. und filtert diese nach Relevanz.

Der Computer erhält Feedback über die Relevanz einzelner Aussendungen basierend auf kleinen Stichproben und nutzt Techniken aus der statistischen Sprachverarbeitung (statistical natural language processing) um Textmuster zu erkennen, die relevante von irrelevanten Inhalten unterscheiden.

Der Computer erkennt weiters Erwähnungen von geographischen Entitäten und ermöglicht es somit, Inhalte nach geographischem Bezug zu gruppieren, oder als Relevanzkriterium zu nutzen.

Da diese Mustererkennung für jeden Klienten individuell erfolgt, kann ich maßgeschneiderte Inhalte liefern.

NoSQL MongoDB Linux Python
Linz (A-4030, A-4040, A-4020)
6 Monate
2015-12 - 2016-05

Suchmaschine für eine Leitstellensoftware

Elasticsearch Experte Suchmaschinen
Elasticsearch Experte

Im Rahmen von Eurofunk?s Leitstellenlösung für Blaulichtorganisationen (eOCS Emergency Operations Center Suite) sollte eine ?allgemeine Suche? sowie eine Suche über rechtlich relevante Auditdaten entwickelt werden. Eurofunk beauftragte uns mit der Datenmodellierung sowie der Konfiguration um Elasticsearch in einer verteilten Umgebung mit maximaler Verfügbarkeit und Fehlertoleranz zu betreiben.

Dieses Projekt stellte ungewöhnlich hohe Anforderungen:
Robustheit, Fehlertoleranz, Zustellgarantieren für digitale Nachrichten, und all das in einem Kontext von niedriger Toleranz für operatives Risiko und Wartungszeiten.

Wir entwarfen eine Netzwerktopologie und eine Konfiguration
für die Elasticsearch Suchmaschine, basierend auf unserer
Erfahrung mit Suchmaschinenprojekten. Wir führten Tests und Simulationen durch um sicher zu stellen, daß das Setup als Ganzes den anspruchsvollen Anforderungen entsprach.

Weiters erstellten wir ein Datenmodell um qualitativ hochwertige Reihungen von Suchergebnissen zu ermöglichen, und brachten unsere Expertise auch im Hinblick auf die Gestaltung der Benutzerschnittstelle ein.

Elasticsearch logstash kibana beats RabbitMQ
Suchmaschinen
Eurofunk Kappacher GmbH
Salzburg (Österreich)
2 Jahre 9 Monate
2013-07 - 2016-03

Nachfrageanalyse im Tourismus

Mitglied / Sitz im Steering Committee Data Science
Mitglied / Sitz im Steering Committee

Das insightTourism Projekt wurde zum Teil aus öffentlichen Geldern finanziert, und widmete sich der Analyse der Nachfrage nach Tourismusangeboten, basierend auf wissenschaftlichen Modellen. Mein Beitrag zum Projekt war meine Expertise auf dem Gebiet der automatischen Verarbeitung von Sprache (natural language processing).

Zu meinen Aufgabenbereichen gehörte die programmatische Interaktion des wissenschaftlichen Modells mit Twitter, insbesondere die automatische Erkennung von Erwähnungen geographischer Entitäten, und die Vorverarbeitung von geographisch relevanten Metadaten.?Von größter Bedeutung war das von mir entwickelte Tool um die Relevanz und den Tourismusbezug von Tweets zunächst händisch zu markieren, und das darauf basierende Modell welches die Erkennung von Relevanz und Tourismusbezug in weiterer Folge automatisierte.

Als Vollmitglied im Konsortium mit Sitz im Steering Committee war ich, gemeinsam mit den anderen Projektpartnern aus dem privatwirtschaftlichen, öffentlich-rechtlichen, und akademischen Bereich, mit verantwortlich dafür, Ziele festzulegen und die Richtung vorzugeben für dieses Forschungsprojekt im Volumen von einer halben Million Euro.

NoSQL MongoDB Linux Python numpy scipy matplotlib ipython scikit-learn
Data Science
Forschungsförderungsgesellschaft (FFG)
Linz (A-4030, A-4040, A-4020)
5 Monate
2015-07 - 2015-11

Datenanalyse für eine Versicherung

Data Science Berater Data Science
Data Science Berater

Im Zuge dieses Projektes analysierte ich interne Datenquellen der Oberösterreichischen Versicherung mit Data Science Methoden. Insbesondere nahm ich eine automatische Mustererkennung mittels maschinellem lernen (machine learning) und eine Modellbildung zwecks Vorhersage (predictive modelling) vor.?Die Ergebnisse präsentierte ich unmittelbar auf Vorstandsebene.

Zur Verfügung gestellt wurden Rohdaten aus unternehmenseigenen IT Infrastrukturen.?Um diese in ein homogenes und für Analysezwecke geeignetes Format zu bringen führte ich umfangreiche Datenvorverarbeitungen (preprocessing) durch.

Die Daten wurden dann mithilfe bayesscher Methoden einer multivariaten Analyse unterzogen.?Untersucht wurden also Kombinationen von Variablen die aus den Daten hervorgingen, anstatt die Variablen einzeln und in Isolation zu betrachten.

Daraus ließen sich sowohl anwendbare Einblicke (actionable insight) ableiten, als auch eine Modellbildung mit unmittelbaren Anwendungen für den Auftraggeber.

[URL auf Anfrage]

Linux Python numpy scipy matplotlib ipython scikit-learn Kyoto Cabinet LevelDB
Data Science
Oberösterreichische Versicherung AG
Linz (A-4030, A-4040, A-4020)
2 Jahre 6 Monate
2012-12 - 2015-05

Clickoptimierung für einen Suchmaschinenanbieter

Search Engineer Suchmaschinen Data Science Column-Store Datenbanken ...
Search Engineer

Bei Juju, einer Jobsuchmaschine in den U.S.A., war ich als einzige Person verantwortlich für die Analyse von Daten über Suchanfragen, Resultate, und die dazugehörigen Clicks (Clickoptimierung = clickrate analysis).?Ich führte eine Reihe von Projekten zur Modellbildung durch.?Zu meinen Aufgaben zählte weiters die Konzeptionierung, Implementierung und fortlaufende Verbesserung der zugrunde liegenden Infrastruktur.

Juju ist eines von nur einer handvoll Unternehmen, die in den U.S.A. eine Job-Suchmaschine und ein dazugehöriges Werbenetzwerk selbst betreiben.?Aufgrund der clickbasierten Umsatzstruktur (cost per click) ist der Geschäftsprozess der Clickoptimierung, der von mir betreut wurde, für Juju von großer Bedeutung.

Die größte technische Herausforderung war die Größenordnung der Datenmenge: Die zentrale analytische Tabelle hatte über einhundert Spalten, und hunderte von Milliarden von Datensätzen.

Während meiner gesamten Zeit bei Juju arbeitete ich eng mit dem CEO zusammen, wobei diese Zusammenarbeit nicht auf den technischen Bereich beschränkt war.?So bestand zum Beispiel zeitweise mehr als die Hälfte des technischen Personals aus Personen bei denen ich Bewerbungsgespräche führte und die aufgrund meiner Empfehlung eingestellt wurden.

[URL auf Anfrage]

Apache Solr Amazon Redshift Amazon EC2 Amazon S3 Amazon EMR Linux Python numpy scipy matplotlib ipython scikit-learn
Suchmaschinen Data Science Column-Store Datenbanken Cloud Infrastruktur
Juju, Inc.
100% remote
9 Monate
2013-07 - 2014-03

Erstimplementierung einer Suchmaschine

Projektleiter für Technische Belange Suchmaschinen
Projektleiter für Technische Belange

Die Theklatur GmbH, welche zu dieser Zeit kein eigenes technisches Personal beschäftigte, hatte mein Unternehmen mit der Konzeptionierung, Implementierung und fortlaufenden Verbesserung einer Suchmaschine betraut.?Im Zuge der Durchführung dieses Projektes koordinierte ich ein Team bestehend aus 5 Juniorentwicklern, sowie die Tätigkeiten einiger Subunternehmer über 6 Monate, und implementierte die wichtigsten Teile des Systems selbst.

Die Website traktoro.net ermöglicht es ihren Nutzern, Angebote für gebrauchte Landmaschinen, stammend aus einer Vielzahl von webbasierten Marktplätzen, an zentraler Stelle zu durchsuchen.

Unsere Implementierung enthielt eine Vielzahl von Komponenten, insbesondere scraper, Backendinfrastruktur zum zeitlich optimierten Auslesen und strukturierten Speichern von Inhalten, sowie das Suchmaschinenfrontend.

Apache Solr Linux Python NoSQL MongoDB RabbitMQ Celery
Suchmaschinen
Theklatur GmbH
Linz (A-4030, A-4040, A-4020)
1 Jahr 9 Monate
2010-06 - 2012-02

Algorithmic & Quant Trading Strategist

HFT / Analytische Infrastruktur Data Science Analytic Cube Column-Store Datenbanken
HFT / Analytische Infrastruktur

Als Mitglied eines kleinen Teams von Händlern (traders) und Analytikern (strategists), war ich als Einziger verantwortlich für die Konzeptionierung, Implementierung und fortlaufende Verbesserung unserer Datensammlung und der darauf basierenden Softwarewerkzeuge (management decision support systems).?Weiters habe ich die laufenden Entscheidungsprozesse durch eine Vielzahl von Studien und Analysen unterstützt die auf diesen Daten basierten.

Unser Geschäftsbereich war eine eigenständige hochfrequente Handelsstrategie (high-frequency trading), die einen wesentlichen Beitrag zu Goldman Sachs? Angebot von Liquidität im Aktienhandel an Europas Börsen leistete.

Innerhalb dieses Geschäftsbereichs spielte meine Infrastruktur eine zentrale Rolle.?Die Darstellung verschiedenster Geschäftsvorgänge und der anhängigen Daten in Form von Tabellen und Visualisierungen, die von mir selbst entwickelt wurde, bildete ein Vokabular an Konzepten das prägend war dafür wie Entscheidungsträger über diese Vorgänge dachten, und dazugehörige Probleme und Lösungsansätze einander kommunizierten.

Herzstück dieser Infrastruktur war eine Tabelle mit mehreren zehnmillionen Datensätzen und über einhundert Spalten, mit Informationen die aus einer breiten Palette von Informationsquellen automatisch konsolidiert und vorverarbeitet, und dann über eine analytische Infrastruktur zugänglich gemacht wurden.

SAP IQ Sybase IQ Python C Linux
Data Science Analytic Cube Column-Store Datenbanken
Goldman Sachs Services Ltd
London

Aus- und Weiterbildung

Aus- und Weiterbildung

Akademischer Werdegang

2014

University of Malta
freier Vortragender, Machine Learning for Natural Language Processing
Lehrveranstaltungsleiter: verantwortlich fu?r Auswahl und Aufbereitung der Inhalte, Abhalten der Vorlesungen & Pru?fungen, und abschließende Benotung.

2006?10

University of Cambridge
Doktorat, Computer Science and Technology mit DOC Stipendium der O?sterreichischen Akademie der Wissenschaften, EPSRC DTA Stipendium, und Stipendium als honorary Cambridge European Scholar.

2005?06 

University of Cambridge
M.Phil., Computer Speech, Text, and Internet Technology
mit EPSRC Stipendium, Cambridge European Bursary.

2003?04

University of Derby in Austria
B.Sc., Computer Studies

Zusatzqualifikationen

2015
Buchhaltungsassistent
WIFI Linz

Level 3 Certificate in Securities & Derivatives
Chartered Institute for Securities & Investments als Voraussetzung fu?r Eintragung als ?registered person? an der britischen Financial Services Authority (der jetzigen FCA).

Kompetenzen

Kompetenzen

Top-Skills

Data Scientist Suchmaschine Big Data Business Intelligence Python Predictive Analytics Predictive Modeling Predictive Maintenance Text Mining Apache Solr Elastic Search Apache Lucene Redis Linux Perl Lua QGIS

Schwerpunkte

Data Science
ETL (extract/transform/load)
Natural Language Processing
NoSQL Datenbanken
Suchmaschinen
unstrukturierte / schwach strukturierte Daten

Aufgabenbereiche

Big Data
Business Intelligence
Data Science
Natural Language Processing
Predictive Modelling
Suchmaschinen
Text Analysis

Produkte / Standards / Erfahrungen / Methoden

Amazon EC2
Amazon EMR
Amazon S3
Analytic Cube
Apache Hadoop
beats
Celery
Cloud Infrastruktur
Column-Store Datenbanken
Docker
HDFS
Hive
ipython
Kafka
kibana
Kyoto Cabinet
LevelDB
logstash
matplotlib
numpy
Phoenix
QGIS
scikit-learn
scipy
Sybase IQ
Tableau

Betriebssysteme

Linux

Programmiersprachen

C
C++
Java
Perl
Python

Datenbanken

Amazon Redshift
Apache SolR
Clickhouse
Elasticsearch
HBase
Lucene
MongoDB
MySQL
NoSQL
PostgreSQL
Redis
SAP IQ

Datenkommunikation

RabbitMQ
Redis
ZeroMQ

Berechnung / Simulation / Versuch / Validierung

Bayessche Inferenz
Deskriptive Statistik
Machine Learning
Statistik
Visualisierungen

Branchen

Branchen

  • Web Suchmaschinen
  • Finanz & Banking
  • Telekommunikation
  • Medien
  • Forschung

Vertrauen Sie auf Randstad

Im Bereich Freelancing
Im Bereich Arbeitnehmerüberlassung / Personalvermittlung

Fragen?

Rufen Sie uns an +49 89 500316-300 oder schreiben Sie uns:

Das Freelancer-Portal

Direktester geht's nicht! Ganz einfach Freelancer finden und direkt Kontakt aufnehmen.