Freelancer: KI/AI, Data Science, SW-/System-Architektur, Big Data, IT-Security, EU-DSGVO, Datenschutz, Projektleitung, Product Owner, Design Thinking, Scrum, Lean

Freiberufler / Selbstst�ndiger

Verf�gbar ab: 21.08.2022

Verf�gbar zu: 100%

davon vor Ort: 100%

Top-Skills

K�nstliche Intelligenz

Deep Learning

IT-Sicherheitsarchitektur

GDPR

DSGVO

Sicherheitskonzept

SOC

SIEM

Big Data

IT Architektur

Enterprise Applications

Machine Learning

Robotic-Process-Automation

Produktdesign

Projektmanagement

Projektleitung

Sprachen

Deutsch

Englisch

Franz�sisch

Latein

Einsatzorte

St�dte

any (+200km)

L�nder

Deutschland, �sterreich, Schweiz

Schweiz: Flexibel bzgl. Einsatzort, evtl. auch Ausland.

Arbeitserlaubnis: EU-weite Arbeitserlaubnis, Schweizer Arbeitserlaubnis bis 2020

Weitere L�nder: Attraktive St�dte/Orte bevorzugt.

Remote-Arbeit

nicht m�glich

Projekte

11 Monate

2019-04 - 2020-02

Konzeption eines Open Source SOCs

IT-Architekt, agiler Coach und fachlicher Projektleiter Java Constraint Library(JCL) IASolver YACS ...

Rolle

IT-Architekt, agiler Coach und fachlicher Projektleiter

Projektinhalte

Konzeption eines Open Source SOCs (Security Operations Center)

Splunk: Installation, Konfiguration, Analyse und Anbindung an Input-Quellen, Erstellung von Splunk-Analyse- und Visualisierungs-Use Cases mit SPL (Search Processing Language).
Zukunftsvision der SOC-Architektur erstellt auf Basis von Apache Metron + Kafka + Spark + Elastic/ELK Stack (ElasticSearch, LogStash, Kibana) und Konzeption ihrer Komponentenarchitektur - möglichst mit Open-Source-Tools, um Kosten zu sparen. Dazu viele konkrete Vorschläge zur Verbesserung des SOCs (Security Operations Center), Erstellen einer neuen SOC-Architektur mit KI-Elementen: Big Data/Data Science Ansatz zur Angriffs-/Malware-/APT-Erkennung mit Machine Learning und Fokus auf False-Positives-Reduzierung. Visualisierungskonzept zu Angriffs-Verdachtsfällen mit den jeweiligen Security-Kontexten per Design Thinking
Aufsetzen + Starten des agilen Open Source SOC Projekts: Strategische Planung, Coaching: Zunächst SAFe + Design Thinking zur Beantragung der Projektfinanzierung, dann vereinfachte Durchführung als Scrum-Prozess; Coaching zur Verbesserung der Produktivität und Zusammenarbeit.
Recherche, Test und Analyse der führenden Open Source SIEM/SOC Systeme: Apache Metron / HCP (Hortonworks Cybersecurity Platform), Apache Spot, dataShark, Alienvault OSSIM, Graylog, SIEMonster, Hunting ELK (HELK), Wazuh, MozDef, OSSEC, Prelude OSS, Snort, QuadrantSec Sagan, Suricata, OpenStack Vitrage.
Requirements Engineering, Use Case 2.0 Engineering der SIEM-/SOC-Features allgemein und im Bahnkontext mit Walking-Skeleton-Ansatz. Analyse der Kosten-/Nutzen-Aspekte der Use Cases und deren Abhängigkeiten als Input für agiles Kunden-Wert-basiertes Produktmanagement/Product Owner Tätigkeiten.
Detail-Vergleich von Elastic mit Solr, der führenden JavaScript-Frameworks: React, Angular und Vue.js, die jeweiligen Native-Frameworks (Ionic etc.) sowie Electron Platform sowie der führenden Clouds: Amazon AWS, Google GCP und Microsoft Azure sowie Docker/Kubernetes, Websockets vs REST, GraphQL vs Odata vs ORDS, Vergleich geeigneter DBs, z.B. für Range-Scans, AWS RedShift vs Athena.
Erstellung einer SOC-Gesamtarchitektur mit Umfängen für Minimal-, Basic-, Advanced- und Premium-Konfiguration mit bis zu 100 Komponenten. Auf dieser Basis Analyse und Präsentation der Chancen/Kosten/Risiken zur Erfüllung von Requirements und Use Cases gegenüber Management und Engineering-Gruppen.
Erstellung der SOC Open Source SOC PoC (Proof of Concept) Architektur basierend auf 3 Säulen: Log-Verarbeitung mit Solr/Elastic, Open Source SOC Elementen (RegEx, Match Expressions mit Spark, Kafka, Solr etc.) sowie einer KI-Säule bestehend aus Data Science und Regel-basierter KI mit Spark sowie Deep Learning mit TensorFlow und PyTorch.
Erstellung und Abstimmung des Open Source SOC PoC Projektplans und der Architektur mit dem Top-Management der Bahn (CISO, Technik-Vorstands-Bereich), Erstellung von ca. 10 Job-Profilen und Staffing/Job-Interviews auf dieser Basis.
Beschaffung von Deep Learning GPU PC- und Server-Hardware und von Cloud-Zugängen (AWS+Azure).
Konzeption der Einführung von Docker/Kubernetes für TensorFlow- und PyTorch-Machine-Learning: Vergleich mit der Alternative containerd mit GRPC, Docker Registries mit YAML für Kubernetes, Flannel (layer 3 network config). Kubernetes Tools: kubelet (primary node agent), kube-proxy, Container Runtime, (High Availability) HA endpoints, kubernetes-ha, Kube-apiserver, kubeadm, cluster autoscaler, scheduler, Helm (Kubernetes Package Manager, Microservices), Tiller (Helm server part), Ingress (load balancing, SSL termination, virtual hosting), kube-keepalived-vip (Kubernetes Virtual IP addresses using keepalived), Kubespray (Deploy a Production Ready Kubernetes Cluster). Analyse von Kubernetes & Airflow Failure Stories auf Risiken und Ableitung von Best Practices/Empfehlungen.
Evaluierung von Memory-Centric-Tools: Apache Pulsar (schnellere Alternative zu Kafka), memcached, Ignite, GridGain, Alluxio, Redis, Hazelcast, Ehcache, Red Hat JBoss Data Grid, Pivotal GemFire, ActiveMQ, RabbitMQ mit AMQP, MQTT.
Auf maximale Performance und Durchsatz optimierte Apache Spark basierende Scheduling-Konzepte mit Memory-Centric Computing, Data-Locality-Optimierung und Minimierung datenintensiver Operationen: Custom Spark Scheduler/Spark Task/DAG/SubDAG Combiner für Dynamic Workflows (In-Memory-Optimierungen), Deep Learning Pipelines, Horovod, TensorFlowOnSpark, TensorBoards, TensorFrames, Data Lineage Optimierungen.
Erstellung eines umfassenden Testmanagementkonzeptes zur Verbesserung der Stabilität von entwickeltem Code mit den Schwerpunkten Datenaufnahme, KI, DevOps, CI/CD-Pipeline (Continuous Integration/Deployment mit Jenkins und Sonar(Qube)), Metadaten und IT-Sicherheit zur Kanalisierung und Verbesserung von Code durch Developer-Test-, Integrationstest-, Pre-Prod- zu Prod-Umgebungen).
Analyse von möglichen Deep Learning Nachfolgetechnologien wie Hierarchical Temporal Memory (HTM), Graph/Memory/Transformer ConvNets (Convolutional Networks) incl. deren frei verfügbaren Implementierungen sowie PLNs (Probabilistic Logic Network): [Naive] Bayesian Belief Networks (BNNs), Markov Logic Networks (MLNs), Conditional Random Fields (CRFs), Direct Graphical Models (DGMs), Statistical Relational Learning (SRL), Stochastic And-Or Grammars (AOGs/SAOGs), Probabilistic Relational Models (PRMs), Markov Logic Networks (MLNs), Relational Dependency Networks (RDNs), Bayesian Logic Programs (BLPs), Probabilistic Graphical Models (PGMs), Markov Random Fields (MRFs), Contextual Graph Markov Models (CGMMs), Hidden Markov Models (HMMs), Human brain neurons (HBNs).
Entwicklung eines neuen Explainable AI (XAI) Verfahrens, das Deep Learning ablösen kann durch Verbindung und Weiterentwicklung mehrerer anderer Modelle und Techniken.
Förderantrag ausgearbeitet zur Beantragung der Förderprogramme KI-für IT-Sicherheit und Erklärbare KI (Explainable AI, XAI) der Bundesregierung: Innovative Ideen entwickelt, neueste KI-, Data Science und Big Data Verfahren und Weiterentwicklungen vorgeschlagen zur Erkennung von ungewöhnlichem Verhalten/Angriffen/Malware sowie neueste NLP-Verfahren zur automatisierten Analyse von textuellen Angriffs- und Malware-Beschreibungen im Internet oder in E-Mails/Wikis sowie der Umsetzung der Cyber Grand Challenge Elemente über Deep Learning, RNNs, CNNs. Hierzu Entwicklung der Geschäftsstrategie und des Geschäftsplans zur separaten Vermarktung der damit geplanten Innovationen.
Erstellen von Sicherheitskonzepten für Windows- und Linux PCs und Sever u.A. bzgl. zahlreicher Sicherheitseinstellungen, IAM mit Red Hat Identity Manager / FreeIPA (Identity, Policy, Audit), keycloak, mehr Logging, etc. sowie durch Installation von bis zu 50 Analyse- und Überwachungs-Tools wie Sigar, Config. Discovery, File Integrity Checker (Afick), CGC Tools: BinaryAnalysisPlatform bap, angr, s2e, KLEE, Strace, ZZUF, BitBlaze.
Konzeption von klassischen Data Science Analysen bzgl. verdächtiger Aktivitäten mit GBM(Gradient Boosting Machine), XGBoost, CatBoost, LightGBM, stacked ensembles, blending, MART (Multiple Additive Regression Trees), Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC.

Analyse der besten Deep Learning Netzwerk-Architekturen in den jeweiligen Teilfeldern: ResNet, ResNext, DenseNet, MSDNet (Multi-Scale DenseNet), RepMet, EfficientNet sowie der folgenden NLP-Implementierungen (z.B. zur Extraktion strukturierter Beschreibungen aus textuellen IoC – Indicators of Compromise): BERT, FastBert, SenseBERT, RoBERTa, GPT, GPT-2.
Konzeption/Entwicklung von neuronalen Deep Learning Netzwerk-Architekturen für TensorFlow, Keras, PyTorch mit diesen Elementen: (De-)Convolution, [Dimensional][Min/Max/Average] (Un-)Pooling, Activation Functions, ReLUs (Rectified Linear Units), ELU (Exponential Linear Unit), SELU (Scaled Exponential Linear Unit), GELU (Gaussian Error Linear Unit), SNN (Self Normalizing Network), LSTM (Long Short-Term Memory), GRU (Gated Recurrent Units), Differentiable Associative Memory (Soft RAM/Hash Table), Episodic Memory, Memory Networks, Self-Attention, Multi-Head-Attention, (Masked Multi) Self Attention, NAC (Neural Accumulator), NALU (Neural Arithmetic Logic Unit), Squeeze-and-Excitation (SE) / SENet, SPN (Sum-Product Network), VAE (Variational Auto-Encoders), FCLs (Fully Connected Layers), PLNs (Probabilistic Logic Networks), GANs (Generative Adversarial Networks), Capsule Networks, gcForest, Differentiable Programming, Neural Architecture Search (NAS), Differentiable Neural Networks, [Transposed](De-)Convolutions, ETL (Extract, Transform, Load) with Input/Output Embedding, (Layer) Normalizing, Softmax, Automatic Machine Learning, Episodic Memory, Differentiable Associative Memory, Large Memory Layers with Product Keys, Deep (Double) Q-Learning, (SSL) Semi-/Self-Supervised Learning, Msc (Adding, Concatenation, Segmentation, Linearization, (Convol.) Filters), Reinforcement Learning, Q-learning, Convolutional Models/Learning, Google Dopamine.
Konzeption der Deep Learning Architekturen für folgende Use Cases / Use Case Slices: Ausbreitung von Malware durch Security-Zonen, Erkennung des (Check-, Verbreitungs-, Ausleitungs-)Verhaltens von Malware, häufiger Angriffe, insbesondere OS-API-Angriffe, Code Injection, etc., von gestohlenen CPU-Zyklen durch Malware, ggf. durch Hooks in Event-Queues zur Erkennung von deren Abarbeitung, von ROP (Return Oriented Programming) mit ROPNN-Variante auf Standard-Libraries durch Vergleich der üblichen mit den zu beurteilenden Einsprungpunkten; Modelle erstellt für Meta-Level: Netzwerk-Metadaten-Analyse, Detail-Level: Nutzdaten-Analyse auf Exploit-Code/-Daten etc., aktuelle Bedrohungen, bekannt gewordene IoCs, Afick-/tripwire-Daten neuronal analysieren, Erkennung von Verschlüsselung und von Schlüssel-Austauschen.
Detail-Konzeption der folgenden Solr-Aspekte: SolrCloud/HDP Search, Integration mit Apache Ranger + Sentry + Atlas, Performance-optimierter SolrJ Client mit parallelen Queries, Distributed Indexing, Index Sharding, Shard Splitting und Rebalancing (auch zur Laufzeit), Cross Data Center Replication (CDCR), Solr Security (Kerberos, AD-Anbindung, SASL, SSL), Versionierung mit Avro & LDP (Linked Data Platform) & Apache Marmotta/RFC 7089, Stretched Cluster vs synched Multi-Cluster, Sizing, Definition der Solr Index Identifier (UID), High Availability (HA) und Disaster Recovery (DR) Mechanismen, Solr HA, Load-Balancing-Konzept (HW-basiert über F5, Ping gegen SolrCloud Node, solr healthcheck, Zookeeper, Content-Query gegen Test-Collection, SolrJ Client), Q Replikation, Konzeption von Overlay-Netzen (SDN, Software-Defined Networking).
Konzeption der Amazon AWS Cloud-Architektur mit Migrationskonzept in die Cloud und vom monolithischen Ansatz hin zu Microservices/Serverless (AWS Lambda), Risiko-Vermeidungsstrategie, Virtualisierung, effizientem JavaScript-UI mit React, Cloud-Sicherheitskonzept, Microservice-Architektur, Microservice-Versionierungsstrategien, optimiertem Datenaustausch, Nutzung des AWS Storage Gateways, AWS Redshift, Relational Database Service (RDS), Simple Queue Service (SQS), Simple Notification Service (SNS), S3, Glue, Kinesis, Athena, DDD (Domain-Driven Design) and Bounded Contexts, Product Line Architecture, Single-Sign-On-Konzept (SSO), etc.
Recherche und Analyse verfügbarer Sicherheits-Incident- und Hacking-Daten als Input für klassisches Machine Learning (Spark MLlib etc.) sowie für Deep Learning (TensorFlow, PyTorch). Es gibt ca. 100 verschiedene Quellen, aber mit Labeling in unterschiedlicher Qualität, unterschiedlichem Konvertier- und Anpassungsaufwand, etc.
Generierung eigener IT-Sicherheits-Trainingsdaten für Machine Learning (ML) über voll-instrumentierte Linux- und Windows-basierte Umgebungen (PC, vmWare), in denen dann ca. 50 PenTesting Tools wie MetaSploit, AutoSploit etc. ausgeführt wurden. Anleitung zur Normalisierung und zum Labeling der so erstellten sowie der externen Daten. Erstellung/Extraktion von regulären Ausdrücken sowie Generierung von ähnlichen Angriffen/Payloads auf dieser Basis.
Konzeption+Entwicklung einer Kontroll- und Steuerungs-Library in Scala für Erkennung und KI, die alle Kernelemente des SOCs monitored und steuert.
Konzeption+Entwicklung einer UI- und Query-Library in Scala, die intelligente Analysen im Kibana-Dashboard mit React visualisiert sowie nach unten über Apache Drill mit Drillbits Query-Mapping in SQL, HQL, Solr und ähnliche Dialekte durchführt. Hierbei haben wir weitgehend Splunk’s SPL (Search Processing Language) als unsere OPL (Open Processing Lanaguage) nachgebildet. Dabei handelt es sich im Wesentlichen um SQL erweitert um Infos zur Darstellung im UI.
Nutzung von Computer Vision Muster-Erkennungsverfahren speziell zur Erkennung von Unregelmäßigkeiten bzw. Malware-/Hacking-Indikatoren: Prozess- und API Aufrufketten, ungewöhnliche API-Nutzung, Indikatoren für Hacker-Bewegungen im Netzwerk, Indikatoren für Malware-Aktivität auf Datei- oder Prozess-Ebene, Nutzung von Laufzeit-Packern, etc.
Entwicklung/Nutzung einer Kombination von datensparsamen Lernverfahren als Antwort auf mangelnde Trainingsdaten. So lassen sich anfänglich aufgrund Datenmangel noch nicht per Deep Learning lernbare Gewichte/Zusammenhänge manuell / halbautomatisch oder datensparsam lernen:

Entwicklung probabilistischer Regeln durch Code-Generierung zur Anbindung von MS Excel bzw. PyTorch/PyProb mittel StringTemplate/VBA an Factorie, ProbLog und Probabilistic Soft Logic (PSL). Diese werden dann später – nach Produktivsetzung – ersetzt durch aus Massendaten gelernte Regelsysteme/Autoencoder.
Probabilistische Programmierung, Bayes- bzw. Stochastik-Libraries, (PP) / Programmable Inference: Stan (mc-stan.org), PyMC3/PyMC4, Soss.jl, Julia + MIT Gen.jl oder Pyro oder Edward oder Microsoft Infer.Net
(SSL) Semi-Supervised Learning/Self-Supervised Learning
Intelligentes Tokenizing, intelligente selektive Feature-Extraktion (hieraus Log- oder Security-Warning-Daten)
Case-Based Reasoning (CBR)/Memory-Based Reasoning (MBR): CRATER, ProCAKE, COLIBRI, etc.
Constraint-based Reasoning, Theory of Constraints (TOC) Frameworks, Hierarchical Constraint Logic Programming (HCLP): Open Policy Agent (OPA) Constraint Framework (OPA CF), Java Constraint Library(JCL), IASolver, BackTalk, POOC, YACS, Integrity
Classical/Probabilistic Rule Engines / Probabilistic Finite Automata / probabilistische endliche Automaten: Virus Scanning Engines wie ClamAV
(Heuristic non-linear) Optimization oder Operations Research Software wie ALGLIB, CasADi, Ceres Solver, Dlib, GEKKO, MIDACO, OpenMDAO, SciPy, GNU Octave, Scilab
Non-linear Planning and Control Libraries: Control Toolbox, AIKIDO, ROS Navigation2+ROS Behavior-Tree, Open Motion Planning Library (OMPL)
SinGAN (Single Input GAN)
Reinforcement Learning, Convolutional Models/Learning, Google Dopamine, Policy Optimization (Policy Gradient, A2C/A3C, PPO, TRPO, DDPG, TD3, SAC), Q-Learning (DDPG, TD3, SAC, DQN, C51, QR-DQN, HER), Deep (Double) Q-Learning, Learn the Model (World Models, I2A, MBMF, MBVE), AlphaZero
klassische KI-Verfahren wie CBR, Constraints, Rules, RDF, OWL,
Gesamte Liste der klassischen datensparsamen Lernverfahren: Causality, logic/deduction systems, deductive databases, semantic networks, heuristics, collective intelligence, automata/state machines, blackboard systems, nonstandard logics/temporal logic, (knowledge) representation, automatic programming, genetic programming, qualitative reasoning, agents, fuzzy logic, model-based reasoning, ontology, quantum computing, analogy, pattern recognition/comparison, decision theory, cognitive science, control system theory, dynamical systems, self-organizing systems, hybrid AI, modularity, optimization, goal-oriented systems, feature extraction/detection, utility/values/fitness/progress, formal grammars and languages, classifiers/concept formation, problem solving, argumentation/informal logic, common sense reasoning, coherence/consistency, relevance/sensitivity analysis, semiotics, game theory, automation, behaviorism, knowledge engineering, semantic web, sorting/typology/taxonomy, cooperation theory, systems theory.

Recherche/Analyse/Erweiterung aktueller Ideen/Tools zu technischen Knackpunkten in den (Teil-)Projekten oder direkter Vorschlag der Lösungen:
- Analyse von Semantik-Tools, Symbolic AI und Explainable AI für das KI-Security-Förderprogramm sowie für neue Arbeitspakete: KL-ONE: Protégé, LOOM, Knowledge Engineering Environment (KEE), Pellet, RacerPro, FaCT++ & HermiT, Non-Linear Planner, CBR (Case-Based Reasoning), RDF (Resource Description Framework)/ SPARQL (SPARQL Protocol and RDF Query Language), OpenCog (AtomSpace, Atomese, MOSES/MetaCog, Link-Grammar), Induktions-/Deduktions-Technologie wie OWL/OWL-DL (Ontology Web Language Description Logics), führende Implementierung: Apache Jena OWL, HPSG (Head-driven Phrase Structure Grammar) Parsing: DELPH-IN PET Parser, Enju, Grammix, Stanford CoreNLP, OpenEphyra, Frame-Logik, Explainable AI mit LOCO (Leave-One-Covariate-Out).
- NLP (Natural Language Processing) / Computerlinguistik Forschung & Auswertung: Analysieren/Parsen natürlicher Szenenbilder zusammen mit dem textuellen Parsen von Bildunterschriften/Beschreibungen aus dem Internet zum Trainieren von Bildverarbeitungsmodellen (Stanford CoreNLP-Ansatz); Klassifizieren von Trouble Tickets / Texten in Kategorien/Aktualitäten; Wartung / Gelernte Lektionen: Analyse textueller Berichte von Technikern über IT-/Fahrprobleme und autonome Fahrtenschwierigkeiten (falsche Klassifizierungen/Reaktionen) für Erkenntnisse/Feedbacks auf NLP-Ebene.
- Tools/Algorithmen: OpenAI GPT/GPT-2 (Generative Pre-trained Transformer), Facebook XLM (Cross-lingual Language Model Pretraining), Facebook PyText (NLP Modeling Framework, auf PyTorch), Google BERT (Bidirectional Encoder Representations from Transformers), Kombinierte Multi-Task-Modell-NLP, Vortraining kompletter (Sprach-/Tiefenlernen) Modelle mit hierarchischen Darstellungen, Aufmerksamkeitsmodelle, DLNLP (Deep Learning NLP: Embed, Encode, Attend, Predict), Hierarchical Multi-Task Learning MetaMind-Ansatz, DeepMind, Deep Transfer Learning for NLP, vortrainierte Sprachmodelle, Worteinbettungen / Worttaschen, Sequenz-zu-Sequenz-Modelle, Gedächtnis-basierte Netzwerke, Gegensätzliches Lernen, Verstärkungslernen, semantische Rollenkennzeichnung, Repräsentationslernen, Textklassifizierung mit TensorFlow Estimatoren, word2vec, Vektor-Raum-Modell/Mapping von Features zu Einbettungen, Skip-Grammen, Seq2seq Encoder-Decoder, ULM-FiT, ELMo, OpenAI Transformer / GPT, Google BERT, BERT, Transfer Learning, OpenAI Transformer, spaCy + Cython zur Beschleunigung, genSim, OpenNMT (Neural Machine Translation), AllenNLP (auf PyTorch), OpenNLP, Verstärkungslernen zum Erlernen korrekter Klassifizierungen/Labelzuweisungen/Fragen & Antworten, tief latente Variablenmodelle, Visual Commonsense Season Reasoning, Modell-agnostisches Meta-Learning (MAML), Multi-Hop-Denken, Aufmerksamkeitsmasken für (Self-Attention) GANs (SAGAN), TensorFlow Lingvo (NLP sequence models), OpenEphyra (Teil von IBM Watson).
- Für NLP Generation: OpenAI GPT/GPT-2 (Generative Pre-trained Transformer), Facebook XLM (Cross-lingual Language Model Pretraining), Google BERT (Bidirectional Encoder Representations from Transformers).
- KI/AI/Data Science/Big Data: Algorithmen und Tools: LSTM vs. GRU, Feast AI Feature Store, K8s Sidecar Injector, TensorFlow 2.0 (Vorteile von Update/Migration), Tensor Comprehensions, Neural Ordinary Differential Equations, Visual Common Sense Reasoning, Deep Learning, RNNs, CNNs for Self-Driving Cars / Logically/temporally consistent virtual 3D city generation, Deep Labelling for Semantic Image Segmentation mit Keras/TensorFlow, Design Patterns for Deep Learning, RNN, CNN Architectures, DeepMind (Kapitan, Scalable Agent, Learning to Learn, TF Reinforcement Learning agents), Uber’s QALM (QoS Load Management), Fusion.js (JS framework supporting React, Redux & pre-configured optimized boilerplate, hot module reloading, data-aware server-side rendering, bundle splitting, plugin-architecture, observability, I18n), Horovod (distributed training framework for TensorFlow, Keras, PyTorch), Ludwig (train and test deep learning models without coding), AresDB (Uber's GPU-powered real-time analytics engine), Uber‘s Sparse Blocks Network (SBNet, TensorFlow algorithm), Google Dopamine reinforcement learning framework based on TensorFlow, Kubernetes Operator für Apache Spark, FastAI Deep Learning, Polygon-RNN++, Flow Framework: Project to Product Agile Process, IntelAI OpenVINO (inference serving component for AI models), IntelAI Nauta (distributed computing environment for running DL model training), TensorFlow Extended (TFX), Salesforce Einstein TransmogrifAI (machine learning automation with AutoML), OpenCV (Open Computer Vision Library), GluonCV, Angel-ML (handling higher dimension ML models), Acumos AI (design, integration and deployment of AI models; AI Model Marketplace), (Paddle EDL: Elastic Deep Learning framework: optimizes deep learning job and waiting time in the cluster: Kubernetes controller & fault-tolerable deep learning framework: PaddlePaddle & TensorFlow), Pyro (Deep Probabilistic Programming Language), Jaeger (OS distributed tracing system, optimized for microservices).
- Vorschläge zur Deep-Learning-Beschleunigung u.A. mit aktuellen Publikationen (z.B. Modell-Kompression, Nutzung von HW-Eigenschaften) sowie der Integration von Domänen-Wissen/Semantik/Regeln/Entscheidungstabellen/Ontologien/Erklärbare-KI-Ergebnissen in Deep Learning; Entwicklung von optimierten Hybrid-Learning-Modellen (Deep [Reinforcement] Learning mit klassischen Lernverfahren kombiniert).
- Konzept für AIops (Artificial Intelligence Operations) / KI-Programmierung / Ausführung der Skripte: Alle relevanten fest programmierten Parameter wurden in eine separate CMS-Datenbank oder minimal in umgebungsspezifische Konfigurations-/Property-Dateien extrahiert. D.h. ein Parametersatz für die Entwicklungsumgebung, einer für die Testumgebung,.... bis zur Produktionsumgebung (Python NetworkX, Snowflake, …).
- Konzept zur Skalierung und Beschleunigung von KI-Workloads, Verwaltung komplexer Workloads, Beschleunigung der Entwicklung und Bereitstellung statistischer Modelle, Voroptimierung in Plattformen für KI-Workloads: Datenaufnahme und -aufbereitung, Datenmodellierung und -schulung, Datenbereitstellung und -betrieb, Integration von maschinellem Lernen mit vorgefertigten Blueprints für Ansible/Airflow, automatisierte Speicherkapazitätsbereitstellung, vorausschauende Speicheroptimierung (in hyperkonvergierten Umgebungen), KI, die hyperkonvergierte Hardware zur Anwendungsbeschleunigung konfiguriert, Passwort und "PII-Discovery" (PII = Personally Identifiable Information), wann Lasten mit hohen CPU-/GPU-Anforderungen und -Nutzungsdauern zu starten sind (die z.B. zu Deadlocks/Timing-Problemen oder dazu führen können dass andere Jobs warten müssen), wann Deep Learning/KI-Jobs mit geringerer Priorität zu starten sind und wann Ressourcen auf hochpriore Jobs/Lasten verschoben werden müssen, wann Diagnostik-Sammelprozesse nach Warnungen/Fehlern/Ausfällen gestartet werden, …
NLP-Analyse (Natural Language Processing) von Log- und Web-Inhalten:
- Extraktion von Fließtext-IoC-Inhalten (Indicator of Compromise) ins STIX-Format zur teilautomatischen Weiterverarbeitung, etwa automatisierte Suche nach Dateihashes, Analyse & Sperren von offenen Ports und ein-/ausgehenden Verbindungen.
- Semantische Kategorisierung (Problem-Kategorie, Schwere des Fehlers und möglicher Auswirkungen/Risiken, Dringlichkeit) und textuelle NLP-Analyse von Log-Inhalten mit genSim, spaCy und in Teilen auch mit Google BERT, GPT, Graph-ConvNets mit Octavian, Google Sling, TensorFlow graph_nets & gcn (Graph Convolutional Networks), PyTorch Geometric.
- Data Science-Beratung sowie Management-und Konvertierungskonzepte für Machine-Learning-Modelle mit ONNX (Open Neural Network Exchange: High-performance optimizer and inference engine for machine learning models and converter between TensorFlow, CNTK, Caffe2, Theano, PyTorch, Chainer formats).

DS-Ansatz (Data Science):
Eine Mischung aus Anomaly Detection, Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze, Zeitreihenanalyse + Seasonality Analysis, Anomalie-Erkennung, Assoziationsanalyse, Maximum-Likelihood-Schätzer, Random Forest, Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist (Erweiterung von Quinlan’s M5 model tree), C4.5, Assoziationsanalyse, (Nicht)lineare Regression, Multiple Regression, Apriori-Analyse, Überwachte Klassifizierung, Link-Analyse-Netzwerke; TensorFlow+Keras sowie PyTorch – auch für semantische Sicherheits-Analyse: Labeling und überwachtes Lernen zur korrekten Klassifizierung, verteiltes Hyper-Parameter-Tuning. partielle Abhängigkeitsdiagramme [Modellleckagen, Entscheidungserklärungen in Reduction, STN-OCR, Scikit-learn, Pandas, Wowpal Wabbit.

Kenntnisse

Java Constraint Library(JCL) IASolver YACS Docker Kubernetes Scala Python Airflow Kubeflow CeleryExecutor RADOS + Ceph TensorFlow-Stack mit Keras AutoKeras oder PyTorch + Auto-PyTorch + AddOns Uber Horovod Apache Spark Stack mit Spark Streaming Spark SQL MLlib GraphX Alluxio TransmogrifAI Alluxio TensorFlowOnSpark PySpark mit Optimus Apache Flink Jupyter Zeppelin PyTorch MXNet Chainer Keras Horovod XGBoost CatBoost RabbitMQ ONNX Hydrosphere Serving (model management) Zephyr (Continuous Testing Agility) Red Hat OpenShift Elastic/ElasticSearch MS Azure Hybrid Cloud Kafka Kafka-REST Proxy KafkaCat Confluent Chukwa Ansible OpenTSDB Apache Ignite DB mit TensorFlow/ML-Integration CollectD Python 3.x Flask (Python Microframework: REST UI) Coconut Functional Programming f�r Python Robot Framework (Python acceptance test-driven development (ATDD)) CNTLM Red Hat Identity Manager / FreeIPA keycloak Samba Nginx Grafana Jenkins Nagios Databricks (Spark Kafka Connectors to R TensorFlow etc.) Snowflake RTLinux RHEL Ubuntu Kali Linux Scrum + Design Thinking + SAFe. Memory-Centric/IMDG: Apache Pulsar (schnellere Alternative zu Kafka) memcached Ignite GridGain Alluxio Redis Hazelcast Ehcache Red Hat JBoss Data Grid Pivotal GemFire ActiveMQ RabbitMQ mit AMQP MQTT. PenTesting-Tools: AutoSploit Metasploit Burp Suite NeXpose Nessus Tripwire CORE Impact Kali Linux Snort Bro Argus SiLK tcpdump WireShark parosproxy mitmproxy nmap Security Onion Bro Sguil Squert CyberChef NetworkMiner Silk Netsniff-NG Syslog-NG Stenographer osquery GRR Rapid Response Sysdig Falco Fail2Ban ClamAV Rsyslog Enterprise Log Search and Archive (ELSA) Nikto OWASP Zap Naxsi modsecurity SGUIL Mimikatz CORE Impact Kali Linux. Log-Processing-Toolsets: OpenSCAP Moloch ntopng Wireshark + plugins Fluentd Message Parser SQL-basierte Abfragen: SploutSQL Norikra + Esper (Stream /Event Processing) Cyber Grand Challenge (CGC) Tools: BinaryAnalysisPlatform bap angr s2e KLEE AFL (American fuzzy lop) Strace ZZUF Sulley BitBlaze Shellphish/Mechaphish Tools: how2heap fuzzer driller rex Protokolle: AES RSA SHA Kerberos SSL/TLS Diffie-Hellman DBs: HBase + Phoenix Hive PostgreSQL Druid Aerospike Hive Lucene/Solr/Elasticsearch SploutSQL NLP-Stack mit Google BERT/Sling spaCy GPT-2 Stanford CoreNLP AllenNLP OpenEphyra DELPH-IN PET Parser Enju Grammix Logik-/Semantik-Tools: Prot�g� LOOM RDF (Resource Description Framework)/ SPARQL OpenCog TinyCog Apache Jena OWL Frame-Logik OCR/ICR Libraries: Tesseract OCR engine OCRopus Formcraft Kofax KTM (Kofax Transformation Modules) Reinforcement Learning Convolutional Models/Learning Google Dopamine Policy Optimization (Policy Gradient A2C/A3C PPO TRPO DDPG TD3 SAC) Q-Learning (DDPG TD3 SAC DQN C51 QR-DQN HER) Deep (Double) Q-Learning Learn the Model (World Models I2A MBMF MBVE) AlphaZero Diverses: Learn to Grow / Catastrophic Forgetting Semi-Supervised Learning und/oder Self-Supervised Learning (SSL) SPNs (Sum-Product Networks) & VAEs (Variational Auto-Encoders) Hierarchical Temporal Memory (HTM) Bayes- bzw. Stochastik-Libraries / Probabilistic programming (PP) / Programmable Inference: Stan (mc-stan.org) PyMC3 Julia + MIT Gen Pyro Edward Microsoft Infer.Net Probabilistic Logic Networks (PLNs Pyro-Programmiersprache) Differentiable Programming Cloned Hidden Markov Models (CHMM) Logik-/Semantik-Tools: Prot�g� LOOM RDF (Resource Description Framework)/ SPARQL OpenCog TinyCog Apache Jena OWL Ontobridge Frame-Logik Graph-ConvNets (Graph Convolutional Networks) Case-Based Reasoning (CBR): CRATER ProCAKE COLIBRI etc. Theory of Constraints (TOC) Frameworks Hierarchical Constraint Logic Programming (HCLP): Open Policy Agent (OPA) Constraint Framework (OPA CF) Java Constraint Library(JCL) IASolver BackTalk POOC YACS Integrity Classical/Probabilistic Rule Engines / Probabilistic Computer Vision

Kunde

Deutsche Bahn AG

Einsatzort

Frankfurt/Main + Homeoffice

5 Monate

2018-11 - 2019-03

Autonomous Driving Projekt

KI- und IT-Sicherheits-Architekt und Technical Lead Meta Data Ma

Rolle

KI- und IT-Sicherheits-Architekt und Technical Lead Meta Data Ma

Projektinhalte

Autonomous Driving Projekt: Self-Driving Cars

Agile Coaching: Scrum + Design Thinking mit Elementen aus dem Flow-Framework (Project to Product) sowie SAFe-Elementen, Verbesserung der Produktivität, Code-Stabilität und Zusammenarbeit.
Strategie zur Fokussierung und Optimierung der agilen DevOps-Team-Performance / Minimierung von Risiken: Die skalierbare Integration Dutzender komplexer teils unreifer Open Source Komponenten ist extrem komplex, weil sie oft je mehrere Hundert Konfigurations-Parameter haben (teils in Config-Files, teils über Aufrufe /Glue Code zu Scripten) und das Job- und Cluster-Situations-bezogen. Zusätzlich sind viele Workarounds oder Fallbacks nötig. Python ist die Risiko-behaftetste Sprach (z.B. weil interpretiert, Fehlerursachen manifestieren sich erst spät, kaum brauchbare Code Quality- oder Refactoring-Tools, wenig etablierte Best Practices, Entwickler kopieren Code von Internet-Trivial-Beispielen und versuchen, damit komplexe Systeme aufzubauen, …). Dann gibt es viele weitere Risiken: Mangelnde Dokumentation, zu wenig kooperative Zusammenarbeit, zu langes Warten auf nötige Inputs/Bottlenecks, zu unvollständig eingeführte Konzepte wie SSO (Single Sign-On) + persönliche Verantwortung, Sicherheits-Features, Logging-/Tracing-Features, stark divergierende wenig wartbare Implementierungen, zu spät bemerkte Limitierungen/Bugs der verwendeten Tools, in der Folge häufiges Umschwenken der Tools, mangelnde Bereitschaft zu Veränderungen (Prozesse, Gewohnheiten und Motivationen), etc.
Entwickelte Lösungsstrategien: Config-Management als Exzellenz-Disziplin + Data Governance / Data Catalogue, AIops (AI Operations), Serverless/Microservices (damit intelligentes automatisches Management und Skalierbarkeit), viele stringente und kontrollierte strategische, taktische und operative Vorgaben aufgrund von Grob-Architektur, Vision und klaren Prioritäten, vollständige Dokumentation, enge effiziente Zusammenarbeit, klare Aufgaben-Verteilung und Planung (strategisches Produkt Management / Portfolio-Management / Produktlinien-Architekturen) mit Berücksichtigung von Abhängigkeiten, Erkennung & Beseitigung von Bottlenecks, intelligentes Monitoring, KI-basiertes Testing (Anomalie-Erkennung in Kombination mit Logging/Tracing) mit mehreren Test-Umgebungen + professionalisierte CI/CD-Pipeline, Code Analyse & Refactorings (Gemeinsamkeiten extrahieren, Utility-Libraries, etc.), Einführung von mehr Code Quality Tools (Analyse/Refactoring/Testing/Tracing/Debugging), Standardisierung/Dokumentation eines jeden neuen Mechanismus (welche Implementierungsvarianten/Tools/Libs/APIs, Namespaces, Stati, Warn- und Fehlermeldungen, welche Diagnose- und Fallback-Mechanismen, Scheduling/Workflow mit strategischer Planung aller Ressourcen und Vermeidung von Deadlocks/Race Conditions, IT-Sicherheit), Erfassung und Nutzen aller Abhängigkeiten (zum Betriebssystem, zu sonstigen Tools/Libs), Definition + Implementierung von Workarounds zu Standard-Problemen wie Stale File Handles, Stale Sockets, Vermeidung von Out-of-X-Meldungen und Thrashing, Netzwerk-Problemen, Ausrichtung auf Veränderungen bei den Prozessen, den Gewohnheiten und den Motivationen, etc.
Security-Konzept für Docker/Kubernetes/K8s: kubectl, Docker Authentication on Kubernetes pods, AuthN/AuthZ Methods wie UMA 2.0 (Federated Authorization for User-Managed Access), OpenID Connect mit keycloak über Translations, Kubernetes RBAC & User Impersonation, Volume Type Whitelisting, SELinux/seccomp/AppArmor, System Call Filter, Kubernetes Helm Sicherheitslimits & Verbesserungen, DEX vs Keycloak, SSSD PAM module (POSIX) für MapR Filesystem/HDFS, MapR Container Location Database (CLDB), etc.
Vorschlag von Architekturen / Verbesserungen: Zero-Downtime-Architekturen, schnelleres Dateneinlesen, Autonomes-Fahren-Analysierer / robotic-drive analyzer (RDA), Messaging/Workflow und Containerisierungsarchitekturen.
Konzeption der Microservices/APIs, u.A. für die Metadatenverwaltung, Machine Learning Parameter, ...
Optimierung der Real-time Data Ingestion Verfahren für hochauflösende Self-Driving Car Video- und Sensor-Daten (TB-PB Datenmengen) in einen MapR Hadoop Datalake mit MapR-DB und Ceph Storage (Reliable Autonomic Distributed Object Store (RADOS)), etcd (distributed key value store) mit LoadBalancer (LB), Real-Time Monitoring mit Prometheus und Elastic/ELK.
Konzeption der Einführung von Docker/Kubernetes für TensorFlow-MachineLearning: Vergleich mit der Alternative containerd mit GRPC, Docker Registries mit YAML für Kubernetes, Flannel (layer 3 network config). Kubernetes Tools: kubelet (primary node agent), kube-proxy, Container Runtime, (High Availability) HA endpoints, kubernetes-ha, Kube-apiserver, kubeadm, cluster autoscaler, scheduler, Helm (Kubernetes Package Manager, Microservices), Tiller (Helm server part), Ingress (load balancing, SSL termination, virtual hosting), kube-keepalived-vip (Kubernetes Virtual IP addresses using keepalived), Kubespray (Deploy a Production Ready Kubernetes Cluster). Analyse von Kubernetes & Airflow Failure Stories auf Risiken und Ableitung von Best Practices/Empfehlungen.
Scheduling-Konzepte mit Airflow, LocalExecutor, Celery (Distributed Task Queue), CeleryExecutor, RabbitMQ, Dynamic Workflows mit DAGs/SubDAGs mit PythonOperator/BashOperator, upstream/downstream/X-COM, Backfill, Catchup, Kubeflow, Seldon Core.
Parallelisierung/Optimierung/Skalieren/Wiederaufsetzen/Fortführen von Deep Learning und speziell TensorFlow-Pipelines und supervised Optimierungszyklen, u.A. mit Spark: Horovod (Training + HorovodEstimator für TensorFlow, Keras, and PyTorch), TensorFlowOnSpark, TensorBoards, TensorFrames.
Auf maximale Performance und Durchsatz optimierte Apache Spark basierende Scheduling-Konzepte mit Memory-centric Libraries / In-Memory Data Grids (IMDG) wie Apache Pulsar, memcached, Ignite, GridGain, Alluxio, Redis, Hazelcast, Ehcache, Red Hat JBoss Data Grid, Pivotal GemFire, ActiveMQ, RabbitMQ mit AMQP, MQTT: Data-Locality-Optimierung und Minimierung datenintensiver Operationen: Custom Spark Scheduler/Spark Task/DAG/SubDAG Combiner für Dynamic Workflows (In-Memory-Optimierungen), Deep Learning Pipelines, Horovod, TensorFlowOnSpark, TensorBoards, TensorFrames, Data Lineage Optimierungen.
Review aller Security-Aspekte: Airflow, Kubernetes, Docker, Zeppelin, Spark, Java-Sicherheit mit Apache Shiro/Spring Security, sichere Speicherung von Anmeldeinformationen im Unix-Dateisystem, Github, Soft/Hard PSE (Personal Security Environment) mit z.B. SSO (Single Sign On with CA SiteMinder, PAI, OpenId Connect), CyberArk Password Vault + IAM + Privileged Threat Analytics (PTA), SSO oder GPG + Ansible Vault, etc.
Hilfe/Review bei Angular-basierten Visualisierungen, insbesondere für Grafana (zunächst in Angular, dann in React weil Grafana von Angular auf React migriert wurde).
Erstellung eines umfassenden Testmanagementkonzeptes zur Verbesserung der Stabilität von entwickeltem Code mit den Schwerpunkten Datenaufnahme, KI, DevOps, CI/CD-Pipeline (Continuous Integration/Deployment mit Jenkins und Sonar(Qube)), Metadaten und IT-Sicherheit zur Kanalisierung und Verbesserung von Code durch Developer-Test-, Integrationstest-, Pre-Prod- zu Prod-Umgebungen).
Konzeption eines Objekt-Erkennungsmoduls im Rahmen der Computer Vision: Erkennen von 2D-/3D-Objektteilen, Registrieren/Stitchen der Teile zu einem Gesamtobjekt und Objekterkennung: Z.B. Menschen, Verkehrszeichen, Fahrzeuge in verschiedenen (Teil-)Ansichten mit TensorFlow und PyTorch. Wesentliche Algorithmen des Hybrid-Verfahrens: Iterative Closest Point (ICP) with landmarks , Efficient SparseICP, Shape Registration, Depth Maps, Combined fusion approaches, 3D Regression, 3D (boosted) Decision Trees (XGBoost), 3D Pointcloud Triangulation/Voronoi & Surface Normals, Deformable 3D Object Matching, LIDAR+RGB Fusion, PointRCNN, ContFuse, Valeo Complex-YOLO, 3D YOLO, LaserNet++, Apple VoxelNet, Core Approximation Matching, Generating/Comparing 3D Voxel Exemplars (NEC), Data-Driven 3D Voxel Patterns for Object Category Recognition, Multi-Scale DenseNet (MSDNet), DensePose (real-time body pose estimation), RetinaNet, Aptiv/nuTonomy: PointPillars, SSD: Single Shot (MultiBox) Detector, ‘Residual Learning’ (Resnet) Variants, ResNeXt, VoteNet Deep Hough Voting, AVOD: Aggregate View Object Detection network, Baidu: Multi-view 3D networks (MV3D), Frustum PointNet Detection, Uber: ContFuse (Continous Fusion), 3D Labeling Tool LATTE.
Recherche/Analyse/Erweiterung aktueller Ideen/Tools zu technischen Knackpunkten in den Projekten für den Lieferanten DXC und Weitergabe an den DXC-Vertrieb zur Akquise neuer Arbeitspakete oder direkter Vorschlag der Lösungen samt passenden Autonomous-Driving-Use-Cases an die relevanten Ansprechpartner in den Teilprojekten:
- NLP (Natural Language Processing) / Computerlinguistik Forschung & Auswertung: Analysieren/Parsen natürlicher Szenenbilder zusammen mit dem textuellen Parsen von Bildunterschriften/Beschreibungen aus dem Internet zum Trainieren von Bildverarbeitungsmodellen (Stanford CoreNLP-Ansatz); Klassifizieren von Trouble Tickets / Texten in Kategorien/Aktualitäten; Wartung / Gelernte Lektionen: Analyse textueller Berichte von Technikern über IT-/Fahrprobleme und autonome Fahrtenschwierigkeiten (falsche Klassifizierungen/Reaktionen) für Erkenntnisse/Feedbacks auf NLP-Ebene; Generieren von a) Beschreibungen für Fahrer, welche Art von Trainings-Situationen im Straßenverkehr anzustreben sind, b) Um welche Art von Fehlerursachen es sich bei gegebenen Symptomen handeln könnte als Liste oder Text.
- Tools/Algorithmen: OpenAI GPT-2 (Generative Pre-trained Transformer), Facebook XLM (Cross-lingual Language Model Pretraining), Facebook PyText (NLP Modeling Framework, auf PyTorch), Google BERT (Bidirectional Encoder Representations from Transformers), Kombinierte Multi-Task-Modell-NLP, Vortraining kompletter (Sprach-/Tiefenlernen) Modelle mit hierarchischen Darstellungen, Aufmerksamkeitsmodelle, DLNLP (Deep Learning NLP: Embed, Encode, Attend, Predict), Hierarchical Multi-Task Learning Model (HMTL), semi-supervised Lernalgorithmen zur Erstellung von Proxy-Labels auf unmarkierten Daten, BiLSTM, SalesForce MetaMind-Ansatz, DeepMind, Deep Transfer Learning for NLP, vortrainierte Sprachmodelle, Worteinbettungen / Worttaschen, Sequenz-zu-Sequenz-Modelle, Gedächtnis-basierte Netzwerke, Gegensätzliches Lernen, Verstärkungslernen, semantische Rollenkennzeichnung, Repräsentationslernen, Textklassifizierung mit TensorFlow Estimatoren, word2vec, Vektor-Raum-Modell/Mapping von Features zu Einbettungen, Skip-Grammen, Seq2seq Encoder-Decoder, ULM-FiT, ELMo, OpenAI Transformer / GPT, Google BERT, BERT, Transfer Learning, OpenAI Transformer, spaCy + Cython zur Beschleunigung, OpenNMT (Neural Machine Translation), AllenNLP (auf PyTorch), OpenNLP, Verstärkungslernen zum Erlernen korrekter Klassifizierungen/Labelzuweisungen/Fragen & Antworten, tief latente Variablenmodelle, Visual Commonsense Season Reasoning, Modell-agnostisches Meta-Learning (MAML), Multi-Hop-Denken, Aufmerksamkeitsmasken für (Self-Attention) GANs (SAGAN), TensorFlow Lingvo (NLP sequence models), OpenEphyra (Teil von IBM Watson).
- KI/AI/Data Science/Big Data: Algorithmen und Tools: LSTM vs. GRU, Feast AI Feature Store, K8s Sidecar Injector, TensorFlow 2.0 (Vorteile von Update/Migration), Tensor Comprehensions, Style GANs, Neural Ordinary Differential Equations, Visual Common Sense Reasoning, Deep Learning, RNNs, CNNs for Self-Driving Cars / Logically/temporally consistent virtual 3D city generation, Deep Labelling for Semantic Image Segmentation mit Keras/TensorFlow, Design Patterns for Deep Learning, RNN, CNN Architectures, DeepMind (Kapitan, Scalable Agent, Learning to Learn, TF Reinforcement Learning agents), Uber’s QALM (QoS Load Management), Fusion.js (JS framework supporting React, Redux & pre-configured optimized boilerplate, hot module reloading, data-aware server-side rendering, bundle splitting, plugin-architecture, observability, I18n), Horovod (distributed training framework for TensorFlow, Keras, PyTorch), Ludwig (train and test deep learning models without coding), AresDB (Uber's GPU-powered real-time analytics engine), Uber‘s Sparse Blocks Network (SBNet, TensorFlow algorithm), Google Dopamine reinforcement learning framework based on TensorFlow, Kubernetes Operator für Apache Spark, FastAI Deep Learning, Polygon-RNN++, Flow Framework: Project to Product Agile Process, IntelAI OpenVINO (inference serving component for AI models), IntelAI Nauta (distributed computing environment for running DL model training), TensorFlow Extended (TFX), Salesforce Einstein TransmogrifAI (machine learning automation with AutoML), OpenCV (Open Computer Vision Library), GluonCV, Angel-ML (handling higher dimension ML models), Acumos AI (design, integration and deployment of AI models; AI Model Marketplace), (Paddle EDL: Elastic Deep Learning framework: optimizes deep learning job and waiting time in the cluster: Kubernetes controller & fault-tolerable deep learning framework: PaddlePaddle & TensorFlow), Pyro (Deep Probabilistic Programming Language), Jaeger (OS distributed tracing system, optimized for microservices), EAST (Efficient and Accurate Scene Text Detector).
- Vorschläge zur Deep-Learning-Beschleunigung u.A. mit aktuellen Publikationen (z.B. Modell-Kompression, Nutzung von HW-Eigenschaften) sowie der Integration von Domänen-Wissen/Semantik/Regeln/Entscheidungstabellen/Ontologien/Erklärbare-KI-Ergebnissen in Deep Learning; Entwicklung von optimierten Hybrid-Learning-Modellen (Deep [Reinforcement] Learning mit klassischen Lernverfahren kombiniert).
- Machine Learning / Image / Video-Analyse-Tool Recherche und Integrationskonzepte für Sensor Fusion, sonstige Daten-Zusammenführung, Massendatenverarbeitung, UML-Software-Architektur: OpenCL (Computing Language für div. HW Plattformen), OpenCV (Computer Vision), OpenVX (Vision Cross-Platform), Vulkan, OpenGL (ES), CUDA, nVidia GPU Toolkits wie VulkanRT.
- Explainable AI (XAI) Techniques: Individual conditional expectation (ICE) Plots, Partial Dependence Plots (PDPs), SHapley Additive exPlanations (SHAP), Local Interpretable Model-agnostic Explanations (LIME), Counterfactual method, Causality, Leave One Covariate Out (LOCO), Layer-wise Relevance, Propagation (LRP), Generalized additive model (GAM), Learn to Explain, Anchors: High-Precision Model-agnostic Explanations.
- Konzept für AIops (Artificial Intelligence Operations) / KI-basierte Betriebs-Optimierung im Kontext Metadatamanagement und Ingest:
  - Konzept für die Einführung eines CMS (Config Management System) zur Minimierung menschlicher Fehler bei der Programmierung / Ausführung der Skripte: Alle relevanten fest programmierten Parameter wurden in eine separate CMS-Datenbank oder minimal in umgebungsspezifische Konfigurations-/Property-Dateien extrahiert. D.h. ein Parametersatz für die Entwicklungsumgebung, einer für die Testumgebung,.... bis zur Produktionsumgebung (Python NetworkX, Snowflake, …).
  - Konzept zur Skalierung und Beschleunigung von KI-Workloads, Verwaltung komplexer Workloads, Beschleunigung der Entwicklung und Bereitstellung statistischer Modelle, Voroptimierung in Plattformen für KI-Workloads: Datenaufnahme und -aufbereitung, Datenmodellierung und -schulung, Datenbereitstellung und -betrieb, Integration von maschinellem Lernen mit vorgefertigten Blueprints für Chef/Puppet/Ansible/Airflow, automatisierte Speicherkapazitätsbereitstellung, vorausschauende Speicheroptimierung (in hyperkonvergierten Umgebungen), KI, die hyperkonvergierte Hardware zur Anwendungsbeschleunigung konfiguriert, Passwort und "PII-Discovery" (PII = Personally Identifiable Information), wann Lasten mit hohen CPU-/GPU-Anforderungen und -Nutzungsdauern zu starten sind (die z.B. zu Deadlocks/Timing-Problemen oder dazu führen können dass andere Jobs warten müssen), wann Deep Learning/KI-Jobs mit geringerer Priorität zu starten sind und wann Ressourcen auf hochpriore Jobs/Lasten verschoben werden müssen, wann Diagnostik-Sammelprozesse nach Warnungen/Fehlern/Ausfällen gestartet werden, …
- Vorschlag, Ausarbeitung und Diskussion der geplanten/angebotenen Arbeitspakete zu Techniken, Tools und Innovationen mit Automobilherstellern und anderen Kunden.
- Data Science-Beratung sowie Management-und Konvertierungskonzepte für Machine-Learning-Modelle mit ONNX (Open Neural Network Exchange: High-performance optimizer and inference engine for machine learning models and converter between TensorFlow, CNTK, Caffe2, Theano, PyTorch, Chainer formats).
Projektende: Daimler und BMW haben ihre Autonomous-Driving-Aktivitäten offiziell zusammengelegt mit entsprechender Re-Organisation.

DS-Ansatz (Data Science):

TensorFlow für Bild-/Video-Analyse: Labeling und überwachtes Lernen zur korrekten Klassifizierung, verteiltes Hyper-Parameter-Tuning mit TensorFlow, Keras. ML Debugging/Erklärbare KI im Kontext von LIME, SHAP, partielle Abhängigkeitsdiagramme[Modellleckagen, Entscheidungserklärungen in if-Anweisungen, ....]; Modellspeicherung in PMML mit OpenScoring.io und HBase/MapR-DB + Apache Phoenix, Visualisierung der Metadaten, KPIs mit Tableau.

Produkte

MapR Hadoop MapR-DB MapR Control System (MCS) MapR POSIX Clients MapR expandaudit Me-sos Hive Ceph RADOS TensorFlow Apache Spark Alluxio TensorFlowOnSpark Docker Kubernetes Airflow Kubeflow CeleryExecutor Jupyter Zeppelin PyTorch MXNet Chainer Keras Horovod XGBoost Keras PyTorch RabbitMQ ONNX Zephyr (Continuous Testing Agility) Red Hat OpenShift Elastic/ElasticSearch MS Azure Hybrid Cloud Kafka Kafka Kafka-REST Proxy Confluent Ansible mig-riert nach SaltStack OpenTSDB CollectD Python 3.x. DaSense 2&3 DaSense GPU Scheduler CNTLM Samba Nginx Grafana Jenkins Nagios Scrum mit Elementen aus dem Flow-Framework (Project to Product).

Kunde

DXC f�r Daimler und BMW

Einsatzort

S�ddeutschland

1 Jahr

2017-12 - 2018-11

Aufbau des SOCs (Security Operations Centers)

Full Stack IT Architekt: Applikationen, Netzwerk, Security/DSGVO

Rolle

Full Stack IT Architekt: Applikationen, Netzwerk, Security/DSGVO

Projektinhalte

Aufbau des SOCs (Security Operations Centers) sowie die engere Verzahnung/Integration der Tools, Vulnerability Management, Security Assessments/Bewertungen/Security-Architektur und Vorgehens-Empfehlungen, insbesondere bei der Einführung von Blockchain-Technologie (We.Trade auf R3/Corda für Zahlungen + Voltron auf HyperLedger für Handels-Dokumente + Utility Settlement Coin (USC)) sowie SAP für Kernbanking (Deposits Management, Collateral Management, Loans Management, Financial Supply Chain Management, SAP Bank Analyzer) bei gleichzeitiger Betrachtung der DSGVO-/GDPR-Anforderungen.

Konzeption der Security-Maßnahmen für das neue SAP Core Banking System als Security Architect.
Überprüfung von Use Cases auf Relevanz für DSGVO/Datenschutz und Erstellung entsprechender Bewertungen, Ausfüllen von DSGVO-Formularen.
IAM (Identity and Access Management): SAP NetWeaver Identity Management (IdM) eingeführt mit SAML, OAuth, OpenId Connect, Kerberos; Konsolidierung der IAM-/IdM-Funktionalität, die vorher über verschiedene Technologie-Inseln verteilt waren wie LDAP, Active Directory (AD) Federation Services (ADFS), RACF, Oracle Enterprise Directory Server (OEDS), Lotus Notes Domino, etc.
Vorschlag von abgeleiteten IT-Security-Architektur- und DSGVO-Maßnahmen auf Basis der vorhandenen Grob-Architektur, Konzept für Privileged Account Management (PAM) und weitergehende Sicherheits-Maßnahmen.
Zukunftsvision der SOC-Architektur und Konzeption ihrer Komponentenarchitektur - mit möglichst vielen Open-Source-Tools, um Kosten zu sparen und neuesten KI/AI (Künstliche/Artificial Intelligence) und Machine Learning Frameworks: Spark + MLLib, XGBoost, ….
(Weiterer) Aufbau des SOCs (Security Operations Center) als Architekt/PM mit am Ende ca. 60 Security-Tools. Davon wurden ca. 15 Tools neu eingeführt. Deren Einführung sowie die Integration und Automatisierung eines Großteils der Tools habe ich insbesondere konzipiert und in Teilen programmiert: Automatisierte Echtzeit-Datenflüsse und Reduktion von False-Positives.
Red-Blue-Team Testing / Penetration Testing / PenTesting und Verteidigung, insbesondere bzgl. der Verwundbarkeit gegenüber aktuellen Exploits und den Indikatoren im SIEM und den Folgen/Risiken für die IT und der Optimierung der möglichst schnellen Erkennung mit wenigen False Positives.
Evaluierung der Risk Management Frameworks IRAM2, FAIR, OCTAVE, COSO gegen den MaRisk-Standard von 2017 und BAIT (Bankaufsichtlichen Anforderungen an die IT).
Erweiterung und Umsetzung von Vulnerability Management, Patch Management und Security-Standards-Compliance sowie Dokumentation dazugehöriger Risiken.
Patching-/Risk-Projektmanager Germany bzgl. Meltdown/Spectre (CPU Bugs).
Mitarbeit bzgl. IT-Sicherheit an der R3/Corda Blockchain Implementierung der HSBC in Kotlin mit über 100 anderen Banken und Vorbereitung der Herausgabe des Utility Settlement Coins (USC) der Großbanken sowie der Anbindung der Big Data basierenden Bank-eigenen Fraud Detection Lösung, z.B. bzgl. Security-Anbindung per BlueTalon + Ranger.
Integration von Security-Systemen per Serverless-Architektur über Google Cloud Functions per REST APIs mit Go: Automatisierte Integration von Configuration Management, Nessus- + Tripwire-Security Scans (Windows/Linux Datenbanken: Verwundbarkeiten und Compliance-Einstellungen) sowie der datenbankbasierten Auswertung der Scans (manuelle Gewichtungen) und Weiterleitung/Eskalation der Ergebnisse.
Mitentwicklung von Mobile-App- und Cloud Security Standards, insbesondere für Hybrid Clouds mit dem Google Cloud Stack, z.B. der Software-Defined Perimeter Ansatz.
Architektur obiger APIs nach Open Banking Standard mit Mulesoft AnyPoint Platform (API Gateway, App execution, API Repository & Portal, API Designer, Runtime Manager, CloudHub, Private Cloud, AnyPoint Studio).
Beratung der Architekten und Entwickler-Teams bzgl. sicherer Konzeption/Entwicklung, sicherer Anbindung von Security Libraries (z.B. Spring Security, SAML, OAuth, LDAP, OpenId Connect), Patchen von Library-Verwundbarkeiten (Vermeiden/Minimieren der Verwendung von anfälligen Versionen: Lösungen und Workarounds) und Security Code-Review mit Tool-Unterstützung (ConQAT + Teamscale von CQSE, Support Query Framework (SQF) und Code Inspector von SAP (ABAP), Micro Focus Fortify, LGTM, Semmle, FindBugs, PMD, SonarQube, Checkstyle, etc.) im Rahmen von TQE (Total Quality Engineering).
Beratung bei der Weiterentwicklung der Asset Management und Configuration Management Datenbanken/Systeme um priorisierte Risiko- und Gegenmaßnahmen-Einschätzung in Richtung des statistischen Common Criteria Ansatzes.
Internal Reviews/Assessments, Erstellen von Management Self-Identified Issue (MSII) Berichten als Vorbereitung für offizielle Reviews/Assessments.
Business Impact Analysis (BIA) und Global Application Security Risk Assessments (GASRA).
Business Process Definition / Optimization / Re-Engineering: Network Based Intrusion Prevention (NIPS), Vulnerability Management, Privileged Access Management, Testing & Patching, Anlegen/Anpassen von Beantragungs-/Entziehungs- und Überwachungsprozes-sen mit Neocase Advanced BPM Suite / NEO Process Manager.
Security-Architektur für einen Amazon-Cloud- und Serverless-PoC: AWS, Fargate, S3, EC2, VPC (Virtual Private Cloud), IAM, RDS, RedShift, Aurora, DynamoDB (Rel. DBs), Neptune (Graph DB), ElastiCache (In-Mem-DB), Elastic Beanstalk (Orchestration Srv), CloudTrail (Sec. Log), STS (Secure Token Srv), EKS (Elastic Kubernetes Service), EBS (Elastic Block Store), OpsWorks (Config Mgmt), SQS (Simple Queue Srv), CloudWatch (Billing/Metrics), Docker, Kubernetes, Kubeless, Go.
Security-Architektur für PoCs mit Blockchain for trade (We.Trade, Voltron, R3/Corda), Biocatch, Microplatforms, Eclipse Microprofile (Hammok, Red Hat Wildfly Swarm, Open Liberty/WebSphere Liberty), JWT, OpenTracing, MicroNaut, ThreatMetrix, UNSilo, Skytree, TidalScale, DataRobot, data iku, Ayasdi (AML), Quantexa, Seldon.io, gVisor.
Unterstützung bei der Einführung agiler Prozesse: Design Thinking (Empathie-Maps, Personas, User Profile Canvas, Value Proposition Canvas, Business Model Canvas, Business Ecosystem Canvas, Customer Journeys, HOOK (Trigger, Action, Variable Reward, Investment), SCAMPER (Substitute, Combine, Adjust, Modify, Put to other uses, Eliminate, Rearrange), MVP, MVE (Minimum Viable Ecosystem), Virtuous Loops, Systems Thinking, Business Ecosystem Design, Lean Canvas, NABC (Needs Approach Benefits Competition), SWOT) in Kombination mit DAD (Disciplined Agile Delivery) und SAFe (Scaled Agile Framework) – insbesondere Coaching und Halten von Präsentationen zu den Risiken agiler Verfahren – u.A. durch das Entfallen der Architektur-Phase (siehe meine Social Media Accounts), Mit-Einführen von WorkHacks (= LifeHacks für den Beruf).
Konzeption + (Teil-)Implementierung einer automatisierten Microservice/Serverless System-Security- und Vulnerability-Assessment und Reporting-Komponente in Python3 und JavaScript (mit PhantomJS, CasperJS, Bootstrap, a2ps), die automatisiert HTML- und PDF-Reports erzeugte aus Statistical Common Criteria Bewertungsergebnissen, Nessus- + Tripwire-Scan-Ergebnissen, CMDB-Infos (Config Mgmt DB namens ITDoku) etc. mit Integration zu diversen Systemen (Lotus Notes, CMDB, Excel-Dateien, Oracle-DB, CyberArk Password Vault + IAM + + Privileged Threat Analytics (PTA), Inventory-Systemen zum Check der Kritikalität (BIA/GASRA), Installationsstatus von Security-Tools, etc.) per REST APIs, SysCalls und OAuth.
Insgesamt ca. 50 Verbesserungsvorschläge unterbreitet/umgesetzt, vor allem zur Verbesserung des SOCs / der effizienten Erkennung, Priorisierung und Beseitigung von Risiken/Angriffen.
Erstellung/Erweiterung/Schärfung von ca. 150 QRadar SIEM Use Cases für zielgerichteteres Security-Monitoring mit weniger False Positives oder weniger manuellem Nachrecherche-Bedarf bei Alerts (Minimierung der manuellen Aufwände).
SIEM-Alternativen: Evaluation von
- ElasticSearch + Norikra Schemaless Stream Processing + Esper CEP (Complex Event Processing) + Apache Nifi + Kafka + Fluentd für SIEM Use Cases/Alerting, Datenextraktion aus Protokollen per WireShark-Plugins (z.B. bzgl. SMBv1 + v2 Exploits [EternalRomance, EternalBlue, EternalChampion, WannaCry]),
- Apache Metron (ex: Cisco OpenSOC) + Blitz Incident Response + Apache Nifi + Hadoop + Apache Solr/HDP Search + Ranger + Atlas, Technologie-Workshops. Konzeptionen zu:
  - Dokumenten-Id-Vergabe und expliziter Verteilung der Dokumente auf Shards/Replicas und dessen Tracking.
  - Parallelisiertem SolrJ-Client optimiert auf Antwort-Geschwindigkeit.
  - Loadbalancer-Switching-Logik.
  - Schutz gegen bösartige Ambari-Administratoren.
  - Integration der Lösung in das Single Sign On (SSO) Konzept mit Identity & Access Management per LDAP, SASL, explicit TLS.
Konzeption/Implementierung eines Apache Spark + MLlib + Kafka basierenden Data Science und Machine Learning Systems zur Erkennung von Incidents/Malware/Netzwerk Anomalien mit H2O.ai.

DS-Ansatz (Data Science):

zur Erkennung von Incidents/Malware/Netzwerk-Anomalien

Eine Mischung aus Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze, Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Maximum-Likelihood-Schätzer, Random Forest, Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist (Erweiterung von Quinlan’s M5 model tree), C4.5, Assoziationsanalyse, (Nicht)lineare Regression, Multiple Regression, Apriori-Analyse, Überwachte Klassifizierung, Link-Analyse-Netzwerke, Visualisierung der mögl. Incidents, KPIs mit Tableau.

Produkte

Nearest Neighbor Methoden neuronale Netze Zeitreihenanalyse Anomalie-Erkennung Assoziationsanalyse Maximum-Likelihood-Sch�tzer Random Forest Gradient Boosting (GBM xgboost) Cubist (Erweiterung von Quinlan?s M5 model tree) C4.5 Assoziationsanalyse (Nicht)lineare Regression Multiple Regression Apriori-Analyse �berwachte Klassifizierung Link-Analyse-Netzwerke. SAP Basis FI/CO DM CM LM FSCM FS FS-BA SAP NetWeaver Iden-tity Management (IdM) IBM FileNet SAP Business Objects Mulesoft AnyPoint Platform (API Gateway App execution API Repository & Por-tal API Designer Runtime Manager CloudHub Private Cloud AnyPoint Studio) Symantec DCS Symantec DLP Symantec PGP Server Syman-tec SSLVA TrendMicro Deep Discovery + Antivirus (AV) Cisco Router ASA Switches CheckPoint Firewalls/IDS/IPS Barracuda WAF Windows & SAP PKI & IAM IBM QRadar IBM Resilient IBM InfoSphere Guar-dium (Monitoring: DB etc.) IBM Vanguard IBM RACF IBM EventAction Nessus Vulnerability-Scanner ForeScout (vulnerable IoT) Proofpoint (E-Mail Security) CrowdStrike (Endpoint Protection) McAfee (Antivirus + HIPS + Drive Encryption + E-Mail Gateway + ePolicy Orchestrator ePO) Skyhigh (Web Browser isolated in the Cloud Secure Cloud Services) MenloSecurity (DLP Absichern von E-Mail- und WebLinks) Cisco Open DNS BlueCoat Proxy/SSL Decryption/AV CyberArk Password Vault + Privileged Threat Analytics (PTA) Tufin (Network Security Policy + Firewall Management) Ivanti Application Control (ex: AppSense) En-case Endpoint Security/Forensics Lumension Endpoint Security Micro-soft Baseline Security Analyzer (MBSA) RSA enVision SCCM Windows Compliance Trustwave DbProtect DB SAT Avecto Defendpoint Centrify DirectAudit Dark Trace (UEBA: User & Entity Behavior Analytics / NGAV: Next-generation antivirus platforms / DER: Endpoint Detection and Response) DFLabs (SOAR: security orchestration automation and response) AutoSploit MetaSploit Cuckoo Malware Analysis (in virt. Sandbox) MS Visual Studio Eclipse + Java 1.8 Keycloak Snort Python 3.7 p0f Cluster SSH Open Workbench viele Open Source Tools (Fuz-zer Exploits Utilities ?) Vizolution Google Cloud Platform (GCP: Cloud Functions/Datastore/Storage Cloud Pub/Sub Endpoints RSocket Tools: gVisor (User Space Kernel) Apigee Cloud Dataflow BigTable BigQuery (DWH) BigQuery ML (BQML) Firestore Firebase Memo-rystore Datastore Cloud Spanner Cloud Launcher Cloud SQL BigCom-pute Cloud ML Engine Apache Beam bdutil Dataproc (Managed Hadoop) Stackdriver (Systems Management) AutoML Google Kubernetes Engine (GKE)) Apache Spark + MLlib + Kafka H2O.ai We.Trade Volt-ron R3/Corda) Biocatch Microplatforms Eclipse Microprofile (Ham-mok Red Hat Wildfly Swarm Open Liberty/WebSphere Liberty) JWT OpenTracing MicroNaut ThreatMetrix UNSilo Skytree TidalScale Da-taRobot data iku Ayasdi (AML) Quantexa Seldon.io gVisor.

Kunde

HSBC Trinkaus & Burkhard AG / HSBC Deutschland, gr��te Bank Europas, World?s Best Bank 2017 nach EuroMoney

Einsatzort

D�sseldorf, Homeoffice

4 Monate

2017-09 - 2017-12

Plattform- und Umgebungs-Aufbau

Coach: Big Data Architektur & Data Science Red Hat OpenShift Docker Kubernetes ...

Rolle

Coach: Big Data Architektur & Data Science

Projektinhalte

Plattform- und Umgebungs-Aufbau für diverse Predictive-Analytics Teilprojekte (insbesondere von Marketing-Effekten und Supply-Chain-Prognosen bzgl. benötigten Mengen/Preisen etc.)
Coach: Big Data Architektur, Data Science, Test Management
- Zwecks Einarbeitung & Coaching-Grundlage: Erhebung der Ist-Situation bzgl. Tools, Algorithmen und IT-Umgebungen; Mitarbeit bei der Erstellung von Ab Initio Graphen/Lineages als ETL-Pipelines unter Integration von Teradata BTEQs/ActiveBatch/SQL, R, Python, Spark, Hive, SAP, MicroStrategy.
- Big Data und Data Science Architekturberatung: R on Spark mit SparklyR vs. SparkR, Hive/Beeline Query Optimierung, Integration mit Teradata QueryGrid/Teradata Connector for Hadoop (basierend auf Sqoop).
- Konzeption/Entwicklung von AbInitio ETL-Pipelines mit GDE/TRMC/EME, Express>It (BRE), Conduct>It (CC), Query>It, Metadata Hub (EME).
- Vorschlag und Mit-Auswahl von BI & Analytics Use Cases: Promotions (Angebote/Preisveränderungen (PV)), Dynamic Pricing, Backschema, Category Management, Palettenfaktor, Kollisortierung, Shopping Missions, Einkaufs-Planung, Logistik-Planung, Rücksende-/Rückläufer-/Remittenden-Planung.
- Mitarbeit im Predictive Modelling von Marketing- und Logistik-Prozessen und der Vorhersage des Effektes von Sonderangeboten und diversen Werbemaßnahmen.
- Beratung zur Auswahl eines Workflow-Management-Tools Oozie, ActiveBatch, Azkaban (LinkedIn), Airflow (Airbnb), Scripting.
- Berechtigungskonzept mit Apache Ranger, Rechte-Datenbank & LDAP für Hortonworks Hadoop miterstellt.
- Erstellung von Cross-Platform Packaging-, Versioning-, Deployment- und Dependency-Management-Konzepten für Python, R, Big Data (Spark, Hive, etc.), Teradata, SAP, Ab Initio, MicroStrategy mit Conda/Anaconda, Python, sbt, Java 9 Platform Module System (JPMS) = Project Jigsaw, etc.
- Virtualisierungskonzepte erstellt für alle Tools mit VMware, Docker, Rancher und Kubernetes, einschließlich Netzwerkkonnektivität, Debugging, Tracing und Monitoring-Funktionen.
- Erstellung eines 400-seitigen Test-Management-Konzepts incl. ETL- und BI-Testing mit IT-Security für 6 Test-Umgebungen sowie für Python, R, Big Data (Spark, Hive, etc.), Teradata, SAP, Ab Initio, MicroStrategy, Continuous Integration/Deployment mit Jenkins und Sonar(Qube).

DS-Ansatz (Data Science):

Random Forest, Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist (Erweiterung von Quinlan’s M5 model tree), Zeitreihenanalyse, Assoziationsanalyse, (Non-)Linear Regression, Multiple Regression, Anomalie-Erkennung, Apriori-Analyse, Warenkorbanalyse, Überwachte Klassifizierung, Link-Analyse-Netzwerke, Maximum-Likelihood-Schätzer, klassische und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt), ML-Debugging/Explainable AI im Kontext von LIME, SHAP, partial dependency plots [model leakages, decision explanations in if-statements, …]; Model-Storage in PMML mit angepasstem OpenScoring.io (mit Spring) und Apache Phoenix, Propensity Modeling.

Kenntnisse

Red Hat OpenShift Docker Kubernetes Rancher R Big Data (Spark Hive Oozie etc.) Teradata SAP CAR (Customer Activity Repository 2.0) SAP HANA SAP BW (Business information Warehouse) SAP BO (Business Objects Business Intelligence) Bex Analyzer Analysis for Office (AfO) Ab Initio (GDE/TRMC/EME Express>It (BRE) Conduct>It (CC) Query>It Metadata Hub (EME)) MicroStrategy QlikView MS Visio Java 9 mit Java Platform Module System (JPMS) = Project Jig-saw maven Risk-Based Testing Apache Ranger Python: Airflow Nose2 test suite Egg packaging SparkR/SparklyR webMethods (ESB der Software AG) Scrum SoS (Scrum of Scrums) LeSS (Large Scale Scrum).

Kunde

Schwarz-Gruppe (Lidl & Kaufland), gr��ter Europ�ischer Handelskonzern, BI & Analytik

4 Monate

2017-06 - 2017-09

Marketing-, Produkt- und Security-Analytics

Coach: Big Data Architektur & Data Science OpenShift Cloudera Hadoop Apache Spark ...

Rolle

Coach: Big Data Architektur & Data Science

Projektinhalte

Marketing-, Produkt- und Security-Analytics mit Apache Spark und Scala

Konzeption und Implementierung von Inspectrum, einem Big Data & Apache Spark Data-Flow-Instrumentation & Configuration Framework in Scala: Über JSON/HOCON (Human-Optimized Config Object Notation) Konfigurationsdateien konnten am Ende beliebige Datenflüsse über Spark und sein Ökosystem (incl. Umsystemen) konfiguriert statt programmiert werden mit erheblicher Zeitersparnis. Anbindungen wurden konzipiert für Hive, HBase, Couchbase sowie eine Daten-Filter-Komponente und Virtualisierungen der Komponenten mit Docker, Kubernetes, Rancher.
Architekturberatung bzgl. Real-time Use Cases und deren Umsetzung mit Memory-centric Libraries / In-Memory Data Grids (IMDG) wie Apache Pulsar, memcached, Ignite, GridGain, Alluxio, Redis, Hazelcast, Ehcache, Red Hat JBoss Data Grid, Pivotal GemFire, ActiveMQ, RabbitMQ mit AMQP, MQTT; Datenbanken, Data Science Algorithmen; Architektur von HBase-Datenstrukturen; Pro-Contra-Beratung zum Einsatz von Apache Kudu, Impala, HBase, Cassandra, Scylla DB, MariaDB, PostgreSQL, Druid, Aerospike.
Natural Language Processing (NLP): Analyse von Kunden-Feedback/Stimmungen mit spacy.io, Apache OpenNLP (Natural Language Processing), NLTK (Natural Language ToolKit: tagging/chunk parsing), Apache UIMA (Unstructured Information Management architecture/applications).
Data Science Beratung: Vorschlag von Verfahren zur Informationsgewinnen fürs Marketing, für Produkt-Analyse und Security-Analysen sowie für den Avira Boot Optimizer. Vorschlag von Algorithmen für die Nutzung/Analyse der gewonnenen Infos, etwa durch das In-Product-Messaging, den Antivirus, etc.
Datenschutz Grundverordnung (EU-DSGVO) / General Data Protection Regulation (EU-GDPR) (Regulation (EU) 2016/679): Beratung zur Legalität der Verbindung von Nutzungs- und Kundendaten und deren Nutzung zu Marketing-Zwecken.
Integration von SailPoint IAM mit Big Data über Apache Sentry.

DS-Ansatz (Data Science):

Zeitreihenanalyse, Anomalie-Erkennung, Apriori-Analyse, Überwachte Klassifizierung, Gradient Boosting (XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, GBM(Gradient Boosting Machine)/MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Assoziationsanalyse, Abhängigkeitsanalyse zur Optimierung der Boot-Zeiten, Maximum-Likelihood-Schätzer bzgl. Marketing-Maßnahmen-Effizienz und Konvertierung vom Free-Antivirus-Nutzer zum zahlenden Kunden, Propensity Modeling.

Kenntnisse

OpenShift Cloudera Hadoop Apache Spark Couchbase HBase R Python SparkR CentOS Intellij IDEA git Github Docker Kubernetes Apache Sentry Scrum-Prozess.

Kunde

Avira Operations

Einsatzort

Tettnang, M�nchen, Homeoffice

4 Monate

2017-05 - 2017-08

Make or Buy Entscheidungs-Vorbereitung

Coach: Big Data Architektur, Data Science Aspekte sowie Use-Case RedHat OpenShift Red Hat 3scale API Management IBM Watson ...

Rolle

Coach: Big Data Architektur, Data Science Aspekte sowie Use-Case

Projektinhalte

Make or Buy Entscheidungs-Vorbereitung im Marketing bzgl. einer In-House Customer Intelligence (CI) und Programmatic Advertising Lösung für Cross-Selling über verschiedene Kunden-Touchpoints hinweg, Dynamic Offering, Net Promoter Score (NPS) Optimierung und Data-driven Sales (DDS) per Data Management Platform (DMP).

Marketing-Strategie Beratung per Design Thinking mit Customer Journey Mapping und Dokumentation der Kunden-Firmen-Touchpoints bzw. Interaktionen, Vermittlung des relevanten Wissens zu den neuesten Programmatic Marketing Ansätzen und den entsprechenden Data Science Grundlagen. Einführung in Customer Data Platforms (CDPs) und Marketing Automation Platforms (MAP). SWAT-Diskussionen (Strengths/Weaknesses/Opportunities/Threats) dazu initiiert und geleitet.
Recherche von möglichen Anbietern in obigen Bereichen mit Schwerpunkt auf Customer Intelligence (CI), Customer Data Platforms (CDPs) und Marketing Automation Platforms (MAP) und Kontaktieren der Anbieter: IBM Interact, Oracle Real-Time Decisioning (RTD), SAS Customer Decision Hub, Pega Customer Decision Hub, Adobe Marketing Suite/Cloud, Prudsys, SC-Networks Evalanche, PIA/Dymatrix DynaCampaign, DynaMine, CrossSell, ComArch, FIS Global, DMP-Produkte (AdForm, The Adex, Annalect, Otto, Xaxis Turbine, Acxiom, ...).
Erarbeitung der Use-Cases nach Use Case 2.0 Ansatz (inclusive MVP – Minimal Viable Product) mit dem Marketing-Fachteam (besonderer Fokus auf mögliche Echtzeit-Anforderungen/Use Cases) und Bewertung der möglichen Cash Flows sowie der verschiedenen KPIs wie ROI, NPV (Net Present Value), IRR (Internal Rate of Return), WSJF Verspätungskosten (Weighted Shortest Job First), NPS (Net Promoter Score), NBI (Net Banking Income). Anschließende Einführung von weiteren Lean-Startup-Prinzipien sowie Microservices, Evolutionary Architecture, Mobile App Anbindung und passendem Versioning.
Datenschutz Grundverordnung (EU-DSGVO) / General Data Protection Regulation (EU-GDPR) (Regulation (EU) 2016/679): Beratung zur Legalität der Verbindung von Nutzungs- und Kundendaten und deren Nutzung zu Marketing-Zwecken.
Erstellung einer Baseline-Hadoop-Architektur mit Aufwands-Schätzungen als mögliche Make-Lösung auf Basis von Apache Spark mit Streaming, Alluxio Caching, QBit Microservices, Aerospike DB, Cassandra DB, jBPM, Drools, Oryx 2, WEKA, MOA, Sqoop 1/2, SAS. Diese diente dann auch dem Einkauf zur Preis-Verhandlung.
Beratung zu möglichen Data Science Algorithmen rund um das KNIME-System zur Kundensegmentierung und der Ableitung von Produkt- bzw. Marketing-relevanten Affinitäten/möglichen Kundeninteressen und Kundenpfaden: DynaMine, Gradient Boosting (XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, GBM(Gradient Boosting Machine)/MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Nichtlineare Regression, Random Forests, C4.5, etc.
Beratung des Parallelprojekts „Corporate Data Hub“ (Digital Transformation / Digital eXperience (DX) Plattform) auf Basis von Spark, Cassandra DB, PostgreSQL und Memory-centric Libraries / In-Memory Data Grids (IMDG) wie Apache Pulsar, memcached, Ignite, GridGain, Alluxio, Redis, Hazelcast, Ehcache, Red Hat JBoss Data Grid, Pivotal GemFire, ActiveMQ, RabbitMQ mit AMQP, MQTT, insbesondere bzgl. Anbindungs-Möglichkeiten mit den Marketing-Lösungen und wie diese als PoC (Proof of Concept) für den Data Hub verwendet werden können.
Konzeption einer Dynamic Offering Erweiterung HintLog für Dymatrix DynaCampaign: Mit minimalem Aufwand konnten so alle Teilnehmer an Bonus- oder Marketing-Programmen Nachrichten erhalten, wenn irgendwelche Fehler auftauchten oder sie aufgrund von Detail-Regelungen Gefahr liefen, aus dem Programm herauszufallen: Kunden haben dann meist Nachfristen bekommen und so konnte durch das Vermeiden ärgerlicher Situation der NPV-Wert (sprich: die Kundenzufriedenheit) stark gesteigert werden.
Review der bestehenden BPM-Modelle in Camunda und Erweiterung dieser Modelle in Camunda um neue Marketing/Kampagnen Use Cases.
Konzept erstellt zum semantischen Analysieren und Steuern von Marketing-Kampagnen nach z.B. Kundeninteressen, Kundensituationen, aktuellen Markttendenzen sowie Firmen-Interessen, z.B. als kombinierte/konzertierte Rabattaktionen über verschiedene Teile des Angebots hinweg oder um übergeordnete Marketing-Aussagen in untergeordneten Aktionen immer wieder zu re-iterieren und insgesamt Konsistenz und Stringenz in den Aussagen zu erreichen. Erkannte Kunden-Sitationen/Segmente, Interessen und Unterstützungsbedarf kann so möglichst zielgenau eingesetzt werden, so dass es von den Kunden als hilfreich geschätzt wird und später aus einer Vertrauensbasis heraus (Produkt-/Service-)Empfehlungen gegeben werden können.
Natural Language Processing (NLP): Analyse von Kunden-Feedback/Stimmungen mit spacy.io in Python (Net Promoter Score (NPS) Erhebung und Verbesserung).
Mitarbeit beim Digital David Projekt als Technologie- und NLP-Berater, der Erstellung eines Chatbots mit IBM Watson Technologie (mittlerweile bei consorsbank.de im Kundenbereich online): Vision: Chatbot der alle Invest- und Banking-Präferenzen der Kunden kennt incl. Konto-, Depot- und WKN-/ISIN-Nummern mit Charts/Trends/Abhängigkeiten und alle Suchen nach Anlagemöglichkeiten durchführt (mit RoboAdvisor im Hintergrund) und daher hohe Kundenbindung und hohe Verkaufskennzahlen erzielt. Meine Arbeit: Analyse der zu erwartenden Text-Dialog-Scripting Aufwände (aufgrund der technisch veralteten Funktionalitäten für Chatbot-Entwickler) und der Total Cost of Ownership (TCO) der IBM-Watson-Lösung und Gegenüberstellung mit einer neuen DLNLP-Architektur (Deep Learning Natural Language Processing) basierend auf Open Source zwecks Preisverhandlungen der Beschaffung: Elemente meiner Open Source Chatbot-Architektur mit DLNLP Tools (Deep Learning Natural Language Processing): OpenEphyra, Seq2seq, word2vec, ULM-FiT, ELMo, OpenAI Transformer / GPT, Transfer Learning, OpenAI Transformer, spaCy, Stanford CoreNLP, AllenNLP und Virtualisierung mit Docker/Kubernetes zum Training in der Cloud.

DS-Ansatz (Data Science):

Zeitreihenanalyse, Anomalie-Erkennung, Apriori-Analyse, Überwachte Klassifizierung, Assoziationsanalyse, Maximum-Likelihood-Schätzer, Kunden-Segmentierungstechniken z.B. nach Personas mit KNIME, DynaMine, Gradient Boosting (XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, GBM(Gradient Boosting Machine)/MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Nichtlineare Regression, Random Forests, C4.5, Propensity Modeling.

Kenntnisse

RedHat OpenShift Red Hat 3scale API Management IBM Watson Cloudera Hadoop Apache Flink Apache Spark mit Streaming und MLlib Cassandra DB und PostgreSQL Aerospike KNIME DynaMine SAS DynaCampaign MS Visio Sparx Enterprise Architect Camunda JBoss Drools Scrum-Prozess LeSS (Large Scale Scrum.

Kunde

BNP Paribas Personal Investors (Consorsbank, DAB)

Einsatzort

N�rnberg, M�nchen, Homeoffice

4 Monate

2017-02 - 2017-05

Erstellung eines bankweiten Cloudera-Hadoop

Chief System und Big Data Architekt sowie SPOC Cloudera Hadoop 5.8 mit HBase + Phoenix Spark Streaming MLlib ...

Rolle

Chief System und Big Data Architekt sowie SPOC

Projektinhalte

Projekt:

Erstellung eines bankweiten Cloudera-Hadoop basierenden Business Transaction Stores (Speicher für alle Finanztransaktionen als Digital Transformation / Digital eXperience (DX) Plattform) mit einem kanonischen leistungsfähigen Datenformat (zum Speichern aller Details aller erwartbaren Transaktionen) mit verlustfreien Import- und Export-Filtern sowie Auswertungsfeatures in den folgenden Bereichen: Kontobewegungen, Aktien, Zinsinstrumente, Derivate, ETFs, Fonds (d.h. beliebige “Securities” bzw. Wertpapiere), Berechnung von Bestands-, Kosten- und Risiko-Kennzahlen, Übersichten für’s Wealth Management sowie Steuern, Reporting, Betrugserkennung und Vorbereitung der Möglichkeit des Heraustrennens der Funktionalitäten einer Wertpapier-Transaktionsbank.

Review und Verbesserung der vorgeschlagenen Grob-Architektur, Ausarbeitung des FeinArchitektur-Dokuments auf Basis zahlreicher Meetings und E-Mails mit dem Fachbereich;
Konzeption von Datenmodellen zur redundanzfreien Konvertierung/Speicherung/Aufbereitung und Auswertung aller bestehenden Bank-Transaktionen mittels logischer/physischer Datenmodelle.
Konzepte erstellt für Back-Office-Verarbeitungsverfahren (Reconciliation, Transaktions-Bäume/Graphen als Struktur und bzgl. Aufbau aus zeitlich versetzt und nur teilweise eintreffenden Informationen, Link-Resolution auf dieser Basis); POCs bzgl. komplexer Punkte selbst in Java/Scala programmiert.
Konzeption einer IT-Basis für Finanz-Planungs-Modelle/Investment-Strategien incl. Steueroptimierung für Wealth Management, Investment-Manager sowie strategische Investitionen.
Konzeption der initialen Amazon AWS-Umgebung (benötigt solange die Bank-Umgebung nicht fertig war) und Umsetzung mit AMInator.
Security: Anbindung von Apache Sentry an das zentrale IAM-System (Identity & Access Management) der Bank bzw. initial an LDAP. Härtung der Systemkomponenten bzgl. IT-Sicherheit.
Konzeption der Spark/Kafka Exactly-Once Verarbeitungsfunktionalität sowie der Gesamt-Business Continuity Funktionalität.
Recherche/Evaluierung von Memory-centric Libraries / In-Memory Data Grids (IMDG): Apache Pulsar, memcached, Ignite, GridGain, Alluxio, Redis, Hazelcast, Ehcache, Red Hat JBoss Data Grid, Pivotal GemFire, ActiveMQ, RabbitMQ mit AMQP, MQTT, ...
Erstellung eines Data Mapping und Versionierungskonzepts mit Umsetzung über ein Switchboard-Pattern: Abwägen der Möglichkeiten der Konvertierung/des Upgrades von Datenformaten/Protokollen/Microservices vs Lazy/Eager Migration von Daten; HBase-Avro-basiertes Versionieren, Bitemporale Logik, Semantisches Versonieren, versionierte lokale/verteilte Microservices mit QBit/Lagom/Spring Boot; DDD-Datenmodelle mit Bounded Context, Context Maps, Self Contained Systems (SCS). Change Management/Versionierung mit Oracle Data Relationship Management (DRM).

Typ/Dauer:

Weil CS zum 2. Mal hintereinander einen Verlust von ca. 2,5 Mrd. CHF eingefahren hatte, wurde das Projekt kleiner als geplant umgesetzt und es sollte der Rest Offshore umgesetzt werden. Durch professionelles Coaching sollte nur das professionelle Aufgleisen und Ausrichten des Projekts sichergestellt werden incl. Etablierung einer professionellen Kommunikationsstruktur.

Eigene Rolle:

Couch mit Schwerpunkt Big Data Architektur, IT Projektmanagement und teilweise SPOC–Funktionalität (single point of contact) zum Erlangen des Überblicks für alle Fragen zwischen den CS-Fachbereichen und dem Offshore IT-Team und zum professionellen Aufsetzen der Kommunikation bzw. deren Optimierung zwischen jeweils passenden Personen.

DS-Ansatz (Data Science):

Rekonstruktion aller Transaktionsbäume mit allen Zweigen, Zeitreihenanalyse, Anomalie-Erkennung, Überwachte Klassifizierung, Apriori-Analyse, Gradient Boosting, Multi-Level-Methoden (Transaktion / Konto / Kaufmann / Konzern), Assoziationsanalyse, Link-Analyse-Netzwerke, Maximum-Likelihood-Schätzer, Berechnung eines Verdachts-Scores, sonstige klassische und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt).

Kenntnisse

Cloudera Hadoop 5.8 mit HBase + Phoenix Spark Streaming MLlib Alluxio Kafka mit Camus/Goblin HDFS Hive Flume Impala PostgreSQL Zookeeper YARN Hue Grafana Cloudera Manager Apache Sentry Solr Splunk IBM WebSphere MQ Oracle Weblogic Sparx Enterprise Architect Visio Informatica Data Integration IBM Integration Bus (IIB) Graphical Data Mapping Editor JT400/JTOpen MS Office Scala Java Python

Kunde

Credit Suisse

Einsatzort

Z�rich

2 Monate

2016-12 - 2017-01

Konzeption einer Microservice-Strategie

Architekt/Entwickler Microservices/mobile Apps/Big Data Standard-Tools: Spring Boot Spring Cloud (RESTful WebServices in Java) Spring Boot Devtools [hot reload] ...

Rolle

Architekt/Entwickler Microservices/mobile Apps/Big Data

Projektinhalte

Eigene Rolle:

Architekt eines Blueprint-Dokuments zur Integration von Microservices mit mobile Apps und Big Data u.A. per DDD.

Projekt:

Konzeption einer Microservice-Strategie und eines Architektur-Blueprints für alle SW-Entwicklungsprojekte bei AOK Nordost und AOK Systems incl. Dienstleistern sowie auch für Mobile Apps mit Big Data Integration für Datenaustausch und Data Science.

Zusammentragen der führenden publizierten Techniken und Tools zu Microservices und Mobile Apps & Big Data sowie der integrativen Erstellung von Software mit allen Aspekten in Form eines ca. 250-seitigen Architektur Blueprints mit folgenden Inhalten: Architekturziele, Architekturprinzipien, Architekturstandards, Patterns, Neuentwicklung von Konzepten für lokale und vereinfachte Microservices (Neukonzeption eines Code Generierungs-Modells, um viele Microservices in Java/Scala als ein JAR/WAR/EAR oder als mehrere Deployment-Module bauen und debuggen/tracen/testen zu können), Microservice Best Practices, API Management, Datenkonvertierung/Serialisierung, Logging/Tracing, IT-Sicherheit/IAM, Modellierung per Domain-Driven Design (DDD) mit Bounded Context, deren Building Blocks und Responsibility Layers, Self Contained Systems (SCS) und Integration der Mobile-App Komponenten, KPI (Key Performance Indicators), Migrationsschritte von Monolithen hin zu Microservices, Software Load-Balancing, Infrastructure as Code, DevOps-Praktiken wie Continuous Integration und Continuous Deployment.
Im praktischen Teil wurde der Code-Generator entwickelt für die Kombination mehrerer Versionen eines oder verschiedener Microservices in ein Deployment-Paket oder in je ein JAR-Paket. Die unten genannten führenden Microservice-Bibliotheken für Java, Scala und Node.JS mit AngularJS 2 und Ionic Framework (Mobile Apps) wurden getestet/evaluiert.

Kenntnisse

Standard-Tools: Spring Boot Spring Cloud (RESTful WebServices in Java) Spring Boot Devtools [hot reload] Lagom (Microservices in Scala) Akka Apache Gearpump (real-time big data streaming engine over Akka) Apache Flink (actor model hierarchy Deathwatch mit libs: CEP Table FlinkML Gelly) spray (HTTP/REST) Spark HashiCorp Nomad (Clustermanager & Scheduler) SenecaJS swagger-codegen Scraml RAML tools wie JAX-RS Codegen API Designer JHipster (yeoman.io Java & AngularJS microservice generator mit BrowserSync Liquibase Generator for Ionic framework) Axon Framework (Java Microservices) OData Microservices mit Apache Olingo Zipkin/OpenZipkin OpenTracing HTrace Fluentd (data collector for unified logging) DropWizard Hashicorp-Tools wie Serf Consul Nomad (Clustermanager & Scheduler) DevOps- und Continuous Integration/Deployment Tools wie Jenkins Sonar(Qube) Git Github Docker Kubernetes Rancher Chef Puppet Prometheus (Monitoring) Ubuntu. Memory-centric Libraries / In-Memory Data Grids (IMDG): Apache Pulsar memcached Ignite GridGain Alluxio Redis Hazelcast Ehcache Red Hat JBoss Data Grid Pivotal GemFire ActiveMQ RabbitMQ mit AMQP MQTT etc. Big Data Stack: Thrift Avro Spark Flink HBase Cassandra Hadoop Cloudera Hortonworks Grafana Hue VMware kvm. Netflix-Stack: Hystrix (Failure Isolation Circuit Breaker) Hollow (small to moderately sized in-memory datasets passing from a single producer to many consumers for read-only access) Netflix Conductor (microservices orchestrator) Nebula Gradle plugins Governator (Guice extensions) Zuul (dynamic routing monitoring resiliency security) Genie (job orchestration) Dyno Dynomite (storage layer for key-value storage engines) Dyno Queues (Task Queues on Dynomite) Hollow (caching for small read-only in-memory datasets) Astyanax (resilient Cassandra client) EVCache (AWS EC2 memcache) Atlas (In-memory dimensional time series database) Spectator (instrumenting code to record dimensional time series) Vector (performance monitoring framework) Chaos Monkey/Simian Army (failure testing and resilience tools) Spinnaker (continuous delivery platform) Message Security Layer (MSL) Falcor (represent remote data sources as a single domain model via a virtual JSON graph) Restify (node.js/NodeJS REST web service API framework) RxJS (reactive programming library for JavaScript) Aminator (create custom AMIs - Amazon Machine Images) RxNetty (reactive extensions for Netty: asynchronous event-driven network application framework) Ribbon (IPC with software load balancers) Stethoscope (Security analysis). Zalando Mosaic9.org Stack: Tailor (assembling GUI fragments) Skipper (extendable HTTP router for service composition) Shaker (UI components library) Quilt (template/layout storage for Tailor) Innkeeper (RESTful API that stores routes for Skipper).

Kunde

Cisco Systems mit AOK Nordost und AOK Systems als Endkunden

Einsatzort

Berlin

3 Monate

2016-10 - 2016-12

Digital Windfarm

Big Data Architekt Cloudera Hadoop mit Spark (SQL DataFrames ...

Rolle

Big Data Architekt

Projektinhalte

Digital Windfarm: Konzeption einer "on premise" und AWS Cloud Architektur für die effiziente massiv-parallele in-memory Berechnung der Dimensionierung von Windrädern (Alterung, Regen, Leistungsoptimierung am jeweiligen Standort) basierend auf den GE-Flex5-Tools.

Fachlich:
- Analyse der bestehenden Flex5-Tools in Pascal/Delphi sowie der zugrundeliegenden Mathematik, insbesondere bzgl. Parallelisierungs-, Verteilungs- und Caching-Möglichkeiten.
- Sammlung und Erarbeitung von evolutionären Verbesserungsmöglichkeiten der bestehenden Flex5-Lösung, z.B. durch mehr In-memory Processing und explizites Caching von Zwischenergebnissen.
- Erstellung einer Zielarchitektur basierend auf im Kern Spark mit Alluxio sowie Ergänzungen für den Einsatz im Intranet (on premise) und in AWS (Amazon Web Services, EC2) mit entsprechenden IT-Sicherheitsmaßnahmen und mit Migrationsstrategie.
- Abstimmung der Anbindung der parallel erarbeiteten AngularJS 2.1 Web-Benutzeroberfläche an das Backend.
- Analyse der Performance der bisherigen Lösung unter Windows/Linux mit procmon.exe sowie eigenem Win-API-Hooking-Tool und Python-Auswerte-Skripten. Export nach Excel in Excel-Pivot-Tabellen und Erstellung VBA-basierter komplexer Auswertungen.
- Wirtschaftlichkeitsberechnung der Migration in MS Excel per Formeln, VBA nach einem neu-entwickelten nicht-linearen Keep-/Replace-/Modernization-Szenarien-Verfahren, das sich auf ca. 20 nicht-lineare Kosten-Nutzen-Verläufe von ca. 50 Einflussgrößen stützt, die separat modelliert wurden.
Technisch:
- Ad 3: Darin enthalten war auch eine kurze Betrachtung der besten Alternativlösungen (Flink, YARN, Storm + Trident, FastR, etc.) und Beschreibung von deren Vor- und Nachteilen.
- Bzgl. IT-Sicherheit war neben dem Schutz gegen Hacker durch ein Bündel von Maßnahmen vor allem die korrekte Autorisierung und Zuordnung der Daten und Datenflüsse wichtig, was über Virtualisierung mit VMware oder Docker, Kubernetes, Rancher sowie über die Security-Toolkits Apache Sentry/Shiro, Knox, Falcon, Atlas erfolgte.
- Die Migrationsstrategie basierte Bottom-Up auf verschiedenen Loop-Unrolling bzw. Schleifen-Parallelierungs-Strategie über Thread-Parallelisierung und das Herausziehen und Caching von Zwischenergebnissen, aufgeführt prototypisch am Beispiel der Delphi nach Scala Portierung für die Datenverarbeitung mit Spark.
- Ad 5: Da procmon.exe aber für längere verteilte Läufe mit einigen GBs an Daten abstürzte: Entwicklung einer Zeus-Rootkit basierenden API-Hooking-Methode für Win-API-Methoden wie ReadFile, WriteFile, Process Start, Process Exit, Thread Start, Thread Exit, CreateFile, MapViewOfFile und direkte Auswertung nur der relevanten Daten. Daraus Ableitung der Optimierungspotentiale und des Skalierungsverhaltens.
- Ad 6: Etablierte Verfahren der Wirtschaftlichkeitsberechnung wie Discounted Cashflow, ROI/ROSI (Return on [Security] Investment), NPV (Net Present Value), Internal/External Rate of Return (IRR/ERR) können nicht-lineare Verläufe der zugrundliegenden Faktoren nicht berücksichtigen. Hier ging es jedoch neben eher konstanten Werten wie Inflationsrate, Interner Zinsfuß, Prozent pro Jahr veränderter Quelltexte durch CRs(Change Requests), effektive Firmen-Steuer-Rate weitgehend um Konjunktur- und Technologie-Wellen-abhängige Kosten- und Risiko-Faktoren wie (auf engl.): Hardware Upgrade/Repair, Scaling / Bigger data amounts, Administration, Inflexibility (e.g. no virtualization, no mandator capability), Development of Extensions/CRs, Errors due to Knowledge/People Loss, Time to hire Contractors, Training Time for Team Members, CPU/IO Utilization Inefficiencies, End User waiting Time, Reputation cost due to old Technology, Immature Technology/Toolset, Old Technology/Toolset, Lack of Motivation due to old Technology / old Age of Employees, Not being able to take advantage of latest Tech's Features in CRs, Poor interoperability, Workarounds due to technological deficiencies, Sudden technological dead End and Cost of immediate Technology Switch, Revolutionary sudden change costs.
- Hierzu habe ich sehr aufwändige nichtlineare Kosten-Nutzen-Analysen für Keep-/Replace-/Modernization-Szenarien erstellt nachdem ich den Stand der Wissenschaft recherchiert hatte. Kern war die Approximation/Schätzung der Eingangsfaktoren über Datenreihen und Interpolation mit kubischen Splines. Dann wurde die Zeit in Tages-/Monats-/Quartals-/Jahres-Schritten hochgezählt und die Eingangswerte entsprechend per Spline-Interpolation geschätzt, kumuliert, abgeschrieben, abgezinst und zwischen den Keep-/Replace-/Modernization-Szenarien verglichen – jeweils mit Best-, Medium- und Worst-Case-Analyse in VBA. Ich habe eine graphische interaktive Auswertung hierzu mit TreeView und Pivot-Tabellen erstellt. Es ist eine wissenschaftliche Publikation hierzu geplant, denn das Verfahren kann generell für die Wirtschaftlichkeitsberechnung solcher nicht-linearer Keep-/Replace-/Modernization-Szenarien verwendet werden, insbesondere für Big-Data-Projekte.
Projektende:
- GE entschied sich schließlich, die Alt-Architektur selbst evolutionär mit In-Memory-Processing Technologien weiterzuentwickeln und wegen der Amortisierung erst nach 5-7 Jahren in diesem Projekt noch nicht Big Data zu nutzen.

Kenntnisse

Cloudera Hadoop mit Spark (SQL DataFrames MLlib) + Alluxio (ex: Tachyon) SMACK (Spark Mesos Akka Cassandra und Kafka) Amazon AWS mit Spark testweise Apache Flink PuTTY VMware Ubuntu.

Kunde

GE (General Electric) Renewable Energies

Einsatzort

Frankfurt/Main

8 Monate

2016-02 - 2016-09

GET ONE BI

Architekt/Entwickler Spark, Hive, Java, Scala Hortonworks Hadoop 2.3 insbesondere Spark mit SQL + DataFrames Spark-Hive-Integration ...

Rolle

Architekt/Entwickler Spark, Hive, Java, Scala

Projektinhalte

GET ONE BI: Integration der BI-Systeme, darunter SAP Bank Analyzer (FS-BA), SAP HANA, SAP BO und Hortonworks Hadoop 2.3

Fachlich: Erstellung einer Architektur für ein Corporate Memory als Digital Transformation / Digital eXperience (DX) Plattform, insbesondere die möglichst schnelle Erkennung von negativen Bonitätsveränderungen der eigenen Kreditnehmer bzw. Leasing-Kunden. D.h. wenn Kunden ihre Kredit- und Leasingraten kaum noch bezahlen können, soll dies möglichst schnell gemeldet werden, um als Bank darauf reagieren zu können.
Subtask 1: Erstellen eines Tools für die effiziente unbürokratische Anlage von durch Benutzer/Analysten zur Laufzeit neu eingefügten Datenbank-Strukturen (neue Tabellen und Attribute in Tabellen bzw. als Graph) für neue analytische Ansätze wie Vertrags-/Kundenanalyse, Credit Risk, Fraud Prevention/Fraud Detection und Machine Learning.
Subtask 2: Erstellen von Markt-Analysen und Zusammentragen von Best Practices für einen Corporate Memory.
Subtask 3: Konzeption/Implementierung von Bonitäts-Alerting Use Cases: a) Auskunftei wie Creditreform/Bürgel meldet Bonitätsreduktion, b) Leasing- oder Kreditrate konnte nicht abgebucht werden, c) geändertes Nutzungsverhalten des Autos (Connected Car Daten), die z.B. auf Bewerbungsgespräche schließen lassen (bei zuvor 9-to-5-Bürotag) oder langes Ausschlafen zuhause (Arbeitslosigkeits-Indikator), d) Geänderte Daten aus sozialen Netzwerken wie vermehrt Kontakte zu Festanstellungs-Recruitern, e) Infos aus der computerlinguistischen Analyse (Bedeutungsextraktion aus Texten/Dokumenten) von E-Mails, Verträgen, Memos, Handelsregistern und sonstigen textuellen Infos mit Apache Stanbol und Apache OpenNLP.
Subtask 4: Konzeption/Implementierung von Anti-Money Laundering (AML) und Anti-Fraud Use Cases auf Basis von Data Science Techniken sowie Computerlinguistik.
Technisch:
Konzeption eines effizienten Speicher-Formats für Graph-basierte Datenbank-Strukturen und auch Vererbung für die Nutzung mit Spark/Hive und Gegenüberstellung mit anderen Speicherungsstrukturen bzgl. Performance und Nutzbarkeit für verschiedene Use Cases. Dazu Implementierung verschiedener Use Cases mit Hive, Spark SQL, als Hive Makro und als Hive UDF mit Java/Scala und Messen/Vergleichen der Performance.
Marktanalyse und Proof-of-Concept (PoC) Konzeptionen/Entwicklungen zu
- Hadoop-ETL-/BI-Technologien und Tool-Kombinationen, insbesondere Sqoop/JDBC, Falcon/Oozie, Hortonworks Dataflow, StreamSets, syncsort, Flume/Kafka/Flafka, Chukwa, Talend BD, Pentaho BD, IBM InfoSphere with IBM DataStage for BD, Trifacta, Informatica BD, Waterline Data Science, Rapid Miner, Intelligent Miner, Datameer, Paxata, platfora, Trillium, SploutSQL/Pangool, Apache Drill + Arrow, Cascading, Crunch, Twill, REEF, RHadoop, SAS, H2O, KNIME, Tableau, SAP Business Objects, Zoomdata,
- Hadoop XML Verarbeitungs-Technologien und Tool-Kombinationen: Talend, Relational/ORC, JSON, Avro, Protobuf/Protostuff, XML->Relational, Graph-DB-Addon, Hive + ORC/Parquet, XML->HBase-Attribute, HyperJAXB, Relational DBs, HBase Phoenix, HAWQ, Simplified XML, Datanucleus, PostgreSQL.
- Auswertung unterschiedlicher Persistenzbibliotheken hinsichtlich (De) Serialisierungsgeschwindigkeit, komprimierte Größe und wie effizient sie mit den verschiedenen Technologien integriert werden können: Avro, Profobuf, Protostuff, JSON mit Jackson & Alternativen, BSON, ...
- Anbindungsmöglichkeiten (Spark-Driver, Storm-Driver, Flink-Driver, etc.) für Datenbanken/Caches/Query-Engines wie Hive, HBase, Cassandra, Cloudera Impala, Drill, Scylla DB, Aerospike, Alluxio, Druid, Splout SQL.
- Daten-Bereinigung (Data Cleansing) und Performance der Hadoop-Tools speziell im Bereich Graph-basierter Daten: Spark mit GraphX, Storm-Graph mit Trident, Flink Graph (Gelly) sowie die relevantesten der zuvor analysierten weiteren Tools.
Konzeption und Implementierung der oben genannten Kern-Use Cases mit Spark & GraphX, Avro, Alluxio sowie Talend for Big Data sowie mit Hive-Graph-Addon als UDF-Implementierung (User-Defined Function).
Change Management/Versionierung mit Oracle Data Relationship Management (DRM).

DS Ansatz:

Eine Mischung aus Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze, Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Maximum-Likelihood-Schätzer

Kenntnisse

Hortonworks Hadoop 2.3 insbesondere Spark mit SQL + DataFrames Spark-Hive-Integration Hive mit Tez HCatalog Beeline Shell PuTTY VMware Spring Boot SAP FS-BA SAP HANA SAP BO (Business Objects) Cloud Foundry OpenStack Ubuntu

Kunde

Deloitte Consulting mit Daimler Financial Services (DFS)

Einsatzort

Berlin, Stuttgart, Homeoffice

5 Monate

2015-09 - 2016-01

Konzeption des pace Systems

Technischer Architekt Production Lines Error Handling Versions-/ Konfigurations-Management Logging ...

Rolle

Technischer Architekt Production Lines

Projektinhalte

Konzeption des pace Systems als zentrales IT-System der Marktforschung und Ablösung von StarTrack zur Erstellung von Panel-Produkten zunächst für die Distributor-Märkte, d.h. die weltweiten Groß- und Einzelhandelsmärkte mit Perspektive auf andere Märkte wie Optik-Produkte, Media, etc.

Erstellung der Building Blocks (Komponenten) bis hin zu den Klassendiagrammen + Code-Generierung. Konzepte erstellt für bi-temporale Versionierung und Verarbeitung der Daten, Differenz-Verarbeitung, optimiertes In-Memory Processing/Caching/Minimierung von Save-Load-Zyklen, flexibles Management und Laufzeit-Erweiterbarkeit von dynamischen Typen und Klassen, Umgang mit Streaming-Daten, deren Vereinheitlichung/ Prüfung/ Korrektur/ Anonymisierung, Speicherung und häufigen Aktualisierungen von Zuordnungen wie Key-Code-Assignments, Umgang mit komplexen n-dimensionalen Datenräumen, BI-Analysen (Star-/Snowflake-Schema) mit einer Vielzahl heterogener interner und externer Datenquellen und Referenz-Datenbanken. Berücksichtigung neuer Use Cases wie Werbe-Effizienz-Analyse, Trend- und Sale-Erkennung, Produkt-Lebenszyklus-Erkennung, Konsequenzen von Branding vs. White-Label-Verkauf, Anbindung von Data Science Schnittstellen/Tools (Mahout, WEKA/MOA, Geode mit MADlib + HAWQ, LIBSVM, Spark mit MLlib + Oryx 2). Datenfluss-Analyse erstellt mit Empfehlung der verwendbaren Data Science Algorithmen zu erkennbaren Aufgabenstellungen. Konzeption von Logging, Monitoring und Reporting. Agiler Crystal Clear Prozess.
Projektende: Die Zielarchitektur wurde fertigkonzipiert. Das Requirements Engineering konnte – wegen fachlicher Komplexitäten und Abstimmungsprozessen - nicht genügend Input für die Weiterentwicklung bereitstellen und aufgrund stark rückläufiger Geschäftsentwicklung bei GfK wurde in 2015 weniger Budget für Externe in 2016 genehmigt.

DS-Ansatz:

Eine Mischung aus Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze, Zeitreihenanalyse, Anomalie-Erkennung, Apriori, Assoziationsanalyse, Maximum-Likelihood-Schätzer

Kenntnisse

Error Handling Versions-/ Konfigurations-Management Logging Tracing XML DTD XSD XSLT XPath XQuery SOA EAI IT Security OOD OOP Domain-Driven Design WebServices SOAP UML/UML2 SQL OOA Lucene LIBSVM Oryx 2 ELKI Deeplearning4j Elasticsearch Solr Nutch Gora Apache Tika MOA WEKA Mahout HAWQ HBase Pivotal-Tools Geode Tez Crunch Trident Cascading Storm Hibernate LDAP-Anbindung MySQL Jboss Axon Ivy Grafana BPM Exasol DB Cognos BI Icinga System Management Redis Puppet ActiveMQ ELK-Stack Java/JavaScript Logging-/Tracing-Framework Kendo-Framework AngularJS HTML5 Jackson Java-Entwicklung UI Sparx Enterprise Architect Konfig.-Serialisierung git gerrit gradle IntelliJ IDEA Caching HBase RocksDB Oozie Tachyon HDFS Docker DataFrames RDDs Spark SQL Spark mit Streaming und MLlib Cloudera Hadoop Crystal Clear

Kunde

GfK ? Gesellschaft f�r Konsumforschung

Einsatzort

N�rnberg, Homeoffice

3 Monate

2015-07 - 2015-09

Einf�hrung eines Archiv-Systems

Software Architekt Logging Tracing Error Handling ...

Rolle

Software Architekt

Projektinhalte

Einführung eines Archiv-Systems, Verbesserung der IT-Sicherheit & des Datenschutzes und Business Process Optimization, Scrum-Prozessmodell

Business Process Optimization Konzept erstellt für den SW-Entwicklungsbereich.
Big Data / Data Science / BI Architekturkonzept zur a) Analyse der medizin. Leistungsdaten und daraus Ableitung von Fragebögen und Aufschlägen für Vorerkrankungen und b) Analyse/Optimierung der Marketing-Aufwendungen mit Mahout, WEKA/MOA, Geode mit MADlib (Machine Learning Lib mit UDF) und HAWQ, LIBSVM, Spark mit MLlib + Oryx 2.
Konzeption eines Tools zur stark automatisierten Verarbeitung von Kündigungen.
Einführung des Archiv-Systems T-Systems ImageMaster.
Modernisierung/Upgrade-Planung des OpenText Metastorm Business Process Management Systems (MBPM). Teilfunktionalität portabel mit Camunda BPM realisiert.
Verbesserung der IT-Sicherheit & des Datenschutzes bei VitaClic.ch, der elektronischen Patientenakte der KPT/CPT.
Projektende: Die KPT-Manager / Verwaltungsräte (Vorstandsvorsitzender und dessen Vertreter) Bosch und Liechti wurden kurz vor meinem Start zu 3 Jahren Haft wegen Untreue und versuchter persönlicher Bereicherung verurteilt (siehe Google). Dies führte – auch aufgrund des Reputationsverlusts und des erwarteten negativen Geschäftsverlaufs – zum Stoppen aller nicht sofort rentablen IT-Projekte. Ich wurde daher – statt als Architekt einer großen vitaclic.ch-Erweiterung – nur als Coach zur Optimierung der Geschäftsprozesse bzw. einiger Funktionalitäten eingesetzt.

DS-Ansatz:

Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Piwik und Google Analytics / Adwords-basierte Web-Site-Optimierung; klassische und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt), Maximum-Likelihood-Schätzer, Apriori, Gradient Boosting.

Kenntnisse

Logging Tracing Error Handling Versions-/ Konfigurations-Management XML DTD XSD XSLT XPath XQuery SOA EAI IT Security OOD OOP Domain-Driven Design WebServices SOAP UML/UML2 SQL OOA KTM Enterprise Architect MS Office Puppet Visio OpenText MBPM Camunda BPM ASP.NET BizTalk SharePoint T-Systems ImageMaster MS Visual Studio 2013 mit C# C++ Scrum

Kunde

KPT/CPT Krankenversicherung (f�hrende Schweizer Online-Krankenversicherung) mit Online-Patientenakte, -Versicherungsakte und Gesundheitsportal

Einsatzort

Bern, Schweiz

2 Monate

2015-05 - 2015-06

Big Data Projekt

Hadoop Architekt MS Office MS Project MS Word ...

Rolle

Hadoop Architekt

Projektinhalte

Projekt:

Big Data Projekt im Bereich zielgerichtete Online- und Mobile-Werbung durch Erstellung von Kundenprofilen. Konzeption einer Data Management Platform (DMP) in Kooperation mit TheADEX, Berlin. Datenaustausch mit diversen Medienpartnern und Zusammenführen dieser Daten zu Nutzerprofilen, Ableitung von Kunden-Interessen sowie Negativ-Merkmalen offline und in Echtzeit (Lambda-Architektur); Kanban.

Konzeption der Hadoop-Landschaft mit Anbindung an SAS/H2O incl. Hive/HCatalog, YARN-Algorithmen, Datenmodelle erstellt, Performance-Optimierung durch intelligente Verteilung, Java-Entwicklung. Datenfluss-Analyse erstellt mit Empfehlung der verwendbaren Data Science Algorithmen. Betrugserkennung in Web-Werbungs-Tags /-Pixels und / oder betrügerische Versuche, einen Teil der Prämie gutgeschrieben zu bekommen für einen erfolgreichen Verkauf durch fälschlich behauptete spätere zu einem Kauf führende Anzeige/Ad dem Benutzer angezeigt zu haben; Web Scraper konzipiert/entwickelt mit node.js/NodeJS, CasperJS, PhantomJS, Sli-mer.js und Greasemonkey als zusätzlicher Input für die zielgerichtete Werbung (etwa Themen der Webseiten, Features von Produkten).
Sicherheitskonzept erstellt zur Absicherung der Big Data Systeme sowie für die Daten-Anonymisierung.

Typ/Dauer:

Aufgrund der starken Konkurrenz im DMP-Bereich (Google, Facebook, MS und mehr als 100 weitere DMP-Anbieter) und weil TheADEX ein Startup war, war von Anfang an nicht mehr als ein professionelles Aufgleisen des Projekts durch mich als Coach geplant.

DS-Ansatz:

Analyse der Kunden-Reise (Customer Journey) durch die Web-Sites / in der verfügbaren Historie durch Graphen, semantische / NLP Analyse der Website-Inhalte und der damit verbundenen Interessen; eine Mischung aus Hauptkomponentenanalyse, nächster Nachbar-Methoden, neuronale Netze, Maximum-Likelihood-Schätzer, Zeitreihenanalyse, Apriori, Gradient Boosting, Anomalie-Erkennung (beim Verlassen einer Website, beim Anklicken einer Anzeige, etc.), Assoziationsanalyse, Echtzeit-Analysen (als Teil der Lambda-Architektur) vor allem für die Propagierung von Negativkriterien und das Matchen von Anzeigen/Ads zu den Nutzerinteressen.

Kenntnisse

MS Office MS Project MS Word MS Outlook MS PowerPoint MS Excel Logging Tracing Error Handling Debugging Testing Versions-/ Konfigurations-Management XML DTD XSD XSLT XPath XQuery SOA EAI IT Security OOD OOP Domain-Driven Design WebServices SOAP UML/UML2 SQL OOA MS RegExp XML/XML Schema (XSD)/XSLT RESTful Webservices WADL http(S) CasperJS PhantomJS Slimer.js Greasemonkey Ganglia Sigar Zookeeper ORC Puppet Parquet node.js Spark Streaming Cascading Tez KNIME Weka Oozie Chukwa Pig Avro Sqoop2 Mahout Kafka Spark Entwicklung/Konzeption unter Windows Produktionsumgebung unter Linux Kanban

Kunde

Havas Media Gruppe (Siebtgr��te Medienagentur Europas)

Einsatzort

Frankfurt/Main, Berlin, Homeoffice

7 Monate

2014-12 - 2015-06

Big Data Projekt

Hadoop Architekt MS Office MS Project MS Word ...

Rolle

Hadoop Architekt

Projektinhalte

Projekt:

Big Data Projekt im Bereich Predictive Maintenance von Medizin-Geräten mit zentraler SCADA-Komponente, vor allem im Radiologie-/Röntgen-Bereich (CTs, MRTs, C-Bogen, Spect-CTs, etc.), d.h. es sollen Service-Techniker möglichst vor dem Versagen einer Komponente diese austauschen, um maximale Verfügbarkeit für die Patienten sicherzustellen, wurde später Teil von MindSphere; Scrum.

Konzeption der Hadoop-Landschaft mit Anbindung an Teradata und SAS/H2O incl. Hive/HCatalog, YARN-Algorithmen, Datenmodelle portabel umgesetzt mit Datanucleus, Performance-Optimierung durch intelligente Verteilung, Java-Entwicklung. Datenfluss-Analyse erstellt mit Empfehlung der verwendbaren Data Science Algorithmen sowie Monitoring und Reporting.
Sicherheitskonzept erstellt zur Absicherung der Big Data Systeme sowie für die Daten-Anonymisierung.

DS-Ansatz:

Eine Mischung aus Hauptkomponentenanalyse, Nächster-Nachbar-Methoden, neuronale Netze, Zeitreihenanalyse / Prognose, Maximum-Likelihood-Schätzer: GMM (Gaussian Mixture Models); Überwachtes Lernen: Klassifikation und Regression (z.B. Ursache-Wirkungs-Analysen); Unüberwachtes Lernen: Affinitäts-Analyse, FP-Wachstum (häufiges Muster-Wachstum), Association Rule Learning, vor allem für Ereignisse, die auf Geräteausfälle hinweisen - auch mit Entscheidungsbäumen, C4.5, CART, Apriori, Gradient Boosting. Merkmalsextraktion: Kernel-Methode / -Trick, FastMKS, (Kernel) Principal Component Analysis (PCA / KPCA), Independent Component Analysis (ICA) mit MLE (Maximum-Likelihood-Schätzung). Anomalie-Erkennung: Dichte-basierte Techniken (k-nächste-Nachbarn, lokaler Ausreißer (local outlier) Faktor und viele weitere Variationen dieses Konzepts), Ensemble-Techniken mit Feature Bagging, Score-Normalisierung und verschiedene Quellen von Diversität.

Kenntnisse

MS Office MS Project MS Word MS Outlook MS PowerPoint MS Excel Logging Tracing Error Handling Debugging Testing Versions-/ Konfigurations-Management XML DTD XSD XSLT XPath XQuery SOA EAI IT Security OOD OOP Domain-Driven Design WebServices SOAP UML/UML2 SQL OOA MS RegExp XML/XML Schema (XSD)/XSLT RESTful Webservices WADL http(S) CAN-Bus Qualcomm-Tools Ganglia Sigar Chef Zookeeper ORC Parquet Cascading Tez KNIME Weka Oozie Chukwa Sqoop1/2 Mahout Kafka Spark / Spark Streaming SAP PowerDesigner Pig Avro Teradata QueryGrid/TDCH Entwicklung/Konzeption unter Windows Produktionsumgebung unter Scrum

Kunde

Siemens Corporate Technology / Healthineers (ex: Healthcare) IT

Einsatzort

M�nchen, Erlangen, Homeoffice

3 Monate

2014-10 - 2014-12

Konzeption/Implementierung

Sicherheits-Architekt und Entwickler MS Office MS Project MS Word ...

Rolle

Sicherheits-Architekt und Entwickler

Projektinhalte

Konzeption/Implementierung der Integration des Fingerabdruck-Scanners in einen Geldautomat / ATM, Schwerpunkt auf sichere Datenaustauschprotokolle zwischen Sensor, Automat und Backend. Dazu Erstellen eines Sicherheitskonzepts für die Nutzung von Fingerabdruck-Scannern für Bank-Automaten (ATM) und Mobile Banking, Umsetzung von Kernelementen dieses Konzepts im Rahmen eines Prototyps für Kunden-Showcases; Scrum.

Erstellen eines Sicherheitskonzepts basierend auf der eigenen statistischen Sicherheits-Datenbank zu Gefährdungen/Gegenmaßnahmen (nach BSI/Common Criteria), erweitert um Gefährdungen/Gegenmaßnahmen im Bank und Fingerabdruck-Sensor-Bereich, insbesondere nach ISO 27745 2011 und ISO 19092.
Implementierung des Showcases für sichere Übertragung (ATM/Mobile Banking) mit Schlüsselverteilung, sicherem Schlüsselspeicher, PKI, RSA / IDEA, AES-GCM, DiffieHellman / FHMQV-C, SHA-2 / SHA-3, scrypt / bcrypt / PBKDF2, Ubuntu.

DS-Ansatz:

Bekämpfung von hunderten Angriffen mit zugeordneten Wahrscheinlichkeiten und Schadens-Erwartungswerten wie Identitätsklau, Man-in-the-Middle, Timing-, Bit-Manipulations- und Seitenkanalattacken durch hunderte priorisierte Gegenmaßnahmen basierend auf ihrem probabilistisch exakt berechneten Kosten-Nutzen-Verhältnis, beispielsweise Verschlüsselung, Signierung, sicherer Schlüsselaustausch,etc.

Kenntnisse

MS Office MS Project MS Word MS Outlook MS PowerPoint MS Excel Logging Tracing Error Handling Debugging Testing Versions-/ Konfigurations-Management XML DTD XSD XSLT XPath XQuery SOA EAI IT Security UML/UML2 SQL OOA OOD OOP Domain-Driven Design WebServices MS RegExp Puppet XML/XML Schema (XSD)/XSLT WS-* Standards WADL http(S) CAN-Bus Qualcomm-Tools RESTful Webservices PBKDF2 bcrypt scrypt SHA-3 SHA-2 FHMQV-C DiffieHellmann AES-GCM IDEA RSA PKI MS Visual Studio und C++ boost Library Scrumk Windows Embedded Embedded Linux

Kunde

Bio-Identification Firmen Dermalog/FingerPayment, Anwendungen im mobilen und station�ren Banking

Einsatzort

Hamburg

2 Monate

2014-09 - 2014-10

Weiterentwicklung und teilweise Neukonzeption einer Online-Werbesteuerung

Konzeption & verbesserung der neuen Werbesteuerung MS Office MS Project MS Word ...

Rolle

Konzeption & verbesserung der neuen Werbesteuerung

Projektinhalte

Projektziele:

Weiterentwicklung und teilweise Neukonzeption einer Online-Werbesteuerung, d.h. jedem Besucher der Webseite möglichst viel passende Werbung einzublenden und dabei eine möglichst hohe Klickrate zu erzielen (Online-Werbung, Affiliate Marketing, Profil- und Interessenanalyse).

Aufgaben

Erfassen der Kundenanforderungen, der diversen technischen Browser-Features (Flash, Adblocker, HTML5, etc), Ansätze der Kundenprofilierung und Auswertung der Klickraten.
Darauf aufbauend Erstellen eines Konzeptes für eine Werbesteuerung abhängig von Visitor-Interessen/-Profilen.
Test-Automationskonzept mit JavaScript, Scala und Docker Containern.

Kenntnisse

Kunde

Chip Digital GmbH

Einsatzort

M�nchen

3 Monate

2014-07 - 2014-09

Allianz Data Center Consolidation / Data Center Migration

Konzeption der Big Data und der SAS Migration MS Office MS Project MS Word ...

Rolle

Konzeption der Big Data und der SAS Migration

Projektinhalte

Projektziele:

Allianz Data Center Consolidation / Data Center Migration: Viele verteilte und oft kleine Data Centers sollen in weltweit nur 4 große und hochver-fügbare Data Centers migriert werden.

Aufgaben

Erfassen der Kundenanforderungen, Durchführung von Kundenworkshops.
Technische Analyse der zu migrierenden Systeme (ca. 6000 Systeme) auf Dokumentationslücken, Migrierbarkeit und mögliche Migrationsprobleme.
Erstellen der detaillierten technischen Migrationspläne (Word-Dokumente) unter Berücksichtigung der jeweiligen Best Practices in der Migration und im Betrieb von SAS und IBM Big Insights / Hadoop.
Planung des Einsatzes zusätzlicher IBM Tools (Blue Wash)
Dokumentation und Weitergabe des Wissens.

Kenntnisse

MS Office MS Project MS Word MS Outlook MS PowerPoint MS Excel Logging Tracing Error Handling Debugging Testing Versions-/ Konfigurations-Management XML DTD XSD XSLT XPath XQuery SOA EAI IT Security OOD OOP Domain-Driven Design WebServices SOAP UML/UML2 SQL OOA MS RegExp XML/XML Schema (XSD)/XSLT WS-* Standards http(S) OBD-II CAN-Bus Qualcomm-Tools RESTful Webservices WADL Puppet IBM SPSS SAP PowerDesigner IBM Migrationstools VMware IBM Integration Broker IBM QRadar SIEM IBM Appscan IBM Integration Bus Identity Manager / Access Manager Security/IAM/ISMS IBM Tivoli mit TADDM RUP/EUP

Kunde

Allianz Versicherung

Einsatzort

M�nchen

8 Monate

2013-11 - 2014-06

Neuentwicklung eines MS Azure basierten internen Backend API

Chief-API-Architect mit dem Schwerpunkt auf API-Funktionalit�t MS Office MS Project MS Word ...

Rolle

Chief-API-Architect mit dem Schwerpunkt auf API-Funktionalit�t

Projektinhalte

Projektziele:

Neuentwicklung eines MS Azure basierten internen Backend API für RESTful Webservices für das „Connected Car“ Projekt im After-Sales-Markt für europäische Märkte basierend auf einer bestehenden Version aus den USA, der zugehörigen iOS/Android App Backends sowie der APIs der On-Board-Units für die Fahrzeuge (Pkw, Lkw) und die Schnittstellen mit den Mobilfunkanbietern.

Aufgaben Fachlich:

Konzeption von Geräte-APIs der On-Board-Units (OBU) unter Nutzung des OBD-II-Protokolls und von AUTOSAR für die Fahrzeuge (Pkw, Lkw) und die Schnittstellen mit den Mobilfunkanbietern.
Architektur von MS Azure basierten internen Backend APIs für RESTful Webservices für europäische Märkte basierend auf einer bestehenden Version aus den USA.
Architektur von MS Azure basierten externen Cloud-Backend APIs für iOS/Android App Entwicklung für beliebige App Entwickler.
Architektur von MS Azure basierten externen Backend APIs für den Daten- und Kommandofluss sowie diverse Mehrwertfunktionen zwischen OBUs und Cloud-Backend (Car-to-Cloud-Kommunikation), Kompatibilität zu den eCall-Standards, Anbindung von Vodafone’s M2M-Plattform z.B. für das Durchleiten von SMS sowie Billing-Funktionalität.
Ausarbeitung der Architekturen für die Use Cases: Eco Driving, Car Health (Trouble Diagnostics) mit der Einholung von Reparatur-Angeboten in Echtzeit, Predictive Maintenance/Planen von Wartungsterminen, Erkennen von Diebstahl-Versuchen, Driving Log (Fahrtenbuch), Verkehrs- und Wettermeldungen bzw. Warnungen dazu, Behaviour-based Insurance, Augmented Reality (es werden weitere Infos angezeigt z.B. virtuelle Stadtführungen bzw. intelligente Mehrwert-Navigationsfunktionen bis hin zur Parkplatzsuche und -Reservierung, aktuelle / historische Gebäude, Menschen, Ereignisse in Abhängigkeit von der aktuellen Position des Autos), Benzinpreis-Infos/nächste Tankstellen, Personal Radio bzw. personalisierte Musik, Heatmaps/Hotspots zu Events/Lokalitäten, Teilen von Daten auf unterschiedlichen Geräten, sonstige Fahrerassistenzsysteme, Personalisierung all dieser Dienste nach Nutzerinteressen, Nutzung für After-Sales-Services sowie weiterer ähnlicher Funktionen wie angeboten durch Apple CarPlay, Android Auto / Google Android Open Automotive Alliance (OOA), Windows Embedded Automotive, Qualcomm Adreno SDK, VW Car-Net, mercedes.me, GM Onstar, Automatic Link, MirrorLink, GENIVI Alliance.
Spezifikation / Proof-of-Concept für HTML5/Ajax-GUI (Dojo mobile, jQuery mobile, Bootstrap, Lo-Dash, DozerJS, d3.js) und node.js Backend (npm, Backbone.js, Lo-Dash, Ember.js, Handlebars.js, CoffeeScript).
Steuerungen erstellt für das automatisierte Aufbringen der Software auf die asiatischen Geräte und Fehlerdiagnose als EMSR (Elektrisches Messen, Steuern und Regeln) System.
Ausarbeitung der Sicherheitskriterien und Vorbereitung der Safe Harbour Datensicherheits-Zertifizierung. Kernelemente dabei waren die Trennung der Nutzer-Id von deren Nutzungsdaten sowie Datensparsamkeit bzw. Anonymisierung sobald und soweit möglich.

Technisch:

Applikations- und Netzwerkarchitektur mit Windows Servern, Biztalk, sowie .NET Messaging Anwendungen (MSMQ), Firmware Over-The-Air Update (Firmware-OTA, FOTA). Erstellung von API-Konzept-Dokumenten und UML-Diagrammen zu oben genannten APIs. Implementierung durch Lieferanten: Lieferantenmanagement, Testmanagement und Experte für Nachfragen.
Sicherheits-Konzeption nach Common Criteria/BSI Grundschutz nach Bedrohungszenarien/Bedrohungskatalogen und deren Gegenmaßnahmen/ Sicherheits-Richtlinien auf Applikations-Ebene und Betriebssystems-Ebene nach statistischen Gewichtungen. Damit konnten die Gegenmaßnahmen unter Berücksichtigung der möglichen Gefahr (d.h. des Erwartungswertes der Verluste) und einer Kosten-Nutzen-Analyse der einzelnen Gegenmaßnahmen priorisiert werden innerhalb eines gegebenen Budgets.
Berücksichtigung von Sicherheits-Standards wie ISO 2700x, Open Source Security Testing Methodology (OSSTMM), OWASP Testing Guide, Web Application Attack and Audit Framework (W3AF), BSI WebApp-Sicherheitsbaustein (basiert auf/integriert ÖNORM A 7700), PCI DSS (Kartenterminals, Smartcards, Bezahlsysteme) und deren Umsetzung in Form von Sicherheits- und (Penetration-)Test-Konzeptionen.
Technische Begleitung von Referenzprojekten (Scrum) mit Kunden (ADAC, niederländischer ANWB, Vodafone, Telefonica/O2/EPlus) als Architekt und später als technischer Projektmanager/Testmanager. Nutzung der Qualcomm Tools QxDM (eXtensible Diagnostics Monitor) und QPST (für den UMTS Chipset) sowie PuTTY & WinSCP.
Über die eigenen und die Netzwerk-Segmente der Partner hinweg Abgleich von anonymisierten Nutzer-Daten sowie domänen-übergreifende Autorisierung mit OAuth (kompatibel mit Safe Harbor Vorgaben der EU).
Connected Car Web Interface sowie Mobile App Interface (HTML5) konzipiert/prototypisch erstellt mit Apache Cordova/PhoneGap, Ionic Framework / Lab / ngCordova, NW.js (ex: Node-Webkit), NACL, Dojo mobile, jQuery mobile, Node.js, npm, Backbone.js, Lo-Dash, Ember.js, Handlebars.js, TypeScript, CSS3.

Kenntnisse

MS Office MS Project MS Word MS Outlook MS PowerPoint MS Excel Logging Tracing Error Handling Debugging Testing Versions-/ Konfigurations-Management XML DTD XSD XSLT XPath XQuery SOA EAI IT Security OOD OOP Domain-Driven Design WebServices SOAP UML/UML2 SQL OOA Handlebars.js TypeScript CSS3 Node.js npm Backbone.js Lo-Dash Ember.js NW.js NACL Dojo mobile jQuery mobile Ionic Framework / Lab / ngCordova Apache Cordova/PhoneGap MS RegExp XML/XML Schema (XSD)/XSLT WS-* Standards OBD-II CAN-Bus Qualcomm-Tools RESTful Webservices WADL http(S) Intel E-Mail Protection / Server Security Suite Puppet McAfee Embedded Control Intel/McAfee Web Gateway 7.x Qualcomm QPST Qualcomm Tools QxDM TFS Sparx Enterprise Architect SAP PowerDesigner MS Visual Studio Microsoft Biztalk MS Visio MS Office Win64 C# Microsoft .NET Framework 4.5 MS Azure SCrum

Kunde

Delphi

Einsatzort

Gro�raum Hannover, Niederlande, USA, UK und Homeoffice

3 Monate

2013-08 - 2013-10

Spezifikation der IT-Landschaft f�r Arzt-Praxen, Krankenh�user und zentrale Telematik-Infrastruktur

IT-Architekt mit dem Schwerpunkt auf IT-Sicherheit MS Office MS Project MS Word ...

Rolle

IT-Architekt mit dem Schwerpunkt auf IT-Sicherheit

Projektinhalte

Projektziel:

Spezifikation der IT-Landschaft für Arzt-Praxen, Krankenhäuser und zentrale Telematik-Infrastruktur (TI) für die elektronische Gesundheitskarte (eGK) mit Schwerpunkt auf IT-Sicherheit.

Aufgaben Fachlich:

Konzeption einer Certificate Authority (CA) sowie einer PKI (Public Key Infrastruktur) zu Testzwecken und mit Unterstützung für Testautomatisierung.

Technisch:

Requirements Engineering für Certificate Authorities (CA)/ Public Key Infrastructures (PKI).
Erstellung und Präsentation einer Entscheidungsvorlage bzgl. teilweisem/vollständigem Make-or-Buy.
Architektur der CA/PKI im Rahmen der Make-Lösung unter besonderer Berücksichtigung von Test-Anforderungen zur Erzeugung diverser Klassen von Fehlern, Echtzeitfähigkeit, RESTful WS Schnittstelle.
Konzeption und Implementierung fehlender Features im Bereich Elliptical Curve Cryptography (ECC), Card Verifiable Certificates (CVC) sowie Gematik-spezifischer Standards für Smartcards/eGK sowie die Telematik-Infrastruktur (TI) für die gewählte EJBCA. Implementierung von Features wie sie von der Nexus CA bekannt waren und bislang genutzt wurden.
DS-Ansatz: Einführung von Zählern für alle Systemereignisse und Zeitreihenanalyse, Schwellwerte (Thresholds), Anomalie-Erkennung.
Pen-Test- und Acceptance-Test-Konzeption basierend auf Security Scannern & Tools: MetaSploit, Burp Suite, NeXpose, Nessus, Nmap, Acunetix-Websecurity Scanner, PeakflowX von Arbor, NTOSpider, NTODefend (DAST Tools), Skipfish, Fuzzing Tools, Burp Nessus, SoapUI (für WebServices), Core Impact, Google Skipfish, OWASP WebScarab, JBroFuzz, Zed Attack Proxy (ZAP), Scrubbr, SQLiX, Paros Proxy, IronWASP, W3AF, Syhunt Mini, N-Stalker, Watobo, VEGA, Netsparker, Andiparos, ProxyStrike, Wapiti, Grendel Scan, arachni, WebCruiser, JSky, jScan, ProxyStrike, PowerFuzzer, Sandcat, Ammonite, safe3wvs, WebGoat (unsich. App), Fiddler, ModSecurity.
Spezielle Berücksichtigung von Sicherheits-Standards wie ISO 2700x, Open Source Security Testing Methodology (OSSTMM), OWASP Testing Guide, Web Application Attack and Audit Framework (W3AF), BSI WebApp-Sicherheitsbaustein (basiert auf/integriert ÖNORM A 7700), PCI DSS (Kartenterminals, Smartcards, Bezahlsysteme) und deren Umsetzung in Form von Sicherheits- und (Penetration-)Test-Konzeptionen

Kenntnisse

MS Office MS Project MS Word MS Outlook MS PowerPoint MS Excel Versions-Management Logging Tracing Error Handling Debugging IT Security SOAP XML DTD XSD XSLT XPath XQuery SOA EAI SQL OOA OOD OOP Domain-Driven Design WebServices COBIT ITIL UML/UML2 RegExp JAX-WS JAXB Apache CXF AXIS2 slf4j/logback http(S) XML/XML Schema (XSD)/XSLT WS-* Standards JDBC WSDL Eclipse Subversion/SVN JBoss Jama Contour Win32/Linux Java JBoss EAP/AS Apache CXF WebServices Scrum

Kunde

Gematik, Gesundheitswesen

Einsatzort

Berlin und Homeoffice, DE

7 Monate

2013-02 - 2013-08

Erstellung einer neuen Architektur f�r ein flexibles Versions- und �nderungsmanagement.

Architekt und teilweise Entwickler

Rolle

Architekt und teilweise Entwickler

Projektinhalte

Projektziel:

Erstellung einer neuen Architektur für ein flexibles Versions- und Änderungsmanagement. Konzeption und teilweise Umsetzung diverser Erweiterungen eines Eclipse-RCP- und LibreOffice-basierten Dokumenten- und Text-Baustein-Verwaltungssystems.

Aufgaben Fachlich:

Konzeption einer neuen zentralen Business-Logik- und Entity-Klassen-Schicht zum flexibleren Management von Änderungen, Versionen, Baselines, Releases sowie entsprechender Migrationsstrategien. Verbesserung der IT-Sicherheit sowie konzeptionelle Umsetzung diverser Change Requests.

Hintergrund: Die BG Phoenics ist zentraler IT-Dienstleister der Dt. Berufsgenossenschaften und deren 100%ige Tochter. Die weiterentwickelte Software dient hauptsächlich der komfortablen graphischen Verwaltung von juristisch korrekt formulierten Textbausteinen, die dann über viele Hierarchie- und Wiederverwendungsebenen zu Musterbriefen zusammengebaut werden. So wird sichergestellt, dass Sachbearbeiter keine großen Schulungen und juristische Kompetenzen benötigen, um dennoch rechtssichere Briefe ohne nennenswerte nachgelagerte Prüf- oder Korrekturaufwände erstellen zu können. Da es häufig um sechsstellige Summen im Zusammenhang mit Betriebsunfällen und Berufsunfähigkeit geht, was später nicht selten vor Gericht verhandelt wird, ist entsprechende Rechtssicherheit bei geringen Verwaltungskosten sehr wichtig.

Technisch:

Konzeption der Architektur mit dem MID Innovator 2012, LibreOffice Designer sowie bouml - Architekturbeschreibung mit MS Word bzw. LibreOffice.
Umsetzung eines Proof-of-Concept (POC) zur Umstellung der Office-Integration von OpenOffice 3.1 mit NOA-Library (Nice Office Access) auf LibreOffice 4.1 mit UNO-Library (Unified Network Objects, eine CORBA-ähnliche Library mit IDL-Syntax). OpenOffice bzw. später LibreOffice waren auch die Editoren des Dokumenten- und Text-Baustein-Verwaltungssystems.
Umstellung vom ins Produkt integrierten alten OpenOffice 3.1 auf LibreOffice 4.1 entsprechend des POC.
Automatisiertes Erzeugen von Logging- und Trace-Statements mittels eines selbstentwickelten Tools.
Verbesserung der IT-Sicherheit, der Speicherungs-, Archivierungs- und Migrationsmechanismen sowie der Erkennung von Inkonsistenzen und Verbesserung der Usability.

Produkte

MS Office MS Project MS Word MS Outlook MS PowerPoint MS Excel Logging Tracing Error Handling Debugging Testing IT Security Versions-Management XML DTD XSD XSLT SOA EAI OOD OOP Domain-Driven Design WebServices SOAP UML/UML2 SQL OOA Hibernate slf4j/log4j Tomcat Dojo Spring 3.x XML/XML Schema (XSD)/XSLT WS-* Standards JAX-RS JAX-WS JDBC WSDL http(S) Bouml Atlassian Fisheye & Crucible Puppet Maven Tycho (RCP-Integration) Jenkins Sonar MS Visio Eclipse IBM Clearcase Subversion/SVN Maven Open Office LibreOffice Scrum Remote Desktop MS SQL Server Eclipse RCP Win32 Java/JEE Scrum

Kunde

BG Phoenics

Einsatzort

Hannover, DE

4 Monate

2012-09 - 2012-12

Integrations-Architektur zur Abl�sung von 90% der IT-Systeme durch ein modernes Fall-Management-System mit DMS zur Bearbeitung der Patentantr�ge

Integrations-Architekt

Rolle

Integrations-Architekt

Projektinhalte

Projektziel:

Integrations-Architektur zur Ablösung von 90% der IT-Systeme durch ein modernes Fall-Management-System mit DMS zur Bearbeitung der Patentanträge.

Aufgaben Fachlich:

Konzeption von Migrationsstrategien zur Einführung eines neuen Fall-Management-Systems (Case Management System) für den Patent-Lebenszyklus, Analyse der Vor- und Nachteile schwer- und leichtgewichtiger Java Enterprise Architekturen (SOA/ESB und REST) und Definition von Standards, Tools/Komponenten und Methodiken zur Ausgestaltung der Nutzung dieser Technologien. Konzeption einer Zwischenschicht (Mediation Layer) zur Entkopplung der Legacy-Systeme gegenüber dem Case Management System und zur Durchführung der Migration von 90% der Legacy-System-Funktionalität hin zu Komponenten im Case Management System.

Technisch:

Aufnahme von Anforderungen (Requirements Engineering) und darauf basierend Evaluation von Technologie-Alternativen, insbesondere REST vs. SOA/ESB (MuleSoft, OpenESB/Java CAPS, Apache ServiceMix), API Management Systeme (Apigrove, Vordel, Layer7, Apigee), Java Libraries (Spring REST, RESTlet, RESTEasy, Jettison, Apache CXF).
Erstellung eines RESTful Coding Styleguides mit Schwerpunkt auf Spring REST und JBoss RESTEasy.
Erstellung einer SOA-Strategie (basierend auf TOGAF), einer REST-Strategie, von Konzepten & Design Guidelines für den Mediation Layer, einer Enterprise-SOA-Architektur und Migrationskonzeption.
Basierend auf einer selbst erstellten Typologie der bestehenden Systeme, Konzeption einer Master-Architektur und einer Migrationsstrategie je Typus mit Wrapper-/Konvertierungskomponenten mittels JET (Java emitter templates) erweitert durch einen JavaCC-Parser und Talend OpenStudio.
Big Data Architekturkonzept (Hadoop) mit Proof-of-Concept Implementierung): Hypertable, HBase, Cassandra, Redis, Voldemort, Accumulo, HCatalog, Hive mit Shark /Stinger, Cloudera Impala/Drill, Sqoop2, HDFS, Pig, Oozie, Cascading mit Multitool, Giraph, Zookeeper, BookKeeper, Nagios, Flume, Kafka, Sawzall, Hue, RabbitMQ, Elephant Bird, Ganglia, Spark/Spark Streaming, GraphX, MLlib, Mahout, Kafka, Ambari/Ganglia, Whirr, Mesos.
Aufwandsschätzung nach COCOMO2.
Konzeption eines Code Analyse (Parsing) und Code Generierungs-Ansatzes zum Einlesen bestehender Java und COBOL Interfaces und zur Generierung von Java RESTful/SOA Web Services bzw. von Facaden daraus. Konzept zur graphischen Erstellung/Generierung von Adapter-Klassen über die Modellierung mit TalenD Open Studio. Integration von Facade und Adapter-Klassen in Wrapper-Libraries und Nutzung zur Entkopplung, Datenanalyse (Flüsse, Formate) und Systemmigration.
Konzeption der verlustfreien XML <-> JSON Konvertierung und Integration in JEE-Apps über Annotations mit selbstentwickeltem Order-Maintaining Badgerfish-Algorithmus.
Konzeption von REST HATEOAS (Hypermedia as the Engine of Application State) über standardisierte Content Rel(ations) sowie das Atom Publishing Format.
Erstellung eines Versioning-Konzeptes mit maximaler Robustheit gegen Änderungen in APIs: Neue Annotationen wie @LastSemanticChangeInVersion und @Since konzipiert und integriert in Maven Dependency Checking für nur inhaltliche/semantische (und sonst nicht erkennbare Änderungen) und offensichtliche Änderungen, deren Einführungsversion festgehalten wird. Verwendung von XPath und JSON-Path-basierten automatisierten Marshallern mit Spring 3.x zur Zuweisung von REST-Input-Parametern an Java-Methoden-Parameter.
Sicherheits- und Verfügbarkeits-Konzeption, IT-Security mit OAuth 1.0a/2.0 (alternativ teilweise SAML 2.0) sowie SPNEGO/Kerberos als bestehendem Mechanismus, Content Security, Logging/Tracing/Monitoring, Governance, Code Injection Checking Library mit BeanValidation Interface, ESAPI, Antisamy, CSRFGuard, AppSensor und Embedded SQL (ESQL).
Erstellen eines Logging/Monitoring/Tracing-Konzeptes basierend auf einem zweigleisigen Mechanismus über Java Instrumentation oder alternativ Code Generierung, die die bedarfsorientierte effiziente DB-/Text-Ausgabe, Analyse und visuelle Darstellung (Sequenz-Diagramme) aller Parameter aller Methoden mit allen ihren Embedded Types ermöglicht. In Kombination mit obigen Sicherheitstools sind so auch alle Teile eines übergeordneten verteilten Code Injection Angriffs erkennbar, auch wenn gegen einen einzelnen RESTful Service nur Fragmente eines Angriffs eingesetzt werden. Weiterhin lassen sich so Root Causes (ursprüngliche Ursachen) von Fehlern automatisiert erkennen und missbräuchliche Nutzungen (z.B. Massen-Download von verteilten IP-Adressbereichen) erkennen. Nutzung der Tools Nagios, splunk und HP ArcSight.
Identifikation und Vorschlagen von Komponenten/Techniken zur Umsetzung von Anforderungen an RESTful Systeme, die wegen der REST-Einschränkungen nicht direkt umsetzbar sind: Transaktionen, asynchrones/Event-basiertes Messaging, Routing, komplexe Content Transformationen, Format/Content/Protocol Mediation, gleiche und detaillierte Fehler-Behandlung, Unterstützung von Nicht-HTTP-Protokollen, Auditing/Monitoring/Logging/Tracing/Analytics, sicheres Schlüssel-/Token Management & Verteilung, komplexe per Regeln beschriebene Prozesse mit asynchronem Fremd-Input, komplette Testbarkeit mit Time-Travelling, Standard Kommunikations-Patterns (wie fire-and-forget, publish-subscribe,...), Batch Jobs / Scheduled Tasks mit Ausführungs-Kontrolle, ReliableMessaging.
Konzeption/Review/Beratung zu den neues GUIs der Systeme auf Basis von JSF und/oder HTML5: jQuery, Node.js, npm, Backbone.js, Underscore.js, d3.js (Data-Driven Documents), angularJS, Mustache, TypeScript, CSS3.
DS-Ansatz: Schwarze Listen, Anschrift und Bankdaten-Ähnlichkeitsvergleich mit Scoring-Dienstleistungen, Anomalieerkennung, Zeitreihenanalyse aller Zahlungsströme mit Anomalieerkennung und Schwellwerten (Thresholds), Modellierung typischer Zahlungs- / und Teilauszahlungs-Regelungen mit Ausreißererkennung, Austausch verdächtiger und von Blacklist-Datensätzen/-Personen mit anderen Versicherungen und Behörden.

Produkte

MS Project MS Outlook MS PowerPoint MS Excel Error Handling Debugging Testing MS Office Versions-Management Logging Tracing XML DTD XSD XSLT XPath XQuery SOA EAI IT Security OOD OOP Domain-Driven Design WebServices SOAP UML/UML2 SQL OOA angularJS Mustache TypeScript Underscore.js d3.js Node.js npm Backbone.js Tomcat Apigrove OpenESB/Java CAPS Jettison Jackson Mule ESB Apache Camel slf4j/logback Wordnik Swagger. JBoss ESB Spring 3.x RESTEasy Apache CXF JDBC WSDL http(S) XML/XML Schema (XSD)/XSLT WS-* Standards JAX-RS JAX-WS angularJS Mustache TypeScript CSS3. Node.js npm Backbone.js Underscore.js d3.js Kafka Ambari/Ganglia Whirr Mesos Ganglia Spark/Spark Streaming GraphX MLlib Mahout Flume Kafka Sawzall Hue RabbitMQ Elephant Bird Cascading mit Multitool Giraph Zookeeper BookKeeper Nagios Cloudera Impala/Drill Sqoop2 HDFS Pig Oozie Voldemort Accumulo HCatalog Hive mit Shark /Stinger Hypertable HBase Cassandra Redis Confluence Unit Tests Integration Tests Subversion Puppet Jira Intel E-Mail Protection / Server Security Suite Git Intel/McAfee Web Gateway 7.x McAfee Embedded Control Nagios splunk HP ArcSight SAP PowerDesigner MS Visio TalenD OpenStudio Jama Contour ErWIN Sparx Enterprise Architect Maven Jenkins Sonar Atlassian Fisheye & Crucible Eclipse/SpringSource Tool Suite (STS) Subversion/SVN Java/JEE JBoss EAP/AS Win32 Linux Scrum

Kunde

European Patent Office

Einsatzort

Den Haag, NL

5 Monate

2012-04 - 2012-08

Spezifikation der IT-Landschaft f�r Arzt-Praxen, Krankenh�user und zentrale Telematik-Infrastruktur

IT-Architekt mit dem Schwerpunkt auf IT-Sicherheit Java JBoss EAP/AS Apache CXF WebServices ...

Rolle

IT-Architekt mit dem Schwerpunkt auf IT-Sicherheit

Projektinhalte

Projektziel:

Spezifikation der IT-Landschaft für Arzt-Praxen, Krankenhäuser und zentrale Telematik-Infrastruktur (TI) für die elektronische Gesundheitskarte (eGK) mit Schwerpunkt auf IT-Sicherheit.

Aufgaben Fachlich:

Konzeption der Konnektor-Funktionalität auf Anwendungs-Ebene: Verschlüsseln, Signieren, Hashen, Verifizieren für die Datenformate binär, PDF/A, XML, S/MIME, Text unter Anbindung von Kartenterminals, Smartcards.
Zuarbeit bzgl. Sicherheit zur Konnektor-Funktionalität auf Netzwerk-Ebene.
Konzeption der IT-Sicherheit (Gefährdungen/Gegenmaßnahmen) und Sicherheits-Test-Konzeption, Vorbereitung der Zertifizierung nach BSI Grundschutz mit dem BSI.

Technisch:

Aus-Spezifikation der Nutz- und Kontroll-Datenflüsse und Datenformate bis ins letzte Bit für alle denkbaren Krypto-Operationen: Verschlüsseln, Signieren, Hashen, Verifizieren, Anbindung an PKI unter Nutzung der existierenden Standards: PKCS#7, CMS, XaDES, XML-DSig, S/MIME, PC/SC, PDF-Crypt, PDF-Sign, Signaturgesetz (SigG) und Signaturverordnung (SigV), GnuPG/GPG.
Sicherheits-Konzeption nach Common Criteria/BSI Grundschutz nach Bedrohungsszenarien/Bedrohungskatalogen und deren Gegenmaßnahmen/ Sicherheits-Richtlinien auf Applikations-Ebene (Informationssicherheits-Management-Systeme (ISMS), AntiVirus, AntiSpam, Content Verification mit Internet Connection Adaptation Protocol (ICAP) XML-Security (XSpRES), Canonical XML) und Netzwerk-Ebene (diverse Netzwerkprotokolle, Firewall-/VPN-Technologien, IDS/IPS/WAF Systeme und Virtualisierung, WLAN- und Mobile-Sicherheit). Nutzung von PKI mit X.509 und LDAP/Active Directory sowie Identity and Access Management (IAM).
Sicherheits-Konzeption unter Berücksichtigung von Sicherheits-Standards wie ISO 2700x, Open Source Security Testing Methodology (OSSTMM), OWASP Testing Guide, Web Application Attack and Audit Framework (W3AF), BSI WebApp-Sicherheitsbaustein (basiert auf/integriert ÖNORM A 7700), PCI DSS (Kartenterminals, Smartcards, Bezahlsysteme) und deren Umsetzung in Form von Sicherheits- und (Penetration-)Test-Konzeptionen.
Pen-Test- und Acceptance-Test-Konzeption basierend auf Security Scannern & Tools: MetaSploit, Burp Suite, NeXpose, Nessus, Nmap, Acunetix-Websecurity Scanner, PeakflowX von Arbor, NTOSpider, NTODefend (DAST Tools), Skipfish, Fuzzing Tools, Burp Nessus, SoapUI (für WebServices), Core Impact, Google Skipfish, OWASP WebScarab, JBroFuzz, Zed Attack Proxy (ZAP), Scrubbr, SQLiX, Paros Proxy, IronWASP, W3AF, Syhunt Mini, N-Stalker, Watobo, VEGA, Netsparker, Andiparos, ProxyStrike, Wapiti, Grendel Scan, arachni, WebCruiser, JSky, jScan, ProxyStrike, PowerFuzzer, Sandcat, Ammonite, safe3wvs, WebGoat (unsich. App), Fiddler, ModSecurity.

Produkte

MS Project MS Word MS Outlook MS PowerPoint MS Excel Error Handling Debugging Testing MS Office EAI IT Security Versions-Management Logging Tracing SOAP XML DTD XSD XSLT XPath XQuery SOA SQL OOA OOD OOP Domain-Driven Design WebServices COBIT ITIL UML/UML2 RegExp JAX-WS JAXB Apache CXF AXIS2 slf4j/logback JDBC WSDL http(S) XML/XML Schema (XSD)/XSLT WS-* Standards. Eclipse Subversion/SVN Jama Contour

Kenntnisse

Java JBoss EAP/AS Apache CXF WebServices Scrum Win32/Linux

Kunde

Gematik, Gesundheitswesen

Einsatzort

Berlin und Homeoffice, DE

6 Monate

2012-03 - 2012-08

Erstellung einer Sicherheitsarchitektur f�r das Projekt PostPaket 2012

Sicherheits-Architekt

Rolle

Sicherheits-Architekt

Projektinhalte

Projektziel Erstellung einer Sicherheitsarchitektur f�r das Projekt PostPaket 2012, Schwerpunkt Handscanner-Integration (HASCI) vom Zusteller beim Kunden bis hin zur Backend-IT, Umsystemen und der Paket-Verfolgung mit Microsoft-Technologien. Aufgaben Fachlich: Erstellen von sicherheits-relevanten Vorschl�gen f�r die Architektur des Systems sowie Erstellung des Sicherheitskonzeptes unter Ber�cksichtigung zahlreicher Konzern- und Sicherheitsstandards. Durchf�hren von Sicherheits-Workshops und Beantwortung von sicherheitsrelevanten Fragen f�r alle Ansprechpartner im Projekt. Technisch: 1. Applikations- und Netzwerkarchitektur mit Windows Servern, Biztalk, Windows Mobile/Windows Phone sowie .NET Messaging Anwendungen (MSMQ) sowie der Web Frontends mit Microsoft Ajax, jQuery, RESTful WebServices mit Backbone.js. 2. Sicherheits-Konzeption nach Common Criteria/BSI Grundschutz nach Bedrohungszenarien/Bedrohungskatalogen und deren Gegenma�nahmen/ Sicherheits-Richtlinien auf Applikations-Ebene (Informationssicherheits-Management-Systeme (ISMS), AntiVirus, AntiSpam, Content Verification mit Internet Connection Adaptation Protocol (ICAP) XML-Security (XSpRES), Canonical XML) und Netzwerk-Ebene (diverse Netzwerkprotokolle, Firewall-/VPN-Technologien, IDS/IPS/WAF Systeme und Virtualisierung, WLAN- und Mobile-Sicherheit). Nutzung von PKI mit X.509 und LDAP/Active Directory sowie Identity and Access Management (IAM), Attack-Tree-Erstellung und darauf aufbauende Analysen, Schutzbedarfsanalysen, End-to-End-System�bersicht, Sicherheitskonzept und Analyse. Aufstellung von Assets, Vulnerabilities, Attacks, Threats, Mitigations, Policies nach Common Criteria/BSI GS und Ermittlung verbleibender Schwachpunkte sowie deren Ranking nach Wahrscheinlichkeiten/Erwartungswerten. Security-Ma�nahmen auf Ebene von Architektur und Entwicklung, z.B. umfangreiche Daten(fluss)-Validierungen, Ergreifen der Gegenma�nahmen mit dem besten Kosten-Nutzen-Verh�ltnis gegen die 250 wichtigsten Angriffstypen nach den 10 wichtigsten Security-Portalen wie OWASP.org, WebAppSec.org, cwe.mitre.org, etc. F�r jeden der 250 wichtigsten Angriffe Sammeln/Konzipieren der Gegenma�nahmen mit allen Details. Bewertung jedes Szenarios nach den oben genannten Kategorien. Dann wurden die Gegenma�nahmen unter Ber�cksichtigung der m�glichen Gefahr (d.h. des Erwartungswertes der Verluste) und einer Kosten-Nutzen-Analyse der einzelnen Gegenma�nahmen priorisiert. Nach der endg�ltigen Entscheidung �ber die Ma�nahmen, wurde das Restrisiko berechnet. Gegenma�nahmen gegen neue Bedrohungen wurden in �hnlicher Weise neu bewertet und verwaltet. 3. Pen-Test- und Acceptance-Test-Konzeption basierend auf Security Scannern & Tools: MetaSploit, Burp Suite, NeXpose, Nessus, Nmap, Acunetix-Websecurity Scanner, PeakflowX von Arbor, NTOSpider, NTODefend (DAST Tools), Skipfish, Fuzzing Tools, Burp Nessus, SoapUI (f�r WebServices), Core Impact,, Google Skipfish, OWASP WebScarab, JBroFuzz, Zed Attack Proxy (ZAP), Scrubbr, SQLiX, Paros Proxy, IronWASP, W3AF, Syhunt Mini, N-Stalker, Watobo, VEGA, Netsparker, Andiparos, ProxyStrike, Wapiti, Grendel Scan, arachni, WebCruiser, JSky, jScan, ProxyStrike, PowerFuzzer, Sandcat, Ammonite, safe3wvs, WebGoat (unsich. App), Fiddler, ModSecurity. 4. Ber�cksichtigung von Sicherheits-Standards wie ISO 2700x, Open Source Security Testing Methodology (OSSTMM), OWASP Testing Guide, Web Application Attack and Audit Framework (W3AF), BSI WebApp-Sicherheitsbaustein (basiert auf/integriert �NORM A 7700), PCI DSS (Kartenterminals, Smartcards, Bezahlsysteme) und deren Umsetzung in Form von Sicherheits- und (Penetration-)Test-Konzeptionen.

Produkte

MS Office MS Project MS Word MS Outlook MS PowerPoint MS Excel Tracing Error Handling Debugging Testing Konfigurations-Management Logging Versions-Management XML DTD XSD XSLT XPath XQuery SOA EAI IT Security OOD OOP Domain-Driven Design WebServices SOAP UML2 SQL OOA UML MS RegExp XSLT WS-* Standards XSD XML XML Schema WSDL SAP PowerDesigner Puppet Microsoft Biztalk MS Visual Studio TFS ALM Versionsmanagement SSIS TSQL T-SQL Windows Mobile Windows Phone SQL Server 2008 R2/2012 C# Microsoft .NET Framework 4.0 .NET Compact Framework 3.5 Win64 Scrum

Kunde

Deutsche Post/DHL

Einsatzort

Darmstadt/Bonn/Homeoffice, DE

1 Jahr

2011-04 - 2012-03

Modernisierung der Unternehmens-IT

Enterprise/System Architect/Solution Designer Logging Tracing Error Handling ...

Rolle

Enterprise/System Architect/Solution Designer

Projektinhalte

Projektziel Modernisierung der Unternehmens-IT, Integration der verschiedenen IT-Welten aus der Zeit vor der Fusion, die Umsetzung gesetzlich geforderter �nderungen Aufgaben 1. Hauptaufgaben: Enterprise-/System-Architect/Solution Designer f�r Verbesserungen und neue L�sungen, z. B. das Schreiben von Architekturen f�r Ausschreibungen/Lieferanten-Vorgaben (Outline Solution Design, OSD), die bei Lieferanten verfeinert werden. Wo m�glich, war die Implementierung der Arbeitspakete Offshore ausgelagert mit entsprechendem Lieferantenmanagement durch mich. Ein angepasster PRINCE2-Standard wurde f�r das Projektmanagement eingesetzt. 2. Dokumentation der bestehenden Enterprise-Architektur per UML und anschaulicher Beschreibungen. Konzeption eines eTOM-Modells (electronic Target Operating Model) unter Ber�cksichtigung von TOGAF. Erstellung und Erweiterung von Datenmodellen mit Sparx Enterprise Architect. Integra-tion/Anpassung von SOX-und GxP-konformen Prozessmodellierungen mit BizAgi. Erarbeitung eines Corporate Dokumenten-Management-Prozesses und eines Architektur-Nutzungs- und Architektur-Update-Prozesses. Recherche und Dokumentation von Anforderungen in Bezug auf die IT-Systeme von Banken und Versicherungen, z. B. von MA Risk-VA, SOX (Sarbanes Oxley), GxP. Auf dieser Grundlage Erstellung von Vorschl�ge f�r die LBG-Architektur. Evaluation / Review von Architekturen sowie von Vorschl�gen von Lieferanten. 3. Business Prozess-Analyse und Prozess-Optimierung mit dem Ziel der Kostenersparnis: Alle Systeme (HW/SW), Kontroll- und Datenfl�sse, die relevant f�r geplante �nderungen waren, wurden auch auf Optimierungspotential betrachtet und Optimierungen konzipiert, z.B. anhand der "IT Cost Saving" Checklisten der Universit�ten Cornell und Princeton. H�ufige Ma�nahmen: Virtualisierung oder Abl�sung von Systemen, Vereinheitlichungen (HW/SW), Verfolgen des Flusses der Papier-Dokumente und deren Automatisierung z.B. durch DMS/Collaborative Editing/Workflow Management, Streamlining von Prozessen durch Automatisieren/Vereinfachen von Prozessketten oder die Delegation h�herer Entscheidungskompetenz an Mitarbeiter. Technisch konnte dies z.B. h�ufig �ber den Einsatz von Echtzeit-Messaging (statt Batch-Jobs), Automatisierung, Konverter-Tools/Checker-Tools, De-Scoping sowie Offshoring stattfinden. 4. Erstellung eines Business Continuity Management (BCM) und Disaster Recovery Management (DRM) Konzeptes f�r den Desaster-Fall: Konzeption von Redundanz-Mechanismen mit Abh�ngigkeitsdiagrammen und einen physischen Disaster Recovery-Standort, also mit insgesamt 2 Standorten, mehreren Clustern, Failover-Mechanismen, VPNs, Zoning-Konzept (Access / Service / Backend / Admin-Zonen), WAF (Web Application Firewalls), IPS (Intrusion Prevention Systeme), selektive Fehlererkennung und Recovery-Mechanismen. 5. Konzeption / Transition-Management f�r ein Corporate eLearning-System basierend auf ILIAS 4.1.5 bzw. dem SCORM-2004-Format, Sicherheits-Bewertung von ILIAS und Argumentation der Sicherheit bzgl. der Konzern-IT. 6. Konzeption von / Transition-Management f�r ein firmeneigenes Intranet auf Basis von SharePoint 2010 Enterprise Edition. Verwenden von SharePoint, Integration von Mitarbeiter-/Gruppen-Suche, Newsletter, Interner Marktplatz, gesch�tzter Bereich f�r Manager, Buchung von Gesch�ftsreisen, Taxis, etc. Extraktion von Daten aus dem alten Intranet und Beratung bei der Konvertierung in die SharePoint-Formate. 7. Konzeption des "Annual Statements Projekts" (j�hrliche Auskunft �ber das Versicherungskonto), das eine aktualisierte Version des Kunden-Reportings in Bezug auf die Werte ihrer Vertr�ge, die Performance ihrer Fonds, die zu erwartenden Leistungen, etc. liefert. 8. Konzeption und grundlegende Umsetzung einer Quellcode-Analyse-L�sung mit spezieller Unterst�tzung f�r die Analyse von SQL / DDL, Perl, Java, C # und Cold Fusion Quelltexten zu UML-Klassen-und UML-Sequenzdiagrammen (als Teil der Gesamt-Architektur-Dokumentation). 9. Konzeption des Kommissions-Projektes, um die Provisionen f�r unabh�ngige Makler zu berechnen in einer neuen und optimierten Art und Weise mit SAP-CD (collection/disbursement), Oracle GL (Hauptbuch), Life/400 und COR & FJA LF3/LF4 sowie einem Partner-Management-System. 10. Konzeption eines SAP-Upgrade-Projekts und Diskussion / Ausarbeitung mit ConVista (SAP Beratungsfirma) von 4.6 auf 6.0.4 bez�glich haupts�chlich FI/CO, CD mit SEPA und Riester-Rente Anpassungen. 11. Konzeption des SEPA/EBICS/ISO20022 Zahlungs-Projektes, um die neuen XML-basierten Zahlungen in 27 europ�ischen L�ndern zu unterst�tzen mit IBAN / BIC bzgl. SDD (SEPA-Lastschriften; Direct Debit), SCT (SEPA Credit Transfer), EBICS (CCC, CCT, CDD, CDB), ETEBAC (Frankreich), DTA als grundlegende Format und erweitert um IBANs (Schweiz), MT940, CSV-, R-Transaktionen (R�ckruf, R�ck�berweisung, Absagen, Erstattungen, Ablehnungen, Retouren / revocations, reversals, rejections, refunds, refusals, returns) Management, die Fehlerbehandlung und Mandats-Management (Nachfolger Einzugserm�chtigungen). Voraussetzung war der SAP-Releasewechsel und die Integration mit Oracle-GL (General Ledger, Hauptbuch), Life/400 und COR & FJA LF3/LF4/ZUL/TaxConnect. 12. Konzeption + Umsetzung aktualisierter/erweiterter Berechnungen in SQL unter Einbeziehung von �nderungen/Anpassungen und Interpretationen bzgl. der �sterreichischen Versicherungssteuer f�r die Systeme Life/400 und die Tarifberechnungs-Engine (Rechen-Kern + BIPRO Web-Services / Web-Frontend). Besondere Herausforderungen waren eine kurze gesetzliche Zeitspanne f�r viele Steuer-Varianten und steuerlichen Modelle f�r verschiedene flexible Versicherungsbedingungen, vielleicht die Flexibelsten Bedingungen auf dem �sterreichischen Markt (z. B. hinsichtlich der Aussetzung von Zahlungen, Zuzahlungen, Entnahmen und anderer Vertrags�nderungen). 13. Architektur eines DMS-Addons f�r die konsistente Konsolidierung verschiedener Dokumente und Versionen unter Nutzung von Liferay als Portal-System sowie von Etherpad / TinyMCE als Rich-Text-Editoren. Das Addon erlaubt links das Laden/Erstellen/Bearbeiten/Speichern einer inhaltlichen Struktur f�r das Zieldokument sowie die Darstellung der Quelldokumente mit ihrer Struktur. Durch Anklicken wird jeweils das entsprechende Kapitel im Rich-Text-Editor angezeigt. Satz-, Absatz- oder Abschnitts-weise k�nnen Inhalte per Drag & Drop in die Ziel-Dokument-Struktur abgebildet werden. Bereits vorhandene Passagen werden farblich markiert zur Erkennung von Doppelungen oder Unterschieden zwischen Versionen. Auch das direkte Editieren der Passagen im Zieldokument ist m�glich. So konnten hunderte Entwicklungs-Dokumente aus verschiedenen Teams bzw. von �lteren St�nden schnell und kosteng�nstig integriert werden. 14. Konzeption einer SIP-/VoIP-Callcenter-Integration mit Asterisk / Sipgate und einer Homeoffice-Integration mit DD-WRT/OpenWRT und Asterisk. Konzeption / Programmierung gegen eine TAPI-Schnittstelle in C++ / C # unter Verwendung von SIP TAPI / AstTapi. Evaluierung von Yate, Asterisk, Sipek2, Twinkle, Starface, Si-phon, PJSIP, JSIP, Jain, SIP.NET, Konnectic SIP. Umsetzung der RFCs 3261, 3265, 3515, 3665, 3725, 3853, 4235, 4320, 4916 direkt oder durch Nutzung von Bibliotheken z. B. f�r TAPI. Telefonate k�nnen vom PC/Laptop aus gestartet werden und werden kosteng�nstig �ber SIP abgewickelt und direkt im web-basierten CRM-System zugeordnet, auch wenn sie direkt �ber das Telefon gestartet wurden oder es sich um eingehende Anrufe handelt. So werden 100% der Kundenkontakte erfasst. 15. Konzeption / Erstellung eines Prototyps zur interaktiven Eingabe von Zahlungen in Online-Banking-Schnittstellen (im Konzept �hnlich sofortueberweisung.de) zum Einrichten von klassischen oder SEPA-Zahlungen f�r einen Vertrag f�r die einfache und interaktive Aufl�sung von R-Transaktionen. Dies war Teil der schlanken Prozess-Management-Initiative. Die JEE / Grails App verwendet HBCI4Java, Web Mining/Scraping und Groovy / Grails mit jQuery, YUI, Hibernate, Captcha, Spring Security. 16. Co-Konzeption des italienischen Anti-Money-Laundering (AML) und Betrugserkennungs-Projektes mit NameSafe, KYC (Know Your Customer), WinTar und Listen von PEPs (politisch exponierten Personen), Blacklists und ma�geschneiderten Regel�s�tzen. Analyse in Bezug auf Zahler, Beg�nstigte, Anschriften, Organisationen, Zeitintervalle z.B. der zus�tzlich gezahlten Pr�mien und zu zahlender Betr�ge; Datenaustausch �ber problematische oder betrugs-verd�chtige Kunden mit anderen (Lebens-)Versicherungen. DS-Ansatz: Schwarze Listen, Anschrift und Bankdaten-�hnlichkeitsvergleich mit Scoring-Dienstleistungen, Anomalieerkennung, Zeitreihenanalyse aller Zahlungsstr�me mit Anomalieerkennung und Schwellwerten (Thresholds), Modellierung typischer Zahlungs- / und Teilauszahlungs-Regelungen mit Ausrei�ererkennung, Austausch verd�chtiger und von Blacklist-Datens�tzen/-Personen mit anderen Versicherungen und Beh�rden. 17. Beurteilung / Co-Konzeption / Erweiterung f�r eine Dynamic Hybrid Versicherungs-Vertrags-Line f�r alle drei Stufen (Basisrente / R�rup, Riester-Rente, private Rentenversicherung). Dies bedeutet, dass Garantien f�r Mindestleistungen bzw. des Grades des Erhalts der Kunden-Einlage gegeben werden, aber zus�tzlich eine wesentliche Beteiligung an steigenden Aktienkursen vereinbart wird: Sicherheit f�r investiertes Geld kombiniert mit der Teilnahme an steigenden B�rsentrends (bessere Leistung). 18. Als Testmanager/Projektmanager (PRINCE2) Erstellung eines konzernweiten Last- und Performance-Testing-Konzeptes: Lieferanten-Management, Evaluation der Produkte/Tools: Linux Test Project (LTP) f�r OS Load Testing; JMeter, The Grinder, HP Quick Test Professional/HP Quality Center f�r (Web-)Anwendungs-Last-Testen; DBMonster f�r Datenbank-Last-Tests; Spezial-Test-Programmen/Plugins f�r LDAP- E-Mail-, SSL-/JDBC-/ODBC-/FTP-/Security-Testing. Evaluation der weiteren Tools MS Visual Studio Test Professional/Visual Studio Test Manager, Perl Testing Modules (Test-Harness, Test-DBIx, Test-C2FIT, Test::FIT), Fitnesse, Test Code-Generierungs-Tools. Erstellung und Halten von Pr�sentationen zu den Best Practices, Prinzipien, Herausforderungen und L�sungen im Last-/ Performance-Testing. DS-Ansatz: Schwarze Listen, Anschrift und Bankdaten-�hnlichkeitsvergleich mit Scoring-Dienstleistungen, Anomalieerkennung, Zeitreihenanalyse aller Zahlungsstr�me mit Anomalieerkennung und Schwellwerten (Thresholds), Modellierung typischer Zahlungs- / und Teilauszahlungs-Regelungen mit Ausrei�ererkennung, Austausch verd�chtiger und von Blacklist-Datens�tzen/-Personen mit anderen Versicherungen und Beh�rden.

Produkte

MS Office MS Project MS Word MS Outlook MS PowerPoint MS Excel Scala ScalaCheck C# Cold Fusion Eclipse Konfigurations-Management Versions-Management XML DTD XSD XSLT XPath XQuery SOA EAI IT Security OOD OOP Domain-Driven Design Web-Services SOAP UML2 SQL OOA UML Apache Tomcat .NET 4.0 XSLT LDAP SSL TLS BIPRO Webservices XSD XML XML Schema JDBC WSDL Lipper Hindsight Sun Accounts TLQ Stars PAPS ACE Advoline Schufa B�rgel Reuters BIPRO PAWS RAN GALA Nera Boxman Boxlink TaxConnect Progress ZUL LF4 LF3 FJA Cor 400 Life Text M Multiversa Multicrash SAP CD Oracle AP GL Cash Management Profit & Loss Confluence Unit Tests Integration Tests Server Security Suite Git Subversion Jira McAfee Embedded Control Intel E-Mail Protection McAfee Web Gateway 7.x Citrix Kofax Alchemy VNC Cold Fusion Intel Sox Express DMS Quality Center WinRunner QTP TOAD SquirrelSQL DB Visualizer HP Quality Tools Eclipse MS Active Directory Bizagi SAP PowerDesigner Puppet MS Project MS Visual Studio Visio Sparx Enterprise Architect Tomcat MS Visual Studio 2010 Perl Python ASP PRINCE2 JEE ALM Java Versionsmanagement TFS SSIS TSQL T-SQL DB2 C# MS Access SQL Server 2008 R2 Unix Win32 SharePoint 2010 PRINCE2

Kenntnisse

Logging Tracing Error Handling Debugging Testing

Kunde

Llyods Banking Group

Einsatzort

Heidelberg, Frankfurt/Main (DE), Bristol (EN), Luxemburg (L) uvm

1 Jahr 4 Monate

2010-07 - 2011-10

De-Mail-Projekt

oftware-/Netzwerk-/Infrastruktur-Architek, sp�ter Test Manager DLIES ECIES Elliptical Curve ...

Rolle

oftware-/Netzwerk-/Infrastruktur-Architek, sp�ter Test Manager

Projektinhalte

Projektziel: Konzeption, Absch�tzung der Machbarkeiten und Zusammenh�nge, Realisierung, Test; Delivery und Zertifizierung eines E-Mail- und Dokumenten-Speicherungs-Systems nach De-Mail-Gesetzesvorlage & Security-Vorgaben von der Beh�rde BSI. Hierdurch erlangen De-Mails gleiche Beweiskraft wie eingeschriebene Briefe und k�nnen f�r die verbindliche Beh�rdenkommunikation verwendet werden. Aufgaben 1. Hauptaufgaben: Software-/System-Architekt: Netzwerkstruktur (Zonenkonzept: Access-, Service- und Backend-Bereiche, Admin-LAN), Security, Storage, Datenbanken, VPN, Konnektoren, Gateways, Application Server, Services, Applikationen, Frontends, Krypto-Konzept (Schl�ssel-Lebenszyklus, Algorithmen, Zertifikatsprofile, OTP, Secure Tokens, Smartcards); Host-/Network-based Intrusion Detection Systems (HIDS/NIDS) mit Active Bypass Units (ABPU), Nutzer- und Rechte-Konzepte, Prozessentwurf/Prozessdesign, Prozessimplementierungen bzgl. Krypto-Material, Disaster Recovery, Compliance (mit gesetzlichen und Security-Auflagen), Anbindung Elektronischer Personalausweis (ePA/nPA), IAM/IdM mit NetIQ Access & Identity Manager, Zuarbeit Projektmanagement: Schn�ren von Arbeitspaketen, Zeit- und Kostensch�tzungen; Technologie der Web-Applikationen: GWT, ExtGWT/GXT/Vaadin RIA frameworks, HTML5 (canvas, SVG, etc.), BST media player (video support), GWT graphics, Gwtrpc-spring, Spring (lightweight IOC container), GWTEventService, Hibernate (ORM), Envers (Auditing), Lucene (fulltext search), Apache CXF (webservices), EhCache, Dozer (object mapping), JasperReport (reporting), Jasypt (encryption), JBoss Drools (workflow and rules engine), Atomikos Transaction Essentials (JTA manager), Apache Tomcat. 2. Erstellung eines Big-Data / Clustering-Architektur-Konzeptes mit g�nstiger Standard-Hardware nach Vorbild von Google und LinkedIn (Search, Network, Analytics SNA): Hadoop, Google File System (GFS), Google Distributed Systems, verteilte Datenbanken Voldemort und Sensei; wesentliche Algorithmen & Datenstrukturen: HBase, Cassandra, Redis, HCatalog, Hive, Shark /Stinger, Impala, Drill, Sqoop, HDFS, Apache Solr, Pig, Oozie, Zookeeper, Nagios, Kafka, Hue, RabbitMQ, Protobuf, Ganglia, Kafka, Ambari/Ganglia, Mesos, Map-Reduce, Compression, Encryption. Proof-of-Concept-Umsetzung mit Anderen auf einigen PCs. Das Konzept wurde letztlich nur deshalb abgelehnt, weil in diesem Bereich nicht gen�gend Kompetenz im Konzern bzw. Einarbeitungszeit/-Budget vorhanden war. Ab 2014 wurde es dann umgesetzt. 3. SW- und GUI-Architektur bzw. Review der Architektur-Dokumente, darunter ein Schwerpunkt im Java-Backend-Bereich sowie im Vaadin-/JavaScript-Frontend-Bereich mit den Libraries Node.js, npm, Backbone.js, Underscore.js, d3.js (Data-Driven Documents), angularJS mit Jake-Builds. 4. Projekt-Management (Scrum): Abstimmung der L�sungsideen und Vorgehensweisen als Architekt im Core-Team mit ca. 20 anderen Teams innerhalb der Telekom sowie von Software- und Hardware-Lieferanten, insgesamt ca. 300 Mitarbeiter umfassend. Organisation von Meetings, Telkos, Pr�sentation und Abstimmung von L�sungen, F�hren von Diskussionen bei diversen Zielkonflikten zu L�sungen: am schnellsten umzusetzende, am schnellsten laufende, sicherste, am leichtesten zu zertifizierende, preisg�nstigste, kompatibelste, risikoarmste, aus renommiertesten Komponenten bestehende, mit bestem Support versehene. Umgehen mit hohem Arbeits- und Zeitdruck unter Erzeugung m�glichst weniger Desillusionierungen, Verlusten an Produktivit�t und mit minimaler Notwendigkeit bereits erarbeitete Teilergebnisse verwerfen zu m�ssen. 5. Transition Management Entwicklung -> Betrieb: Konzipieren/Mitumsetzen der Entwicklungs-, Test- und Produktivumgebungen nach TSI-Standards (z.B. Hitnet, Blade, eTOM (Enhanced Telecom Operations Map), TOGAF, GDM (Group Domain Model)?) sowie mit neuen Komponenten als zuk�nftige Betriebsstandards; Prozessoptimierung, Begleitung Testmanagement, Changemanagement, Releasemanagement. 6. Erstellung von Security-Zertifizierungs-Unterlagen nach BSI-Grundschutz/ Common Criteria, z.B. Attack-Tree-Erstellung und darauf aufbauende Analysen, Schutzbedarfsanalysen, End-to-End-System�bersicht, Sicherheitskonzept und Analyse. Aufstellung von Assets, Vulnerabilities, Attacks, Threats, Mitigations, Policies nach Common Criteria und Ermittlung verbleibender Schwachpunkte sowie deren Ranking nach Wahrscheinlichkeiten/Erwartungswerten. Security-Ma�nahmen auf Ebene von Architektur und Entwicklung, z.B. umfangreiche Daten(fluss)-Validierungen, Ergreifen der Gegenma�nahmen mit dem besten Kosten-Nutzen-Verh�ltnis gegen die 250 wichtigsten Angriffstypen nach den 10 wichtigsten Security-Portalen wie OWASP.org, WebAppSec.org, cwe.mitre.org, etc. F�r jeden der 250 wichtigsten Angriffe Sammeln/Konzipieren der Gegenma�nahmen mit allen Details. Bewertung jedes Szenarios nach den oben genannten Kategorien. Dann wurden die Gegenma�nahmen unter Ber�cksichtigung der m�glichen Gefahr (d.h. des Erwartungswertes der Verluste) und einer Kosten-Nutzen-Analyse der einzelnen Gegenma�nahmen priorisiert. Nach der endg�ltigen Entscheidung �ber die Ma�nahmen, wurde das Restrisiko berechnet. Gegenma�nahmen gegen neue Bedrohungen wurden in �hnlicher Weise neu bewertet und verwaltet. 7. Erstellen eines Sicherheitskonzeptes f�r Web-Frontends allgemein nach dem Baukastenprinzip basierend auf den wesentlichen Frontend-Komponenten: WebApp allgemein, JavaApp, GWT-App, JavaScript-/AJAX-App. Das konkrete Sicherheitskonzept umfasste insgesamt das Vaadin-GWT-basierende Frontend (mit den JS-Libraries: Node.js, npm, Backbone.js, Underscore.js, d3.js (Data-Driven Documents), angularJS mit Jake-Builds) sowie die Backend-Anbindung, das alle sinnvollen detaillierten Vorgaben/Bewertungen auf Management- und Technik-Ebene in separaten Excel-Eingabefeldern ber�cksichtigt. Nach abschlie�ender Entscheidung �ber die Ma�nahmen kann das verbleibende Restrisiko berechnet werden und die guten Ergebnisse f�r das Marketing der L�sung verwendet werden. Nach Umsetzung/Implementierung der Gegenma�nahmen kann im Zuge von Qualit�ts- und Penetration-Tests ein Re-Assessment durchgef�hrt werden und Verbesserungsma�nahmen und Gegenma�nahmen gegen neue Bedrohungen wieder gleich exakt bewertet und gemanagt werden. 8. Konzeption/�berwachung der Implementierungen der identifizierten Gegenma�nahmen im Rahmen eines Sicherheitskonzeptes nach Common Criteria (CC). Anspruch, des De-Mail-Systems ist, das sicherste IT-System in Deutschland zu sein, denn bei einer Kompromittierung w�rde damit auch das vom Grundgesetz gesch�tzte Postgeheimnis verletzt. Schlie�lich werden auch besonders brisante Inhalte wie Steuer- und Strafbescheide, Krankenberichte, etc. �ber De-Mail zugestellt werden. Die Zertifizierung erfolgt nach den h�chsten BSI-Standards in breitest-m�glicher Auslegung, wie dies wohl noch nie f�r ein solch gro�es System geschah. Eine besondere T�tigkeit war die Analyse erfolgreicher Hacks, wobei insbesondere die Analyse/die Hintergrundrecherche des Diginotar-Hacks (Niederlande) zeigte, dass der Abgleich unter den HSMs per SSL unzureichend bzgl. Session-Refresh-Angriffen gesichert war. 9. Erstellung von (Schulungs-)Unterlagen f�r den Betrieb; Kompetenztransfer. 10. Konzeption und Implementierung einer Validierungslibrary f�r Client- und Server-basierte Validierung sowie anschlie�endes Testmanagement; clientseitig mit Unterst�tzung f�r GWT (GXT+Vaadin) sowie in einem Modus nur mit JavaScript (Programmierung einer Validierungskomponente in JavaScript) bzw. mit GWT-JavaScript-Anbindung via JSNI aus Performance-Gr�nden, weil GWT die JavaScript-RegularExpressions nicht direkt unterst�tzt. Serverseitig in Java implementiert und GWT-konform gehalten. Erg�nzung um Check-Funktionen in Scala sowie ScalaCheck. Einzelne Admin-Komponenten in Node.js, npm, Backbone.js, Underscore.js (utilities), d3.js (Data-Driven Documents), angularJS mit Jake-Builds. 11. Security-Testmanagement: Erstellen eines Web-Application-Testkonzeptes, das die ca. 50 wichtigsten Angriffstechniken insbesondere mit allen wichtigen Arten von XSS/XSRF, Code Injection und sonstigen Angriffsvarianten in m�glichst vielen Darstellungsvarianten explizit auff�hrt. Nutzung der Security Scanner & Tools: MetaSploit, Burp Suite, NeXpose, Nessus, Nmap, Acunetix-Websecurity Scanner, PeakflowX von Arbor, NTOSpider, NTODefend (DAST Tools), Skipfish, Fuzzing Tools, Burp Nessus, SoapUI (f�r WebServices), Core Impact, Google Skipfish, OWASP WebScarab, JBroFuzz, Zed Attack Proxy (ZAP), Scrubbr, SQLiX, Paros Proxy, IronWASP, W3AF, Syhunt Mini, N-Stalker, Watobo, VEGA, Netsparker, Andiparos, ProxyStrike, Wapiti, Grendel Scan, arachni, WebCruiser, JSky, jScan, ProxyStrike, PowerFuzzer, Sandcat, Ammonite, safe3wvs, Advanced Persistent Threats (APT) und Gegenma�nahmen �ber Threat Intelligence, Cisco/Sourcefire (Adaptive) IPS und Enterprise Threat Management (ETM), Windows Credential Editor (WCE), gsecdump, Mimikatz. 12. Ber�cksichtigung von Sicherheits-Standards wie ISO 2700x, Open Source Security Testing Methodology (OSSTMM), OWASP Testing Guide, Web Application Attack and Audit Framework (W3AF), BSI WebApp-Sicherheitsbaustein (basiert auf/integriert �NORM A 7700), PCI DSS (Kartenterminals, Smartcards, Bezahlsysteme) und deren Umsetzung in Form von Sicherheits- und (Penetration-)Test-Konzeptionen. 13. Evaluation von Techniken/Toolkits/Standards f�r die Konsolidierung von Dokumenten sowie f�r Dokumenten-Management-Systeme (DMS) sowie Portale. Evaluiert als DMS: Liferay, Alfresco, OpenCMS, Drupal, WordPress, Joomla, Typo3, Polarion 2011, Logicaldoc, phpwcms, Booki.cc; als zentrales Dateiformat: XML, RTF, HTML, DocBook, DITA, ODF, OOXML, Wiki Formate (MediaWiki, DocBookWiki); als Ajax-RichText-Editoren: Etherpad, Telerik RadEditor, TinyMCE, CKEditor, FreeTextBox, (j)HTMLArea, Xinha, BitFluxEditor, Dijit Editor, jQuery Rich Text Editor (RTE), Ekit.; als Kollaborative Plattformen: TWiki, LaTeXLab, TeamLab, Feng Office, Nuxeo, EXo Platform, OpenKM, Telligent evolution/enterprise, Zoho Writer/Zoho Docs, Ramius Engagement, ShowDocument, DocScape, MindTouch Core, TmsEKP; als Konvertier-Tools: Herold, HTML2DocBook.xsl, ROBODoc, Pod-2-DocBook, DocBook Tools, Apache FO, XES, LaTeX2RTF, L2HTML, RTFConverter, UnRTF, WVware, Drupal Import/Export; als Terminologie/Translation Memory Systeme: openTMS, opentm2, Anaphraseus, OmegaT+, SUN Open Language Tools, Transolution XLIFF Editor. 14. Architektur eines DMS-Addons f�r die konsistente Konsolidierung verschiedener Dokumente und Versionen unter Nutzung von Liferay als Portal-System sowie von Etherpad / TinyMCE als Rich-Text-Editoren. Das Add-on erlaubt in einem linken Bereich das Laden/Erstellen/Bearbeiten/Speichern einer inhaltlichen Struktur f�r das Zieldokument sowie die Darstellung der Quelldokumente mit ihrer Struktur. Durch Anklicken wird jeweils das entsprechende Kapitel im Rich-Text-Editor rechts angezeigt. Satz-, Absatz- oder Abschnitts-weise k�nnen Inhalte per Drag & Drop in die Ziel-Dokument-Struktur abgebildet werden. Bereits vorhandene Passagen werden farblich markiert zur Erkennung von Doppelungen oder Unterschieden zwischen Versionen. Auch das direkte Editieren der Passagen im Zieldokument ist m�glich. So konnten hunderte Entwicklungs-Dokumente aus verschiedenen Teams bzw. von �lteren St�nden schnell und kosteng�nstig integriert werden. 15. Erstellen des Krypto-Konzeptes nach BSI-Standard: Konzeption aller Ma�nahmen bzgl. Verschl�sselung, Signatur, Hashing, Integrit�tsschutz und Authentifizierung. Nutzung von Hardware Security Modules (HSMs, Safenet Luna SA, Thales TEMS), TCOS Smart Cards (Telesec), DKIM, weiterentwickelt zu DMARC, Oracle Identity Manager, Telesec One-Time-Password (OTP), Web Application Firewalls (WAF, Barracuda), Intrusion Detection und Prevention Systemen (IDS/IPS), Firewalls, Virtual Private Networks (VPN, Cisco ASA), Verbindungsverschl�sselung (SSL/OpenSSL/Java-SSL/IPSec), Schl�sselaustausch (Diffie-Hellman), Schl�ssel- und Zertifikatserzeugung, Verwaltung, Entsorgung (gesamter Krypto-Material-Lebenszyklus), Definition erlaubter Krypto-Verfahren und deren Parametrisierung, Ma�nahmen zum Integrit�tsschutz wie z.B. der Erkennung von Manipulationen oder Malware (tripwire). 16. Erstellung eines Business Continuity Management (BCM) und Disaster Recovery Management (DRM) Konzeptes sowie Test-Manager f�r das Testen der Umsetzung: Single Point of Failure (SPoF) Analyse und Konzeption von Redundanz-Mechanismen, um Anforderungen nach Null-Daten-Verlust und Verf�gbarkeiten von mindestens 99,99% zu erf�llen. Nutzung von Abh�ngigkeitsdiagrammen & weiteren Business Continuity Institute (BCI) Good Practices Guidelines (GPG), 2 Standorte, mehrere Cluster, Oracle DataGuard zur Umsetzung synchroner und verz�gerter Daten-Replikation, Konzeption von Failover-Mechanismen einschlie�lich 4-fach redundantem Datenspeicher (DB/Filesystem) mit Redo-Logs und Snapshot-Support, HSMs (Hardware Security Module), VPNs, Zonenkonzept (Access-/Service-/Backend-/Management-Zonen), WAF (Web Application Firewall-W�nde), IPS (Intrusion Prevention-Systeme), selektive Fehlererkennungs- und Recovery-(R�ckaufsetzungs-)Mechanismen. 17. Review der (Security-)Test-Konzepte sowie Management der Tests und der Umsetzung (Projekt-Management) in meinen Kompetenzbereichen.

Produkte

Scala ScalaCheck MS PowerPoint MS Excel OTP CRL LPAR LUN ESP Debugging Testing MS Office MS Project MS Word MS Outlook Konfigurations-Management Logging Tracing Error Handling Versions-Management XML DTD XSD XSLT XPath XQuery SOA EAI IT Security OOD OOP Domain-Driven Design WebServices SOAP UML2 SQL OOA UML Atomikos Transaction Essentials Apache Tomcat JasperReport Jasypt JBoss Drools GWTEventService Envers Lucene EhCache Dozer Jake-Builds BST media player Gwtrpc-spring Spring angularJS Underscore.js d3.js Node.js npm Backbone.js Drools jBPM Selenium EasyMock CSP OpenSSL HTML5 GWT graphics RIA frameworks Spring Dozer Batik Atomikos GXT Vaadin SoapUI jMeter Selenium GWT ExtGWT JAX-WS JAXB Apache CXF Hibernate BigIP Traffic Manager Load Balancer RAID-Systeme Juniper Firewalls Fortinet Checkpoint RSA RKM Certificate Authority BladeSwitch Barracuda WAF 860 IBM Proventia Network Intrusion Luna SA Thales TEMS Cisco ASA Fujitsu RX300 Primergy Brocade Encryption SAN Switches HP Blade 460 G6 HP Power 750 Systems Jira Confluence Unit Tests Integration Tests Storage Manager Oracle Identity Manager Git Subversion Atlassian Jira Bamboo Fisheye & Crucible IBM Tivoli Oracle Text Diagnostic Pack Tuning Pack) Scala ScalaCheck Advanced Security Database Vault Advanced Compression Puppet Hitachi Storage Navigator Hitachi Device Manager Hitac MS Project Eclipse Elliptic Curve Cryptography Visio Sparx Enterprise Architect SAP PowerDesigner Identity Manager Server Security Suite NetIQ Access McAfee Embedded Control Intel E-Mail Protection McAfee Web Gateway 7.x TCOS 3.0 Triple Key Zertifikate Scrum Intel Advanced Mezzanine Card NAT-Traversal DMZ Soft-PSE HDA HSM LB LIMS Lifetime Key Management OTP IBM Tivoli mit Storage Manager Mail Transfer Agents SAN-Systeme NSD NIDS managed Security Information and Event Management IDES WAF Viren- & Malware Scanning VMware & Citrix Virtualisierung Oracle Coherence Luna Box Utimaco LIMS mit Gateway Brocade Encryption Switch Thales TEMS Sun XFS Oracle RAC strongSwan Cisco ASA JEE mit Glassfish Apache CXF WebServices IBM GPFS IBM AIX Win32 Java SuSE Enterprise Server 11 Red Hat Enterprise Linux

Kenntnisse

DLIES ECIES Elliptical Curve DSA ECDSA RSA SHA-2 Hashing Diffie-Hellman DMARC G10-Schnittstelle DKIM CRL DER DNSCurve ZFS NFSv3 NFSv4 X.509v3 mit Extended Usages SSL TLS S/MIME DNSSEC POP3 SMTP LMTP IMAP LDAP IPSec OCSP XSLT WS-* Standards XSD XML Schema XML JDBC WSDL Oracle JDK 6/7 Oracle 11gR2 mit RAC Partitioning Squid Exim James Liquibase Oracle Glassfish TrueCopy Oracle Database Oracle OpenDS HP ArcSight Tools Brocade Data Center Fabric Manager

Kunde

Dt. Telekom/T-Systems

Einsatzort

Homeoffice, Gro�raum Frankfurt/Main, DE

8 Monate

2010-08 - 2011-03

Analyse und Verbesserung der Architektur sowie der IT-Sicherheit

GWT-/AJAX-Security-Spezialist & Architekt, sp�ter Testmanager

Rolle

GWT-/AJAX-Security-Spezialist & Architekt, sp�ter Testmanager

Projektinhalte

Projektziel: Analyse und Verbesserung der Architektur sowie der IT-Sicherheit (Security) eines Praxis- & Tumor-Dokumentationssystems basierend auf JEE, Google Web Toolkit (GWT), GXT, Hibernate, Spring, Dozer, Batik, Atomikos, Drools sowie Testautomatisierung mit JMeter, Selenium und EasyMock. Aufgaben 1. Ausarbeitung eines Sicherheitskonzeptes f�r Architektur, Entwicklung und die Test-Automatisierung, basierend auf Common Criteria, BSI Grundschutz sowie diversen ISO-Standards. Umsetzung der wichtigsten Security-Ma�nahmen auf Ebene von Architektur und Entwicklung, z.B. umfangreiche Daten(fluss)-Validierungen, Ergreifen der Gegenma�nahmen mit dem besten Kosten-Nutzen-Verh�ltnis gegen die 250 wichtigsten Angriffstypen nach den 10 wichtigsten Security-Portalen wie OWASP.org, WebAppSec.org, cwe.mitre.org, etc. F�r jeden der 250 wichtigsten Angriffe Sammeln/Konzipieren der Gegenma�nahmen mit allen Details. Bewertung jedes Szenarios nach den oben genannten Kategorien. Dann wurden die Gegenma�nahmen unter Ber�cksichtigung der m�glichen Gefahr (d.h. des Erwartungswertes der Verluste) und einer Kosten-Nutzen-Analyse der einzelnen Gegenma�nahmen priorisiert. Nach der endg�ltigen Entscheidung �ber die Ma�nahmen, wurde das Restrisiko berechnet und die Ergebnisse wurden f�r die Vermarktung der L�sung verwendet. Nach der Implementierung von Gegenma�nahmen wurde auf Basis der erzielten Qualit�t trotz Budget-K�rzungen z.B. bzgl. Penetration Tests eine erneute Bewertung vorgenommen und m�gliche Verbesserungsma�nahmen priorisiert. Gegenma�nahmen gegen neue Bedrohungen wurden in �hnlicher Weise neu bewertet und verwaltet. 2. Pen-Test- und Acceptance-Test-Konzeption sowie anschlie�endes Testmanagement basierend auf Security Scannern & Tools: MetaSploit, Burp Suite, NeXpose, Nessus, Nmap, Acunetix-Websecurity Scanner, PeakflowX von Arbor, NTOSpider, NTODefend (DAST Tools), Skipfish, Fuzzing Tools, Burp Nessus, SoapUI (f�r WebServices), Core Impact, Google Skipfish, OWASP WebScarab, JBroFuzz, Zed Attack Proxy (ZAP), Scrubbr, SQLiX, Paros Proxy, IronWASP, W3AF, Syhunt Mini, N-Stalker, Watobo, VEGA, Netsparker, Andiparos, ProxyStrike, Wapiti, Grendel Scan, arachni, WebCruiser, JSky, jScan, ProxyStrike, PowerFuzzer, Sandcat, Ammonite, safe3wvs, WebGoat (unsich. App), Fiddler, ModSecurity. Dabei erfolgte die Ber�cksichtigung von Sicherheits-Standards wie ISO 2700x, Open Source Security Testing Methodology (OSSTMM), OWASP Testing Guide, Web Application Attack and Audit Framework (W3AF), BSI WebApp-Sicherheitsbaustein (basiert auf/integriert �NORM A 7700), PCI DSS (Kartenterminals, Smartcards, Bezahlsysteme) und deren Umsetzung in Form von Sicherheits- und (Penetration-)Test-Konzeptionen. 3. Design, Implementierung und Testmanagement einer Validierungs-Bibliothek f�r die Client-und Server-basierte Validierung der Client-Seite mit Support f�r GWT (GXT) in einem Modus mit JavaScript (Programmierung einer Validierungs-Komponente in JavaScript) oder mit GWT-JavaScript-Verbindung via JSNI f�r aus Performance-Gr�nden, weil JavaScript bzgl. Regular Expressions nicht direkt von GWT unterst�tzt wird. Auf der Serverseite dies ist in Java implementiert und wird GWT-konform gehalten. Andere JavaScript libraries: Backbone.js, d3.js, Jake. 4. Erstellung eines Web-Anwendungs-Test-Konzepts, das explizit die 250 wichtigsten Angriffs-Techniken auflistet, insbesondere mit allen g�ngigen Arten von XSS / XSRF, Code-Injection und andere Arten von Angriffen in so vielen Beispielen/Varianten wie m�glich. Dieses Konzept wird zum Testen der Validierungs-Library und der sonstigen Sicherheitsma�nahmen eingesetzt. 5. Design / �berwachung der Umsetzung der identifizierten Gegenma�nahmen und Eind�mmungsma�nahmen im Rahmen der Umsetzung des Sicherheitskonzeptes gem�� Common Criteria (CC). 6. Erstellung einer Java Security Library unter Nutzung/Integration der Best-Practice-Sicherheitsbibliotheken, z. B. von OWASP sowie ScalaCheck (�ber Java und Scala). 7. Datenkonvertierungs-Konzept f�r klinische/onkologische Daten / Coaching bzgl. Talend Open Studio (ETL). 8. Steuerung/EMSR der Dosierungen f�r Medikamenten-Mischungen. 9. Verwendung von UML Lab, ein Eclipse-basiertes UML Round-Trip-Tool von Yatta in einem freundlichen User Test basierend auf Open ArchitectureWare (OAW): Verwendung / Anpassung von Analyse / Generation-Vorlagen in OAW: Xtext, Xpand, JET.

Produkte

JBoss Drools Atomikos Transaction Essentials Apache Tomcat Envers Lucene EhCache Dozer JasperReport Jasypt Spring GWTEventService d3.js Jake BST media player Backbone.js Drools jBPM Selenium EasyMock OpenSSL HTML5 GWT graphics RIA frameworks Spring Dozer Batik Atomikos GXT Vaadin SoapUI jMeter Selenium GWT ExtGWT JAX-WS JAXB Apache CXF Hibernate SSL TLS JDBC WSDL XML XSLT XSD XML Schema WS-* Standards Eclipse Tomcat Apache CXF WebServices JEE Java Win32

Kunde

Alliance Boots Group

Einsatzort

Bonn, DE und Zug, CH

3 Monate

2010-06 - 2010-08

Verifikation von Reisepapieren

Coach, teilweise Testmanager in der anf�nglichen Analyse- und Pr Criteria API RichFaces Ajax4JSF ...

Rolle

Coach, teilweise Testmanager in der anf�nglichen Analyse- und Pr

Projektinhalte

Projektziel: Wiederaufnahme zweier eingestellter Software-Entwicklungen f�r die Echtheitserkennung von Reisedokumenten, eine in C++ mit Qt und gSOAP, eine in Java/JEE. Analyse/Verstehen/Debuggen des bestehenden Codes, Integration der Systeme, Erstellen von GUI-Prototypen, Coaching des Entwicklerteams bzgl. der Technologien JEE, JBoss EAP/AS, Seam, RichFaces, Drools, jBPM, Hibernate, Ajax, SmartClient, Groovy & Grails, Lucene. Aufgaben Fachlich: Coaching, Einarbeitung und Anleitung des neuen Teams zur Weiterentwicklung der Gesamtanwendung in JEE, Seam, Hibernate, Ajax, Grails. Neben allgemeinem Coaching, Konzeption/Implementierung von WebServices/Ajax-Schnittstellen zur Kommunikation zwischen den Anwendungsteilen, Erstellen von Tool-Markt�bersichten und Diskussion der Entwicklungsrichtung mit dem Management, Erstellen von GUI-Prototypen und Besprechen der Ergebnisse/weiterer Strategie mit dem Management. Technisch: 1. Einrichten/Konfigurieren der Entwicklungsumgebungen f�r die C++ und die JEE-Anwendungsquelltexte. 2. Analyse der bestehenden Anwendungsdokumente und Quelltexte in C++ (SQL Server 2008 R2, Transact-SQL(T-SQL/TSQL), SQL Server Integration Services (SSIS), TFS (Team Foundation Server) f�r Versionsmanagement/ALM)sowie in Java/JEE. 3. Konzeption der zuk�nftigen Architektur des JEE-Systems zur �berpr�fung der Echtheit der deutschen und internationalen P�sse / Personalausweise-Dokumente mit einer Sicherheitsmerkmalsextraktion, Bewertung und statistisches Scoring-Konzept, um Betrug / F�lschungen zu verhindern. Umsetzung auf Grails-Basis bei m�glichst hoher Wiederverwendung bisherigen Codes und voller Kompatibilit�t zum JMRTD (Java Machine Readable Travel Documents) Standard. DS-Ansatz: Die Berechnung der gewichteten Punktzahl aller einzelnen Detektoren f�r verschiedene G�ltigkeitsanzeigefunktionen. 4. Konfiguration, Debugging, Logging/Tracing: Coaching und eigenes Debuggen/Fixen der wichtigsten Fehler, vor allem in der JEE-Applikation. 5. Automatisches Einf�gen eines systematischen Tracings/Loggings in die JEE-Applikation zum Verst�ndnis der Daten- und Kontrollfl�sse sowie zum Trouble-Shooting und zur Einarbeitung/Anpassung des Systems. 6. Erstellen/Anpassen von WSDLs/WebServices zur Integration der Systeme und zum Datenaustausch mit den GUIs mit Apache CXF unter Nutzung von JAXB bzw. XMLBeans (alternativ auch mit Apache AXIS2). 7. Erstellung von Markt�bersichten zu GUI Rapid Prototyping Tools, Java/JEE GUI Frameworks sowie Ajax Frameworks. 8. Coaching und eigenes Erstellen von GUI-/Funktions-Prototypen in verschiedenen Technologien: Ajax: jQuery, Underscore.js, SmartClient, SmartGWT, Tersus, ExtJS, Adobe Flash/Flex, Grails sowie Seam/RichFaces. 9. Dokumentation, Einarbeitung/Schulung des Teams.

Produkte

MS Office MS Project MS Word MS Outlook MS Excel Logging Tracing Error Handling Debugging Testing SOA EAI IT Security Versions-/ Konfigurations-Management SOAP XML DTD XSD XSLT XPath XQuery JMRTD UML/UML2 SQL OOA OOD OOP Domain-Driven Design WebServices Eclipse Drools Subversion SVN JBoss JSF RichFaces Ajax4JSF Adobe Flash Flex Smart Client SmartGWT jQuery MS Powerpoint Underscore.js Tersus ExtJS Groovy Grails SpringSource Tool Suite ZK-Framework ZKOSS SQL Server 2008 R2 Transact-SQL SQL Server Integration Services TFS ALM

Kenntnisse

Criteria API RichFaces Ajax4JSF CXF AXIS2 log4j dom4j Hibernate JMRTD RegExp JAX-WS JAXB Apache XSLT XML JDBC WSDL Scrum Win32 Red Hat Enterprise Linux CentOS Java C++ gSOAP JBoss Drools jBPM Seam Apache CXF WebServices

Kunde

Government

Einsatzort

Hannover und teilweise Berlin, DE

5 Monate

2010-01 - 2010-05

Konzeption neuer WebServices im Rahmen eines ESB/SOA-Konzeptes f�r das Internationale Bausparkassenpaket

Architekt/Projektleiter, Team-Mitarbeiter Java iSeries/POWER6-Systeme AS/400 ...

Rolle

Architekt/Projektleiter, Team-Mitarbeiter

Projektinhalte

Projektziel: (insbesondere f�r Partner-/Tochterunternehmen, davon viele in Osteuropa), beispielhafte Implementierung, Anbindung von Cobol-basierten Backends, Verallgemeinerung bis hin zur Definition von Templates und darauf aufbauend Code-Generierung von Java/Cobol-Quelltexten. Einbau in ein JBoss-basiertes System vorgeschaltet vor SAP DMS (Dokumenten-Management-System) und Data Mining/Business Intelligence (SAP BI). Aufgaben Fachlich: Bausparkassen den Austausch von Informationen (via WebServices, JMS) zu Kunden und Vertr�gen erm�glichen zwischen den Abteilungen �ber den ESB sowie auch Informationen mit der Konzernmutter Schw�bisch-Hall. Diese Anbindung zwischen Java-Clients und Java- bzw. Cobol-Backends ist ein wichtiger Schritt zur Nutzung eines ESB (Enterprise Service Bus) im Rahmen eines dabei weiterentwickeltes SOA-Konzeptes. Einsatz des Frameworks in einem JBoss-basierten JEE-System zur Disposition und Lagerverwaltung f�r den Einkauf. Insbesondere Integration der WebService-Funktionalit�t in Dokumentenmanagement-System (SAP DMS) und Data Mining/Business Intelligence System (SAP BI); Entwicklung der relevanten JEE-Applikations-Funktionalit�t von GUI bis hinunter zur Datenbank. Technisch: Erstellen generischer Client- und Server-Implementierungen unter direkter Nutzung von XML, http, etc. als Fallback-L�sungen. Definition von WSDL mit ws-* Standards, z.B. ws-addressing, ws-enumeration, ws-security. Code-Generierung mit JAX-WS unter Nutzung von JAXB und XJC. Cross-Validierung und Testing sowie Ausloten von Features unter Nutzung von Tools/Implementierungen auf Basis von SoapUI, tcpmon, SoapMon (AXIS2) sowie Apache CXF/XmlBeans. Direkte Anbindung von AS/400 und iSeries-Systemen mit Implementierungen in Cobol unter Nutzung von IBM WebSphere Development Studio Client (WDSC). Anbindung der Authentifizierung/Autorisierung an RACF mit DB2 auf Host-Seite. Konzeption/Entwicklung von Tracing/Logging/Monitoring/Fehler-Diagnose-Tools f�r Entwicklung und Betrieb. Konzeption/Entwicklung einer Persistierungsschicht mit HyperJAXB sowie TraceTool gegen XML-Dateien, Datenbanken, Textdump und bin�re Datenstrukturen. Entwicklung einer Java-Cobol-Integrationsschicht f�r die IBM-Server auf Basis von jt400/jtopen mit Programcallbeans (Java->Cobol) unter Nutzung von PCML und Cobol Copystrukturen. Muster-Implementierung als Vorlage f�r Code-Generierung. Hilfe bei der Integration in Web-Client-Komponenten auf Basis von Spring und JSF (RichFaces und PrimeFaces). Hilfe bei der Migration der neuen WebService-basierten Aufrufe in das bestehende internationale Bausparkassen-Paket. Konzeption weiterer ESB-basierter Kommunikationsstrukturen in Form von WebServices/JMS (Definition der Schnittstellen und Datenformate) f�r die gesamte in Backend/Frontend ben�tigte Funktionalit�t. Definition von Datenmappings/ETL mit WebSphere Transformation Extender bzw. Talend Open Studio. Erstellen von Vorlagen f�r die Codegenerierung mit open Archictectureware (OAW). Unterst�tzung von UML, annotierten Java-Klassen, WSDL/XSD sowie von XMI als Masterformate. Hilfestellung bei der Integration in das Code-Generierungs-Systems auf Basis von OAW: Entwicklung von Templates und Anpassungen f�r die Generierung aller f�r Clients und Server n�tigen Artefakte (Cobol, Java, PCML). Einbindung von WebService-Client und Server-Funktionalit�t in das JBoss-System f�r SAP DMS (Document Management System) und SAP Data Mining/Business Intelligence (SAP BI) unter Nutzung einer SAP NetWeaver-Schnittstelle (SAP NetWeaver Development Infrastructure, NWDS). Konzeption und Entwicklung des gesamten Applikations-Stacks unter Nutzung von JBoss RichFaces, Hibernate mit Criteria API, EJB, named Queries, HQL, EJB-Stack f�r Services (EJBs), DTOs, DAOs, Entities/POJOs, Konzeption der HQL-Queries sowie der JavaScript-basierten AJAX-Funktionalit�t mit Ajax4jsf. Dokumentation, Einarbeitung/Schulung der Kollegen.

Produkte

Apache CXF AXIS2 log4j dom4j RichFaces Ajax4JSF Libraries/Frameworks:RegExp JAX-WS JAXB Eclipse IBM WebSphere Rational Tools javadoc Subversion Talend Open Studio Lotus Notes 7 JBoss JSF RichFaces Ajax4JSF XML XSLT WS REST

Kenntnisse

Java iSeries/POWER6-Systeme AS/400 Win32 Unix AIX Linux z/OS CICS RACF DB2 RMF SMF IMS DB2 JCL WebSphere Oracle SAP NetWeaver Development Infrastructure SAP BI SAP DMS

Kunde

Schw�bisch-Hall/Kreditwerk, Marktf�hrer Deutschland/Osteuropa

Einsatzort

Schw�bisch Hall

Aus- und Weiterbildung

6 Jahre 5 Monate

1992-10 - 1999-02

Informatik, Nebenfach Nachrichtentechnik, Elektrotechnik (�hnlich Dipl.-Ing.)

Diplom-Informatiker (Dipl.-Inf./Dipl.-Inform.), Uni/TU Kaiserslautern

Abschluss

Diplom-Informatiker (Dipl.-Inf./Dipl.-Inform.)

Institution, Ort

Uni/TU Kaiserslautern

Schwerpunkt

Software Engineering
Datenbanken
Betriebswirtschaft
Computergrafik/CAD, Nachrichtentechnik (ISDN, GSM, UMTS)
Robotik
Datenkompression
Künstliche Intelligenz
Computerlinguistik
Thema: Gerne auf Anfrage

Ergänzungsstudiengänge parallel zum Studium: Business/Technisches Englisch und Französisch (je 4h/Woche über 2 Jahre), BWL/ Existenzgründertraining.

1978-1982

Institution: Grundschule

�

1982-1991

Institution: Gymnasium

Ausbildung: mehrmonatige Sch�leraustausche mit Frankreich & Kanada

Abschluss: Abitur

�

1994-1996

15-monatiges Existenzgr�ndertraining an der Uni KaiserslauternIn dessen Rahmen Nebenfach Wirtschaftswissenschaften (zus�tzlich & freiwillig; alle Pr�fungen durchgef�hrt und bestanden)
Erg�nzungsstudium Technisches Englisch (2 Jahre)
Erg�nzungsstudium Technisches Franz�sisch (2 Jahre)

�

1992 ? 1998:

Ausbildung: Studium

Schwerpunkte:

Abgeschlossenes Studium mit KI- und NLP-Schwerpunkt am DFKI (Dt. Forschungszentrum f�r K�nstliche Intelligenz, einzige Dt. KI-Spitzenorganisation und gr��tes KI-Forschungszentrum der Welt, TU Kaiserslautern + Saarbr�cken), Semantische Suche, NLP, B�roautomatisierung (OCR + ICR), Information Retrieval, KDD (Knowledge Discovery in Databases), BI.
Key Skills:
- NLP-Parsing mit formellen Grammatiken wie HPSG-, LFG-, Chart-Parsern, generatives Lexikon, MRS (Minimal-Recursion Semantics), Expertensysteme, Constraints, KI-Planungssysteme/Workflow-Management-Systeme (WMS), Business Intelligence (BI) mit relationalen und objektorientierten DBs, B�roautomatisierung (OCR + ICR), KDD (Knowledge Discovery in Databases).
Arbeiten:
Diplomarbeit/DFKI + Startup:
- Gerne auf Anfrage
DFKI (Dt. Forschungszentrum f�r KI), Projektarbeit: Statistische OCR-Postprocessing und Fehler-Reduktionskomponente auf Basis von Content-, (Gesch�ftsbrief-)Struktur-, Lage- und Segmentierungs-Daten f�r ICR (Intelligent Content Recognition) mit Student- und Gau�-Verteilung. Dies wurde von der DFKI-Ausgr�ndung Insiders-Technologies in deren kommerzielle Produkte eingebaut.
DS-Ansatz:
- Nach-Klassifizierung von erkannten Zeichen nach OCR z.B. aufgrund der vertikalen Lage der Zeichen (z.B. die Unterscheidung zwischen o/O, i/I/l, j/J,, etc.): Bestimmung der unteren, der Basis-, der oberen und der obersten Begrenzungs-Linie unter der Annahme einer Gau�-Verteilung und Berechnung / Suche nach der optimale Trennlinie zwischen diesen Linien per Cluster-Analyse, durch die Minimierung des Integrals, d.h. der Fl�che unter den Gau�-Kurven, die den falschen Linien zugeordnet sind. Alle Linien werden aus Clustern von Punkten berechnet. Gesamt: Minimax Ansatz: Minimierung der Worst-Case-Wahrscheinlichkeit (maximal) der Fehlklassifikation der zuk�nftigen Datenpunkte in Bezug auf die Dokumenten-Segmentierung; Erhalten eines minimaler Spannbaum-Segmentierung mit optimaler hybrid gewichteter Punktzahl/Score f�r die Dokumenten-Segmentierung.
DFKI, Seminararbeit: Nichtlineare Planer, Score-Berechnung f�r Situationen und heuristische/statistische Strategien (Hill Climbing, Simulated Annealing, Dynamic Programming, etc.).
DS-Ansatz:
- Hill Climbing, Simulated Annealing, Dynamische Programmierung, etc. und wann welches Verfahren zu verwenden ist.
Themen meines KI/NLP-Studiums:
- Konnektionismus/Neuronale Netzwerke (CNN, Perzeptron, Kohonen-Karten,...), Einschr�nkungen/Constraints, Expertensysteme, Computerlinguistik/NLP (HPSG, LFG, MRS, Syntax, Semantik, Pragmatik, generatives Lexikon, lexikalische Regeln, Chart Parsing), Ontologien, Rahmenlogik/Frame Logic, DAML+OIL, Information Retrieval, semantische Suche, phonetische Suche, Spracherkennung (gehalten durch IBM ViaVoice Forscher), Planung, intelligentes Konfigurationsmanagement (mit Constraints), Robotik, Computer Vision, intelligentes Workflow-Management (mit Constraints), deduktive Logik, induktive Logik, deduktive/induktive/semantische Datenbanken, fallbasierte Logik, visuelle Krebserkennung mit CNN/RNNN/Kohonen-Karten, Statistik/stochastische/�hnlichkeitsma�e, Aktivierungsfunktionen, Wissensrepr�sentation und Inferenz (Schlu�folgerungen ziehen).

Position

Big Data, Computer Vision, Data Science, IT-Sicherheit

Kompetenzen

Top-Skills

K�nstliche Intelligenz Deep Learning IT-Sicherheitsarchitektur GDPR DSGVO Sicherheitskonzept SOC SIEM Big Data IT Architektur Enterprise Applications Machine Learning Robotic-Process-Automation Produktdesign Projektmanagement Projektleitung

Schwerpunkte

Airflow

Aufgabenbereiche

MS Project

Produkte / Standards / Erfahrungen / Methoden

ActiveMQ

AES-GCM

Ajax4JSF

Apache

Apache Cordova/PhoneGap

Apache CXF

Apache CXF WebServices

Apache Tika

Avro

AXIS2

Axon Ivy

Backbone.js

bcrypt

Bex Analyzer

BizTalk

boost Library

bower

BPM

Brocade Data Center Fabric Manager

Caching

Camunda BPM

CAN-Bus

Cascading

CasperJS

Chef

Chukwa

Cloudera Hadoop

COBIT

Cognos

Conduct>It (CC)

CRL

Crunch

Crystal Clear

CSS3

CXF

DataFrames

Debugging

Deeplearning4j

depend

DER

Diffie-Hellman

DiffieHellmann

DKIM

DLIES

DMARC

DNSCurve

DNSSEC

Docker

Dojo mobile

dom4j

Domain-Driven Design

Drools

DSA

DTD

EAI

ECDSA

ECIES

Eclipse

Egg packaging

Elasticsearch

ELK-Stack

ELKI

Elliptical Curve

Ember.js

Enterprise Architect

Entwicklung/Konzeption unter Windows

Error Handling

Exasol DB

Express>It (BRE)

FHMQV-C

G10-Schnittstelle

Ganglia

gerrit

git

Google Analytics

Gora

gradle

Grafana

Greasemonkey

grunt

gSOAP

HAWQ

HDFS

Hibernate

Hive

HP ArcSight Tools

HTML5

http(S)

IBM Appscan

IBM Integration Broker

IBM Integration Bus

IBM Migrationstools

IBM QRadar SIEM

IBM SPSS

IBM Tivoli mit TADDM

Icinga System Management

IDEA

Identity Manager / Access Manager

Intel E-Mail Protection / Server Security Suite

Intel/McAfee Web Gateway 7.x

IntelliJ IDEA

Ionic Framework / Lab / ngCordova

IPSec

iSeries/POWER6-Systeme

IT Security

ITIL

Jackson

Jama Contour

James

Java/JavaScript

JBoss

JBoss EAP/AS

jBPM

JMRTD

jQuery mobile

Kafka

Kanban

Kendo-Framework

KNIME

Konfig.-Serialisierung

KTM

Kubernetes

LDAP

LDAP-Anbindung

LIBSVM

Liquibase

LMTP

Lo-Dash

log4j

Logging

Logging-/Tracing-Framework

Lucene

Mahout

maven

McAfee Embedded Control

Microsoft .NET Framework 4.5

Microsoft Biztalk

MicroStrategy

MOA

MS Azure

MS Excel

MS Office

MS Outlook

MS PowerPoint

MS RegExp

MS Visio

MS Visual Studio

MS Visual Studio 2013 mit C#

MS Visual Studio und C++

MS Word

mustache

NACL

NFSv3

NFSv4

Node.js

npm

Nutch

NW.js

OBD-II

OCSP

OOA

OOD

OOP

Oozie

OpenText MBPM

Oracle 11gR2 mit RAC

Oracle Glassfish

Oracle JDK 6/7

Oracle OpenDS

ORC

Oryx 2

Parquet

Partitioning

PBKDF2

PhantomJS

Pig

Pivotal-Tools Geode

PKI

Produktionsumgebung unter Linux

Puppet

QlikView

Qualcomm QPST

Qualcomm Tools QxDM

Qualcomm-Tools

Rancher

RDDs

Red Hat OpenShift

Redis

RegExp

RESTful Webservices

RichFaces

Risk-Based Testing

RMF

RocksDB

RSA

RUP/EUP

S/MIME

SAP BI

SAP BO (Business Objects Business Intelligence)

SAP BW (Business information Warehouse)

SAP DMS

SAP HANA

SAP NetWeaver Development Infrastructure

SAP PowerDesigner

Scrum

Scrumk

scrypt

Seam

Security/IAM/ISMS

SHA-2

SHA-2 Hashing

SHA-3

SharePoint

Sigar

slf4j/logback

Slimer.js

SMF

SOA

SOAP

Solr

Spark / Spark Streaming

Spark mit Streaming und MLlib

Spark SQL

Spark Streaming

SparkR/SparklyR

Sparx Enterprise Architect

Sqoop1/2

Squid

SSL

Storm

Subversion/SVN

T-Systems ImageMaster

Tachyon

Teradata QueryGrid/TDCH

Testing

Tez

TFS

TLS

Tracing

Trident

TrueCopy

TypeScript

UML/UML2

Versions-/ Konfigurations-Management

Versions-Management

Visio

VMware

WADL

WebServices

WebSphere

Weka

Windows Embedded

WS-* Standards

WSDL

X.509v3 mit Extended Usages

XML

XML Schema

XML/XML Schema (XSD)/XSLT

XPath

XQuery

XSD

XSLT

zanox

ZFS

Zookeeper

Profil:

Eigene haftungsbegrenzte Firma (mit 2 Partnern), damit kein Risiko der Scheinselbst�ndigkeit.
Weltweit einsetzbar; Wegen meiner Familie ziehe ich nicht zu den Kunden um, sondern reise jeweils montags an und donnerstags/freitags ab per Zug/Auto/Flugzeug und ben�tige daher etwa 125 Euro/h zzgl. Reisekosten + 50% der Reisezeit als Stundensatz. Ich kann auch etwa 135 Euro/h all-exclusive anbieten und dann im Zug/Flugzeug f�r den Kunden arbeiten. Ein anderer Weg f�r den Endkunden, Geld zu sparen, besteht darin, dass sie ihre Unternehmens-Rabatte bzgl. Z�gen / Fl�gen / Hotels an mich weitergeben (so muss ich weniger auf den Stundensatz aufschlagen). Ich wohne nahe 2 Flugh�fen (Karlsruhe/Stra�burg), 2 Autobahnen und 2 schnellen Zugstrecken (ICE, franz�s. TGV). Weiterhin arbeite ich bei Vor-Ort-Eins�tzen Di-Do lieber 10 Stunden pro Tag bei entsprechender Bezahlung der Mehrarbeit.

Wehrdienst:

1991-1992:

Grundwehrdienst: Elektronische Kampff�hrung / Fernmeldetechnik

Beruflicher Werdegang:

2010 - heute:

Aufgaben:

Fast 30 Jahre KI-Erfahrung (K�nstliche Intelligenz/AI ? Artificial Intelligence):
Deep Learning, Data Science, Big Data
Key Skills: Deep Learning (CNN, RNN, TensorFlow, PyTorch, etc.), Deep NLP (Natural Language Processing: BERT, ULM-FiT, ELMo, Transfer Learning, OpenNMT, OpenAI Transformer, AllenNLP, Stanford CoreNLP), Data Science (Apache Spark MlLib, Mahout, R, spaCy, Anaconda), hybride Modelle (vorgegebene Strukturen + neuronale Netze + Gewichte/Stochastik, z.B. LSTM (Long Short-Term Memory), GRU (Gated Recurrent Units), Attention, Feast AI), PMML, ONNX, OpenScoring.io, Speicherung von Deep Learning Zwischenst�nden + Modellen, Wissensrepr�sentation und Inferenz (Schlu�folgerungen ziehen), Semantik, Virtualisierung, Management mit Docker, Kubernetes, Airflow, etc.
KI-Projekte:
- DXC f�r Daimler + BMW, Autonomous Driving Programm, 2018-heute: Deep Learning f�r selbstfahrende Autos: Logisch/zeitlich konsistente virtuelle 3D-Stadtgenerierung, Deep Labelling f�r semantische Bildsegmentierung mit Keras/TensorFlow, Design Patterns f�r Deep Learning Architekturen, DeepMind (Kapitan, Scalable Agent, Learning to Learn, TF Reinforcement Learning Agents), Horovod (verteilte Trainingslibrary f�r TensorFlow, Keras, PyTorch), Sparse Blocks Network (SBNet, TensorFlow Algorithmus), Google Dopamine Reinforcement Learning Framework auf Basis von TensorFlow, OpenAI GPT-2, Facebook XLM + PyText, Google BERT.
- HSBC Trinkaus & Burkhard AG: Gr��te Europ�ische Bank, World's Best Bank 2017 nach EuroMoney, 12/2017 ? 11/2018: Security- und SOC-Architekt (Security Operations Center), SOC der 5. Generation: Erweiterung der SOC-Features um KI und Data Science: Ca. 60 kommerzielle Security-Tools. Data Science/KI zur Erkennung von Sicherheitsvorf�llen: Neuronale Netze/Deep Learning, Reinforcement Learning, Zeitreihenanalyse, Anomalie-Erkennung, Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist (Erweiterung von Quinlan?s M5 model tree), Apriori-Analyse, �berwachte Klassifizierung, Link-Analyse-Netzwerke.
- Schwarz-Gruppe (Lidl & Kaufland): Machine-Learning zum Einkaufsverhalten der Kunden: Wirkungsanalyse & Optimierung von Marketingaktionen, Optimierung der Supply-Chain: Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist.
- Avira, 2017: Machine-Learning zur Optimierung der Konversionsraten von Freemium zu Paid, Abh�ngigkeitsanalysen auch zur Optimierung der Boot-Zeiten.
- BNP Paribas Personal Investors, 2017: Consorsbank + DAB, World's Best Bank 2016 nach EuroMoney: Konzeption eines Customer Intelligence (CI) Systems mit CDP (Customer Data Platform) und MAP (Marketing Automation Platform) f�r Hadoop/Spark: Kunden-Segmentierung z.B. nach Personas mit KNIME, Chatbot mit IBM Watson und Open Source DLNLP Tools; DynaMine, Gradient Boosting (XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, GBM(Gradient Boosting Machine)/MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC.
- Credit Suisse, 2017: Business Transaction Store zur Analyse jeglicher Finanz-Transaktionen: Rekonstruktion aller Transaktionsb�ume mit allen Zweigen, Zeitreihenanalyse, Anomalie-Erkennung, Multi-Level-Methoden (Transaktion / Konto / Kaufmann / Konzern), Berechnung eines Verdachts-Scores, sonstige klassische und mehrstufige Verfahren zur Betrugserkennung.
- Cisco Systems mit AOK als Endkunde, 2016-2017: Microservice Blueprints f�r Data Science Anwendungen wie Maximierung des Erfolgs von Gesundheits-F�rderprogrammen.
- GE (General Electric), 2016: Digital Windfarm Projekt: Make vs Buy vs Improve Analysen mit Machine Learning und ca. 50 Einfluss-Faktoren.
- Deloitte Consulting f�r Daimler Financial Services (DFS), 2016: Erstellung einer Architektur f�r ein Corporate Memory, insbesondere die m�glichst schnelle Erkennung von negativen Bonit�tsver�nderungen, Vertrags-/Kundenanalyse, Credit Risk, Fraud Prevention mit Machine Learning).
- GfK Marktforschungsunternehmen, 2015: BI-Analysen; Werbe-Effizienz-Analysen, Trend- und Sale-Erkennung, Produkt-Lebenszyklus-Erkennung, Konsequenzen von Branding vs. White-Label-Verkauf.
- KPT/CPT Krankenversicherung, Schweiz, 2015: Analyse der medizin. Leistungsdaten und daraus Ableitung von Frageb�gen und Aufschl�gen f�r Vorerkrankungen und Analyse/Optimierung der Marketing-Aufwendungen, Betrugserkennung z.B. bzgl. der Beg�nstigten und der Korrektheit der zu erstattenden medizinischen Rechnungen.
- Smartclip, Cross-Platform-Video-Werbung (Teil der Mediengruppe RTL, Teil von Bertelsmann), 2015: Vorschl�ge erstellt f�r Auswertungen im Data Science Bereich f�r das Targeting, das zielgruppen-abh�ngige Schalten von Online-/Internet-Video-Clips; Integration mit DMPs / DSPs, semantische / NLP Analyse der Website-Inhalte und die damit verbundenen Interessen; eine Mischung aus Hauptkomponentenanalyse.
- Havas Media Gruppe (Medienagentur Nr. 7 in Europa) in Kooperation mit TheAdex, 2015: a) Semantic Ad Targeting mit Real-time DMP, b) Betrugserkennung in Web-Werbungs-Tags /-Pixels; c) Analyse der Kunden-Reisen (Customer Journey) durch Web-Sites / in der verf�gbaren Historie durch Graphen, semantische / NLP Analyse der Website-Inhalte und der damit verbundenen Interessen.
- Siemens Corporate Technology/Healthineers (ex: Healthcare) IT, 2014-2015: Konzeption einer vorausschauenden Instandhaltungs-L�sung (Predictive Maintenance) f�r die Siemens-Medizinprodukte: GMM (Gaussian Mixture Models); �berwachtes Lernen / Supervised Machine Learning, Association Rule Learning.
- Dermalog / FingerPayment, 2014: Bek�mpfung von hunderten Angriffen mit zugeordneten Wahrscheinlichkeiten und Schadens-Erwartungswerten wie Identit�tsklau, Man-in-the-Middle, Timing-, Bit-Manipulations- und Seitenkanalattacken durch hunderte priorisierte Gegenma�nahmen basierend auf ihrem probabilistisch exakt berechneten Kosten-Nutzen-Verh�ltnis, beispielsweise Verschl�sselung, Signierung, sicherer Schl�sselaustausch,etc.
- Allianz, 2014: Intelligente Data Center Migrationen mit Millionen von Abh�ngigkeiten ohne Betriebsunterbrechung.
- Klingel / KMO-Gruppe: 2014-2015: Verbesserung der Erkennung von betr�gerischen F�llen; Erstellung von Vorschl�gen f�r Cross- und Up-Selling; Erweiterung der Analyse zur Optimierung der Online-Werbe-Ausgaben; Betrugserkennung.
- BG-Phoenics (IT-Tochter der Dt. gesetzl. Unfallversicherungen (DGUV)/Berufsgenossenschaften), 2013: Vorschlagen von Textbausteinen zur rechtssicheren Erstellung von berufsgenossenschaftlichen Bescheiden und der rechtssicheren Beantwortung von Briefen auf Basis von OCR + ICR (Optical Character Recognition + Intelligent Content Recognition).
- Gematik (deutsche elektronische Gesundheitskarte und ihrer Infrastruktur): 2012 & 2013: Konzeption eines Statistik-Moduls zur Identifizierung verschiedener Arten von Angriffen / Betrug mit der Gesundheitskarte oder auf dem Konnektor oder der Backend-Infrastruktur, Anomalie-Erkennung.
- Parfumdreams.de (Akzente Parfums), von 2012 bis 2013: Konzeption und Implementierung der Erkennung von betr�gerischen Kunden, Bankkonten, Adressdaten, nicht passender Namen oder Schreibweisen und verschiedenes verd�chtiges Verhalten; Erstellung von Vorschl�ge f�r Cross- und Up-Selling; Betrugserkennung.
- Lloyds Banking Group / Heidelberger Leben, 2010-2011: Betrugserkennung / AML (Anti Money Laundering) / KYC (Know Your Customer) in Bezug auf Zahler, Beg�nstigte, Anschriften, Organisationen, Zeitintervalle z.B. der zus�tzlich gezahlten Pr�mien und zu zahlender Betr�ge; Datenaustausch �ber problematische oder betrugs-verd�chtige Kunden mit anderen (Lebens-)Versicherungen, Machine-Learning auf dieser Basis.
- Deutsche Bundesdruckerei, 2010: Konzeption / Implementierung einer Softwarekomponente f�r die �berpr�fung der Echtheit der deutschen und internationalen P�sse / Personalausweise-Dokumente mit einer Sicherheitsmerkmalsextraktion, Bewertung und statistisches Scoring-Konzept, um Betrug / F�lschungen zu verhindern.

1999 ? heute:

Rolle: Unternehmensberater

Aufgaben:

Unternehmensberatung�
Architektur, IT-Security, Entwicklung und Projektmanagement gro�er IT- und Organisationsprojekte in der Finanzwirtschaft, Automobil-/Technologie- und Pharma-Branche.

Erfolge:

Architekt in den wohl 4 wichtigsten deutschen IT-Projekten der letzten Jahre: Elektronische Gesundheitskarte (Gematik), elektronischer neuer Personalausweis nPA (Bundesdruckerei), De-Mail (sichere vertrauliche E-Mail mit gesetzlicher Signaturfunktion und Gleichstellung zum eingeschriebenen Brief, Dt. Telekom) und das Mobile-Security-Projekt SIMKO der Bundesregierung.
8 erteilte Software-Patente im Security-Bereich (sichere unscheinbare Kommunikation/Textbasierte Wasserzeichen, z.B. f�r eBooks). Die Patente wurden in allen wichtigen Industriestaaten erteilt (USA, Kanada, Europa) und von IBM, Sybase, Amazon, Intel, Microsoft, Nuance, Fuji Xerox, AT&T, Certicom (wichtigster NSA-Crypto-Lieferant z.B. in der ?NSA Suite B Cryptography?) und vielen anderen als wichtiges Basispatent

Zwei CeBIT-Messehighlights im Security-Bereich (sichere unscheinbare Kommunikation/Textwasserzeichen, Integration der HBCI-Kartenfunktionalit�t als Software f�r die Geldkarte).
Jedes professionell finanzierte Projekt zum Erfolg gebracht.

1998 ? 2010:

Aufgaben:

Fr�he Berufst�tigkeit w�hrend der KI-Flaute: Semantic Search, Web Scraping und Inhaltsanalyse, unscheinbare sichere Kommunikation, Text-Wasserzeichen, Competitive Intelligence

Key Skills:

Stochastik-, Statistik- und Data-Science-Libraries, Semantic Web, semantische Suche mit Ontologien/Thesauri/strukturierten lexikalischen Daten mit stochastischen �hnlichkeitsma�en �ber Begriffe/Inhalte, OWL, DAML+OIL, NLP-Parsing mit formellen Grammatiken wie HPSG-, LFG-, Chart-Parsern, generatives Lexikon, MRS (Minimal-Recursion Semantics), Expertensysteme, Constraints, KI-Planungssysteme/Workflow-Management-Systeme (WMS), Data Mining, Business Intelligence (BI) mit relationalen und objektorientierten DBs, Helpdesk-Automatisierung, B�roautomatisierung (OCR + ICR: Z.B. Pr�fung von medizinischen Abrechnungen, Versicherungsf�llen, Vorschlagen von Textbausteinen zur Beantwortung von Briefen).

Projekte mit KI-Anteilen:

Deutsche Telekom / T-Systems, 2007-2008: Aufbau eines Tracking & Tracing-Systems f�r Inventar und verschickte Waren mit statistischer Analyse der verschickten / erhaltenen Warenmengen wenn sie mit LKW / Bahn / Flugzeuge verschickt werden, der Defekt-Quoten; Analyse aller Warenfl�sse in und aus ganzen Fabriken und Betrugserkennung auf dieser Grundlage.
Thales Gruppe / Thales Defence, 2001-2003: Data Science / Statistische Auswertung von Man�ver-Daten von Flugzeugen und Schiffen auf Treff- und Ortungsgenauigkeit sowie untergeordnet der Qualit�t von IT Komponenten und der menschlichen Befehle/Aktionen.
Fraunhofer IESE + Startup: Konzeption eines Semantic Search Systems basierend auf Ontologie-Distanz semantischer Konzepte sowie deren Umschreibungen.
DS-Ansatz:
- Berechnung der gewichteten Punktzahl aller individuellen Entscheidungen in jedem Textsegment gegen alle anderen Segmente mit �hnlichen semantischen Konzepten. Semantische Konzept-�hnlichkeit wird als gewichteter / Wahrscheinlichkeitspfad (Knoten und Kanten) in der WordNet-Ontologie berechnet. Erfordert Morphologie und (HPSG-)Parsing.
Fraunhofer IESE + Startup:
- Konzeption von teilweise vorgegebenen, teilweise selbstlernenden deep semantic Web/Text/Data Mining Algorithmen mit Extraktion aus Tabellen, Beschriftungen, etc. sowie entsprechender Lernalgorithmen basierend auf (HTML-)Strukturen und bereits bekanntem Wissen.
Data Science (DS)-Ansatz:
- Die Tiefe / DOM-Pfad-�hnlichkeit der HTML-Tags von Daten aus HTML-Tabellen extrahieren. Minimax-Ansatz: Das Minimieren der Worst-Case-Wahrscheinlichkeit (maximal) der Fehlklassifikation der Tabelleninhalte wird gelernt, Gewinnung einer minimaler-Spannbaum-Segmentierung mit optimal hybrid gewichteten Punktzahlen f�r Tabelleninhalte.
Fraunhofer IESE + Startup:
- Konzeption der Algorithmen/Wahrscheinlichkeitsformeln f�r die Berechnung der Wahrscheinlichkeit, dass ein Text plagiiert ist.
DS-Ansatz:
- Head-driven Phrase-Structure Grammar Parsing (HPSG) von Texten. Die Bestimmung der statistischen Verteilungen aller Kopf-Tochter-Selektionen, in denen mehrere M�glichkeiten bestehen, z.B. Gauss, Student, Bernoulli und andere Distributionen, Maximum-Likelihood-Sch�tzer. Berechnung der gewichteten Punktzahl aller individuellen Entscheidungen in jedem Textsegment gegen alle anderen Segmente mit �hnlichen semantischen Konzepten. Semantische Konzept-�hnlichkeit wird als gewichteter / Wahrscheinlichkeitspfad (Knoten und Kanten) in der WordNet-Ontologie berechnet. Erfordert Morphologie und (HPSG) Parsing.
Fraunhofer IESE + Startup:
- Extrahieren der statist. Charakteristika pers�nlicher Schreibstile aus Mustertexten und Anwenden dieser Schreibstile f�r Text Watermarking und Steganographie.
DS-Ansatz:
- Head-driven-Parsing (HPSG) von Texten mit Wahrscheinlichkeiten f�r die Kopf-Tochter Selektionen. Speichern f�r jeden Autor: a), in welchem grammatikalischen Konstrukt er welche Wort Stellungen / Paraphrasen bevorzugt und b) welche Synonyme er bevorzugt (H�ufigkeiten) aus den bekannten Synonym-S�tzen basierend auf Zusammenh�nge (HPSG Selektions- und Kontext-Constraints), Maximum-Likelihood-Sch�tzer.
Diplomarbeit/DFKI + Startup:
- Entwicklung von Lernalgorithmen f�r das Lernen und verlustlose Speichern diverser lexikalischer/grammatikalischer Daten (z.B. Synonyme/Umschreibungen/Unter-/�bergeordnete Begriffe, Konjugations-/Deklinations-/Flektionsschemata) aus Text-Korpora sowie anderen Lexika (z.B. LFG, HPSG, WordNet, Cyc). Im Rahmen der Diplomarbeit erfand ich auch eine generative semantische Analyse f�r zusammengesetzte W�rter (Komposita) und Pr�positionen, die Analyse der Bedeutung der Komposita durch jeweiliges Ableiten der Pr�positionen, die logisch die Teile des Kompositums verbinden k�nnen (f�hrte zu einem internationalen Konferenz-Papier (GAL) + Ver�ffentlichung im Wissenschaftsmagazin International Journal for Language Data Processing).
DS-Ansatz:
- Minimax Ansatz: Das Lernen der Minimierung der Worst-Case-Wahrscheinlichkeit (maximal) der Fehlklassifikation des k�nftigen lexikalischen Wissens, wodurch man eine minimale Spannbaum-Segmentierung erh�lt mit optimalen hybrid gewichtetem Score f�r die m�gliche Bedeutung aller Datenelemente.

Beratung:

Big Data / Hadoop und Data Science: Alle T�tigkeiten au�er Support und Administration (Cloudera, Hortonworks, IBM Big Insights, Microsoft Azure Integration HDInsight).
Business Intelligence (BI): Modellierung, SQL, Datenextraktion, Star- und Snowflake-Schema; alle g�ngigen Tools incl. IBM, Oracle, Teradata, Power BI.
Software-/System-/Infrastruktur-Architektur
IT Security
Projektmanagement und Testmanagement
Agile Coaching (Scrum, Kanban, Lean, DAD, SAFe, LeSS, Design Thinking), Schulungen (Sicherheit, Big Data, BI, KI)
Entwicklung und Umsetzung branchenspezifischer Gesch�ftsmodelle/Strategien (Markt, Produkte, Personal, Finanzen, Organisation, Vertrieb, IT)
Konzeption und Management komplexer Entwicklungs- und Ver�nderungsprojekte auf strategischer und operativer Ebene
Strategische/operative Entwicklung und Bewertung von IT- und Facharchitekturen
HTML5, Ajax, Node.js, viele Libraries.
Mobile Apps (Native, Cross-Platform, HTML5) f�r iOS, Android, Windows Phone.

�

Know-how:

Tiefes fachliches Know-how in Bank-Systemen/Versicherungs-Vertriebsportalen/Webportalen, in IT-Systemen im Backend (Zahlungen, Bestandsf�hrung, Pr�mienberechnung, Besteuerung), im Projektmanagement, Datenabgleich, Datenveredelung, IT-Sicherheit und Datenfl�ssen zwischen IT-Systemen
eCommerce, Bonus-Systeme, Kundenbindung/Digitale Werbung/Online-Communities
Gesch�ftsprozesse: Finanzwesen, Pharma, eHealth, Automotive, �ffentliche Hand, Transport, Energie, Verlage

�

Methoden und Verfahren:

OOA, OOD, Domain-Driven-Design, Code-Generierung, Reverse Engineering, Code Reading
Projektmanagementmethoden und -verfahren
Software-Entwicklungsverfahren: V-Modell, RUP, SE-Book, PM-Book, Scrum, Kanban, Lean, DAD, SAFe, LeSS, Design Thinking, XP, Crystal Prozesse, ITIL

�

Software/Werkzeuge:

MS Project, MS Office
Eclipse, Netbeans, MS Visual Studio
UML: Enterprise Architect, Together, RSA, Umbrello, Jude, Innovator
IT Security: Common Criteria, BSI Grundschutz, SIEM, mSIEM, SSH, SSL, VPN, L2TP, PPTP, Krypto-Algorithmen, Smartcards, Security Scanner & Penetration Testing/Hacking Tools.

Methoden und Verfahren:

Facharchitekturen, Softwarearchitekturen
Requirements Engineering
Security Engineering und Assessment
Objektorientierte Analyse & Design

�

Meine Erfahrung mit Serverless (Tools/Platforms):

Amazon AWS Lambda, AWS Step Functions
Microsoft Azure Functions
Google Cloud Platform (GCP), Cloud Functions/Datastore/Storage, Cloud Pub/Sub, Endpoints, gVisor, Apigee, Cloud Dataflow, BigQuery, Cloud ML Engine
Google App Engine
Google Kubernetes Engine (GKE), Serverless add-on
Serverless Functions for Docker/Kubernetes/Rancher
Fission.io by Platform9
Iron.io (pur kommerziell)
Knative (Kubernetes/Docker building, serving, eventing utilities)
OPNFV (Open Network Function Virtualization)
OpenStack, Kata Containers
Istio.io
Apache OpenWhisk (by IBM)
Nabla Containers (by IBM, only 9 system calls, best security and performance)
OpenShift

Gelegentlich, in freier Zeit zwischen Gro�projekten, abends/am Wochenende:

Erstellung von Architekturen (Big Data, Sicherheit, Mobile Apps) vom Homeoffice / abends im Hotel; verschafft mir nebenbei auch einen gro�en �berblick �ber aktuelle Real-World-Architekturen.

Smartclip
- Cross-Platform-Video-Werbung, Teil der Mediengruppe RTL, Teil von Bertelsmann, 2015: Performance-Optimierung eines Hadoop-Clusters f�r das Targeting, das zielgruppen-abh�ngige Schalten von Online-/Internet-Video-Clips (DMP/DSP mit Support f�r IAB-Standards wie VAST, VPAID, VMAP) und der Auswertung/Optimierung der Effizienz dieser Werbema�nahmen (Click-Through-Rate Optimierung (CTR)).
- DS-Ansatz: Integration mit DMPs / DSPs, wie durch TheADEX angeboten, semantische / NLP Analyse der Website-Inhalte und die damit verbundenen Interessen; eine Mischung aus Hauptkomponentenanalyse, N�chster-Nachbar-Methoden (Nearest Neighbor), Anomalieerkennung (beim Verlassen einer Website, beim Anklicken einer Anzeige, etc.), Maximum-Likelihood-Sch�tzer, Assoziationsanalyse, Echtzeit-Analysen (als Teil des Lambda-Architektur), vor allem f�r die Propagierung von Negativkriterien und das Matchen von Anzeigen zu den Nutzerinteressen.
- Vodafone, 2015
  - (Urlaubs-Vertretung wegen Unterbesetzung): API-Architektur und Konzeption von OAuth- und OpenId Connect basierenden Identity und Access Management L�sungen in der API-Factory bzw. dem New Integration Layer (NIL) auf Basis von Apigee f�r Ger�te-Diagnostik, Integrated Unified Communication, Connected Car, Migration der Endnutzer-Cloud-Daten, OneDevice, OneLine, OnePOS, Wallet, USSA, Integration von OpenStack-Komponenten/-Diensten.
  - Kiwigrid Dresden (Energie-Versorgungs- und Optimierungskonzepte), 2015: Workshops zu Hadoop mit HBase mit Coprocessors und Phoenix, HBase-Indizierungen, HBase als DataSource f�r Spark/Spark-Integration mit HBase, Spark, OpenTSDB, Resilient Distributed Datasets (RDD) in Spark, RegionSplitter f�r Mandanten-Daten, OpenVZ, Docker & Kubernetes f�r Hadoop, Management/Deployment mit Serf und Consul, Apache Slider, vert.x, SequenceIQ.Klingel-Gruppe / KMO (klingel.de/.at, mona.de, cornelia.ch, Wellsana, Wenz, Amara, Babista, Casserole, Diemer, Happy Size, Jungborn, Jan Vanderstorm, Vamos Veillon), 2014-2015: Architekt f�r JEE-Shopprojekte und WebSphere: Neu-Einf�hrung IBM IIB, Anpassung diverser Shop- und Warenwirtschafts-Backends an IBM IIB, Kundenverhalten-Analyse mit Hadoop, Hive und Mahout. Sicherheitsanalysen. Architektur zur Integration des Akka-Play-Stacks einer Tochterfirma. Vorbereitung und Durchf�hrung von Strategie-Workshops zu verschiedenen Java/Scala/Node.js-Entwicklungs-Stacks incl. OpenStack, Cloud Foundry, Kanban.
  - DS-Ansatz: Betrugserkennung: Klassisch und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt), z.B. schwarze Listen, Anschrift- und Bankdaten-�hnlichkeitsvergleich mit Scoring-Dienstleistungen, Anomalie-Erkennung; f�r diese und andere Zwecke auch eine Mischung aus Hauptkomponentenanalyse, N�chster-Nachbar (Nearest Neighbour) Methoden, neuronale Netze, Maximum-Likelihood-Sch�tzer, maschinelles Ranking-Lernen (Learning to Rank/Machine-learned Ranking), Empfehlungsalgorithmen (?Recommendation Algorithms?: Warenkorbanalyse (Market Basket Analysis, Affinity Analysis), Punkt-zu-Punkt Collaborative-Filtering Ansatz, Preisgestaltung und Verpackungs-Experimente mit A/B-Tests / Bandit-Algorithmen f�r die Verpackung und Preisgestaltung), dynamische Preisgestaltung (Benutzer-Ger�tetyp und dessen Leistungsst�rke, vermutete Dringlichkeit, Wettbewerbssituation, soziographische Benutzerdaten, vorherige A/B-Tests / Bandit-Algorithmen Erfahrung, ... ). Wichtige ber�cksichtigte Daten: Eine Zeitleiste/Zeitreihe mit: Ausgew�hlte Kategorien, Artikel �ber denen mit der Maus geschwebt wurde, Benutzer-Verweilzeiten, andere verwendete Ger�te, Wunschlisten, Direktmarketing-/Referrer-URL, Bewertungen in sozialen Netzwerken des Benutzers, demografische Informationen, Benutzer-Segmentierung, Klickpfade / User-Journey in der Sitzung, Kaufverhalten wie z.B. die Anzahl der angesehenen Artikel / Intensit�t des Vergleichens vor dem endg�ltigen Kauf; Aufhebung allgemeiner User-Optimizations f�r bestimmte Teilbereiche wie Elektronik, Kosmetik, etc. mit speziell dort relevanten User-Optimizations.
  - Trost SE:
  - Autoservice Fahrzeug-Teile-Gro�handel, 2014: IT Systemarchitektur analysiert und kurz-/mittelfristig optimiert, Big Data Ziel-Architektur mit Hadoop sowie Virtualisierungs-Konzept erstellt (MS Hadoop Integration); Scrum.
TecAlliance mit Fraunhofer IESE, 2016:
- Konzeption der Basisarchitektur f�r ein Connected Car System auf Basis von Big Data/IoT-Platformen, die ich dazu recherchiert habe.
- Parf�merie Douglas, 2016: Migration des Rechenzentrums/Erweiterung Quelltexte auf Kundenkarten-Anbingung/Absicherung des Online-Shops, implementiert in Java und Scala. Vorschlag von Big Data basierenden Kundenanalysen und Bandit-Tests (in Erg�nzung zu A/B-Tests). Abl�sung der Anbindung an SAP Hybris
- Visteon Electronics, 2016: Konzeption der Sicherheitsarchitektur der neuen Smartcore Cockpit Electronik-Systeme basierend auf Renesas-Hardware mit den Sicher-heitsdom�nen VIP (Vehicle Information Processor), DI (Driver Informa-tion) und IVI (In-Vehicle Infotainment) sowie Anbindung an Apple Car-Play und Android Auto (�ber Smartphones). Erstellen eines umfangrei-chen Sicherheitskonzeptes mit einem Common Criteria Toolkit und Ab-stimmung mit Daimler. Spezialanalysen bzgl. SELinux und Alternativen, (darunter AppArmor und grsecurity), DAB+, Bluetooth, CAN/LIN, IP Multimedia Subsystem (IMS), Security Coding Style Guides und Code Checker, Vulnerability Management, PKI, Secure Boot, Secure Updates. ISO 26262/ASIL-relevante Konzeptionen, Projektmanagement bzgl. Um-setzung, Pen Testing und Security Intelligence Konzept, Lieferantenbe-treuung und Entwickler-Betreuung.
- Tools/Libraries: SELinux, Embedded Linux, AUTOSAR, Integrity OS by GreenHillsSoft-ware, GNU Toolchain, IBM/Rational Toolchain (incl. DOORS and RTC ? Rational Team Concert), FileNET, Visio, Common Criteria Tool-kit/Verinice, Doors, Rhapsody, AppArmor, grsecurity, BSI Grundschutz Toolkit.
Bundesarchiv, 2014:
- Erstellung eines detaillierten 100-seitigen Angebots zu einer Hadoop-basierenden Such-Infrastruktur mit Apache Solr, Mongo DB oder Oracle DB.
- Ausw�rtiges Amt, 2014: Konzeption der SOA-Strategie als Berater des IT-Architekten incl. Hadoop, insbesondere zu den diversen Anwendungen, die die zentralen IT-Systeme des Ausw�rtigen Amtes ausmachen sowie deren sichere und effiziente Anbindung (Datensparsamkeit/Kompression, Latenz, Caching) an die vielen hundert Botschaften; Scrum.
- Parfumdreams.de (Akzente Parfums), von 2012 bis 2013: Konzeption und Implementierung der Erkennung von betr�gerischen Kunden, Bankkonten, Adressdaten, nicht passender Namen oder Schreibweisen und verschiedenes verd�chtiges Verhalten; Erstellung von Vorschl�ge f�r Cross- und Up-Selling; Benutzung von C++/C # mit MLPACK, Armadillo, Torch; Verwaltung und Austausch von Blacklists mit anderen E-Commerce Unternehmen. Zusammenstellen der Daten von mehreren Betr�gereien und Sicherheitsverletzungen f�r das Management und die Polizei/Staatsamwaltschaft.
- DS-Ansatz: Betrugserkennung: Klassisch und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt), z.B. schwarze Listen, Anschrift- und Bankdaten-�hnlichkeitsvergleich mit Scoring-Dienstleistungen, Anomalie-Erkennung; f�r diese und andere Zwecke auch eine Mischung aus Hauptkomponentenanalyse, N�chster-Nachbar (Nearest Neighbour) Methoden, neuronale Netze, Maximum-Likelihood-Sch�tzer, maschinelles Ranking-Lernen (Learning to Rank/Machine-learned Ranking), Empfehlungsalgorithmen (?Recommendation Algorithms?: Warenkorbanalyse (Market Basket Analysis, Affinity Analysis), Punkt-zu-Punkt Collaborative-Filtering Ansatz, Preisgestaltung und Verpackungs-Experimente mit A/B-Tests / Bandit-Algorithmen f�r die Verpackung und Preisgestaltung), dynamische Preisgestaltung (Benutzer-Ger�tetyp und dessen Leistungsst�rke, vermutete Dringlichkeit, Wettbewerbssituation, soziographische Benutzerdaten, vorherige A/B-Tests / Bandit-Algorithmen Erfahrung, ... ). Wichtige ber�cksichtigte Daten: Eine Zeitleiste/Zeitreihe mit: Ausgew�hlte Kategorien, Artikel �ber denen mit der Maus geschwebt wurde, Benutzer-Verweilzeiten, andere verwendete Ger�te, Wunschlisten, Direktmarketing-/Referrer-URL, Bewertungen in sozialen Netzwerken des Benutzers, demografische Informationen, Benutzer-Segmentierung, Klickpfade / User-Journey in der Sitzung, Kaufverhalten wie z.B. die Anzahl der angesehenen Artikel / Intensit�t des Vergleichens vor dem endg�ltigen Kauf; Aufhebung allgemeiner User-Optimizations f�r bestimmte Teilbereiche wie Elektronik, Kosmetik, etc. mit speziell dort relevanten User-Optimizations.

�

Meine Erfahrung mit Hadoop/Big Data/Data Science:

DXC f�r Daimler + BMW
- Autonomous Driving Programm, 11/2018-heute: Architekt und Technical Lead Meta Data Management (MDM) & Ingest: Virtualisierung/Containerisierung mit Kubernetes + Docker unter MapR; API-/Microservice-Konzeption; Deep Learning for Self-Driving Cars / Logically/temporally consistent virtual 3D city generation, Deep Labelling for Semantic Image Segmentation mit Keras/TensorFlow, Design Patterns for Deep Learning Architectures, DeepMind (Kapitan, Scalable Agent, Learning to Learn, TF Reinforcement Learning agents), Uber?s QALM (QoS Load Management), Horovod (distributed training framework for TensorFlow, Keras, PyTorch), AresDB (Uber?s GPU-powered real-time analytics engine), Uber?s Sparse Blocks Network (SBNet, TensorFlow algorithm), Google Dopamine reinforcement learning framework based on TensorFlow.
- DS-Ansatz (Data Science): TensorFlow f�r Bild-/Video-Analyse: Labeling und �berwachtes Lernen zur korrekten Klassifizierung, verteiltes Hyper-Parameter-Tuning mit TensorFlow, Keras. ML Debugging/Erkl�rbare KI im Kontext von LIME, SHAP, partielle Abh�ngigkeitsdiagramme[Modellleckagen, Entscheidungserkl�rungen in if-Anweisungen, ....]; Modellspeicherung in PMML mit OpenScoring.io und HBase/MapR-DB + Apache Phoenix, Tableau.
HSBC Trinkaus & Burkhard AG / HSBC Deutschland (gr��te Europ�ische Bank)
- World's Best Bank 2017 nach EuroMoney, 12/2017 ? 11/2018: Security-Architekt f�r die Erweiterung des SOC (Security Operations Center) mit QRadar und Security-Analyse-Use Cases im Kontext von Blockchain-Technologie (We.Trade auf R3/Corda f�r Zahlungen + Voltron auf HyperLedger f�r Handels-Dokumente + Utility Settlement Coin (USC)) und SAP, ca. 60 kommerzielle Security-Tools mit entsprechenden Outputs, die zu Alerts f�hrten, deren False-Positive-Zahl minimiert werden musste.
- DS-Ansatz: Eine Mischung aus Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze/Deep Learning, Reinforcement Learning, Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Maximum-Likelihood-Sch�tzer, Random Forest, Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist (Erweiterung von Quinlan?s M5 mo-del tree), C4.5, (Nicht)lineare Regression, Multiple Regression, Apriori-Analyse, �berwachte Klassifizierung, Link-Analyse-Netzwerke, Tableau.
Schwarz-Gruppe (Lidl & Kaufland)
- gr��ter Europ�ischer Handelskonzern: Online und offline, 2017: Konzeption f�r Plattform-, Umwelt- und Methoden-/Prozess-Setup f�r verschiedene Predictive Analytics Teilprojekte (insbesondere f�r Marketingeffekte und Supply-Chain-Prognosen hinsichtlich Bedarfsmengen/Preise etc.): Big Data Architekturberatung, Test-Management Konzept erstellt, Entwicklung plattform�bergreifender Verpackungs- und Versionierungskonzepte, Tools: f�r Python, R, Big Data (Spark, Hive, etc.), Teradata, SAP BW, SAP HANA, Ab Initio, Microstrategy, (Ana)Conda, Python, sbt.
- DS-Ansatz: Random Forest, Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist (Erweiterung von Quinlan?s M5 model tree), Zeitreihenanalyse, Assoziationsanalyse, (Non-)Linear Regression, Multiple Regression, Anomalie-Erkennung, Apriori-Analyse, Warenkorbanalyse, �berwachte Klassifizierung, Link-Analyse-Netzwerke, Maximum-Likelihood-Sch�tzer, klassische und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt).
Avira, 2017:
- Konzeption und Implementierung eines Big Data & Apache Spark Data-Flow-Instrumentation & Configuration Framework in Scala, Beratung bzgl. m�glichen Real-time Use-Cases, Data Science Algorithmen und Datenschutz Grundverordnung (EU-DSGVO).
- DS-Ansatz (Data Science): Random Forest, Gradient Boosting (XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, GBM(Gradient Boosting Machine)/MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Zeitreihenanalyse, Assoziationsanalyse, (Non-)Linear Regression, Zeitreihenanalyse, Anomalie-Erkennung, Apriori-Analyse, �berwachte Klassifizierung, Abh�ngigkeitsanalyse zur Optimierung der Boot-Zeiten, Maximum-Likelihood-Sch�tzer bzgl. Marketing-Ma�nahmen-Effizienz und Konvertierung vom Free-Antivirus-Nutzer zum zahlenden Kunden, Tableau.
Nordex Acciona (Pamplona, Hamburg, Rostock), 2017:
- Erstellung eines Migrationskonzeptes vom Acciona Big Data System zu einem integrierten Big Data System zur �berwachung von Windparks.
- BNP Paribas Personal Investors, 2017: Consorsbank + DAB, World's Best Bank 2016 nach EuroMoney: Konzeption eines Customer Intelligence (CI) Systems mit CDP (Customer Data Platform) und MAP (Marketing Automation Platform) f�r Hadoop/Spark als Baseline-Architektur, darauf basierend Begleiten einer Make-or-Buy-Entscheidung mit Analyse der L�sungen von IBM Interact, SAS, Pega, Oracle RTD, prudsys, Ensighten und Dymatrix, Teil der Performance Interactive Alliance (PIA). Beratung bzgl. m�glichen Real-time Use-Cases, Data Science Algorithmen und Datenschutz Grundverordnung (EU-DSGVO).
- DS-Ansatz (Data Science): Zeitreihenanalyse, Anomalie-Erkennung, Apriori-Analyse, �berwachte Klassifizierung,� Assoziationsanalyse, Maximum-Likelihood-Sch�tzer, Kunden-Segmentierungstechniken z.B. nach Personas mit KNIME, DynaMine, Gradient Boosting (XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, GBM(Gradient Boosting Machine)/MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Nichtlineare Regression, Random Forests, C4.5.
Credit Suisse, 2017:
- Konzeption eines Cloudera-Hadoop basierenden Business Transaction Stores mit einem kanonischen leistungsf�higen Datenformat (zum Speichern aller Details aller erwartbaren Transaktionen) mit verlustfreien Import- und Export-Filtern sowie Auswertungsfeatures in den Bereichen Aktien, Zinsinstrumenten, Derivaten, ETFs, Fonds (d.h. beliebige ?Securities? bzw. Wertpapiere), Berechnung von Bestands-, Kosten- und Risiko-Kennzahlen, �ber-sichten f�r?s Wealth Mangement sowie Steuern und Reporting und Vorbereitung der M�glichkeit des Heraustrennens der Funktionalit�ten einer Wertpapier-Transaktionsbank.
- DS-Ansatz (Data Science): Rekonstruktion aller Transaktionsb�ume mit allen Zweigen, Zeitreihenanalyse, Random Forest, Gradient Boosting (XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, GBM(Gradient Boosting Machine)/MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Zeitreihenanalyse, Assoziationsanalyse, (Non-)Linear Regression, Anomalie-Erkennung, �berwachte Klassifizierung, Multi-Level-Methoden (Transaktion / Konto / Kaufmann / Konzern), Link-Analyse-Netzwerke, Maximum-Likelihood-Sch�tzer, Berechnung eines Verdachts-Scores, sonstige klassische und mehrstufige Verfahren zur Betrugserkennung, Tableau.
Cisco Systems mit AOK als Endkunde, 2016-2017:
- Konzeption eines Microservice Blueprints mit Schnittstellen zu Big Data Systemen zwecks Datenaustausch und Data Science Anwendungen.
- GE (General Electric), 2016: Digital Windfarm Projekt: Konzeption einer ?on premise? und AWS Cloud Architektur f�r die effiziente massiv-parallele in-memory Berechnung der Dimensionierung von Windr�dern mit Spark mit MLlib, Alluxio sowie Erstellung einer Bottom-Up-Migrationsstrategie bestehender Quelltexte von Delphi nach Scala. Web-Benutzeroberfl�che mit Angular 2.1; Wirtschaftlichkeitsberechnung der Migration in MS Excel per Formeln, VBA nach einem neu-entwickelten nicht-linearen Keep-/Replace-/Modernization-Szenarien-Verfahren, das sich auf ca. 20 nicht-lineare Kosten-Nutzen-Verl�ufe von ca. 50 Einflussgr��en st�tzt, die separat modelliert wurden.
- Deloitte Consulting f�r Daimler Financial Services (DFS), 2016: Erstellung einer Architektur f�r ein Corporate Memory, insbesondere die m�glichst schnelle Erkennung von negativen Bonit�tsver�nderungen der eigenen Kreditnehmer bzw. Leasing-Kunden. D.h. wenn Kunden ihre Kredit- und Leasingraten kaum noch bezahlen k�nnen, soll dies m�glichst schnell gemeldet werden, um als Bank darauf reagieren zu k�nnen.
- Technisch: Konzeption eines effizienten Speicher-Formats f�r graph-basierte Datenbank-Strukturen und auch Vererbung f�r die Nutzung mit Spark/Hive und Gegen�berstellung mit anderen Speicherungsstrukturen bzgl. Performance und Nutzbarkeit f�r verschiedene Use Cases (Vertrags-/Kundenanalyse, Credit Risk, Fraud Prevention und Machine Learning). Umsetzung verschiedener Anwendungsf�lle mit Hive, Spark-SQL, Hive Makros und als Hive-Funktionen mit Java / Scala und Messung / Vergleich der Performance: Zugriff auf Datendateien (ORC / Parkett / CSV) mit Scala und Import / Export in HBase, Hive, Cassandra, Scylla DB und dann in SAP Bank Analyzer. Konzeption einer Corporate-Memory-Architektur mit XML / JSON / Avro als Austauschformate und interne Hybrid-Informationsdarstellung mit relationalen und Graphen-basierten Strukturen gesteuert durch eine Management-Komponente. Konzeption der Datenbereinigung, Ausrei�erelimination und grundlegende Kreditw�rdigkeit-Sch�tzalgorithmen. Recherche und Bewertung von Technologien / Tools f�r Data Ingestion, ETL, intelligente Datenverarbeitung, MR- / YARN Frameworks und XML-Verarbeitungstechnologien wie Hive / HBase + Avro, Talend, Pentaho, RHadoop, Informatica, SAS, H2O, KNIME, Tableau, SAP Business Objects, Splout SQL, Falcon, FiloDB, Hortonworks DataFlow (HDF) / Apache Nifi, StreamSets, Flume / Kafka / Flafka, Chukwa, LinkedIn Camus / Goblin, Rapidminer, Intelligent Miner, Datameer, Apache Drill + Arrow, Tableau.
- Weitere Bibliotheken / Tools: Hortonworks Hadoop, Spark mit SQL / DataFrames / RDDs / Caching, Hive, Java, Scala, ORC- / Parquet-Dateien, Cloudera-Exhibit, Cascading, Crunch, Twill, REEF.
- Hadoop Sicherheitsstrategie konzipiert mit Kerberos, LDAP / Active Directory, Apache Knox (REST API Gateway, SSO / LDAP), Ranger (Berechtigungs-, �berwachungs- und Sicherheitsmanagement), Apache Sentry/Shiro (feink�rnige rollenbasierte Berechtigung), Apache Falcon, Apache-Atlas (Data Governance).
- DS-Ansatz: Eine Mischung aus Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze/Deep Learning, Reinforcement Learning, Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Maximum-Likelihood-Sch�tzer, ...
GfK Marktforschungsunternehmen, 2015:
- Anwendungs-Architektur der zentralen Daten-Aggregations- und Auswertungs-Komponenten der GfK als neues System ?pace? (Nachfolger von StarTrack) zur Erstellung von Panel-Produkten zun�chst f�r die Distributor-M�rkte, d.h. die weltweiten Gro�- und Einzelhandelsm�rkte. Erstellung der Building Blocks (Komponenten) bis hin zu den Klassendiagrammen + Code-Generierung. Konzepte erstellt f�r bitemporale Versionierung und Verarbeitung der Daten, Differenz-Verarbeitung, optimiertes In-Memory Processing/Caching/Minimierung von Save-Load-Zyklen, flexibles Management und Laufzeit-Erweiterbarkeit von dynamischen Typen und Klassen, Umgang mit Streaming-Daten, deren Vereinheitlichung/Pr�fung/Korrektur/Anonymisierung, Speicherung und h�ufigen Aktualisierungen von Zuordnungen wie Key-Code-Assignments, Umgang mit komplexen n-dimensionalen Datenr�umen, BI-Analysen (Star-/Snowflake-Schema) auf einer Vielzahl heterogener interner und externer Datenquellen und Referenz-Datenbanken. Ber�cksichtigung neuer Use Cases wie Werbe-Effizienz-Analyse, Trend- und Sale-Erkennung, Produkt-Lebenszyklus-Erkennung, Konsequenzen von Branding vs. White-Label-Verkauf, Anbindung von Data Science Schnittstellen/Tools. Realisierung mit Cloudera Hadoop, Spark mit Streaming, MLlib, Oryx 2, RDDs, Spark SQL + DataFrames + Caching, HBase, RocksDB, Oozie, Alluxio (ex: Tachyon), HDFS, Docker, git, gerrit, gradle, IntelliJ IDEA, Sparx Enterprise Architect, Konfig.-Serialisierung mit Jackson, Java-Entwicklung, UI: HTML5 + Angular + Kendo-Framework; einheitliches Logging-/Tracing-Framework in Java/JavaScript mit ELK-Stack (Elasticsearch, Logstash, Kibana) + Redis, ActiveMQ, Icinga System Management, BI mit Cognos + Exasol DB, Monitoring mit Grafana, BPM mit Axon Ivy, externe Services mit Jboss + MySQL/Percona + Hibernate, LDAP-Anbindung; Evaluierung von Alternativen mit Storm + Trident + Clojure DSL, Flink, Cascading auf Basis von Tez, Crunch + HBase, Pivotal-Tools Geode + HAWQ, Tableau.
- DS-Ansatz: Eine Mischung aus aus Stetigkeiten, Verteilungen mit Mittelwerten und Standardabweichungen (zur Fehler-Erkennung), Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze/Deep Learning, Reinforcement Learning, Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Maximum-Likelihood-Sch�tzer
KPT/CPT Krankenversicherung, Schweiz, 2015:
- Big Data / Data Science / BI Architekturkonzept zur a) Analyse der medizin. Leistungsdaten und daraus Ableitung von Frageb�gen und Aufschl�gen f�r Vorerkrankungen und b) Analyse/Optimierung der Marketing-Aufwendungen mit Mahout, WEKA/MOA, Geode mit MADlib (Machine Learning Lib mit UDF) und HAWQ, LIBSVM, Spark mit MLlib + Oryx 2, c) Betrugserkennung z.B. bzgl. der Beg�nstigten und der Korrektheit der zu erstattenden medizinischen Rechnungen.
- DS-Ansatz: Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Piwik und Google Analytics / Adwords-basierte Web-Site-Optimierung; klassische und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt)
  - Maximum-Likelihood-Sch�tzer.
  - Smartclip, Cross-Platform-Video-Werbung (Teil der Mediengruppe RTL, Teil von Bertelsmann), 2015: Performance-Optimierung eines Hadoop-Clusters sowie Vorschl�ge f�r Auswertungen im Data Science Bereich f�r das Targeting, das zielgruppen-abh�ngige Schalten von Online-/Internet-Video-Clips (DMP/DSP mit Support f�r IAB-Standards wie VAST, VPAID, VMAP) und der Auswertung/Optimierung der Effizienz dieser Werbema�nahmen (Click-Through-Rate Optimierung (CTR)).
  - DS-Ansatz: Integration mit DMPs / DSPs, wie durch TheADEX angeboten, semantische / NLP Analyse der Website-Inhalte und die damit verbundenen Interessen; eine Mischung aus Hauptkomponentenanalyse, N�chster-Nachbar-Methoden (Nearest Neighbor), Anomalieerkennung (beim Verlassen einer Website, beim Anklicken einer Anzeige, etc.), Maximum-Likelihood-Sch�tzer, Assoziationsanalyse, Echtzeit-Analysen (als Teil des Lambda-Architektur), vor allem f�r die Propagierung von Negativkriterien und das Matchen von Anzeigen zu den Nutzerinteressen.
- Kiwigrid, Dresden (Energie-Versorgungs- und Optimierungskonzepte), 2015:
  - Workshops zu Hadoop mit HBase mit Coprocessors und Phoenix, HBase-Indizierungen, HBase als DataSource f�r Spark/Spark-Integration mit HBase, Spark, OpenTSDB, Resilient Distributed Datasets (RDD) in Spark, RegionSplitter f�r Mandanten-Daten, OpenVZ, Docker & Kubernetes f�r Hadoop, Management/Deployment mit Serf, Consul und Terraform, Apache Slider, vert.x, SequenceIQ.
  - Havas Media Gruppe (Siebtgr��te Medienagentur Europas) in Kooperation mit TheAdex, 2015: a) Zielgerichtete Online- und Mobile-Werbung (Ad Targeting) durch Erstellung von Kundenprofilen, b) Betrugserkennung in Web-Werbungs-Tags /-Pixels und / oder betr�gerische Versuche, einen Teil der Pr�mie gutgeschrieben zu bekommen f�r einen erfolgreichen Verkauf durch f�lschlich behauptete sp�tere zu einem Kauf f�hrende Anzeige/Ad dem Benutzer angezeigt zu haben; c) Web Scraper konzipiert/entwickelt mit node.js, CasperJS, PhantomJS, Slimer.js und Greasemonkey als zus�tzlicher Input f�r die zielgerichtete Werbung (etwa Themen der Webseiten, Features von Produkten). Tools: Hadoop, Revolution R mit RHadoop/RHIPE/Shiny, SAS, H2O, KNIME, Talend Open Studio for Big Data, Spark, Intelligent Miner, WEKA/MOA, Giraph, Mahout, RapidMiner, Tableau, SploutSQL, Apache Kylin, Aerospike DB.
  - DS-Ansatz: Analyse der Kunden-Reise (Customer Journey) durch die Web-Sites / in der verf�gbaren Historie durch Graphen, semantische / NLP Analyse der Website-Inhalte und der damit verbundenen Interessen; eine Mischung aus Hauptkomponentenanalyse, n�chster Nachbar-Methoden, neuronale Netze/Deep Learning, Reinforcement Learning, Maximum-Likelihood-Sch�tzer, Zeitreihenanalyse, Anomalie-Erkennung (beim Verlassen einer Website, beim Anklicken einer Anzeige, etc.), Assoziationsanalyse, Echtzeit-Analysen (als Teil des Lambda-Architektur) vor allem f�r die Propagierung von Negativkriterien und das Matchen von Anzeigen/Ads zu den Nutzerinteressen.
- Siemens Corporate Technology/Healthineers (ex: Healthcare) IT, 2014-2015:
  - Konzeption einer vorausschauenden Instandhaltungs-L�sung (Predictive Maintenance/Vorausschauende Wartung) f�r die Siemens-Medizinprodukte wie CTs, MRTs usw. (IoT, Internet of Things) mit Logfile-Analyse, wurde sp�ter Teil von MindSphere: Hortonworks Hadoop, YARN, Pig + DataFu, Hive / HCatalog, Flume, Avro, Teradata QueryGrid, Sqoop1/2, Mahout, Giraph , Kafka, Amazon Kinesis, Storm mit Trident + Clojure DSL, Flink, Spark / Spark streaming, Cascading, Tez, Twill, Pangool, Crunch, REEF, Oozie, SequenceFile-/Parquet-/ORC-Dateiformate, LZO-, bzip2-, zlib-, Snappy-Kompression, Differential Privacy. Belieferte Statistik-Tools: Revolution R mit RHadoop/RHIPE/Shiny, SAS, H2O, KNIME, Talend Open Studio for Big Data, Intelligent Miner, WEKA/MOA, Giraph, Mahout, RapidMiner, Tableau, Pentaho Data Suite, ELK-Stack (Elasticsearch, Logstash, Kibana) + Redis.
  - DS-Ansatz: Eine Mischung aus Hauptkomponentenanalyse, N�chster-Nachbar-Methoden, neuronale Netze/Deep Learning, Reinforcement Learning, Zeitreihenanalyse / Prognose, Maximum-Likelihood-Sch�tzer: GMM (Gaussian Mixture Models); �berwachtes Lernen: Klassifikation und Regression (z.B. Ursache-Wirkungs-Analysen); Un�berwachtes Lernen: Affinit�ts-Analyse, FP-Wachstum (h�ufiges Muster-Wachstum), Association Rule Learning, vor allem f�r Ereignisse, die auf Ger�teausf�lle hinweisen - auch mit Entscheidungsb�umen, C4.5, CART. Merkmalsextraktion: Kernel-Methode / -Trick, FastMKS, (Kernel) Principal Component Analysis (PCA / KPCA), Independent Component Analysis (ICA) mit MLE (Maximum-Likelihood-Sch�tzung). Anomalie-Erkennung: Dichte-basierte Techniken (k-n�chste-Nachbarn, lokaler Ausrei�er (local outlier) Faktor und viele weitere Variationen dieses Konzepts), Ensemble-Techniken mit Feature Bagging, Score-Normalisierung und verschiedene Quellen von Diversit�t.
- Dermalog / FingerPayment [nur DS], 2014:
  - Entwicklung eines Sicherheitskonzept f�r die Vermeidung und Erkennung von Betrug an Bankautomaten bei der Verwendung von Fingerabdr�cken statt PINs, Konzeption eines sicheren Protokoll zwischen Fingerabdruck-Sensor, Geldautomaten und Bank-Backend.
  - DS-Ansatz: Bek�mpfung von hunderten Angriffen mit zugeordneten Wahrscheinlichkeiten und Schadens-Erwartungswerten wie Identit�tsklau, Man-in-the-Middle, Timing-, Bit-Manipulations- und Seitenkanalattacken durch hunderte priorisierte Gegenma�nahmen basierend auf ihrem probabilistisch exakt berechneten Kosten-Nutzen-Verh�ltnis, beispielsweise Verschl�sselung, Signierung, sicherer Schl�sselaustausch, etc.
- Allianz Versicherung �ber IBM, 2014:
  - Migrationskonzept erstellt f�r die Migration der Hadoop- und SAS-Cluster, zentralisierte vorausschauende Hadoop-basierte Bedrohungserkennung (Threat Intelligence).
  - Klingel / KMO-Gruppe (klingel.de und rund 40 andere Online-Shops), 2014-2015: Verbesserung der Erkennung von betr�gerischen F�llen; Erstellung von Vorschl�gen f�r Cross- und Up-Selling; Erweiterung der Analyse zur Optimierung der Online-Werbe-Ausgaben; Tools: Hadoop mit Mahout, WEKA / MOA, Geode mit Madlib (Machine Learning Lib mit UDF) und HAWQ, Spark mit MlLib und GraphX, PredictionIO, LIBSVM, Oryx 2, ELKI, Deeplearning4j.
  - DS-Ansatz: Betrugserkennung: Klassisch und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt), z.B. schwarze Listen, Anschrift- und Bankdaten-�hnlichkeitsvergleich mit Scoring-Dienstleistungen, Anomalie-Erkennung; f�r diese und andere Zwecke auch eine Mischung aus Hauptkomponentenanalyse, N�chster-Nachbar (Nearest Neighbour) Methoden, neuronale Netze/Deep Learning, Reinforcement Learning, Maximum-Likelihood-Sch�tzer, maschinelles Ranking-Lernen (Learning to Rank/Machine-learned Ranking), Empfehlungsalgorithmen (?Recommendation Algorithms?: Warenkorbanalyse (Market Basket Analysis, Affinity Analysis), Punkt-zu-Punkt Collaborative-Filtering Ansatz, Preisgestaltung und Verpackungs-Experimente mit A/B-Tests / Bandit-Algorithmen f�r die Verpackung und Preisgestaltung), dynamische Preisgestaltung (Benutzer-Ger�tetyp und dessen Leistungsst�rke, vermutete Dringlichkeit, Wettbewerbssituation, soziographische Benutzerdaten, vorherige A/B-Tests / Bandit-Algorithmen Erfahrung, ... ). Wichtige ber�cksichtigte Daten: Eine Zeitleiste/Zeitreihe mit: Ausgew�hlte Kategorien, Artikel �ber denen mit der Maus geschwebt wurde, Benutzer-Verweilzeiten, andere verwendete Ger�te, Wunschlisten, Direktmarketing-/Referrer-URL, Bewertungen in sozialen Netzwerken des Benutzers, demografische Informationen, Benutzer-Segmentierung, Klickpfade / User-Journey in der Sitzung, Kaufverhalten wie z.B. die Anzahl der angesehenen Artikel / Intensit�t des Vergleichens vor dem endg�ltigen Kauf; Aufhebung allgemeiner User-Optimizations f�r bestimmte Teilbereiche wie Elektronik, Kosmetik, etc. mit speziell dort relevanten User-Optimizations.
- Trost SE Kfz-Gro�handel, 2014:
  - Konzeption einer Hadoop-basierten Such-Infrastruktur f�r Darstellung und Suche im Online-Shop basierend auf MS HDInsight/HD insights mit Azure Portal.
  - Bundesarchiv, 2014: Erstellung eines detaillierten 100-seitigen Angebots zu einer Hadoop-basierenden Such-Infrastruktur mit Apache Solr, Mongo DB oder Oracle DB.
  - Aptiv (ex: Delphi), 2013-2014: Erstellung eines Big-Data-basierten Konzeptes f�r Connected Car sowie entsprechende Backend-Infrastrukturen basierend auf Vodafone?s M2M-Infrastruktur und MS Azure mit Hadoop-Integration als Ausbaustufe (MS HDInsight/HD insights).
  - Gematik (deutsche elektronische Gesundheitskarte und ihrer Infrastruktur) [nur DS] 2012 & 2013: Konzeption eines Statistik-Moduls zur Identifizierung verschiedener Arten von Angriffen / Betrug mit der Gesundheitskarte oder auf dem Konnektor oder der Backend-Infrastruktur.
  - DS-Ansatz: Einf�hrung von Z�hlern f�r alle Systemereignisse und Zeitreihenanalyse, Schwellwerte (Thresholds), Anomalie-Erkennung.
- Parfumdreams.de (Akzente Parfums), von 2012 bis 2013:
  - Konzeption und Implementierung der Erkennung von betr�gerischen Kunden, Bankkonten, Adressdaten, nicht passender Namen oder Schreibweisen und verschiedenes verd�chtiges Verhalten; Erstellung von Vorschl�ge f�r Cross- und Up-Selling; Benutzung von C++/C # mit MLPACK, Armadillo, Torch; Verwaltung und Austausch von Blacklists mit anderen E-Commerce Unternehmen. Zusammenstellen der Daten von mehreren Betr�gereien und Sicherheitsverletzungen f�r das Management und die Polizei/Staatsamwaltschaft.
  - DS-Ansatz: Betrugserkennung: Klassisch und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt), z.B. schwarze Listen, Anschrift- und Bankdaten-�hnlichkeitsvergleich mit Scoring-Dienstleistungen, Anomalie-Erkennung; f�r diese und andere Zwecke auch eine Mischung aus Hauptkomponentenanalyse, N�chster-Nachbar (Nearest Neighbour) Methoden, neuronale Netze, Maximum-Likelihood-Sch�tzer, maschinelles Ranking-Lernen (Learning to Rank/Machine-learned Ranking), Empfehlungsalgorithmen (?Recommendation Algorithms?: Warenkorbanalyse (Market Basket Analysis, Affinity Analysis), Punkt-zu-Punkt Collaborative-Filtering Ansatz, Preisgestaltung und Verpackungs-Experimente mit A/B-Tests / Bandit-Algorithmen f�r die Verpackung und Preisgestaltung), dynamische Preisgestaltung (Benutzer-Ger�tetyp und dessen Leistungsst�rke, vermutete Dringlichkeit, Wettbewerbssituation, soziographische Benutzerdaten, vorherige A/B-Tests / Bandit-Algorithmen Erfahrung, ... ). Wichtige ber�cksichtigte Daten: Eine Zeitleiste/Zeitreihe mit: Ausgew�hlte Kategorien, Artikel �ber denen mit der Maus geschwebt wurde, Benutzer-Verweilzeiten, andere verwendete Ger�te, Wunschlisten, Direktmarketing-/Referrer-URL, Bewertungen in sozialen Netzwerken des Benutzers, demografische Informationen, Benutzer-Segmentierung, Klickpfade / User-Journey in der Sitzung, Kaufverhalten wie z.B. die Anzahl der angesehenen Artikel / Intensit�t des Vergleichens vor dem endg�ltigen Kauf; Aufhebung allgemeiner User-Optimizations f�r bestimmte Teilbereiche wie Elektronik, Kosmetik, etc. mit speziell dort relevanten User-Optimizations.
- European Patent Office (EPO), 2012:
  - Big Data Architekturkonzept (Hadoop) mit Proof-of-Concept Implementierung): Hypertable, HBase, Cassandra, Redis, Hive/HCatalog with Spark (ex: Shark) / Stinger, MLlib, Cloudera Impala, Drill, Sqoop, HDFS, Apache Solr, Pig, Oozie, Cascading mit multi-tool, Giraph, Zookeeper, Bookkeeper, Nagios, Flume, Kafka, Hue, Avro, Thrift, Elephant Bird, Ganglia, Spark, GraphX, Kafka, Ambari / Ganglia, Whirr.
  - Lloyds Banking Group (Bristol, UK & Heidelberg), Versicherungsabteilung (Heidelberger Leben, Clerical Medical, Scottish Widows, Lloyds Insurance), 2010-2011: Betrugserkennung / AML (Anti Money Laundering) / KYC (Know Your Customer) in Bezug auf Zahler, Beg�nstigte, Anschriften, Organisationen, Zeitintervalle z.B. der zus�tzlich gezahlten Pr�mien und zu zahlender Betr�ge; Datenaustausch �ber problematische oder betrugs-verd�chtige Kunden mit anderen (Lebens-)Versicherungen.
  - DS-Ansatz: Schwarze Listen, Anschrift und Bankdaten-�hnlichkeitsvergleich mit Scoring-Dienstleistungen, Anomalieerkennung, Zeitreihenanalyse aller Zahlungsstr�me mit Anomalieerkennung und Schwellwerten (Thresholds), Modellierung typischer Zahlungs- / und Teilauszahlungs-Regelungen mit Ausrei�ererkennung, Austausch verd�chtiger und von Blacklist-Datens�tzen/-Personen mit anderen Versicherungen und Beh�rden.
- Deutsche Telekom/T-System mit De-Mail, 2010-2011:
  - Entwicklung einer Big-Data-Architektur mit Hadoop als Alternativ-Architektur zur Standard-Enterprise-Architektur f�r De-Mail (mit Proof-of-Concept Implementierung mit HDFS und Apache Solr), die allerdings wegen der mangelnden Skills hierzu im Telekom-Konzern nicht in 2010 sondern erst in 2014 umgesetzt wurde.
  - Deutsche Bundesdruckerei [nur DS], 2010: Konzeption / Implementierung einer Softwarekomponente f�r die �berpr�fung der Echtheit der deutschen und internationalen P�sse / Personalausweise-Dokumente mit einer Sicherheitsmerkmalsextraktion, Bewertung und statistisches Scoring-Konzept, um Betrug / F�lschungen zu verhindern.
  - DS-Ansatz: Die Berechnung der gewichteten Punktzahl aller einzelnen Detektoren f�r verschiedene G�ltigkeitsanzeigefunktionen.
- Schw�bisch-Hall/Kreditwerk, 2010:
  - Erstellung verteilter Web-Services mit dem Globus Toolkit (Grid-Computing Alternative zu Hadoop mit �hnlichen Verteilungsprinzipien).
- Deutsche Telekom / T-Systems, 2007-2008:
  - Aufbau eines Tracking & Tracing-Systems f�r Inventar und verschickte Waren mit statistischer Analyse der verschickten / erhaltenen Warenmengen wenn sie mit LKW / Bahn / Flugzeuge verschickt werden, der Defekt-Quoten; Analyse aller Warenfl�sse in und aus ganzen Fabriken und Betrugserkennung auf dieser Grundlage.
- Thales Gruppe / Thales Defence, 2001-2003:
  - Data Science / Statistische Auswertung von Man�ver-Daten von Flugzeugen und Schiffen auf Treff- und Ortungsgenauigkeit sowie untergeordnet der Qualit�t von IT Komponenten und der menschlichen Befehle/Aktionen.
- Fr�he Data Science/Statistik T�tigkeiten am DFKI und in einer IT Consulting Firma (1996-2001):
  - Firma: Konzeption eines Semantic Search Systems basierend auf Ontologie-Distanz semantischer Konzepte sowie deren Umschreibungen.
  - DS-Ansatz: Berechnung der gewichteten Punktzahl aller individuellen Entscheidungen in jedem Textsegment gegen alle anderen Segmente mit �hnlichen semantischen Konzepten. Semantische Konzept-�hnlichkeit wird als gewichteter / Wahrscheinlichkeitspfad (Knoten und Kanten) in der WordNet-Ontologie berechnet. Erfordert Morphologie und (HPSG-)Parsing.
- Firma:
  - Konzeption von teilweise vorgegebenen, teilweise selbstlernenden deep semantic Web/Text/Data Mining Algorithmen mit Extraktion aus Tabellen, Beschriftungen, etc. sowie entsprechender Lernalgorithmen basierend auf (HTML-)Strukturen und bereits bekanntem Wissen.
  - DS-Ansatz: Die Tiefe / DOM-Pfad-�hnlichkeit der HTML-Tags von Daten aus HTML-Tabellen extrahieren. Minimax-Ansatz: Das Minimieren der Worst-Case-Wahrscheinlichkeit (maximal) der Fehlklassifikation der Tabelleninhalte wird gelernt, Gewinnung einer minimaler-Spannbaum-Segmentierung mit optimal hybrid gewichteten Punktzahlen f�r Tabelleninhalte.
- Firma:
  - Konzeption der Algorithmen/Wahrscheinlichkeitsformeln f�r die Berechnung der Wahrscheinlichkeit, dass ein Text plagiiert ist.
  - DS-Ansatz: Head-driven Parsing (HPSG) von Texten. Die Bestimmung der statistischen Verteilungen aller Kopf-Tochter-Selektionen, in denen mehrere M�glichkeiten bestehen, z.B. Gauss, Student, Bernoulli und andere Distributionen, Maximum-Likelihood-Sch�tzer. Berechnung der gewichteten Punktzahl aller individuellen Entscheidungen in jedem Textsegment gegen alle anderen Segmente mit �hnlichen semantischen Konzepten. Semantische Konzept-�hnlichkeit wird als gewichteter / Wahrscheinlichkeitspfad (Knoten und Kanten) in der WordNet-Ontologie berechnet. Erfordert Morphologie und (HPSG) Parsing.
- Firma:
  - Extrahieren der statist. Charakteristika pers�nlicher Schreibstile aus Mustertexten und Anwenden dieser Schreibstile f�r Text Watermarking und Steganographie.
  - DS-Ansatz: Head-driven-Parsing (HPSG) von Texten mit Wahrscheinlichkeiten f�r die Kopf-Tochter Selektionen. Speichern f�r jeden Autor: a), in welchem grammatikalischen Konstrukt er welche Wort Stellungen / Paraphrasen bevorzugt und b) welche Synonyme er bevorzugt (H�ufigkeiten) aus den bekannten Synonym-S�tzen basierend auf Zusammenh�nge (HPSG Selektions- und Kontext-Constraints), Maximum-Likelihood-Sch�tzer.
- Diplomarbeit/Firma:
  - Entwicklung von Lernalgorithmen f�r das Lernen und verlustlose Speichern diverser lexikalischer/grammatikalischer Daten (z.B. Synonyme/Umschreibungen/Unter-/�bergeordnete Begriffe, Konjugations-/Deklinations-/Flektionsschemata) aus Text-Korpora sowie anderen Lexika (z.B. LFG, HPSG, WordNet, Cyc). Im Rahmen der Diplomarbeit erfand ich auch eine generative semantische Analyse f�r zusammengesetzte W�rter (Komposita) und Pr�positionen, die Analyse der Bedeutung der Komposita durch jeweiliges Ableiten der Pr�positionen, die logisch die Teile des Kompositums verbinden k�nnen (f�hrte zu einem internationalen Konferenz-Papier + Ver�ffentlichung in einem Wissenschaftsmagazin).
  - DS-Ansatz: Minimax Ansatz: Das Lernen der Minimierung der Worst-Case-Wahrscheinlichkeit (maximal) der Fehlklassifikation des k�nftigen lexikalischen Wissens, wodurch man eine minimale Spannbaum-Segmentierung erh�lt mit optimalen hybrid gewichtetem Score f�r die m�gliche Bedeutung aller Datenelemente.
- DFKI (Dt. Forschungszentrum f�r KI), Projektarbeit:
  - Statistische OCR-Postprocessing und Fehler-Reduktionskomponente auf Basis von Content-, (Gesch�ftsbrief-)Struktur-, Lage- und Segmentierungs-Daten f�r ICR (Intelligent Content Recognition) mit Student- und Gauss-Verteilung. Dies wurde von der DFKI-Ausgr�ndung http://www.insiders-technologies.de in deren kommerzielle Produkte eingebaut.
  - DS-Ansatz: Nach-Klassifizierung von erkannten Zeichen nach OCR z.B. aufgrund der vertikalen Lage der Zeichen (z.B. die Unterscheidung zwischen o/O, i/I/l, j/J,, etc.): Bestimmung der unteren, der Basis-, der oberen und der obersten Begrenzungs-Linie unter der Annahme einer Gau�-Verteilung und Berechnung / Suche nach der optimale Trennlinie zwischen diesen Linien per Cluster-Analyse, durch die Minimierung des Integrals, d.h. der Fl�che unter den Gau�-Kurven, die den falschen Linien zugeordnet sind. Alle Linien werden aus Clustern von Punkten berechnet. Gesamt: Minimax Ansatz: Minimierung der Worst-Case-Wahrscheinlichkeit (maximal) der Fehlklassifikation der zuk�nftigen Datenpunkte in Bezug auf die Dokumenten-Segmentierung; Erhalten eines minimaler Spannbaum-Segmentierung mit optimaler hybrid gewichteter Punktzahl/Score f�r die Dokumenten-Segmentierung.
- DFKI, Seminararbeit:
  - Nichtlineare Planer, Score-Berechnung f�r Situationen und heuristische/statistische Strategien (Hill Climbing, Simulated Annealing, Dynamic Programming, etc.).
  - DS-Ansatz: Hill Climbing, Simulated Annealing, Dynamische Programmierung, etc. und wann welches Verfahren zu verwenden ist.
Architekturen/Stacks/Distributionen: Cloudera, Hortonworks, SMACK (Spark, Mesos, Akka, Cassandra und Kafka), MAPR, Microsoft Azure Integration HDInsight, IBM BigInsights.
Pattformen/APIs: MapReduce (Vereinfachte Programmierung: Weave, Cloudera SDK), YARN.
Docker-�kosystem mit Kubernetes, OpenStack-�kosystem.
Streaming/Structured Processing/DAGs: Spark Real-Time und In-Memory Toolset / Spark streaming (streaming, interactive queries, and cognitive/machine learning) mit GraphX (Spark API / console for Giraph), MLlib (Spark Machine learning Lib), Alluxio (ex: Tachyon), PredictionIO deployed auf Hadoop, Mesos, Cloud, Standalone; Apache Storm mit Trident und Nachfolger Heron, Flink (Streaming Data Processing with libs: CEP, Table, FlinkML, Gelly - actor model, hierarchy, deathwatch); Apache Apex.
DBs: HBase, Hypertable, Cassandra, Scylla DB, Mongo DB (DBs), Redis, Accumulo with cell-level security (Key-Value Speicher), Hive (SQL / DB Language / Data Warehouse Features) with Shark / Stinger (Interaktive & programmierte Queries), HCatalog (schema and data access abstraction services of Hive), Cloudera Impala, Drill (SQL acceleration), TiDB, Cloudera Kudu, Aerospike, Alluxio (ex: Tachyon) (memory-centric Distributed Storage), VoltDB, DCE, RocksDB, Etcd (Key-Value-Speicher), Druid (optimized for read-only data),
Apache Geode (verteilte in-memory DB) mit MADlib (Machine Learning Lib mit UDF) und HAWQ (Greenplum Analytics/SQL engine: ?HAdoop With Query?) ? alles von Pivotal.
Hadoop-Security: Kerberos Sicherheit, DB-Schema-basierte Autorisierung, LDAP/Active Directory, Multi-Tenancy/Mandanten-F�higkeit; Apache Knox (REST API Gateway, SSO/LDAP), Ranger (Authorisierung, Monitoring und Sec. Management), Sentry/Shiro (fine grained role based authorization), Apache Falcon, FiloDB, Apache Atlas (Data Governance), Intels Project Rhino; SAML, OAuth 2.x, OpenId Connect, Anbindung an �ber 10 der f�hrenden kommerziellen IaM-Systeme (IBM, Siemens, SAP, Oracle, NetIQ, Dell, Microsoft, ?).
Data ingestion/output (stream processing / distributed messaging systems): Sqoop1/2 (Data Im-/Ex-port in Hadoop: SQL to Hadoop), Flume, Kafka, Flafka, Amazon Kinesis, Apache Samza, Camus and successor Gobblin, Apache GearPump, Chukwa, Talend for Big Data, Falcon/Oozie, Hortonworks Dataflow/Nifi, StreamSets, syncsort.
BI/Data Mining/Event Processing Tools: Apache SAMOA (platform for mining big data streams), Pentaho for Big Data; nur kurz evaluiert: IBM InfoSphere for Big Data, Trifacta, Informatica for Big Data
Produktivit�tslibraries: Tez, Crunch, Cascading (data processing workflows), Twill, REEF, Pangool, SploutSQL, Apache Drill + Arrow, Apache Beam (unified programming model for creating a data processing pipeline), Weave.
Akka/Play-Tools: Scala, Apache Gearpump (real-time big data streaming engine over Akka), Apache Flink (actor model, hierarch).
Generell Memory-centric (statt disk-centric) Technologien: Spark, Geode, RocksDB, SAP Hana, etc.
Meine sonstigen Big Data Skills: HDFS, Hive (mit UDF-Libs: Brickhouse, Dataiku, Nexr), Pig (Data Flow Sprache) mit DataFu, Apache Oozie (workflow scheduler), Giraph (graphs), Zookeeper (configuration), Bookkeeper, Nagios (logging), Hue (Web interface), RabbitMQ, ActiveMQ, Qpid, AMQP - Advanced Message Queuing Protocol, MQTT - Message Queue Telemetry Transport = SCADA Protocol, CoAP - Constrained Application Protocol (messaging), Avro/Thrift/Elephant Bird/protobuf/protostuff ([De-]Serialisierung), Apache Mahout (clustering, classification, collaborative filtering, machine learning, perceptron, etc.), PredictionIO (Machine Learning Server), Oryx (Machine Learning), Apache Tika / Gora / Nutch / Solr / Lucene, ELK Stack (Elasticsearch, LogStash, Kibana), Apache Ambari (provisioning, managing, monitoring) / Ganglia (distributed monitoring), Whirr (deployment), Mesos (cluster manager), Netflix Genie (job orchestration engine).
Diverses Kleines: Codecs, Compression, Encryption, MRUnit (Map-Red-Unit-Testing), Filesystem In Userspace (FUSE), Distributed Copy (distcp), Globus Toolkit (grid computing, web services), CRISP-DM (Cross Industry Standard Process for Data Mining), Vaidya (Performance diagnostic tool f�r map/reduce jobs), Predictive Model Markup Language (PMML), Apache Ignite (In-Memory Data Fabric), Apache Zeppelin (Multi-purpose Notebook), ORC (optimized row columnar), Parquet, SequenceFile and common Hadoop file formats, Schema on Read/Write.
Data Science Tools: Revolution R mit RHadoop/RHIPE/Shiny, H2O.ai/Sparkling Water/Deep Water, SAS, KNIME, Talend Open Studio for Big Data, Intelligent Miner, RapidMiner, Tableau, Pentaho Data Suite, Jena OWL Framework, PyData Tools (IPython, Anaconda, Blaze, Bokeh, Canopy, matplotlib, Nose, Numba, NumPy, SciPy, Statsmodels, SymPy, pandas, SciKit-Image, SciKit-Learn), Gephi (Open Graph Viz Platform), nur kurz evaluiert: Waterline Data Science, Datameer, Paxata, platfora, Trillium, SAP Business Objects, Zoomdata.
Data Science Libraries: Mahout, WEKA/MOA, Geode mit MADlib (Machine Learning Lib mit UDF) und HAWQ, Giraph, Spark mit Streaming, MLlib, GraphX, Alluxio, Kernel und Apache Ignite, PredictionIO, ScalaNLP (Breeze, Epic, Puck, Chalk), Apache Tika / Gora / Nutch / Solr / Elasticsearch / Lucene (Java), LIBSVM, Oryx 2, ELKI, Deeplearning4j (alle Java), MLPACK (C++), Armadillo (C++), Torch with dp (deep learning library) (Lua,C/C++, CUDA), Berkeley Caffe (C++, Python), CaffeeOnSpark, SparkNet, Microsoft Computational Network Toolkit (CNTK in C++) und Distributed Machine Learning Toolkit (DMTK in C++), Google TensorFlow (C/C++, Python) (alle Deep-Learning).
Wichtige Data Science / AI Algorithmen: Alle g�ngigen Stochastik- und KI-Algorithmen (Schwerpunkt meines Studiums), z.B. k-d Tree, k-means, Clustering, Classification (Naive-Bayes, ?), Multi-Linear Regression, Bloom Filter, Model Cross Validation, kognitives/maschinelles Lernen (cognitive/machine learning), Statistical Analysis, Large-Scale Predictive Modeling, Hypothesis Testing, SVD++ (Singular Value Decomposition = Dimensions-Reduktion), SVM (Support Vector Machine), Entscheidungsb�ume, C4.5, CART, Nearest-neighbour methods, Fitting, Neuronale Netze, Differential Privacy, Feature Learning/Representation Learning, Hierarchical Dynamic Models (HDMs).
Tracing libraries: Zipkin/OpenZipkin, OpenTracing, HTrace.
NLP libraries: Apache OpenNLP (Natural Language Processing), Stanford CoreNLP, TensorFlow SyntaxNet, NLTK (Natural Language Toolkit: tagging/chunk parsing), WordNet, GATE (General Architecture for Text Engineering), Apache UIMA (Unstructured Information Management architecture/applications), LKB (Lexical Knowledge Base/Builder), CSLI Stanford Parser, DELPH-IN Pet Parser, Apache Stanbol, spaCy, Spark MlLib, Spark-NLP, AllenNLP, Eigener Parser und Knowledge Management System.
Erfolgreicher Redner und Innovator, z.B. auf dem DevCamp 2017+2018 in Karlsruhe und auf der internationalen Data Natives 2017 Konferenz (mit ca. 5000 Teilnehmern eine der gr��ten Data Science und Big Data Konferenzen).

�

Meine Data Science Kenntnisse:

Data Formats: PMML (Predictive Model Markup Language), Serialization with Protobuf/Protostuff, Elephant Bird, Cryo Serializers.
Knowledge Representation: DAML + OIL, SPARQL, TFS (Typed Feature Structures), MRS (Minimal Recursion Semantics)
Analytics: Descriptive Analytics, Diagnostic Analytics, Predictive Analytics, Prescriptive Analytics, Data Discovery Processing
Basic Statistics: Descriptive Statistics: Pearson's Correlation, Inferential Statistics: Hypothesis Tests (Pearson?s chi-squared (x2) tests), Probability Distribution Functions: Gauss, Student; Probability Estimation Functions / Sch�tz-Funktionen; Random Data Generation; Metropolis-Hastings Sampling; Monte-Carlo-Simulationen
Time Series Analysis / Prediction / Forecasting: AR-Modelle (AR (Auto-Regression), MA (Moving Average), ARMA, ARIMA (Integrated bzw. Differenzen von Y), ARMAX (mit Regressor X)), GARCH, Maximum-Likelihood Sch�tzungen, Exponentielles Gl�tten nach Holt / Winters, Box-Jenkins Modelle; Kalman-Filter; Logistische Regression (Logit-Modell), Probit-Modell; Mixture Models (main with sub-populations / events), e.g. GMM (Gaussian Mixture Models); Diverses: Fitting, Trend Analysis, Trendfunktion, Saisonalit�t, Noise, additives / multiplikatives Modell, Autokorrelationsfunktion, Korrelogramm, Prognosehorizont, Prognoseintervall, autoregressives Modell, Prognosen, Autokorrelation, Komponentenmodell, Trend- und Saisonbereinigung
Sequence mining / Sequential pattern mining: GSP Algorithm; Sequential Pattern Discovery using Equivalence classes (SPADE); Apriori algorithm; FreeSpan; PrefixSpan; MAPres
Collaborative Filtering (CF) / Recommender Systems, e.g. Google news, Amazon: Memory-Based: neighbourhood-based CF, Alternating Least Squares (ALS), SVD++; Model-based: Bayesian networks, clustering models, latent semantic models such as singular value decomposition, probabilistic latent semantic analysis, multiple multiplicative factor, latent Dirichlet allocation and Markov decision process; Hybrid: better prediction performance, overcoming CF problems sparsity and loss of information.
[Semi-]Supervised Learning / Structured prediction: Naive Bayes; Markov random field (MRF) based methods, Conditional random fields (CRF), Gaussian Markov random field; Feature engineering, automated supervised feature learning with labeled data: neural networks, multilayer perceptron, supervised dictionary learning; Classification and Regression (e.g.cause-effect analysis): Linear models: Linear regression / classification; Binary and multiclass classification; Linear discriminant analysis; Feature vectors: Na�ve Bayes, Drift, Logistic Regression classifiers using e.g. SGD-based algorithms, Probit Regression; Isotonic Regression (least squares problem under order restriction); HMM (Hidden Markov Models); Maximum entropy (MaxEnt) models; Maximum-entropy Markov model (MEMM), or conditional Markov model (CMM) [mostly Conditional random fields are more precise]; Restricted Boltzmann machine (RBM) with gradient-based contrastive divergence algorithm; Decision Forests / Ensembles (Random Forests and Gradient-Boosted Trees GBTs); [Adaptive Size] Hoeffding Tree; Pegasos (Primal Estimated sub-GrAdient SOlver for SVM) method of Shalev-Shwartz; Vector Machines: Relevance vector machine (RVM), Support vector machine (SVM); Regression Models: Clustered Variance, Linear Regression, Ridge Regression, SVM Model, Logistic Regression, Binary Logistic Regression, Multinomial Regression, Least-Angle Regression (LARS/LASSO), Local Coordinate Coding (LCC) (approximate a non-linear function with linear ones), Robust Variance, Ridge regression / Tikhonov regularization, Partial Least-Squares Regression; Tree Methods: Decision Tree, C4.5, CAR; [Conditional] Random Field: Nearest-neighbor methods: k-nearest neighbors algorithm, Neighbourhood components analysis; Ensembles: Bagging (average the voting of multiple experts), Boosting (new models shall become experts for instances misclassified before), Random forest, Logistic model trees, Stacking (meta-learner over previous models).
Unsupervised Learning: Affinity analysis / Market basket analysis/ Association Rule Learning: Apriori Algorithm, ECLAT (Equivalence Class Transformation), FP-growth (frequent pattern growth); Unsupervised feature learning with unlabeled data: Unsupervised dictionary learning, independent component analysis (ICA), auto-encoders, matrix factorization, clustering, local linear embedding (LLE), restricted Boltzmann machine (RBM) with gradient-based contrastive divergence algorithm; Clustering: Canopy (pre-clustering, pre-processing); k-Means Clustering; [Fuzzy] k-means; Data stream clustering; Streaming k-means; k-medoids Clustering (PAM, CLARA); k-medians Clustering; Hierarchical Clustering (SLINK and CLINK); Expectation-maximization (EM); CURE (Clustering Using REpresentatives); BIRCH (balanced iterative reducing and clustering using hierarchies): hierarchical, effective noise handling, COBWEB, Spectral Clustering; Data Stream Clustering; Synthetic Control Varianten, Top-Down, Gaussian mixture, Power iteration clustering (PIC), Latent Dirichlet allocation (LDA), Hierarchical Dirichlet processes (HDP), DBSCAN (Density-Based Spatial Clustering of Applications with Noise, with full index acceleration for arbitrary distance functions), OPTICS (Ordering Points To Identify the Clustering Structure), SUBCLU (Density-Connected Subspace Clustering for High-Dimensional Data), Mean-shift (locating maxima of a density function), Single-linkage clustering; Topic Modelling: Latent Dirichlet Allocation, Case based reasoning / rule induction algorithms (for helpdesks, industrial/financial processes): Charade, Rulex, Progol, CN2.
Dimensionality Reduction: Singular value decomposition (SVD), (Kernel) Principal component analysis (PCA/KPCA), Locality-sensitive hashing (LSH): Bit sampling for Hamming distance, Min-wise independent permutations, Nilsimsa Hash (Anti-Spam), TLSH (ternary locality-sensitive hashing), Random projection, Stable distributions, Factor analysis, CCA, ICA, LDA, NMF, t-SNE
Neural Networks / Konnektionismus: Kohonen, Perceptron, Recurrent Neural Networks (RNN) mit Utils: [Bi]Sequencer, Repeater, ?, Deep Learning, Deep reinforcement learning, Autoencoder, Multilayer perceptron, Restricted Boltzmann machine, SOM (Self-organizing map), Convolutional neural network
Feature extraction / pattern analysis and transformation: Term frequency-inverse document frequency (TF-IDF), Feature hashing / trick, Kernel method / trick, Fast Exact Max-Kernel Search (FastMKS), (Kernel) Principal Component Analysis (PCA/KPCA), Non-negative matrix factorization (NMF), Independent component analysis (ICA), e.g. with MLE (Maximum likelihood estimation).
Frequent pattern mining: FP-growth, Association Rules, PrefixSpan.
Evaluation metrics: Classification model evaluation, Binary classification: Threshold tuning, Multiclass classification: Label based metrics; Multilabel classification: Ranking systems; Regression model evaluation: Mean Squared Error (MSE)
Evaluation / Visualisation: Common visualizations as known from Excel, Crystal Reports, etc.; Receiver operating characteristic (ROC curve), e.g. with TPR/FPR (true/false positive rate); Scatter plot, Histogram, Parallel coordinates, Multidimensional scaling (MDS)
Optimization: Stochastic gradient descent, Limited-memory BFGS (L-BFGS).
Structured prediction: Bayesian network, CRF (Conditional random field), HMM (Hidden Markov Model)
Anomaly detection (fraud, intrusion detection in computer security): Density-based techniques (k-nearest neighbor, local outlier factor, and many more variations of this concept), Subspace- and correlation-based outlier detection for high-dimensional data, One class support vector machines, Replicator neural networks, Cluster analysis-based outlier detection, Deviations from association rules and frequent itemsets, Fuzzy logic based outlier detection, Ensemble techniques, using feature bagging, score normalization and different sources of diversity, LOF (Local outlier factor), OPTICS-OF, DB-Outlier (Distance-Based Outliers), LOCI (Local Correlation Integral), LDOF (Local Distance-Based Outlier Factor), EM-Outlier
Association rule learning (pricing, product placements, web usage mining, intrusion detection, continuous production, bioinformatics); Apriori algorithm / Apriori-DP (Dynamic Programming), ECLAT (Equivalence Class Transformation), FP-growth algorithm, CBARM / CBPNARM: Context Based (Positive and Negative) Spatio-Temporal Association Rule Mining, Node-set-based algorithms: FIN, PrePost and PPV, GUHA procedure ASSOC: generalized association rules using fast bitstrings, OPUS search.
Learning to rank / machine-learned ranking (MLR) = optimization problem with respect to these quality measures (pointwise, pairwise, listwise): Mean average precision (MAP), DCG and NDCG, Precision@n, NDCG@n, where "@n" denotes that the metrics are evaluated only on top n documents, Mean reciprocal rank, Kendall's tau, Spearman's Rho, Expected reciprocal rank (ERR), Yandex's pfound, gradient boosting-trained ranking, RankNet, PageRank.
Text Analysis / NLP (natural language processing) / computational linguistics: Term Frequency, Tokenization, Sentence segmentation, Part-of-speech (POS) tagging, Word2Vec, LSI (Latent Semantic Indexing), Latent semantic analysis (LSA), SVD, SVD++, Named Entity Recognition (NER) / named entity extraction (NEE), Information Extraction (IE), Language Models (LM), N-grams, POS (part of speech) tagging, Morphology, Common grammars: PCFG, HPSG, LFG, Chunking / shallow parsing, Natural language semantic parsing, Topic models, Explicit semantic analysis (ESA), Ontology-based similarity measures, Semantics (generative, lexical, semantic nets), Content similarity (i.e. detecting pirated texts), Text Mining, Web Mining.

Meine Erfahrung im Business Intelligence/DWH-/ETL-Bereich (Data Warehouse):

Techniken: Konzeptuelle, logische, physikalische Datenmodelle/ER-Modelle erstellen/optimieren (3NF, Star Schema (fact/dimension tables), Snowflake Schema, Data Vault nach Linstedt), Dimensional Data Modeling/Normalization (Business Processes/Grains/Dimensions/Facts), Online Analytical Processing (OLAP: Microsoft, Cognos, Pentaho/Mondrian), OLAP-W�rfel/OLAP-Cubes (Modellierung, Slicing, Dicing, Pivoting, Drill-Down), CRISP-DM, Application Design for Analytical Processing Technologies (ADAPT). Dar�ber hinaus habe ich auch Talend Open Studio verwendet f�r Zuordnungen, z. B. bei Schwaebisch-Hall/Kreditwerk, f�r die Deutsche Bank und Walgreens Boots Alliance (WGA) / Megapharm.

Schwarz-Gruppe (Lidl & Kaufland), gr��ter Europ�ischer Handelskonzern, 2017: BI und Big Data Architect im Bereich Predictive Analytics etwa zur Berechnung der Effekte von Sonderangeboten, �ber Supply-Chain-Optimierung bis hin zur Vorhersage der Bedarfe f�r Backware in den L�den: Teradata, Ab Initio, SAP BW.
BNP Paribas Personal Investors, 2017: Consorsbank + DAB: Konzeption von CDP (Customer Data Platform) und MAP (Marketing Automation Platform) f�r Hadoop/Spark als Baseline-Architektur, darauf basierend Begleiten einer Make-or-Buy-Entscheidung mit Analyse der L�sungen von IBM Interact, SAS, Pega, Oracle RTD, prudsys, Ensighten und Dymatrix, Teil der Performance Interactive Alliance (PIA).
Credit Suisse, 2017: Konzeption eines Cloudera-Hadoop basierenden Business Transaction Stores mit einem kanonischen leistungsf�higen Datenformat (zum Speichern aller Details aller erwartbaren Transaktionen) mit verlustfreien Import- und Export-Filtern sowie Auswertungsfeatures in den Bereichen Aktien, Zinsinstrumenten, Derivaten, ETFs, Fonds (d.h. beliebige ?Securities? bzw. Wertpapiere), Berechnung von Bestands-, Kosten- und Risiko-Kennzahlen, �ber-sichten f�r?s Wealth Mangement sowie Steuern und Reporting und Vorbereitung der M�glichkeit des Heraustrennens der Funktionalit�ten einer Wertpapier-Transaktionsbank.
Deloitte Consulting f�r Daimler Financial Services (DFS), 2016: Konzeption eines Corporate Memory Systems und Konzeption der Bonit�tsbewertung und Betrugserkennung in Echtzeit auf dieser Basis.
Technisch: Konzeption einer Corporate-Memory-Architektur mit XML / JSON / Avro als Austauschformate und interne Hybrid-Informationsdarstellung mit relationalen und Graphen-basierten Strukturen gesteuert durch eine Management-Komponente. Konzeption der Datenbereinigung, Ausrei�erelimination und grundlegende Kreditw�rdigkeit-Sch�tzalgorithmen. Auswertung von Technologien / Tools f�r Data Ingestion, ETL, intelligente Datenverarbeitung, MR- / YARN Frameworks und XML-Verarbeitungstechnologien wie Hive / HBase + Avro, Talend, Pentaho, RHadoop, Informatica, SAS, H2O, KNIME, Tableau, SAP Business Objects, Splout SQL, Falcon, FiloDB, Hortonworks DataFlow (HDF) / Apache Nifi, StreamSets, Flume / Kafka / Flafka, Chukwa, LinkedIn Camus / Goblin, Rapidminer, Intelligent Miner, Datameer, Apache Drill + Arrow;
Weitere Bibliotheken / Tools: Hortonworks Hadoop, Spark mit SQL / DataFrames / RDDs / Caching, Hive, Java, Scala.
GfK Marktforschungsunternehmen, 2015: Anwendungs-Architektur der zentralen Daten-Aggregations- und Auswertungs-Komponenten (?Report Production Lines?) mit Cloudera Hadoop, Spark, HBase, etc.
Siemens Corporate Technology (CT), Healthineers (ex: Healthcare) IT, 2014-2015: Konzeption eines Predictive Maintenance Systems f�r radiologische Ger�te mit Teradata Unified Data Architecture (UDA), wurde sp�ter Teil von MindSphere: Teradata IDW (Integr. Data Warehouse), Aster (Discovery Platform), Hadoop (Data Platform) mit Hive/Pig (+DataFu)/Mahout, Revolution R mit RHadoop/RHIPE/Shiny, SAS, H2O, KNIME, Talend Open Studio for Big Data, Oozie, Intelligent Miner, WEKA/MOA, Giraph, Mahout, RapidMiner, Tableau, Pentaho Data Suite.
Allianz Versicherung, 2014: Migrations-Architektur f�r 600 SAS-Systeme und mehrere SPSS- und Hadoop-Cluster mit statistischen Analyse-Software wie R/Shiny und Apache Mahout.
Bundesarchiv, 2013-2014: Erstellen eines DB-Modells f�r das DWH des Archivs zur beschleunigten Suche und Auswertung der Daten sowie einer Hadoop-Architektur mit Hive.
Deutsche Post, 2012: Statistische Analyse der Paketfl�sse sowie der Nachnahme-Zahlungen und m�glicher Betrugsf�lle und Security-Incidents mit Microsoft SQL Server Integration Services(SSIS).
Deutsche Telekom, De-Mail-Projekt, 2010-2011: Erstellung einer Hadoop-Architektur, Proof of Concept mit Hive, Pentaho, R/Shiny und Apache Mahout f�r strukturierte Suche und Auswertungen.
Schwaebisch-Hall/Kreditwerk, 2010: Kunden-Analyse f�r Marketing, Up-selling und Cross-selling
Banken (Commerzbank, Dt. Bank, Sal. Oppenheim, Sparda Bank, Targo Bank, Citigroup, PostFinance, Schw�bisch-Hall/Kreditwerk, Lloyds Banking Group, 2008-2012): Mehrere Projekte im Bereich Kundenstatistiken, Anti-Money-Laundering (AML)/Know-Your-Customer (KYC) sowie zur statistischen Ergebnis-Validierung und zur Erkennung von ungew�hnlichen Ergebnissen im Rahmen der Abgeltungssteuer, der Versicherungssteuer und sonstiger Berechnungen.
Deutsche B�rse, 2009: Ich war im Bereich Indizes und strukturierter Anlageprodukte t�tig und wandte Data Mining auf historische Daten an, um optimale Indizes/Derivate vorschlagen zu k�nnen.
Institut f�r Arbeitsmarkt- und Berufsforschung (IAB), 2007-2008: Konzeption einer Mitarbeiterverwaltung mit Analysem�glichlichkeiten sowie von DWH-Datenmodellen (SAS, Cognos, Microsoft SQL Server Integration Services(SSIS)) f�r den Dt. Arbeitsmarkt.
Daimler und BMW, 2006, 2008: Mitarbeit an der Modellierung der DWHs f�r die Produkt-Daten-Management-Systeme (PDM).
Ich habe Web-/Text-Mining Software entwickelt zur Extraktion von Informationen aus Webseiten bzw. Dokumenten.
Im Bereich intelligente Suche/Plagiatsuche habe ich mich in entsprechende statische Methoden eingearbeitet.

�

Meine Erfahrung mit Scala:

Zun�chst habe ich einige Jahre lang Erfahrung mit ScalaCheck in Java und dann in Scala gesammelt. Mit dem Siegeszug von Hadoop und Spark habe ich dann in einer Reihe von Projekten direkt in Scala programmiert: Daimler via Deloitte, Siemens, HavasMedia, GfK. Vor allem bei der Nutzung von Spark� ist Scala sehr wichtig, da Spark erst damit seine volle M�chtigkeit entfaltet und man es ben�tigt, um sich �ber die Funktionsweise der Spark-APIs umfassend informieren zu k�nnen.

Meine Scala-Projekte:

Avira Operations, 2017: Konzeption und Implementierung von Inspectrum, einem Apache Spark & Big Data Data Flow Instrumentation & Configuration Framework in Scala.
Credit Suisse, 2017: Konzeption/PoC-Implementierung mit Hadoop/Spark Streaming f�r einen Business Transaction Store + Analytics-Komponenten.
Itizzimo, 2017: Konzeption/Erweiterung des Simplifier Kernsystems zur Generation von Web- und Mobile Clients um Rechtekonzept und Automatismen f�r Adapter/Konverter zwischen diversen Systemen.
Cisco Systems f�r AOK Nordost, 2017: Architekt eines Blueprint-Dokuments zur Integration von Microser-vices mit mobile Apps und Big Data u.A. per DDD.
TecAlliance mit Fraunhofer IESE, 2016: Konzeption der Basisarchitektur f�r ein Connected Car System mit Hadoop, Spark, Cassandra, Kafka, Scala, etc.
General Electric, 2016: Konzeption/Entwicklung eines Digital Windfarm Berechnungsprojekts, das f�r jedes einzelne Windrad die Dimensionierung �ber die Lebensdauer optimiert, realisiert als cloud-basierter Berechnungsservice.
Parf�merie Douglas, 2016: Migration/Erweiterung/Absicherung des Online-Shops, implementiert in Java und Scala.
Daimler Financial Services via Deloitte, 2016: Big Data Projekt mit Hive, Talend und Spark, implementiert in Java und Scala.
GfK, 2015: Konzeption/Implementierung von Predictive Analytics Pipelines mit Hadoop/Spark f�r die Marktanalyse.
HavasMedia, 2015: Big Data Data Management Platform (DMP) f�r zielgerichtetes Performance-Marketing im Internet basierend auf der Analyse der Interessen der Webnutzer.
Siemens, 2014-2015: Big Data Projekt im Bereich von Predictive Maintenance von radiologischen Ger�ten, wurde sp�ter Teil von MindSphere.
Ca. 10 Projekte mit ScalaCheck oder Teilanwendung von Scala ? etwa als Ersatz f�r Python/Perl oder f�r asynchrone Funktionalit�t, z.B. bei BG-Phoenics/DGUV, Gematik, Europ. Patent Office, Fiducia, Dt. Telekom, Dt. Bank, Commerzbank, Bank Julius B�r, PostFinance, ?

Mir bekannte Scala-Patterns/Techniken:

Die klassischen Patterns der Gang of Four (GoF) �bertragen auf Scla.
Higher-kinded types, higher-order abstractions, Implicits, Case Classes, Traits, Views (ex: Projections), Builders
Cake-Pattern (z.B. f�r Dependency Injection; Build components which are abstracted over their dependencies)
Microservices/Evolutionary Architecture
Bulkheading/Isolation of Failure
Saga Pattern (managing long-running business transactions)
Stackable traits pattern
Dynamic scope (Make certain information available in a given context without explicitly passing it about)
Utility belt (Lightweight crosscutting resource sharing)
Reactive abstractions (Relationship among Actors, Arrows, FRP, Pub-Sub, ....)
Pimp my library (Extend existing classes with new methods)
Duck typing (structural typing)
Memoization (Memoize the result of a function)
Algebraic data types
Concept pattern

Mir bekannte Scala-Libraries:

Techniken der Integration aller Java Libraries, Build-Tool sbt
Akka (toolkit and runtime for building highly concurrent, distributed, and resilient message-driven applications)
Play (Built on Akka: Lightweight, stateless, web-friendly architecture with predictable and minimal resource consumption for highly-scalable applications)
Spray (REST/HTTP auf Basis von Akka, ersetzt durch Akka HTTP)
Spark (Big Data streaming / data processing library; hat eine Integration mit Scala, Akka und Actors)
Flink (wie Spark)
Lagom, QBit (Microservices)
Scalaz (New Data Types, Extensions to standard classes, general utility functions (ad-hoc polymorphism, traits + implicit parameters + implicit conversions)
Shapeless (type class and dependent type based generic programming library, typesafe casts, heterogenous lists, extensible records, lenses), Shapeless-contrib (integration of Scalaz, Shapeless and Spire)
Spire (Powerful new number types and numeric abstractions)
Cats (Containers, Composition, Algorithms)
Slick (Lightbend ORM mit codegenerator)
Squeryl (ORM and DB DSL)
Finagle (extensible RPC system)
ScalaNLP (Natural Laguage Processing with Breeze, Epic, etc.)
LinAlg (Linear-Algebra Scala Library)
ScalaCheck (Property-based testing)
Rapture Libraries (family of Scala libraries providing beautiful idiomatic and typesafe Scala APIs for common programming tasks, like working with I/O, cryptography and JSON & XML processing)
Twitter Bijection f�r Datenkonvertierungen.
Scraml (RAML code generator), swagger-codegen.
scodec: Working with binary data: performant data structures for working with bits and bytes to streaming encoding and decoding.
Netflix Hollow (small to moderately sized in-memory datasets passing from a single producer to many consumers for read-only access)
Squants (working with Quantities)
PureConfig, Typesafe/Lightbend Config.
Ammonite (Scala Scripting).
Scalate (Scala Template Engine) mit SSP-Funktionalit�t (Scala Server Pages)

�

Meine Ans�tze zur Betrugserkennung:

Die Schritte im Data Mining-Prozess sind:

Problemstellung/-Definition beschreiben
Datenerhebung und Verbesserung: Definieren von Datenquellen, Joinen und Denormalisien von Daten, Daten anreichern, Daten transformieren.
Modellierungsstrategien: Ausw�hlen der Algorithmen auf der Grundlage der Modellierungsziele, z.B. Vorhersage, Klassifizierung, Erforschung/Exploration, Affinit�t.
Training, Validierung und Erprobung von Modellen
Analyse der Ergebnisse
Modellierungs-Iterationen
Feste optimierte Implementierung der Ergebnisse.

�

Algorithmus-Klassen:

Klassische Verfahren: Gap-Analyse (ausgefallene Zahlung), "klingt wie/sounds like" �hnliche Felder und deren Unterschiede (z.B. Adressen-Betrug), Tests auf Doppelungen (Doppel-Rechnungen), Mitarbeiter, die keinen Urlaub nehmen (auf das Erwischt-werden durch Ersatz-Mitarbeiter zu vermeiden), Datenabgleich (z.B. Bankdaten von Mitarbeitern und Lieferanten), Trends/pl�tzliche Ver�nderungen, Ziffern-Auftrittsh�ufigkeiten in wirtschaftlichen Zahlen (z.B. Rechnungsbetr�ge).
Regel-basierte Methoden: ben�tigen Fachwissen zu bekanntem Betrugs-Verhalten, unwirksam bei neuartigen Betr�gereien, z.B. zwei fast gleichzeitige Transaktionen mit der gleichen Karte an geografisch verteilten Standorten, geringe vergangene Zeit zwischen den Versuchen, den Maximalbetrag abzuheben, viele kleine Transaktionen.
�berwachte Klassifizierung: Es werden Beispiele von Betrug der vergangenen Jahre ben�tigt, unwirksam bei neuartigen Typen.
Anomalie-Erkennung: Gut f�r neue Arten von Abweichungen, nicht gut f�r bekannte Typen
�nderungs- bzw. Wende-Punkt-Erkennung (z.B. durch ein Diagramm der im Laufe der Zeit ausgegebenen Gelder)
Multi-Level-Methoden (Transaktion / Konto / Kaufmann)
Link-Analyse-Netzwerke: Zwischen Menschen: Betr�ger arbeiten nicht isoliert voneinander (z.B. gestohlene oder geklont und weitergegebene Kreditkarten) -> Netze. Zwischen Betrugstypen: Eine Bande, die eine Art von Betrug durchf�hrt, f�hrt wahrscheinlich auch andere Arten durch. Hidden-Markov-Modelle f�r die Zustands�nderungen.
Segmentierungen: Es gibt bereits Segmentierungen von Finanzverhaltens-Typen, z.B. das FRuitTs System; man kann auch versuchen, Betrugsf�lle zu segmentieren, um Betrugs-Verhaltenstypen zu definieren.
Konstruieren Sie eines ?Verdachts-Score', der alle Methoden in Verbindung mit Regeln oder Gewichten kombiniert.

�

Die am h�ufigsten verwendeten Algorithmen:

Lineare Diskriminanzanalyse, quadratische Diskriminanzanalyse, regularisierte Diskriminanzanalyse, Naive Bayes, k-n�chste Nachbarn, logistische Diskriminanzanalyse, Perzeptronen / neuronale Netze, Maximum-Likelihood-Sch�tzer, radiale Basisfunktions-Methoden, Vektorquantisierungs-Methoden, n�chste-Nachbarn und Kernel-nichtparametrische Methoden z.B. Parzen Kernel, Baum-Klassifikatoren wie CART und C4.5, Support Vector Machines (SVM), regelbasierte Methoden, zuf�llige W�lder, Mischungen von multivariaten Gau�-Methoden, selbstorganisierende Maps, minimaler Spannbaum-basierende Datenbeschreibung, Minimax-Wahrscheinlichkeits-Maschine, usw.

Modellierungs-Ziele und Data-Mining-Techniken:

Vorhersage
- Regression and logistische Regression
- Neuronale Netze
- Entscheidungs-B�ume
- Hinweis: Zielesysteme k�nnen bin�r, intervall-, nominal oder ordinal sein.
  - Unm�glich
Klassifikation
- Entscheidungs-B�ume
- Neuronale Netze
- Diskriminanzanalyse
- Hinweis: Zielesysteme k�nnen bin�r, intervall-, nominal oder ordinal sein.
  - Clustering (K-means, etc.)
  - Neuronale Netze
  - Selbst-organisierende Karten (Kohonen-Netzwerke)�
Exploration / Erschlie�ung
- Entscheidungs-B�ume
- Hinweis: Zielesysteme k�nnen bin�r, intervall-, nominal oder ordinal sein.
  - Principal Components
  - Clustering (K-means, etc.)
Affinit�t
- Unm�glich
  - Assoziationen
  - Sequenzen
  - Faktorenanalyse

Einsatz von Data-Mining nach Modellierungs-Ziel und Lernmethode:

Vorhersage
- Abrieb / Retention
- Abgehobene Bargeldmenge am Automaten
- Kosten f�r Krankenhausaufenthalt
- Betrugs-Erkennung
- Kampagnenanalyse
  - Unm�glich
Klassifikation
- Segmentierung
- Markenwechsel
- Ausbuchungen
- Betrugs-Erkennung
- Kampagnenanalyse
  - Segmentierung
  - Abrieb / Retention
Exploration / Erschlie�ung
- Segmentierung
- Abrieb / Retention
- Scorecard-Erstellung
- Betrugs-Erkennung
- Kampagnenanalyse
  - Segmentation
  - Profiling
Affinit�t
- Unm�glich
  - Cross-Selling/Up-Selling
  - Einkaufskorb-Analysis

Konkrete Beispiele von Betrugserkennungs-L�sungen, die ich erarbeitet habe:

Anti-Geldw�sche (AML, Anti Money Laundering), z.B. f�r Daimler Financial Services (DFS) und Lloyds Banking Group (LBG).
Identit�tsdiebstahl
Kreditkartenbetrug
Geldautomaten-Betrug
Betrug / Sicherheitsangriffe auf die elektronische Gesundheitskarte (eGK)
Pass-/Personalausweis-Betrug
Gesundheits-R�ck-Erstattungs- und -Rechnungsbetrug
Elektronische Manipulationssicherheit / Widerstandsf�higkeiten gegen Sicherheits-Angriffe (Man-in-the-Middle, Code-Injektion, etc.)

�

Herausforderungen:

Pareto-Prinzip: Die ersten 50% Betrug sind einfach zu stoppen; die n�chsten 25% kosten die gleiche Anstrengung; n�chsten 12,5% kosten wieder die gleiche Anstrengung, etc. - nie erreichen wir 100%
Gro�en Datenmengen k�nnen sich sowohl hinter d als auch n verbergen
Die meisten Variablen werden sich als irrrelevant herausstellen
Die meisten F�lle sind nicht Betrug: Klassisches Data Mining Nadel-im-Heuhaufen Problem
Evolution�res Wettr�sten
Solides Aufsetzen, Ausbalancieren und Skalieren von Pr�ventionsma�nahmen vs. Erkennung
Solides Aufsetzen, Ausbalancieren und Skalieren von Operationen (Handeln) und Explorationen (Beobachten/Analysieren)
Kann komplexe Datentypen beinhalten (Bilder, Signale, Texte, Netzwerke)
Verschiedene Fehlklassifizierungskosten
Viele Arten von Betrug
Unausgewogene Klassengr��en (ca. 0,1% der Transaktionen sind betr�gerisch): Oft sind rund 90% der Betrugsverdachtsf�lle in der Tat legitim. Dies ist wichtig, weil operative Entscheidungen getroffen werden m�ssen (Karte sperren?) und gute Kunden d�rfen nicht verschreckt werden.
Verz�gerung bei der Kennzeichnung / Verz�gerung beim Lernen von Klassen-Labels: Wenn Betrug Alarm ausgel�st wird, dann ist die wahre Klasse schnell bekannt; wenn kein Alarm ausgel�st wird, dann wird er erst nach Pr�fen der Abrechnung (durch den Endkunden) erkannt; Dies unterscheidet es vom normalen Paradigma der �berwachten Klassifizierung => Banken k�nnen nicht immer mit Sicherheit sagen, wenn ein Betrug beginnt
Falsch gekennzeichnete Klassen: Nicht alle betr�gerischen Transaktionen werden als Betrug bezeichnet (Kontoinhaber pr�fen nicht immer ausreichend sorgf�ltig); Nicht alle legitimen Transaktionen werden als legitim bezeichnet; Es kann Feinheiten geben, z.B. dass ein Kontoinhaber Transaktionen ausl�st und dann behauptet, dass vorher die Karte gestohlen wurde; Solche Transaktionen sind betr�gerische Transaktionen, weil der Halter sie als solche erkl�rt;
Zuf�llige Transaktions-Ankunftszeiten
(Reaktiver) Bev�lkerungs-/Populations-Drift: Betr�ger �ndern ihre Strategien; jeder Strategie kann viele Varianten haben, die jeweils unterschiedliche L�sungen erfordern: Phishing, Skimming, Schulter-Surfen, libanesische Schleife, falsche Fronten, F�lschungen, Vorschussbetrug (419 Scam, Nigerianischer �berweisungs-Betrug, etc)
Ein-Klassen-Modellierung: Ausrei�ererkennung kann neue Arten von Anomalien ermitteln, die zuvor nicht gesehen wurden; Prinzip: Bauen eines Modell f�r die "Norm" f�r diesen Kunden und erkennen, wenn etwas davon abweicht; "Norm" kann basieren auf a) diesem Kunden gegen�ber sich selbst zu fr�heren Zeiten (jamjarring), b) der Kunde gegen�ber anderen Kunden, c) Karten-Verwendungsmuster nach Lebensphase, d) Segmentierung in Kundentypen, e) eine Kombination von diesen.
Mehr-Klassen-Modellierung: Z. B. verschiedene Konto-Nutzungsarten und Lebenssituationen; k�nnte, �ber-engineered sein, zu komplex und kostspielig mit zu vielen Fehlalarmen.
Intervention: Sieht aus wie ein Standard-zwei-Klassen-�berwachte-Klassifizierungs-Problem. Aber eine Intervention �ndert das Ergebnis: Das Vorhersagemodell gilt nicht mehr; das zuf�llige Zuweisen von Kunden zu Eingreifen (A) / nicht eingreifen (B) Gruppen ist �blicherweise nicht in Bank-Kontexten zul�ssig; Selektivit�ts-Verschiebung; L�sungen: Heckman (Wahrscheinlichkeits-)Methode, Diskriminanzanalyse.

Betriebssysteme

AIX

Android

CentOS

CP/M

Dos

Echtzeitbetriebssysteme

Embedded Linux

HPUX

iOS

IRIX

Linux

Mac OS

MS-DOS

MVS, OS/390

Novell

OS/2

OSF/Motif

PalmOS

pSOS

RACF

Red Hat Enterprise Linux

RTOS (Real Time OS)

SUN OS, Solaris

Unix

VMS

VxWorks

Win32

Win32/Linux

Win64

Windows

Windows CE

z/OS

Programmiersprachen

angular.js

AngularJS

ASN.1

ASP.NET

Assembler

Basic

C++

Clipper

Cobol

COBOL

CORBA IDL

dBase

Delphi

Emacs

Forth

Fortran

Foxpro

Groovy/Grails

Handlebars.js

HPGL, HP PCL

Imake, GNU-Make, Make-Maker etc...

IMAP

Java

Java-Entwicklung

JavaScript

JAX-WS

JAXB

JCL

JEE

jquery

Lisp

Lotus Notes Script

Makrosprachen

Maschinensprachen

MATLAB / Simulink

MDL

Modula-2

Objective C

Paradox

Pascal

Perl

PHP

PL/SQL

Prolog

Python

Relationalen DBMS

Rexx

Scala

Scriptsprachen

Shell

Smalltalk

Tcl/Tk

TeX, LaTeX

VRML

Xt, Motif

yacc/lex

Datenbanken

Access

Adabas

B-Tree

BDE

DAO

DB2

F&A

HBase

IMS

Informix

Ingres

Interbase

JDBC

Lotus Notes

MS SQL Server

MySQL

Object Store

ODBC

Oracle

Oracle Database

Paradox

POET

Postgres

Propriet�re DB

SAS

SQL

Sybase

Teradata

Watcom SQL

xBase

Datenkommunikation

Bus

CICS

CORBA

EDIFACT

Ethernet

Exim

Fax

Internet, Intranet

ISO/OSI

JSON

LAN, LAN Manager

Message Queuing

NetBeui

NetBios

parallele Schnittstelle

PC-Anywhere

POP3

Public Networks

RESTful WebServices

RFC

Router

RPC

RS232

SMTP

SNMP

SOAP

TCP/IP

UUCP

Voice

WADL

WebServices

Windows Netzwerk

Winsock

WSDL

X.400 X.25 X.225 X.75...

Hardware

AS/400

Drucker

Echtzeitsysteme

embedded Systeme

Emulatoren

Industrie-Roboter

Messger�te

Modem

Plotter

Propriet�re HW

Rational

Sensoren

Steuer und Regelsysteme

Streamer

SUN

VAX

Video Capture Karte

Berechnung / Simulation / Versuch / Validierung

Rapid Control Prototyping (RCP)

Design / Entwicklung / Konstruktion

CATIA

Branchen

Elektronik/Elektrotechnik
Banken
Gesundheitswesen/Pharma/Medizintechnik
Verkehrstechnik
Automobilbau, Automobilwirtschaft
Luftfahrttechnik und Raumfahrttechnik
IT/EDV
Energiewirtschaft/Energieversorgung
Verlagswesen
Maschinenbau
Telekommunikation
Versand/Handel
Touristik
Versicherungen
Handel/Onlne-Marketing und Online-Vertrieb

Einsatzorte

St�dte

any (+200km)

L�nder

Deutschland, �sterreich, Schweiz

Schweiz: Flexibel bzgl. Einsatzort, evtl. auch Ausland.

Arbeitserlaubnis: EU-weite Arbeitserlaubnis, Schweizer Arbeitserlaubnis bis 2020

Weitere L�nder: Attraktive St�dte/Orte bevorzugt.

Remote-Arbeit

nicht m�glich

Projekte

11 Monate

2019-04 - 2020-02

Konzeption eines Open Source SOCs

IT-Architekt, agiler Coach und fachlicher Projektleiter Java Constraint Library(JCL) IASolver YACS ...

Rolle

IT-Architekt, agiler Coach und fachlicher Projektleiter

Projektinhalte

Konzeption eines Open Source SOCs (Security Operations Center)

Splunk: Installation, Konfiguration, Analyse und Anbindung an Input-Quellen, Erstellung von Splunk-Analyse- und Visualisierungs-Use Cases mit SPL (Search Processing Language).
Zukunftsvision der SOC-Architektur erstellt auf Basis von Apache Metron + Kafka + Spark + Elastic/ELK Stack (ElasticSearch, LogStash, Kibana) und Konzeption ihrer Komponentenarchitektur - möglichst mit Open-Source-Tools, um Kosten zu sparen. Dazu viele konkrete Vorschläge zur Verbesserung des SOCs (Security Operations Center), Erstellen einer neuen SOC-Architektur mit KI-Elementen: Big Data/Data Science Ansatz zur Angriffs-/Malware-/APT-Erkennung mit Machine Learning und Fokus auf False-Positives-Reduzierung. Visualisierungskonzept zu Angriffs-Verdachtsfällen mit den jeweiligen Security-Kontexten per Design Thinking
Aufsetzen + Starten des agilen Open Source SOC Projekts: Strategische Planung, Coaching: Zunächst SAFe + Design Thinking zur Beantragung der Projektfinanzierung, dann vereinfachte Durchführung als Scrum-Prozess; Coaching zur Verbesserung der Produktivität und Zusammenarbeit.
Recherche, Test und Analyse der führenden Open Source SIEM/SOC Systeme: Apache Metron / HCP (Hortonworks Cybersecurity Platform), Apache Spot, dataShark, Alienvault OSSIM, Graylog, SIEMonster, Hunting ELK (HELK), Wazuh, MozDef, OSSEC, Prelude OSS, Snort, QuadrantSec Sagan, Suricata, OpenStack Vitrage.
Requirements Engineering, Use Case 2.0 Engineering der SIEM-/SOC-Features allgemein und im Bahnkontext mit Walking-Skeleton-Ansatz. Analyse der Kosten-/Nutzen-Aspekte der Use Cases und deren Abhängigkeiten als Input für agiles Kunden-Wert-basiertes Produktmanagement/Product Owner Tätigkeiten.
Detail-Vergleich von Elastic mit Solr, der führenden JavaScript-Frameworks: React, Angular und Vue.js, die jeweiligen Native-Frameworks (Ionic etc.) sowie Electron Platform sowie der führenden Clouds: Amazon AWS, Google GCP und Microsoft Azure sowie Docker/Kubernetes, Websockets vs REST, GraphQL vs Odata vs ORDS, Vergleich geeigneter DBs, z.B. für Range-Scans, AWS RedShift vs Athena.
Erstellung einer SOC-Gesamtarchitektur mit Umfängen für Minimal-, Basic-, Advanced- und Premium-Konfiguration mit bis zu 100 Komponenten. Auf dieser Basis Analyse und Präsentation der Chancen/Kosten/Risiken zur Erfüllung von Requirements und Use Cases gegenüber Management und Engineering-Gruppen.
Erstellung der SOC Open Source SOC PoC (Proof of Concept) Architektur basierend auf 3 Säulen: Log-Verarbeitung mit Solr/Elastic, Open Source SOC Elementen (RegEx, Match Expressions mit Spark, Kafka, Solr etc.) sowie einer KI-Säule bestehend aus Data Science und Regel-basierter KI mit Spark sowie Deep Learning mit TensorFlow und PyTorch.
Erstellung und Abstimmung des Open Source SOC PoC Projektplans und der Architektur mit dem Top-Management der Bahn (CISO, Technik-Vorstands-Bereich), Erstellung von ca. 10 Job-Profilen und Staffing/Job-Interviews auf dieser Basis.
Beschaffung von Deep Learning GPU PC- und Server-Hardware und von Cloud-Zugängen (AWS+Azure).
Konzeption der Einführung von Docker/Kubernetes für TensorFlow- und PyTorch-Machine-Learning: Vergleich mit der Alternative containerd mit GRPC, Docker Registries mit YAML für Kubernetes, Flannel (layer 3 network config). Kubernetes Tools: kubelet (primary node agent), kube-proxy, Container Runtime, (High Availability) HA endpoints, kubernetes-ha, Kube-apiserver, kubeadm, cluster autoscaler, scheduler, Helm (Kubernetes Package Manager, Microservices), Tiller (Helm server part), Ingress (load balancing, SSL termination, virtual hosting), kube-keepalived-vip (Kubernetes Virtual IP addresses using keepalived), Kubespray (Deploy a Production Ready Kubernetes Cluster). Analyse von Kubernetes & Airflow Failure Stories auf Risiken und Ableitung von Best Practices/Empfehlungen.
Evaluierung von Memory-Centric-Tools: Apache Pulsar (schnellere Alternative zu Kafka), memcached, Ignite, GridGain, Alluxio, Redis, Hazelcast, Ehcache, Red Hat JBoss Data Grid, Pivotal GemFire, ActiveMQ, RabbitMQ mit AMQP, MQTT.
Auf maximale Performance und Durchsatz optimierte Apache Spark basierende Scheduling-Konzepte mit Memory-Centric Computing, Data-Locality-Optimierung und Minimierung datenintensiver Operationen: Custom Spark Scheduler/Spark Task/DAG/SubDAG Combiner für Dynamic Workflows (In-Memory-Optimierungen), Deep Learning Pipelines, Horovod, TensorFlowOnSpark, TensorBoards, TensorFrames, Data Lineage Optimierungen.
Erstellung eines umfassenden Testmanagementkonzeptes zur Verbesserung der Stabilität von entwickeltem Code mit den Schwerpunkten Datenaufnahme, KI, DevOps, CI/CD-Pipeline (Continuous Integration/Deployment mit Jenkins und Sonar(Qube)), Metadaten und IT-Sicherheit zur Kanalisierung und Verbesserung von Code durch Developer-Test-, Integrationstest-, Pre-Prod- zu Prod-Umgebungen).
Analyse von möglichen Deep Learning Nachfolgetechnologien wie Hierarchical Temporal Memory (HTM), Graph/Memory/Transformer ConvNets (Convolutional Networks) incl. deren frei verfügbaren Implementierungen sowie PLNs (Probabilistic Logic Network): [Naive] Bayesian Belief Networks (BNNs), Markov Logic Networks (MLNs), Conditional Random Fields (CRFs), Direct Graphical Models (DGMs), Statistical Relational Learning (SRL), Stochastic And-Or Grammars (AOGs/SAOGs), Probabilistic Relational Models (PRMs), Markov Logic Networks (MLNs), Relational Dependency Networks (RDNs), Bayesian Logic Programs (BLPs), Probabilistic Graphical Models (PGMs), Markov Random Fields (MRFs), Contextual Graph Markov Models (CGMMs), Hidden Markov Models (HMMs), Human brain neurons (HBNs).
Entwicklung eines neuen Explainable AI (XAI) Verfahrens, das Deep Learning ablösen kann durch Verbindung und Weiterentwicklung mehrerer anderer Modelle und Techniken.
Förderantrag ausgearbeitet zur Beantragung der Förderprogramme KI-für IT-Sicherheit und Erklärbare KI (Explainable AI, XAI) der Bundesregierung: Innovative Ideen entwickelt, neueste KI-, Data Science und Big Data Verfahren und Weiterentwicklungen vorgeschlagen zur Erkennung von ungewöhnlichem Verhalten/Angriffen/Malware sowie neueste NLP-Verfahren zur automatisierten Analyse von textuellen Angriffs- und Malware-Beschreibungen im Internet oder in E-Mails/Wikis sowie der Umsetzung der Cyber Grand Challenge Elemente über Deep Learning, RNNs, CNNs. Hierzu Entwicklung der Geschäftsstrategie und des Geschäftsplans zur separaten Vermarktung der damit geplanten Innovationen.
Erstellen von Sicherheitskonzepten für Windows- und Linux PCs und Sever u.A. bzgl. zahlreicher Sicherheitseinstellungen, IAM mit Red Hat Identity Manager / FreeIPA (Identity, Policy, Audit), keycloak, mehr Logging, etc. sowie durch Installation von bis zu 50 Analyse- und Überwachungs-Tools wie Sigar, Config. Discovery, File Integrity Checker (Afick), CGC Tools: BinaryAnalysisPlatform bap, angr, s2e, KLEE, Strace, ZZUF, BitBlaze.
Konzeption von klassischen Data Science Analysen bzgl. verdächtiger Aktivitäten mit GBM(Gradient Boosting Machine), XGBoost, CatBoost, LightGBM, stacked ensembles, blending, MART (Multiple Additive Regression Trees), Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC.

Analyse der besten Deep Learning Netzwerk-Architekturen in den jeweiligen Teilfeldern: ResNet, ResNext, DenseNet, MSDNet (Multi-Scale DenseNet), RepMet, EfficientNet sowie der folgenden NLP-Implementierungen (z.B. zur Extraktion strukturierter Beschreibungen aus textuellen IoC – Indicators of Compromise): BERT, FastBert, SenseBERT, RoBERTa, GPT, GPT-2.
Konzeption/Entwicklung von neuronalen Deep Learning Netzwerk-Architekturen für TensorFlow, Keras, PyTorch mit diesen Elementen: (De-)Convolution, [Dimensional][Min/Max/Average] (Un-)Pooling, Activation Functions, ReLUs (Rectified Linear Units), ELU (Exponential Linear Unit), SELU (Scaled Exponential Linear Unit), GELU (Gaussian Error Linear Unit), SNN (Self Normalizing Network), LSTM (Long Short-Term Memory), GRU (Gated Recurrent Units), Differentiable Associative Memory (Soft RAM/Hash Table), Episodic Memory, Memory Networks, Self-Attention, Multi-Head-Attention, (Masked Multi) Self Attention, NAC (Neural Accumulator), NALU (Neural Arithmetic Logic Unit), Squeeze-and-Excitation (SE) / SENet, SPN (Sum-Product Network), VAE (Variational Auto-Encoders), FCLs (Fully Connected Layers), PLNs (Probabilistic Logic Networks), GANs (Generative Adversarial Networks), Capsule Networks, gcForest, Differentiable Programming, Neural Architecture Search (NAS), Differentiable Neural Networks, [Transposed](De-)Convolutions, ETL (Extract, Transform, Load) with Input/Output Embedding, (Layer) Normalizing, Softmax, Automatic Machine Learning, Episodic Memory, Differentiable Associative Memory, Large Memory Layers with Product Keys, Deep (Double) Q-Learning, (SSL) Semi-/Self-Supervised Learning, Msc (Adding, Concatenation, Segmentation, Linearization, (Convol.) Filters), Reinforcement Learning, Q-learning, Convolutional Models/Learning, Google Dopamine.
Konzeption der Deep Learning Architekturen für folgende Use Cases / Use Case Slices: Ausbreitung von Malware durch Security-Zonen, Erkennung des (Check-, Verbreitungs-, Ausleitungs-)Verhaltens von Malware, häufiger Angriffe, insbesondere OS-API-Angriffe, Code Injection, etc., von gestohlenen CPU-Zyklen durch Malware, ggf. durch Hooks in Event-Queues zur Erkennung von deren Abarbeitung, von ROP (Return Oriented Programming) mit ROPNN-Variante auf Standard-Libraries durch Vergleich der üblichen mit den zu beurteilenden Einsprungpunkten; Modelle erstellt für Meta-Level: Netzwerk-Metadaten-Analyse, Detail-Level: Nutzdaten-Analyse auf Exploit-Code/-Daten etc., aktuelle Bedrohungen, bekannt gewordene IoCs, Afick-/tripwire-Daten neuronal analysieren, Erkennung von Verschlüsselung und von Schlüssel-Austauschen.
Detail-Konzeption der folgenden Solr-Aspekte: SolrCloud/HDP Search, Integration mit Apache Ranger + Sentry + Atlas, Performance-optimierter SolrJ Client mit parallelen Queries, Distributed Indexing, Index Sharding, Shard Splitting und Rebalancing (auch zur Laufzeit), Cross Data Center Replication (CDCR), Solr Security (Kerberos, AD-Anbindung, SASL, SSL), Versionierung mit Avro & LDP (Linked Data Platform) & Apache Marmotta/RFC 7089, Stretched Cluster vs synched Multi-Cluster, Sizing, Definition der Solr Index Identifier (UID), High Availability (HA) und Disaster Recovery (DR) Mechanismen, Solr HA, Load-Balancing-Konzept (HW-basiert über F5, Ping gegen SolrCloud Node, solr healthcheck, Zookeeper, Content-Query gegen Test-Collection, SolrJ Client), Q Replikation, Konzeption von Overlay-Netzen (SDN, Software-Defined Networking).
Konzeption der Amazon AWS Cloud-Architektur mit Migrationskonzept in die Cloud und vom monolithischen Ansatz hin zu Microservices/Serverless (AWS Lambda), Risiko-Vermeidungsstrategie, Virtualisierung, effizientem JavaScript-UI mit React, Cloud-Sicherheitskonzept, Microservice-Architektur, Microservice-Versionierungsstrategien, optimiertem Datenaustausch, Nutzung des AWS Storage Gateways, AWS Redshift, Relational Database Service (RDS), Simple Queue Service (SQS), Simple Notification Service (SNS), S3, Glue, Kinesis, Athena, DDD (Domain-Driven Design) and Bounded Contexts, Product Line Architecture, Single-Sign-On-Konzept (SSO), etc.
Recherche und Analyse verfügbarer Sicherheits-Incident- und Hacking-Daten als Input für klassisches Machine Learning (Spark MLlib etc.) sowie für Deep Learning (TensorFlow, PyTorch). Es gibt ca. 100 verschiedene Quellen, aber mit Labeling in unterschiedlicher Qualität, unterschiedlichem Konvertier- und Anpassungsaufwand, etc.
Generierung eigener IT-Sicherheits-Trainingsdaten für Machine Learning (ML) über voll-instrumentierte Linux- und Windows-basierte Umgebungen (PC, vmWare), in denen dann ca. 50 PenTesting Tools wie MetaSploit, AutoSploit etc. ausgeführt wurden. Anleitung zur Normalisierung und zum Labeling der so erstellten sowie der externen Daten. Erstellung/Extraktion von regulären Ausdrücken sowie Generierung von ähnlichen Angriffen/Payloads auf dieser Basis.
Konzeption+Entwicklung einer Kontroll- und Steuerungs-Library in Scala für Erkennung und KI, die alle Kernelemente des SOCs monitored und steuert.
Konzeption+Entwicklung einer UI- und Query-Library in Scala, die intelligente Analysen im Kibana-Dashboard mit React visualisiert sowie nach unten über Apache Drill mit Drillbits Query-Mapping in SQL, HQL, Solr und ähnliche Dialekte durchführt. Hierbei haben wir weitgehend Splunk’s SPL (Search Processing Language) als unsere OPL (Open Processing Lanaguage) nachgebildet. Dabei handelt es sich im Wesentlichen um SQL erweitert um Infos zur Darstellung im UI.
Nutzung von Computer Vision Muster-Erkennungsverfahren speziell zur Erkennung von Unregelmäßigkeiten bzw. Malware-/Hacking-Indikatoren: Prozess- und API Aufrufketten, ungewöhnliche API-Nutzung, Indikatoren für Hacker-Bewegungen im Netzwerk, Indikatoren für Malware-Aktivität auf Datei- oder Prozess-Ebene, Nutzung von Laufzeit-Packern, etc.
Entwicklung/Nutzung einer Kombination von datensparsamen Lernverfahren als Antwort auf mangelnde Trainingsdaten. So lassen sich anfänglich aufgrund Datenmangel noch nicht per Deep Learning lernbare Gewichte/Zusammenhänge manuell / halbautomatisch oder datensparsam lernen:

Entwicklung probabilistischer Regeln durch Code-Generierung zur Anbindung von MS Excel bzw. PyTorch/PyProb mittel StringTemplate/VBA an Factorie, ProbLog und Probabilistic Soft Logic (PSL). Diese werden dann später – nach Produktivsetzung – ersetzt durch aus Massendaten gelernte Regelsysteme/Autoencoder.
Probabilistische Programmierung, Bayes- bzw. Stochastik-Libraries, (PP) / Programmable Inference: Stan (mc-stan.org), PyMC3/PyMC4, Soss.jl, Julia + MIT Gen.jl oder Pyro oder Edward oder Microsoft Infer.Net
(SSL) Semi-Supervised Learning/Self-Supervised Learning
Intelligentes Tokenizing, intelligente selektive Feature-Extraktion (hieraus Log- oder Security-Warning-Daten)
Case-Based Reasoning (CBR)/Memory-Based Reasoning (MBR): CRATER, ProCAKE, COLIBRI, etc.
Constraint-based Reasoning, Theory of Constraints (TOC) Frameworks, Hierarchical Constraint Logic Programming (HCLP): Open Policy Agent (OPA) Constraint Framework (OPA CF), Java Constraint Library(JCL), IASolver, BackTalk, POOC, YACS, Integrity
Classical/Probabilistic Rule Engines / Probabilistic Finite Automata / probabilistische endliche Automaten: Virus Scanning Engines wie ClamAV
(Heuristic non-linear) Optimization oder Operations Research Software wie ALGLIB, CasADi, Ceres Solver, Dlib, GEKKO, MIDACO, OpenMDAO, SciPy, GNU Octave, Scilab
Non-linear Planning and Control Libraries: Control Toolbox, AIKIDO, ROS Navigation2+ROS Behavior-Tree, Open Motion Planning Library (OMPL)
SinGAN (Single Input GAN)
Reinforcement Learning, Convolutional Models/Learning, Google Dopamine, Policy Optimization (Policy Gradient, A2C/A3C, PPO, TRPO, DDPG, TD3, SAC), Q-Learning (DDPG, TD3, SAC, DQN, C51, QR-DQN, HER), Deep (Double) Q-Learning, Learn the Model (World Models, I2A, MBMF, MBVE), AlphaZero
klassische KI-Verfahren wie CBR, Constraints, Rules, RDF, OWL,
Gesamte Liste der klassischen datensparsamen Lernverfahren: Causality, logic/deduction systems, deductive databases, semantic networks, heuristics, collective intelligence, automata/state machines, blackboard systems, nonstandard logics/temporal logic, (knowledge) representation, automatic programming, genetic programming, qualitative reasoning, agents, fuzzy logic, model-based reasoning, ontology, quantum computing, analogy, pattern recognition/comparison, decision theory, cognitive science, control system theory, dynamical systems, self-organizing systems, hybrid AI, modularity, optimization, goal-oriented systems, feature extraction/detection, utility/values/fitness/progress, formal grammars and languages, classifiers/concept formation, problem solving, argumentation/informal logic, common sense reasoning, coherence/consistency, relevance/sensitivity analysis, semiotics, game theory, automation, behaviorism, knowledge engineering, semantic web, sorting/typology/taxonomy, cooperation theory, systems theory.

Recherche/Analyse/Erweiterung aktueller Ideen/Tools zu technischen Knackpunkten in den (Teil-)Projekten oder direkter Vorschlag der Lösungen:
- Analyse von Semantik-Tools, Symbolic AI und Explainable AI für das KI-Security-Förderprogramm sowie für neue Arbeitspakete: KL-ONE: Protégé, LOOM, Knowledge Engineering Environment (KEE), Pellet, RacerPro, FaCT++ & HermiT, Non-Linear Planner, CBR (Case-Based Reasoning), RDF (Resource Description Framework)/ SPARQL (SPARQL Protocol and RDF Query Language), OpenCog (AtomSpace, Atomese, MOSES/MetaCog, Link-Grammar), Induktions-/Deduktions-Technologie wie OWL/OWL-DL (Ontology Web Language Description Logics), führende Implementierung: Apache Jena OWL, HPSG (Head-driven Phrase Structure Grammar) Parsing: DELPH-IN PET Parser, Enju, Grammix, Stanford CoreNLP, OpenEphyra, Frame-Logik, Explainable AI mit LOCO (Leave-One-Covariate-Out).
- NLP (Natural Language Processing) / Computerlinguistik Forschung & Auswertung: Analysieren/Parsen natürlicher Szenenbilder zusammen mit dem textuellen Parsen von Bildunterschriften/Beschreibungen aus dem Internet zum Trainieren von Bildverarbeitungsmodellen (Stanford CoreNLP-Ansatz); Klassifizieren von Trouble Tickets / Texten in Kategorien/Aktualitäten; Wartung / Gelernte Lektionen: Analyse textueller Berichte von Technikern über IT-/Fahrprobleme und autonome Fahrtenschwierigkeiten (falsche Klassifizierungen/Reaktionen) für Erkenntnisse/Feedbacks auf NLP-Ebene.
- Tools/Algorithmen: OpenAI GPT/GPT-2 (Generative Pre-trained Transformer), Facebook XLM (Cross-lingual Language Model Pretraining), Facebook PyText (NLP Modeling Framework, auf PyTorch), Google BERT (Bidirectional Encoder Representations from Transformers), Kombinierte Multi-Task-Modell-NLP, Vortraining kompletter (Sprach-/Tiefenlernen) Modelle mit hierarchischen Darstellungen, Aufmerksamkeitsmodelle, DLNLP (Deep Learning NLP: Embed, Encode, Attend, Predict), Hierarchical Multi-Task Learning MetaMind-Ansatz, DeepMind, Deep Transfer Learning for NLP, vortrainierte Sprachmodelle, Worteinbettungen / Worttaschen, Sequenz-zu-Sequenz-Modelle, Gedächtnis-basierte Netzwerke, Gegensätzliches Lernen, Verstärkungslernen, semantische Rollenkennzeichnung, Repräsentationslernen, Textklassifizierung mit TensorFlow Estimatoren, word2vec, Vektor-Raum-Modell/Mapping von Features zu Einbettungen, Skip-Grammen, Seq2seq Encoder-Decoder, ULM-FiT, ELMo, OpenAI Transformer / GPT, Google BERT, BERT, Transfer Learning, OpenAI Transformer, spaCy + Cython zur Beschleunigung, genSim, OpenNMT (Neural Machine Translation), AllenNLP (auf PyTorch), OpenNLP, Verstärkungslernen zum Erlernen korrekter Klassifizierungen/Labelzuweisungen/Fragen & Antworten, tief latente Variablenmodelle, Visual Commonsense Season Reasoning, Modell-agnostisches Meta-Learning (MAML), Multi-Hop-Denken, Aufmerksamkeitsmasken für (Self-Attention) GANs (SAGAN), TensorFlow Lingvo (NLP sequence models), OpenEphyra (Teil von IBM Watson).
- Für NLP Generation: OpenAI GPT/GPT-2 (Generative Pre-trained Transformer), Facebook XLM (Cross-lingual Language Model Pretraining), Google BERT (Bidirectional Encoder Representations from Transformers).
- KI/AI/Data Science/Big Data: Algorithmen und Tools: LSTM vs. GRU, Feast AI Feature Store, K8s Sidecar Injector, TensorFlow 2.0 (Vorteile von Update/Migration), Tensor Comprehensions, Neural Ordinary Differential Equations, Visual Common Sense Reasoning, Deep Learning, RNNs, CNNs for Self-Driving Cars / Logically/temporally consistent virtual 3D city generation, Deep Labelling for Semantic Image Segmentation mit Keras/TensorFlow, Design Patterns for Deep Learning, RNN, CNN Architectures, DeepMind (Kapitan, Scalable Agent, Learning to Learn, TF Reinforcement Learning agents), Uber’s QALM (QoS Load Management), Fusion.js (JS framework supporting React, Redux & pre-configured optimized boilerplate, hot module reloading, data-aware server-side rendering, bundle splitting, plugin-architecture, observability, I18n), Horovod (distributed training framework for TensorFlow, Keras, PyTorch), Ludwig (train and test deep learning models without coding), AresDB (Uber's GPU-powered real-time analytics engine), Uber‘s Sparse Blocks Network (SBNet, TensorFlow algorithm), Google Dopamine reinforcement learning framework based on TensorFlow, Kubernetes Operator für Apache Spark, FastAI Deep Learning, Polygon-RNN++, Flow Framework: Project to Product Agile Process, IntelAI OpenVINO (inference serving component for AI models), IntelAI Nauta (distributed computing environment for running DL model training), TensorFlow Extended (TFX), Salesforce Einstein TransmogrifAI (machine learning automation with AutoML), OpenCV (Open Computer Vision Library), GluonCV, Angel-ML (handling higher dimension ML models), Acumos AI (design, integration and deployment of AI models; AI Model Marketplace), (Paddle EDL: Elastic Deep Learning framework: optimizes deep learning job and waiting time in the cluster: Kubernetes controller & fault-tolerable deep learning framework: PaddlePaddle & TensorFlow), Pyro (Deep Probabilistic Programming Language), Jaeger (OS distributed tracing system, optimized for microservices).
- Vorschläge zur Deep-Learning-Beschleunigung u.A. mit aktuellen Publikationen (z.B. Modell-Kompression, Nutzung von HW-Eigenschaften) sowie der Integration von Domänen-Wissen/Semantik/Regeln/Entscheidungstabellen/Ontologien/Erklärbare-KI-Ergebnissen in Deep Learning; Entwicklung von optimierten Hybrid-Learning-Modellen (Deep [Reinforcement] Learning mit klassischen Lernverfahren kombiniert).
- Konzept für AIops (Artificial Intelligence Operations) / KI-Programmierung / Ausführung der Skripte: Alle relevanten fest programmierten Parameter wurden in eine separate CMS-Datenbank oder minimal in umgebungsspezifische Konfigurations-/Property-Dateien extrahiert. D.h. ein Parametersatz für die Entwicklungsumgebung, einer für die Testumgebung,.... bis zur Produktionsumgebung (Python NetworkX, Snowflake, …).
- Konzept zur Skalierung und Beschleunigung von KI-Workloads, Verwaltung komplexer Workloads, Beschleunigung der Entwicklung und Bereitstellung statistischer Modelle, Voroptimierung in Plattformen für KI-Workloads: Datenaufnahme und -aufbereitung, Datenmodellierung und -schulung, Datenbereitstellung und -betrieb, Integration von maschinellem Lernen mit vorgefertigten Blueprints für Ansible/Airflow, automatisierte Speicherkapazitätsbereitstellung, vorausschauende Speicheroptimierung (in hyperkonvergierten Umgebungen), KI, die hyperkonvergierte Hardware zur Anwendungsbeschleunigung konfiguriert, Passwort und "PII-Discovery" (PII = Personally Identifiable Information), wann Lasten mit hohen CPU-/GPU-Anforderungen und -Nutzungsdauern zu starten sind (die z.B. zu Deadlocks/Timing-Problemen oder dazu führen können dass andere Jobs warten müssen), wann Deep Learning/KI-Jobs mit geringerer Priorität zu starten sind und wann Ressourcen auf hochpriore Jobs/Lasten verschoben werden müssen, wann Diagnostik-Sammelprozesse nach Warnungen/Fehlern/Ausfällen gestartet werden, …
NLP-Analyse (Natural Language Processing) von Log- und Web-Inhalten:
- Extraktion von Fließtext-IoC-Inhalten (Indicator of Compromise) ins STIX-Format zur teilautomatischen Weiterverarbeitung, etwa automatisierte Suche nach Dateihashes, Analyse & Sperren von offenen Ports und ein-/ausgehenden Verbindungen.
- Semantische Kategorisierung (Problem-Kategorie, Schwere des Fehlers und möglicher Auswirkungen/Risiken, Dringlichkeit) und textuelle NLP-Analyse von Log-Inhalten mit genSim, spaCy und in Teilen auch mit Google BERT, GPT, Graph-ConvNets mit Octavian, Google Sling, TensorFlow graph_nets & gcn (Graph Convolutional Networks), PyTorch Geometric.
- Data Science-Beratung sowie Management-und Konvertierungskonzepte für Machine-Learning-Modelle mit ONNX (Open Neural Network Exchange: High-performance optimizer and inference engine for machine learning models and converter between TensorFlow, CNTK, Caffe2, Theano, PyTorch, Chainer formats).

Kenntnisse

Kunde

Deutsche Bahn AG

Einsatzort

Frankfurt/Main + Homeoffice

5 Monate

2018-11 - 2019-03

Autonomous Driving Projekt

KI- und IT-Sicherheits-Architekt und Technical Lead Meta Data Ma

Rolle

KI- und IT-Sicherheits-Architekt und Technical Lead Meta Data Ma

Projektinhalte

Autonomous Driving Projekt: Self-Driving Cars

Agile Coaching: Scrum + Design Thinking mit Elementen aus dem Flow-Framework (Project to Product) sowie SAFe-Elementen, Verbesserung der Produktivität, Code-Stabilität und Zusammenarbeit.
Strategie zur Fokussierung und Optimierung der agilen DevOps-Team-Performance / Minimierung von Risiken: Die skalierbare Integration Dutzender komplexer teils unreifer Open Source Komponenten ist extrem komplex, weil sie oft je mehrere Hundert Konfigurations-Parameter haben (teils in Config-Files, teils über Aufrufe /Glue Code zu Scripten) und das Job- und Cluster-Situations-bezogen. Zusätzlich sind viele Workarounds oder Fallbacks nötig. Python ist die Risiko-behaftetste Sprach (z.B. weil interpretiert, Fehlerursachen manifestieren sich erst spät, kaum brauchbare Code Quality- oder Refactoring-Tools, wenig etablierte Best Practices, Entwickler kopieren Code von Internet-Trivial-Beispielen und versuchen, damit komplexe Systeme aufzubauen, …). Dann gibt es viele weitere Risiken: Mangelnde Dokumentation, zu wenig kooperative Zusammenarbeit, zu langes Warten auf nötige Inputs/Bottlenecks, zu unvollständig eingeführte Konzepte wie SSO (Single Sign-On) + persönliche Verantwortung, Sicherheits-Features, Logging-/Tracing-Features, stark divergierende wenig wartbare Implementierungen, zu spät bemerkte Limitierungen/Bugs der verwendeten Tools, in der Folge häufiges Umschwenken der Tools, mangelnde Bereitschaft zu Veränderungen (Prozesse, Gewohnheiten und Motivationen), etc.
Entwickelte Lösungsstrategien: Config-Management als Exzellenz-Disziplin + Data Governance / Data Catalogue, AIops (AI Operations), Serverless/Microservices (damit intelligentes automatisches Management und Skalierbarkeit), viele stringente und kontrollierte strategische, taktische und operative Vorgaben aufgrund von Grob-Architektur, Vision und klaren Prioritäten, vollständige Dokumentation, enge effiziente Zusammenarbeit, klare Aufgaben-Verteilung und Planung (strategisches Produkt Management / Portfolio-Management / Produktlinien-Architekturen) mit Berücksichtigung von Abhängigkeiten, Erkennung & Beseitigung von Bottlenecks, intelligentes Monitoring, KI-basiertes Testing (Anomalie-Erkennung in Kombination mit Logging/Tracing) mit mehreren Test-Umgebungen + professionalisierte CI/CD-Pipeline, Code Analyse & Refactorings (Gemeinsamkeiten extrahieren, Utility-Libraries, etc.), Einführung von mehr Code Quality Tools (Analyse/Refactoring/Testing/Tracing/Debugging), Standardisierung/Dokumentation eines jeden neuen Mechanismus (welche Implementierungsvarianten/Tools/Libs/APIs, Namespaces, Stati, Warn- und Fehlermeldungen, welche Diagnose- und Fallback-Mechanismen, Scheduling/Workflow mit strategischer Planung aller Ressourcen und Vermeidung von Deadlocks/Race Conditions, IT-Sicherheit), Erfassung und Nutzen aller Abhängigkeiten (zum Betriebssystem, zu sonstigen Tools/Libs), Definition + Implementierung von Workarounds zu Standard-Problemen wie Stale File Handles, Stale Sockets, Vermeidung von Out-of-X-Meldungen und Thrashing, Netzwerk-Problemen, Ausrichtung auf Veränderungen bei den Prozessen, den Gewohnheiten und den Motivationen, etc.
Security-Konzept für Docker/Kubernetes/K8s: kubectl, Docker Authentication on Kubernetes pods, AuthN/AuthZ Methods wie UMA 2.0 (Federated Authorization for User-Managed Access), OpenID Connect mit keycloak über Translations, Kubernetes RBAC & User Impersonation, Volume Type Whitelisting, SELinux/seccomp/AppArmor, System Call Filter, Kubernetes Helm Sicherheitslimits & Verbesserungen, DEX vs Keycloak, SSSD PAM module (POSIX) für MapR Filesystem/HDFS, MapR Container Location Database (CLDB), etc.
Vorschlag von Architekturen / Verbesserungen: Zero-Downtime-Architekturen, schnelleres Dateneinlesen, Autonomes-Fahren-Analysierer / robotic-drive analyzer (RDA), Messaging/Workflow und Containerisierungsarchitekturen.
Konzeption der Microservices/APIs, u.A. für die Metadatenverwaltung, Machine Learning Parameter, ...
Optimierung der Real-time Data Ingestion Verfahren für hochauflösende Self-Driving Car Video- und Sensor-Daten (TB-PB Datenmengen) in einen MapR Hadoop Datalake mit MapR-DB und Ceph Storage (Reliable Autonomic Distributed Object Store (RADOS)), etcd (distributed key value store) mit LoadBalancer (LB), Real-Time Monitoring mit Prometheus und Elastic/ELK.
Konzeption der Einführung von Docker/Kubernetes für TensorFlow-MachineLearning: Vergleich mit der Alternative containerd mit GRPC, Docker Registries mit YAML für Kubernetes, Flannel (layer 3 network config). Kubernetes Tools: kubelet (primary node agent), kube-proxy, Container Runtime, (High Availability) HA endpoints, kubernetes-ha, Kube-apiserver, kubeadm, cluster autoscaler, scheduler, Helm (Kubernetes Package Manager, Microservices), Tiller (Helm server part), Ingress (load balancing, SSL termination, virtual hosting), kube-keepalived-vip (Kubernetes Virtual IP addresses using keepalived), Kubespray (Deploy a Production Ready Kubernetes Cluster). Analyse von Kubernetes & Airflow Failure Stories auf Risiken und Ableitung von Best Practices/Empfehlungen.
Scheduling-Konzepte mit Airflow, LocalExecutor, Celery (Distributed Task Queue), CeleryExecutor, RabbitMQ, Dynamic Workflows mit DAGs/SubDAGs mit PythonOperator/BashOperator, upstream/downstream/X-COM, Backfill, Catchup, Kubeflow, Seldon Core.
Parallelisierung/Optimierung/Skalieren/Wiederaufsetzen/Fortführen von Deep Learning und speziell TensorFlow-Pipelines und supervised Optimierungszyklen, u.A. mit Spark: Horovod (Training + HorovodEstimator für TensorFlow, Keras, and PyTorch), TensorFlowOnSpark, TensorBoards, TensorFrames.
Auf maximale Performance und Durchsatz optimierte Apache Spark basierende Scheduling-Konzepte mit Memory-centric Libraries / In-Memory Data Grids (IMDG) wie Apache Pulsar, memcached, Ignite, GridGain, Alluxio, Redis, Hazelcast, Ehcache, Red Hat JBoss Data Grid, Pivotal GemFire, ActiveMQ, RabbitMQ mit AMQP, MQTT: Data-Locality-Optimierung und Minimierung datenintensiver Operationen: Custom Spark Scheduler/Spark Task/DAG/SubDAG Combiner für Dynamic Workflows (In-Memory-Optimierungen), Deep Learning Pipelines, Horovod, TensorFlowOnSpark, TensorBoards, TensorFrames, Data Lineage Optimierungen.
Review aller Security-Aspekte: Airflow, Kubernetes, Docker, Zeppelin, Spark, Java-Sicherheit mit Apache Shiro/Spring Security, sichere Speicherung von Anmeldeinformationen im Unix-Dateisystem, Github, Soft/Hard PSE (Personal Security Environment) mit z.B. SSO (Single Sign On with CA SiteMinder, PAI, OpenId Connect), CyberArk Password Vault + IAM + Privileged Threat Analytics (PTA), SSO oder GPG + Ansible Vault, etc.
Hilfe/Review bei Angular-basierten Visualisierungen, insbesondere für Grafana (zunächst in Angular, dann in React weil Grafana von Angular auf React migriert wurde).
Erstellung eines umfassenden Testmanagementkonzeptes zur Verbesserung der Stabilität von entwickeltem Code mit den Schwerpunkten Datenaufnahme, KI, DevOps, CI/CD-Pipeline (Continuous Integration/Deployment mit Jenkins und Sonar(Qube)), Metadaten und IT-Sicherheit zur Kanalisierung und Verbesserung von Code durch Developer-Test-, Integrationstest-, Pre-Prod- zu Prod-Umgebungen).
Konzeption eines Objekt-Erkennungsmoduls im Rahmen der Computer Vision: Erkennen von 2D-/3D-Objektteilen, Registrieren/Stitchen der Teile zu einem Gesamtobjekt und Objekterkennung: Z.B. Menschen, Verkehrszeichen, Fahrzeuge in verschiedenen (Teil-)Ansichten mit TensorFlow und PyTorch. Wesentliche Algorithmen des Hybrid-Verfahrens: Iterative Closest Point (ICP) with landmarks , Efficient SparseICP, Shape Registration, Depth Maps, Combined fusion approaches, 3D Regression, 3D (boosted) Decision Trees (XGBoost), 3D Pointcloud Triangulation/Voronoi & Surface Normals, Deformable 3D Object Matching, LIDAR+RGB Fusion, PointRCNN, ContFuse, Valeo Complex-YOLO, 3D YOLO, LaserNet++, Apple VoxelNet, Core Approximation Matching, Generating/Comparing 3D Voxel Exemplars (NEC), Data-Driven 3D Voxel Patterns for Object Category Recognition, Multi-Scale DenseNet (MSDNet), DensePose (real-time body pose estimation), RetinaNet, Aptiv/nuTonomy: PointPillars, SSD: Single Shot (MultiBox) Detector, ‘Residual Learning’ (Resnet) Variants, ResNeXt, VoteNet Deep Hough Voting, AVOD: Aggregate View Object Detection network, Baidu: Multi-view 3D networks (MV3D), Frustum PointNet Detection, Uber: ContFuse (Continous Fusion), 3D Labeling Tool LATTE.
Recherche/Analyse/Erweiterung aktueller Ideen/Tools zu technischen Knackpunkten in den Projekten für den Lieferanten DXC und Weitergabe an den DXC-Vertrieb zur Akquise neuer Arbeitspakete oder direkter Vorschlag der Lösungen samt passenden Autonomous-Driving-Use-Cases an die relevanten Ansprechpartner in den Teilprojekten:
- NLP (Natural Language Processing) / Computerlinguistik Forschung & Auswertung: Analysieren/Parsen natürlicher Szenenbilder zusammen mit dem textuellen Parsen von Bildunterschriften/Beschreibungen aus dem Internet zum Trainieren von Bildverarbeitungsmodellen (Stanford CoreNLP-Ansatz); Klassifizieren von Trouble Tickets / Texten in Kategorien/Aktualitäten; Wartung / Gelernte Lektionen: Analyse textueller Berichte von Technikern über IT-/Fahrprobleme und autonome Fahrtenschwierigkeiten (falsche Klassifizierungen/Reaktionen) für Erkenntnisse/Feedbacks auf NLP-Ebene; Generieren von a) Beschreibungen für Fahrer, welche Art von Trainings-Situationen im Straßenverkehr anzustreben sind, b) Um welche Art von Fehlerursachen es sich bei gegebenen Symptomen handeln könnte als Liste oder Text.
- Tools/Algorithmen: OpenAI GPT-2 (Generative Pre-trained Transformer), Facebook XLM (Cross-lingual Language Model Pretraining), Facebook PyText (NLP Modeling Framework, auf PyTorch), Google BERT (Bidirectional Encoder Representations from Transformers), Kombinierte Multi-Task-Modell-NLP, Vortraining kompletter (Sprach-/Tiefenlernen) Modelle mit hierarchischen Darstellungen, Aufmerksamkeitsmodelle, DLNLP (Deep Learning NLP: Embed, Encode, Attend, Predict), Hierarchical Multi-Task Learning Model (HMTL), semi-supervised Lernalgorithmen zur Erstellung von Proxy-Labels auf unmarkierten Daten, BiLSTM, SalesForce MetaMind-Ansatz, DeepMind, Deep Transfer Learning for NLP, vortrainierte Sprachmodelle, Worteinbettungen / Worttaschen, Sequenz-zu-Sequenz-Modelle, Gedächtnis-basierte Netzwerke, Gegensätzliches Lernen, Verstärkungslernen, semantische Rollenkennzeichnung, Repräsentationslernen, Textklassifizierung mit TensorFlow Estimatoren, word2vec, Vektor-Raum-Modell/Mapping von Features zu Einbettungen, Skip-Grammen, Seq2seq Encoder-Decoder, ULM-FiT, ELMo, OpenAI Transformer / GPT, Google BERT, BERT, Transfer Learning, OpenAI Transformer, spaCy + Cython zur Beschleunigung, OpenNMT (Neural Machine Translation), AllenNLP (auf PyTorch), OpenNLP, Verstärkungslernen zum Erlernen korrekter Klassifizierungen/Labelzuweisungen/Fragen & Antworten, tief latente Variablenmodelle, Visual Commonsense Season Reasoning, Modell-agnostisches Meta-Learning (MAML), Multi-Hop-Denken, Aufmerksamkeitsmasken für (Self-Attention) GANs (SAGAN), TensorFlow Lingvo (NLP sequence models), OpenEphyra (Teil von IBM Watson).
- KI/AI/Data Science/Big Data: Algorithmen und Tools: LSTM vs. GRU, Feast AI Feature Store, K8s Sidecar Injector, TensorFlow 2.0 (Vorteile von Update/Migration), Tensor Comprehensions, Style GANs, Neural Ordinary Differential Equations, Visual Common Sense Reasoning, Deep Learning, RNNs, CNNs for Self-Driving Cars / Logically/temporally consistent virtual 3D city generation, Deep Labelling for Semantic Image Segmentation mit Keras/TensorFlow, Design Patterns for Deep Learning, RNN, CNN Architectures, DeepMind (Kapitan, Scalable Agent, Learning to Learn, TF Reinforcement Learning agents), Uber’s QALM (QoS Load Management), Fusion.js (JS framework supporting React, Redux & pre-configured optimized boilerplate, hot module reloading, data-aware server-side rendering, bundle splitting, plugin-architecture, observability, I18n), Horovod (distributed training framework for TensorFlow, Keras, PyTorch), Ludwig (train and test deep learning models without coding), AresDB (Uber's GPU-powered real-time analytics engine), Uber‘s Sparse Blocks Network (SBNet, TensorFlow algorithm), Google Dopamine reinforcement learning framework based on TensorFlow, Kubernetes Operator für Apache Spark, FastAI Deep Learning, Polygon-RNN++, Flow Framework: Project to Product Agile Process, IntelAI OpenVINO (inference serving component for AI models), IntelAI Nauta (distributed computing environment for running DL model training), TensorFlow Extended (TFX), Salesforce Einstein TransmogrifAI (machine learning automation with AutoML), OpenCV (Open Computer Vision Library), GluonCV, Angel-ML (handling higher dimension ML models), Acumos AI (design, integration and deployment of AI models; AI Model Marketplace), (Paddle EDL: Elastic Deep Learning framework: optimizes deep learning job and waiting time in the cluster: Kubernetes controller & fault-tolerable deep learning framework: PaddlePaddle & TensorFlow), Pyro (Deep Probabilistic Programming Language), Jaeger (OS distributed tracing system, optimized for microservices), EAST (Efficient and Accurate Scene Text Detector).
- Vorschläge zur Deep-Learning-Beschleunigung u.A. mit aktuellen Publikationen (z.B. Modell-Kompression, Nutzung von HW-Eigenschaften) sowie der Integration von Domänen-Wissen/Semantik/Regeln/Entscheidungstabellen/Ontologien/Erklärbare-KI-Ergebnissen in Deep Learning; Entwicklung von optimierten Hybrid-Learning-Modellen (Deep [Reinforcement] Learning mit klassischen Lernverfahren kombiniert).
- Machine Learning / Image / Video-Analyse-Tool Recherche und Integrationskonzepte für Sensor Fusion, sonstige Daten-Zusammenführung, Massendatenverarbeitung, UML-Software-Architektur: OpenCL (Computing Language für div. HW Plattformen), OpenCV (Computer Vision), OpenVX (Vision Cross-Platform), Vulkan, OpenGL (ES), CUDA, nVidia GPU Toolkits wie VulkanRT.
- Explainable AI (XAI) Techniques: Individual conditional expectation (ICE) Plots, Partial Dependence Plots (PDPs), SHapley Additive exPlanations (SHAP), Local Interpretable Model-agnostic Explanations (LIME), Counterfactual method, Causality, Leave One Covariate Out (LOCO), Layer-wise Relevance, Propagation (LRP), Generalized additive model (GAM), Learn to Explain, Anchors: High-Precision Model-agnostic Explanations.
- Konzept für AIops (Artificial Intelligence Operations) / KI-basierte Betriebs-Optimierung im Kontext Metadatamanagement und Ingest:
  - Konzept für die Einführung eines CMS (Config Management System) zur Minimierung menschlicher Fehler bei der Programmierung / Ausführung der Skripte: Alle relevanten fest programmierten Parameter wurden in eine separate CMS-Datenbank oder minimal in umgebungsspezifische Konfigurations-/Property-Dateien extrahiert. D.h. ein Parametersatz für die Entwicklungsumgebung, einer für die Testumgebung,.... bis zur Produktionsumgebung (Python NetworkX, Snowflake, …).
  - Konzept zur Skalierung und Beschleunigung von KI-Workloads, Verwaltung komplexer Workloads, Beschleunigung der Entwicklung und Bereitstellung statistischer Modelle, Voroptimierung in Plattformen für KI-Workloads: Datenaufnahme und -aufbereitung, Datenmodellierung und -schulung, Datenbereitstellung und -betrieb, Integration von maschinellem Lernen mit vorgefertigten Blueprints für Chef/Puppet/Ansible/Airflow, automatisierte Speicherkapazitätsbereitstellung, vorausschauende Speicheroptimierung (in hyperkonvergierten Umgebungen), KI, die hyperkonvergierte Hardware zur Anwendungsbeschleunigung konfiguriert, Passwort und "PII-Discovery" (PII = Personally Identifiable Information), wann Lasten mit hohen CPU-/GPU-Anforderungen und -Nutzungsdauern zu starten sind (die z.B. zu Deadlocks/Timing-Problemen oder dazu führen können dass andere Jobs warten müssen), wann Deep Learning/KI-Jobs mit geringerer Priorität zu starten sind und wann Ressourcen auf hochpriore Jobs/Lasten verschoben werden müssen, wann Diagnostik-Sammelprozesse nach Warnungen/Fehlern/Ausfällen gestartet werden, …
- Vorschlag, Ausarbeitung und Diskussion der geplanten/angebotenen Arbeitspakete zu Techniken, Tools und Innovationen mit Automobilherstellern und anderen Kunden.
- Data Science-Beratung sowie Management-und Konvertierungskonzepte für Machine-Learning-Modelle mit ONNX (Open Neural Network Exchange: High-performance optimizer and inference engine for machine learning models and converter between TensorFlow, CNTK, Caffe2, Theano, PyTorch, Chainer formats).
Projektende: Daimler und BMW haben ihre Autonomous-Driving-Aktivitäten offiziell zusammengelegt mit entsprechender Re-Organisation.

DS-Ansatz (Data Science):

Produkte

Kunde

DXC f�r Daimler und BMW

Einsatzort

S�ddeutschland

1 Jahr

2017-12 - 2018-11

Aufbau des SOCs (Security Operations Centers)

Full Stack IT Architekt: Applikationen, Netzwerk, Security/DSGVO

Rolle

Full Stack IT Architekt: Applikationen, Netzwerk, Security/DSGVO

Projektinhalte

Konzeption der Security-Maßnahmen für das neue SAP Core Banking System als Security Architect.
Überprüfung von Use Cases auf Relevanz für DSGVO/Datenschutz und Erstellung entsprechender Bewertungen, Ausfüllen von DSGVO-Formularen.
IAM (Identity and Access Management): SAP NetWeaver Identity Management (IdM) eingeführt mit SAML, OAuth, OpenId Connect, Kerberos; Konsolidierung der IAM-/IdM-Funktionalität, die vorher über verschiedene Technologie-Inseln verteilt waren wie LDAP, Active Directory (AD) Federation Services (ADFS), RACF, Oracle Enterprise Directory Server (OEDS), Lotus Notes Domino, etc.
Vorschlag von abgeleiteten IT-Security-Architektur- und DSGVO-Maßnahmen auf Basis der vorhandenen Grob-Architektur, Konzept für Privileged Account Management (PAM) und weitergehende Sicherheits-Maßnahmen.
Zukunftsvision der SOC-Architektur und Konzeption ihrer Komponentenarchitektur - mit möglichst vielen Open-Source-Tools, um Kosten zu sparen und neuesten KI/AI (Künstliche/Artificial Intelligence) und Machine Learning Frameworks: Spark + MLLib, XGBoost, ….
(Weiterer) Aufbau des SOCs (Security Operations Center) als Architekt/PM mit am Ende ca. 60 Security-Tools. Davon wurden ca. 15 Tools neu eingeführt. Deren Einführung sowie die Integration und Automatisierung eines Großteils der Tools habe ich insbesondere konzipiert und in Teilen programmiert: Automatisierte Echtzeit-Datenflüsse und Reduktion von False-Positives.
Red-Blue-Team Testing / Penetration Testing / PenTesting und Verteidigung, insbesondere bzgl. der Verwundbarkeit gegenüber aktuellen Exploits und den Indikatoren im SIEM und den Folgen/Risiken für die IT und der Optimierung der möglichst schnellen Erkennung mit wenigen False Positives.
Evaluierung der Risk Management Frameworks IRAM2, FAIR, OCTAVE, COSO gegen den MaRisk-Standard von 2017 und BAIT (Bankaufsichtlichen Anforderungen an die IT).
Erweiterung und Umsetzung von Vulnerability Management, Patch Management und Security-Standards-Compliance sowie Dokumentation dazugehöriger Risiken.
Patching-/Risk-Projektmanager Germany bzgl. Meltdown/Spectre (CPU Bugs).
Mitarbeit bzgl. IT-Sicherheit an der R3/Corda Blockchain Implementierung der HSBC in Kotlin mit über 100 anderen Banken und Vorbereitung der Herausgabe des Utility Settlement Coins (USC) der Großbanken sowie der Anbindung der Big Data basierenden Bank-eigenen Fraud Detection Lösung, z.B. bzgl. Security-Anbindung per BlueTalon + Ranger.
Integration von Security-Systemen per Serverless-Architektur über Google Cloud Functions per REST APIs mit Go: Automatisierte Integration von Configuration Management, Nessus- + Tripwire-Security Scans (Windows/Linux Datenbanken: Verwundbarkeiten und Compliance-Einstellungen) sowie der datenbankbasierten Auswertung der Scans (manuelle Gewichtungen) und Weiterleitung/Eskalation der Ergebnisse.
Mitentwicklung von Mobile-App- und Cloud Security Standards, insbesondere für Hybrid Clouds mit dem Google Cloud Stack, z.B. der Software-Defined Perimeter Ansatz.
Architektur obiger APIs nach Open Banking Standard mit Mulesoft AnyPoint Platform (API Gateway, App execution, API Repository & Portal, API Designer, Runtime Manager, CloudHub, Private Cloud, AnyPoint Studio).
Beratung der Architekten und Entwickler-Teams bzgl. sicherer Konzeption/Entwicklung, sicherer Anbindung von Security Libraries (z.B. Spring Security, SAML, OAuth, LDAP, OpenId Connect), Patchen von Library-Verwundbarkeiten (Vermeiden/Minimieren der Verwendung von anfälligen Versionen: Lösungen und Workarounds) und Security Code-Review mit Tool-Unterstützung (ConQAT + Teamscale von CQSE, Support Query Framework (SQF) und Code Inspector von SAP (ABAP), Micro Focus Fortify, LGTM, Semmle, FindBugs, PMD, SonarQube, Checkstyle, etc.) im Rahmen von TQE (Total Quality Engineering).
Beratung bei der Weiterentwicklung der Asset Management und Configuration Management Datenbanken/Systeme um priorisierte Risiko- und Gegenmaßnahmen-Einschätzung in Richtung des statistischen Common Criteria Ansatzes.
Internal Reviews/Assessments, Erstellen von Management Self-Identified Issue (MSII) Berichten als Vorbereitung für offizielle Reviews/Assessments.
Business Impact Analysis (BIA) und Global Application Security Risk Assessments (GASRA).
Business Process Definition / Optimization / Re-Engineering: Network Based Intrusion Prevention (NIPS), Vulnerability Management, Privileged Access Management, Testing & Patching, Anlegen/Anpassen von Beantragungs-/Entziehungs- und Überwachungsprozes-sen mit Neocase Advanced BPM Suite / NEO Process Manager.
Security-Architektur für einen Amazon-Cloud- und Serverless-PoC: AWS, Fargate, S3, EC2, VPC (Virtual Private Cloud), IAM, RDS, RedShift, Aurora, DynamoDB (Rel. DBs), Neptune (Graph DB), ElastiCache (In-Mem-DB), Elastic Beanstalk (Orchestration Srv), CloudTrail (Sec. Log), STS (Secure Token Srv), EKS (Elastic Kubernetes Service), EBS (Elastic Block Store), OpsWorks (Config Mgmt), SQS (Simple Queue Srv), CloudWatch (Billing/Metrics), Docker, Kubernetes, Kubeless, Go.
Security-Architektur für PoCs mit Blockchain for trade (We.Trade, Voltron, R3/Corda), Biocatch, Microplatforms, Eclipse Microprofile (Hammok, Red Hat Wildfly Swarm, Open Liberty/WebSphere Liberty), JWT, OpenTracing, MicroNaut, ThreatMetrix, UNSilo, Skytree, TidalScale, DataRobot, data iku, Ayasdi (AML), Quantexa, Seldon.io, gVisor.
Unterstützung bei der Einführung agiler Prozesse: Design Thinking (Empathie-Maps, Personas, User Profile Canvas, Value Proposition Canvas, Business Model Canvas, Business Ecosystem Canvas, Customer Journeys, HOOK (Trigger, Action, Variable Reward, Investment), SCAMPER (Substitute, Combine, Adjust, Modify, Put to other uses, Eliminate, Rearrange), MVP, MVE (Minimum Viable Ecosystem), Virtuous Loops, Systems Thinking, Business Ecosystem Design, Lean Canvas, NABC (Needs Approach Benefits Competition), SWOT) in Kombination mit DAD (Disciplined Agile Delivery) und SAFe (Scaled Agile Framework) – insbesondere Coaching und Halten von Präsentationen zu den Risiken agiler Verfahren – u.A. durch das Entfallen der Architektur-Phase (siehe meine Social Media Accounts), Mit-Einführen von WorkHacks (= LifeHacks für den Beruf).
Konzeption + (Teil-)Implementierung einer automatisierten Microservice/Serverless System-Security- und Vulnerability-Assessment und Reporting-Komponente in Python3 und JavaScript (mit PhantomJS, CasperJS, Bootstrap, a2ps), die automatisiert HTML- und PDF-Reports erzeugte aus Statistical Common Criteria Bewertungsergebnissen, Nessus- + Tripwire-Scan-Ergebnissen, CMDB-Infos (Config Mgmt DB namens ITDoku) etc. mit Integration zu diversen Systemen (Lotus Notes, CMDB, Excel-Dateien, Oracle-DB, CyberArk Password Vault + IAM + + Privileged Threat Analytics (PTA), Inventory-Systemen zum Check der Kritikalität (BIA/GASRA), Installationsstatus von Security-Tools, etc.) per REST APIs, SysCalls und OAuth.
Insgesamt ca. 50 Verbesserungsvorschläge unterbreitet/umgesetzt, vor allem zur Verbesserung des SOCs / der effizienten Erkennung, Priorisierung und Beseitigung von Risiken/Angriffen.
Erstellung/Erweiterung/Schärfung von ca. 150 QRadar SIEM Use Cases für zielgerichteteres Security-Monitoring mit weniger False Positives oder weniger manuellem Nachrecherche-Bedarf bei Alerts (Minimierung der manuellen Aufwände).
SIEM-Alternativen: Evaluation von
- ElasticSearch + Norikra Schemaless Stream Processing + Esper CEP (Complex Event Processing) + Apache Nifi + Kafka + Fluentd für SIEM Use Cases/Alerting, Datenextraktion aus Protokollen per WireShark-Plugins (z.B. bzgl. SMBv1 + v2 Exploits [EternalRomance, EternalBlue, EternalChampion, WannaCry]),
- Apache Metron (ex: Cisco OpenSOC) + Blitz Incident Response + Apache Nifi + Hadoop + Apache Solr/HDP Search + Ranger + Atlas, Technologie-Workshops. Konzeptionen zu:
  - Dokumenten-Id-Vergabe und expliziter Verteilung der Dokumente auf Shards/Replicas und dessen Tracking.
  - Parallelisiertem SolrJ-Client optimiert auf Antwort-Geschwindigkeit.
  - Loadbalancer-Switching-Logik.
  - Schutz gegen bösartige Ambari-Administratoren.
  - Integration der Lösung in das Single Sign On (SSO) Konzept mit Identity & Access Management per LDAP, SASL, explicit TLS.
Konzeption/Implementierung eines Apache Spark + MLlib + Kafka basierenden Data Science und Machine Learning Systems zur Erkennung von Incidents/Malware/Netzwerk Anomalien mit H2O.ai.

DS-Ansatz (Data Science):

zur Erkennung von Incidents/Malware/Netzwerk-Anomalien

Produkte

Kunde

HSBC Trinkaus & Burkhard AG / HSBC Deutschland, gr��te Bank Europas, World?s Best Bank 2017 nach EuroMoney

Einsatzort

D�sseldorf, Homeoffice

4 Monate

2017-09 - 2017-12

Plattform- und Umgebungs-Aufbau

Coach: Big Data Architektur & Data Science Red Hat OpenShift Docker Kubernetes ...

Rolle

Coach: Big Data Architektur & Data Science

Projektinhalte

Plattform- und Umgebungs-Aufbau für diverse Predictive-Analytics Teilprojekte (insbesondere von Marketing-Effekten und Supply-Chain-Prognosen bzgl. benötigten Mengen/Preisen etc.)
Coach: Big Data Architektur, Data Science, Test Management
- Zwecks Einarbeitung & Coaching-Grundlage: Erhebung der Ist-Situation bzgl. Tools, Algorithmen und IT-Umgebungen; Mitarbeit bei der Erstellung von Ab Initio Graphen/Lineages als ETL-Pipelines unter Integration von Teradata BTEQs/ActiveBatch/SQL, R, Python, Spark, Hive, SAP, MicroStrategy.
- Big Data und Data Science Architekturberatung: R on Spark mit SparklyR vs. SparkR, Hive/Beeline Query Optimierung, Integration mit Teradata QueryGrid/Teradata Connector for Hadoop (basierend auf Sqoop).
- Konzeption/Entwicklung von AbInitio ETL-Pipelines mit GDE/TRMC/EME, Express>It (BRE), Conduct>It (CC), Query>It, Metadata Hub (EME).
- Vorschlag und Mit-Auswahl von BI & Analytics Use Cases: Promotions (Angebote/Preisveränderungen (PV)), Dynamic Pricing, Backschema, Category Management, Palettenfaktor, Kollisortierung, Shopping Missions, Einkaufs-Planung, Logistik-Planung, Rücksende-/Rückläufer-/Remittenden-Planung.
- Mitarbeit im Predictive Modelling von Marketing- und Logistik-Prozessen und der Vorhersage des Effektes von Sonderangeboten und diversen Werbemaßnahmen.
- Beratung zur Auswahl eines Workflow-Management-Tools Oozie, ActiveBatch, Azkaban (LinkedIn), Airflow (Airbnb), Scripting.
- Berechtigungskonzept mit Apache Ranger, Rechte-Datenbank & LDAP für Hortonworks Hadoop miterstellt.
- Erstellung von Cross-Platform Packaging-, Versioning-, Deployment- und Dependency-Management-Konzepten für Python, R, Big Data (Spark, Hive, etc.), Teradata, SAP, Ab Initio, MicroStrategy mit Conda/Anaconda, Python, sbt, Java 9 Platform Module System (JPMS) = Project Jigsaw, etc.
- Virtualisierungskonzepte erstellt für alle Tools mit VMware, Docker, Rancher und Kubernetes, einschließlich Netzwerkkonnektivität, Debugging, Tracing und Monitoring-Funktionen.
- Erstellung eines 400-seitigen Test-Management-Konzepts incl. ETL- und BI-Testing mit IT-Security für 6 Test-Umgebungen sowie für Python, R, Big Data (Spark, Hive, etc.), Teradata, SAP, Ab Initio, MicroStrategy, Continuous Integration/Deployment mit Jenkins und Sonar(Qube).

DS-Ansatz (Data Science):

Kenntnisse

Kunde

Schwarz-Gruppe (Lidl & Kaufland), gr��ter Europ�ischer Handelskonzern, BI & Analytik

4 Monate

2017-06 - 2017-09

Marketing-, Produkt- und Security-Analytics

Coach: Big Data Architektur & Data Science OpenShift Cloudera Hadoop Apache Spark ...

Rolle

Coach: Big Data Architektur & Data Science

Projektinhalte

Marketing-, Produkt- und Security-Analytics mit Apache Spark und Scala

Konzeption und Implementierung von Inspectrum, einem Big Data & Apache Spark Data-Flow-Instrumentation & Configuration Framework in Scala: Über JSON/HOCON (Human-Optimized Config Object Notation) Konfigurationsdateien konnten am Ende beliebige Datenflüsse über Spark und sein Ökosystem (incl. Umsystemen) konfiguriert statt programmiert werden mit erheblicher Zeitersparnis. Anbindungen wurden konzipiert für Hive, HBase, Couchbase sowie eine Daten-Filter-Komponente und Virtualisierungen der Komponenten mit Docker, Kubernetes, Rancher.
Architekturberatung bzgl. Real-time Use Cases und deren Umsetzung mit Memory-centric Libraries / In-Memory Data Grids (IMDG) wie Apache Pulsar, memcached, Ignite, GridGain, Alluxio, Redis, Hazelcast, Ehcache, Red Hat JBoss Data Grid, Pivotal GemFire, ActiveMQ, RabbitMQ mit AMQP, MQTT; Datenbanken, Data Science Algorithmen; Architektur von HBase-Datenstrukturen; Pro-Contra-Beratung zum Einsatz von Apache Kudu, Impala, HBase, Cassandra, Scylla DB, MariaDB, PostgreSQL, Druid, Aerospike.
Natural Language Processing (NLP): Analyse von Kunden-Feedback/Stimmungen mit spacy.io, Apache OpenNLP (Natural Language Processing), NLTK (Natural Language ToolKit: tagging/chunk parsing), Apache UIMA (Unstructured Information Management architecture/applications).
Data Science Beratung: Vorschlag von Verfahren zur Informationsgewinnen fürs Marketing, für Produkt-Analyse und Security-Analysen sowie für den Avira Boot Optimizer. Vorschlag von Algorithmen für die Nutzung/Analyse der gewonnenen Infos, etwa durch das In-Product-Messaging, den Antivirus, etc.
Datenschutz Grundverordnung (EU-DSGVO) / General Data Protection Regulation (EU-GDPR) (Regulation (EU) 2016/679): Beratung zur Legalität der Verbindung von Nutzungs- und Kundendaten und deren Nutzung zu Marketing-Zwecken.
Integration von SailPoint IAM mit Big Data über Apache Sentry.

DS-Ansatz (Data Science):

Kenntnisse

OpenShift Cloudera Hadoop Apache Spark Couchbase HBase R Python SparkR CentOS Intellij IDEA git Github Docker Kubernetes Apache Sentry Scrum-Prozess.

Kunde

Avira Operations

Einsatzort

Tettnang, M�nchen, Homeoffice

4 Monate

2017-05 - 2017-08

Make or Buy Entscheidungs-Vorbereitung

Coach: Big Data Architektur, Data Science Aspekte sowie Use-Case RedHat OpenShift Red Hat 3scale API Management IBM Watson ...

Rolle

Coach: Big Data Architektur, Data Science Aspekte sowie Use-Case

Projektinhalte

Marketing-Strategie Beratung per Design Thinking mit Customer Journey Mapping und Dokumentation der Kunden-Firmen-Touchpoints bzw. Interaktionen, Vermittlung des relevanten Wissens zu den neuesten Programmatic Marketing Ansätzen und den entsprechenden Data Science Grundlagen. Einführung in Customer Data Platforms (CDPs) und Marketing Automation Platforms (MAP). SWAT-Diskussionen (Strengths/Weaknesses/Opportunities/Threats) dazu initiiert und geleitet.
Recherche von möglichen Anbietern in obigen Bereichen mit Schwerpunkt auf Customer Intelligence (CI), Customer Data Platforms (CDPs) und Marketing Automation Platforms (MAP) und Kontaktieren der Anbieter: IBM Interact, Oracle Real-Time Decisioning (RTD), SAS Customer Decision Hub, Pega Customer Decision Hub, Adobe Marketing Suite/Cloud, Prudsys, SC-Networks Evalanche, PIA/Dymatrix DynaCampaign, DynaMine, CrossSell, ComArch, FIS Global, DMP-Produkte (AdForm, The Adex, Annalect, Otto, Xaxis Turbine, Acxiom, ...).
Erarbeitung der Use-Cases nach Use Case 2.0 Ansatz (inclusive MVP – Minimal Viable Product) mit dem Marketing-Fachteam (besonderer Fokus auf mögliche Echtzeit-Anforderungen/Use Cases) und Bewertung der möglichen Cash Flows sowie der verschiedenen KPIs wie ROI, NPV (Net Present Value), IRR (Internal Rate of Return), WSJF Verspätungskosten (Weighted Shortest Job First), NPS (Net Promoter Score), NBI (Net Banking Income). Anschließende Einführung von weiteren Lean-Startup-Prinzipien sowie Microservices, Evolutionary Architecture, Mobile App Anbindung und passendem Versioning.
Datenschutz Grundverordnung (EU-DSGVO) / General Data Protection Regulation (EU-GDPR) (Regulation (EU) 2016/679): Beratung zur Legalität der Verbindung von Nutzungs- und Kundendaten und deren Nutzung zu Marketing-Zwecken.
Erstellung einer Baseline-Hadoop-Architektur mit Aufwands-Schätzungen als mögliche Make-Lösung auf Basis von Apache Spark mit Streaming, Alluxio Caching, QBit Microservices, Aerospike DB, Cassandra DB, jBPM, Drools, Oryx 2, WEKA, MOA, Sqoop 1/2, SAS. Diese diente dann auch dem Einkauf zur Preis-Verhandlung.
Beratung zu möglichen Data Science Algorithmen rund um das KNIME-System zur Kundensegmentierung und der Ableitung von Produkt- bzw. Marketing-relevanten Affinitäten/möglichen Kundeninteressen und Kundenpfaden: DynaMine, Gradient Boosting (XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, GBM(Gradient Boosting Machine)/MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Nichtlineare Regression, Random Forests, C4.5, etc.
Beratung des Parallelprojekts „Corporate Data Hub“ (Digital Transformation / Digital eXperience (DX) Plattform) auf Basis von Spark, Cassandra DB, PostgreSQL und Memory-centric Libraries / In-Memory Data Grids (IMDG) wie Apache Pulsar, memcached, Ignite, GridGain, Alluxio, Redis, Hazelcast, Ehcache, Red Hat JBoss Data Grid, Pivotal GemFire, ActiveMQ, RabbitMQ mit AMQP, MQTT, insbesondere bzgl. Anbindungs-Möglichkeiten mit den Marketing-Lösungen und wie diese als PoC (Proof of Concept) für den Data Hub verwendet werden können.
Konzeption einer Dynamic Offering Erweiterung HintLog für Dymatrix DynaCampaign: Mit minimalem Aufwand konnten so alle Teilnehmer an Bonus- oder Marketing-Programmen Nachrichten erhalten, wenn irgendwelche Fehler auftauchten oder sie aufgrund von Detail-Regelungen Gefahr liefen, aus dem Programm herauszufallen: Kunden haben dann meist Nachfristen bekommen und so konnte durch das Vermeiden ärgerlicher Situation der NPV-Wert (sprich: die Kundenzufriedenheit) stark gesteigert werden.
Review der bestehenden BPM-Modelle in Camunda und Erweiterung dieser Modelle in Camunda um neue Marketing/Kampagnen Use Cases.
Konzept erstellt zum semantischen Analysieren und Steuern von Marketing-Kampagnen nach z.B. Kundeninteressen, Kundensituationen, aktuellen Markttendenzen sowie Firmen-Interessen, z.B. als kombinierte/konzertierte Rabattaktionen über verschiedene Teile des Angebots hinweg oder um übergeordnete Marketing-Aussagen in untergeordneten Aktionen immer wieder zu re-iterieren und insgesamt Konsistenz und Stringenz in den Aussagen zu erreichen. Erkannte Kunden-Sitationen/Segmente, Interessen und Unterstützungsbedarf kann so möglichst zielgenau eingesetzt werden, so dass es von den Kunden als hilfreich geschätzt wird und später aus einer Vertrauensbasis heraus (Produkt-/Service-)Empfehlungen gegeben werden können.
Natural Language Processing (NLP): Analyse von Kunden-Feedback/Stimmungen mit spacy.io in Python (Net Promoter Score (NPS) Erhebung und Verbesserung).
Mitarbeit beim Digital David Projekt als Technologie- und NLP-Berater, der Erstellung eines Chatbots mit IBM Watson Technologie (mittlerweile bei consorsbank.de im Kundenbereich online): Vision: Chatbot der alle Invest- und Banking-Präferenzen der Kunden kennt incl. Konto-, Depot- und WKN-/ISIN-Nummern mit Charts/Trends/Abhängigkeiten und alle Suchen nach Anlagemöglichkeiten durchführt (mit RoboAdvisor im Hintergrund) und daher hohe Kundenbindung und hohe Verkaufskennzahlen erzielt. Meine Arbeit: Analyse der zu erwartenden Text-Dialog-Scripting Aufwände (aufgrund der technisch veralteten Funktionalitäten für Chatbot-Entwickler) und der Total Cost of Ownership (TCO) der IBM-Watson-Lösung und Gegenüberstellung mit einer neuen DLNLP-Architektur (Deep Learning Natural Language Processing) basierend auf Open Source zwecks Preisverhandlungen der Beschaffung: Elemente meiner Open Source Chatbot-Architektur mit DLNLP Tools (Deep Learning Natural Language Processing): OpenEphyra, Seq2seq, word2vec, ULM-FiT, ELMo, OpenAI Transformer / GPT, Transfer Learning, OpenAI Transformer, spaCy, Stanford CoreNLP, AllenNLP und Virtualisierung mit Docker/Kubernetes zum Training in der Cloud.

DS-Ansatz (Data Science):

Kenntnisse

Kunde

BNP Paribas Personal Investors (Consorsbank, DAB)

Einsatzort

N�rnberg, M�nchen, Homeoffice

4 Monate

2017-02 - 2017-05

Erstellung eines bankweiten Cloudera-Hadoop

Chief System und Big Data Architekt sowie SPOC Cloudera Hadoop 5.8 mit HBase + Phoenix Spark Streaming MLlib ...

Rolle

Chief System und Big Data Architekt sowie SPOC

Projektinhalte

Projekt:

Review und Verbesserung der vorgeschlagenen Grob-Architektur, Ausarbeitung des FeinArchitektur-Dokuments auf Basis zahlreicher Meetings und E-Mails mit dem Fachbereich;
Konzeption von Datenmodellen zur redundanzfreien Konvertierung/Speicherung/Aufbereitung und Auswertung aller bestehenden Bank-Transaktionen mittels logischer/physischer Datenmodelle.
Konzepte erstellt für Back-Office-Verarbeitungsverfahren (Reconciliation, Transaktions-Bäume/Graphen als Struktur und bzgl. Aufbau aus zeitlich versetzt und nur teilweise eintreffenden Informationen, Link-Resolution auf dieser Basis); POCs bzgl. komplexer Punkte selbst in Java/Scala programmiert.
Konzeption einer IT-Basis für Finanz-Planungs-Modelle/Investment-Strategien incl. Steueroptimierung für Wealth Management, Investment-Manager sowie strategische Investitionen.
Konzeption der initialen Amazon AWS-Umgebung (benötigt solange die Bank-Umgebung nicht fertig war) und Umsetzung mit AMInator.
Security: Anbindung von Apache Sentry an das zentrale IAM-System (Identity & Access Management) der Bank bzw. initial an LDAP. Härtung der Systemkomponenten bzgl. IT-Sicherheit.
Konzeption der Spark/Kafka Exactly-Once Verarbeitungsfunktionalität sowie der Gesamt-Business Continuity Funktionalität.
Recherche/Evaluierung von Memory-centric Libraries / In-Memory Data Grids (IMDG): Apache Pulsar, memcached, Ignite, GridGain, Alluxio, Redis, Hazelcast, Ehcache, Red Hat JBoss Data Grid, Pivotal GemFire, ActiveMQ, RabbitMQ mit AMQP, MQTT, ...
Erstellung eines Data Mapping und Versionierungskonzepts mit Umsetzung über ein Switchboard-Pattern: Abwägen der Möglichkeiten der Konvertierung/des Upgrades von Datenformaten/Protokollen/Microservices vs Lazy/Eager Migration von Daten; HBase-Avro-basiertes Versionieren, Bitemporale Logik, Semantisches Versonieren, versionierte lokale/verteilte Microservices mit QBit/Lagom/Spring Boot; DDD-Datenmodelle mit Bounded Context, Context Maps, Self Contained Systems (SCS). Change Management/Versionierung mit Oracle Data Relationship Management (DRM).

Typ/Dauer:

Eigene Rolle:

DS-Ansatz (Data Science):

Kenntnisse

Kunde

Credit Suisse

Einsatzort

Z�rich

2 Monate

2016-12 - 2017-01

Konzeption einer Microservice-Strategie

Architekt/Entwickler Microservices/mobile Apps/Big Data Standard-Tools: Spring Boot Spring Cloud (RESTful WebServices in Java) Spring Boot Devtools [hot reload] ...

Rolle

Architekt/Entwickler Microservices/mobile Apps/Big Data

Projektinhalte

Eigene Rolle:

Architekt eines Blueprint-Dokuments zur Integration von Microservices mit mobile Apps und Big Data u.A. per DDD.

Projekt:

Zusammentragen der führenden publizierten Techniken und Tools zu Microservices und Mobile Apps & Big Data sowie der integrativen Erstellung von Software mit allen Aspekten in Form eines ca. 250-seitigen Architektur Blueprints mit folgenden Inhalten: Architekturziele, Architekturprinzipien, Architekturstandards, Patterns, Neuentwicklung von Konzepten für lokale und vereinfachte Microservices (Neukonzeption eines Code Generierungs-Modells, um viele Microservices in Java/Scala als ein JAR/WAR/EAR oder als mehrere Deployment-Module bauen und debuggen/tracen/testen zu können), Microservice Best Practices, API Management, Datenkonvertierung/Serialisierung, Logging/Tracing, IT-Sicherheit/IAM, Modellierung per Domain-Driven Design (DDD) mit Bounded Context, deren Building Blocks und Responsibility Layers, Self Contained Systems (SCS) und Integration der Mobile-App Komponenten, KPI (Key Performance Indicators), Migrationsschritte von Monolithen hin zu Microservices, Software Load-Balancing, Infrastructure as Code, DevOps-Praktiken wie Continuous Integration und Continuous Deployment.
Im praktischen Teil wurde der Code-Generator entwickelt für die Kombination mehrerer Versionen eines oder verschiedener Microservices in ein Deployment-Paket oder in je ein JAR-Paket. Die unten genannten führenden Microservice-Bibliotheken für Java, Scala und Node.JS mit AngularJS 2 und Ionic Framework (Mobile Apps) wurden getestet/evaluiert.

Kenntnisse

Kunde

Cisco Systems mit AOK Nordost und AOK Systems als Endkunden

Einsatzort

Berlin

3 Monate

2016-10 - 2016-12

Digital Windfarm

Big Data Architekt Cloudera Hadoop mit Spark (SQL DataFrames ...

Rolle

Big Data Architekt

Projektinhalte

Fachlich:
- Analyse der bestehenden Flex5-Tools in Pascal/Delphi sowie der zugrundeliegenden Mathematik, insbesondere bzgl. Parallelisierungs-, Verteilungs- und Caching-Möglichkeiten.
- Sammlung und Erarbeitung von evolutionären Verbesserungsmöglichkeiten der bestehenden Flex5-Lösung, z.B. durch mehr In-memory Processing und explizites Caching von Zwischenergebnissen.
- Erstellung einer Zielarchitektur basierend auf im Kern Spark mit Alluxio sowie Ergänzungen für den Einsatz im Intranet (on premise) und in AWS (Amazon Web Services, EC2) mit entsprechenden IT-Sicherheitsmaßnahmen und mit Migrationsstrategie.
- Abstimmung der Anbindung der parallel erarbeiteten AngularJS 2.1 Web-Benutzeroberfläche an das Backend.
- Analyse der Performance der bisherigen Lösung unter Windows/Linux mit procmon.exe sowie eigenem Win-API-Hooking-Tool und Python-Auswerte-Skripten. Export nach Excel in Excel-Pivot-Tabellen und Erstellung VBA-basierter komplexer Auswertungen.
- Wirtschaftlichkeitsberechnung der Migration in MS Excel per Formeln, VBA nach einem neu-entwickelten nicht-linearen Keep-/Replace-/Modernization-Szenarien-Verfahren, das sich auf ca. 20 nicht-lineare Kosten-Nutzen-Verläufe von ca. 50 Einflussgrößen stützt, die separat modelliert wurden.
Technisch:
- Ad 3: Darin enthalten war auch eine kurze Betrachtung der besten Alternativlösungen (Flink, YARN, Storm + Trident, FastR, etc.) und Beschreibung von deren Vor- und Nachteilen.
- Bzgl. IT-Sicherheit war neben dem Schutz gegen Hacker durch ein Bündel von Maßnahmen vor allem die korrekte Autorisierung und Zuordnung der Daten und Datenflüsse wichtig, was über Virtualisierung mit VMware oder Docker, Kubernetes, Rancher sowie über die Security-Toolkits Apache Sentry/Shiro, Knox, Falcon, Atlas erfolgte.
- Die Migrationsstrategie basierte Bottom-Up auf verschiedenen Loop-Unrolling bzw. Schleifen-Parallelierungs-Strategie über Thread-Parallelisierung und das Herausziehen und Caching von Zwischenergebnissen, aufgeführt prototypisch am Beispiel der Delphi nach Scala Portierung für die Datenverarbeitung mit Spark.
- Ad 5: Da procmon.exe aber für längere verteilte Läufe mit einigen GBs an Daten abstürzte: Entwicklung einer Zeus-Rootkit basierenden API-Hooking-Methode für Win-API-Methoden wie ReadFile, WriteFile, Process Start, Process Exit, Thread Start, Thread Exit, CreateFile, MapViewOfFile und direkte Auswertung nur der relevanten Daten. Daraus Ableitung der Optimierungspotentiale und des Skalierungsverhaltens.
- Ad 6: Etablierte Verfahren der Wirtschaftlichkeitsberechnung wie Discounted Cashflow, ROI/ROSI (Return on [Security] Investment), NPV (Net Present Value), Internal/External Rate of Return (IRR/ERR) können nicht-lineare Verläufe der zugrundliegenden Faktoren nicht berücksichtigen. Hier ging es jedoch neben eher konstanten Werten wie Inflationsrate, Interner Zinsfuß, Prozent pro Jahr veränderter Quelltexte durch CRs(Change Requests), effektive Firmen-Steuer-Rate weitgehend um Konjunktur- und Technologie-Wellen-abhängige Kosten- und Risiko-Faktoren wie (auf engl.): Hardware Upgrade/Repair, Scaling / Bigger data amounts, Administration, Inflexibility (e.g. no virtualization, no mandator capability), Development of Extensions/CRs, Errors due to Knowledge/People Loss, Time to hire Contractors, Training Time for Team Members, CPU/IO Utilization Inefficiencies, End User waiting Time, Reputation cost due to old Technology, Immature Technology/Toolset, Old Technology/Toolset, Lack of Motivation due to old Technology / old Age of Employees, Not being able to take advantage of latest Tech's Features in CRs, Poor interoperability, Workarounds due to technological deficiencies, Sudden technological dead End and Cost of immediate Technology Switch, Revolutionary sudden change costs.
- Hierzu habe ich sehr aufwändige nichtlineare Kosten-Nutzen-Analysen für Keep-/Replace-/Modernization-Szenarien erstellt nachdem ich den Stand der Wissenschaft recherchiert hatte. Kern war die Approximation/Schätzung der Eingangsfaktoren über Datenreihen und Interpolation mit kubischen Splines. Dann wurde die Zeit in Tages-/Monats-/Quartals-/Jahres-Schritten hochgezählt und die Eingangswerte entsprechend per Spline-Interpolation geschätzt, kumuliert, abgeschrieben, abgezinst und zwischen den Keep-/Replace-/Modernization-Szenarien verglichen – jeweils mit Best-, Medium- und Worst-Case-Analyse in VBA. Ich habe eine graphische interaktive Auswertung hierzu mit TreeView und Pivot-Tabellen erstellt. Es ist eine wissenschaftliche Publikation hierzu geplant, denn das Verfahren kann generell für die Wirtschaftlichkeitsberechnung solcher nicht-linearer Keep-/Replace-/Modernization-Szenarien verwendet werden, insbesondere für Big-Data-Projekte.
Projektende:
- GE entschied sich schließlich, die Alt-Architektur selbst evolutionär mit In-Memory-Processing Technologien weiterzuentwickeln und wegen der Amortisierung erst nach 5-7 Jahren in diesem Projekt noch nicht Big Data zu nutzen.

Kenntnisse

Cloudera Hadoop mit Spark (SQL DataFrames MLlib) + Alluxio (ex: Tachyon) SMACK (Spark Mesos Akka Cassandra und Kafka) Amazon AWS mit Spark testweise Apache Flink PuTTY VMware Ubuntu.

Kunde

GE (General Electric) Renewable Energies

Einsatzort

Frankfurt/Main

8 Monate

2016-02 - 2016-09

GET ONE BI

Architekt/Entwickler Spark, Hive, Java, Scala Hortonworks Hadoop 2.3 insbesondere Spark mit SQL + DataFrames Spark-Hive-Integration ...

Rolle

Architekt/Entwickler Spark, Hive, Java, Scala

Projektinhalte

GET ONE BI: Integration der BI-Systeme, darunter SAP Bank Analyzer (FS-BA), SAP HANA, SAP BO und Hortonworks Hadoop 2.3

Fachlich: Erstellung einer Architektur für ein Corporate Memory als Digital Transformation / Digital eXperience (DX) Plattform, insbesondere die möglichst schnelle Erkennung von negativen Bonitätsveränderungen der eigenen Kreditnehmer bzw. Leasing-Kunden. D.h. wenn Kunden ihre Kredit- und Leasingraten kaum noch bezahlen können, soll dies möglichst schnell gemeldet werden, um als Bank darauf reagieren zu können.
Subtask 1: Erstellen eines Tools für die effiziente unbürokratische Anlage von durch Benutzer/Analysten zur Laufzeit neu eingefügten Datenbank-Strukturen (neue Tabellen und Attribute in Tabellen bzw. als Graph) für neue analytische Ansätze wie Vertrags-/Kundenanalyse, Credit Risk, Fraud Prevention/Fraud Detection und Machine Learning.
Subtask 2: Erstellen von Markt-Analysen und Zusammentragen von Best Practices für einen Corporate Memory.
Subtask 3: Konzeption/Implementierung von Bonitäts-Alerting Use Cases: a) Auskunftei wie Creditreform/Bürgel meldet Bonitätsreduktion, b) Leasing- oder Kreditrate konnte nicht abgebucht werden, c) geändertes Nutzungsverhalten des Autos (Connected Car Daten), die z.B. auf Bewerbungsgespräche schließen lassen (bei zuvor 9-to-5-Bürotag) oder langes Ausschlafen zuhause (Arbeitslosigkeits-Indikator), d) Geänderte Daten aus sozialen Netzwerken wie vermehrt Kontakte zu Festanstellungs-Recruitern, e) Infos aus der computerlinguistischen Analyse (Bedeutungsextraktion aus Texten/Dokumenten) von E-Mails, Verträgen, Memos, Handelsregistern und sonstigen textuellen Infos mit Apache Stanbol und Apache OpenNLP.
Subtask 4: Konzeption/Implementierung von Anti-Money Laundering (AML) und Anti-Fraud Use Cases auf Basis von Data Science Techniken sowie Computerlinguistik.
Technisch:
Konzeption eines effizienten Speicher-Formats für Graph-basierte Datenbank-Strukturen und auch Vererbung für die Nutzung mit Spark/Hive und Gegenüberstellung mit anderen Speicherungsstrukturen bzgl. Performance und Nutzbarkeit für verschiedene Use Cases. Dazu Implementierung verschiedener Use Cases mit Hive, Spark SQL, als Hive Makro und als Hive UDF mit Java/Scala und Messen/Vergleichen der Performance.
Marktanalyse und Proof-of-Concept (PoC) Konzeptionen/Entwicklungen zu
- Hadoop-ETL-/BI-Technologien und Tool-Kombinationen, insbesondere Sqoop/JDBC, Falcon/Oozie, Hortonworks Dataflow, StreamSets, syncsort, Flume/Kafka/Flafka, Chukwa, Talend BD, Pentaho BD, IBM InfoSphere with IBM DataStage for BD, Trifacta, Informatica BD, Waterline Data Science, Rapid Miner, Intelligent Miner, Datameer, Paxata, platfora, Trillium, SploutSQL/Pangool, Apache Drill + Arrow, Cascading, Crunch, Twill, REEF, RHadoop, SAS, H2O, KNIME, Tableau, SAP Business Objects, Zoomdata,
- Hadoop XML Verarbeitungs-Technologien und Tool-Kombinationen: Talend, Relational/ORC, JSON, Avro, Protobuf/Protostuff, XML->Relational, Graph-DB-Addon, Hive + ORC/Parquet, XML->HBase-Attribute, HyperJAXB, Relational DBs, HBase Phoenix, HAWQ, Simplified XML, Datanucleus, PostgreSQL.
- Auswertung unterschiedlicher Persistenzbibliotheken hinsichtlich (De) Serialisierungsgeschwindigkeit, komprimierte Größe und wie effizient sie mit den verschiedenen Technologien integriert werden können: Avro, Profobuf, Protostuff, JSON mit Jackson & Alternativen, BSON, ...
- Anbindungsmöglichkeiten (Spark-Driver, Storm-Driver, Flink-Driver, etc.) für Datenbanken/Caches/Query-Engines wie Hive, HBase, Cassandra, Cloudera Impala, Drill, Scylla DB, Aerospike, Alluxio, Druid, Splout SQL.
- Daten-Bereinigung (Data Cleansing) und Performance der Hadoop-Tools speziell im Bereich Graph-basierter Daten: Spark mit GraphX, Storm-Graph mit Trident, Flink Graph (Gelly) sowie die relevantesten der zuvor analysierten weiteren Tools.
Konzeption und Implementierung der oben genannten Kern-Use Cases mit Spark & GraphX, Avro, Alluxio sowie Talend for Big Data sowie mit Hive-Graph-Addon als UDF-Implementierung (User-Defined Function).
Change Management/Versionierung mit Oracle Data Relationship Management (DRM).

DS Ansatz:

Eine Mischung aus Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze, Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Maximum-Likelihood-Schätzer

Kenntnisse

Kunde

Deloitte Consulting mit Daimler Financial Services (DFS)

Einsatzort

Berlin, Stuttgart, Homeoffice

5 Monate

2015-09 - 2016-01

Konzeption des pace Systems

Technischer Architekt Production Lines Error Handling Versions-/ Konfigurations-Management Logging ...

Rolle

Technischer Architekt Production Lines

Projektinhalte

Erstellung der Building Blocks (Komponenten) bis hin zu den Klassendiagrammen + Code-Generierung. Konzepte erstellt für bi-temporale Versionierung und Verarbeitung der Daten, Differenz-Verarbeitung, optimiertes In-Memory Processing/Caching/Minimierung von Save-Load-Zyklen, flexibles Management und Laufzeit-Erweiterbarkeit von dynamischen Typen und Klassen, Umgang mit Streaming-Daten, deren Vereinheitlichung/ Prüfung/ Korrektur/ Anonymisierung, Speicherung und häufigen Aktualisierungen von Zuordnungen wie Key-Code-Assignments, Umgang mit komplexen n-dimensionalen Datenräumen, BI-Analysen (Star-/Snowflake-Schema) mit einer Vielzahl heterogener interner und externer Datenquellen und Referenz-Datenbanken. Berücksichtigung neuer Use Cases wie Werbe-Effizienz-Analyse, Trend- und Sale-Erkennung, Produkt-Lebenszyklus-Erkennung, Konsequenzen von Branding vs. White-Label-Verkauf, Anbindung von Data Science Schnittstellen/Tools (Mahout, WEKA/MOA, Geode mit MADlib + HAWQ, LIBSVM, Spark mit MLlib + Oryx 2). Datenfluss-Analyse erstellt mit Empfehlung der verwendbaren Data Science Algorithmen zu erkennbaren Aufgabenstellungen. Konzeption von Logging, Monitoring und Reporting. Agiler Crystal Clear Prozess.
Projektende: Die Zielarchitektur wurde fertigkonzipiert. Das Requirements Engineering konnte – wegen fachlicher Komplexitäten und Abstimmungsprozessen - nicht genügend Input für die Weiterentwicklung bereitstellen und aufgrund stark rückläufiger Geschäftsentwicklung bei GfK wurde in 2015 weniger Budget für Externe in 2016 genehmigt.

DS-Ansatz:

Eine Mischung aus Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze, Zeitreihenanalyse, Anomalie-Erkennung, Apriori, Assoziationsanalyse, Maximum-Likelihood-Schätzer

Kenntnisse

Kunde

GfK ? Gesellschaft f�r Konsumforschung

Einsatzort

N�rnberg, Homeoffice

3 Monate

2015-07 - 2015-09

Einf�hrung eines Archiv-Systems

Software Architekt Logging Tracing Error Handling ...

Rolle

Software Architekt

Projektinhalte

Einführung eines Archiv-Systems, Verbesserung der IT-Sicherheit & des Datenschutzes und Business Process Optimization, Scrum-Prozessmodell

Business Process Optimization Konzept erstellt für den SW-Entwicklungsbereich.
Big Data / Data Science / BI Architekturkonzept zur a) Analyse der medizin. Leistungsdaten und daraus Ableitung von Fragebögen und Aufschlägen für Vorerkrankungen und b) Analyse/Optimierung der Marketing-Aufwendungen mit Mahout, WEKA/MOA, Geode mit MADlib (Machine Learning Lib mit UDF) und HAWQ, LIBSVM, Spark mit MLlib + Oryx 2.
Konzeption eines Tools zur stark automatisierten Verarbeitung von Kündigungen.
Einführung des Archiv-Systems T-Systems ImageMaster.
Modernisierung/Upgrade-Planung des OpenText Metastorm Business Process Management Systems (MBPM). Teilfunktionalität portabel mit Camunda BPM realisiert.
Verbesserung der IT-Sicherheit & des Datenschutzes bei VitaClic.ch, der elektronischen Patientenakte der KPT/CPT.
Projektende: Die KPT-Manager / Verwaltungsräte (Vorstandsvorsitzender und dessen Vertreter) Bosch und Liechti wurden kurz vor meinem Start zu 3 Jahren Haft wegen Untreue und versuchter persönlicher Bereicherung verurteilt (siehe Google). Dies führte – auch aufgrund des Reputationsverlusts und des erwarteten negativen Geschäftsverlaufs – zum Stoppen aller nicht sofort rentablen IT-Projekte. Ich wurde daher – statt als Architekt einer großen vitaclic.ch-Erweiterung – nur als Coach zur Optimierung der Geschäftsprozesse bzw. einiger Funktionalitäten eingesetzt.

DS-Ansatz:

Kenntnisse

Kunde

KPT/CPT Krankenversicherung (f�hrende Schweizer Online-Krankenversicherung) mit Online-Patientenakte, -Versicherungsakte und Gesundheitsportal

Einsatzort

Bern, Schweiz

2 Monate

2015-05 - 2015-06

Big Data Projekt

Hadoop Architekt MS Office MS Project MS Word ...

Rolle

Hadoop Architekt

Projektinhalte

Projekt:

Konzeption der Hadoop-Landschaft mit Anbindung an SAS/H2O incl. Hive/HCatalog, YARN-Algorithmen, Datenmodelle erstellt, Performance-Optimierung durch intelligente Verteilung, Java-Entwicklung. Datenfluss-Analyse erstellt mit Empfehlung der verwendbaren Data Science Algorithmen. Betrugserkennung in Web-Werbungs-Tags /-Pixels und / oder betrügerische Versuche, einen Teil der Prämie gutgeschrieben zu bekommen für einen erfolgreichen Verkauf durch fälschlich behauptete spätere zu einem Kauf führende Anzeige/Ad dem Benutzer angezeigt zu haben; Web Scraper konzipiert/entwickelt mit node.js/NodeJS, CasperJS, PhantomJS, Sli-mer.js und Greasemonkey als zusätzlicher Input für die zielgerichtete Werbung (etwa Themen der Webseiten, Features von Produkten).
Sicherheitskonzept erstellt zur Absicherung der Big Data Systeme sowie für die Daten-Anonymisierung.

Typ/Dauer:

DS-Ansatz:

Kenntnisse

Kunde

Havas Media Gruppe (Siebtgr��te Medienagentur Europas)

Einsatzort

Frankfurt/Main, Berlin, Homeoffice

7 Monate

2014-12 - 2015-06

Big Data Projekt

Hadoop Architekt MS Office MS Project MS Word ...

Rolle

Hadoop Architekt

Projektinhalte

Projekt:

Konzeption der Hadoop-Landschaft mit Anbindung an Teradata und SAS/H2O incl. Hive/HCatalog, YARN-Algorithmen, Datenmodelle portabel umgesetzt mit Datanucleus, Performance-Optimierung durch intelligente Verteilung, Java-Entwicklung. Datenfluss-Analyse erstellt mit Empfehlung der verwendbaren Data Science Algorithmen sowie Monitoring und Reporting.
Sicherheitskonzept erstellt zur Absicherung der Big Data Systeme sowie für die Daten-Anonymisierung.

DS-Ansatz:

Kenntnisse

MS Office MS Project MS Word MS Outlook MS PowerPoint MS Excel Logging Tracing Error Handling Debugging Testing Versions-/ Konfigurations-Management XML DTD XSD XSLT XPath XQuery SOA EAI IT Security OOD OOP Domain-Driven Design WebServices SOAP UML/UML2 SQL OOA MS RegExp XML/XML Schema (XSD)/XSLT RESTful Webservices WADL http(S) CAN-Bus Qualcomm-Tools Ganglia Sigar Chef Zookeeper ORC Parquet Cascading Tez KNIME Weka Oozie Chukwa Sqoop1/2 Mahout Kafka Spark / Spark Streaming SAP PowerDesigner Pig Avro Teradata QueryGrid/TDCH Entwicklung/Konzeption unter Windows Produktionsumgebung unter Scrum

Kunde

Siemens Corporate Technology / Healthineers (ex: Healthcare) IT

Einsatzort

M�nchen, Erlangen, Homeoffice

3 Monate

2014-10 - 2014-12

Konzeption/Implementierung

Sicherheits-Architekt und Entwickler MS Office MS Project MS Word ...

Rolle

Sicherheits-Architekt und Entwickler

Projektinhalte

Erstellen eines Sicherheitskonzepts basierend auf der eigenen statistischen Sicherheits-Datenbank zu Gefährdungen/Gegenmaßnahmen (nach BSI/Common Criteria), erweitert um Gefährdungen/Gegenmaßnahmen im Bank und Fingerabdruck-Sensor-Bereich, insbesondere nach ISO 27745 2011 und ISO 19092.
Implementierung des Showcases für sichere Übertragung (ATM/Mobile Banking) mit Schlüsselverteilung, sicherem Schlüsselspeicher, PKI, RSA / IDEA, AES-GCM, DiffieHellman / FHMQV-C, SHA-2 / SHA-3, scrypt / bcrypt / PBKDF2, Ubuntu.

DS-Ansatz:

Kenntnisse

MS Office MS Project MS Word MS Outlook MS PowerPoint MS Excel Logging Tracing Error Handling Debugging Testing Versions-/ Konfigurations-Management XML DTD XSD XSLT XPath XQuery SOA EAI IT Security UML/UML2 SQL OOA OOD OOP Domain-Driven Design WebServices MS RegExp Puppet XML/XML Schema (XSD)/XSLT WS-* Standards WADL http(S) CAN-Bus Qualcomm-Tools RESTful Webservices PBKDF2 bcrypt scrypt SHA-3 SHA-2 FHMQV-C DiffieHellmann AES-GCM IDEA RSA PKI MS Visual Studio und C++ boost Library Scrumk Windows Embedded Embedded Linux

Kunde

Bio-Identification Firmen Dermalog/FingerPayment, Anwendungen im mobilen und station�ren Banking

Einsatzort

Hamburg

2 Monate

2014-09 - 2014-10

Weiterentwicklung und teilweise Neukonzeption einer Online-Werbesteuerung

Konzeption & verbesserung der neuen Werbesteuerung MS Office MS Project MS Word ...

Rolle

Konzeption & verbesserung der neuen Werbesteuerung

Projektinhalte

Projektziele:

Aufgaben

Erfassen der Kundenanforderungen, der diversen technischen Browser-Features (Flash, Adblocker, HTML5, etc), Ansätze der Kundenprofilierung und Auswertung der Klickraten.
Darauf aufbauend Erstellen eines Konzeptes für eine Werbesteuerung abhängig von Visitor-Interessen/-Profilen.
Test-Automationskonzept mit JavaScript, Scala und Docker Containern.

Kenntnisse

Kunde

Chip Digital GmbH

Einsatzort

M�nchen

3 Monate

2014-07 - 2014-09

Allianz Data Center Consolidation / Data Center Migration

Konzeption der Big Data und der SAS Migration MS Office MS Project MS Word ...

Rolle

Konzeption der Big Data und der SAS Migration

Projektinhalte

Projektziele:

Allianz Data Center Consolidation / Data Center Migration: Viele verteilte und oft kleine Data Centers sollen in weltweit nur 4 große und hochver-fügbare Data Centers migriert werden.

Aufgaben

Erfassen der Kundenanforderungen, Durchführung von Kundenworkshops.
Technische Analyse der zu migrierenden Systeme (ca. 6000 Systeme) auf Dokumentationslücken, Migrierbarkeit und mögliche Migrationsprobleme.
Erstellen der detaillierten technischen Migrationspläne (Word-Dokumente) unter Berücksichtigung der jeweiligen Best Practices in der Migration und im Betrieb von SAS und IBM Big Insights / Hadoop.
Planung des Einsatzes zusätzlicher IBM Tools (Blue Wash)
Dokumentation und Weitergabe des Wissens.

Kenntnisse

MS Office MS Project MS Word MS Outlook MS PowerPoint MS Excel Logging Tracing Error Handling Debugging Testing Versions-/ Konfigurations-Management XML DTD XSD XSLT XPath XQuery SOA EAI IT Security OOD OOP Domain-Driven Design WebServices SOAP UML/UML2 SQL OOA MS RegExp XML/XML Schema (XSD)/XSLT WS-* Standards http(S) OBD-II CAN-Bus Qualcomm-Tools RESTful Webservices WADL Puppet IBM SPSS SAP PowerDesigner IBM Migrationstools VMware IBM Integration Broker IBM QRadar SIEM IBM Appscan IBM Integration Bus Identity Manager / Access Manager Security/IAM/ISMS IBM Tivoli mit TADDM RUP/EUP

Kunde

Allianz Versicherung

Einsatzort

M�nchen

8 Monate

2013-11 - 2014-06

Neuentwicklung eines MS Azure basierten internen Backend API

Chief-API-Architect mit dem Schwerpunkt auf API-Funktionalit�t MS Office MS Project MS Word ...

Rolle

Chief-API-Architect mit dem Schwerpunkt auf API-Funktionalit�t

Projektinhalte

Projektziele:

Aufgaben Fachlich:

Konzeption von Geräte-APIs der On-Board-Units (OBU) unter Nutzung des OBD-II-Protokolls und von AUTOSAR für die Fahrzeuge (Pkw, Lkw) und die Schnittstellen mit den Mobilfunkanbietern.
Architektur von MS Azure basierten internen Backend APIs für RESTful Webservices für europäische Märkte basierend auf einer bestehenden Version aus den USA.
Architektur von MS Azure basierten externen Cloud-Backend APIs für iOS/Android App Entwicklung für beliebige App Entwickler.
Architektur von MS Azure basierten externen Backend APIs für den Daten- und Kommandofluss sowie diverse Mehrwertfunktionen zwischen OBUs und Cloud-Backend (Car-to-Cloud-Kommunikation), Kompatibilität zu den eCall-Standards, Anbindung von Vodafone’s M2M-Plattform z.B. für das Durchleiten von SMS sowie Billing-Funktionalität.
Ausarbeitung der Architekturen für die Use Cases: Eco Driving, Car Health (Trouble Diagnostics) mit der Einholung von Reparatur-Angeboten in Echtzeit, Predictive Maintenance/Planen von Wartungsterminen, Erkennen von Diebstahl-Versuchen, Driving Log (Fahrtenbuch), Verkehrs- und Wettermeldungen bzw. Warnungen dazu, Behaviour-based Insurance, Augmented Reality (es werden weitere Infos angezeigt z.B. virtuelle Stadtführungen bzw. intelligente Mehrwert-Navigationsfunktionen bis hin zur Parkplatzsuche und -Reservierung, aktuelle / historische Gebäude, Menschen, Ereignisse in Abhängigkeit von der aktuellen Position des Autos), Benzinpreis-Infos/nächste Tankstellen, Personal Radio bzw. personalisierte Musik, Heatmaps/Hotspots zu Events/Lokalitäten, Teilen von Daten auf unterschiedlichen Geräten, sonstige Fahrerassistenzsysteme, Personalisierung all dieser Dienste nach Nutzerinteressen, Nutzung für After-Sales-Services sowie weiterer ähnlicher Funktionen wie angeboten durch Apple CarPlay, Android Auto / Google Android Open Automotive Alliance (OOA), Windows Embedded Automotive, Qualcomm Adreno SDK, VW Car-Net, mercedes.me, GM Onstar, Automatic Link, MirrorLink, GENIVI Alliance.
Spezifikation / Proof-of-Concept für HTML5/Ajax-GUI (Dojo mobile, jQuery mobile, Bootstrap, Lo-Dash, DozerJS, d3.js) und node.js Backend (npm, Backbone.js, Lo-Dash, Ember.js, Handlebars.js, CoffeeScript).
Steuerungen erstellt für das automatisierte Aufbringen der Software auf die asiatischen Geräte und Fehlerdiagnose als EMSR (Elektrisches Messen, Steuern und Regeln) System.
Ausarbeitung der Sicherheitskriterien und Vorbereitung der Safe Harbour Datensicherheits-Zertifizierung. Kernelemente dabei waren die Trennung der Nutzer-Id von deren Nutzungsdaten sowie Datensparsamkeit bzw. Anonymisierung sobald und soweit möglich.

Technisch:

Applikations- und Netzwerkarchitektur mit Windows Servern, Biztalk, sowie .NET Messaging Anwendungen (MSMQ), Firmware Over-The-Air Update (Firmware-OTA, FOTA). Erstellung von API-Konzept-Dokumenten und UML-Diagrammen zu oben genannten APIs. Implementierung durch Lieferanten: Lieferantenmanagement, Testmanagement und Experte für Nachfragen.
Sicherheits-Konzeption nach Common Criteria/BSI Grundschutz nach Bedrohungszenarien/Bedrohungskatalogen und deren Gegenmaßnahmen/ Sicherheits-Richtlinien auf Applikations-Ebene und Betriebssystems-Ebene nach statistischen Gewichtungen. Damit konnten die Gegenmaßnahmen unter Berücksichtigung der möglichen Gefahr (d.h. des Erwartungswertes der Verluste) und einer Kosten-Nutzen-Analyse der einzelnen Gegenmaßnahmen priorisiert werden innerhalb eines gegebenen Budgets.
Berücksichtigung von Sicherheits-Standards wie ISO 2700x, Open Source Security Testing Methodology (OSSTMM), OWASP Testing Guide, Web Application Attack and Audit Framework (W3AF), BSI WebApp-Sicherheitsbaustein (basiert auf/integriert ÖNORM A 7700), PCI DSS (Kartenterminals, Smartcards, Bezahlsysteme) und deren Umsetzung in Form von Sicherheits- und (Penetration-)Test-Konzeptionen.
Technische Begleitung von Referenzprojekten (Scrum) mit Kunden (ADAC, niederländischer ANWB, Vodafone, Telefonica/O2/EPlus) als Architekt und später als technischer Projektmanager/Testmanager. Nutzung der Qualcomm Tools QxDM (eXtensible Diagnostics Monitor) und QPST (für den UMTS Chipset) sowie PuTTY & WinSCP.
Über die eigenen und die Netzwerk-Segmente der Partner hinweg Abgleich von anonymisierten Nutzer-Daten sowie domänen-übergreifende Autorisierung mit OAuth (kompatibel mit Safe Harbor Vorgaben der EU).
Connected Car Web Interface sowie Mobile App Interface (HTML5) konzipiert/prototypisch erstellt mit Apache Cordova/PhoneGap, Ionic Framework / Lab / ngCordova, NW.js (ex: Node-Webkit), NACL, Dojo mobile, jQuery mobile, Node.js, npm, Backbone.js, Lo-Dash, Ember.js, Handlebars.js, TypeScript, CSS3.

Kenntnisse

MS Office MS Project MS Word MS Outlook MS PowerPoint MS Excel Logging Tracing Error Handling Debugging Testing Versions-/ Konfigurations-Management XML DTD XSD XSLT XPath XQuery SOA EAI IT Security OOD OOP Domain-Driven Design WebServices SOAP UML/UML2 SQL OOA Handlebars.js TypeScript CSS3 Node.js npm Backbone.js Lo-Dash Ember.js NW.js NACL Dojo mobile jQuery mobile Ionic Framework / Lab / ngCordova Apache Cordova/PhoneGap MS RegExp XML/XML Schema (XSD)/XSLT WS-* Standards OBD-II CAN-Bus Qualcomm-Tools RESTful Webservices WADL http(S) Intel E-Mail Protection / Server Security Suite Puppet McAfee Embedded Control Intel/McAfee Web Gateway 7.x Qualcomm QPST Qualcomm Tools QxDM TFS Sparx Enterprise Architect SAP PowerDesigner MS Visual Studio Microsoft Biztalk MS Visio MS Office Win64 C# Microsoft .NET Framework 4.5 MS Azure SCrum

Kunde

Delphi

Einsatzort

Gro�raum Hannover, Niederlande, USA, UK und Homeoffice

3 Monate

2013-08 - 2013-10

Spezifikation der IT-Landschaft f�r Arzt-Praxen, Krankenh�user und zentrale Telematik-Infrastruktur

IT-Architekt mit dem Schwerpunkt auf IT-Sicherheit MS Office MS Project MS Word ...

Rolle

IT-Architekt mit dem Schwerpunkt auf IT-Sicherheit

Projektinhalte

Projektziel:

Spezifikation der IT-Landschaft für Arzt-Praxen, Krankenhäuser und zentrale Telematik-Infrastruktur (TI) für die elektronische Gesundheitskarte (eGK) mit Schwerpunkt auf IT-Sicherheit.

Aufgaben Fachlich:

Konzeption einer Certificate Authority (CA) sowie einer PKI (Public Key Infrastruktur) zu Testzwecken und mit Unterstützung für Testautomatisierung.

Technisch:

Requirements Engineering für Certificate Authorities (CA)/ Public Key Infrastructures (PKI).
Erstellung und Präsentation einer Entscheidungsvorlage bzgl. teilweisem/vollständigem Make-or-Buy.
Architektur der CA/PKI im Rahmen der Make-Lösung unter besonderer Berücksichtigung von Test-Anforderungen zur Erzeugung diverser Klassen von Fehlern, Echtzeitfähigkeit, RESTful WS Schnittstelle.
Konzeption und Implementierung fehlender Features im Bereich Elliptical Curve Cryptography (ECC), Card Verifiable Certificates (CVC) sowie Gematik-spezifischer Standards für Smartcards/eGK sowie die Telematik-Infrastruktur (TI) für die gewählte EJBCA. Implementierung von Features wie sie von der Nexus CA bekannt waren und bislang genutzt wurden.
DS-Ansatz: Einführung von Zählern für alle Systemereignisse und Zeitreihenanalyse, Schwellwerte (Thresholds), Anomalie-Erkennung.
Pen-Test- und Acceptance-Test-Konzeption basierend auf Security Scannern & Tools: MetaSploit, Burp Suite, NeXpose, Nessus, Nmap, Acunetix-Websecurity Scanner, PeakflowX von Arbor, NTOSpider, NTODefend (DAST Tools), Skipfish, Fuzzing Tools, Burp Nessus, SoapUI (für WebServices), Core Impact, Google Skipfish, OWASP WebScarab, JBroFuzz, Zed Attack Proxy (ZAP), Scrubbr, SQLiX, Paros Proxy, IronWASP, W3AF, Syhunt Mini, N-Stalker, Watobo, VEGA, Netsparker, Andiparos, ProxyStrike, Wapiti, Grendel Scan, arachni, WebCruiser, JSky, jScan, ProxyStrike, PowerFuzzer, Sandcat, Ammonite, safe3wvs, WebGoat (unsich. App), Fiddler, ModSecurity.
Spezielle Berücksichtigung von Sicherheits-Standards wie ISO 2700x, Open Source Security Testing Methodology (OSSTMM), OWASP Testing Guide, Web Application Attack and Audit Framework (W3AF), BSI WebApp-Sicherheitsbaustein (basiert auf/integriert ÖNORM A 7700), PCI DSS (Kartenterminals, Smartcards, Bezahlsysteme) und deren Umsetzung in Form von Sicherheits- und (Penetration-)Test-Konzeptionen

Kenntnisse

Kunde

Gematik, Gesundheitswesen

Einsatzort

Berlin und Homeoffice, DE

7 Monate

2013-02 - 2013-08

Erstellung einer neuen Architektur f�r ein flexibles Versions- und �nderungsmanagement.

Architekt und teilweise Entwickler

Rolle

Architekt und teilweise Entwickler

Projektinhalte

Projektziel:

Aufgaben Fachlich:

Technisch:

Konzeption der Architektur mit dem MID Innovator 2012, LibreOffice Designer sowie bouml - Architekturbeschreibung mit MS Word bzw. LibreOffice.
Umsetzung eines Proof-of-Concept (POC) zur Umstellung der Office-Integration von OpenOffice 3.1 mit NOA-Library (Nice Office Access) auf LibreOffice 4.1 mit UNO-Library (Unified Network Objects, eine CORBA-ähnliche Library mit IDL-Syntax). OpenOffice bzw. später LibreOffice waren auch die Editoren des Dokumenten- und Text-Baustein-Verwaltungssystems.
Umstellung vom ins Produkt integrierten alten OpenOffice 3.1 auf LibreOffice 4.1 entsprechend des POC.
Automatisiertes Erzeugen von Logging- und Trace-Statements mittels eines selbstentwickelten Tools.
Verbesserung der IT-Sicherheit, der Speicherungs-, Archivierungs- und Migrationsmechanismen sowie der Erkennung von Inkonsistenzen und Verbesserung der Usability.

Produkte

Kunde

BG Phoenics

Einsatzort

Hannover, DE

4 Monate

2012-09 - 2012-12

Integrations-Architektur zur Abl�sung von 90% der IT-Systeme durch ein modernes Fall-Management-System mit DMS zur Bearbeitung der Patentantr�ge

Integrations-Architekt

Rolle

Integrations-Architekt

Projektinhalte

Projektziel:

Integrations-Architektur zur Ablösung von 90% der IT-Systeme durch ein modernes Fall-Management-System mit DMS zur Bearbeitung der Patentanträge.

Aufgaben Fachlich:

Technisch:

Aufnahme von Anforderungen (Requirements Engineering) und darauf basierend Evaluation von Technologie-Alternativen, insbesondere REST vs. SOA/ESB (MuleSoft, OpenESB/Java CAPS, Apache ServiceMix), API Management Systeme (Apigrove, Vordel, Layer7, Apigee), Java Libraries (Spring REST, RESTlet, RESTEasy, Jettison, Apache CXF).
Erstellung eines RESTful Coding Styleguides mit Schwerpunkt auf Spring REST und JBoss RESTEasy.
Erstellung einer SOA-Strategie (basierend auf TOGAF), einer REST-Strategie, von Konzepten & Design Guidelines für den Mediation Layer, einer Enterprise-SOA-Architektur und Migrationskonzeption.
Basierend auf einer selbst erstellten Typologie der bestehenden Systeme, Konzeption einer Master-Architektur und einer Migrationsstrategie je Typus mit Wrapper-/Konvertierungskomponenten mittels JET (Java emitter templates) erweitert durch einen JavaCC-Parser und Talend OpenStudio.
Big Data Architekturkonzept (Hadoop) mit Proof-of-Concept Implementierung): Hypertable, HBase, Cassandra, Redis, Voldemort, Accumulo, HCatalog, Hive mit Shark /Stinger, Cloudera Impala/Drill, Sqoop2, HDFS, Pig, Oozie, Cascading mit Multitool, Giraph, Zookeeper, BookKeeper, Nagios, Flume, Kafka, Sawzall, Hue, RabbitMQ, Elephant Bird, Ganglia, Spark/Spark Streaming, GraphX, MLlib, Mahout, Kafka, Ambari/Ganglia, Whirr, Mesos.
Aufwandsschätzung nach COCOMO2.
Konzeption eines Code Analyse (Parsing) und Code Generierungs-Ansatzes zum Einlesen bestehender Java und COBOL Interfaces und zur Generierung von Java RESTful/SOA Web Services bzw. von Facaden daraus. Konzept zur graphischen Erstellung/Generierung von Adapter-Klassen über die Modellierung mit TalenD Open Studio. Integration von Facade und Adapter-Klassen in Wrapper-Libraries und Nutzung zur Entkopplung, Datenanalyse (Flüsse, Formate) und Systemmigration.
Konzeption der verlustfreien XML <-> JSON Konvertierung und Integration in JEE-Apps über Annotations mit selbstentwickeltem Order-Maintaining Badgerfish-Algorithmus.
Konzeption von REST HATEOAS (Hypermedia as the Engine of Application State) über standardisierte Content Rel(ations) sowie das Atom Publishing Format.
Erstellung eines Versioning-Konzeptes mit maximaler Robustheit gegen Änderungen in APIs: Neue Annotationen wie @LastSemanticChangeInVersion und @Since konzipiert und integriert in Maven Dependency Checking für nur inhaltliche/semantische (und sonst nicht erkennbare Änderungen) und offensichtliche Änderungen, deren Einführungsversion festgehalten wird. Verwendung von XPath und JSON-Path-basierten automatisierten Marshallern mit Spring 3.x zur Zuweisung von REST-Input-Parametern an Java-Methoden-Parameter.
Sicherheits- und Verfügbarkeits-Konzeption, IT-Security mit OAuth 1.0a/2.0 (alternativ teilweise SAML 2.0) sowie SPNEGO/Kerberos als bestehendem Mechanismus, Content Security, Logging/Tracing/Monitoring, Governance, Code Injection Checking Library mit BeanValidation Interface, ESAPI, Antisamy, CSRFGuard, AppSensor und Embedded SQL (ESQL).
Erstellen eines Logging/Monitoring/Tracing-Konzeptes basierend auf einem zweigleisigen Mechanismus über Java Instrumentation oder alternativ Code Generierung, die die bedarfsorientierte effiziente DB-/Text-Ausgabe, Analyse und visuelle Darstellung (Sequenz-Diagramme) aller Parameter aller Methoden mit allen ihren Embedded Types ermöglicht. In Kombination mit obigen Sicherheitstools sind so auch alle Teile eines übergeordneten verteilten Code Injection Angriffs erkennbar, auch wenn gegen einen einzelnen RESTful Service nur Fragmente eines Angriffs eingesetzt werden. Weiterhin lassen sich so Root Causes (ursprüngliche Ursachen) von Fehlern automatisiert erkennen und missbräuchliche Nutzungen (z.B. Massen-Download von verteilten IP-Adressbereichen) erkennen. Nutzung der Tools Nagios, splunk und HP ArcSight.
Identifikation und Vorschlagen von Komponenten/Techniken zur Umsetzung von Anforderungen an RESTful Systeme, die wegen der REST-Einschränkungen nicht direkt umsetzbar sind: Transaktionen, asynchrones/Event-basiertes Messaging, Routing, komplexe Content Transformationen, Format/Content/Protocol Mediation, gleiche und detaillierte Fehler-Behandlung, Unterstützung von Nicht-HTTP-Protokollen, Auditing/Monitoring/Logging/Tracing/Analytics, sicheres Schlüssel-/Token Management & Verteilung, komplexe per Regeln beschriebene Prozesse mit asynchronem Fremd-Input, komplette Testbarkeit mit Time-Travelling, Standard Kommunikations-Patterns (wie fire-and-forget, publish-subscribe,...), Batch Jobs / Scheduled Tasks mit Ausführungs-Kontrolle, ReliableMessaging.
Konzeption/Review/Beratung zu den neues GUIs der Systeme auf Basis von JSF und/oder HTML5: jQuery, Node.js, npm, Backbone.js, Underscore.js, d3.js (Data-Driven Documents), angularJS, Mustache, TypeScript, CSS3.
DS-Ansatz: Schwarze Listen, Anschrift und Bankdaten-Ähnlichkeitsvergleich mit Scoring-Dienstleistungen, Anomalieerkennung, Zeitreihenanalyse aller Zahlungsströme mit Anomalieerkennung und Schwellwerten (Thresholds), Modellierung typischer Zahlungs- / und Teilauszahlungs-Regelungen mit Ausreißererkennung, Austausch verdächtiger und von Blacklist-Datensätzen/-Personen mit anderen Versicherungen und Behörden.

Produkte

Kunde

European Patent Office

Einsatzort

Den Haag, NL

5 Monate

2012-04 - 2012-08

Spezifikation der IT-Landschaft f�r Arzt-Praxen, Krankenh�user und zentrale Telematik-Infrastruktur

IT-Architekt mit dem Schwerpunkt auf IT-Sicherheit Java JBoss EAP/AS Apache CXF WebServices ...

Rolle

IT-Architekt mit dem Schwerpunkt auf IT-Sicherheit

Projektinhalte

Projektziel:

Spezifikation der IT-Landschaft für Arzt-Praxen, Krankenhäuser und zentrale Telematik-Infrastruktur (TI) für die elektronische Gesundheitskarte (eGK) mit Schwerpunkt auf IT-Sicherheit.

Aufgaben Fachlich:

Konzeption der Konnektor-Funktionalität auf Anwendungs-Ebene: Verschlüsseln, Signieren, Hashen, Verifizieren für die Datenformate binär, PDF/A, XML, S/MIME, Text unter Anbindung von Kartenterminals, Smartcards.
Zuarbeit bzgl. Sicherheit zur Konnektor-Funktionalität auf Netzwerk-Ebene.
Konzeption der IT-Sicherheit (Gefährdungen/Gegenmaßnahmen) und Sicherheits-Test-Konzeption, Vorbereitung der Zertifizierung nach BSI Grundschutz mit dem BSI.

Technisch:

Aus-Spezifikation der Nutz- und Kontroll-Datenflüsse und Datenformate bis ins letzte Bit für alle denkbaren Krypto-Operationen: Verschlüsseln, Signieren, Hashen, Verifizieren, Anbindung an PKI unter Nutzung der existierenden Standards: PKCS#7, CMS, XaDES, XML-DSig, S/MIME, PC/SC, PDF-Crypt, PDF-Sign, Signaturgesetz (SigG) und Signaturverordnung (SigV), GnuPG/GPG.
Sicherheits-Konzeption nach Common Criteria/BSI Grundschutz nach Bedrohungsszenarien/Bedrohungskatalogen und deren Gegenmaßnahmen/ Sicherheits-Richtlinien auf Applikations-Ebene (Informationssicherheits-Management-Systeme (ISMS), AntiVirus, AntiSpam, Content Verification mit Internet Connection Adaptation Protocol (ICAP) XML-Security (XSpRES), Canonical XML) und Netzwerk-Ebene (diverse Netzwerkprotokolle, Firewall-/VPN-Technologien, IDS/IPS/WAF Systeme und Virtualisierung, WLAN- und Mobile-Sicherheit). Nutzung von PKI mit X.509 und LDAP/Active Directory sowie Identity and Access Management (IAM).
Sicherheits-Konzeption unter Berücksichtigung von Sicherheits-Standards wie ISO 2700x, Open Source Security Testing Methodology (OSSTMM), OWASP Testing Guide, Web Application Attack and Audit Framework (W3AF), BSI WebApp-Sicherheitsbaustein (basiert auf/integriert ÖNORM A 7700), PCI DSS (Kartenterminals, Smartcards, Bezahlsysteme) und deren Umsetzung in Form von Sicherheits- und (Penetration-)Test-Konzeptionen.
Pen-Test- und Acceptance-Test-Konzeption basierend auf Security Scannern & Tools: MetaSploit, Burp Suite, NeXpose, Nessus, Nmap, Acunetix-Websecurity Scanner, PeakflowX von Arbor, NTOSpider, NTODefend (DAST Tools), Skipfish, Fuzzing Tools, Burp Nessus, SoapUI (für WebServices), Core Impact, Google Skipfish, OWASP WebScarab, JBroFuzz, Zed Attack Proxy (ZAP), Scrubbr, SQLiX, Paros Proxy, IronWASP, W3AF, Syhunt Mini, N-Stalker, Watobo, VEGA, Netsparker, Andiparos, ProxyStrike, Wapiti, Grendel Scan, arachni, WebCruiser, JSky, jScan, ProxyStrike, PowerFuzzer, Sandcat, Ammonite, safe3wvs, WebGoat (unsich. App), Fiddler, ModSecurity.

Produkte

Kenntnisse

Java JBoss EAP/AS Apache CXF WebServices Scrum Win32/Linux

Kunde

Gematik, Gesundheitswesen

Einsatzort

Berlin und Homeoffice, DE

6 Monate

2012-03 - 2012-08

Erstellung einer Sicherheitsarchitektur f�r das Projekt PostPaket 2012

Sicherheits-Architekt

Rolle

Sicherheits-Architekt

Projektinhalte

Produkte

Kunde

Deutsche Post/DHL

Einsatzort

Darmstadt/Bonn/Homeoffice, DE

1 Jahr

2011-04 - 2012-03

Modernisierung der Unternehmens-IT

Enterprise/System Architect/Solution Designer Logging Tracing Error Handling ...

Rolle

Enterprise/System Architect/Solution Designer

Projektinhalte

Produkte

Kenntnisse

Logging Tracing Error Handling Debugging Testing

Kunde

Llyods Banking Group

Einsatzort

Heidelberg, Frankfurt/Main (DE), Bristol (EN), Luxemburg (L) uvm

1 Jahr 4 Monate

2010-07 - 2011-10

De-Mail-Projekt

oftware-/Netzwerk-/Infrastruktur-Architek, sp�ter Test Manager DLIES ECIES Elliptical Curve ...

Rolle

oftware-/Netzwerk-/Infrastruktur-Architek, sp�ter Test Manager

Projektinhalte

Produkte

Kenntnisse

Kunde

Dt. Telekom/T-Systems

Einsatzort

Homeoffice, Gro�raum Frankfurt/Main, DE

8 Monate

2010-08 - 2011-03

Analyse und Verbesserung der Architektur sowie der IT-Sicherheit

GWT-/AJAX-Security-Spezialist & Architekt, sp�ter Testmanager

Rolle

GWT-/AJAX-Security-Spezialist & Architekt, sp�ter Testmanager

Projektinhalte

Produkte

Kunde

Alliance Boots Group

Einsatzort

Bonn, DE und Zug, CH

3 Monate

2010-06 - 2010-08

Verifikation von Reisepapieren

Coach, teilweise Testmanager in der anf�nglichen Analyse- und Pr Criteria API RichFaces Ajax4JSF ...

Rolle

Coach, teilweise Testmanager in der anf�nglichen Analyse- und Pr

Projektinhalte

Produkte

Kenntnisse

Kunde

Government

Einsatzort

Hannover und teilweise Berlin, DE

5 Monate

2010-01 - 2010-05

Konzeption neuer WebServices im Rahmen eines ESB/SOA-Konzeptes f�r das Internationale Bausparkassenpaket

Architekt/Projektleiter, Team-Mitarbeiter Java iSeries/POWER6-Systeme AS/400 ...

Rolle

Architekt/Projektleiter, Team-Mitarbeiter

Projektinhalte

Produkte

Kenntnisse

Java iSeries/POWER6-Systeme AS/400 Win32 Unix AIX Linux z/OS CICS RACF DB2 RMF SMF IMS DB2 JCL WebSphere Oracle SAP NetWeaver Development Infrastructure SAP BI SAP DMS

Kunde

Schw�bisch-Hall/Kreditwerk, Marktf�hrer Deutschland/Osteuropa

Einsatzort

Schw�bisch Hall

Aus- und Weiterbildung

6 Jahre 5 Monate

1992-10 - 1999-02

Informatik, Nebenfach Nachrichtentechnik, Elektrotechnik (�hnlich Dipl.-Ing.)

Diplom-Informatiker (Dipl.-Inf./Dipl.-Inform.), Uni/TU Kaiserslautern

Abschluss

Diplom-Informatiker (Dipl.-Inf./Dipl.-Inform.)

Institution, Ort

Uni/TU Kaiserslautern

Schwerpunkt

Software Engineering
Datenbanken
Betriebswirtschaft
Computergrafik/CAD, Nachrichtentechnik (ISDN, GSM, UMTS)
Robotik
Datenkompression
Künstliche Intelligenz
Computerlinguistik
Thema: Gerne auf Anfrage

Ergänzungsstudiengänge parallel zum Studium: Business/Technisches Englisch und Französisch (je 4h/Woche über 2 Jahre), BWL/ Existenzgründertraining.

1978-1982

Institution: Grundschule

�

1982-1991

Institution: Gymnasium

Ausbildung: mehrmonatige Sch�leraustausche mit Frankreich & Kanada

Abschluss: Abitur

�

1994-1996

15-monatiges Existenzgr�ndertraining an der Uni KaiserslauternIn dessen Rahmen Nebenfach Wirtschaftswissenschaften (zus�tzlich & freiwillig; alle Pr�fungen durchgef�hrt und bestanden)
Erg�nzungsstudium Technisches Englisch (2 Jahre)
Erg�nzungsstudium Technisches Franz�sisch (2 Jahre)

�

1992 ? 1998:

Ausbildung: Studium

Schwerpunkte:

Abgeschlossenes Studium mit KI- und NLP-Schwerpunkt am DFKI (Dt. Forschungszentrum f�r K�nstliche Intelligenz, einzige Dt. KI-Spitzenorganisation und gr��tes KI-Forschungszentrum der Welt, TU Kaiserslautern + Saarbr�cken), Semantische Suche, NLP, B�roautomatisierung (OCR + ICR), Information Retrieval, KDD (Knowledge Discovery in Databases), BI.
Key Skills:
- NLP-Parsing mit formellen Grammatiken wie HPSG-, LFG-, Chart-Parsern, generatives Lexikon, MRS (Minimal-Recursion Semantics), Expertensysteme, Constraints, KI-Planungssysteme/Workflow-Management-Systeme (WMS), Business Intelligence (BI) mit relationalen und objektorientierten DBs, B�roautomatisierung (OCR + ICR), KDD (Knowledge Discovery in Databases).
Arbeiten:
Diplomarbeit/DFKI + Startup:
- Gerne auf Anfrage
DFKI (Dt. Forschungszentrum f�r KI), Projektarbeit: Statistische OCR-Postprocessing und Fehler-Reduktionskomponente auf Basis von Content-, (Gesch�ftsbrief-)Struktur-, Lage- und Segmentierungs-Daten f�r ICR (Intelligent Content Recognition) mit Student- und Gau�-Verteilung. Dies wurde von der DFKI-Ausgr�ndung Insiders-Technologies in deren kommerzielle Produkte eingebaut.
DS-Ansatz:
- Nach-Klassifizierung von erkannten Zeichen nach OCR z.B. aufgrund der vertikalen Lage der Zeichen (z.B. die Unterscheidung zwischen o/O, i/I/l, j/J,, etc.): Bestimmung der unteren, der Basis-, der oberen und der obersten Begrenzungs-Linie unter der Annahme einer Gau�-Verteilung und Berechnung / Suche nach der optimale Trennlinie zwischen diesen Linien per Cluster-Analyse, durch die Minimierung des Integrals, d.h. der Fl�che unter den Gau�-Kurven, die den falschen Linien zugeordnet sind. Alle Linien werden aus Clustern von Punkten berechnet. Gesamt: Minimax Ansatz: Minimierung der Worst-Case-Wahrscheinlichkeit (maximal) der Fehlklassifikation der zuk�nftigen Datenpunkte in Bezug auf die Dokumenten-Segmentierung; Erhalten eines minimaler Spannbaum-Segmentierung mit optimaler hybrid gewichteter Punktzahl/Score f�r die Dokumenten-Segmentierung.
DFKI, Seminararbeit: Nichtlineare Planer, Score-Berechnung f�r Situationen und heuristische/statistische Strategien (Hill Climbing, Simulated Annealing, Dynamic Programming, etc.).
DS-Ansatz:
- Hill Climbing, Simulated Annealing, Dynamische Programmierung, etc. und wann welches Verfahren zu verwenden ist.
Themen meines KI/NLP-Studiums:
- Konnektionismus/Neuronale Netzwerke (CNN, Perzeptron, Kohonen-Karten,...), Einschr�nkungen/Constraints, Expertensysteme, Computerlinguistik/NLP (HPSG, LFG, MRS, Syntax, Semantik, Pragmatik, generatives Lexikon, lexikalische Regeln, Chart Parsing), Ontologien, Rahmenlogik/Frame Logic, DAML+OIL, Information Retrieval, semantische Suche, phonetische Suche, Spracherkennung (gehalten durch IBM ViaVoice Forscher), Planung, intelligentes Konfigurationsmanagement (mit Constraints), Robotik, Computer Vision, intelligentes Workflow-Management (mit Constraints), deduktive Logik, induktive Logik, deduktive/induktive/semantische Datenbanken, fallbasierte Logik, visuelle Krebserkennung mit CNN/RNNN/Kohonen-Karten, Statistik/stochastische/�hnlichkeitsma�e, Aktivierungsfunktionen, Wissensrepr�sentation und Inferenz (Schlu�folgerungen ziehen).

Position

Big Data, Computer Vision, Data Science, IT-Sicherheit

Kompetenzen

Top-Skills

Schwerpunkte

Airflow

Aufgabenbereiche

MS Project

Produkte / Standards / Erfahrungen / Methoden

ActiveMQ

AES-GCM

Ajax4JSF

Apache

Apache Cordova/PhoneGap

Apache CXF

Apache CXF WebServices

Apache Tika

Avro

AXIS2

Axon Ivy

Backbone.js

bcrypt

Bex Analyzer

BizTalk

boost Library

bower

BPM

Brocade Data Center Fabric Manager

Caching

Camunda BPM

CAN-Bus

Cascading

CasperJS

Chef

Chukwa

Cloudera Hadoop

COBIT

Cognos

Conduct>It (CC)

CRL

Crunch

Crystal Clear

CSS3

CXF

DataFrames

Debugging

Deeplearning4j

depend

DER

Diffie-Hellman

DiffieHellmann

DKIM

DLIES

DMARC

DNSCurve

DNSSEC

Docker

Dojo mobile

dom4j

Domain-Driven Design

Drools

DSA

DTD

EAI

ECDSA

ECIES

Eclipse

Egg packaging

Elasticsearch

ELK-Stack

ELKI

Elliptical Curve

Ember.js

Enterprise Architect

Entwicklung/Konzeption unter Windows

Error Handling

Exasol DB

Express>It (BRE)

FHMQV-C

G10-Schnittstelle

Ganglia

gerrit

git

Google Analytics

Gora

gradle

Grafana

Greasemonkey

grunt

gSOAP

HAWQ

HDFS

Hibernate

Hive

HP ArcSight Tools

HTML5

http(S)

IBM Appscan

IBM Integration Broker

IBM Integration Bus

IBM Migrationstools

IBM QRadar SIEM

IBM SPSS

IBM Tivoli mit TADDM

Icinga System Management

IDEA

Identity Manager / Access Manager

Intel E-Mail Protection / Server Security Suite

Intel/McAfee Web Gateway 7.x

IntelliJ IDEA

Ionic Framework / Lab / ngCordova

IPSec

iSeries/POWER6-Systeme

IT Security

ITIL

Jackson

Jama Contour

James

Java/JavaScript

JBoss

JBoss EAP/AS

jBPM

JMRTD

jQuery mobile

Kafka

Kanban

Kendo-Framework

KNIME

Konfig.-Serialisierung

KTM

Kubernetes

LDAP

LDAP-Anbindung

LIBSVM

Liquibase

LMTP

Lo-Dash

log4j

Logging

Logging-/Tracing-Framework

Lucene

Mahout

maven

McAfee Embedded Control

Microsoft .NET Framework 4.5

Microsoft Biztalk

MicroStrategy

MOA

MS Azure

MS Excel

MS Office

MS Outlook

MS PowerPoint

MS RegExp

MS Visio

MS Visual Studio

MS Visual Studio 2013 mit C#

MS Visual Studio und C++

MS Word

mustache

NACL

NFSv3

NFSv4

Node.js

npm

Nutch

NW.js

OBD-II

OCSP

OOA

OOD

OOP

Oozie

OpenText MBPM

Oracle 11gR2 mit RAC

Oracle Glassfish

Oracle JDK 6/7

Oracle OpenDS

ORC

Oryx 2

Parquet

Partitioning

PBKDF2

PhantomJS

Pig

Pivotal-Tools Geode

PKI

Produktionsumgebung unter Linux

Puppet

QlikView

Qualcomm QPST

Qualcomm Tools QxDM

Qualcomm-Tools

Rancher

RDDs

Red Hat OpenShift

Redis

RegExp

RESTful Webservices

RichFaces

Risk-Based Testing

RMF

RocksDB

RSA

RUP/EUP

S/MIME

SAP BI

SAP BO (Business Objects Business Intelligence)

SAP BW (Business information Warehouse)

SAP DMS

SAP HANA

SAP NetWeaver Development Infrastructure

SAP PowerDesigner

Scrum

Scrumk

scrypt

Seam

Security/IAM/ISMS

SHA-2

SHA-2 Hashing

SHA-3

SharePoint

Sigar

slf4j/logback

Slimer.js

SMF

SOA

SOAP

Solr

Spark / Spark Streaming

Spark mit Streaming und MLlib

Spark SQL

Spark Streaming

SparkR/SparklyR

Sparx Enterprise Architect

Sqoop1/2

Squid

SSL

Storm

Subversion/SVN

T-Systems ImageMaster

Tachyon

Teradata QueryGrid/TDCH

Testing

Tez

TFS

TLS

Tracing

Trident

TrueCopy

TypeScript

UML/UML2

Versions-/ Konfigurations-Management

Versions-Management

Visio

VMware

WADL

WebServices

WebSphere

Weka

Windows Embedded

WS-* Standards

WSDL

X.509v3 mit Extended Usages

XML

XML Schema

XML/XML Schema (XSD)/XSLT

XPath

XQuery

XSD

XSLT

zanox

ZFS

Zookeeper

Profil:

Eigene haftungsbegrenzte Firma (mit 2 Partnern), damit kein Risiko der Scheinselbst�ndigkeit.
Weltweit einsetzbar; Wegen meiner Familie ziehe ich nicht zu den Kunden um, sondern reise jeweils montags an und donnerstags/freitags ab per Zug/Auto/Flugzeug und ben�tige daher etwa 125 Euro/h zzgl. Reisekosten + 50% der Reisezeit als Stundensatz. Ich kann auch etwa 135 Euro/h all-exclusive anbieten und dann im Zug/Flugzeug f�r den Kunden arbeiten. Ein anderer Weg f�r den Endkunden, Geld zu sparen, besteht darin, dass sie ihre Unternehmens-Rabatte bzgl. Z�gen / Fl�gen / Hotels an mich weitergeben (so muss ich weniger auf den Stundensatz aufschlagen). Ich wohne nahe 2 Flugh�fen (Karlsruhe/Stra�burg), 2 Autobahnen und 2 schnellen Zugstrecken (ICE, franz�s. TGV). Weiterhin arbeite ich bei Vor-Ort-Eins�tzen Di-Do lieber 10 Stunden pro Tag bei entsprechender Bezahlung der Mehrarbeit.

Wehrdienst:

1991-1992:

Grundwehrdienst: Elektronische Kampff�hrung / Fernmeldetechnik

Beruflicher Werdegang:

2010 - heute:

Aufgaben:

Fast 30 Jahre KI-Erfahrung (K�nstliche Intelligenz/AI ? Artificial Intelligence):
Deep Learning, Data Science, Big Data
Key Skills: Deep Learning (CNN, RNN, TensorFlow, PyTorch, etc.), Deep NLP (Natural Language Processing: BERT, ULM-FiT, ELMo, Transfer Learning, OpenNMT, OpenAI Transformer, AllenNLP, Stanford CoreNLP), Data Science (Apache Spark MlLib, Mahout, R, spaCy, Anaconda), hybride Modelle (vorgegebene Strukturen + neuronale Netze + Gewichte/Stochastik, z.B. LSTM (Long Short-Term Memory), GRU (Gated Recurrent Units), Attention, Feast AI), PMML, ONNX, OpenScoring.io, Speicherung von Deep Learning Zwischenst�nden + Modellen, Wissensrepr�sentation und Inferenz (Schlu�folgerungen ziehen), Semantik, Virtualisierung, Management mit Docker, Kubernetes, Airflow, etc.
KI-Projekte:
- DXC f�r Daimler + BMW, Autonomous Driving Programm, 2018-heute: Deep Learning f�r selbstfahrende Autos: Logisch/zeitlich konsistente virtuelle 3D-Stadtgenerierung, Deep Labelling f�r semantische Bildsegmentierung mit Keras/TensorFlow, Design Patterns f�r Deep Learning Architekturen, DeepMind (Kapitan, Scalable Agent, Learning to Learn, TF Reinforcement Learning Agents), Horovod (verteilte Trainingslibrary f�r TensorFlow, Keras, PyTorch), Sparse Blocks Network (SBNet, TensorFlow Algorithmus), Google Dopamine Reinforcement Learning Framework auf Basis von TensorFlow, OpenAI GPT-2, Facebook XLM + PyText, Google BERT.
- HSBC Trinkaus & Burkhard AG: Gr��te Europ�ische Bank, World's Best Bank 2017 nach EuroMoney, 12/2017 ? 11/2018: Security- und SOC-Architekt (Security Operations Center), SOC der 5. Generation: Erweiterung der SOC-Features um KI und Data Science: Ca. 60 kommerzielle Security-Tools. Data Science/KI zur Erkennung von Sicherheitsvorf�llen: Neuronale Netze/Deep Learning, Reinforcement Learning, Zeitreihenanalyse, Anomalie-Erkennung, Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist (Erweiterung von Quinlan?s M5 model tree), Apriori-Analyse, �berwachte Klassifizierung, Link-Analyse-Netzwerke.
- Schwarz-Gruppe (Lidl & Kaufland): Machine-Learning zum Einkaufsverhalten der Kunden: Wirkungsanalyse & Optimierung von Marketingaktionen, Optimierung der Supply-Chain: Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist.
- Avira, 2017: Machine-Learning zur Optimierung der Konversionsraten von Freemium zu Paid, Abh�ngigkeitsanalysen auch zur Optimierung der Boot-Zeiten.
- BNP Paribas Personal Investors, 2017: Consorsbank + DAB, World's Best Bank 2016 nach EuroMoney: Konzeption eines Customer Intelligence (CI) Systems mit CDP (Customer Data Platform) und MAP (Marketing Automation Platform) f�r Hadoop/Spark: Kunden-Segmentierung z.B. nach Personas mit KNIME, Chatbot mit IBM Watson und Open Source DLNLP Tools; DynaMine, Gradient Boosting (XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, GBM(Gradient Boosting Machine)/MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC.
- Credit Suisse, 2017: Business Transaction Store zur Analyse jeglicher Finanz-Transaktionen: Rekonstruktion aller Transaktionsb�ume mit allen Zweigen, Zeitreihenanalyse, Anomalie-Erkennung, Multi-Level-Methoden (Transaktion / Konto / Kaufmann / Konzern), Berechnung eines Verdachts-Scores, sonstige klassische und mehrstufige Verfahren zur Betrugserkennung.
- Cisco Systems mit AOK als Endkunde, 2016-2017: Microservice Blueprints f�r Data Science Anwendungen wie Maximierung des Erfolgs von Gesundheits-F�rderprogrammen.
- GE (General Electric), 2016: Digital Windfarm Projekt: Make vs Buy vs Improve Analysen mit Machine Learning und ca. 50 Einfluss-Faktoren.
- Deloitte Consulting f�r Daimler Financial Services (DFS), 2016: Erstellung einer Architektur f�r ein Corporate Memory, insbesondere die m�glichst schnelle Erkennung von negativen Bonit�tsver�nderungen, Vertrags-/Kundenanalyse, Credit Risk, Fraud Prevention mit Machine Learning).
- GfK Marktforschungsunternehmen, 2015: BI-Analysen; Werbe-Effizienz-Analysen, Trend- und Sale-Erkennung, Produkt-Lebenszyklus-Erkennung, Konsequenzen von Branding vs. White-Label-Verkauf.
- KPT/CPT Krankenversicherung, Schweiz, 2015: Analyse der medizin. Leistungsdaten und daraus Ableitung von Frageb�gen und Aufschl�gen f�r Vorerkrankungen und Analyse/Optimierung der Marketing-Aufwendungen, Betrugserkennung z.B. bzgl. der Beg�nstigten und der Korrektheit der zu erstattenden medizinischen Rechnungen.
- Smartclip, Cross-Platform-Video-Werbung (Teil der Mediengruppe RTL, Teil von Bertelsmann), 2015: Vorschl�ge erstellt f�r Auswertungen im Data Science Bereich f�r das Targeting, das zielgruppen-abh�ngige Schalten von Online-/Internet-Video-Clips; Integration mit DMPs / DSPs, semantische / NLP Analyse der Website-Inhalte und die damit verbundenen Interessen; eine Mischung aus Hauptkomponentenanalyse.
- Havas Media Gruppe (Medienagentur Nr. 7 in Europa) in Kooperation mit TheAdex, 2015: a) Semantic Ad Targeting mit Real-time DMP, b) Betrugserkennung in Web-Werbungs-Tags /-Pixels; c) Analyse der Kunden-Reisen (Customer Journey) durch Web-Sites / in der verf�gbaren Historie durch Graphen, semantische / NLP Analyse der Website-Inhalte und der damit verbundenen Interessen.
- Siemens Corporate Technology/Healthineers (ex: Healthcare) IT, 2014-2015: Konzeption einer vorausschauenden Instandhaltungs-L�sung (Predictive Maintenance) f�r die Siemens-Medizinprodukte: GMM (Gaussian Mixture Models); �berwachtes Lernen / Supervised Machine Learning, Association Rule Learning.
- Dermalog / FingerPayment, 2014: Bek�mpfung von hunderten Angriffen mit zugeordneten Wahrscheinlichkeiten und Schadens-Erwartungswerten wie Identit�tsklau, Man-in-the-Middle, Timing-, Bit-Manipulations- und Seitenkanalattacken durch hunderte priorisierte Gegenma�nahmen basierend auf ihrem probabilistisch exakt berechneten Kosten-Nutzen-Verh�ltnis, beispielsweise Verschl�sselung, Signierung, sicherer Schl�sselaustausch,etc.
- Allianz, 2014: Intelligente Data Center Migrationen mit Millionen von Abh�ngigkeiten ohne Betriebsunterbrechung.
- Klingel / KMO-Gruppe: 2014-2015: Verbesserung der Erkennung von betr�gerischen F�llen; Erstellung von Vorschl�gen f�r Cross- und Up-Selling; Erweiterung der Analyse zur Optimierung der Online-Werbe-Ausgaben; Betrugserkennung.
- BG-Phoenics (IT-Tochter der Dt. gesetzl. Unfallversicherungen (DGUV)/Berufsgenossenschaften), 2013: Vorschlagen von Textbausteinen zur rechtssicheren Erstellung von berufsgenossenschaftlichen Bescheiden und der rechtssicheren Beantwortung von Briefen auf Basis von OCR + ICR (Optical Character Recognition + Intelligent Content Recognition).
- Gematik (deutsche elektronische Gesundheitskarte und ihrer Infrastruktur): 2012 & 2013: Konzeption eines Statistik-Moduls zur Identifizierung verschiedener Arten von Angriffen / Betrug mit der Gesundheitskarte oder auf dem Konnektor oder der Backend-Infrastruktur, Anomalie-Erkennung.
- Parfumdreams.de (Akzente Parfums), von 2012 bis 2013: Konzeption und Implementierung der Erkennung von betr�gerischen Kunden, Bankkonten, Adressdaten, nicht passender Namen oder Schreibweisen und verschiedenes verd�chtiges Verhalten; Erstellung von Vorschl�ge f�r Cross- und Up-Selling; Betrugserkennung.
- Lloyds Banking Group / Heidelberger Leben, 2010-2011: Betrugserkennung / AML (Anti Money Laundering) / KYC (Know Your Customer) in Bezug auf Zahler, Beg�nstigte, Anschriften, Organisationen, Zeitintervalle z.B. der zus�tzlich gezahlten Pr�mien und zu zahlender Betr�ge; Datenaustausch �ber problematische oder betrugs-verd�chtige Kunden mit anderen (Lebens-)Versicherungen, Machine-Learning auf dieser Basis.
- Deutsche Bundesdruckerei, 2010: Konzeption / Implementierung einer Softwarekomponente f�r die �berpr�fung der Echtheit der deutschen und internationalen P�sse / Personalausweise-Dokumente mit einer Sicherheitsmerkmalsextraktion, Bewertung und statistisches Scoring-Konzept, um Betrug / F�lschungen zu verhindern.

1999 ? heute:

Rolle: Unternehmensberater

Aufgaben:

Unternehmensberatung�
Architektur, IT-Security, Entwicklung und Projektmanagement gro�er IT- und Organisationsprojekte in der Finanzwirtschaft, Automobil-/Technologie- und Pharma-Branche.

Erfolge:

Architekt in den wohl 4 wichtigsten deutschen IT-Projekten der letzten Jahre: Elektronische Gesundheitskarte (Gematik), elektronischer neuer Personalausweis nPA (Bundesdruckerei), De-Mail (sichere vertrauliche E-Mail mit gesetzlicher Signaturfunktion und Gleichstellung zum eingeschriebenen Brief, Dt. Telekom) und das Mobile-Security-Projekt SIMKO der Bundesregierung.
8 erteilte Software-Patente im Security-Bereich (sichere unscheinbare Kommunikation/Textbasierte Wasserzeichen, z.B. f�r eBooks). Die Patente wurden in allen wichtigen Industriestaaten erteilt (USA, Kanada, Europa) und von IBM, Sybase, Amazon, Intel, Microsoft, Nuance, Fuji Xerox, AT&T, Certicom (wichtigster NSA-Crypto-Lieferant z.B. in der ?NSA Suite B Cryptography?) und vielen anderen als wichtiges Basispatent

Zwei CeBIT-Messehighlights im Security-Bereich (sichere unscheinbare Kommunikation/Textwasserzeichen, Integration der HBCI-Kartenfunktionalit�t als Software f�r die Geldkarte).
Jedes professionell finanzierte Projekt zum Erfolg gebracht.

1998 ? 2010:

Aufgaben:

Fr�he Berufst�tigkeit w�hrend der KI-Flaute: Semantic Search, Web Scraping und Inhaltsanalyse, unscheinbare sichere Kommunikation, Text-Wasserzeichen, Competitive Intelligence

Key Skills:

Projekte mit KI-Anteilen:

Deutsche Telekom / T-Systems, 2007-2008: Aufbau eines Tracking & Tracing-Systems f�r Inventar und verschickte Waren mit statistischer Analyse der verschickten / erhaltenen Warenmengen wenn sie mit LKW / Bahn / Flugzeuge verschickt werden, der Defekt-Quoten; Analyse aller Warenfl�sse in und aus ganzen Fabriken und Betrugserkennung auf dieser Grundlage.
Thales Gruppe / Thales Defence, 2001-2003: Data Science / Statistische Auswertung von Man�ver-Daten von Flugzeugen und Schiffen auf Treff- und Ortungsgenauigkeit sowie untergeordnet der Qualit�t von IT Komponenten und der menschlichen Befehle/Aktionen.
Fraunhofer IESE + Startup: Konzeption eines Semantic Search Systems basierend auf Ontologie-Distanz semantischer Konzepte sowie deren Umschreibungen.
DS-Ansatz:
- Berechnung der gewichteten Punktzahl aller individuellen Entscheidungen in jedem Textsegment gegen alle anderen Segmente mit �hnlichen semantischen Konzepten. Semantische Konzept-�hnlichkeit wird als gewichteter / Wahrscheinlichkeitspfad (Knoten und Kanten) in der WordNet-Ontologie berechnet. Erfordert Morphologie und (HPSG-)Parsing.
Fraunhofer IESE + Startup:
- Konzeption von teilweise vorgegebenen, teilweise selbstlernenden deep semantic Web/Text/Data Mining Algorithmen mit Extraktion aus Tabellen, Beschriftungen, etc. sowie entsprechender Lernalgorithmen basierend auf (HTML-)Strukturen und bereits bekanntem Wissen.
Data Science (DS)-Ansatz:
- Die Tiefe / DOM-Pfad-�hnlichkeit der HTML-Tags von Daten aus HTML-Tabellen extrahieren. Minimax-Ansatz: Das Minimieren der Worst-Case-Wahrscheinlichkeit (maximal) der Fehlklassifikation der Tabelleninhalte wird gelernt, Gewinnung einer minimaler-Spannbaum-Segmentierung mit optimal hybrid gewichteten Punktzahlen f�r Tabelleninhalte.
Fraunhofer IESE + Startup:
- Konzeption der Algorithmen/Wahrscheinlichkeitsformeln f�r die Berechnung der Wahrscheinlichkeit, dass ein Text plagiiert ist.
DS-Ansatz:
- Head-driven Phrase-Structure Grammar Parsing (HPSG) von Texten. Die Bestimmung der statistischen Verteilungen aller Kopf-Tochter-Selektionen, in denen mehrere M�glichkeiten bestehen, z.B. Gauss, Student, Bernoulli und andere Distributionen, Maximum-Likelihood-Sch�tzer. Berechnung der gewichteten Punktzahl aller individuellen Entscheidungen in jedem Textsegment gegen alle anderen Segmente mit �hnlichen semantischen Konzepten. Semantische Konzept-�hnlichkeit wird als gewichteter / Wahrscheinlichkeitspfad (Knoten und Kanten) in der WordNet-Ontologie berechnet. Erfordert Morphologie und (HPSG) Parsing.
Fraunhofer IESE + Startup:
- Extrahieren der statist. Charakteristika pers�nlicher Schreibstile aus Mustertexten und Anwenden dieser Schreibstile f�r Text Watermarking und Steganographie.
DS-Ansatz:
- Head-driven-Parsing (HPSG) von Texten mit Wahrscheinlichkeiten f�r die Kopf-Tochter Selektionen. Speichern f�r jeden Autor: a), in welchem grammatikalischen Konstrukt er welche Wort Stellungen / Paraphrasen bevorzugt und b) welche Synonyme er bevorzugt (H�ufigkeiten) aus den bekannten Synonym-S�tzen basierend auf Zusammenh�nge (HPSG Selektions- und Kontext-Constraints), Maximum-Likelihood-Sch�tzer.
Diplomarbeit/DFKI + Startup:
- Entwicklung von Lernalgorithmen f�r das Lernen und verlustlose Speichern diverser lexikalischer/grammatikalischer Daten (z.B. Synonyme/Umschreibungen/Unter-/�bergeordnete Begriffe, Konjugations-/Deklinations-/Flektionsschemata) aus Text-Korpora sowie anderen Lexika (z.B. LFG, HPSG, WordNet, Cyc). Im Rahmen der Diplomarbeit erfand ich auch eine generative semantische Analyse f�r zusammengesetzte W�rter (Komposita) und Pr�positionen, die Analyse der Bedeutung der Komposita durch jeweiliges Ableiten der Pr�positionen, die logisch die Teile des Kompositums verbinden k�nnen (f�hrte zu einem internationalen Konferenz-Papier (GAL) + Ver�ffentlichung im Wissenschaftsmagazin International Journal for Language Data Processing).
DS-Ansatz:
- Minimax Ansatz: Das Lernen der Minimierung der Worst-Case-Wahrscheinlichkeit (maximal) der Fehlklassifikation des k�nftigen lexikalischen Wissens, wodurch man eine minimale Spannbaum-Segmentierung erh�lt mit optimalen hybrid gewichtetem Score f�r die m�gliche Bedeutung aller Datenelemente.

Beratung:

Big Data / Hadoop und Data Science: Alle T�tigkeiten au�er Support und Administration (Cloudera, Hortonworks, IBM Big Insights, Microsoft Azure Integration HDInsight).
Business Intelligence (BI): Modellierung, SQL, Datenextraktion, Star- und Snowflake-Schema; alle g�ngigen Tools incl. IBM, Oracle, Teradata, Power BI.
Software-/System-/Infrastruktur-Architektur
IT Security
Projektmanagement und Testmanagement
Agile Coaching (Scrum, Kanban, Lean, DAD, SAFe, LeSS, Design Thinking), Schulungen (Sicherheit, Big Data, BI, KI)
Entwicklung und Umsetzung branchenspezifischer Gesch�ftsmodelle/Strategien (Markt, Produkte, Personal, Finanzen, Organisation, Vertrieb, IT)
Konzeption und Management komplexer Entwicklungs- und Ver�nderungsprojekte auf strategischer und operativer Ebene
Strategische/operative Entwicklung und Bewertung von IT- und Facharchitekturen
HTML5, Ajax, Node.js, viele Libraries.
Mobile Apps (Native, Cross-Platform, HTML5) f�r iOS, Android, Windows Phone.

�

Know-how:

Tiefes fachliches Know-how in Bank-Systemen/Versicherungs-Vertriebsportalen/Webportalen, in IT-Systemen im Backend (Zahlungen, Bestandsf�hrung, Pr�mienberechnung, Besteuerung), im Projektmanagement, Datenabgleich, Datenveredelung, IT-Sicherheit und Datenfl�ssen zwischen IT-Systemen
eCommerce, Bonus-Systeme, Kundenbindung/Digitale Werbung/Online-Communities
Gesch�ftsprozesse: Finanzwesen, Pharma, eHealth, Automotive, �ffentliche Hand, Transport, Energie, Verlage

�

Methoden und Verfahren:

OOA, OOD, Domain-Driven-Design, Code-Generierung, Reverse Engineering, Code Reading
Projektmanagementmethoden und -verfahren
Software-Entwicklungsverfahren: V-Modell, RUP, SE-Book, PM-Book, Scrum, Kanban, Lean, DAD, SAFe, LeSS, Design Thinking, XP, Crystal Prozesse, ITIL

�

Software/Werkzeuge:

MS Project, MS Office
Eclipse, Netbeans, MS Visual Studio
UML: Enterprise Architect, Together, RSA, Umbrello, Jude, Innovator
IT Security: Common Criteria, BSI Grundschutz, SIEM, mSIEM, SSH, SSL, VPN, L2TP, PPTP, Krypto-Algorithmen, Smartcards, Security Scanner & Penetration Testing/Hacking Tools.

Methoden und Verfahren:

Facharchitekturen, Softwarearchitekturen
Requirements Engineering
Security Engineering und Assessment
Objektorientierte Analyse & Design

�

Meine Erfahrung mit Serverless (Tools/Platforms):

Amazon AWS Lambda, AWS Step Functions
Microsoft Azure Functions
Google Cloud Platform (GCP), Cloud Functions/Datastore/Storage, Cloud Pub/Sub, Endpoints, gVisor, Apigee, Cloud Dataflow, BigQuery, Cloud ML Engine
Google App Engine
Google Kubernetes Engine (GKE), Serverless add-on
Serverless Functions for Docker/Kubernetes/Rancher
Fission.io by Platform9
Iron.io (pur kommerziell)
Knative (Kubernetes/Docker building, serving, eventing utilities)
OPNFV (Open Network Function Virtualization)
OpenStack, Kata Containers
Istio.io
Apache OpenWhisk (by IBM)
Nabla Containers (by IBM, only 9 system calls, best security and performance)
OpenShift

Gelegentlich, in freier Zeit zwischen Gro�projekten, abends/am Wochenende:

Erstellung von Architekturen (Big Data, Sicherheit, Mobile Apps) vom Homeoffice / abends im Hotel; verschafft mir nebenbei auch einen gro�en �berblick �ber aktuelle Real-World-Architekturen.

Smartclip
- Cross-Platform-Video-Werbung, Teil der Mediengruppe RTL, Teil von Bertelsmann, 2015: Performance-Optimierung eines Hadoop-Clusters f�r das Targeting, das zielgruppen-abh�ngige Schalten von Online-/Internet-Video-Clips (DMP/DSP mit Support f�r IAB-Standards wie VAST, VPAID, VMAP) und der Auswertung/Optimierung der Effizienz dieser Werbema�nahmen (Click-Through-Rate Optimierung (CTR)).
- DS-Ansatz: Integration mit DMPs / DSPs, wie durch TheADEX angeboten, semantische / NLP Analyse der Website-Inhalte und die damit verbundenen Interessen; eine Mischung aus Hauptkomponentenanalyse, N�chster-Nachbar-Methoden (Nearest Neighbor), Anomalieerkennung (beim Verlassen einer Website, beim Anklicken einer Anzeige, etc.), Maximum-Likelihood-Sch�tzer, Assoziationsanalyse, Echtzeit-Analysen (als Teil des Lambda-Architektur), vor allem f�r die Propagierung von Negativkriterien und das Matchen von Anzeigen zu den Nutzerinteressen.
- Vodafone, 2015
  - (Urlaubs-Vertretung wegen Unterbesetzung): API-Architektur und Konzeption von OAuth- und OpenId Connect basierenden Identity und Access Management L�sungen in der API-Factory bzw. dem New Integration Layer (NIL) auf Basis von Apigee f�r Ger�te-Diagnostik, Integrated Unified Communication, Connected Car, Migration der Endnutzer-Cloud-Daten, OneDevice, OneLine, OnePOS, Wallet, USSA, Integration von OpenStack-Komponenten/-Diensten.
  - Kiwigrid Dresden (Energie-Versorgungs- und Optimierungskonzepte), 2015: Workshops zu Hadoop mit HBase mit Coprocessors und Phoenix, HBase-Indizierungen, HBase als DataSource f�r Spark/Spark-Integration mit HBase, Spark, OpenTSDB, Resilient Distributed Datasets (RDD) in Spark, RegionSplitter f�r Mandanten-Daten, OpenVZ, Docker & Kubernetes f�r Hadoop, Management/Deployment mit Serf und Consul, Apache Slider, vert.x, SequenceIQ.Klingel-Gruppe / KMO (klingel.de/.at, mona.de, cornelia.ch, Wellsana, Wenz, Amara, Babista, Casserole, Diemer, Happy Size, Jungborn, Jan Vanderstorm, Vamos Veillon), 2014-2015: Architekt f�r JEE-Shopprojekte und WebSphere: Neu-Einf�hrung IBM IIB, Anpassung diverser Shop- und Warenwirtschafts-Backends an IBM IIB, Kundenverhalten-Analyse mit Hadoop, Hive und Mahout. Sicherheitsanalysen. Architektur zur Integration des Akka-Play-Stacks einer Tochterfirma. Vorbereitung und Durchf�hrung von Strategie-Workshops zu verschiedenen Java/Scala/Node.js-Entwicklungs-Stacks incl. OpenStack, Cloud Foundry, Kanban.
  - DS-Ansatz: Betrugserkennung: Klassisch und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt), z.B. schwarze Listen, Anschrift- und Bankdaten-�hnlichkeitsvergleich mit Scoring-Dienstleistungen, Anomalie-Erkennung; f�r diese und andere Zwecke auch eine Mischung aus Hauptkomponentenanalyse, N�chster-Nachbar (Nearest Neighbour) Methoden, neuronale Netze, Maximum-Likelihood-Sch�tzer, maschinelles Ranking-Lernen (Learning to Rank/Machine-learned Ranking), Empfehlungsalgorithmen (?Recommendation Algorithms?: Warenkorbanalyse (Market Basket Analysis, Affinity Analysis), Punkt-zu-Punkt Collaborative-Filtering Ansatz, Preisgestaltung und Verpackungs-Experimente mit A/B-Tests / Bandit-Algorithmen f�r die Verpackung und Preisgestaltung), dynamische Preisgestaltung (Benutzer-Ger�tetyp und dessen Leistungsst�rke, vermutete Dringlichkeit, Wettbewerbssituation, soziographische Benutzerdaten, vorherige A/B-Tests / Bandit-Algorithmen Erfahrung, ... ). Wichtige ber�cksichtigte Daten: Eine Zeitleiste/Zeitreihe mit: Ausgew�hlte Kategorien, Artikel �ber denen mit der Maus geschwebt wurde, Benutzer-Verweilzeiten, andere verwendete Ger�te, Wunschlisten, Direktmarketing-/Referrer-URL, Bewertungen in sozialen Netzwerken des Benutzers, demografische Informationen, Benutzer-Segmentierung, Klickpfade / User-Journey in der Sitzung, Kaufverhalten wie z.B. die Anzahl der angesehenen Artikel / Intensit�t des Vergleichens vor dem endg�ltigen Kauf; Aufhebung allgemeiner User-Optimizations f�r bestimmte Teilbereiche wie Elektronik, Kosmetik, etc. mit speziell dort relevanten User-Optimizations.
  - Trost SE:
  - Autoservice Fahrzeug-Teile-Gro�handel, 2014: IT Systemarchitektur analysiert und kurz-/mittelfristig optimiert, Big Data Ziel-Architektur mit Hadoop sowie Virtualisierungs-Konzept erstellt (MS Hadoop Integration); Scrum.
TecAlliance mit Fraunhofer IESE, 2016:
- Konzeption der Basisarchitektur f�r ein Connected Car System auf Basis von Big Data/IoT-Platformen, die ich dazu recherchiert habe.
- Parf�merie Douglas, 2016: Migration des Rechenzentrums/Erweiterung Quelltexte auf Kundenkarten-Anbingung/Absicherung des Online-Shops, implementiert in Java und Scala. Vorschlag von Big Data basierenden Kundenanalysen und Bandit-Tests (in Erg�nzung zu A/B-Tests). Abl�sung der Anbindung an SAP Hybris
- Visteon Electronics, 2016: Konzeption der Sicherheitsarchitektur der neuen Smartcore Cockpit Electronik-Systeme basierend auf Renesas-Hardware mit den Sicher-heitsdom�nen VIP (Vehicle Information Processor), DI (Driver Informa-tion) und IVI (In-Vehicle Infotainment) sowie Anbindung an Apple Car-Play und Android Auto (�ber Smartphones). Erstellen eines umfangrei-chen Sicherheitskonzeptes mit einem Common Criteria Toolkit und Ab-stimmung mit Daimler. Spezialanalysen bzgl. SELinux und Alternativen, (darunter AppArmor und grsecurity), DAB+, Bluetooth, CAN/LIN, IP Multimedia Subsystem (IMS), Security Coding Style Guides und Code Checker, Vulnerability Management, PKI, Secure Boot, Secure Updates. ISO 26262/ASIL-relevante Konzeptionen, Projektmanagement bzgl. Um-setzung, Pen Testing und Security Intelligence Konzept, Lieferantenbe-treuung und Entwickler-Betreuung.
- Tools/Libraries: SELinux, Embedded Linux, AUTOSAR, Integrity OS by GreenHillsSoft-ware, GNU Toolchain, IBM/Rational Toolchain (incl. DOORS and RTC ? Rational Team Concert), FileNET, Visio, Common Criteria Tool-kit/Verinice, Doors, Rhapsody, AppArmor, grsecurity, BSI Grundschutz Toolkit.
Bundesarchiv, 2014:
- Erstellung eines detaillierten 100-seitigen Angebots zu einer Hadoop-basierenden Such-Infrastruktur mit Apache Solr, Mongo DB oder Oracle DB.
- Ausw�rtiges Amt, 2014: Konzeption der SOA-Strategie als Berater des IT-Architekten incl. Hadoop, insbesondere zu den diversen Anwendungen, die die zentralen IT-Systeme des Ausw�rtigen Amtes ausmachen sowie deren sichere und effiziente Anbindung (Datensparsamkeit/Kompression, Latenz, Caching) an die vielen hundert Botschaften; Scrum.
- Parfumdreams.de (Akzente Parfums), von 2012 bis 2013: Konzeption und Implementierung der Erkennung von betr�gerischen Kunden, Bankkonten, Adressdaten, nicht passender Namen oder Schreibweisen und verschiedenes verd�chtiges Verhalten; Erstellung von Vorschl�ge f�r Cross- und Up-Selling; Benutzung von C++/C # mit MLPACK, Armadillo, Torch; Verwaltung und Austausch von Blacklists mit anderen E-Commerce Unternehmen. Zusammenstellen der Daten von mehreren Betr�gereien und Sicherheitsverletzungen f�r das Management und die Polizei/Staatsamwaltschaft.
- DS-Ansatz: Betrugserkennung: Klassisch und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt), z.B. schwarze Listen, Anschrift- und Bankdaten-�hnlichkeitsvergleich mit Scoring-Dienstleistungen, Anomalie-Erkennung; f�r diese und andere Zwecke auch eine Mischung aus Hauptkomponentenanalyse, N�chster-Nachbar (Nearest Neighbour) Methoden, neuronale Netze, Maximum-Likelihood-Sch�tzer, maschinelles Ranking-Lernen (Learning to Rank/Machine-learned Ranking), Empfehlungsalgorithmen (?Recommendation Algorithms?: Warenkorbanalyse (Market Basket Analysis, Affinity Analysis), Punkt-zu-Punkt Collaborative-Filtering Ansatz, Preisgestaltung und Verpackungs-Experimente mit A/B-Tests / Bandit-Algorithmen f�r die Verpackung und Preisgestaltung), dynamische Preisgestaltung (Benutzer-Ger�tetyp und dessen Leistungsst�rke, vermutete Dringlichkeit, Wettbewerbssituation, soziographische Benutzerdaten, vorherige A/B-Tests / Bandit-Algorithmen Erfahrung, ... ). Wichtige ber�cksichtigte Daten: Eine Zeitleiste/Zeitreihe mit: Ausgew�hlte Kategorien, Artikel �ber denen mit der Maus geschwebt wurde, Benutzer-Verweilzeiten, andere verwendete Ger�te, Wunschlisten, Direktmarketing-/Referrer-URL, Bewertungen in sozialen Netzwerken des Benutzers, demografische Informationen, Benutzer-Segmentierung, Klickpfade / User-Journey in der Sitzung, Kaufverhalten wie z.B. die Anzahl der angesehenen Artikel / Intensit�t des Vergleichens vor dem endg�ltigen Kauf; Aufhebung allgemeiner User-Optimizations f�r bestimmte Teilbereiche wie Elektronik, Kosmetik, etc. mit speziell dort relevanten User-Optimizations.

�

Meine Erfahrung mit Hadoop/Big Data/Data Science:

DXC f�r Daimler + BMW
- Autonomous Driving Programm, 11/2018-heute: Architekt und Technical Lead Meta Data Management (MDM) & Ingest: Virtualisierung/Containerisierung mit Kubernetes + Docker unter MapR; API-/Microservice-Konzeption; Deep Learning for Self-Driving Cars / Logically/temporally consistent virtual 3D city generation, Deep Labelling for Semantic Image Segmentation mit Keras/TensorFlow, Design Patterns for Deep Learning Architectures, DeepMind (Kapitan, Scalable Agent, Learning to Learn, TF Reinforcement Learning agents), Uber?s QALM (QoS Load Management), Horovod (distributed training framework for TensorFlow, Keras, PyTorch), AresDB (Uber?s GPU-powered real-time analytics engine), Uber?s Sparse Blocks Network (SBNet, TensorFlow algorithm), Google Dopamine reinforcement learning framework based on TensorFlow.
- DS-Ansatz (Data Science): TensorFlow f�r Bild-/Video-Analyse: Labeling und �berwachtes Lernen zur korrekten Klassifizierung, verteiltes Hyper-Parameter-Tuning mit TensorFlow, Keras. ML Debugging/Erkl�rbare KI im Kontext von LIME, SHAP, partielle Abh�ngigkeitsdiagramme[Modellleckagen, Entscheidungserkl�rungen in if-Anweisungen, ....]; Modellspeicherung in PMML mit OpenScoring.io und HBase/MapR-DB + Apache Phoenix, Tableau.
HSBC Trinkaus & Burkhard AG / HSBC Deutschland (gr��te Europ�ische Bank)
- World's Best Bank 2017 nach EuroMoney, 12/2017 ? 11/2018: Security-Architekt f�r die Erweiterung des SOC (Security Operations Center) mit QRadar und Security-Analyse-Use Cases im Kontext von Blockchain-Technologie (We.Trade auf R3/Corda f�r Zahlungen + Voltron auf HyperLedger f�r Handels-Dokumente + Utility Settlement Coin (USC)) und SAP, ca. 60 kommerzielle Security-Tools mit entsprechenden Outputs, die zu Alerts f�hrten, deren False-Positive-Zahl minimiert werden musste.
- DS-Ansatz: Eine Mischung aus Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze/Deep Learning, Reinforcement Learning, Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Maximum-Likelihood-Sch�tzer, Random Forest, Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist (Erweiterung von Quinlan?s M5 mo-del tree), C4.5, (Nicht)lineare Regression, Multiple Regression, Apriori-Analyse, �berwachte Klassifizierung, Link-Analyse-Netzwerke, Tableau.
Schwarz-Gruppe (Lidl & Kaufland)
- gr��ter Europ�ischer Handelskonzern: Online und offline, 2017: Konzeption f�r Plattform-, Umwelt- und Methoden-/Prozess-Setup f�r verschiedene Predictive Analytics Teilprojekte (insbesondere f�r Marketingeffekte und Supply-Chain-Prognosen hinsichtlich Bedarfsmengen/Preise etc.): Big Data Architekturberatung, Test-Management Konzept erstellt, Entwicklung plattform�bergreifender Verpackungs- und Versionierungskonzepte, Tools: f�r Python, R, Big Data (Spark, Hive, etc.), Teradata, SAP BW, SAP HANA, Ab Initio, Microstrategy, (Ana)Conda, Python, sbt.
- DS-Ansatz: Random Forest, Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist (Erweiterung von Quinlan?s M5 model tree), Zeitreihenanalyse, Assoziationsanalyse, (Non-)Linear Regression, Multiple Regression, Anomalie-Erkennung, Apriori-Analyse, Warenkorbanalyse, �berwachte Klassifizierung, Link-Analyse-Netzwerke, Maximum-Likelihood-Sch�tzer, klassische und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt).
Avira, 2017:
- Konzeption und Implementierung eines Big Data & Apache Spark Data-Flow-Instrumentation & Configuration Framework in Scala, Beratung bzgl. m�glichen Real-time Use-Cases, Data Science Algorithmen und Datenschutz Grundverordnung (EU-DSGVO).
- DS-Ansatz (Data Science): Random Forest, Gradient Boosting (XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, GBM(Gradient Boosting Machine)/MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Zeitreihenanalyse, Assoziationsanalyse, (Non-)Linear Regression, Zeitreihenanalyse, Anomalie-Erkennung, Apriori-Analyse, �berwachte Klassifizierung, Abh�ngigkeitsanalyse zur Optimierung der Boot-Zeiten, Maximum-Likelihood-Sch�tzer bzgl. Marketing-Ma�nahmen-Effizienz und Konvertierung vom Free-Antivirus-Nutzer zum zahlenden Kunden, Tableau.
Nordex Acciona (Pamplona, Hamburg, Rostock), 2017:
- Erstellung eines Migrationskonzeptes vom Acciona Big Data System zu einem integrierten Big Data System zur �berwachung von Windparks.
- BNP Paribas Personal Investors, 2017: Consorsbank + DAB, World's Best Bank 2016 nach EuroMoney: Konzeption eines Customer Intelligence (CI) Systems mit CDP (Customer Data Platform) und MAP (Marketing Automation Platform) f�r Hadoop/Spark als Baseline-Architektur, darauf basierend Begleiten einer Make-or-Buy-Entscheidung mit Analyse der L�sungen von IBM Interact, SAS, Pega, Oracle RTD, prudsys, Ensighten und Dymatrix, Teil der Performance Interactive Alliance (PIA). Beratung bzgl. m�glichen Real-time Use-Cases, Data Science Algorithmen und Datenschutz Grundverordnung (EU-DSGVO).
- DS-Ansatz (Data Science): Zeitreihenanalyse, Anomalie-Erkennung, Apriori-Analyse, �berwachte Klassifizierung,� Assoziationsanalyse, Maximum-Likelihood-Sch�tzer, Kunden-Segmentierungstechniken z.B. nach Personas mit KNIME, DynaMine, Gradient Boosting (XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, GBM(Gradient Boosting Machine)/MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Nichtlineare Regression, Random Forests, C4.5.
Credit Suisse, 2017:
- Konzeption eines Cloudera-Hadoop basierenden Business Transaction Stores mit einem kanonischen leistungsf�higen Datenformat (zum Speichern aller Details aller erwartbaren Transaktionen) mit verlustfreien Import- und Export-Filtern sowie Auswertungsfeatures in den Bereichen Aktien, Zinsinstrumenten, Derivaten, ETFs, Fonds (d.h. beliebige ?Securities? bzw. Wertpapiere), Berechnung von Bestands-, Kosten- und Risiko-Kennzahlen, �ber-sichten f�r?s Wealth Mangement sowie Steuern und Reporting und Vorbereitung der M�glichkeit des Heraustrennens der Funktionalit�ten einer Wertpapier-Transaktionsbank.
- DS-Ansatz (Data Science): Rekonstruktion aller Transaktionsb�ume mit allen Zweigen, Zeitreihenanalyse, Random Forest, Gradient Boosting (XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, GBM(Gradient Boosting Machine)/MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Zeitreihenanalyse, Assoziationsanalyse, (Non-)Linear Regression, Anomalie-Erkennung, �berwachte Klassifizierung, Multi-Level-Methoden (Transaktion / Konto / Kaufmann / Konzern), Link-Analyse-Netzwerke, Maximum-Likelihood-Sch�tzer, Berechnung eines Verdachts-Scores, sonstige klassische und mehrstufige Verfahren zur Betrugserkennung, Tableau.
Cisco Systems mit AOK als Endkunde, 2016-2017:
- Konzeption eines Microservice Blueprints mit Schnittstellen zu Big Data Systemen zwecks Datenaustausch und Data Science Anwendungen.
- GE (General Electric), 2016: Digital Windfarm Projekt: Konzeption einer ?on premise? und AWS Cloud Architektur f�r die effiziente massiv-parallele in-memory Berechnung der Dimensionierung von Windr�dern mit Spark mit MLlib, Alluxio sowie Erstellung einer Bottom-Up-Migrationsstrategie bestehender Quelltexte von Delphi nach Scala. Web-Benutzeroberfl�che mit Angular 2.1; Wirtschaftlichkeitsberechnung der Migration in MS Excel per Formeln, VBA nach einem neu-entwickelten nicht-linearen Keep-/Replace-/Modernization-Szenarien-Verfahren, das sich auf ca. 20 nicht-lineare Kosten-Nutzen-Verl�ufe von ca. 50 Einflussgr��en st�tzt, die separat modelliert wurden.
- Deloitte Consulting f�r Daimler Financial Services (DFS), 2016: Erstellung einer Architektur f�r ein Corporate Memory, insbesondere die m�glichst schnelle Erkennung von negativen Bonit�tsver�nderungen der eigenen Kreditnehmer bzw. Leasing-Kunden. D.h. wenn Kunden ihre Kredit- und Leasingraten kaum noch bezahlen k�nnen, soll dies m�glichst schnell gemeldet werden, um als Bank darauf reagieren zu k�nnen.
- Technisch: Konzeption eines effizienten Speicher-Formats f�r graph-basierte Datenbank-Strukturen und auch Vererbung f�r die Nutzung mit Spark/Hive und Gegen�berstellung mit anderen Speicherungsstrukturen bzgl. Performance und Nutzbarkeit f�r verschiedene Use Cases (Vertrags-/Kundenanalyse, Credit Risk, Fraud Prevention und Machine Learning). Umsetzung verschiedener Anwendungsf�lle mit Hive, Spark-SQL, Hive Makros und als Hive-Funktionen mit Java / Scala und Messung / Vergleich der Performance: Zugriff auf Datendateien (ORC / Parkett / CSV) mit Scala und Import / Export in HBase, Hive, Cassandra, Scylla DB und dann in SAP Bank Analyzer. Konzeption einer Corporate-Memory-Architektur mit XML / JSON / Avro als Austauschformate und interne Hybrid-Informationsdarstellung mit relationalen und Graphen-basierten Strukturen gesteuert durch eine Management-Komponente. Konzeption der Datenbereinigung, Ausrei�erelimination und grundlegende Kreditw�rdigkeit-Sch�tzalgorithmen. Recherche und Bewertung von Technologien / Tools f�r Data Ingestion, ETL, intelligente Datenverarbeitung, MR- / YARN Frameworks und XML-Verarbeitungstechnologien wie Hive / HBase + Avro, Talend, Pentaho, RHadoop, Informatica, SAS, H2O, KNIME, Tableau, SAP Business Objects, Splout SQL, Falcon, FiloDB, Hortonworks DataFlow (HDF) / Apache Nifi, StreamSets, Flume / Kafka / Flafka, Chukwa, LinkedIn Camus / Goblin, Rapidminer, Intelligent Miner, Datameer, Apache Drill + Arrow, Tableau.
- Weitere Bibliotheken / Tools: Hortonworks Hadoop, Spark mit SQL / DataFrames / RDDs / Caching, Hive, Java, Scala, ORC- / Parquet-Dateien, Cloudera-Exhibit, Cascading, Crunch, Twill, REEF.
- Hadoop Sicherheitsstrategie konzipiert mit Kerberos, LDAP / Active Directory, Apache Knox (REST API Gateway, SSO / LDAP), Ranger (Berechtigungs-, �berwachungs- und Sicherheitsmanagement), Apache Sentry/Shiro (feink�rnige rollenbasierte Berechtigung), Apache Falcon, Apache-Atlas (Data Governance).
- DS-Ansatz: Eine Mischung aus Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze/Deep Learning, Reinforcement Learning, Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Maximum-Likelihood-Sch�tzer, ...
GfK Marktforschungsunternehmen, 2015:
- Anwendungs-Architektur der zentralen Daten-Aggregations- und Auswertungs-Komponenten der GfK als neues System ?pace? (Nachfolger von StarTrack) zur Erstellung von Panel-Produkten zun�chst f�r die Distributor-M�rkte, d.h. die weltweiten Gro�- und Einzelhandelsm�rkte. Erstellung der Building Blocks (Komponenten) bis hin zu den Klassendiagrammen + Code-Generierung. Konzepte erstellt f�r bitemporale Versionierung und Verarbeitung der Daten, Differenz-Verarbeitung, optimiertes In-Memory Processing/Caching/Minimierung von Save-Load-Zyklen, flexibles Management und Laufzeit-Erweiterbarkeit von dynamischen Typen und Klassen, Umgang mit Streaming-Daten, deren Vereinheitlichung/Pr�fung/Korrektur/Anonymisierung, Speicherung und h�ufigen Aktualisierungen von Zuordnungen wie Key-Code-Assignments, Umgang mit komplexen n-dimensionalen Datenr�umen, BI-Analysen (Star-/Snowflake-Schema) auf einer Vielzahl heterogener interner und externer Datenquellen und Referenz-Datenbanken. Ber�cksichtigung neuer Use Cases wie Werbe-Effizienz-Analyse, Trend- und Sale-Erkennung, Produkt-Lebenszyklus-Erkennung, Konsequenzen von Branding vs. White-Label-Verkauf, Anbindung von Data Science Schnittstellen/Tools. Realisierung mit Cloudera Hadoop, Spark mit Streaming, MLlib, Oryx 2, RDDs, Spark SQL + DataFrames + Caching, HBase, RocksDB, Oozie, Alluxio (ex: Tachyon), HDFS, Docker, git, gerrit, gradle, IntelliJ IDEA, Sparx Enterprise Architect, Konfig.-Serialisierung mit Jackson, Java-Entwicklung, UI: HTML5 + Angular + Kendo-Framework; einheitliches Logging-/Tracing-Framework in Java/JavaScript mit ELK-Stack (Elasticsearch, Logstash, Kibana) + Redis, ActiveMQ, Icinga System Management, BI mit Cognos + Exasol DB, Monitoring mit Grafana, BPM mit Axon Ivy, externe Services mit Jboss + MySQL/Percona + Hibernate, LDAP-Anbindung; Evaluierung von Alternativen mit Storm + Trident + Clojure DSL, Flink, Cascading auf Basis von Tez, Crunch + HBase, Pivotal-Tools Geode + HAWQ, Tableau.
- DS-Ansatz: Eine Mischung aus aus Stetigkeiten, Verteilungen mit Mittelwerten und Standardabweichungen (zur Fehler-Erkennung), Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze/Deep Learning, Reinforcement Learning, Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Maximum-Likelihood-Sch�tzer
KPT/CPT Krankenversicherung, Schweiz, 2015:
- Big Data / Data Science / BI Architekturkonzept zur a) Analyse der medizin. Leistungsdaten und daraus Ableitung von Frageb�gen und Aufschl�gen f�r Vorerkrankungen und b) Analyse/Optimierung der Marketing-Aufwendungen mit Mahout, WEKA/MOA, Geode mit MADlib (Machine Learning Lib mit UDF) und HAWQ, LIBSVM, Spark mit MLlib + Oryx 2, c) Betrugserkennung z.B. bzgl. der Beg�nstigten und der Korrektheit der zu erstattenden medizinischen Rechnungen.
- DS-Ansatz: Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Piwik und Google Analytics / Adwords-basierte Web-Site-Optimierung; klassische und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt)
  - Maximum-Likelihood-Sch�tzer.
  - Smartclip, Cross-Platform-Video-Werbung (Teil der Mediengruppe RTL, Teil von Bertelsmann), 2015: Performance-Optimierung eines Hadoop-Clusters sowie Vorschl�ge f�r Auswertungen im Data Science Bereich f�r das Targeting, das zielgruppen-abh�ngige Schalten von Online-/Internet-Video-Clips (DMP/DSP mit Support f�r IAB-Standards wie VAST, VPAID, VMAP) und der Auswertung/Optimierung der Effizienz dieser Werbema�nahmen (Click-Through-Rate Optimierung (CTR)).
  - DS-Ansatz: Integration mit DMPs / DSPs, wie durch TheADEX angeboten, semantische / NLP Analyse der Website-Inhalte und die damit verbundenen Interessen; eine Mischung aus Hauptkomponentenanalyse, N�chster-Nachbar-Methoden (Nearest Neighbor), Anomalieerkennung (beim Verlassen einer Website, beim Anklicken einer Anzeige, etc.), Maximum-Likelihood-Sch�tzer, Assoziationsanalyse, Echtzeit-Analysen (als Teil des Lambda-Architektur), vor allem f�r die Propagierung von Negativkriterien und das Matchen von Anzeigen zu den Nutzerinteressen.
- Kiwigrid, Dresden (Energie-Versorgungs- und Optimierungskonzepte), 2015:
  - Workshops zu Hadoop mit HBase mit Coprocessors und Phoenix, HBase-Indizierungen, HBase als DataSource f�r Spark/Spark-Integration mit HBase, Spark, OpenTSDB, Resilient Distributed Datasets (RDD) in Spark, RegionSplitter f�r Mandanten-Daten, OpenVZ, Docker & Kubernetes f�r Hadoop, Management/Deployment mit Serf, Consul und Terraform, Apache Slider, vert.x, SequenceIQ.
  - Havas Media Gruppe (Siebtgr��te Medienagentur Europas) in Kooperation mit TheAdex, 2015: a) Zielgerichtete Online- und Mobile-Werbung (Ad Targeting) durch Erstellung von Kundenprofilen, b) Betrugserkennung in Web-Werbungs-Tags /-Pixels und / oder betr�gerische Versuche, einen Teil der Pr�mie gutgeschrieben zu bekommen f�r einen erfolgreichen Verkauf durch f�lschlich behauptete sp�tere zu einem Kauf f�hrende Anzeige/Ad dem Benutzer angezeigt zu haben; c) Web Scraper konzipiert/entwickelt mit node.js, CasperJS, PhantomJS, Slimer.js und Greasemonkey als zus�tzlicher Input f�r die zielgerichtete Werbung (etwa Themen der Webseiten, Features von Produkten). Tools: Hadoop, Revolution R mit RHadoop/RHIPE/Shiny, SAS, H2O, KNIME, Talend Open Studio for Big Data, Spark, Intelligent Miner, WEKA/MOA, Giraph, Mahout, RapidMiner, Tableau, SploutSQL, Apache Kylin, Aerospike DB.
  - DS-Ansatz: Analyse der Kunden-Reise (Customer Journey) durch die Web-Sites / in der verf�gbaren Historie durch Graphen, semantische / NLP Analyse der Website-Inhalte und der damit verbundenen Interessen; eine Mischung aus Hauptkomponentenanalyse, n�chster Nachbar-Methoden, neuronale Netze/Deep Learning, Reinforcement Learning, Maximum-Likelihood-Sch�tzer, Zeitreihenanalyse, Anomalie-Erkennung (beim Verlassen einer Website, beim Anklicken einer Anzeige, etc.), Assoziationsanalyse, Echtzeit-Analysen (als Teil des Lambda-Architektur) vor allem f�r die Propagierung von Negativkriterien und das Matchen von Anzeigen/Ads zu den Nutzerinteressen.
- Siemens Corporate Technology/Healthineers (ex: Healthcare) IT, 2014-2015:
  - Konzeption einer vorausschauenden Instandhaltungs-L�sung (Predictive Maintenance/Vorausschauende Wartung) f�r die Siemens-Medizinprodukte wie CTs, MRTs usw. (IoT, Internet of Things) mit Logfile-Analyse, wurde sp�ter Teil von MindSphere: Hortonworks Hadoop, YARN, Pig + DataFu, Hive / HCatalog, Flume, Avro, Teradata QueryGrid, Sqoop1/2, Mahout, Giraph , Kafka, Amazon Kinesis, Storm mit Trident + Clojure DSL, Flink, Spark / Spark streaming, Cascading, Tez, Twill, Pangool, Crunch, REEF, Oozie, SequenceFile-/Parquet-/ORC-Dateiformate, LZO-, bzip2-, zlib-, Snappy-Kompression, Differential Privacy. Belieferte Statistik-Tools: Revolution R mit RHadoop/RHIPE/Shiny, SAS, H2O, KNIME, Talend Open Studio for Big Data, Intelligent Miner, WEKA/MOA, Giraph, Mahout, RapidMiner, Tableau, Pentaho Data Suite, ELK-Stack (Elasticsearch, Logstash, Kibana) + Redis.
  - DS-Ansatz: Eine Mischung aus Hauptkomponentenanalyse, N�chster-Nachbar-Methoden, neuronale Netze/Deep Learning, Reinforcement Learning, Zeitreihenanalyse / Prognose, Maximum-Likelihood-Sch�tzer: GMM (Gaussian Mixture Models); �berwachtes Lernen: Klassifikation und Regression (z.B. Ursache-Wirkungs-Analysen); Un�berwachtes Lernen: Affinit�ts-Analyse, FP-Wachstum (h�ufiges Muster-Wachstum), Association Rule Learning, vor allem f�r Ereignisse, die auf Ger�teausf�lle hinweisen - auch mit Entscheidungsb�umen, C4.5, CART. Merkmalsextraktion: Kernel-Methode / -Trick, FastMKS, (Kernel) Principal Component Analysis (PCA / KPCA), Independent Component Analysis (ICA) mit MLE (Maximum-Likelihood-Sch�tzung). Anomalie-Erkennung: Dichte-basierte Techniken (k-n�chste-Nachbarn, lokaler Ausrei�er (local outlier) Faktor und viele weitere Variationen dieses Konzepts), Ensemble-Techniken mit Feature Bagging, Score-Normalisierung und verschiedene Quellen von Diversit�t.
- Dermalog / FingerPayment [nur DS], 2014:
  - Entwicklung eines Sicherheitskonzept f�r die Vermeidung und Erkennung von Betrug an Bankautomaten bei der Verwendung von Fingerabdr�cken statt PINs, Konzeption eines sicheren Protokoll zwischen Fingerabdruck-Sensor, Geldautomaten und Bank-Backend.
  - DS-Ansatz: Bek�mpfung von hunderten Angriffen mit zugeordneten Wahrscheinlichkeiten und Schadens-Erwartungswerten wie Identit�tsklau, Man-in-the-Middle, Timing-, Bit-Manipulations- und Seitenkanalattacken durch hunderte priorisierte Gegenma�nahmen basierend auf ihrem probabilistisch exakt berechneten Kosten-Nutzen-Verh�ltnis, beispielsweise Verschl�sselung, Signierung, sicherer Schl�sselaustausch, etc.
- Allianz Versicherung �ber IBM, 2014:
  - Migrationskonzept erstellt f�r die Migration der Hadoop- und SAS-Cluster, zentralisierte vorausschauende Hadoop-basierte Bedrohungserkennung (Threat Intelligence).
  - Klingel / KMO-Gruppe (klingel.de und rund 40 andere Online-Shops), 2014-2015: Verbesserung der Erkennung von betr�gerischen F�llen; Erstellung von Vorschl�gen f�r Cross- und Up-Selling; Erweiterung der Analyse zur Optimierung der Online-Werbe-Ausgaben; Tools: Hadoop mit Mahout, WEKA / MOA, Geode mit Madlib (Machine Learning Lib mit UDF) und HAWQ, Spark mit MlLib und GraphX, PredictionIO, LIBSVM, Oryx 2, ELKI, Deeplearning4j.
  - DS-Ansatz: Betrugserkennung: Klassisch und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt), z.B. schwarze Listen, Anschrift- und Bankdaten-�hnlichkeitsvergleich mit Scoring-Dienstleistungen, Anomalie-Erkennung; f�r diese und andere Zwecke auch eine Mischung aus Hauptkomponentenanalyse, N�chster-Nachbar (Nearest Neighbour) Methoden, neuronale Netze/Deep Learning, Reinforcement Learning, Maximum-Likelihood-Sch�tzer, maschinelles Ranking-Lernen (Learning to Rank/Machine-learned Ranking), Empfehlungsalgorithmen (?Recommendation Algorithms?: Warenkorbanalyse (Market Basket Analysis, Affinity Analysis), Punkt-zu-Punkt Collaborative-Filtering Ansatz, Preisgestaltung und Verpackungs-Experimente mit A/B-Tests / Bandit-Algorithmen f�r die Verpackung und Preisgestaltung), dynamische Preisgestaltung (Benutzer-Ger�tetyp und dessen Leistungsst�rke, vermutete Dringlichkeit, Wettbewerbssituation, soziographische Benutzerdaten, vorherige A/B-Tests / Bandit-Algorithmen Erfahrung, ... ). Wichtige ber�cksichtigte Daten: Eine Zeitleiste/Zeitreihe mit: Ausgew�hlte Kategorien, Artikel �ber denen mit der Maus geschwebt wurde, Benutzer-Verweilzeiten, andere verwendete Ger�te, Wunschlisten, Direktmarketing-/Referrer-URL, Bewertungen in sozialen Netzwerken des Benutzers, demografische Informationen, Benutzer-Segmentierung, Klickpfade / User-Journey in der Sitzung, Kaufverhalten wie z.B. die Anzahl der angesehenen Artikel / Intensit�t des Vergleichens vor dem endg�ltigen Kauf; Aufhebung allgemeiner User-Optimizations f�r bestimmte Teilbereiche wie Elektronik, Kosmetik, etc. mit speziell dort relevanten User-Optimizations.
- Trost SE Kfz-Gro�handel, 2014:
  - Konzeption einer Hadoop-basierten Such-Infrastruktur f�r Darstellung und Suche im Online-Shop basierend auf MS HDInsight/HD insights mit Azure Portal.
  - Bundesarchiv, 2014: Erstellung eines detaillierten 100-seitigen Angebots zu einer Hadoop-basierenden Such-Infrastruktur mit Apache Solr, Mongo DB oder Oracle DB.
  - Aptiv (ex: Delphi), 2013-2014: Erstellung eines Big-Data-basierten Konzeptes f�r Connected Car sowie entsprechende Backend-Infrastrukturen basierend auf Vodafone?s M2M-Infrastruktur und MS Azure mit Hadoop-Integration als Ausbaustufe (MS HDInsight/HD insights).
  - Gematik (deutsche elektronische Gesundheitskarte und ihrer Infrastruktur) [nur DS] 2012 & 2013: Konzeption eines Statistik-Moduls zur Identifizierung verschiedener Arten von Angriffen / Betrug mit der Gesundheitskarte oder auf dem Konnektor oder der Backend-Infrastruktur.
  - DS-Ansatz: Einf�hrung von Z�hlern f�r alle Systemereignisse und Zeitreihenanalyse, Schwellwerte (Thresholds), Anomalie-Erkennung.
- Parfumdreams.de (Akzente Parfums), von 2012 bis 2013:
  - Konzeption und Implementierung der Erkennung von betr�gerischen Kunden, Bankkonten, Adressdaten, nicht passender Namen oder Schreibweisen und verschiedenes verd�chtiges Verhalten; Erstellung von Vorschl�ge f�r Cross- und Up-Selling; Benutzung von C++/C # mit MLPACK, Armadillo, Torch; Verwaltung und Austausch von Blacklists mit anderen E-Commerce Unternehmen. Zusammenstellen der Daten von mehreren Betr�gereien und Sicherheitsverletzungen f�r das Management und die Polizei/Staatsamwaltschaft.
  - DS-Ansatz: Betrugserkennung: Klassisch und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt), z.B. schwarze Listen, Anschrift- und Bankdaten-�hnlichkeitsvergleich mit Scoring-Dienstleistungen, Anomalie-Erkennung; f�r diese und andere Zwecke auch eine Mischung aus Hauptkomponentenanalyse, N�chster-Nachbar (Nearest Neighbour) Methoden, neuronale Netze, Maximum-Likelihood-Sch�tzer, maschinelles Ranking-Lernen (Learning to Rank/Machine-learned Ranking), Empfehlungsalgorithmen (?Recommendation Algorithms?: Warenkorbanalyse (Market Basket Analysis, Affinity Analysis), Punkt-zu-Punkt Collaborative-Filtering Ansatz, Preisgestaltung und Verpackungs-Experimente mit A/B-Tests / Bandit-Algorithmen f�r die Verpackung und Preisgestaltung), dynamische Preisgestaltung (Benutzer-Ger�tetyp und dessen Leistungsst�rke, vermutete Dringlichkeit, Wettbewerbssituation, soziographische Benutzerdaten, vorherige A/B-Tests / Bandit-Algorithmen Erfahrung, ... ). Wichtige ber�cksichtigte Daten: Eine Zeitleiste/Zeitreihe mit: Ausgew�hlte Kategorien, Artikel �ber denen mit der Maus geschwebt wurde, Benutzer-Verweilzeiten, andere verwendete Ger�te, Wunschlisten, Direktmarketing-/Referrer-URL, Bewertungen in sozialen Netzwerken des Benutzers, demografische Informationen, Benutzer-Segmentierung, Klickpfade / User-Journey in der Sitzung, Kaufverhalten wie z.B. die Anzahl der angesehenen Artikel / Intensit�t des Vergleichens vor dem endg�ltigen Kauf; Aufhebung allgemeiner User-Optimizations f�r bestimmte Teilbereiche wie Elektronik, Kosmetik, etc. mit speziell dort relevanten User-Optimizations.
- European Patent Office (EPO), 2012:
  - Big Data Architekturkonzept (Hadoop) mit Proof-of-Concept Implementierung): Hypertable, HBase, Cassandra, Redis, Hive/HCatalog with Spark (ex: Shark) / Stinger, MLlib, Cloudera Impala, Drill, Sqoop, HDFS, Apache Solr, Pig, Oozie, Cascading mit multi-tool, Giraph, Zookeeper, Bookkeeper, Nagios, Flume, Kafka, Hue, Avro, Thrift, Elephant Bird, Ganglia, Spark, GraphX, Kafka, Ambari / Ganglia, Whirr.
  - Lloyds Banking Group (Bristol, UK & Heidelberg), Versicherungsabteilung (Heidelberger Leben, Clerical Medical, Scottish Widows, Lloyds Insurance), 2010-2011: Betrugserkennung / AML (Anti Money Laundering) / KYC (Know Your Customer) in Bezug auf Zahler, Beg�nstigte, Anschriften, Organisationen, Zeitintervalle z.B. der zus�tzlich gezahlten Pr�mien und zu zahlender Betr�ge; Datenaustausch �ber problematische oder betrugs-verd�chtige Kunden mit anderen (Lebens-)Versicherungen.
  - DS-Ansatz: Schwarze Listen, Anschrift und Bankdaten-�hnlichkeitsvergleich mit Scoring-Dienstleistungen, Anomalieerkennung, Zeitreihenanalyse aller Zahlungsstr�me mit Anomalieerkennung und Schwellwerten (Thresholds), Modellierung typischer Zahlungs- / und Teilauszahlungs-Regelungen mit Ausrei�ererkennung, Austausch verd�chtiger und von Blacklist-Datens�tzen/-Personen mit anderen Versicherungen und Beh�rden.
- Deutsche Telekom/T-System mit De-Mail, 2010-2011:
  - Entwicklung einer Big-Data-Architektur mit Hadoop als Alternativ-Architektur zur Standard-Enterprise-Architektur f�r De-Mail (mit Proof-of-Concept Implementierung mit HDFS und Apache Solr), die allerdings wegen der mangelnden Skills hierzu im Telekom-Konzern nicht in 2010 sondern erst in 2014 umgesetzt wurde.
  - Deutsche Bundesdruckerei [nur DS], 2010: Konzeption / Implementierung einer Softwarekomponente f�r die �berpr�fung der Echtheit der deutschen und internationalen P�sse / Personalausweise-Dokumente mit einer Sicherheitsmerkmalsextraktion, Bewertung und statistisches Scoring-Konzept, um Betrug / F�lschungen zu verhindern.
  - DS-Ansatz: Die Berechnung der gewichteten Punktzahl aller einzelnen Detektoren f�r verschiedene G�ltigkeitsanzeigefunktionen.
- Schw�bisch-Hall/Kreditwerk, 2010:
  - Erstellung verteilter Web-Services mit dem Globus Toolkit (Grid-Computing Alternative zu Hadoop mit �hnlichen Verteilungsprinzipien).
- Deutsche Telekom / T-Systems, 2007-2008:
  - Aufbau eines Tracking & Tracing-Systems f�r Inventar und verschickte Waren mit statistischer Analyse der verschickten / erhaltenen Warenmengen wenn sie mit LKW / Bahn / Flugzeuge verschickt werden, der Defekt-Quoten; Analyse aller Warenfl�sse in und aus ganzen Fabriken und Betrugserkennung auf dieser Grundlage.
- Thales Gruppe / Thales Defence, 2001-2003:
  - Data Science / Statistische Auswertung von Man�ver-Daten von Flugzeugen und Schiffen auf Treff- und Ortungsgenauigkeit sowie untergeordnet der Qualit�t von IT Komponenten und der menschlichen Befehle/Aktionen.
- Fr�he Data Science/Statistik T�tigkeiten am DFKI und in einer IT Consulting Firma (1996-2001):
  - Firma: Konzeption eines Semantic Search Systems basierend auf Ontologie-Distanz semantischer Konzepte sowie deren Umschreibungen.
  - DS-Ansatz: Berechnung der gewichteten Punktzahl aller individuellen Entscheidungen in jedem Textsegment gegen alle anderen Segmente mit �hnlichen semantischen Konzepten. Semantische Konzept-�hnlichkeit wird als gewichteter / Wahrscheinlichkeitspfad (Knoten und Kanten) in der WordNet-Ontologie berechnet. Erfordert Morphologie und (HPSG-)Parsing.
- Firma:
  - Konzeption von teilweise vorgegebenen, teilweise selbstlernenden deep semantic Web/Text/Data Mining Algorithmen mit Extraktion aus Tabellen, Beschriftungen, etc. sowie entsprechender Lernalgorithmen basierend auf (HTML-)Strukturen und bereits bekanntem Wissen.
  - DS-Ansatz: Die Tiefe / DOM-Pfad-�hnlichkeit der HTML-Tags von Daten aus HTML-Tabellen extrahieren. Minimax-Ansatz: Das Minimieren der Worst-Case-Wahrscheinlichkeit (maximal) der Fehlklassifikation der Tabelleninhalte wird gelernt, Gewinnung einer minimaler-Spannbaum-Segmentierung mit optimal hybrid gewichteten Punktzahlen f�r Tabelleninhalte.
- Firma:
  - Konzeption der Algorithmen/Wahrscheinlichkeitsformeln f�r die Berechnung der Wahrscheinlichkeit, dass ein Text plagiiert ist.
  - DS-Ansatz: Head-driven Parsing (HPSG) von Texten. Die Bestimmung der statistischen Verteilungen aller Kopf-Tochter-Selektionen, in denen mehrere M�glichkeiten bestehen, z.B. Gauss, Student, Bernoulli und andere Distributionen, Maximum-Likelihood-Sch�tzer. Berechnung der gewichteten Punktzahl aller individuellen Entscheidungen in jedem Textsegment gegen alle anderen Segmente mit �hnlichen semantischen Konzepten. Semantische Konzept-�hnlichkeit wird als gewichteter / Wahrscheinlichkeitspfad (Knoten und Kanten) in der WordNet-Ontologie berechnet. Erfordert Morphologie und (HPSG) Parsing.
- Firma:
  - Extrahieren der statist. Charakteristika pers�nlicher Schreibstile aus Mustertexten und Anwenden dieser Schreibstile f�r Text Watermarking und Steganographie.
  - DS-Ansatz: Head-driven-Parsing (HPSG) von Texten mit Wahrscheinlichkeiten f�r die Kopf-Tochter Selektionen. Speichern f�r jeden Autor: a), in welchem grammatikalischen Konstrukt er welche Wort Stellungen / Paraphrasen bevorzugt und b) welche Synonyme er bevorzugt (H�ufigkeiten) aus den bekannten Synonym-S�tzen basierend auf Zusammenh�nge (HPSG Selektions- und Kontext-Constraints), Maximum-Likelihood-Sch�tzer.
- Diplomarbeit/Firma:
  - Entwicklung von Lernalgorithmen f�r das Lernen und verlustlose Speichern diverser lexikalischer/grammatikalischer Daten (z.B. Synonyme/Umschreibungen/Unter-/�bergeordnete Begriffe, Konjugations-/Deklinations-/Flektionsschemata) aus Text-Korpora sowie anderen Lexika (z.B. LFG, HPSG, WordNet, Cyc). Im Rahmen der Diplomarbeit erfand ich auch eine generative semantische Analyse f�r zusammengesetzte W�rter (Komposita) und Pr�positionen, die Analyse der Bedeutung der Komposita durch jeweiliges Ableiten der Pr�positionen, die logisch die Teile des Kompositums verbinden k�nnen (f�hrte zu einem internationalen Konferenz-Papier + Ver�ffentlichung in einem Wissenschaftsmagazin).
  - DS-Ansatz: Minimax Ansatz: Das Lernen der Minimierung der Worst-Case-Wahrscheinlichkeit (maximal) der Fehlklassifikation des k�nftigen lexikalischen Wissens, wodurch man eine minimale Spannbaum-Segmentierung erh�lt mit optimalen hybrid gewichtetem Score f�r die m�gliche Bedeutung aller Datenelemente.
- DFKI (Dt. Forschungszentrum f�r KI), Projektarbeit:
  - Statistische OCR-Postprocessing und Fehler-Reduktionskomponente auf Basis von Content-, (Gesch�ftsbrief-)Struktur-, Lage- und Segmentierungs-Daten f�r ICR (Intelligent Content Recognition) mit Student- und Gauss-Verteilung. Dies wurde von der DFKI-Ausgr�ndung http://www.insiders-technologies.de in deren kommerzielle Produkte eingebaut.
  - DS-Ansatz: Nach-Klassifizierung von erkannten Zeichen nach OCR z.B. aufgrund der vertikalen Lage der Zeichen (z.B. die Unterscheidung zwischen o/O, i/I/l, j/J,, etc.): Bestimmung der unteren, der Basis-, der oberen und der obersten Begrenzungs-Linie unter der Annahme einer Gau�-Verteilung und Berechnung / Suche nach der optimale Trennlinie zwischen diesen Linien per Cluster-Analyse, durch die Minimierung des Integrals, d.h. der Fl�che unter den Gau�-Kurven, die den falschen Linien zugeordnet sind. Alle Linien werden aus Clustern von Punkten berechnet. Gesamt: Minimax Ansatz: Minimierung der Worst-Case-Wahrscheinlichkeit (maximal) der Fehlklassifikation der zuk�nftigen Datenpunkte in Bezug auf die Dokumenten-Segmentierung; Erhalten eines minimaler Spannbaum-Segmentierung mit optimaler hybrid gewichteter Punktzahl/Score f�r die Dokumenten-Segmentierung.
- DFKI, Seminararbeit:
  - Nichtlineare Planer, Score-Berechnung f�r Situationen und heuristische/statistische Strategien (Hill Climbing, Simulated Annealing, Dynamic Programming, etc.).
  - DS-Ansatz: Hill Climbing, Simulated Annealing, Dynamische Programmierung, etc. und wann welches Verfahren zu verwenden ist.
Architekturen/Stacks/Distributionen: Cloudera, Hortonworks, SMACK (Spark, Mesos, Akka, Cassandra und Kafka), MAPR, Microsoft Azure Integration HDInsight, IBM BigInsights.
Pattformen/APIs: MapReduce (Vereinfachte Programmierung: Weave, Cloudera SDK), YARN.
Docker-�kosystem mit Kubernetes, OpenStack-�kosystem.
Streaming/Structured Processing/DAGs: Spark Real-Time und In-Memory Toolset / Spark streaming (streaming, interactive queries, and cognitive/machine learning) mit GraphX (Spark API / console for Giraph), MLlib (Spark Machine learning Lib), Alluxio (ex: Tachyon), PredictionIO deployed auf Hadoop, Mesos, Cloud, Standalone; Apache Storm mit Trident und Nachfolger Heron, Flink (Streaming Data Processing with libs: CEP, Table, FlinkML, Gelly - actor model, hierarchy, deathwatch); Apache Apex.
DBs: HBase, Hypertable, Cassandra, Scylla DB, Mongo DB (DBs), Redis, Accumulo with cell-level security (Key-Value Speicher), Hive (SQL / DB Language / Data Warehouse Features) with Shark / Stinger (Interaktive & programmierte Queries), HCatalog (schema and data access abstraction services of Hive), Cloudera Impala, Drill (SQL acceleration), TiDB, Cloudera Kudu, Aerospike, Alluxio (ex: Tachyon) (memory-centric Distributed Storage), VoltDB, DCE, RocksDB, Etcd (Key-Value-Speicher), Druid (optimized for read-only data),
Apache Geode (verteilte in-memory DB) mit MADlib (Machine Learning Lib mit UDF) und HAWQ (Greenplum Analytics/SQL engine: ?HAdoop With Query?) ? alles von Pivotal.
Hadoop-Security: Kerberos Sicherheit, DB-Schema-basierte Autorisierung, LDAP/Active Directory, Multi-Tenancy/Mandanten-F�higkeit; Apache Knox (REST API Gateway, SSO/LDAP), Ranger (Authorisierung, Monitoring und Sec. Management), Sentry/Shiro (fine grained role based authorization), Apache Falcon, FiloDB, Apache Atlas (Data Governance), Intels Project Rhino; SAML, OAuth 2.x, OpenId Connect, Anbindung an �ber 10 der f�hrenden kommerziellen IaM-Systeme (IBM, Siemens, SAP, Oracle, NetIQ, Dell, Microsoft, ?).
Data ingestion/output (stream processing / distributed messaging systems): Sqoop1/2 (Data Im-/Ex-port in Hadoop: SQL to Hadoop), Flume, Kafka, Flafka, Amazon Kinesis, Apache Samza, Camus and successor Gobblin, Apache GearPump, Chukwa, Talend for Big Data, Falcon/Oozie, Hortonworks Dataflow/Nifi, StreamSets, syncsort.
BI/Data Mining/Event Processing Tools: Apache SAMOA (platform for mining big data streams), Pentaho for Big Data; nur kurz evaluiert: IBM InfoSphere for Big Data, Trifacta, Informatica for Big Data
Produktivit�tslibraries: Tez, Crunch, Cascading (data processing workflows), Twill, REEF, Pangool, SploutSQL, Apache Drill + Arrow, Apache Beam (unified programming model for creating a data processing pipeline), Weave.
Akka/Play-Tools: Scala, Apache Gearpump (real-time big data streaming engine over Akka), Apache Flink (actor model, hierarch).
Generell Memory-centric (statt disk-centric) Technologien: Spark, Geode, RocksDB, SAP Hana, etc.
Meine sonstigen Big Data Skills: HDFS, Hive (mit UDF-Libs: Brickhouse, Dataiku, Nexr), Pig (Data Flow Sprache) mit DataFu, Apache Oozie (workflow scheduler), Giraph (graphs), Zookeeper (configuration), Bookkeeper, Nagios (logging), Hue (Web interface), RabbitMQ, ActiveMQ, Qpid, AMQP - Advanced Message Queuing Protocol, MQTT - Message Queue Telemetry Transport = SCADA Protocol, CoAP - Constrained Application Protocol (messaging), Avro/Thrift/Elephant Bird/protobuf/protostuff ([De-]Serialisierung), Apache Mahout (clustering, classification, collaborative filtering, machine learning, perceptron, etc.), PredictionIO (Machine Learning Server), Oryx (Machine Learning), Apache Tika / Gora / Nutch / Solr / Lucene, ELK Stack (Elasticsearch, LogStash, Kibana), Apache Ambari (provisioning, managing, monitoring) / Ganglia (distributed monitoring), Whirr (deployment), Mesos (cluster manager), Netflix Genie (job orchestration engine).
Diverses Kleines: Codecs, Compression, Encryption, MRUnit (Map-Red-Unit-Testing), Filesystem In Userspace (FUSE), Distributed Copy (distcp), Globus Toolkit (grid computing, web services), CRISP-DM (Cross Industry Standard Process for Data Mining), Vaidya (Performance diagnostic tool f�r map/reduce jobs), Predictive Model Markup Language (PMML), Apache Ignite (In-Memory Data Fabric), Apache Zeppelin (Multi-purpose Notebook), ORC (optimized row columnar), Parquet, SequenceFile and common Hadoop file formats, Schema on Read/Write.
Data Science Tools: Revolution R mit RHadoop/RHIPE/Shiny, H2O.ai/Sparkling Water/Deep Water, SAS, KNIME, Talend Open Studio for Big Data, Intelligent Miner, RapidMiner, Tableau, Pentaho Data Suite, Jena OWL Framework, PyData Tools (IPython, Anaconda, Blaze, Bokeh, Canopy, matplotlib, Nose, Numba, NumPy, SciPy, Statsmodels, SymPy, pandas, SciKit-Image, SciKit-Learn), Gephi (Open Graph Viz Platform), nur kurz evaluiert: Waterline Data Science, Datameer, Paxata, platfora, Trillium, SAP Business Objects, Zoomdata.
Data Science Libraries: Mahout, WEKA/MOA, Geode mit MADlib (Machine Learning Lib mit UDF) und HAWQ, Giraph, Spark mit Streaming, MLlib, GraphX, Alluxio, Kernel und Apache Ignite, PredictionIO, ScalaNLP (Breeze, Epic, Puck, Chalk), Apache Tika / Gora / Nutch / Solr / Elasticsearch / Lucene (Java), LIBSVM, Oryx 2, ELKI, Deeplearning4j (alle Java), MLPACK (C++), Armadillo (C++), Torch with dp (deep learning library) (Lua,C/C++, CUDA), Berkeley Caffe (C++, Python), CaffeeOnSpark, SparkNet, Microsoft Computational Network Toolkit (CNTK in C++) und Distributed Machine Learning Toolkit (DMTK in C++), Google TensorFlow (C/C++, Python) (alle Deep-Learning).
Wichtige Data Science / AI Algorithmen: Alle g�ngigen Stochastik- und KI-Algorithmen (Schwerpunkt meines Studiums), z.B. k-d Tree, k-means, Clustering, Classification (Naive-Bayes, ?), Multi-Linear Regression, Bloom Filter, Model Cross Validation, kognitives/maschinelles Lernen (cognitive/machine learning), Statistical Analysis, Large-Scale Predictive Modeling, Hypothesis Testing, SVD++ (Singular Value Decomposition = Dimensions-Reduktion), SVM (Support Vector Machine), Entscheidungsb�ume, C4.5, CART, Nearest-neighbour methods, Fitting, Neuronale Netze, Differential Privacy, Feature Learning/Representation Learning, Hierarchical Dynamic Models (HDMs).
Tracing libraries: Zipkin/OpenZipkin, OpenTracing, HTrace.
NLP libraries: Apache OpenNLP (Natural Language Processing), Stanford CoreNLP, TensorFlow SyntaxNet, NLTK (Natural Language Toolkit: tagging/chunk parsing), WordNet, GATE (General Architecture for Text Engineering), Apache UIMA (Unstructured Information Management architecture/applications), LKB (Lexical Knowledge Base/Builder), CSLI Stanford Parser, DELPH-IN Pet Parser, Apache Stanbol, spaCy, Spark MlLib, Spark-NLP, AllenNLP, Eigener Parser und Knowledge Management System.
Erfolgreicher Redner und Innovator, z.B. auf dem DevCamp 2017+2018 in Karlsruhe und auf der internationalen Data Natives 2017 Konferenz (mit ca. 5000 Teilnehmern eine der gr��ten Data Science und Big Data Konferenzen).

�

Meine Data Science Kenntnisse:

Data Formats: PMML (Predictive Model Markup Language), Serialization with Protobuf/Protostuff, Elephant Bird, Cryo Serializers.
Knowledge Representation: DAML + OIL, SPARQL, TFS (Typed Feature Structures), MRS (Minimal Recursion Semantics)
Analytics: Descriptive Analytics, Diagnostic Analytics, Predictive Analytics, Prescriptive Analytics, Data Discovery Processing
Basic Statistics: Descriptive Statistics: Pearson's Correlation, Inferential Statistics: Hypothesis Tests (Pearson?s chi-squared (x2) tests), Probability Distribution Functions: Gauss, Student; Probability Estimation Functions / Sch�tz-Funktionen; Random Data Generation; Metropolis-Hastings Sampling; Monte-Carlo-Simulationen
Time Series Analysis / Prediction / Forecasting: AR-Modelle (AR (Auto-Regression), MA (Moving Average), ARMA, ARIMA (Integrated bzw. Differenzen von Y), ARMAX (mit Regressor X)), GARCH, Maximum-Likelihood Sch�tzungen, Exponentielles Gl�tten nach Holt / Winters, Box-Jenkins Modelle; Kalman-Filter; Logistische Regression (Logit-Modell), Probit-Modell; Mixture Models (main with sub-populations / events), e.g. GMM (Gaussian Mixture Models); Diverses: Fitting, Trend Analysis, Trendfunktion, Saisonalit�t, Noise, additives / multiplikatives Modell, Autokorrelationsfunktion, Korrelogramm, Prognosehorizont, Prognoseintervall, autoregressives Modell, Prognosen, Autokorrelation, Komponentenmodell, Trend- und Saisonbereinigung
Sequence mining / Sequential pattern mining: GSP Algorithm; Sequential Pattern Discovery using Equivalence classes (SPADE); Apriori algorithm; FreeSpan; PrefixSpan; MAPres
Collaborative Filtering (CF) / Recommender Systems, e.g. Google news, Amazon: Memory-Based: neighbourhood-based CF, Alternating Least Squares (ALS), SVD++; Model-based: Bayesian networks, clustering models, latent semantic models such as singular value decomposition, probabilistic latent semantic analysis, multiple multiplicative factor, latent Dirichlet allocation and Markov decision process; Hybrid: better prediction performance, overcoming CF problems sparsity and loss of information.
[Semi-]Supervised Learning / Structured prediction: Naive Bayes; Markov random field (MRF) based methods, Conditional random fields (CRF), Gaussian Markov random field; Feature engineering, automated supervised feature learning with labeled data: neural networks, multilayer perceptron, supervised dictionary learning; Classification and Regression (e.g.cause-effect analysis): Linear models: Linear regression / classification; Binary and multiclass classification; Linear discriminant analysis; Feature vectors: Na�ve Bayes, Drift, Logistic Regression classifiers using e.g. SGD-based algorithms, Probit Regression; Isotonic Regression (least squares problem under order restriction); HMM (Hidden Markov Models); Maximum entropy (MaxEnt) models; Maximum-entropy Markov model (MEMM), or conditional Markov model (CMM) [mostly Conditional random fields are more precise]; Restricted Boltzmann machine (RBM) with gradient-based contrastive divergence algorithm; Decision Forests / Ensembles (Random Forests and Gradient-Boosted Trees GBTs); [Adaptive Size] Hoeffding Tree; Pegasos (Primal Estimated sub-GrAdient SOlver for SVM) method of Shalev-Shwartz; Vector Machines: Relevance vector machine (RVM), Support vector machine (SVM); Regression Models: Clustered Variance, Linear Regression, Ridge Regression, SVM Model, Logistic Regression, Binary Logistic Regression, Multinomial Regression, Least-Angle Regression (LARS/LASSO), Local Coordinate Coding (LCC) (approximate a non-linear function with linear ones), Robust Variance, Ridge regression / Tikhonov regularization, Partial Least-Squares Regression; Tree Methods: Decision Tree, C4.5, CAR; [Conditional] Random Field: Nearest-neighbor methods: k-nearest neighbors algorithm, Neighbourhood components analysis; Ensembles: Bagging (average the voting of multiple experts), Boosting (new models shall become experts for instances misclassified before), Random forest, Logistic model trees, Stacking (meta-learner over previous models).
Unsupervised Learning: Affinity analysis / Market basket analysis/ Association Rule Learning: Apriori Algorithm, ECLAT (Equivalence Class Transformation), FP-growth (frequent pattern growth); Unsupervised feature learning with unlabeled data: Unsupervised dictionary learning, independent component analysis (ICA), auto-encoders, matrix factorization, clustering, local linear embedding (LLE), restricted Boltzmann machine (RBM) with gradient-based contrastive divergence algorithm; Clustering: Canopy (pre-clustering, pre-processing); k-Means Clustering; [Fuzzy] k-means; Data stream clustering; Streaming k-means; k-medoids Clustering (PAM, CLARA); k-medians Clustering; Hierarchical Clustering (SLINK and CLINK); Expectation-maximization (EM); CURE (Clustering Using REpresentatives); BIRCH (balanced iterative reducing and clustering using hierarchies): hierarchical, effective noise handling, COBWEB, Spectral Clustering; Data Stream Clustering; Synthetic Control Varianten, Top-Down, Gaussian mixture, Power iteration clustering (PIC), Latent Dirichlet allocation (LDA), Hierarchical Dirichlet processes (HDP), DBSCAN (Density-Based Spatial Clustering of Applications with Noise, with full index acceleration for arbitrary distance functions), OPTICS (Ordering Points To Identify the Clustering Structure), SUBCLU (Density-Connected Subspace Clustering for High-Dimensional Data), Mean-shift (locating maxima of a density function), Single-linkage clustering; Topic Modelling: Latent Dirichlet Allocation, Case based reasoning / rule induction algorithms (for helpdesks, industrial/financial processes): Charade, Rulex, Progol, CN2.
Dimensionality Reduction: Singular value decomposition (SVD), (Kernel) Principal component analysis (PCA/KPCA), Locality-sensitive hashing (LSH): Bit sampling for Hamming distance, Min-wise independent permutations, Nilsimsa Hash (Anti-Spam), TLSH (ternary locality-sensitive hashing), Random projection, Stable distributions, Factor analysis, CCA, ICA, LDA, NMF, t-SNE
Neural Networks / Konnektionismus: Kohonen, Perceptron, Recurrent Neural Networks (RNN) mit Utils: [Bi]Sequencer, Repeater, ?, Deep Learning, Deep reinforcement learning, Autoencoder, Multilayer perceptron, Restricted Boltzmann machine, SOM (Self-organizing map), Convolutional neural network
Feature extraction / pattern analysis and transformation: Term frequency-inverse document frequency (TF-IDF), Feature hashing / trick, Kernel method / trick, Fast Exact Max-Kernel Search (FastMKS), (Kernel) Principal Component Analysis (PCA/KPCA), Non-negative matrix factorization (NMF), Independent component analysis (ICA), e.g. with MLE (Maximum likelihood estimation).
Frequent pattern mining: FP-growth, Association Rules, PrefixSpan.
Evaluation metrics: Classification model evaluation, Binary classification: Threshold tuning, Multiclass classification: Label based metrics; Multilabel classification: Ranking systems; Regression model evaluation: Mean Squared Error (MSE)
Evaluation / Visualisation: Common visualizations as known from Excel, Crystal Reports, etc.; Receiver operating characteristic (ROC curve), e.g. with TPR/FPR (true/false positive rate); Scatter plot, Histogram, Parallel coordinates, Multidimensional scaling (MDS)
Optimization: Stochastic gradient descent, Limited-memory BFGS (L-BFGS).
Structured prediction: Bayesian network, CRF (Conditional random field), HMM (Hidden Markov Model)
Anomaly detection (fraud, intrusion detection in computer security): Density-based techniques (k-nearest neighbor, local outlier factor, and many more variations of this concept), Subspace- and correlation-based outlier detection for high-dimensional data, One class support vector machines, Replicator neural networks, Cluster analysis-based outlier detection, Deviations from association rules and frequent itemsets, Fuzzy logic based outlier detection, Ensemble techniques, using feature bagging, score normalization and different sources of diversity, LOF (Local outlier factor), OPTICS-OF, DB-Outlier (Distance-Based Outliers), LOCI (Local Correlation Integral), LDOF (Local Distance-Based Outlier Factor), EM-Outlier
Association rule learning (pricing, product placements, web usage mining, intrusion detection, continuous production, bioinformatics); Apriori algorithm / Apriori-DP (Dynamic Programming), ECLAT (Equivalence Class Transformation), FP-growth algorithm, CBARM / CBPNARM: Context Based (Positive and Negative) Spatio-Temporal Association Rule Mining, Node-set-based algorithms: FIN, PrePost and PPV, GUHA procedure ASSOC: generalized association rules using fast bitstrings, OPUS search.
Learning to rank / machine-learned ranking (MLR) = optimization problem with respect to these quality measures (pointwise, pairwise, listwise): Mean average precision (MAP), DCG and NDCG, Precision@n, NDCG@n, where "@n" denotes that the metrics are evaluated only on top n documents, Mean reciprocal rank, Kendall's tau, Spearman's Rho, Expected reciprocal rank (ERR), Yandex's pfound, gradient boosting-trained ranking, RankNet, PageRank.
Text Analysis / NLP (natural language processing) / computational linguistics: Term Frequency, Tokenization, Sentence segmentation, Part-of-speech (POS) tagging, Word2Vec, LSI (Latent Semantic Indexing), Latent semantic analysis (LSA), SVD, SVD++, Named Entity Recognition (NER) / named entity extraction (NEE), Information Extraction (IE), Language Models (LM), N-grams, POS (part of speech) tagging, Morphology, Common grammars: PCFG, HPSG, LFG, Chunking / shallow parsing, Natural language semantic parsing, Topic models, Explicit semantic analysis (ESA), Ontology-based similarity measures, Semantics (generative, lexical, semantic nets), Content similarity (i.e. detecting pirated texts), Text Mining, Web Mining.

Meine Erfahrung im Business Intelligence/DWH-/ETL-Bereich (Data Warehouse):

Schwarz-Gruppe (Lidl & Kaufland), gr��ter Europ�ischer Handelskonzern, 2017: BI und Big Data Architect im Bereich Predictive Analytics etwa zur Berechnung der Effekte von Sonderangeboten, �ber Supply-Chain-Optimierung bis hin zur Vorhersage der Bedarfe f�r Backware in den L�den: Teradata, Ab Initio, SAP BW.
BNP Paribas Personal Investors, 2017: Consorsbank + DAB: Konzeption von CDP (Customer Data Platform) und MAP (Marketing Automation Platform) f�r Hadoop/Spark als Baseline-Architektur, darauf basierend Begleiten einer Make-or-Buy-Entscheidung mit Analyse der L�sungen von IBM Interact, SAS, Pega, Oracle RTD, prudsys, Ensighten und Dymatrix, Teil der Performance Interactive Alliance (PIA).
Credit Suisse, 2017: Konzeption eines Cloudera-Hadoop basierenden Business Transaction Stores mit einem kanonischen leistungsf�higen Datenformat (zum Speichern aller Details aller erwartbaren Transaktionen) mit verlustfreien Import- und Export-Filtern sowie Auswertungsfeatures in den Bereichen Aktien, Zinsinstrumenten, Derivaten, ETFs, Fonds (d.h. beliebige ?Securities? bzw. Wertpapiere), Berechnung von Bestands-, Kosten- und Risiko-Kennzahlen, �ber-sichten f�r?s Wealth Mangement sowie Steuern und Reporting und Vorbereitung der M�glichkeit des Heraustrennens der Funktionalit�ten einer Wertpapier-Transaktionsbank.
Deloitte Consulting f�r Daimler Financial Services (DFS), 2016: Konzeption eines Corporate Memory Systems und Konzeption der Bonit�tsbewertung und Betrugserkennung in Echtzeit auf dieser Basis.
Technisch: Konzeption einer Corporate-Memory-Architektur mit XML / JSON / Avro als Austauschformate und interne Hybrid-Informationsdarstellung mit relationalen und Graphen-basierten Strukturen gesteuert durch eine Management-Komponente. Konzeption der Datenbereinigung, Ausrei�erelimination und grundlegende Kreditw�rdigkeit-Sch�tzalgorithmen. Auswertung von Technologien / Tools f�r Data Ingestion, ETL, intelligente Datenverarbeitung, MR- / YARN Frameworks und XML-Verarbeitungstechnologien wie Hive / HBase + Avro, Talend, Pentaho, RHadoop, Informatica, SAS, H2O, KNIME, Tableau, SAP Business Objects, Splout SQL, Falcon, FiloDB, Hortonworks DataFlow (HDF) / Apache Nifi, StreamSets, Flume / Kafka / Flafka, Chukwa, LinkedIn Camus / Goblin, Rapidminer, Intelligent Miner, Datameer, Apache Drill + Arrow;
Weitere Bibliotheken / Tools: Hortonworks Hadoop, Spark mit SQL / DataFrames / RDDs / Caching, Hive, Java, Scala.
GfK Marktforschungsunternehmen, 2015: Anwendungs-Architektur der zentralen Daten-Aggregations- und Auswertungs-Komponenten (?Report Production Lines?) mit Cloudera Hadoop, Spark, HBase, etc.
Siemens Corporate Technology (CT), Healthineers (ex: Healthcare) IT, 2014-2015: Konzeption eines Predictive Maintenance Systems f�r radiologische Ger�te mit Teradata Unified Data Architecture (UDA), wurde sp�ter Teil von MindSphere: Teradata IDW (Integr. Data Warehouse), Aster (Discovery Platform), Hadoop (Data Platform) mit Hive/Pig (+DataFu)/Mahout, Revolution R mit RHadoop/RHIPE/Shiny, SAS, H2O, KNIME, Talend Open Studio for Big Data, Oozie, Intelligent Miner, WEKA/MOA, Giraph, Mahout, RapidMiner, Tableau, Pentaho Data Suite.
Allianz Versicherung, 2014: Migrations-Architektur f�r 600 SAS-Systeme und mehrere SPSS- und Hadoop-Cluster mit statistischen Analyse-Software wie R/Shiny und Apache Mahout.
Bundesarchiv, 2013-2014: Erstellen eines DB-Modells f�r das DWH des Archivs zur beschleunigten Suche und Auswertung der Daten sowie einer Hadoop-Architektur mit Hive.
Deutsche Post, 2012: Statistische Analyse der Paketfl�sse sowie der Nachnahme-Zahlungen und m�glicher Betrugsf�lle und Security-Incidents mit Microsoft SQL Server Integration Services(SSIS).
Deutsche Telekom, De-Mail-Projekt, 2010-2011: Erstellung einer Hadoop-Architektur, Proof of Concept mit Hive, Pentaho, R/Shiny und Apache Mahout f�r strukturierte Suche und Auswertungen.
Schwaebisch-Hall/Kreditwerk, 2010: Kunden-Analyse f�r Marketing, Up-selling und Cross-selling
Banken (Commerzbank, Dt. Bank, Sal. Oppenheim, Sparda Bank, Targo Bank, Citigroup, PostFinance, Schw�bisch-Hall/Kreditwerk, Lloyds Banking Group, 2008-2012): Mehrere Projekte im Bereich Kundenstatistiken, Anti-Money-Laundering (AML)/Know-Your-Customer (KYC) sowie zur statistischen Ergebnis-Validierung und zur Erkennung von ungew�hnlichen Ergebnissen im Rahmen der Abgeltungssteuer, der Versicherungssteuer und sonstiger Berechnungen.
Deutsche B�rse, 2009: Ich war im Bereich Indizes und strukturierter Anlageprodukte t�tig und wandte Data Mining auf historische Daten an, um optimale Indizes/Derivate vorschlagen zu k�nnen.
Institut f�r Arbeitsmarkt- und Berufsforschung (IAB), 2007-2008: Konzeption einer Mitarbeiterverwaltung mit Analysem�glichlichkeiten sowie von DWH-Datenmodellen (SAS, Cognos, Microsoft SQL Server Integration Services(SSIS)) f�r den Dt. Arbeitsmarkt.
Daimler und BMW, 2006, 2008: Mitarbeit an der Modellierung der DWHs f�r die Produkt-Daten-Management-Systeme (PDM).
Ich habe Web-/Text-Mining Software entwickelt zur Extraktion von Informationen aus Webseiten bzw. Dokumenten.
Im Bereich intelligente Suche/Plagiatsuche habe ich mich in entsprechende statische Methoden eingearbeitet.

�

Meine Erfahrung mit Scala:

Meine Scala-Projekte:

Avira Operations, 2017: Konzeption und Implementierung von Inspectrum, einem Apache Spark & Big Data Data Flow Instrumentation & Configuration Framework in Scala.
Credit Suisse, 2017: Konzeption/PoC-Implementierung mit Hadoop/Spark Streaming f�r einen Business Transaction Store + Analytics-Komponenten.
Itizzimo, 2017: Konzeption/Erweiterung des Simplifier Kernsystems zur Generation von Web- und Mobile Clients um Rechtekonzept und Automatismen f�r Adapter/Konverter zwischen diversen Systemen.
Cisco Systems f�r AOK Nordost, 2017: Architekt eines Blueprint-Dokuments zur Integration von Microser-vices mit mobile Apps und Big Data u.A. per DDD.
TecAlliance mit Fraunhofer IESE, 2016: Konzeption der Basisarchitektur f�r ein Connected Car System mit Hadoop, Spark, Cassandra, Kafka, Scala, etc.
General Electric, 2016: Konzeption/Entwicklung eines Digital Windfarm Berechnungsprojekts, das f�r jedes einzelne Windrad die Dimensionierung �ber die Lebensdauer optimiert, realisiert als cloud-basierter Berechnungsservice.
Parf�merie Douglas, 2016: Migration/Erweiterung/Absicherung des Online-Shops, implementiert in Java und Scala.
Daimler Financial Services via Deloitte, 2016: Big Data Projekt mit Hive, Talend und Spark, implementiert in Java und Scala.
GfK, 2015: Konzeption/Implementierung von Predictive Analytics Pipelines mit Hadoop/Spark f�r die Marktanalyse.
HavasMedia, 2015: Big Data Data Management Platform (DMP) f�r zielgerichtetes Performance-Marketing im Internet basierend auf der Analyse der Interessen der Webnutzer.
Siemens, 2014-2015: Big Data Projekt im Bereich von Predictive Maintenance von radiologischen Ger�ten, wurde sp�ter Teil von MindSphere.
Ca. 10 Projekte mit ScalaCheck oder Teilanwendung von Scala ? etwa als Ersatz f�r Python/Perl oder f�r asynchrone Funktionalit�t, z.B. bei BG-Phoenics/DGUV, Gematik, Europ. Patent Office, Fiducia, Dt. Telekom, Dt. Bank, Commerzbank, Bank Julius B�r, PostFinance, ?

Mir bekannte Scala-Patterns/Techniken:

Die klassischen Patterns der Gang of Four (GoF) �bertragen auf Scla.
Higher-kinded types, higher-order abstractions, Implicits, Case Classes, Traits, Views (ex: Projections), Builders
Cake-Pattern (z.B. f�r Dependency Injection; Build components which are abstracted over their dependencies)
Microservices/Evolutionary Architecture
Bulkheading/Isolation of Failure
Saga Pattern (managing long-running business transactions)
Stackable traits pattern
Dynamic scope (Make certain information available in a given context without explicitly passing it about)
Utility belt (Lightweight crosscutting resource sharing)
Reactive abstractions (Relationship among Actors, Arrows, FRP, Pub-Sub, ....)
Pimp my library (Extend existing classes with new methods)
Duck typing (structural typing)
Memoization (Memoize the result of a function)
Algebraic data types
Concept pattern

Mir bekannte Scala-Libraries:

Techniken der Integration aller Java Libraries, Build-Tool sbt
Akka (toolkit and runtime for building highly concurrent, distributed, and resilient message-driven applications)
Play (Built on Akka: Lightweight, stateless, web-friendly architecture with predictable and minimal resource consumption for highly-scalable applications)
Spray (REST/HTTP auf Basis von Akka, ersetzt durch Akka HTTP)
Spark (Big Data streaming / data processing library; hat eine Integration mit Scala, Akka und Actors)
Flink (wie Spark)
Lagom, QBit (Microservices)
Scalaz (New Data Types, Extensions to standard classes, general utility functions (ad-hoc polymorphism, traits + implicit parameters + implicit conversions)
Shapeless (type class and dependent type based generic programming library, typesafe casts, heterogenous lists, extensible records, lenses), Shapeless-contrib (integration of Scalaz, Shapeless and Spire)
Spire (Powerful new number types and numeric abstractions)
Cats (Containers, Composition, Algorithms)
Slick (Lightbend ORM mit codegenerator)
Squeryl (ORM and DB DSL)
Finagle (extensible RPC system)
ScalaNLP (Natural Laguage Processing with Breeze, Epic, etc.)
LinAlg (Linear-Algebra Scala Library)
ScalaCheck (Property-based testing)
Rapture Libraries (family of Scala libraries providing beautiful idiomatic and typesafe Scala APIs for common programming tasks, like working with I/O, cryptography and JSON & XML processing)
Twitter Bijection f�r Datenkonvertierungen.
Scraml (RAML code generator), swagger-codegen.
scodec: Working with binary data: performant data structures for working with bits and bytes to streaming encoding and decoding.
Netflix Hollow (small to moderately sized in-memory datasets passing from a single producer to many consumers for read-only access)
Squants (working with Quantities)
PureConfig, Typesafe/Lightbend Config.
Ammonite (Scala Scripting).
Scalate (Scala Template Engine) mit SSP-Funktionalit�t (Scala Server Pages)

�

Meine Ans�tze zur Betrugserkennung:

Die Schritte im Data Mining-Prozess sind:

Problemstellung/-Definition beschreiben
Datenerhebung und Verbesserung: Definieren von Datenquellen, Joinen und Denormalisien von Daten, Daten anreichern, Daten transformieren.
Modellierungsstrategien: Ausw�hlen der Algorithmen auf der Grundlage der Modellierungsziele, z.B. Vorhersage, Klassifizierung, Erforschung/Exploration, Affinit�t.
Training, Validierung und Erprobung von Modellen
Analyse der Ergebnisse
Modellierungs-Iterationen
Feste optimierte Implementierung der Ergebnisse.

�

Algorithmus-Klassen:

Klassische Verfahren: Gap-Analyse (ausgefallene Zahlung), "klingt wie/sounds like" �hnliche Felder und deren Unterschiede (z.B. Adressen-Betrug), Tests auf Doppelungen (Doppel-Rechnungen), Mitarbeiter, die keinen Urlaub nehmen (auf das Erwischt-werden durch Ersatz-Mitarbeiter zu vermeiden), Datenabgleich (z.B. Bankdaten von Mitarbeitern und Lieferanten), Trends/pl�tzliche Ver�nderungen, Ziffern-Auftrittsh�ufigkeiten in wirtschaftlichen Zahlen (z.B. Rechnungsbetr�ge).
Regel-basierte Methoden: ben�tigen Fachwissen zu bekanntem Betrugs-Verhalten, unwirksam bei neuartigen Betr�gereien, z.B. zwei fast gleichzeitige Transaktionen mit der gleichen Karte an geografisch verteilten Standorten, geringe vergangene Zeit zwischen den Versuchen, den Maximalbetrag abzuheben, viele kleine Transaktionen.
�berwachte Klassifizierung: Es werden Beispiele von Betrug der vergangenen Jahre ben�tigt, unwirksam bei neuartigen Typen.
Anomalie-Erkennung: Gut f�r neue Arten von Abweichungen, nicht gut f�r bekannte Typen
�nderungs- bzw. Wende-Punkt-Erkennung (z.B. durch ein Diagramm der im Laufe der Zeit ausgegebenen Gelder)
Multi-Level-Methoden (Transaktion / Konto / Kaufmann)
Link-Analyse-Netzwerke: Zwischen Menschen: Betr�ger arbeiten nicht isoliert voneinander (z.B. gestohlene oder geklont und weitergegebene Kreditkarten) -> Netze. Zwischen Betrugstypen: Eine Bande, die eine Art von Betrug durchf�hrt, f�hrt wahrscheinlich auch andere Arten durch. Hidden-Markov-Modelle f�r die Zustands�nderungen.
Segmentierungen: Es gibt bereits Segmentierungen von Finanzverhaltens-Typen, z.B. das FRuitTs System; man kann auch versuchen, Betrugsf�lle zu segmentieren, um Betrugs-Verhaltenstypen zu definieren.
Konstruieren Sie eines ?Verdachts-Score', der alle Methoden in Verbindung mit Regeln oder Gewichten kombiniert.

�

Die am h�ufigsten verwendeten Algorithmen:

Modellierungs-Ziele und Data-Mining-Techniken:

Vorhersage
- Regression and logistische Regression
- Neuronale Netze
- Entscheidungs-B�ume
- Hinweis: Zielesysteme k�nnen bin�r, intervall-, nominal oder ordinal sein.
  - Unm�glich
Klassifikation
- Entscheidungs-B�ume
- Neuronale Netze
- Diskriminanzanalyse
- Hinweis: Zielesysteme k�nnen bin�r, intervall-, nominal oder ordinal sein.
  - Clustering (K-means, etc.)
  - Neuronale Netze
  - Selbst-organisierende Karten (Kohonen-Netzwerke)�
Exploration / Erschlie�ung
- Entscheidungs-B�ume
- Hinweis: Zielesysteme k�nnen bin�r, intervall-, nominal oder ordinal sein.
  - Principal Components
  - Clustering (K-means, etc.)
Affinit�t
- Unm�glich
  - Assoziationen
  - Sequenzen
  - Faktorenanalyse

Einsatz von Data-Mining nach Modellierungs-Ziel und Lernmethode:

Vorhersage
- Abrieb / Retention
- Abgehobene Bargeldmenge am Automaten
- Kosten f�r Krankenhausaufenthalt
- Betrugs-Erkennung
- Kampagnenanalyse
  - Unm�glich
Klassifikation
- Segmentierung
- Markenwechsel
- Ausbuchungen
- Betrugs-Erkennung
- Kampagnenanalyse
  - Segmentierung
  - Abrieb / Retention
Exploration / Erschlie�ung
- Segmentierung
- Abrieb / Retention
- Scorecard-Erstellung
- Betrugs-Erkennung
- Kampagnenanalyse
  - Segmentation
  - Profiling
Affinit�t
- Unm�glich
  - Cross-Selling/Up-Selling
  - Einkaufskorb-Analysis

Konkrete Beispiele von Betrugserkennungs-L�sungen, die ich erarbeitet habe:

Anti-Geldw�sche (AML, Anti Money Laundering), z.B. f�r Daimler Financial Services (DFS) und Lloyds Banking Group (LBG).
Identit�tsdiebstahl
Kreditkartenbetrug
Geldautomaten-Betrug
Betrug / Sicherheitsangriffe auf die elektronische Gesundheitskarte (eGK)
Pass-/Personalausweis-Betrug
Gesundheits-R�ck-Erstattungs- und -Rechnungsbetrug
Elektronische Manipulationssicherheit / Widerstandsf�higkeiten gegen Sicherheits-Angriffe (Man-in-the-Middle, Code-Injektion, etc.)

�

Herausforderungen:

Pareto-Prinzip: Die ersten 50% Betrug sind einfach zu stoppen; die n�chsten 25% kosten die gleiche Anstrengung; n�chsten 12,5% kosten wieder die gleiche Anstrengung, etc. - nie erreichen wir 100%
Gro�en Datenmengen k�nnen sich sowohl hinter d als auch n verbergen
Die meisten Variablen werden sich als irrrelevant herausstellen
Die meisten F�lle sind nicht Betrug: Klassisches Data Mining Nadel-im-Heuhaufen Problem
Evolution�res Wettr�sten
Solides Aufsetzen, Ausbalancieren und Skalieren von Pr�ventionsma�nahmen vs. Erkennung
Solides Aufsetzen, Ausbalancieren und Skalieren von Operationen (Handeln) und Explorationen (Beobachten/Analysieren)
Kann komplexe Datentypen beinhalten (Bilder, Signale, Texte, Netzwerke)
Verschiedene Fehlklassifizierungskosten
Viele Arten von Betrug
Unausgewogene Klassengr��en (ca. 0,1% der Transaktionen sind betr�gerisch): Oft sind rund 90% der Betrugsverdachtsf�lle in der Tat legitim. Dies ist wichtig, weil operative Entscheidungen getroffen werden m�ssen (Karte sperren?) und gute Kunden d�rfen nicht verschreckt werden.
Verz�gerung bei der Kennzeichnung / Verz�gerung beim Lernen von Klassen-Labels: Wenn Betrug Alarm ausgel�st wird, dann ist die wahre Klasse schnell bekannt; wenn kein Alarm ausgel�st wird, dann wird er erst nach Pr�fen der Abrechnung (durch den Endkunden) erkannt; Dies unterscheidet es vom normalen Paradigma der �berwachten Klassifizierung => Banken k�nnen nicht immer mit Sicherheit sagen, wenn ein Betrug beginnt
Falsch gekennzeichnete Klassen: Nicht alle betr�gerischen Transaktionen werden als Betrug bezeichnet (Kontoinhaber pr�fen nicht immer ausreichend sorgf�ltig); Nicht alle legitimen Transaktionen werden als legitim bezeichnet; Es kann Feinheiten geben, z.B. dass ein Kontoinhaber Transaktionen ausl�st und dann behauptet, dass vorher die Karte gestohlen wurde; Solche Transaktionen sind betr�gerische Transaktionen, weil der Halter sie als solche erkl�rt;
Zuf�llige Transaktions-Ankunftszeiten
(Reaktiver) Bev�lkerungs-/Populations-Drift: Betr�ger �ndern ihre Strategien; jeder Strategie kann viele Varianten haben, die jeweils unterschiedliche L�sungen erfordern: Phishing, Skimming, Schulter-Surfen, libanesische Schleife, falsche Fronten, F�lschungen, Vorschussbetrug (419 Scam, Nigerianischer �berweisungs-Betrug, etc)
Ein-Klassen-Modellierung: Ausrei�ererkennung kann neue Arten von Anomalien ermitteln, die zuvor nicht gesehen wurden; Prinzip: Bauen eines Modell f�r die "Norm" f�r diesen Kunden und erkennen, wenn etwas davon abweicht; "Norm" kann basieren auf a) diesem Kunden gegen�ber sich selbst zu fr�heren Zeiten (jamjarring), b) der Kunde gegen�ber anderen Kunden, c) Karten-Verwendungsmuster nach Lebensphase, d) Segmentierung in Kundentypen, e) eine Kombination von diesen.
Mehr-Klassen-Modellierung: Z. B. verschiedene Konto-Nutzungsarten und Lebenssituationen; k�nnte, �ber-engineered sein, zu komplex und kostspielig mit zu vielen Fehlalarmen.
Intervention: Sieht aus wie ein Standard-zwei-Klassen-�berwachte-Klassifizierungs-Problem. Aber eine Intervention �ndert das Ergebnis: Das Vorhersagemodell gilt nicht mehr; das zuf�llige Zuweisen von Kunden zu Eingreifen (A) / nicht eingreifen (B) Gruppen ist �blicherweise nicht in Bank-Kontexten zul�ssig; Selektivit�ts-Verschiebung; L�sungen: Heckman (Wahrscheinlichkeits-)Methode, Diskriminanzanalyse.

Betriebssysteme

AIX

Android

CentOS

CP/M

Dos

Echtzeitbetriebssysteme

Embedded Linux

HPUX

iOS

IRIX

Linux

Mac OS

MS-DOS

MVS, OS/390

Novell

OS/2

OSF/Motif

PalmOS

pSOS

RACF

Red Hat Enterprise Linux

RTOS (Real Time OS)

SUN OS, Solaris

Unix

VMS

VxWorks

Win32

Win32/Linux

Win64

Windows

Windows CE

z/OS

Programmiersprachen

angular.js

AngularJS

ASN.1

ASP.NET

Assembler

Basic

C++

Clipper

Cobol

COBOL

CORBA IDL

dBase

Delphi

Emacs

Forth

Fortran

Foxpro

Groovy/Grails

Handlebars.js

HPGL, HP PCL

Imake, GNU-Make, Make-Maker etc...

IMAP

Java

Java-Entwicklung

JavaScript

JAX-WS

JAXB

JCL

JEE

jquery

Lisp

Lotus Notes Script

Makrosprachen

Maschinensprachen

MATLAB / Simulink

MDL

Modula-2

Objective C

Paradox

Pascal

Perl

PHP

PL/SQL

Prolog

Python

Relationalen DBMS

Rexx

Scala

Scriptsprachen

Shell

Smalltalk

Tcl/Tk

TeX, LaTeX

VRML

Xt, Motif

yacc/lex

Datenbanken

Access

Adabas

B-Tree

BDE

DAO

DB2

F&A

HBase

IMS

Informix

Ingres

Interbase

JDBC

Lotus Notes

MS SQL Server

MySQL

Object Store

ODBC

Oracle

Oracle Database

Paradox

POET

Postgres

Propriet�re DB

SAS

SQL

Sybase

Teradata

Watcom SQL

xBase

Datenkommunikation

Bus

CICS

CORBA

EDIFACT

Ethernet

Exim

Fax

Internet, Intranet

ISO/OSI

JSON

LAN, LAN Manager

Message Queuing

NetBeui

NetBios

parallele Schnittstelle

PC-Anywhere

POP3

Public Networks

RESTful WebServices

RFC

Router

RPC

RS232

SMTP

SNMP

SOAP

TCP/IP

UUCP

Voice

WADL

WebServices

Windows Netzwerk

Winsock

WSDL

X.400 X.25 X.225 X.75...

Hardware

AS/400

Drucker

Echtzeitsysteme

embedded Systeme

Emulatoren

Industrie-Roboter

Messger�te

Modem

Plotter

Propriet�re HW

Rational

Sensoren

Steuer und Regelsysteme

Streamer

SUN

VAX

Video Capture Karte

Berechnung / Simulation / Versuch / Validierung

Rapid Control Prototyping (RCP)

Design / Entwicklung / Konstruktion

CATIA

Branchen

Elektronik/Elektrotechnik
Banken
Gesundheitswesen/Pharma/Medizintechnik
Verkehrstechnik
Automobilbau, Automobilwirtschaft
Luftfahrttechnik und Raumfahrttechnik
IT/EDV
Energiewirtschaft/Energieversorgung
Verlagswesen
Maschinenbau
Telekommunikation
Versand/Handel
Touristik
Versicherungen
Handel/Onlne-Marketing und Online-Vertrieb

Vertrauen Sie auf GULP

Im Bereich Freelancing

Im Bereich Arbeitnehmer�berlassung / Personalvermittlung

Fragen?

Rufen Sie uns an +49 89 500316-300 oder schreiben Sie uns:

Name E-Mail-Adresse Ihre Frage

Telefonnummer Unternehmen

Ich habe die Datenschutzbestimmungen gelesen und bin damit einverstanden.

Das GULP Freelancer-Portal

Direktester geht's nicht! Ganz einfach Freelancer finden und direkt Kontakt aufnehmen.