Für ein Logistikunternehmen wird eine flexible und skalierbare Datenplattform auf Basis von Kafka und GCP für die Anbindung und Integration einer heterogenen Datenlandschaft entwickelt. Die Daten werden mittels Kotlin-Microservices aus verschiedenen Quellen (File-Transfer via Google Cloud Storage, SFTP, Webhooks, REST-API) ausgelesen, geparst und nach Kafka geschrieben. Die Integration in Zielsysteme wie z.B. GCP AlloyDb erfolgt über Kafka Connect und JDBC. Mittels DBT werden die Verknüpfung der Datenquellen sowie Transformationen nach den Business-Regeln der Stakeholder umgesetzt. Zusätzlich wurden Konzepte zu Archivierung und Daten-Replay entworfen, um eine zuverlässige Datenlieferung zu gewährleisten. Ein weiterer wichtiger Bestandteil ist die Sicherung der Datenqualität mittels Monitoring und automatisierter Korrektur-Mechansimen. Schließlich werden umfangreiche Datenpipelines im Document Management und Intelligence entwickelt. Dokumente aus verschiedenen Quellen werden integriert, klassifiziert und zusammengeführt. In einem separaten Schritt erfolgt die automatisierte Daten-Extrahierung mittels DocumentAI sowie LLMs, um neue Informationen nutzbar zu machen und eine automatische Zuordnung der Dokumente mit anderen Unternehmensdaten zu ermöglichen.
Im Zuge der Produktivsetzung einer firmenweiten Datenplattform wurde das Monitoring und Alerting automatisiert. Dies beinhaltet das Setup einer Dashboards-As-Code Infrastruktur, in der sa?mtliche Dashboards und Alerts als Jsonnet-Code definiert und u?ber Git versioniert werden. Sa?mtliche Funktionen ko?nnen automatisiert auf alle Grafana Instanzen ausgerollt werden, wodurch fehleranfa?llige und zeitraubende manuelle Anpassungen u?ber das User Interface entfallen. Zusa?tzlich wurden Metriken fu?r die U?berwachung der ETL-Pipelines implementiert.
Daten verschiedener Quellsysteme werden von Java / Kafka Streams Microservices gelesen, angereichert und fu?r die Anforderungen der Zielsysteme angepasst. Die Daten werden mittels Kafka Connect in die Zielsysteme geladen, beispielsweise u?ber JDBC Konnektoren.
Apache Kafka (Kafka Streams, Kafka Connect)
Java, Quarkus
Red Hat OpenShift
Splunk, SignalFX
Kundendaten (Vertragsdaten, Bewegungsdaten) wurden als Stream von mehreren Quellsystemen konsumiert und in ein externes Marketing Tool integriert. Nutzerpräferenzen wurden in Echtzeit berechnet, und erlauben dem CRM Team so die präzise Kundensegmentierung und personalisierte Kommunikation.
Kundendaten wurden aus mehreren Quellsystem mittels zuverlässiger ETL Pipelines integriert, in einem Data Lake gespeichert und aufbereitet und für firmeninterne Abteilungen bereitgestellt, um Reporting und Kunden-Analysen zu ermöglichen.
Finanz-Transaktionsdaten wurden mit Apache Kafka integriert: Die Daten wurden als Events von Quellsystemen verarbeitet, beispielsweise als CDC Messages von relationalen Datenbanken). Mittels Kafka Streams Applikationen werden die Daten verarbeitet und in Zielsysteme geschrieben. Automatisierte Integration Tests überprüfen die Daten direkt in den Zielsystemen.
Eine Machine Learning Applikation wurde entwickelt, die Absatzprognosen in Abhängigkeit zu Preisnachlässen erstellt, um die Preisnachlässe zu definieren, die den Umsatz maxisimiert. Die Vorhersage wurde mit Machine Learning Libraries (Tensorflow, Keras) und historischen Verkaufsdaten umgesetzt. Die Applikation wurde in weitere unternehmensinterne Systeme integriert.
Verteilte Systeme, Datenbanken, Software Engineering
Für ein Logistikunternehmen wird eine flexible und skalierbare Datenplattform auf Basis von Kafka und GCP für die Anbindung und Integration einer heterogenen Datenlandschaft entwickelt. Die Daten werden mittels Kotlin-Microservices aus verschiedenen Quellen (File-Transfer via Google Cloud Storage, SFTP, Webhooks, REST-API) ausgelesen, geparst und nach Kafka geschrieben. Die Integration in Zielsysteme wie z.B. GCP AlloyDb erfolgt über Kafka Connect und JDBC. Mittels DBT werden die Verknüpfung der Datenquellen sowie Transformationen nach den Business-Regeln der Stakeholder umgesetzt. Zusätzlich wurden Konzepte zu Archivierung und Daten-Replay entworfen, um eine zuverlässige Datenlieferung zu gewährleisten. Ein weiterer wichtiger Bestandteil ist die Sicherung der Datenqualität mittels Monitoring und automatisierter Korrektur-Mechansimen. Schließlich werden umfangreiche Datenpipelines im Document Management und Intelligence entwickelt. Dokumente aus verschiedenen Quellen werden integriert, klassifiziert und zusammengeführt. In einem separaten Schritt erfolgt die automatisierte Daten-Extrahierung mittels DocumentAI sowie LLMs, um neue Informationen nutzbar zu machen und eine automatische Zuordnung der Dokumente mit anderen Unternehmensdaten zu ermöglichen.
Im Zuge der Produktivsetzung einer firmenweiten Datenplattform wurde das Monitoring und Alerting automatisiert. Dies beinhaltet das Setup einer Dashboards-As-Code Infrastruktur, in der sa?mtliche Dashboards und Alerts als Jsonnet-Code definiert und u?ber Git versioniert werden. Sa?mtliche Funktionen ko?nnen automatisiert auf alle Grafana Instanzen ausgerollt werden, wodurch fehleranfa?llige und zeitraubende manuelle Anpassungen u?ber das User Interface entfallen. Zusa?tzlich wurden Metriken fu?r die U?berwachung der ETL-Pipelines implementiert.
Daten verschiedener Quellsysteme werden von Java / Kafka Streams Microservices gelesen, angereichert und fu?r die Anforderungen der Zielsysteme angepasst. Die Daten werden mittels Kafka Connect in die Zielsysteme geladen, beispielsweise u?ber JDBC Konnektoren.
Apache Kafka (Kafka Streams, Kafka Connect)
Java, Quarkus
Red Hat OpenShift
Splunk, SignalFX
Kundendaten (Vertragsdaten, Bewegungsdaten) wurden als Stream von mehreren Quellsystemen konsumiert und in ein externes Marketing Tool integriert. Nutzerpräferenzen wurden in Echtzeit berechnet, und erlauben dem CRM Team so die präzise Kundensegmentierung und personalisierte Kommunikation.
Kundendaten wurden aus mehreren Quellsystem mittels zuverlässiger ETL Pipelines integriert, in einem Data Lake gespeichert und aufbereitet und für firmeninterne Abteilungen bereitgestellt, um Reporting und Kunden-Analysen zu ermöglichen.
Finanz-Transaktionsdaten wurden mit Apache Kafka integriert: Die Daten wurden als Events von Quellsystemen verarbeitet, beispielsweise als CDC Messages von relationalen Datenbanken). Mittels Kafka Streams Applikationen werden die Daten verarbeitet und in Zielsysteme geschrieben. Automatisierte Integration Tests überprüfen die Daten direkt in den Zielsystemen.
Eine Machine Learning Applikation wurde entwickelt, die Absatzprognosen in Abhängigkeit zu Preisnachlässen erstellt, um die Preisnachlässe zu definieren, die den Umsatz maxisimiert. Die Vorhersage wurde mit Machine Learning Libraries (Tensorflow, Keras) und historischen Verkaufsdaten umgesetzt. Die Applikation wurde in weitere unternehmensinterne Systeme integriert.
Verteilte Systeme, Datenbanken, Software Engineering