Erstellung eines Systems bei dem man PDF mit unbegrenzt vielen Seiten hochladen und analysieren kann mithilfe von OCR + AI Agents.
Ziel war es alle als wichitg klassifizierten Issue aus den Dokumenten zu extrahieren und in einer Tabelle zu überführen und diese an das Ende des PDF zu setzen.
Je 100 Seiten unter 1 cent und ~30 Sekunden und 100% der Issues in mehr als 100 getesteten Dokumente wurden wiederholbar erkannt.
Erstellung einer Umkreissuche für eine Partnervermittlungsbörse
- Datenbankoptimierung war ein schöner Brocken (Tabellen mit hunderten Millionen Einträgen, GIS Funktionen, Spatial Index, Stored Procedures)
Datapipelines - Eigenentwicklung mit workflow Definitionen ähnlich wie Apache Spark/Airflow (nur das die dags und services ziemlich gut autogeneriert werden durch LLM/Agenten), docker compose, traefik, hashicorp vault, rabbitmq, postgresql + postgis, nexus für pypi und docker, minio mit events auf PUT für rabbit -> consumer in python der sich die workflows aus redis zieht, mercure für Frontend Benachrichtigung - Frontend mit React - vercel/supabase.
Deployment mit jenkins/pulumi in hetzner Cloud.
Private Infra mit wireguard, gitea, grafana mit prometheus und loki - kein Kubernetes!!! Stattdessen Grafana, Prometheus + Pulumi und snapshots.
1. pipeline: OCR pipeline die ein RAG (vectordb + graphdb) füllt u.A. tesseract, ghostscript, paddleocr
2. crawler: LLM erstellt regex zum extrahieren von Daten für scraper und die füllen damit ebenfalls das RAG
3. pipeline: dwg -> dxf -> geojson bzw. png -> tiff -> geojson -- GenAI in autoCAD/CAD allgemein. (u.A. gdal, eigenes CNN, openvc, yolo, ein bisschen Mathematik und ziemlich viel GIS/postgis halt). Ich vektorisiere Grundrisse in geojson und habe eine automatische Raumerkennung mit einer Kombination aus OCR + Objekterkennung und GIS erstellt und das System erstellt automatisiert Angebote mit Schätzungen aus den autogenerierten Gewerken...
Desweiteren im Einsatz: QGIS, leaflet und three.js
4. Sprache (Asterisk->fritzbox) -> Transscription (whisper) -> LLM + RAG -> elevenlabs / gecached (die Sprachdateien sind gelabeld und in vectordb d.h. das Model antwortet mit mp3 filepath statt mit Sätzen)... TTS / STT -> Telefonautomatisierung
5. Lebenslaufparser -> LLM Quizerzeuger (das Teil schnappt sich den Lebenslauf und erstellt dann dazu Fragen und erstellt Testaufgaben)
6. Code Analyse (git commit analyse auf Basis von Kriterien angelehnt an ISO/IEC 9126), Skillmatrix Erstellung und Kursgenerierung
7. diverser Kleinkram wie ein Chat mit RAG und assistant API, ein plugin für ChatGPT und ein autocoder mit langchain aber auch mit ChatGPT als GPT
8. Experimente mit 30-40 der AI Startup tools wie nightcafe, midjourney, ollama, groq, gemini, azure Power Automate (hab auch einige Kurse dazu bei Microsoft learn gemacht - auch für Power BI - habe 150.000$ azure Guthaben zum experimentieren bekommen und war zeitweise Regular in openai's developer community), elevenlabs, synthesia, canva - auch Kombinationen mit n8n und zapier mit verschiedenen LLM mich auch in pyspark eingearbeitet und llm.c von Karpathy für llama2 ausprobiert - ollama mit llama3 8B ist echt brauchbar!
9. habe mich mit AGI beschäftigt und eine pipeline erstellt, die sich auf Basis von workflow definitionen selbständig verbessert... brauche aber noch mehr hardware und muss mich damit noch etwas ausführlicher beschäftigen. Habe einige Kombinationen aus Nvidia und Intel NUC mit Arc GPU ausprobiert RAM auslagern auf nvme ist zwar langsam aber ich dachte die Masse machts (also viele spezialisierte kleine Modelle).
Erstellung einer OCR Pipeline zur Datenextraktion aus Rechnungen mit AWS Textract + Tesseract.
Devops
AWS Infrastruktur Architektur
Hands-On Entwicklung
Projektmeetings
Gitlab CI/CD mit ansible, terraform, packer, docker, codeception
Symfony für Datenexport und Trainingseinheit für die ML Schicht
CTEs mit Haussdorf Distanz, Damerau Levenshtein
Teamauswahl und Schulung
Upgrade Legacy Anwendung (Zend 1) von PHP5.6 auf PHP7.4 (shady zf1, mysqli Wrapper,...)
Erstellung Gitlab CI/CD pipeline mit autoscale runners, docker, traefik, minio, codeception, phpcs
Erstellung Encrypted Masterslave Replikation MariaDB (data at rest + data in transit)
Erstellung Prozessdokumentation (in Anlehnung an iso 27001 requirements)
Anwendung: Symfony 5 + api-platform <-- jwt --> react Frontend (sehr fortschrittlicher multipage dnd formbuilder)
Symfony Framework, Security / Userbundle, React
Datenmigration aus DLS/GDPDU, CSV, ANS (z.B. von DATEV/Lodas, Lexware,...)
Erstellung eines einheitlichen Standards für Lohndatenimport und eines Migrationsscripts, welches die verschiedenen Exporte der Lohnprogramme vereinheitlicht.
(inklusive Lohnkonten und Lohnartenmapping)
- kein Baulohn ;)
--
Erstellung von Backend und Frontend als Fullstack in einem Team von Backend und Frontend Entwicklern
Entwickler in Scrumteams für die Bereiche Gas, Strom (smartmeter), Marktkommunikation und Wasser.
Jeweils teilweise im Bereich Architektur und Business Analyse.
Erstellung von Anforderungskatalogen, Fehleranalyse und allgemein Verbesserung des devops und testing.
Marketview / Optionchain - Server mit react PHP (ab 400 subscriptions lief der Lüfter vom Predator schon schneller) und node.js gemockt... (die API wurde aber mit C++ umgesetzt)
Umzug von Rasperi Pi auf APU Board 2.4.
- Installation von Debian
- Ansteuerung von LED zur Statusanzeige mit Programm geschrieben in C
- Einrichtung Lamp Stack + Wlan + LTE Karte + VPN Verbindung
- Scriptanpassungen bin/bash
- Scriptanpassungen / Upgrade der PHP Anwendung auf PHP 7.2 Standard
Analyse der internen Kommunikation und Entwicklung von Strategien zur Verbesserung des Informationsflusses innerhalb des Konzerns. Austausch von manuellen durch digitale Prozesse (automatische Rechnungsprüfung, Logistikoptimierung und Einführung eines incidentbasierend selbstlernenden Sprachassistenten in der Telefonanlage).
2015 ? 2016: Softwarearchitektur Beratung u.A. PHP Paketierung mit Zend Framework, Composer/Satis, Monitoring, Datenbankperformance, Deployment
Firma/Institut:
Telekommunikationsriese
2013 - 2015: Shopsysteme / Kassensystem / IBE / Hotel + Massage Buchungssystem/Terminvergabesystem
Firma/Institut:
diverse Wellnessoasen ? weltweit + App für einen Krankenversicherungsriesen
Technologien:
AngularJS / Ionic Framwork / Protractor
2012 ? 2013: Shopsysteme (u.A. Magento / Zend FW)
Kunde:
Monitorhersteller, Bakterienstammhändler, Brandschutzsystemhersteller, Palettenpooling, Chemieriesen
u.A. Anbindungen an Datev und Warenwirtschaft
10/2009 - 09/2010: Firmenwebsite, velo.connect Server + Client + mobilen Client, EDI/EANCOM D96 Datenaustausch mit Amazon Server + Client + SOAP Server und Client (DMZ Verbindung), Newslettersystem, Pizzabestellsystem (für Sammelbestellungen von Mitarbeitern bei Pizzeria), CMS, Youtube, Adwordskampagnen, SEO
Firma/Institut:
Fahrradgroßhändler
11/2006 - 10/2009: Börsenspiel, Webseitenbaukasten, Hosting, SEM/SEO, diverse websites, Flirtcommunity, Hoteldatenbank, Reisevermittlungsportale,Videocommunity, Google Maps Mashups
Firma/Institut:
eigenes Unternehmen / Internetagentur
07/2006 - 11/2006: Erstellung eines Veranstalterservers inkl. CRM System mit SAP Schnittstelle für Abgleich von Buchungsdaten, MIM System
Firma/Institut:
Reiseveranstalter
Software:
Linux, SSH Client, Sniffer, FTP, PHP5, Flash MX, JavaScript, MySQL,bash
04/2006 - 06/2006: Mitarbeit an Flugbuchungs IBE
Firma/Institut:
Internetdienstleister
Software:
Linux, SSH Client, Sniffer, FTP, PHP5, Flash MX, JavaScript, MySQL, bash
03/2005 - 03/2006: Erstellung diverser Portale für die Touristik (XML Schnittstellen von travel-it, giata und traveltainment), Adwordskampagnenbetreuung (inkl. Adwords API)
Firma/Institut:
Internetdienstleister
Software:
Linux, SSH Client, Sniffer, FTP, PHP5, Flash MX, JavaScript, MySQL
09/2003 - 09/2004: Projektleitung für den Aufbau eines Webseitenbaukastens (erweitertes, multilinguales Multiuser CMS)
Firma/Institut:
Internetdienstleister
Software:
Linux, SSH Client, Sniffer, FTP, PHP5, Flash MX, JavaScript, MySQL
09/2002 - 09/2003: Onlineshopsystem, Datenbankdesign, CRM Software, Statistikauswertung,Schulung der Anwender
Firma/Institut:
Verlag
Software:
FTP, PHP4, PostgreSQL, JavaScript+CSS
03/2002 - 09/2002: Jobportal Weiterentwicklung und Pflege(CRM Software, Umkreissuche,Migration von PHP3 auf PHP4, Datenbankoptimierung)
Firma/Institut:
Internetjobbörse
Software:
Linux, SSH Client, Sniffer, FTP, PHP3+PHP4, Perl, Python, ADABAS
09/2001 - 03/2002: Kontaktbörse(Erstellung einer Onlinekontaktbörse)
Firma/Institut:
Marketingfirma
Software:
FTP, PHP3, MySQL
2011:
Fachinformatiker Anwendungsentwicklung (Externenprüfung / IHK Oldenburg)
2000 - 2001:
Systementwickler/Unix (10 monatige Weiterbildung, Schwerpunkte: C Programmierung, XML /)
1999-2000:
Softwareentwickler für e-business (12-monatige Weiterbildung, Schwerpunkt: Projektmanagement / cbm)
Fullstack PHP Entwickler ...
git + docker + docker compose + Github Actions + Gitlab CI/CD + shell scripting + terraform/pulumi + codeception + phpunit + Symfony + REST APIs, GraphQL
MySQL, MariaDB, Oracle, PostgreSQL mit postgis, MongoDB, Neo4j, Faiss
HTML, React, vue.js, AngularJS + Angular (8), yarn, npm, SCSS/CSS, bootstrap, Material UI
Erstellung eines Systems bei dem man PDF mit unbegrenzt vielen Seiten hochladen und analysieren kann mithilfe von OCR + AI Agents.
Ziel war es alle als wichitg klassifizierten Issue aus den Dokumenten zu extrahieren und in einer Tabelle zu überführen und diese an das Ende des PDF zu setzen.
Je 100 Seiten unter 1 cent und ~30 Sekunden und 100% der Issues in mehr als 100 getesteten Dokumente wurden wiederholbar erkannt.
Erstellung einer Umkreissuche für eine Partnervermittlungsbörse
- Datenbankoptimierung war ein schöner Brocken (Tabellen mit hunderten Millionen Einträgen, GIS Funktionen, Spatial Index, Stored Procedures)
Datapipelines - Eigenentwicklung mit workflow Definitionen ähnlich wie Apache Spark/Airflow (nur das die dags und services ziemlich gut autogeneriert werden durch LLM/Agenten), docker compose, traefik, hashicorp vault, rabbitmq, postgresql + postgis, nexus für pypi und docker, minio mit events auf PUT für rabbit -> consumer in python der sich die workflows aus redis zieht, mercure für Frontend Benachrichtigung - Frontend mit React - vercel/supabase.
Deployment mit jenkins/pulumi in hetzner Cloud.
Private Infra mit wireguard, gitea, grafana mit prometheus und loki - kein Kubernetes!!! Stattdessen Grafana, Prometheus + Pulumi und snapshots.
1. pipeline: OCR pipeline die ein RAG (vectordb + graphdb) füllt u.A. tesseract, ghostscript, paddleocr
2. crawler: LLM erstellt regex zum extrahieren von Daten für scraper und die füllen damit ebenfalls das RAG
3. pipeline: dwg -> dxf -> geojson bzw. png -> tiff -> geojson -- GenAI in autoCAD/CAD allgemein. (u.A. gdal, eigenes CNN, openvc, yolo, ein bisschen Mathematik und ziemlich viel GIS/postgis halt). Ich vektorisiere Grundrisse in geojson und habe eine automatische Raumerkennung mit einer Kombination aus OCR + Objekterkennung und GIS erstellt und das System erstellt automatisiert Angebote mit Schätzungen aus den autogenerierten Gewerken...
Desweiteren im Einsatz: QGIS, leaflet und three.js
4. Sprache (Asterisk->fritzbox) -> Transscription (whisper) -> LLM + RAG -> elevenlabs / gecached (die Sprachdateien sind gelabeld und in vectordb d.h. das Model antwortet mit mp3 filepath statt mit Sätzen)... TTS / STT -> Telefonautomatisierung
5. Lebenslaufparser -> LLM Quizerzeuger (das Teil schnappt sich den Lebenslauf und erstellt dann dazu Fragen und erstellt Testaufgaben)
6. Code Analyse (git commit analyse auf Basis von Kriterien angelehnt an ISO/IEC 9126), Skillmatrix Erstellung und Kursgenerierung
7. diverser Kleinkram wie ein Chat mit RAG und assistant API, ein plugin für ChatGPT und ein autocoder mit langchain aber auch mit ChatGPT als GPT
8. Experimente mit 30-40 der AI Startup tools wie nightcafe, midjourney, ollama, groq, gemini, azure Power Automate (hab auch einige Kurse dazu bei Microsoft learn gemacht - auch für Power BI - habe 150.000$ azure Guthaben zum experimentieren bekommen und war zeitweise Regular in openai's developer community), elevenlabs, synthesia, canva - auch Kombinationen mit n8n und zapier mit verschiedenen LLM mich auch in pyspark eingearbeitet und llm.c von Karpathy für llama2 ausprobiert - ollama mit llama3 8B ist echt brauchbar!
9. habe mich mit AGI beschäftigt und eine pipeline erstellt, die sich auf Basis von workflow definitionen selbständig verbessert... brauche aber noch mehr hardware und muss mich damit noch etwas ausführlicher beschäftigen. Habe einige Kombinationen aus Nvidia und Intel NUC mit Arc GPU ausprobiert RAM auslagern auf nvme ist zwar langsam aber ich dachte die Masse machts (also viele spezialisierte kleine Modelle).
Erstellung einer OCR Pipeline zur Datenextraktion aus Rechnungen mit AWS Textract + Tesseract.
Devops
AWS Infrastruktur Architektur
Hands-On Entwicklung
Projektmeetings
Gitlab CI/CD mit ansible, terraform, packer, docker, codeception
Symfony für Datenexport und Trainingseinheit für die ML Schicht
CTEs mit Haussdorf Distanz, Damerau Levenshtein
Teamauswahl und Schulung
Upgrade Legacy Anwendung (Zend 1) von PHP5.6 auf PHP7.4 (shady zf1, mysqli Wrapper,...)
Erstellung Gitlab CI/CD pipeline mit autoscale runners, docker, traefik, minio, codeception, phpcs
Erstellung Encrypted Masterslave Replikation MariaDB (data at rest + data in transit)
Erstellung Prozessdokumentation (in Anlehnung an iso 27001 requirements)
Anwendung: Symfony 5 + api-platform <-- jwt --> react Frontend (sehr fortschrittlicher multipage dnd formbuilder)
Symfony Framework, Security / Userbundle, React
Datenmigration aus DLS/GDPDU, CSV, ANS (z.B. von DATEV/Lodas, Lexware,...)
Erstellung eines einheitlichen Standards für Lohndatenimport und eines Migrationsscripts, welches die verschiedenen Exporte der Lohnprogramme vereinheitlicht.
(inklusive Lohnkonten und Lohnartenmapping)
- kein Baulohn ;)
--
Erstellung von Backend und Frontend als Fullstack in einem Team von Backend und Frontend Entwicklern
Entwickler in Scrumteams für die Bereiche Gas, Strom (smartmeter), Marktkommunikation und Wasser.
Jeweils teilweise im Bereich Architektur und Business Analyse.
Erstellung von Anforderungskatalogen, Fehleranalyse und allgemein Verbesserung des devops und testing.
Marketview / Optionchain - Server mit react PHP (ab 400 subscriptions lief der Lüfter vom Predator schon schneller) und node.js gemockt... (die API wurde aber mit C++ umgesetzt)
Umzug von Rasperi Pi auf APU Board 2.4.
- Installation von Debian
- Ansteuerung von LED zur Statusanzeige mit Programm geschrieben in C
- Einrichtung Lamp Stack + Wlan + LTE Karte + VPN Verbindung
- Scriptanpassungen bin/bash
- Scriptanpassungen / Upgrade der PHP Anwendung auf PHP 7.2 Standard
Analyse der internen Kommunikation und Entwicklung von Strategien zur Verbesserung des Informationsflusses innerhalb des Konzerns. Austausch von manuellen durch digitale Prozesse (automatische Rechnungsprüfung, Logistikoptimierung und Einführung eines incidentbasierend selbstlernenden Sprachassistenten in der Telefonanlage).
2015 ? 2016: Softwarearchitektur Beratung u.A. PHP Paketierung mit Zend Framework, Composer/Satis, Monitoring, Datenbankperformance, Deployment
Firma/Institut:
Telekommunikationsriese
2013 - 2015: Shopsysteme / Kassensystem / IBE / Hotel + Massage Buchungssystem/Terminvergabesystem
Firma/Institut:
diverse Wellnessoasen ? weltweit + App für einen Krankenversicherungsriesen
Technologien:
AngularJS / Ionic Framwork / Protractor
2012 ? 2013: Shopsysteme (u.A. Magento / Zend FW)
Kunde:
Monitorhersteller, Bakterienstammhändler, Brandschutzsystemhersteller, Palettenpooling, Chemieriesen
u.A. Anbindungen an Datev und Warenwirtschaft
10/2009 - 09/2010: Firmenwebsite, velo.connect Server + Client + mobilen Client, EDI/EANCOM D96 Datenaustausch mit Amazon Server + Client + SOAP Server und Client (DMZ Verbindung), Newslettersystem, Pizzabestellsystem (für Sammelbestellungen von Mitarbeitern bei Pizzeria), CMS, Youtube, Adwordskampagnen, SEO
Firma/Institut:
Fahrradgroßhändler
11/2006 - 10/2009: Börsenspiel, Webseitenbaukasten, Hosting, SEM/SEO, diverse websites, Flirtcommunity, Hoteldatenbank, Reisevermittlungsportale,Videocommunity, Google Maps Mashups
Firma/Institut:
eigenes Unternehmen / Internetagentur
07/2006 - 11/2006: Erstellung eines Veranstalterservers inkl. CRM System mit SAP Schnittstelle für Abgleich von Buchungsdaten, MIM System
Firma/Institut:
Reiseveranstalter
Software:
Linux, SSH Client, Sniffer, FTP, PHP5, Flash MX, JavaScript, MySQL,bash
04/2006 - 06/2006: Mitarbeit an Flugbuchungs IBE
Firma/Institut:
Internetdienstleister
Software:
Linux, SSH Client, Sniffer, FTP, PHP5, Flash MX, JavaScript, MySQL, bash
03/2005 - 03/2006: Erstellung diverser Portale für die Touristik (XML Schnittstellen von travel-it, giata und traveltainment), Adwordskampagnenbetreuung (inkl. Adwords API)
Firma/Institut:
Internetdienstleister
Software:
Linux, SSH Client, Sniffer, FTP, PHP5, Flash MX, JavaScript, MySQL
09/2003 - 09/2004: Projektleitung für den Aufbau eines Webseitenbaukastens (erweitertes, multilinguales Multiuser CMS)
Firma/Institut:
Internetdienstleister
Software:
Linux, SSH Client, Sniffer, FTP, PHP5, Flash MX, JavaScript, MySQL
09/2002 - 09/2003: Onlineshopsystem, Datenbankdesign, CRM Software, Statistikauswertung,Schulung der Anwender
Firma/Institut:
Verlag
Software:
FTP, PHP4, PostgreSQL, JavaScript+CSS
03/2002 - 09/2002: Jobportal Weiterentwicklung und Pflege(CRM Software, Umkreissuche,Migration von PHP3 auf PHP4, Datenbankoptimierung)
Firma/Institut:
Internetjobbörse
Software:
Linux, SSH Client, Sniffer, FTP, PHP3+PHP4, Perl, Python, ADABAS
09/2001 - 03/2002: Kontaktbörse(Erstellung einer Onlinekontaktbörse)
Firma/Institut:
Marketingfirma
Software:
FTP, PHP3, MySQL
2011:
Fachinformatiker Anwendungsentwicklung (Externenprüfung / IHK Oldenburg)
2000 - 2001:
Systementwickler/Unix (10 monatige Weiterbildung, Schwerpunkte: C Programmierung, XML /)
1999-2000:
Softwareentwickler für e-business (12-monatige Weiterbildung, Schwerpunkt: Projektmanagement / cbm)
Fullstack PHP Entwickler ...
git + docker + docker compose + Github Actions + Gitlab CI/CD + shell scripting + terraform/pulumi + codeception + phpunit + Symfony + REST APIs, GraphQL
MySQL, MariaDB, Oracle, PostgreSQL mit postgis, MongoDB, Neo4j, Faiss
HTML, React, vue.js, AngularJS + Angular (8), yarn, npm, SCSS/CSS, bootstrap, Material UI