Bewährte Ergebnisse. Geliefert.
Echte Projekte. Messbare Ergebnisse. Von Legacy-Modernisierung bis Kostenreduzierung – so helfe ich Data Teams schneller und smarter zu arbeiten.
Lakehouse-Migration für SaaS ERP
SaaS ERP Anbieter
Herausforderung
Ein wachsendes SaaS-ERP-Unternehmen kämpfte mit seinem veralteten Data Lake. Pipeline-Ausführungszeiten waren langsam, die Datenauffindbarkeit schlecht und das Team verbrachte mehr Zeit mit Fehlersuche als mit neuen Features.
Lösung
Ich habe die analytische Datenplattform von einem Legacy Data Lake zu einer modernen Lakehouse-Architektur skaliert, mit PySpark, Apache Iceberg, AWS Glue und Python. Implementierung von Medallion-Architektur-Patterns (Bronze, Silver, Gold) mit klarer Trennung von Ingestion, Veredelung und kuratierten analytischen Datasets.
Meine Rolle
Data Platform Engineer – verantwortlich für Architekturdesign, Pipeline-Entwicklung, Orchestrierung und Infrastruktur-Automatisierung.
Wichtige Liefergegenstände
- 01Lakehouse-Architektur mit Medallion-Pattern auf Apache Iceberg
- 02Modulare PySpark-Pipelines mit konfigurationsgesteuerten Jobs
- 03Apache Airflow Orchestrierung auf AWS ECS mit Scheduling und Retries
- 04Terraform-basierte Infrastruktur für reproduzierbare Deployments
Cloud Lakehouse Platform für Energiesektor
Energy Tech Unternehmen
Herausforderung
Ein Energieunternehmen benötigte eine robuste Cloud-basierte Datenplattform für Batch- und Streaming-Workloads. Bestehende Pipelines waren instabil, hatten kein ordentliches Monitoring und keine klare Data Governance.
Lösung
Ich habe eine Cloud-basierte Lakehouse-Datenplattform entworfen und betrieben, die Batch- und Streaming-Ingestion, Transformation und analytisches Serving unterstützt. Implementierung von Medallion-Architektur, verteilten Processing-Pipelines und umfassenden CI/CD-Workflows.
Meine Rolle
Senior Data Platform Engineer – verantwortlich für Plattform-Architektur, Pipeline-Entwicklung, Infrastructure-as-Code und Monitoring-Setup.
Wichtige Liefergegenstände
- 01Lakehouse-Plattform mit Delta Lake und Medallion-Architektur
- 02PySpark- und Golang-basierte Datenpipelines mit deterministischer Verarbeitung
- 03GitHub Actions CI/CD für automatisiertes Testing und Deployment
- 04Monitoring und Alerting mit strukturiertem Logging und Fehlerbenachrichtigungen
Azure Databricks Plattform-Optimierung
Enterprise Consulting-Kunde
Herausforderung
Ein Consulting-Kunde hatte Azure Databricks eingeführt, kämpfte aber mit inkonsistenter Job-Performance, häufigen Pipeline-Fehlern und fehlender Governance. Teams arbeiteten isoliert mit duplizierten Daten und unvorhersehbaren Kosten.
Lösung
Ich habe production-grade Medallion Lakehouse-Architekturen auf Azure Databricks mit Delta Lake und PySpark implementiert. Cluster-Konfigurationen optimiert, Datenzugriffskontrollen etabliert und Git-basierte CI/CD-Workflows erstellt.
Meine Rolle
Data Engineer & Consultant – leitete Architektur-Implementierung, Performance-Optimierung und führte Spark-Workshops für Kundenteams durch.
Wichtige Liefergegenstände
- 01Medallion Lakehouse-Architektur mit Delta Lake
- 02Optimierte Databricks Cluster-Konfigurationen und Autoscaling-Policies
- 03Databricks Jobs mit Retry-Logik und Dependency-Management
- 04Table ACLs und Data Masking für Enterprise-Datenzugriffskontrolle
RAG-basierter KI-Agent für Kundensupport
B2B SaaS Unternehmen
Herausforderung
Das Support-Team eines SaaS-Unternehmens war mit repetitiven Anfragen überlastet. Manuelle Ticketbearbeitung war langsam, inkonsistent und hinderte das Team daran, sich auf komplexe Kundenprobleme zu konzentrieren.
Lösung
Ich habe eine serverlose RAG-basierte KI-Agent-Architektur mit OpenAI, LangChain, Qdrant, Airflow und AWS Lambda integriert. Das System automatisierte Routineanfragen bei gleichzeitiger Qualitätssicherung durch vektorbasiertes Retrieval und kontextuelle Antworten.
Meine Rolle
AI/ML Engineer – entwarf die RAG-Architektur, baute die Vector-Pipeline und integrierte mit bestehender Support-Infrastruktur.
Wichtige Liefergegenstände
- 01RAG-basierter KI-Agent mit LangChain und OpenAI
- 02Qdrant Vector-Datenbank für semantische Suche
- 03Airflow-orchestrierte Dokument-Ingestion-Pipeline
- 04AWS Lambda Serverless-Deployment für Kosteneffizienz