Track This Job
Add this job to your tracking list to:
- Monitor application status and updates
- Change status (Applied, Interview, Offer, etc.)
- Add personal notes and comments
- Set reminders for follow-ups
- Track your entire application journey
Save This Job
Add this job to your saved collection to:
- Access easily from your saved jobs dashboard
- Review job details later without searching again
- Compare with other saved opportunities
- Keep a collection of interesting positions
- Receive notifications about saved jobs before they expire
AI-Powered Job Summary
Get a concise overview of key job requirements, responsibilities, and qualifications in seconds.
Pro Tip: Use this feature to quickly decide if a job matches your skills before reading the full description.
Machine Learning Engineer (m/w/d)
Gehalt: 75.000 – 130.000 € brutto p.a. (je nach Erfahrung und Seniorität)
Standort: Remote (Deutschland) | Start: Q1 2026
Über die Rolle
In dieser Position übernimmst du eine zentrale Rolle beim Aufbau produktionsreifer KI-Systeme, die komplexe Datenströme aus Sprache, Text und Bild verarbeiten.
Dein Schwerpunkt liegt darauf, Machine-Learning-Modelle in performante, skalierbare Anwendungen zu überführen, die in anspruchsvollen Echtzeit-Umgebungen eingesetzt werden.
Dabei entwickelst du hochverfügbare Inferenzpipelines, optimierst bestehende Modelle für Latenz und Effizienz und gestaltest die zugrunde liegende MLOps-Infrastruktur aktiv mit.
Du arbeitest eng mit Data Scientists, Software Engineers und DevOps-Teams zusammen, um innovative KI-Lösungen zuverlässig in den produktiven Einsatz zu bringen – vom ersten Deployment bis zum laufenden Monitoring.
Deine Aufgaben
- Entwicklung und Deployment von ML-Modellen in Produktionsumgebungen
- Aufbau von skalierbaren Inferenzpipelines (z. B. mit Triton Inference Server oder TorchServe)
- Implementierung von RAG-Pipelines (Retriever-Augmented Generation) mit Vektordatenbanken wie pgvector oder Milvus
- Entwicklung von Streaming-Analytics-Lösungen für Video- oder Sprachdaten
- Aufbau und Pflege von MLOps-Prozessen: Monitoring, A/B-Tests, Rollbacks, Model Registry
- Optimierung von Modellen (Quantisierung, Pruning, Distillation) für maximale Performance
- Verwaltung und Skalierung von GPU-Infrastrukturen (Kubernetes, Autoscaling)
- Enge Zusammenarbeit mit Data Scientists, DevOps und Software Engineers
Das bringst du mit
- 3+ Jahre Erfahrung im Machine Learning Engineering oder in vergleichbaren Rollen
- Sehr gute Python-Kenntnisse sowie Erfahrung mit gängigen Frameworks (PyTorch oder TensorFlow)
- Nachweisbare Erfahrung im Produktivsetzen von Modellen (NLP, ASR oder Computer Vision)
- Fundierte Kenntnisse in Containerisierung und Orchestrierung (Docker, Kubernetes)
- Erfahrung mit GPU-Serving und CUDA-Optimierung
- Sicher im Aufbau von API-basierten ML-Services und CI/CD-Pipelines
- Performance-getriebene Denkweise – du misst Erfolg in Latenz, Kosten und Stabilität
- Strukturierte, teamorientierte Arbeitsweise und ein hohes Qualitätsbewusstsein
Nice-to-have
- Erfahrung mit LLMs und RAG-Systemen
- Kenntnisse in Video-Analytics (DeepStream) oder Speech Recognition (WhisperX)
- Umgang mit MLflow oder vergleichbaren MLOps-Tools
- Erfahrung im öffentlichen Sektor oder mit regulierten Umgebungen
- Deutschkenntnisse
Was dich erwartet
- Arbeit an Produktions-KI-Systemen mit direktem Impact
- Zugriff auf aktuelle GPU-Ressourcen
- Einsatz neuester Technologien im Bereich Serving & Optimization
- Zusammenarbeit in einem hochqualifizierten Data- & AI-Team
- Möglichkeit, MLOps-Standards von Grund auf mitzugestalten
- Remote-first-Arbeitsumgebung mit regelmäßigen Teammeetings in Berlin
Haben wir dein Interesse geweckt? Dann melde dich doch gern direkt bei mir:
Constantin Clodius
Mobil: +49 170 3660753
E-Mail: [email protected]
Key Skills
Ranked by relevanceReady to apply?
Join ZABEL and take your career to the next level!
Application takes less than 5 minutes

