DevOps + MLOps Engineer | NVIDIA GPUs Infrastruktur | Kubernetes | Kong | max. 95€ all in (m/w/d)

Düsseldorf (20%) | Remote (80%)
Start: 01.11.2025
il y a 2 semaines
Job Typ:
Projekt
Dauer:
bis 30.10.2026
Arbeitsumfang:
Vollzeit
Sprachen:
Deutsch

ID: 175746

Appliquer ici

Westhouse ist eines der führenden internationalen Recruitment Unternehmen für die Vermittlung von hochqualifizierten Fachexperten in Bereichen wie IT Life Cycle, SAP, Engineering, Kaufmännischem und Fachberatung.

Für unseren Kunden suchen wir aktuell eine/n DevOps + MLOps Engineer | NVIDIA GPUs Infrastruktur | Kubernetes | Kong | max. 95€ all in (m/w/d) - Düsseldorf (20%) | Remote (80%).

Ihre Aufgaben

    • Aufbau und Optimierung einer skalierbaren NVIDIA GPU-Infrastruktur inklusive CUDA- und CuDNN-Konfiguration sowie Multi-GPU Scheduling für parallele KI-Workloads.
    • Implementierung und Verwaltung eines API-Managers (z. B. Kong) zur zentralen Steuerung und Absicherung von Microservice-Schnittstellen.
    • Einrichtung eines Model Serving Frameworks (z. B. Triton Inference Server) zur performanten Bereitstellung und Versionierung von KI-Modellen.
    • Containerisierung und Orchestrierung von KI-Services mit Kubernetes, inklusive Deployment-Strategien, Skalierung und Cluster-Monitoring.
    • Integration eines Service Mesh (z. B. Istio) zur Umsetzung von Traffic Management, Service Discovery und Zero-Trust-Kommunikation.
    • Implementierung von API-Security-Mechanismen wie Rate-Limiting, Authentifizierung, Autorisierung und Audit Logging.
    • Aufbau eines Model-Monitoring-Systems mit Grafana und Prometheus zur Überwachung von Modellleistung und Systemmetriken.
    • Einführung einer Workflow-Orchestrierungslösung (z. B. MLFlow) zur Verwaltung von Trainings-, Validierungs- und Deployment-Pipelines.
    • Administration von Betriebskomponenten wie Keycloak (Identity & Access Management) und cert-manager (TLS-Zertifikatsverwaltung) zur Sicherstellung des produktiven Betriebs.

Ihre Qualifikationen

    • __Must Have:
    • __NVIDIA GPUs Infrastruktur (CUDA, CuDNN, Multi-GPU Scheduling)
    • __API-Manager (z.B. Kong)
    • __Model Serving (z.B. Triton Inference Server)
    • __Kubernetes
    • ____Wünschenswert:
    • ____Service Mesh (z.B. Istio)
    • ____API-Security (Rate-Limiting, Audit Logging)
    • ____Model Monitoring (Grafana für Dashboard)
    • ____Workflow-Orchestrierung (z.B. MLFlow)
    • ____Betrieb (Keycloak, cert-manager)