Site Reliability Engineer (SRE) – Kubernetes / Platform (m/w/d)

: Remote + Frankfurt
: Start: 01.06.2026
: vor 4 Tagen

Job Typ:: Projekt
Dauer:: 6 Monate + Option
Arbeitsumfang:: Vollzeit
Sprachen:: Deutsch + Englisch

ID: 178518

Westhouse ist eines der führenden internationalen Recruitment Unternehmen für die Vermittlung von hochqualifizierten Fachexperten in Bereichen wie IT Life Cycle, SAP, Engineering, Kaufmännischem und Fachberatung.

Für unseren Kunden suchen wir aktuell eine/n Site Reliability Engineer (SRE) – Kubernetes / Platform (m/w/d) - Remote + Frankfurt.

Ihre Aufgaben

Überwachung von Systemzustand, Performance-Metriken und Serviceverfügbarkeit in Multi-Tenant-Kubernetes-Umgebungen
Identifikation, Analyse und Behebung von Incidents zur Minimierung von Serviceunterbrechungen
Auslösen von Root-Cause-Analysen sowie Umsetzung von Korrektur- und Präventionsmaßnahmen
Automatisierung wiederkehrender Betriebsprozesse zur Reduzierung operativer Aufwände und Verbesserung der Service-Stabilität
Validierung aller automatisierten Prozesse entlang des Software-Development-Lifecycles einschließlich Staging, Testing und Review
Implementierung von Monitoring- und Logging-Strategien zur Unterstützung von Audit- und Compliance-Anforderungen
Durchführung regelmäßiger Security-Scans sowie Behebung identifizierter Sicherheitslücken

Interessiert?

Mandy Granz

Tel.: +49-89-383772411
Fax.: +49-89-99740779
Email: m.granz@westhouse-consulting.com

Jetzt bewerben

Stellenanzeige teilen

Ihre Qualifikationen

ZU JEDEM SKILL MUSS MINDESTENS EIN PROJEKTBEISPIEL GENANNT WERDEN KÖNNEN
Mindestens 3 Jahre operative Erfahrung mit selbstverwalteten Kubernetes-Clustern, selbstverwalteten Services zur Bereitstellung von Kubernetes-Clustern sowie produktiven Anwendungen oder Systemen in On-Premise-Umgebungen auf Kubernetes
Tiefes Verständnis von Netzwerk-Konzepten, einschließlich Protokollen, Load Balancing und Security
Fundierte Kenntnisse und praktische Erfahrung mit CI/CD-Prozessen, Tools (z. B. GitLab, Jenkins, Tekton, Argo Workflows und Argo CD), Konzepten sowie zugehörigen Qualitäts- und Sicherheitsanforderungen für Software-Delivery
Grundlegendes Verständnis zentraler Betriebsprozesse (Incident-, Change- und Problem-Management, IT Service Management) sowie SRE-Konzepte
Erfahrung in der Gewinnung von operativen Erkenntnissen aus Monitoring- oder Observability-Systemen einschließlich SLI/SLA/SLO-Management und Tracking
Praktische Erfahrung in der sauberen Dokumentation von Prozessen sowie der Durchsetzung klarer Runbooks oder Playbooks
Hands-on Erfahrung mit Monitoring- und Logging-Tools (z. B. Prometheus, Grafana, Datadog, Mimir, Loki)