Site Reliability Engineer (SRE) – Kubernetes / Platform (m/w/d)
- Remote + Frankfurt
- Start: 01.06.2026
- vor 4 Tagen
- Job Typ:
- Projekt
- Dauer:
- 6 Monate + Option
- Arbeitsumfang:
- Vollzeit
- Sprachen:
- Deutsch + Englisch
ID: 178518
Westhouse ist eines der führenden internationalen Recruitment Unternehmen für die Vermittlung von hochqualifizierten Fachexperten in Bereichen wie IT Life Cycle, SAP, Engineering, Kaufmännischem und Fachberatung.
Für unseren Kunden suchen wir aktuell eine/n Site Reliability Engineer (SRE) – Kubernetes / Platform (m/w/d) - Remote + Frankfurt.
Ihre Aufgaben
- Überwachung von Systemzustand, Performance-Metriken und Serviceverfügbarkeit in Multi-Tenant-Kubernetes-Umgebungen
- Identifikation, Analyse und Behebung von Incidents zur Minimierung von Serviceunterbrechungen
- Auslösen von Root-Cause-Analysen sowie Umsetzung von Korrektur- und Präventionsmaßnahmen
- Automatisierung wiederkehrender Betriebsprozesse zur Reduzierung operativer Aufwände und Verbesserung der Service-Stabilität
- Validierung aller automatisierten Prozesse entlang des Software-Development-Lifecycles einschließlich Staging, Testing und Review
- Implementierung von Monitoring- und Logging-Strategien zur Unterstützung von Audit- und Compliance-Anforderungen
- Durchführung regelmäßiger Security-Scans sowie Behebung identifizierter Sicherheitslücken
Interessiert?
Mandy Granz
Tel.: +49-89-383772411
Fax.: +49-89-99740779
Email: m.granz@westhouse-consulting.com
Stellenanzeige teilen
Ihre Qualifikationen
- ZU JEDEM SKILL MUSS MINDESTENS EIN PROJEKTBEISPIEL GENANNT WERDEN KÖNNEN
- Mindestens 3 Jahre operative Erfahrung mit selbstverwalteten Kubernetes-Clustern, selbstverwalteten Services zur Bereitstellung von Kubernetes-Clustern sowie produktiven Anwendungen oder Systemen in On-Premise-Umgebungen auf Kubernetes
- Tiefes Verständnis von Netzwerk-Konzepten, einschließlich Protokollen, Load Balancing und Security
- Fundierte Kenntnisse und praktische Erfahrung mit CI/CD-Prozessen, Tools (z. B. GitLab, Jenkins, Tekton, Argo Workflows und Argo CD), Konzepten sowie zugehörigen Qualitäts- und Sicherheitsanforderungen für Software-Delivery
- Grundlegendes Verständnis zentraler Betriebsprozesse (Incident-, Change- und Problem-Management, IT Service Management) sowie SRE-Konzepte
- Erfahrung in der Gewinnung von operativen Erkenntnissen aus Monitoring- oder Observability-Systemen einschließlich SLI/SLA/SLO-Management und Tracking
- Praktische Erfahrung in der sauberen Dokumentation von Prozessen sowie der Durchsetzung klarer Runbooks oder Playbooks
- Hands-on Erfahrung mit Monitoring- und Logging-Tools (z. B. Prometheus, Grafana, Datadog, Mimir, Loki)