Senior RL‑Spezialist (Reinforcement Learning) (m/w/d)

: Remote (75%) & München
: Start: 01.07.2026 (asap)
: 3 weeks ago

Job Typ:: Projekt
Dauer:: bis 31.12.2026 + Option
Arbeitsumfang:: Teilzeit - (50%)
Sprachen:: Deutsch

ID: 178711

Westhouse ist eines der führenden internationalen Recruitment Unternehmen für die Vermittlung von hochqualifizierten Fachexperten in Bereichen wie IT Life Cycle, SAP, Engineering, Kaufmännischem und Fachberatung.

Für unseren Kunden suchen wir aktuell eine/n Senior RL‑Spezialist (Reinforcement Learning) (m/w/d) - Remote (75%) & München.

Ihre Aufgaben

Verantwortung für die methodische und technische Ausgestaltung der RL-Lösung
Konzeption und Ausgestaltung der Exploration und Bandit-Verhaltens
Gestaltung und Implementierung von Exploration Groups
Entwicklung und Implementierung von RL-Simulationsmodellen
Durchführung und Betreuung von Off-Policy-Evaluations
Definition und Auswahl geeigneter Bandit-Methodiken, z. B.: Thompson Sampling, Epsilon-Greedy, Upper Confidence Bound (UCB))
Fachliche Absicherung des Bandit-Livegangs

Interessiert?

Paul Schock

Tel.: +49-89-38377225
Email: p.schock@westhouse-group.com

Apply here

Share posting

Ihre Qualifikationen

Sehr gute praktische Erfahrung im Bereich Reinforcement Learning (RL)
Tiefes Verständnis von: Exploration vs. Exploitation, Multi-Armed-Bandit-Verfahren, Contextual Bandits
Erfahrung mit Bandit-Methodiken, z. B.: Thompson Sampling
Erfahrung mit Off-Policy-Evaluation (OPE)
Erfahrung in der Entwicklung und Validierung von Simulationsmodellen
sehr gute Kenntnisse in Python & Machine Learning, sowie SQL-Kenntnisse
Erfahrung mit agilen Methoden (Scrum, Kanban, SAFe)