Senior RL‑Spezialist (Reinforcement Learning) (m/w/d)

Remote (75%) & München
Start: 01.07.2026 (asap)
3 weeks ago
Job Typ:
Projekt
Dauer:
bis 31.12.2026 + Option
Arbeitsumfang:
Teilzeit - (50%)
Sprachen:
Deutsch

ID: 178711

Apply here

Westhouse ist eines der führenden internationalen Recruitment Unternehmen für die Vermittlung von hochqualifizierten Fachexperten in Bereichen wie IT Life Cycle, SAP, Engineering, Kaufmännischem und Fachberatung.

Für unseren Kunden suchen wir aktuell eine/n Senior RL‑Spezialist (Reinforcement Learning) (m/w/d) - Remote (75%) & München.

Ihre Aufgaben

    • Verantwortung für die methodische und technische Ausgestaltung der RL-Lösung
    • Konzeption und Ausgestaltung der Exploration und Bandit-Verhaltens
    • Gestaltung und Implementierung von Exploration Groups
    • Entwicklung und Implementierung von RL-Simulationsmodellen
    • Durchführung und Betreuung von Off-Policy-Evaluations
    • Definition und Auswahl geeigneter Bandit-Methodiken, z. B.: Thompson Sampling, Epsilon-Greedy, Upper Confidence Bound (UCB))
    • Fachliche Absicherung des Bandit-Livegangs

Ihre Qualifikationen

    • Sehr gute praktische Erfahrung im Bereich Reinforcement Learning (RL)
    • Tiefes Verständnis von: Exploration vs. Exploitation, Multi-Armed-Bandit-Verfahren, Contextual Bandits
    • Erfahrung mit Bandit-Methodiken, z. B.: Thompson Sampling
    • Erfahrung mit Off-Policy-Evaluation (OPE)
    • Erfahrung in der Entwicklung und Validierung von Simulationsmodellen
    • sehr gute Kenntnisse in Python & Machine Learning, sowie SQL-Kenntnisse
    • Erfahrung mit agilen Methoden (Scrum, Kanban, SAFe)