AI Inference Engineer (all genders)

EX�XE�TA AG Mannheim

Beratung IT Berufserfahrung (Junior Level) Berufserfahrung Berufserfahrung (Senior Level)

, Mannheim
Auf Karte

Alle Jobs des Unternehmens

Weitere Orte

Taunusanlage 17, 60325 Frankfurt am Main · Karte

Victor-Gollancz-Stra�e 5, 76137 Karlsruhe · Karte

Stockholmer Platz 1, 70173 Stuttgart · Karte

Neumarkt 9-19, 04109 Leipzig · Karte

Standorte: Karlsruhe, Frankfurt am Main, Leipzig, Mannheim, Stuttgart

Als AI Inference Engineer baust du die technische Grundlage f�r produktive AI-Systeme in regulierten Umgebungen. Du entwickelst und betreibst LLM-Inferenzplattformen, die on-premises oder in privaten Cloud-Umgebungen laufen - sicher, skalierbar, beobachtbar und wirtschaftlich.

Du sorgst daf�r, dass moderne Modelle nicht nur in einer Demo �berzeugen, sondern unter realen Produktionsbedingungen zuverl�ssig funktionieren: mit sauberer GPU-Planung, niedriger Latenz, kontrollierten Kosten, belastbarem Monitoring und klar definierten Betriebsmodellen.

Was erwartet dich

Du konzipierst, entwickelst und betreibst produktive LLM-Inferenzplattformen f�r Kunden mit hohen Anforderungen an Datensouver�nit�t, Sicherheit und Betriebskontrolle - on-premises, in privaten Cloud-Umgebungen oder souver�nen europ�ischen Cloud-Setups.
Gemeinsam mit Cloud-, Plattform-, Security- und Data-Engineering-Teams sowie unseren Kunden �berf�hrst du AI-Use-Cases in den produktiven Betrieb.
Dabei integrierst du moderne Inferenz-Engines und Open-Weights-Modelle in Kubernetes-, Container- und Plattformumgebungen.
Au�erdem planst und optimierst du GPU- und Speicherressourcen sowie Inferenz-Workloads: Von Modellgr��en, Quantisierung und Batching bis hin zu KV-Cache-Strategien, Latenz, Durchsatz und Kosten.
Du verantwortest die Runtime produktiver AI-Systeme, inklusive Modellserving, APIs, Authentifizierung, Secrets, Observability, Logging
Aus Kundenprojekten entwickelst du wiederverwendbare Referenzarchitekturen, Deployment-Templates und Betriebs-Playbooks und st�rkst so unsere Applied-AI-Capability.

Was erwarten wir von dir

Pers�nlicher Background: Erfahrung in Platform Engineering, Cloud Infrastructure, MLOps, LLMOps, DevOps, Backend Engineering oder Machine Learning Engineering. Entscheidend ist deine Erfahrung im Aufbau und Betrieb produktiver Systeme und dein Antrieb zu schneller pers�nlicher Weiterentwicklung
Inference Engineering: Du verstehst die technischen und wirtschaftlichen Zusammenh�nge moderner LLM-Inferenz, von Model-Serving und GPU-Auslastung �ber Quantisierung, Batching und KV-Cache-Management bis hin zu Latenz, Durchsatz und Kosten.
Cloud & Plattformen: Docker, Kubernetes, Helm, Terraform, CI/CD, Linux sowie Observability geh�ren f�r dich zum Arbeitsalltag.
AI-Verst�ndnis:�Du kannst Transformer-basierte Modelle wie LLMs und Embeddings einordnen und fundierte technische Entscheidungen f�r produktive AI-Systeme treffen.
Security & Governance: Themen wie Identit�ten, Berechtigungen, Secrets, Logging, Auditierung und Compliance denkst du, insbesondere in regulierten Umgebungen, von Anfang an mit.
Kommunikation & Arbeitsweise: Du vermittelst komplexe technische Zusammenh�nge verst�ndlich, arbeitest pragmatisch und bewegst dich auch in dynamischen Projektumfeldern sicher.
Pluspunkt: Erfahrung mit vLLM, SGLang oder vergleichbaren Inference-Technologien, GPU-Clustern, souver�nen Cloud- oder Private-Cloud-Umgebungen.
On the road: Du bist reisebereit und flexibel, unsere Kunden bundesweit vor Ort zu beraten.� � � � �
Let's talk: Du sprichst flie�end Deutsch und Englisch - super, dann findest du dich bei Exxeta bestens zurecht

Warum Exxeta

Bei Exxeta entwickeln wir digitale L�sungen, die wirklich etwas ver�ndern - in Unternehmen, M�rkten und K�pfen. �ber 1200 Kolleg:innen bringen daf�r Technologie, Ideen und unterschiedliche Perspektiven zusammen. Was uns antreibt: Neugier, Teamspirit und der Anspruch, echten Impact zu schaffen. Hightech with a heartbeat eben.

Wir sind ein Zuhause f�r Menschen, die etwas bewegen wollen. Diversit�t und unterschiedliche Perspektiven bereichern unser Team. Haltung, Ideen und Lust aufs Machen - das z�hlt bei uns!

Bewirb dich jetzt!

Interesse geweckt?

Jetzt online bewerben

AI Inference Engineer (all genders)

Standorte: Karlsruhe, Frankfurt am Main, Leipzig, Mannheim, Stuttgart

Was erwartet dich

Was erwarten wir von dir

Warum Exxeta

Top Arbeitgeber

Beratung