Senior Site Reliability Engineer (SRE) - Data Center

Berlin

Join a stealth-mode hyperscale data center start-up building an AI and cloud platform, powered by thousands of H100s, H200s, and B200s, ready to go for experimentation, full-scale model training, or inference. As a Senior Site Reliability Engineer, you’ll own the reliability, performance, and automation of this GPU-powered infrastructure, ensuring seamless orchestration across environments managed by Slurm, Kubernetes, or direct SSH access.

This is a rare opportunity to work at the intersection of hyperscale infrastructure and AI, shaping the operational backbone of one of the largest GPU clusters in private deployment.

If you want to build and operate infrastructure for frontier AI workloads, automate systems at petascale, and be part of a founding engineering team, this is the place to do it.

If you are interested in this incredible opportunity, get in touch today! You don't want to miss out!

Responsibilities:

Design, deploy, and maintain large-scale GPU clusters (H100/H200/B200) for training and inference workloads.
Build automation pipelines for provisioning, scaling, and monitoring compute resources across Slurm and Kubernetes environments.
Develop observability, alerting, and auto-healing systems for high-availability GPU workloads.
Collaborate with ML, networking, and platform teams to optimise resource scheduling, GPU utilisation, and data flow.
Implement infrastructure-as-code, CI/CD pipelines, and reliability standards across thousands of nodes.
Diagnose performance bottlenecks and drive continuous improvements in reliability, latency, and throughput.

Skills / Must Have:

7+ years of experience in SRE, DevOps, or Infrastructure Engineering roles supporting large-scale compute environments.
Strong hands-on experience with Kubernetes and Slurm for cluster orchestration and workload management.
Deep knowledge of Linux systems, networking, and GPU infrastructure (NVIDIA H100/H200/B200 preferred).
Proficiency in Python, Go, or Bash for automation, tooling, and performance tuning.
Experience with observability stacks (Prometheus, Grafana, Loki) and incident response frameworks.
Familiarity with high-performance computing (HPC) or AI/ML training infrastructure at scale.
Background in reliability engineering, distributed systems, or hardware acceleration environments is a strong plus.

Benefits:

Equity

Salary:

€200,000 gross per year

Veröffentlicht am 2025-11-21

Empfohlene Jobs

Partnermanager im Corporate Health (m/w/d) - Vollzeit

Wellnow Health GmbH

Berlin

Wer wir sind Wir sind Wellnow, ein etabliertes Corporate Health Unternehmen aus Berlin. Unsere Mission ist es, betriebliche Gesundheitsförderung einfach und für jeden zugänglich zu machen. In der …

Details Anzeigen

Veröffentlicht am 2025-11-21

Windows Systemadministrator (m/w/d) - Windows System Engineer

Berlin

Verwaltung und Konfiguration der gesamten IT-Systemlandschaft auf Basis von Windows (Server 2019, Client 10) sowie Betrieb der eingesetzten Microsoft-Lösungen (Active Directory, Exchange) Instal…

Details Anzeigen

Veröffentlicht am 2025-09-10

Straßenbauer (m/w/d)

Dalhoff GmbH Straßen- und Tiefbau

Berlin

Schnür Deine Stiefel, pack Deine Leidenschaft und werde Teil unserer Familie! Entdecke bei uns eine Karriere, die alles andere als eintönig ist. Seit 1997 schreiben wir mit harter Arbeit, geballtem F…

Details Anzeigen

Veröffentlicht am 2025-09-24

Pflegefachkraft (m/w/d) - Berlin-Lankwitz

Domicil - Seniorenpflegeheim Frobenstraße

Lankwitz, Steglitz-Zehlendorf

Pflegefachkraft (m/w/d) - Berlin-Lankwitz ~ Vollzeit oder Teilzeit ~ Frobenstraße 79, 12249 Berlin, Deutschland ~ Mit Berufserfahrung ~22.10.25 „Mitten im Leben“ sorgt die DOMICIL Unternehme…

Details Anzeigen

Veröffentlicht am 2025-11-08

Beikoch Eis-Cafe Berlin Mitte (m/w/d) *

PerZukunft Arbeitsvermittlung GmbH&Co.KG

Berlin

Aktuell suchen wir, das Team von perZukunft, einen Beikoch m/w/d für den Einsatz in einem Berliner Eiscafé. Sie verfügen über eine abgechlossene Berufsausbildung oder entsprechende Kenntnisse in der …

Details Anzeigen

Veröffentlicht am 2025-12-03

Köchin:Koch mit Teamverantwortung

Meet Me Halfway GmbH

Berlin

Auf einen Blick: Wir sind Meet Me Halfwa y, ein erfolgreiches Restaurant, Café & Deli, das seit bald vier Jahren besteht. Unser Konzept der modernen persischen Küche haben wir mit viel Liebe zum…

Details Anzeigen

Veröffentlicht am 2025-12-05

Erzieherin / Sozialpädagogin / Heilpädagogin (m/w/d) Vollzeit / Teilzeit

Kreativ-Kitas Berlin Süd gUG (haftungsbeschränkt)

Berlin

ERZIEHERIN / SOZIALPÄDAGOGIN / HEILPÄDAGOGIN (M/W/D) VOLLZEIT / TEILZEIT GESUCHT WERDEN ENERGIEGELADENE STARTHELFER FÜR KLEINE FLITZER Nach einem Tuning unserer Räumlichkeiten können wir in…

Details Anzeigen

Veröffentlicht am 2025-12-06

Sous-Chef/in - Gastronomie m/w/d

PerZukunft Arbeitsvermittlung GmbH&Co.KG

Berlin

Wir [sind] PerZukunft - Ihre private Arbeitsvermittlung. Seit nun schon 10 Jahren vermitteln wir mit großem Erfolg Arbeitnehmer an Arbeitgeber. Für die Vertretung des Küchenchefs m/w/d in einem Resta…

Details Anzeigen

Veröffentlicht am 2025-11-20

Flugzeugabfertiger / Check-In Mitarbeiter (m/w/d)

PerZukunft Arbeitsvermittlung GmbH&Co.KG

Berlin

Aktuell sind wir auf der Suche nach einem Ramp Agent m/w/d oder auch nach einem Flugzeugabfertiger m/w/d. Der Einsatzort ist der Flughafen Tegel. Es erwartet Sie eine Vollzeitstelle mit Schichtbereit…

Details Anzeigen

Veröffentlicht am 2025-11-21

Oberarzt (m/w/d) der Gefäßchirurgie

Docwise GmbH

Berlin

Wir sind für Sie da: DOCWISE berät und betreut Mediziner, die eine hohe Flexibilität und persönliche Freiheit schätzen und diese auch im Beruf aktiv verwirklichen möchten. Wir verstehen Ihren Wunsch …

Details Anzeigen

Veröffentlicht am 2025-12-05