Senior Site Reliability Engineer (SRE) - Data Center

Berlin

Join a stealth-mode hyperscale data center start-up building an AI and cloud platform, powered by thousands of H100s, H200s, and B200s, ready to go for experimentation, full-scale model training, or inference. As a Senior Site Reliability Engineer, you’ll own the reliability, performance, and automation of this GPU-powered infrastructure, ensuring seamless orchestration across environments managed by Slurm, Kubernetes, or direct SSH access.

This is a rare opportunity to work at the intersection of hyperscale infrastructure and AI, shaping the operational backbone of one of the largest GPU clusters in private deployment.

If you want to build and operate infrastructure for frontier AI workloads, automate systems at petascale, and be part of a founding engineering team, this is the place to do it.

If you are interested in this incredible opportunity, get in touch today! You don't want to miss out!

Responsibilities:

  • Design, deploy, and maintain large-scale GPU clusters (H100/H200/B200) for training and inference workloads.
  • Build automation pipelines for provisioning, scaling, and monitoring compute resources across Slurm and Kubernetes environments.
  • Develop observability, alerting, and auto-healing systems for high-availability GPU workloads.
  • Collaborate with ML, networking, and platform teams to optimise resource scheduling, GPU utilisation, and data flow.
  • Implement infrastructure-as-code, CI/CD pipelines, and reliability standards across thousands of nodes.
  • Diagnose performance bottlenecks and drive continuous improvements in reliability, latency, and throughput.

Skills / Must Have:

  • 7+ years of experience in SRE, DevOps, or Infrastructure Engineering roles supporting large-scale compute environments.
  • Strong hands-on experience with Kubernetes and Slurm for cluster orchestration and workload management.
  • Deep knowledge of Linux systems, networking, and GPU infrastructure (NVIDIA H100/H200/B200 preferred).
  • Proficiency in Python, Go, or Bash for automation, tooling, and performance tuning.
  • Experience with observability stacks (Prometheus, Grafana, Loki) and incident response frameworks.
  • Familiarity with high-performance computing (HPC) or AI/ML training infrastructure at scale.
  • Background in reliability engineering, distributed systems, or hardware acceleration environments is a strong plus.

Benefits:

  • Equity

Salary:

  • €200,000 gross per year

Veröffentlicht am 2025-11-21

Empfohlene Jobs

Lohnbuchhalter m/w/d in Berlin Mitte

PerZukunft Arbeitsvermittlung GmbH&Co.KG
Berlin

Wir, PerZukunft, sind eine private Arbeitsvermittlung. Im Auftrag unseres Kunden aus Berlin suchen wir ab sofort einen erfahrenen Lohnbuchhalter m/w/d und SIE könnten genau DER oder DIE [richtige] se…

Details Anzeigen
Veröffentlicht am 2025-11-09

Editor für Performance Creatives

Dick Johnson GmbH
Berlin

Dick Johnson ist die Premium-Männerpflege-Brand mit Bold Humor und rasantem Wachstum. Wir suchen dich als Video Editor für Performance Creatives, damit unsere Ads auf TikTok, IG & Meta weiter durch d…

Details Anzeigen
Veröffentlicht am 2025-11-21

MES-Projektingenieur (m/w/d) - IT, Projektmanagement

Etteplan Deutschland GmbH
Berlin

Deine Aufgaben: Entwicklung und Implementierung von branchenspezifischen Lösungen im Produktionsumfeld Programmierung und Weiterentwicklung von Softwaremodulen für den Einsatz in Manufacturing …

Details Anzeigen
Veröffentlicht am 2025-11-04

Mitarbeiter Vertrieb Home Office (m/w/d) gesucht

RADAS Jobbörse & Personalvermittlung GmbH
Berlin

+++ DIREKTVERMITTLUNG in Festanstellung (keine Zeitarbeit) / Vermittlungsgutscheine (AVGS) werden akzeptiert +++ Bei Fragen einfach unverbindlich anrufen: 03048479484 oder einen Rückruf vereinbaren…

Details Anzeigen
Veröffentlicht am 2025-10-07

Lagerhelfer m/w/d - Supermarkt - 17,12 EUR

PerZukunft Arbeitsvermittlung GmbH&Co.KG
Berlin

Ein erfolgreicher Supermarkt aus dem Raum Berlin sucht Ihre Unterstützung als Lagerhelfer (m/w/d). Die Stelle ist in Vollzeit zu vergeben. Sie erhalten einen Stundenlohn von 12,82€. Zu Ihren täglich…

Details Anzeigen
Veröffentlicht am 2025-10-30

Berater Manufacturing - Supply Chain & Operations (w/m/d)

Ernst & Young
Berlin

Are you ready to shape your future with confidence? Gemeinsam die Welt jeden Tag ein bisschen besser machen. Für diesen Anspruch setzen wir bei EY alles in Bewegung und gehen als Team „all in“. Sch…

Details Anzeigen
Veröffentlicht am 2025-11-14

ZFA gesucht (m,w,d)

Zahnzentrum Opensmile
Berlin

Unsere freundliche und moderne Zahnarztpraxis sucht ab sofort eine motivierte Zahnmedizinische Fachangestellte (ZFA) (m/w/d) in Teil- oder Vollzeit zur Verstärkung unseres Teams. Ihre Aufgaben: …

Details Anzeigen
Veröffentlicht am 2025-09-08

CRM Manager (m/w/d)

Medical Hair Company GmbH
Berlin

Über uns Elithair ist ein führendes Unternehmen im Bereich moderner Haarchirurgie und ästhetischer Behandlungen. Mit einem internationalen Team aus erfahrenen Experten und einem starken Fokus auf I…

Details Anzeigen
Veröffentlicht am 2025-11-21

Head of Engineering (Remote - DE/UK/PT)

Cozero
Berlin

About us - Join our mission to fight climate change Do you want to be part of one of Europe's fastest-growing climate tech startups? We are looking for a Head of Engineering with a strong growth…

Details Anzeigen
Veröffentlicht am 2025-11-15

ITSM Migration Consultant

Berlin

ITSM Migration & Ticketing System Consultant (Siit → Assist) 3-Month Contract | 2-3 Days per Week | German Preferred | 5-10 Years Experience Darwin Recruitment is partnered with a leading organi…

Details Anzeigen
Veröffentlicht am 2025-11-21