Research Engineer (LLM Training and Performance)
Jobbeschreibung
Research Engineer (LLM Training and Performance)
Amsterdam, Netherlands; Belgrade, Serbia; Berlin, Germany; Limassol, Cyprus; London, United Kingdom; Madrid, Spain; Munich, Germany; Paphos, Cyprus; Prague, Czech Republic; Warsaw, Poland; Yerevan, Armenia
At JetBrains, code is our passion. Ever since we started back in 2000, we have been striving to make the strongest, most effective developer tools on earth. By automating routine checks and corrections, our tools speed up production, freeing developers to grow, discover, and create.
We’re looking for a Research Engineer who will own the training stack and model architecture for our Mellum LLM family. Your job is easier said than done: make training faster, cheaper, and more stable at a large scale. You’ll profile, design, and implement changes to the training pipeline – from architecture to custom GPU kernels, as needed.
As part of our team, you will:
- Be responsible for improving end-to-end performance for multi-node LLM pre-training and post-training pipelines.
- Profile hotspots (Nsight Systems/Compute, NVTX) and fix them using compute/comm overlap, kernel fusion, scheduling, etc.
- Design and evaluate architecture choices (depth/width, attention variants including GQA/MQA/MLA/Flash-style, RoPE scaling/NTK, and MoE routing and load-balancing).
- Implement custom ops (Triton and/or CUDA C++), integrate via PyTorch extensions, and upstream when possible.
- Push memory/perf levers: FSDP/ZeRO, activation checkpointing, FP8/TE, tensor/pipeline/sequence/expert parallelism, NCCL tuning.
- Harden large runs by building elastic and fault-tolerant training setups, ensuring robust checkpointing, strengthening reproducibility, and improving resilience to preemption.
- Keep the data path fast using streaming and sharded data loaders and tokenizer pipelines, as well as improve overall throughput and cache efficiency.
- Define the right metrics, build dashboards, and deliver steady improvements.
- Run both pre-training and post-training (including SFT, RLHF, and GRPO-style methods) efficiently across sizable clusters.
Voraussetzungen
We’ll be happy to bring you on board if you have:
- Strong PyTorch and PyTorch Distributed experience, having run multi-node jobs with tens to hundreds of GPUs.
- Hands-on experience with Megatron-LM/Megatron-Core/NeMo, DeepSpeed, or serious FSDP/ZeRO expertise.
- Real profiling expertise (Nsight Systems/Compute, nvprof) and experience with NVTX-instrumented workflows.
- GPU programming skills with Triton and/or CUDA, and the ability to write, test, and debug kernels.
- A solid understanding of NCCL collectives, as well as topology and fabric effects (IB/RoCE), and how they show up in traces.
Our ideal candidate would have experience with:
- FlashAttention-2 and 3, CUTLASS and CuTe, TransformerEngine and FP8, Inductor, AOTAutograd, and torch.compile.
- MoE at scale (expert parallel, router losses, capacity management) and long-context tricks (ALiBi/YaRN/NTK scaling).
- Kubernetes or SLURM at scale, placement and affinity tuning, as well as AWS, GCP, and Azure GPU fleets.
- Web-scale data plumbing (streaming datasets, Parquet and TFRecord, tokenizer perf), eval harnesses, and benchmarking.
- Safety and post-training methods, such as DPO, ORPO, GRPO, and reward models.
- Inference ecosystems such as vLLM and paged KV.
Wir bieten Ihnen
We are an equal opportunity employer
We know great ideas can come from anyone, anywhere. That’s why we do our best to create an open and inclusive workplace – one that welcomes everyone regardless of their background, identity, religion, age, accessibility needs, or orientation.
Empfohlene Jobs
Dreher (m/w/d) 18€/h in 2-Schicht
Das sind wir Wir sind ein inhabergeführter, mittelständischer Personaldienstleister mit mehr als 20 Jahren Markterfahrung. Über unser bundesweites Kundennetzwerk und unsere langjährigen Kontakte z…
Ergotherapeut*in (m/w/d) in Teilzeit (32 Std.)
Für unsere Kinder-und Jugendambulanz/SPZ suchen wir ab sofort eine/n Ergotherapeut*in (m/w/d) in Teilzeit (32 Std.) Aufgaben ergotherapeutische Diagnostik und Förderung von Kindern mit Entwicklungsbes…
Ausbildung Gleisbauer (w/m/d) 2026
Ausbildung zum Gleisbauer (m/w/d) Die Eiffage Infra-Rail GmbH betreut Baustellen im Großraum Berlin. Die Berufsschule befindet sich in Berlin und das Ausbildungszentrum in Oranienburg. Die theoretis…
Finanzbuchhalter (m/w/d)
Steuerberater Marco Malingriaux Mitten in Berlin und mit einem Team von acht motivierten Mitarbeitern machen wir Steuerberatung persönlich, kompetent und nahbar. Unsere Kanzlei steht für ein off…
IT-Spezialist Medientechnik (w/m/d)
Mit Deiner Expertise möchtest Du den IT Service von KPMG strategisch vorantreiben? Dann kannst Du Dich hier einbringen: Du analysierst und implementierst neue Medientechnologien zur kontinuierlich…
.NET Software Engineer
.NET Software Engineer - Global Fitness Movement - Berlin, Germany (Tech stack: .NET Software Engineer, .NET 10.0, ASP.NET Core, C# 14, .NET Aspire, CI/CD, Azure DevOps, EF Core 10.0, Agile, HTML Liv…
Fahrdienst für Senioren (m/w/d)
Wir als private Arbeitsvermittlung unterstützen unsere Bewerber*innen kostenlos bei der Suche nach einer passenden Arbeitsstelle. Wir vermitteln direkt an Arbeitgeber und sind keine Zeitarbeitsfirma.…
Krankenpfleger Fachweiterbildung - unbefristet - Notaufnahme - Friedenau (m/w/d)
Stell dir vor, du liest nur das Nötigste: Welche ZNA? Welcher Lohn? Welche Struktur? Genau das steht hier – klar und direkt. Vor dem ersten Einsatz klären wir gemeinsam, welche Spezialeinrichtungen z…
Techniker:in im Kanal- und Rohrleitungsbau (m/w/d) HPJB1_DE
Bei STRABAG bauen rund 86.000 Menschen an mehr als 2.400 Standorten weltweit am Fortschritt. Einzigartigkeit und individuelle Stärken kennzeichnen dabei nicht nur unsere Projekte, sondern auch jede:n …
Maler- und Trockenbauhelfer/in (m/w/d)
Für [den] Einsatz in der Montagekolonne sucht ein renommiertes Unternehmen aus Berlin einen Maler- und Trockenbauhelfer (m/w/d) in Vollzeit. Das Unternehmen hat bundesweit zahlreiche Kunden und ist s…