Kompetenztraining Hochleistungsrechnen: Batch-Job-Scheduling

RMU Event

Datum

21. April 2026, 09:00 Uhr – 15:00 Uhr

Ort

virtuell

Beschreibung

Die Ressourcen von HPC-Systemen werden von einem Job-Scheduler verwaltet. Daher ist es für die Arbeit mit HPC-Systemen von entscheidender Bedeutung, zu wissen, wie man das Scheduling-System richtig einsetzt. Dieser Kurs bietet eine Einführung in die Konzepte des Batch-Job-Schedulings und vermittelt Techniken, die das Einreichen und Verwalten mehrerer und voneinander abhängiger Jobs mithilfe der erweiterten Funktionen von Job-Schedulern erleichtern. Die Konzepte werden anhand des SLURM-Schedulers veranschaulicht, der in allen Universitätsclustern in Hessen verwendet wird.

In diesem Kurs lernen die Teilnehmenden Folgendes:

  • Erstellen von Job-Skripten: Job-Skripte definieren die Ressourcenanforderungen einer Berechnung, die Laufzeitumgebung und die auszuführende Software. Es gibt eine Vielzahl von Parametern, die eingestellt werden können, um die Prozessverteilung, die Speicher- und GPU-Zuweisung, die Ausgabe und die benutzerseitigen Benachrichtigungen genau zu konfigurieren. Da HPC-Berechnungen fast ausschließlich über Job-Skripte gestartet werden, sind diese Kenntnisse für die Arbeit auf einem Cluster unerlässlich.
     
  • Steuerung und Überwachung von Cluster-Jobs: Mit den von Slurm bereitgestellten Tools können Benutzer ihre aktuell laufenden Berechnungen übermitteln, aktualisieren, abbrechen und überwachen sowie Leistungsmetriken und andere Metadaten aus abgeschlossenen Jobs abrufen. Insbesondere bei der Durchführung großer Berechnungsprojekte ist die Verwendung dieser Tools von unschätzbarem Wert, um den Überblick über das Projekt zu behalten und Erkenntnisse für zukünftige Forschungsarbeiten zu gewinnen.
     
  • Modellierung mehrstufiger Workflows mit Job-Arrays und Abhängigkeiten: Häufig erfordert ein Projekt die Durchführung einer Vielzahl ähnlicher Berechnungen oder die Einrichtung einer Reihe von Berechnungen, die möglicherweise voneinander abhängig sind, oder beides. Wir untersuchen die Möglichkeiten, die die Job-Array- und Job-Abhängigkeitsfunktionen von Slurm bieten, und wie beide zur Automatisierung von HPC-Aufgaben genutzt werden können, um repetitive Arbeiten zu vermeiden.    

 

Zielgruppe: Anfänger*innen bis Fortgeschrittene

 

Sprache: Englisch                   

Rhine-Main Universities