Nutzung von GPUs

Verwendung von GPUs

In der ICC stehen eine limitierte Anzahl an GPUs (Tesla V100 und Testla V100s) zur Verfügung, deshalb sind Interessenten gebeten sich eigenständig an das ICC Team mittels MS-Teams oder per Mail zu wenden.

Generelle Voraussetzung ist, dass das Container-Image GPU-Unterstützung hat, dazu könnte es zum Beispiel auf den NVIDIA Cuda-Images basieren. Damit ein Container auf eine GPU zugreifen kann, muss zuerst eine 'toleration' gesetzt sein, damit der Container die Erlaubnis hat auf einen der GPU-Knoten zu laufen:

1
2
3
4
tolerations:
  - key: "gpu-tesla-v100"
    operator: "Exists"
    effect: "NoSchedule"

oder

1
2
3
4
tolerations:
  - key: "gpu-tesla-v100s"
    operator: "Exists"
    effect: "NoSchedule"

Nun muss nur noch ein resource-limit gesetzt werden, damit dem Container eine GPU zugeordnet wird (wichtig hierbei ist, dass man keine fraktale einer GPU anfragen kann und request == limit):

1
2
3
resources:
  limits:
    nvidia.com/gpu: 1

Leistungsdaten der GPUs

Tesla V100 Tesla V100s
Double-Precision Performance 7 TFLOPs 8,2 TFLOPs
Single-Precision Performance 14 TFLOPs 16.4 TFLOPs
Tensor Performance/Deep Learning 112 TFLOPs 130 TFLOPs
RAM 16 GB HBM2 32 HBM2
RAM Bandbreite 900 GB/s 1134 GB/s

Weiter Informationen zur Tesla V100 und Tesla V100S stehen auf der Seite von Nvidia zur Verfügung.