Nutzung von GPUs

Verwendung von GPUs

In der ICC stehen eine limitierte Anzahl an GPUs (Tesla V100 und Testla V100s) zur Verfügung, deshalb sind Interessenten gebeten sich eigenständig an das ICC Team mittels MS-Teams oder per Mail zu wenden.

Generelle Voraussetzung ist, dass das Container-Image GPU-Unterstützung hat, dazu könnte es zum Beispiel auf den NVIDIA Cuda-Images basieren. Damit ein Container auf eine GPU zugreifen kann, muss zuerst eine 'toleration' gesetzt sein, damit der Container die Erlaubnis hat auf einen der GPU-Knoten zu laufen:

1
2
3
4


tolerations:
  - key: "gpu-tesla-v100"
    operator: "Exists"
    effect: "NoSchedule"

oder

1
2
3
4


tolerations:
  - key: "gpu-tesla-v100s"
    operator: "Exists"
    effect: "NoSchedule"

Nun muss nur noch ein resource-limit gesetzt werden, damit dem Container eine GPU zugeordnet wird (wichtig hierbei ist, dass man keine fraktale einer GPU anfragen kann und request == limit):

1
2
3


resources:
  limits:
    nvidia.com/gpu: 1

Leistungsdaten der GPUs

	Tesla V100	Tesla V100s
Double-Precision Performance	7 TFLOPs	8,2 TFLOPs
Single-Precision Performance	14 TFLOPs	16.4 TFLOPs
Tensor Performance/Deep Learning	112 TFLOPs	130 TFLOPs
RAM	16 GB HBM2	32 HBM2
RAM Bandbreite	900 GB/s	1134 GB/s

Weiter Informationen zur Tesla V100 und Tesla V100S stehen auf der Seite von Nvidia zur Verfügung.