Nvidia-GPUs haben große Fortschritte gemacht, nicht nur in Bezug auf die Spieleleistung, sondern auch in anderen Anwendungen, insbesondere bei künstlicher Intelligenz und maschinellem Lernen. Die beiden Hauptfaktoren, die für die GPU-Leistung von Nvidia verantwortlich sind, sind die CUDA- und Tensor-Kerne, die in nahezu jeder modernen Nvidia-GPU vorhanden sind, die Sie kaufen können.
Aber was genau machen diese Kerne und wenn sie beide in Anwendungen der künstlichen Intelligenz und des maschinellen Lernens verwendet werden, wie unterscheiden sie sich dann?
Was sind CUDA-Kerne und wofür werden sie verwendet?
CUDA steht für Compute Unified Device Architecture, was nicht viel dazu beiträgt, ihre Präsenz in einer GPU zu erklären. Diese Kerne wurden in der Maxwell-Architektur 2014 in die Nvidia-GPU-Reihe eingeführt und sind auf Parallelverarbeitung spezialisiert.
Von ihrer Funktionsweise her sind sie den CPU-Kernen recht ähnlich, können aber mit bestimmten besser umgehen Aufgaben, darunter kryptografische Hashes, Physik-Engines, datenwissenschaftliche Projekte und sogar Spiele Entwicklung.
Während wir bereits abgedeckt haben wie sich CUDA-Kerne auf die Spieleleistung Ihres PCs auswirken, sie sind genauso hilfreich bei der Berechnung von Zahlen. Während selbst die leistungsstärksten CPUs über Kerne im zweistelligen Bereich verfügen, sind Nvidia-GPUs mit mehreren tausend CUDA-Kernen ausgestattet, was sie bei numerischen Arbeitslasten deutlich schneller macht. Da diese Berechnungen außerdem parallel durchgeführt werden, erzielen Sie mit CUDA-Kernen viel schnellere Geschwindigkeiten.
CUDA-Kerne sind bei der Berechnung von Zahlen schneller als gewöhnliche CPU-Kerne, aber sie sind immer noch nicht die ideale Lösung. Das liegt daran, dass sie nie für diesen Zweck gedacht waren. CUDA-Kerne wurden speziell für die Grafikverarbeitung entwickelt und um Nvidia-GPUs leistungsfähiger für die Spieleleistung zu machen.
Was sind Tensorkerne und wofür werden sie verwendet?
Als GPUs zunehmend für Workloads im Bereich künstliche Intelligenz und maschinelles Lernen eingesetzt wurden, führte Nvidia ab 2017 Tensor-Kerne in der Volta-Architektur für seine Rechenzentrums-GPUs ein.
Es dauerte jedoch bis zur Nvidia Turing-Architektur (GPUs der RTX 20-Serie), bis diese Kerne auf Verbraucher-GPUs kamen. Erinnern dass die Karten der GTX 16-Serie zwar ebenfalls auf der Turing-Architektur basieren, aber weder Raytracing noch Tensor enthalten Kerne.
Während CUDA-Kerne bestenfalls für Rechenlasten ausreichend waren, legten Tensor-Kerne noch einen drauf, da sie deutlich schneller waren. Während CUDA-Kerne nur eine Operation pro Taktzyklus ausführen können, können Tensor-Kerne mehrere Operationen verarbeiten, was ihnen einen unglaublichen Leistungsschub verleiht. Grundsätzlich erhöhen Tensorkerne lediglich die Geschwindigkeit der Matrixmultiplikation.
Diese Steigerung der Rechengeschwindigkeit geht jedoch zu Lasten der Genauigkeit, da CUDA-Kerne deutlich genauer sind. Wenn es jedoch um das Training von Modellen für maschinelles Lernen geht, sind Tensor-Kerne hinsichtlich der Rechengeschwindigkeit und der Gesamtkosten weitaus effektiver. Daher wird der Genauigkeitsverlust oft vernachlässigt.
Wie wirken sich Tensor- und CUDA-Kerne auf die GPU-Leistung aus?
Wie Sie wahrscheinlich inzwischen erraten haben, können CUDA- und Tensor-Kerne zwar die gleichen Arbeitslasten bewältigen, sie sind jedoch beide spezialisierte Kerne für Grafik-Rendering bzw. numerische Arbeitslasten.
Dies bedeutet, dass je nach Benutzer, an den eine bestimmte GPU gerichtet ist, diese über eine unterschiedliche Anzahl von Kernen verfügt. Betrachten wir beispielsweise die RTX 4090, Nvidias neueste und beste Gaming-GPU für Endverbraucher, erhalten Sie weitaus mehr CUDA-Kerne als Tensor-Kerne. Um genau zu sein: 16.384 CUDA-Kerne zu 512 Tensor-Kernen.
Im Vergleich dazu verfügt die Nvidia L40 GPU für Rechenzentren, die auf der gleichen Ada Lovelace-Architektur wie die RTX 4090 basiert, über 18.176 CUDA-Kerne und 568 Tensor-Kerne. Das scheint zwar kein so großer Unterschied zu sein, kann aber die Leistung dieser GPUs massiv beeinträchtigen.
In Bezug auf die theoretische Leistung verfügt der L40 über 90,52 TFlops FP16- und FP32-Leistung sowie 1.414 GFlops FP64-Leistung. Dies ist eine enorme Leistungssteigerung im Vergleich zu den 82,58 TFlops FP16- und FP32-Leistung der RTX 4090 und 1.290 GFlops FP64-Leistung.
Wenn Sie sich nicht mit numerischen GPU-Leistungszahlen auskennen, sagen Ihnen die oben genannten Nvidia-GPU-Gleitkomma-Leistungszahlen möglicherweise nicht viel. Kurz gesagt zeigen sie jedoch, dass der L40 bei numerischen Berechnungen, die für auf künstlicher Intelligenz und maschinellem Lernen basierende Arbeitslasten erforderlich sind, viel schneller ist als der RTX 4090.
Umso beeindruckender wird die Leistungssteigerung, wenn man den Stromverbrauch der beiden GPUs berücksichtigt. Der RTX 4090 verfügt über eine TGP-Bewertung (Nicht zu verwechseln mit TDP, es gibt einen kleinen Unterschied) von 450 W, während der L40 nur für 300 W ausgelegt ist.
Beide GPUs führen Spiele aus und trainieren Ihr maschinelles Lernmodell einwandfrei. Allerdings wird die RTX 4090 besser beim Ausführen von Spielen sein und die L40 wird besser beim Trainieren von Modellen für maschinelles Lernen sein.
CUDA-Kerne vs. Tensorkerne: Was ist wichtiger?
Beide Kerne sind gleichermaßen wichtig, unabhängig davon, ob Sie Ihre GPU für Spiele kaufen oder sie in ein Rechenzentrums-Rack einbauen. Die verbraucherorientierten Gaming-GPUs von Nvidia nutzen eine Reihe von KI-Funktionen (vor allem DLSS), und die Verwendung von Tensor-Kernen an Bord kann praktisch sein.
Bei Rechenzentrums-GPUs arbeiten CUDA- und Tensor-Kerne ohnehin die meiste Zeit zusammen, sodass Sie unabhängig von der gewählten GPU beides erhalten. Anstatt sich auf einen bestimmten Kerntyp Ihrer GPU zu konzentrieren, sollten Sie sich mehr auf die Leistung der Grafikkarte als Ganzes und den Benutzertyp konzentrieren, für den sie gedacht ist.
CUDA-Kerne sind auf die Bewältigung grafischer Arbeitslasten spezialisiert, während Tensor-Kerne besser für numerische Arbeitslasten geeignet sind. Sie arbeiten zusammen und sind bis zu einem gewissen Grad austauschbar, verwalten aber ihre eigenen Spezialisierungen, weshalb es sie überhaupt gibt.
Verschiedene GPUs sind auf unterschiedliche Aspekte spezialisiert. Die RTX 4090 zerschmettert problemlos jedes Spiel, während die RTX 4060 nur 1080p-Gaming bewältigen kann. Wenn Sie Ihre GPU nicht zum Spielen verwenden und sie nur zum Berechnen von Zahlen oder zum Trainieren neuronaler Netze benötigen, ist eine Rechenzentrums-GPU der A-Serie wie die A100 oder sogar die L40 die beste Wahl.
Ihre GPU-Kerne sind wichtig
Mehr GPU-Kerne sorgen für eine bessere Gesamtleistung, da Ihre GPU vielseitiger ist und über dedizierte Ressourcen für die Bewältigung verschiedener Aufgaben verfügt. Allerdings ist es nicht die beste Entscheidung, sich blind für eine GPU mit der höchsten Anzahl an Kernen zu entscheiden. Nehmen Sie sich einen Moment Zeit, um Ihren Anwendungsfall sorgfältig zu prüfen, werfen Sie einen Blick auf die Fähigkeiten der GPU als Ganzes und treffen Sie dann Ihre Wahl.