Die Instinct-GPU-Serie von AMD erfreut sich in der Computer- und KI-Community immer größerer Beliebtheit. Hier ist der Grund.

Es besteht kein Zweifel, dass NVIDIA mit seinen verschiedenen beliebten GPU-Serien weiterhin den Parallel-Computing-Bereich dominiert. Aber da AMDs Instinct AI-Beschleuniger zwei der neuesten und größten Supercomputer (Frontier und El Capitan) ausrüsten und der wachsenden Unterstützung der Community für ihre Open-Source-ROCm-Plattform hat NVIDIA möglicherweise seinen bisher größten Konkurrenten gefunden.

Was genau sind die Instinct AI-Beschleuniger von AMD? Was macht sie leistungsstark und wie schneiden sie im Vergleich zu den Tensor-GPUs von NVIDIA ab?

Was ist ein AMD Instinct-Prozessor?

Bei den Instinct-Prozessoren von AMD handelt es sich um Hardware der Enterprise-Klasse, die für High Performance Computing (HPC) und KI-beschleunigte Verarbeitung verwendet wird. Im Gegensatz zu herkömmlichen GPUs der Verbraucherklasse sind die Instinct-GPUs darauf spezialisiert, KI-Lernen und andere Hochleistungsaufgaben durch Software- und Hardware-Innovationen besser zu bewältigen.

instagram viewer

Die GPUs der Instinct-Serie von AMD wurden verwendet, um den ersten Supercomputer anzutreiben, der die Exascale-Grenze durchbrach und eine Leistung von 1,1 EFLOPs bei Operationen mit doppelter Genauigkeit pro Sekunde erzielte. Supercomputer mit Instinct-GPUs werden derzeit zur Erforschung von Krebsbehandlungen, nachhaltiger Energie und Klimawandel eingesetzt.

Wie Instinct-Prozessoren KI und HPC beschleunigen

Für die leistungsstärksten Mainstream-Server und Supercomputer der Welt Um eine Verarbeitung auf Exascale-Niveau zu erreichen, mussten die Instinct-Beschleuniger von AMD mit mehreren technologischen Upgrades und Innovationen ausgestattet werden.

Lassen Sie uns einige der neuen und aktualisierten Technologien besprechen, die auf AMD Instinct-GPUs verwendet werden.

1. DNA berechnen (CDNA)

Bildquelle: Pascal Liebart/AMDLibrary

Aktuelle AMD Instinct-Beschleuniger (beginnend mit dem MI100) nutzen die CDNA-Architektur des Unternehmens.

CDNA konzentriert sich hauptsächlich auf Funktionen wie Parallelverarbeitung, Speicherhierarchie und optimierte Rechenleistungen durch seine Matrix Core-Technologie. Sogar HPC und KI oder maschinelles Lernen, die auf einzelnen Servern laufen, können von CDNA unterstützt werden, ebenso wie riesige Exascale-Rechner.

Die Matrix Core-Technologie von AMD beschleunigt das KI-Lernen durch die Unterstützung von Operationen mit gemischter Präzision. Die Fähigkeit, mit unterschiedlicher Genauigkeit zu rechnen, ermöglicht es Instinct-GPUs, Matrixoperationen basierend auf dem erforderlichen Präzisionsgrad effizient zu berechnen.

Zu den beliebtesten Berechnungspräzisionsformaten gehören FP64, FP32, FP16, BF16 und INT8. FP steht für Floating Point, BF für Brain Floating Point und INT für Integer. Je höher die dem Format entsprechende Zahl ist, desto genauer ist die Berechnung. Der Betrieb mit 64-Bit wird als doppelte Genauigkeit bezeichnet. Bei 32-Bit ist es einfache Genauigkeit, bei 16-Bit ist es halbe Genauigkeit und so weiter.

Da ein großer Teil des Trainings von Deep-Learning-Modellen nicht viel Präzision erfordert, ist die Fähigkeit zur Matrixberechnung erforderlich Operationen mit halber oder sogar viertel Genauigkeit für die Inferenzierung reduzieren den Arbeitsaufwand erheblich und beschleunigen so die KI Lernen.

2. Speicher mit hoher Bandbreite (HBM)

Bildquelle: Jason De Vos/AMDLibrary

Jeder AMD Instinct AI-Beschleuniger verfügt über bis zu 880 Matrix-Kerne. Da die Matrix-Core-Prozessoren von AMD 383 TFLOPs halbgenauer Berechnungen durchführen können, ist ein ultraschneller Speicher erforderlich. Die neuesten Instinct-Angebote von AMD sind mit High Bandwidth Memory (HBM) anstelle des üblichen DDR4- oder DDR5-RAM ausgestattet.

Im Gegensatz zu herkömmlichem Speicher verwendet HBM eine sogenannte 3D-Stack-Architektur. Diese Art von Architektur bezieht sich auf einen Designansatz, bei dem DRAM-Chips vertikal übereinander gestapelt sind. Dadurch können die Matrizen sowohl auf der vertikalen als auch auf der horizontalen Achse gestapelt werden, daher der Begriff 3D-Stapelung.

Mit dieser 3D-Stacking-Technologie können HBMs über physische Speicherkapazitäten von bis zu einigen hundert Gigabyte pro Modul verfügen, während DRR5 nur bis zu mehreren zehn Gigabyte pro Modul leisten kann. Abgesehen von der Kapazität sind HBMs bekanntermaßen auch hinsichtlich der Übertragungsrate und der besseren Energieeffizienz leistungsfähiger als herkömmlicher DDR-Speicher.

3. Infinity-Stoff

Eine weitere Innovation der Instinct-GPUs ist die Infinity Fabric-Technologie von AMD. Infinity Fabric ist eine Art Verbindungssystem, das CPUs und GPUs auf intelligente dynamische Weise verbindet. Dadurch können Komponenten effizient miteinander kommunizieren.

Mit Infinity Fabric werden Komponenten nicht mehr über einen regulären Bus verbunden, sondern in einem vermaschten Netzwerk, in dem Bandbreiten bis zu mehreren hundert Gigabyte pro Sekunde möglich sind.

Abgesehen von der netzartigen Verbindung verwendet Infinity Fabric auch in jedem Chip eingebettete Sensoren zur dynamischen Steuerung Steuern Sie Frequenz, Datenübertragungsraten und andere adaptive Verhaltensweisen, optimieren Sie die Leistung und minimieren Sie sie Latenz.

4. ROCm-Entwicklungsplattform

NVIDIAs CUDA (Compute Unified Device Architecture) ist die am weitesten verbreitete Entwicklungsplattform für das Training von KI-Modellen. Das Problem mit CUDA ist, dass es nur mit NVIDIA-GPUs funktioniert. Dies ist einer der Hauptgründe, warum NVIDIA die überwältigende Mehrheit der Marktanteile bei HPC- und KI-GPU-Beschleunigern hält.

Da AMD einen größeren Anteil am HPC- und KI-Markt erobern wollte, musste das Unternehmen seine eigene Plattform ROCm (Radeon Open Compute) entwickeln. ROCm ist eine Open-Source-Softwareplattform, die den Einsatz von Instinct-GPUs als KI-Beschleuniger ermöglicht.

Obwohl ROCm nicht unbedingt Teil der Instinct-Hardware ist, ist es von grundlegender Bedeutung, wenn es um das Überleben der Instinct-GPU-Reihe geht. Mit ROCm, Entwicklern und Forscher erhalten die ROCm-Tools, den Compiler, Kernel-Treiber, eine ganze Reihe von Bibliotheken und Zugriff auf Frameworks wie TensorFlow und PyTorch, um damit zu entwickeln bevorzugt KI-Programmiersprache.

Wie schneiden Instinct AI-Beschleuniger im Vergleich zu Radeon GPU AI-Beschleunigern ab?

AMD bietet seine Instinct-Reihe von GPUs für Unternehmen und Radeon-GPUs für normale Verbraucher an. Wie bereits erwähnt, nutzt die Instinct GPU die CDNA-Architektur, HBM und die Infinity Fabric-Verbindung von AMD. Umgekehrt nutzt Radeon AMDs RDNA-Architektur, DDR6-Speicher und Infinity Cache.

Auch wenn sie weniger leistungsfähig sind, sind die KI-Beschleuniger der Radeon-Serie immer noch leistungsstark und verfügen über einen oder zwei KI-Beschleunigerkerne pro Recheneinheit. Das Neueste Radeon RX7900 XT-GPU verfügt über zwei KI-Beschleunigerkerne pro Recheneinheit, was 103 TFLOPs Spitzenberechnungen mit halber Präzision und 52 TFLOPs Spitzenberechnungen mit einfacher Genauigkeit ermöglicht.

Während sich die GPUs der Instinct-Serie besser für LLMs und HPC eignen, können Radeon-KI-Beschleuniger für die Feinabstimmung vorab trainierter Modelle, Inferenzen und grafikintensive Aufgaben verwendet werden.

AMD Instinct vs. NVIDIA Tensor

Laut a TrendForce-Umfrage, NVIDA hat einen Marktanteil von 80 % bei Server-GPUs, während AMD nur 20 % hat. Dieser überwältigende Erfolg von NVIDIA ist darauf zurückzuführen, dass es sich um ein Unternehmen handelt, das sich auf GPU-Design und -Montage spezialisiert hat. Dies ermöglicht es ihnen, GPUs mit deutlich höherer Leistung zu entwickeln, die bei anderen Angeboten ihresgleichen suchen.

Vergleichen wir den Instinct MI205X von AMD und den H100SXM5 von NVIDIA anhand der Spezifikationen von AMDs offizielle Website Und NVIDIAs eigenes Datenblatt:

GPU-Modell

FP64 (TFLOPs)

FP32 (TFLOPs)

FP16 (TFLOPs)

INT8 (TFLOPs)

AMD Instinct MI250X

30.0

60.0

1000

2000

NVIDIA H100SXMS

47.9

95.7

383.2

383

Wie Sie in der Tabelle sehen können, schneidet AMDs MI250X in Bezug auf doppelte und halbe Präzision besser ab Berechnungen, während NVIDIAs H100SXMS in Bezug auf die Matrix mit halber und viertel Genauigkeit weitaus besser ist Berechnungen. Dadurch eignet sich der MI250X von AMD besser für HPC, während der H100SXMS von NVIDIA über KI-Lernen und Inferenz verfügt.

Die Zukunft der Instinct-Prozessoren von AMD

Obwohl AMDs neuestes Angebot, der MI250X, für HPC konzipiert ist, ist der kommende MI300 stärker auf KI-Training ausgerichtet. Dieser KI-Beschleuniger soll eine APU sein, die GPU und CPU in einem Paket vereint. Dadurch kann der MI300 seine CNDA3 Unified Memory APU-Architektur nutzen, bei der GPU und CPU nur einen Speicher nutzen, was die Effizienz steigert und den Preis senkt.

Obwohl AMD heute nicht mit NVIDIA auf dem Markt für KI-Beschleuniger konkurrieren wird, sobald der MI300 und ROCm auf den Markt kommen Aufpoliert könnte die Instinct-Serie von AMD gerade gut genug sein, um einen erheblichen Teil des Marktes für KI-Beschleuniger zu erobern NVIDIA.