NVIDIA DGX A100: Die erste Ampere-basierte Plattform bietet fünf Petaflops Leistung

Das DGX A100-System, auf dem Jen-Hsun Huang kürzlich basiert habe es aus dem Ofen genommen, umfasst acht A100-GPUs, sechs NVLink 3.0-Switches, neun Mellanox-Netzwerkcontroller, zwei AMD EPYC Rome-Generation-Prozessoren mit 64 Kernen, 1 TB RAM und 15 TB SSDs mit NVMe-Unterstützung.

NVIDIA DGX A100: Die erste Ampere-basierte Plattform bietet fünf Petaflops Leistung

NVIDIA DGX A100 ist die dritte Generation der Computersysteme des Unternehmens, die hauptsächlich zur Lösung von Problemen der künstlichen Intelligenz entwickelt wurden. Mittlerweile basieren solche Systeme auf den neuesten A100-Grafikprozessoren der Ampere-Familie, was zu einem starken Leistungsanstieg auf 5 Petaflops führt. Dadurch ist der DGX A100 in der Lage, wesentlich komplexere KI-Modelle und deutlich größere Datenmengen zu verarbeiten.

Für das DGX A100-System gibt NVIDIA nur die Gesamtmenge des HBM2-Speichers an, die 320 GB erreicht. Durch einfache arithmetische Berechnungen können wir feststellen, dass jede GPU über 40 GB Speicher verfügt, und Bilder des neuen Produkts machen deutlich, dass dieses Volumen auf sechs Stapel verteilt ist. Auch die Bandbreite des Grafikspeichers wird erwähnt – insgesamt 12,4 TB/s für das gesamte DGX A100-System.

Wenn man bedenkt, dass das DGX-1-System, das auf acht Tesla V100 basiert, in Berechnungen mit gemischter Genauigkeit einen Petaflop produzierte und der DGX A100 angeblich fünf Petaflops schafft, können wir davon ausgehen, dass in konkreten Berechnungen eine Ampere-GPU fünfmal schneller ist als sein Vorgänger mit Volta-Architektur. In manchen Fällen beträgt der Vorteil das Zwanzigfache.

NVIDIA DGX A100: Die erste Ampere-basierte Plattform bietet fünf Petaflops Leistung

Insgesamt bietet das DGX A8-System eine Spitzenleistung von 100 Operationen pro Sekunde bei Ganzzahloperationen (INT1016), bei Gleitkommaoperationen mit halber Genauigkeit (FP16) – 5 Petaflops, bei Gleitkommaoperationen mit doppelter Genauigkeit (FP64) – 156 Teraflops . Darüber hinaus erreicht der DGX A32 eine Spitzenleistung von 100 Petaflops beim TF2,5-Tensor-Computing. Erinnern wir uns daran, dass ein Teraflop 1012 Gleitkommaoperationen pro Sekunde entspricht, ein Petaflop 1015 Gleitkommaoperationen pro Sekunde.

Ein wichtiges Merkmal von NVIDIA A100-Beschleunigern ist die Möglichkeit, die Ressourcen einer GPU in sieben virtuelle Segmente aufzuteilen. Dadurch können Sie die Konfigurationsflexibilität im gleichen Cloud-Segment deutlich erhöhen. Beispielsweise kann ein DGX A100-System mit acht physischen GPUs als 56 virtuelle GPUs fungieren. Mit der Multi-Instance-GPU-Technologie (MIG) können Sie Segmente unterschiedlicher Größe sowohl zwischen den Rechenkernen als auch als Teil des Cache-Speichers und des HBM2-Speichers auswählen, ohne dass sie miteinander um Bandbreite konkurrieren.

NVIDIA DGX A100: Die erste Ampere-basierte Plattform bietet fünf Petaflops Leistung

Es ist erwähnenswert, dass die Anatomie des DGX A100 im Vergleich zu früheren DGX-Systemen einige Änderungen erfahren hat. Die Anzahl der Heatpipes in den Radiatoren der SXM3-Module, auf denen A100-Grafikprozessoren mit HBM2-Speicher verbaut sind, hat sich im Vergleich zu den Tesla V100-Modulen der Volta-Generation deutlich erhöht, obwohl ihre Enden dem Blick des Durchschnittsmenschen verborgen bleiben durch die oberen Abdeckungen. Die praktische Grenze für dieses Design liegt bei 400 W thermischer Energie. Dies wird auch durch die heute veröffentlichten offiziellen Merkmale des A100 in der SXM3-Version bestätigt.

Neben den A100-GPUs befinden sich auf dem Motherboard sechs NVLink-Schnittstellenschalter der dritten Generation, die zusammen einen bidirektionalen Datenaustausch mit einer Geschwindigkeit von 4,8 TB/s ermöglichen. Auch bei der Kühlung hat NVIDIA großen Wert darauf gelegt, wie die Full-Profile-Radiatoren mit Heatpipes belegen. Jeder GPU werden 12 Kanäle der NVLink-Schnittstelle zugewiesen; benachbarte GPUs können Daten mit einer Geschwindigkeit von 600 GB/s austauschen.

Das DGX A100-System beherbergt außerdem neun Mellanox ConnectX-6 HDR-Netzwerkcontroller, die Informationen mit Geschwindigkeiten von bis zu 200 Gbit/s übertragen können. Insgesamt bietet der DGX A100 eine bidirektionale Datenübertragung mit einer Geschwindigkeit von 3,6 TB/s. Das System nutzt auch proprietäre Mellanox-Technologien, die auf eine effiziente Skalierung von Computersystemen mit einer solchen Architektur abzielen. Die PCI Express 4.0-Unterstützung auf Plattformebene wird durch Prozessoren der AMD EPYC Rome-Generation bestimmt; daher wird diese Schnittstelle nicht nur von A100-Grafikbeschleunigern, sondern auch von Solid-State-Laufwerken mit dem NVMe-Protokoll verwendet.

NVIDIA DGX A100: Die erste Ampere-basierte Plattform bietet fünf Petaflops Leistung

Zusätzlich zum DGX A100 hat NVIDIA damit begonnen, seine Partner mit HGX A100-Boards zu beliefern, die zu den Komponenten von Serversystemen gehören, die andere Hersteller selbst produzieren. Ein einzelnes HGX A100-Board kann entweder vier oder acht NVIDIA A100-GPUs aufnehmen. Darüber hinaus hat NVIDIA für den Eigenbedarf bereits DGX SuperPOD zusammengestellt – einen Cluster aus 140 DGX A100-Systemen, der eine Leistung von 700 Petaflops bei recht bescheidenen Gesamtabmessungen bietet. Das Unternehmen versprach, Partnern, die ähnliche Computercluster auf Basis des DGX A100 aufbauen möchten, methodische Unterstützung zu leisten. Übrigens hat NVIDIA für die Entwicklung des DGX SuperPOD nicht mehr als einen Monat benötigt, statt mehrerer Monate oder sogar Jahre, die für solche Aufgaben typisch sind.

NVIDIA DGX A100: Die erste Ampere-basierte Plattform bietet fünf Petaflops Leistung

Laut NVIDIA hat die Auslieferung des DGX A100 zu einem Preis von 199 US-Dollar pro Exemplar bereits begonnen, die Partner des Unternehmens hosten diese Systeme bereits in ihren Cloud-Clustern, das Ökosystem umfasst bereits 000 Länder, darunter Vietnam und die Vereinigten Arabischen Emirate. Darüber hinaus werden Grafiklösungen mit Ampere-Architektur voraussichtlich Teil des Perlmutter-Supercomputersystems sein, das Cray für das US-Energieministerium entwickelt hat. Es wird aus NVIDIA Ampere-Grafikprozessoren sowie Zentralprozessoren der AMD EPYC Milan-Generation mit Zen 26-Architektur bestehen. Supercomputerknoten auf Basis von NVIDIA Ampere werden in der zweiten Jahreshälfte den Kunden erreichen, obwohl die ersten Exemplare bereits im Speziallabor von eingetroffen sind die amerikanische Abteilung.



Source: 3dnews.ru

Kommentar hinzufügen