NVIDIA DGX A100: la piattaforma di debutto basata su Ampere offre cinque petaflop di prestazioni

Il sistema DGX A100, sul quale recentemente si è basato Jen-Hsun Huang l'ho tolto dal forno, include otto GPU A100, sei switch NVLink 3.0, nove controller di rete Mellanox, due processori AMD EPYC della generazione Rome con 64 core, 1 TB di RAM e 15 TB di SSD con supporto NVMe.

NVIDIA DGX A100: la piattaforma di debutto basata su Ampere offre cinque petaflop di prestazioni

NVIDIA DGX A100 è la terza generazione dei sistemi informatici dell'azienda, progettata principalmente per risolvere problemi di intelligenza artificiale. Ora tali sistemi sono basati sugli ultimi processori grafici A100 della famiglia Ampere, il che provoca un forte aumento delle loro prestazioni, che ha raggiunto i 5 petaflop. Grazie a ciò, il DGX A100 è in grado di gestire modelli AI molto più complessi e volumi di dati molto più grandi.

Per il sistema DGX A100, NVIDIA indica solo la quantità totale di memoria HBM2, che raggiunge i 320 GB. Semplici calcoli aritmetici ci permettono di determinare che ogni GPU ha 40 GB di memoria e le immagini del nuovo prodotto chiariscono che questo volume è distribuito su sei stack. Viene menzionata anche la larghezza di banda della memoria grafica: 12,4 TB / s per l'intero sistema DGX A100 in totale.

Considerando che il sistema DGX-1, basato su otto Tesla V100, ha prodotto un petaflop in calcoli a precisione mista, e che il DGX A100 dovrebbe funzionare a cinque petaflop, possiamo supporre che in calcoli specifici una GPU Ampere sia cinque volte più veloce di il suo predecessore con architettura Volta. In alcuni casi, il vantaggio diventa venti volte superiore.

NVIDIA DGX A100: la piattaforma di debutto basata su Ampere offre cinque petaflop di prestazioni

In totale, il sistema DGX A8 fornisce una prestazione di picco di 100 operazioni al secondo in operazioni con numeri interi (INT1016), in operazioni in virgola mobile a mezza precisione (FP16) - 5 petaflop, in operazioni in virgola mobile a doppia precisione (FP64) - 156 teraflop . Inoltre, il DGX A32 raggiunge una prestazione di picco di 100 petaflop nel calcolo tensore TF2,5. Ricordiamo che un teraflop equivale a 1012 operazioni in virgola mobile al secondo, un petaflop corrisponde a 1015 operazioni in virgola mobile al secondo.

Una caratteristica importante degli acceleratori NVIDIA A100 è la capacità di dividere le risorse di una GPU in sette segmenti virtuali. Ciò consente di aumentare significativamente la flessibilità di configurazione nello stesso segmento cloud. Ad esempio, un sistema DGX A100 con otto GPU fisiche può fungere da 56 GPU virtuali. La tecnologia MIG (Multi-Instance GPU) consente di selezionare segmenti di dimensioni diverse sia tra i core di elaborazione che come parte della memoria cache e della memoria HBM2 e non saranno in concorrenza tra loro per la larghezza di banda.

NVIDIA DGX A100: la piattaforma di debutto basata su Ampere offre cinque petaflop di prestazioni

Vale la pena notare che rispetto ai precedenti sistemi DGX, l'anatomia del DGX A100 ha subito alcune modifiche. Il numero di tubi di calore nei radiatori dei moduli SXM3, su cui sono installati i processori grafici A100 con memoria HBM2, è aumentato in modo significativo rispetto ai moduli Tesla V100 della generazione Volta, sebbene le loro estremità siano nascoste alla vista della persona media dalle coperture superiori. Il limite pratico per questo progetto è di 400 W di energia termica. Ciò è confermato anche dalle caratteristiche ufficiali dell'A100 nella versione SXM3, pubblicate oggi.

Accanto alle GPU A100 sulla scheda madre ci sono sei switch di interfaccia NVLink di terza generazione, che insieme forniscono uno scambio dati bidirezionale ad una velocità di 4,8 TB/s. NVIDIA si è presa molta cura anche del raffreddamento, a giudicare dai radiatori a profilo completo con tubi di calore. Ad ogni GPU sono assegnati 12 canali dell'interfaccia NVLink; le GPU vicine possono scambiare dati ad una velocità di 600 GB/s.

Il sistema DGX A100 ospita anche nove controller di rete Mellanox ConnectX-6 HDR, in grado di trasmettere informazioni a velocità fino a 200 Gbit/s. In totale, il DGX A100 fornisce un trasferimento dati bidirezionale ad una velocità di 3,6 TB/s. Il sistema utilizza anche tecnologie proprietarie Mellanox volte a scalare in modo efficiente i sistemi informatici con tale architettura. Il supporto PCI Express 4.0 a livello di piattaforma è determinato dai processori della generazione AMD EPYC Rome, di conseguenza questa interfaccia viene utilizzata non solo dagli acceleratori grafici A100, ma anche dalle unità a stato solido con protocollo NVMe.

NVIDIA DGX A100: la piattaforma di debutto basata su Ampere offre cinque petaflop di prestazioni

Oltre alla DGX A100, NVIDIA ha iniziato a fornire ai suoi partner le schede HGX A100, che sono uno dei componenti dei sistemi server che altri produttori produrranno in proprio. Una singola scheda HGX A100 può ospitare quattro o otto GPU NVIDIA A100. Inoltre, per le proprie esigenze, NVIDIA ha già assemblato DGX SuperPOD, un cluster di 140 sistemi DGX A100, che fornisce prestazioni a 700 petaflop con dimensioni complessive piuttosto modeste. L'azienda ha promesso di fornire assistenza metodologica ai partner che desiderano costruire cluster informatici simili basati sul DGX A100. A proposito, NVIDIA ha impiegato non più di un mese per costruire il DGX SuperPOD invece dei diversi mesi o addirittura anni tipici di tali compiti.

NVIDIA DGX A100: la piattaforma di debutto basata su Ampere offre cinque petaflop di prestazioni

Secondo NVIDIA, le consegne del DGX A100 sono già iniziate al prezzo di 199 dollari per copia, i partner dell'azienda stanno già ospitando questi sistemi nei loro cluster cloud, l'ecosistema copre già 000 paesi, tra cui Vietnam ed Emirati Arabi Uniti. Inoltre, le soluzioni grafiche con architettura Ampere faranno parte, in modo abbastanza prevedibile, del sistema di supercomputer Perlmutter, creato da Cray per il Dipartimento dell'Energia degli Stati Uniti. Comprenderà GPU NVIDIA Ampere accanto a processori centrali AMD EPYC generazione Milano con architettura Zen 26. I nodi di supercomputer basati su NVIDIA Ampere raggiungeranno il cliente nella seconda metà dell'anno, anche se i primi esemplari sono già arrivati ​​al laboratorio specializzato dell'azienda americana Dipartimento.



Fonte: 3dnews.ru

Aggiungi un commento