DGX A100-systemet, hvis grundlag for nylig blev annonceret af Jen-Hsun Huang , inkluderer otte A100 GPU'er, seks NVLink 3.0-switche, ni Mellanox-netværkscontrollere, to AMD EPYC Rome-generations 64-core-processorer, 1 TB RAM og 15 TB NVMe-aktiverede SSD'er.

NVIDIA DGX A100 er virksomhedens tredje generation af computersystemer, der primært er designet til at løse problemer med kunstig intelligens. Nu er sådanne systemer bygget på de mest moderne A100-grafikprocessorer i Ampere-familien, hvilket forårsager en kraftig stigning i deres ydeevne, som har nået 5 petaflops. Dette gør det muligt for DGX A100 at håndtere langt mere komplekse AI-modeller og langt større datasæt.
For DGX A100-systemet angiver NVIDIA kun den samlede HBM2-hukommelseskapacitet, som er op til 320 GB. Enkle aritmetiske beregninger giver os mulighed for at bestemme, at hver grafikprocessor har 40 GB hukommelse, og billeder af det nye produkt giver os mulighed for tydeligt at bedømme, at denne mængde er fordelt mellem seks stakke. Grafikhukommelsesbåndbredden nævnes også - 12,4 TB/s for hele DGX A100-systemet i alt.
I betragtning af at det otte Tesla V1-baserede DGX-100-system leverede én petaflop i mixed-precision computing, og DGX A100 er klassificeret til fem petaflops, ser det ud til, at en enkelt Ampere GPU er fem gange hurtigere i specifikke beregninger end sin Volta-baserede forgænger. I nogle tilfælde bliver fordelen tyvedobbelt.

I alt leverer DGX A8-systemet en maksimal ydeevne på 100 heltalsoperationer pr. sekund (INT1016), 16 petaflops flydende komma-ydeevne med halv præcision (FP5) og 64 teraflops med dobbelt præcisionsydeevne (FP156). Derudover opnår DGX A32 en maksimal ydeevne på 100 petaflops i TF2,5 tensor computing. Lad os huske, at én teraflop er 1012 flydende-kommaoperationer per sekund, og én petaflop er 1015 flydende-kommaoperationer per sekund.
En vigtig funktion ved NVIDIA A100-acceleratorer er muligheden for at opdele ressourcerne fra én grafikprocessor i syv virtuelle segmenter. Dette giver mulighed for betydeligt øget konfigurationsfleksibilitet i det samme cloudsegment. For eksempel kan et enkelt DGX A100-system med otte fysiske GPU'er fungere som 56 virtuelle GPU'er. Multi-Instance GPU (MIG)-teknologi gør det muligt at allokere segmenter af forskellige størrelser både mellem computerkerner og i cachehukommelse og HBM2-hukommelse, uden at de konkurrerer med hinanden om båndbredde.

Det er værd at bemærke, at DGX A100's anatomi har gennemgået nogle ændringer i forhold til tidligere DGX-systemer. Antallet af varmeledninger i radiatorerne på SXM3-modulerne, hvorpå A100 GPU'erne med HBM2-hukommelse er installeret, er steget betydeligt sammenlignet med Tesla V100-modulerne fra Volta-generationen, selvom deres ender er skjult for den gennemsnitlige persons synsfelt af de øvre dæksler. Den praktiske grænse for et sådant design er 400 W termisk energi. Dette bekræftes også af de officielle specifikationer for A100 i SXM3-versionen, der blev offentliggjort i dag.
Udover A100 GPU'erne huser bundkortet seks tredjegenerations NVLink-interface-switche, som tilsammen leverer tovejs dataudveksling med en hastighed på 4,8 TB/s. NVIDIA har også taget sig seriøst af deres køling, at dømme efter de fuldprofilerede radiatorer med heatpipes. Hver GPU er tildelt 12 NVLink-interfacekanaler, og tilstødende GPU'er kan udveksle data med en hastighed på 600 GB/s.
DGX A100-systemet indeholder også ni Mellanox ConnectX-6 HDR-netværkscontrollere, der er i stand til at overføre information med hastigheder på op til 200 Gbps. I alt leverer DGX A100 tovejs dataoverførselshastigheder på 3,6 TB/s. Systemet bruger også Mellanox' proprietære teknologier, der sigter mod effektivt at skalere computersystemer med denne arkitektur. PCI Express 4.0-understøttelse på platformniveau er defineret af AMD EPYC Rome-generationsprocessorer, og som følge heraf bruges denne grænseflade ikke kun af A100-grafikacceleratorer, men også af solid-state-drev med NVMe-protokollen.

Ud over DGX A100 er NVIDIA begyndt at levere HGX A100-kort til sine partnere, som er en af komponenterne i serversystemer, som andre producenter vil producere uafhængigt. Et enkelt HGX A100-kort kan rumme enten fire eller otte NVIDIA A100 GPU'er. Derudover har NVIDIA allerede samlet en DGX SuperPOD til sine egne behov – en klynge af 140 DGX A100-systemer, der leverer en ydeevne på niveau med 700 petaflops i en forholdsvis beskeden størrelse. Virksomheden lovede at yde metodologisk bistand til partnere, der ønsker at bygge lignende computerklynger baseret på DGX A100. Forresten tog det NVIDIA ikke mere end en måned at bygge DGX SuperPOD, i stedet for de typiske flere måneder eller endda år for den slags opgaver.

Ifølge NVIDIA er DGX A100 allerede begyndt at blive leveret til en pris på $199 pr. enhed, virksomhedens partnere implementerer allerede disse systemer i deres cloudklynger, og økosystemet dækker allerede 000 lande, herunder Vietnam og UAE. Derudover vil grafikløsninger med Ampere-arkitekturen ganske forudsigeligt blive inkluderet i Perlmutter-supercomputersystemet, som Cray har skabt for det amerikanske energiministerium. Den vil have NVIDIA Ampere-grafikprocessorer sammen med AMD EPYC Milan-generationens centrale processorer med Zen 26-arkitektur. NVIDIA Ampere-baserede supercomputernoder vil nå kunden i andet halvår, selvom de første eksemplarer allerede er ankommet til det amerikanske agenturs specialiserede laboratorium.
Kilde: 3dnews.ru
