NVIDIA DGX A100: debutová platforma založená na ampéroch ponúka päť petaflopov výkonu

Systém DGX A100, na základe ktorého nedávno Jen-Hsun Huang vytiahol z rúry, obsahuje osem GPU A100, šesť prepínačov NVLink 3.0, deväť sieťových radičov Mellanox, dva procesory AMD EPYC Rome generácie so 64 jadrami, 1 TB RAM a 15 TB SSD s podporou NVMe.

NVIDIA DGX A100: debutová platforma založená na ampéroch ponúka päť petaflopov výkonu

NVIDIA DGX A100 je treťou generáciou výpočtových systémov spoločnosti, určených predovšetkým na riešenie problémov umelej inteligencie. Teraz sú takéto systémy postavené na najnovších grafických procesoroch A100 z rodiny Ampere, čo spôsobuje prudký nárast ich výkonu, ktorý dosiahol 5 petaflopov. Vďaka tomu je DGX A100 schopný zvládnuť oveľa zložitejšie modely AI a oveľa väčšie objemy dát.

Pri systéme DGX A100 NVIDIA uvádza len celkové množstvo pamäte HBM2, ktoré dosahuje 320 GB. Jednoduché aritmetické výpočty nám umožňujú určiť, že každý GPU má 40 GB pamäte a obrázky nového produktu jasne ukazujú, že tento objem je rozdelený medzi šesť zásobníkov. Spomína sa aj šírka pásma grafickej pamäte – 12,4 TB/s pre celý systém DGX A100 celkovo.

Ak vezmeme do úvahy, že systém DGX-1, založený na ôsmich Tesla V100, produkoval jeden petaflop vo výpočtoch so zmiešanou presnosťou a DGX A100 má výkon pri piatich petaflopoch, môžeme predpokladať, že v špecifických výpočtoch je jeden Ampér GPU päťkrát rýchlejší ako svojho predchodcu s architektúrou Volta. V niektorých prípadoch sa výhoda stáva dvadsaťnásobnou.

NVIDIA DGX A100: debutová platforma založená na ampéroch ponúka päť petaflopov výkonu

Celkovo systém DGX A8 poskytuje špičkový výkon 100 operácií za sekundu v celočíselných operáciách (INT1016), v operáciách s pohyblivou rádovou čiarkou s polovičnou presnosťou (FP16) - 5 petaflopov, pri operáciách s pohyblivou rádovou čiarkou s dvojitou presnosťou (FP64) - 156 teraflopov . Okrem toho DGX A32 dosahuje špičkový výkon 100 petaflops v TF2,5 tensor computing. Pripomeňme, že jeden teraflop je 1012 operácií s pohyblivou rádovou čiarkou za sekundu, jeden petaflops je 1015 operácií s pohyblivou rádovou čiarkou za sekundu.

Dôležitou vlastnosťou akcelerátorov NVIDIA A100 je možnosť rozdeliť zdroje jedného GPU do siedmich virtuálnych segmentov. To vám umožňuje výrazne zvýšiť flexibilitu konfigurácie v rovnakom cloudovom segmente. Napríklad jeden systém DGX A100 s ôsmimi fyzickými GPU môže fungovať ako 56 virtuálnych GPU. Technológia Multi-Instance GPU (MIG) vám umožňuje vybrať segmenty rôznych veľkostí medzi výpočtovými jadrami aj ako súčasť vyrovnávacej pamäte a pamäte HBM2 a nebudú si navzájom konkurovať o šírku pásma.

NVIDIA DGX A100: debutová platforma založená na ampéroch ponúka päť petaflopov výkonu

Stojí za zmienku, že v porovnaní s predchádzajúcimi systémami DGX prešla anatómia DGX A100 niekoľkými zmenami. Počet tepelných trubíc v radiátoroch modulov SXM3, na ktorých sú nainštalované grafické procesory A100 s pamäťou HBM2, sa v porovnaní s modulmi Tesla V100 generácie Volta výrazne zvýšil, hoci ich konce sú pre bežného človeka skryté. hornými krytmi. Praktický limit pre tento dizajn je 400 W tepelnej energie. Potvrdzujú to aj dnes zverejnené oficiálne charakteristiky A100 vo verzii SXM3.

Vedľa GPU A100 na základnej doske je šesť prepínačov rozhrania NVLink tretej generácie, ktoré spolu poskytujú obojsmernú výmenu dát rýchlosťou 4,8 TB/s. NVIDIA si dala poriadne záležať aj na ich chladení, súdiac podľa plnoprofilových radiátorov s heatpipe. Každému GPU je pridelených 12 kanálov rozhrania NVLink, susedné GPU si môžu vymieňať dáta rýchlosťou 600 GB/s.

Systém DGX A100 obsahuje aj deväť sieťových radičov Mellanox ConnectX-6 HDR, schopných prenášať informácie rýchlosťou až 200 Gbit/s. Celkovo DGX A100 poskytuje obojsmerný prenos dát rýchlosťou 3,6 TB/s. Systém využíva aj proprietárne technológie Mellanox zamerané na efektívne škálovanie výpočtových systémov s takouto architektúrou. Podporu PCI Express 4.0 na úrovni platformy určujú procesory AMD EPYC Rome generácie, vďaka čomu toto rozhranie využívajú nielen grafické akcelerátory A100, ale aj SSD s protokolom NVMe.

NVIDIA DGX A100: debutová platforma založená na ampéroch ponúka päť petaflopov výkonu

Okrem DGX A100 začala NVIDIA svojim partnerom dodávať dosky HGX A100, ktoré sú jednou z komponentov serverových systémov, ktoré si iní výrobcovia budú vyrábať sami. Jedna doska HGX A100 pojme štyri alebo osem GPU NVIDIA A100. Navyše, pre svoje potreby už NVIDIA zostavila DGX SuperPOD – zhluk 140 systémov DGX A100, ktorý poskytuje výkon pri 700 petaflopoch s pomerne skromnými celkovými rozmermi. Spoločnosť prisľúbila, že poskytne metodickú pomoc partnerom, ktorí chcú vybudovať podobné výpočtové klastre založené na DGX A100. Mimochodom, NVIDIA netrvalo dlhšie ako mesiac, kým postavila DGX SuperPOD namiesto niekoľkých mesiacov alebo dokonca rokov typických pre takéto úlohy.

NVIDIA DGX A100: debutová platforma založená na ampéroch ponúka päť petaflopov výkonu

Podľa NVIDIA sa dodávky DGX A100 už začali s cenou 199 000 $ za kópiu, partneri spoločnosti už tieto systémy hosťujú vo svojich cloudových klastroch, ekosystém už pokrýva 26 krajín vrátane Vietnamu a Spojených arabských emirátov. Grafické riešenia s architektúrou Ampere budú navyše celkom predvídateľne súčasťou superpočítačového systému Perlmutter, ktorý vytvoril Cray pre americké ministerstvo energetiky. Jeho súčasťou budú GPU NVIDIA Ampere popri centrálnych procesoroch AMD EPYC Milánskej generácie s architektúrou Zen 3. Superpočítačové uzly založené na NVIDIA Ampere sa k zákazníkovi dostanú v druhej polovici roka, aj keď prvé exempláre už dorazili do špecializovaného laboratória amerického oddelenie.



Zdroj: 3dnews.ru

Pridať komentár