NVIDIA DGX A100: дэбютная платформа на базе Ampere прапанавала пяць петафлопс хуткадзейнасці

У склад сістэмы DGX A100, аснову якой Джэнсан Хуанг (Jen-Hsun Huang) на днях вымаў з духоўкі, Уваходзяць восем графічных працэсараў A100, шэсць камутатараў NVLink 3.0, дзевяць сеткавых кантролераў Mellanox, два працэсара AMD EPYC пакалення Rome з 64 ядрамі, 1 Тбайт аператыўнай памяці і 15 Тбайт цвёрдацельных назапашвальнікаў з падтрымкай NVM.

NVIDIA DGX A100: дэбютная платформа на базе Ampere прапанавала пяць петафлопс хуткадзейнасці

NVIDIA DGX A100 – гэта трэцяе пакаленне вылічальных сістэм кампаніі, прызначаных у першую чаргу для рашэння задач штучнага інтэлекту. Цяпер такія сістэмы будуюцца на самых сучасных графічных працэсарах A100 сямейства Ampere, што абумоўлівае рэзкі рост іх прадукцыйнасці, якая дасягнула 5 петафлопс. Дзякуючы гэтаму DGX A100 здольная забяспечыць працу са значна больш складанымі мадэлямі ІІ і са значна вялікімі аб'ёмамі дадзеных.

Для сістэмы DGX A100 кампанія NVIDIA паказвае толькі сукупны аб'ём памяці тыпу HBM2, які дасягае 320 Гбайт. Няхітрыя арыфметычныя вылічэнні дазваляюць вызначыць, што на кожны графічны працэсар прыходзіцца па 40 Гбайт памяці, а выявы навінкі дазваляюць адназначна судзіць, што гэты аб'ём размеркаваны паміж шасцю стэкамі. Згадваецца і прапускная здольнасць графічнай памяці – 12,4 Тбайт / с для ўсёй сістэмы DGX A100 у сукупнасці.

Калі ўлічыць, што сістэма DGX-1 на базе васьмі Tesla V100 выдавала адзін петафлопс у вылічэннях змешанай дакладнасці, а для DGX A100 заяўлена хуткадзейнасць на ўзроўні пяці петафлопс, можна выказаць здагадку, што ў спецыфічных вылічэннях адзін графічны працэсар Ampere у пяць разоў хутчэй свайго архітэктурай Volta. У асобных выпадках перавага становіцца дваццаціразовай.

NVIDIA DGX A100: дэбютная платформа на базе Ampere прапанавала пяць петафлопс хуткадзейнасці

У агульнай складанасці, у цэлалікавых аперацыях (INT8) сістэма DGX A100 забяспечвае пікавае хуткадзейнасць на ўзроўні 1016 аперацый у секунду, у аперацыях з якая плавае коскі палавіннай дакладнасці (FP16) - 5 петафлопс, у аперацыях падвойнай дакладнасці (FP64) - 156 терафлопс. Акрамя таго, у тэнзарных вылічэннях TF32 пікавая хуткадзейнасць DGX A100 дасягае 2,5 петафлопс. Нагадаем, адзін терафлопс - гэта 1012 аперацый з якая плавае коскі ў секунду, адзін петафлопс - 1015 аперацый з якая плавае коскі ў секунду.

Важнай асаблівасцю паскаральнікаў NVIDIA A100 з'яўляецца здольнасць падзяляць рэсурсы аднаго графічнага працэсара на сем віртуальных сегментаў. Гэта дазваляе значна павысіць гнуткасць канфігуравання ў тым жа хмарным сегменце. Напрыклад, адна сістэма DGX A100 з васьмю фізічнымі графічнымі працэсарамі можа выступаць у якасці 56 віртуальных графічных працэсараў. Тэхналогія Multi-Instance GPU (MIG) дазваляе вылучыць сегменты рознай велічыні як сярод вылічальных ядраў, так і ў складзе кэш-памяці і памяці тыпу HBM2, прычым яны не будуць супернічаць сябар з сябрам за прапускную здольнасць.

NVIDIA DGX A100: дэбютная платформа на базе Ampere прапанавала пяць петафлопс хуткадзейнасці

Варта заўважыць, што ў параўнанні з мінулымі сістэмамі DGX анатомія DGX A100 зведала некаторыя змены. Колькасць цеплавых трубак у радыятарах модуляў SXM3, на якія ўсталяваныя графічныя працэсары A100 з памяццю HBM2, значна павялічылася ў параўнанні з модулямі Tesla V100 пакалення Volta, хоць іх канцы і ўтоены ад погляду абывацеля верхнімі накладкамі. Практычная мяжа для такога канструктыўнага выканання - гэта 400 Вт цеплавой энергіі. Гэта ж пацвярджаецца і афіцыйнымі характарыстыкамі A100 у выкананні SXM3, апублікаванымі сёння.

Побач з графічнымі працэсарамі A100 на матчыным поплатку размясціліся шэсць камутатараў інтэрфейсу NVLink трэцяга пакалення, якія ў сукупнасці забяспечваюць двухбаковы абмен дадзенымі са хуткасцю 4,8 Тбайт/з. Аб іх астуджэнні NVIDIA таксама сур'ёзна паклапацілася, калі судзіць па паўнапрофільных радыятарах з цеплавымі трубкамі. На кожны графічны працэсар выдзелена па 12 каналаў інтэрфейсу NVLink, суседнія графічныя працэсары могуць абменьвацца дадзенымі са хуткасцю 600 Гбайт/з.

Сістэма DGX A100 размясціла і дзевяць сеткавых кантролераў Mellanox ConnectX-6 HDR, здольных перадаваць інфармацыю са хуткасцю да 200 Гбіт/з. У сукупнасці, DGX A100 забяспечвае двухбаковы абмен дадзенымі са хуткасцю 3,6 Тбайт/з. Сістэма таксама выкарыстоўвае фірмовыя тэхналогіі Mellanox, накіраваныя на эфектыўнае маштабаванне вылічальных сістэм з такой архітэктурай. Падтрымку PCI Express 4.0 на ўзроўні платформы вызначаюць працэсары AMD EPYC пакалення Rome, у выніку гэты інтэрфейс выкарыстоўваецца не толькі графічнымі паскаральнікамі A100, але і цвёрдацельнымі назапашвальнікамі з пратаколам NVMe.

NVIDIA DGX A100: дэбютная платформа на базе Ampere прапанавала пяць петафлопс хуткадзейнасці

Апроч DGX A100, кампанія NVIDIA пачала забяспечваць сваіх партнёраў поплаткамі HGX A100, якія з'яўляюцца адным з кампанентаў серверных сістэм, якія іншыя вытворцы будуць выпускаць самастойна. На адной плаце HGX A100 можа знаходзіцца альбо чатыры, альбо восем графічных працэсараў NVIDIA A100. Акрамя таго, для ўласных патрэб NVIDIA ужо сабрала DGX SuperPOD – кластар з 140 сістэм DGX A100, які забяспечвае хуткадзейнасць на ўзроўні 700 петафлопс пры досыць сціплых габарытных памерах. Кампанія паабяцала аказваць метадалагічную дапамогу партнёрам, якія жадаюць пабудаваць падобныя вылічальныя кластары на базе DGX A100. Дарэчы, на будаўніцтва DGX SuperPOD у NVIDIA сышло не больш за месяц замест тыповых для падобных задач некалькіх месяцаў ці нават гадоў.

NVIDIA DGX A100: дэбютная платформа на базе Ampere прапанавала пяць петафлопс хуткадзейнасці

Па словах NVIDIA, пастаўкі DGX A100 ужо пачаліся па кошце $199 000 за асобнік, партнёры кампаніі ўжо размяшчаюць гэтыя сістэмы ў сваіх хмарных кластарах, экасістэма ўжо ахоплівае 26 краін, сярод якіх згадваюцца В'етнам і ААЭ. Акрамя таго, графічныя рашэнні з архітэктурай Ampere суцэль прадказальна ўвойдуць у склад суперкампутарнай сістэмы Perlmutter, стваранай Cray па замове Міністэрства энергетыкі ЗША. У яе складзе графічныя працэсары NVIDIA Ampere будуць суседнічаць з цэнтральнымі працэсарамі AMD EPYC пакалення Milan з архітэктурай Zen 3. Вузлы суперкампутара на аснове NVIDIA Ampere дабяруцца да замоўца ў другім паўгоддзі, хоць першыя асобнікі ўжо паступілі ў профільную лабараторыю амерыканскага.



Крыніца: 3dnews.ru

Дадаць каментар