5.8 milionoj da IOPS: kial tiom?

Saluton Habr! Datumoj por Grandaj Datumoj kaj maŝinlernado kreskas eksponente kaj ni devas sekvi ilin. Nia afiŝo pri alia pionira teknologio en la kampo de alta rendimento komputiko (HPC, High Performance Computing), montrita ĉe la Kingston-budo ĉe Superkomputado-2019. Ĉi tio estas la uzo de Hi-End datumstokadosistemoj (SDS) en serviloj kun grafikaj pretigaj unuoj (GPU) kaj GPUDirect Storage busteknologio. Danke al rekta interŝanĝo de datumoj inter la stokadsistemo kaj la GPU, preterpasante la CPU, la ŝarĝo de datumoj en GPU-akceliloj estas akcelita per ordo de grandeco, do Big Data-aplikoj funkcias kun la maksimuma rendimento kiun GPU-oj provizas. Siavice, HPC-sistemprogramistoj interesiĝas pri progresoj en stokadsistemoj kun la plej altaj I/O-rapidecoj, kiel tiuj produktitaj de Kingston.

5.8 milionoj da IOPS: kial tiom?

GPU-efikeco superas datuman ŝarĝon

Ekde CUDA, GPU-bazita aparataro kaj programaro paralela komputika arkitekturo por evoluigado de ĝeneraluzeblaj aplikoj, estis kreita en 2007, la hardvarkapabloj de GPUoj mem kreskis nekredeble. Hodiaŭ, GPUoj estas ĉiam pli uzataj en HPC-aplikoj kiel Big Data, maŝinlernado (ML), kaj profunda lernado (DL).

Notu, ke malgraŭ la simileco de terminoj, la lastaj du estas algoritme malsamaj taskoj. ML trejnas la komputilon bazitan sur strukturitaj datenoj, dum DL trejnas la komputilon bazitan sur religo de neŭrala reto. Ekzemplo por helpi kompreni la diferencojn estas sufiĉe simpla. Ni supozu, ke la komputilo devas distingi inter fotoj de katoj kaj hundoj, kiuj estas ŝarĝitaj de la konserva sistemo. Por ML, vi devus sendi aron da bildoj kun multaj etikedoj, ĉiu el kiuj difinas unu apartan trajton de la besto. Por DL, sufiĉas alŝuti multe pli grandan nombron da bildoj, sed kun nur unu etikedo "ĉi tio estas kato" aŭ "ĉi tio estas hundo". DL estas tre simila al kiel oni instruas al junaj infanoj - oni simple montras al ili bildojn de hundoj kaj katoj en libroj kaj en la vivo (plej ofte, eĉ sen klarigi la detalan diferencon), kaj la cerbo de la infano mem komencas determini la specon de besto post kiam certa kritika nombro da bildoj por komparo (Laŭ taksoj, ni parolas pri nur cent aŭ du spektakloj dum frua infanaĝo). DL-algoritmoj ankoraŭ ne estas tiel perfektaj: por ke neŭrala reto ankaŭ sukcese laboru pri identigado de bildoj, necesas nutri kaj prilabori milionojn da bildoj en la GPU.

Resumo de la antaŭparolo: surbaze de GPU-oj, vi povas konstrui HPC-aplikojn en la kampo de Big Data, ML kaj DL, sed estas problemo - la datumaj aroj estas tiom grandaj, ke la tempo pasigita por ŝarĝi datumojn de la stokadsistemo al la GPU. komencas redukti la ĝeneralan rendimenton de la aplikaĵo. Alivorte, rapidaj GPUoj restas subutiligitaj pro malrapidaj I/O-datumoj venantaj de aliaj subsistemoj. La diferenco en I/O-rapideco de la GPU kaj la buso al la CPU/stoka sistemo povas esti grandordo.

Kiel funkcias GPUDirect Storage-teknologio?

La I/O-procezo estas kontrolita de la CPU, same kiel la procezo de ŝarĝado de datumoj de stokado al la GPUoj por plia prilaborado. Ĉi tio kondukis al peto pri teknologio, kiu disponigus rektan aliron inter GPUoj kaj NVMe-diskoj por rapide komuniki unu kun la alia. NVIDIA estis la unua se temas pri proponi tian teknologion kaj nomis ĝin GPUDirect Storage. Fakte, ĉi tio estas variaĵo de la teknologio GPUDirect RDMA (Remote Direct Memory Address), kiun ili antaŭe evoluigis.

5.8 milionoj da IOPS: kial tiom?
Jensen Huang, Ĉefoficisto de NVIDIA, prezentos GPUDirect Storage kiel varianton de GPUDirect RDMA ĉe SC-19. Fonto: NVIDIA

La diferenco inter GPUDirect RDMA kaj GPUDirect Stokado estas en la aparatoj inter kiuj traktado estas farita. GPUDirect RDMA-teknologio estas reuzita por movi datumojn rekte inter la antaŭa reto-interfackarto (NIC) kaj GPU-memoro, kaj GPUDirect Storage disponigas rektan datumvojon inter loka aŭ malproksima stokado kiel ekzemple NVMe aŭ NVMe super Fabric (NVMe-oF) kaj GPU-memoro.

Kaj GPUDirect RDMA kaj GPUDirect Storage evitas nenecesajn datummovojn tra bufro en CPU-memoro kaj permesas al la rekta memoraliro (DMA) mekanismo movi datumojn de la retkarto aŭ stokado rekte al aŭ de GPU-memoro - ĉio sen ŝarĝo sur la centra CPU. Por GPUDirect Storage, la loko de la stokado ne gravas: ĝi povas esti NVME-disko ene de GPU-unuo, ene de rako aŭ konektita tra la reto kiel NVMe-oF.

5.8 milionoj da IOPS: kial tiom?
Skemo de funkciado de GPUDirect Storage. Fonto: NVIDIA

Hi-End stokadsistemoj sur NVMe estas postulataj en la HPC-aplikmerkato

Rimarkante, ke kun la apero de GPUDirect Storage, la intereso de grandaj klientoj altiĝos al oferti stokadsistemojn kun I/O-rapidecoj respondaj al la trairo de la GPU, ĉe la SC-19-ekspozicio Kingston montris demonstraĵon de sistemo konsistanta el stoksistemo bazita sur NVMe-diskoj kaj unuo kun GPU, kiu analizis milojn da satelitbildoj je sekundo. Ni jam skribis pri tia konserva sistemo bazita sur 10 DC1000M U.2 NVMe-diskoj en raporto de la superkomputila ekspozicio.

5.8 milionoj da IOPS: kial tiom?
Stokadosistemo bazita sur 10 DC1000M U.2 NVMe-diskoj adekvate kompletigas servilon kun grafikaj akceliloj. Fonto: Kingston

Ĉi tiu stokada sistemo estas desegnita kiel 1U aŭ pli granda raka unuo kaj povas esti skalita laŭ la nombro da DC1000M U.2 NVMe-diskoj, ĉiu kun kapacito de 3.84-7.68 TB. La DC1000M estas la unua NVMe SSD-modelo en la formo U.2 en la vico de datumcentraj diskoj de Kingston. Ĝi havas elteneman takson (DWPD, Drive skribas tage), permesante al ĝi reverki datumojn al sia plena kapablo unufoje tage por la garantiita vivo de la stirado.

En la testo fio v3.13 sur la operaciumo Ubuntu 18.04.3 LTS, Linukso-kerno 5.0.0-31-genera, la ekspozicia stokado specimeno montris legan rapidon (Daŭrigata Legado) de 5.8 milionoj IOPS kun daŭrigebla trairo (Daŭrigata Bandwidth). ) de 23.8 Gbit/s.

Ariel Perez, SSD-komerca manaĝero ĉe Kingston, diris pri la novaj stokadsistemoj: "Ni estas pretaj ekipi la venontan generacion de serviloj per U.2 NVMe SSD-solvoj por forigi multajn el la datumtransigaj proplempunktoj, kiuj tradicie estis asociitaj kun stokado. La kombinaĵo de NVMe SSD-diskoj kaj nia altkvalita Server Premier DRAM igas Kingston unu el la plej ampleksaj fin-al-finaj datumsolvoj provizantoj de la industrio."

5.8 milionoj da IOPS: kial tiom?
La gfio v3.13-testo montris trairon de 23.8 Gbps por la demo-stokada sistemo sur DC1000M U.2 NVMe-diskoj. Fonto: Kingston

Kiel aspektus tipa sistemo por HPC-aplikoj uzante GPUDirect Storage aŭ similan teknologion? Ĉi tio estas arkitekturo kun fizika apartigo de funkciaj unuoj ene de rako: unu aŭ du ekzempleroj por RAM, pluraj pli por GPU kaj CPU-komputilnodoj, kaj unu aŭ pluraj unuoj por stokadsistemoj.

Kun la anonco de GPUDirect Stokado kaj la ebla apero de similaj teknologioj de aliaj GPU-vendistoj, la postulo de Kingston pri stokadsistemoj destinitaj por uzo en alt-efikeca komputado pligrandiĝas. La markilo estos la rapideco de legado de datumoj de la stokadsistemo, komparebla al la trairo de 40- aŭ 100-Gbit-retaj kartoj ĉe la enirejo al komputika unuo kun GPU. Tiel, ultrarapidaj stokadsistemoj, inkluzive de ekstera NVMe per Fabric, iros de ekzotikaj al la ĉefaj por HPC-aplikoj. Krom sciencaj kaj financaj kalkuloj, ili trovos aplikon en multaj aliaj praktikaj areoj, kiel sekurecaj sistemoj ĉe la metropolitena nivelo de Safe City aŭ transportaj gvatcentroj, kie necesas rekono kaj identiga rapideco de milionoj da HD-bildoj je sekundo ", skizis. la merkata niĉo de la supra Stokada sistemo

Pliaj informoj pri Kingston-produktoj troveblas ĉe oficiala retejo kompanio.

fonto: www.habr.com

Aldoni komenton