5.8 milióna IOPS: prečo toľko?

Ahoj Habr! Súbory údajov pre veľké údaje a strojové učenie exponenciálne rastú a musíme s nimi držať krok. Náš príspevok o ďalšej inovatívnej technológii v oblasti vysokovýkonných výpočtových systémov (HPC, High Performance Computing), prezentovaný v stánku Kingston na Superpočítač – 2019. Ide o použitie Hi-End dátových úložných systémov (SDS) v serveroch s grafickými procesorovými jednotkami (GPU) a technológiou zbernice GPUDirect Storage. Vďaka priamej výmene dát medzi úložným systémom a GPU, obchádzaním CPU, sa načítanie dát do GPU akcelerátorov zrýchli o rád, takže Big Data aplikácie bežia na maximálnom výkone, ktorý GPU poskytujú. Vývojári HPC systémov sa zasa zaujímajú o pokroky v úložných systémoch s najvyššími I/O rýchlosťami, aké vyrába Kingston.

5.8 milióna IOPS: prečo toľko?

Výkon GPU prevyšuje načítanie dát

Odkedy bola v roku 2007 vytvorená CUDA, hardvérová a softvérová paralelná výpočtová architektúra na vývoj všeobecných aplikácií založená na GPU, hardvérové ​​možnosti samotných GPU neuveriteľne vzrástli. V súčasnosti sa GPU čoraz častejšie používajú v aplikáciách HPC, ako sú Big Data, strojové učenie (ML) a hlboké učenie (DL).

Všimnite si, že napriek podobnosti pojmov sú posledné dve úlohy algoritmicky odlišné. ML trénuje počítač na základe štruktúrovaných údajov, zatiaľ čo DL trénuje počítač na základe spätnej väzby z neurónovej siete. Príklad, ktorý pomôže pochopiť rozdiely, je celkom jednoduchý. Predpokladajme, že počítač musí rozlišovať medzi fotografiami mačiek a psov, ktoré sú načítané z úložného systému. V prípade ML by ste mali odoslať súbor obrázkov s mnohými značkami, z ktorých každá definuje jednu konkrétnu vlastnosť zvieraťa. Pre DL stačí nahrať oveľa väčší počet obrázkov, ale len s jedným tagom „toto je mačka“ alebo „toto je pes“. DL je veľmi podobné tomu, ako sa učia malé deti - jednoducho sa im ukážu obrázky psov a mačiek v knihách a v živote (najčastejšie bez vysvetlenia detailného rozdielu) a samotný mozog dieťaťa začne určovať typ zvieraťa po určitý kritický počet obrázkov na porovnanie ( Podľa odhadov hovoríme len o stovke alebo dvoch predstaveniach v ranom detstve). Algoritmy DL ešte nie sú také dokonalé: na to, aby neurónová sieť úspešne fungovala aj na identifikácii obrázkov, je potrebné vložiť a spracovať milióny obrázkov do GPU.

Zhrnutie predslovu: na základe GPU môžete zostavovať HPC aplikácie v oblasti Big Data, ML a DL, ale je tu problém - súbory údajov sú také veľké, že čas strávený načítaním údajov z úložného systému do GPU začne znižovať celkový výkon aplikácie. Inými slovami, rýchle GPU zostávajú nedostatočne využívané kvôli pomalým I/O dátam prichádzajúcim z iných subsystémov. Rozdiel v rýchlosti I/O GPU a zbernice k systému CPU/úložiska môže byť rádovo veľký.

Ako funguje technológia GPUDirect Storage?

Proces I/O je riadený CPU, rovnako ako proces načítania údajov z úložiska do GPU na ďalšie spracovanie. To viedlo k požiadavke na technológiu, ktorá by poskytovala priamy prístup medzi GPU a jednotkami NVMe na rýchlu vzájomnú komunikáciu. NVIDIA bola prvá, ktorá ponúkla takúto technológiu a nazvala ju GPUDirect Storage. V skutočnosti ide o variáciu technológie GPUDirect RDMA (Remote Direct Memory Address), ktorú predtým vyvinuli.

5.8 milióna IOPS: prečo toľko?
Jensen Huang, generálny riaditeľ spoločnosti NVIDIA, predstaví na SC-19 GPUDirect Storage ako variant GPUDirect RDMA. Zdroj: NVIDIA

Rozdiel medzi GPUDirect RDMA a GPUDirect Storage je v zariadeniach, medzi ktorými sa vykonáva adresovanie. Technológia GPUDirect RDMA je prepracovaná tak, aby prenášala údaje priamo medzi prednou sieťovou kartou (NIC) a pamäťou GPU a GPUDirect Storage poskytuje priamu dátovú cestu medzi lokálnym alebo vzdialeným úložiskom, ako je NVMe alebo NVMe over Fabric (NVMe-oF) a Pamäť GPU.

GPUDirect RDMA aj GPUDirect Storage zabraňujú zbytočným presunom dát cez vyrovnávaciu pamäť v pamäti CPU a umožňujú mechanizmu priameho prístupu do pamäte (DMA) presúvať dáta zo sieťovej karty alebo úložiska priamo do alebo z pamäte GPU – to všetko bez zaťaženia centrálneho CPU. V prípade úložiska GPUDirect Storage nezáleží na umiestnení úložiska: môže to byť disk NVME v jednotke GPU, vnútri stojana alebo pripojený cez sieť ako NVMe-oF.

5.8 milióna IOPS: prečo toľko?
Schéma fungovania GPUDirect Storage. Zdroj: NVIDIA

Hi-End úložné systémy na NVMe sú žiadané na trhu aplikácií HPC

Uvedomujúc si, že s príchodom GPUDirect Storage bude záujem veľkých zákazníkov priťahovať ponúkanie úložných systémov s I/O rýchlosťami zodpovedajúcimi priepustnosti GPU, Kingston na výstave SC-19 ukázal ukážku systému pozostávajúceho z úložný systém založený na NVMe diskoch a jednotke s GPU, ktorá analyzovala tisíce satelitných snímok za sekundu. O takomto úložnom systéme založenom na 10 jednotkách DC1000M U.2 NVMe sme už písali v reportáži z výstavy superpočítačov.

5.8 milióna IOPS: prečo toľko?
Úložný systém založený na 10 jednotkách DC1000M U.2 NVMe primerane dopĺňa server s grafickými akcelerátormi. Zdroj: Kingston

Tento úložný systém je navrhnutý ako 1U alebo väčšia racková jednotka a môže byť škálovaný v závislosti od počtu DC1000M U.2 NVMe diskov, každý s kapacitou 3.84-7.68 TB. DC1000M je prvý model NVMe SSD vo formáte U.2 v rade diskov pre dátové centrá Kingston. Disponuje hodnotením odolnosti (DWPD, zápis na disk za deň), čo mu umožňuje prepisovať dáta na plnú kapacitu raz denne počas zaručenej životnosti disku.

V teste fio v3.13 na operačnom systéme Ubuntu 18.04.3 LTS, Linux kernel 5.0.0-31-generic, ukážka výstavného úložiska vykazovala rýchlosť čítania (Sustained Read) 5.8 milióna IOPS s udržateľnou priepustnosťou (Sustained Bandwidth ) 23.8 Gbit/s.

Ariel Perez, obchodný manažér SSD v spoločnosti Kingston, o nových úložných systémoch povedal: „Sme pripravení vybaviť ďalšiu generáciu serverov riešeniami U.2 NVMe SSD, aby sme odstránili mnohé prekážky prenosu dát, ktoré boli tradične spájané s úložiskom. Kombinácia diskov NVMe SSD a našej prémiovej Server Premier DRAM robí z Kingstonu jedného z najkomplexnejších poskytovateľov komplexných dátových riešení v odvetví.“

5.8 milióna IOPS: prečo toľko?
Test gfio v3.13 ukázal priepustnosť 23.8 Gbps pre demo úložný systém na jednotkách DC1000M U.2 NVMe. Zdroj: Kingston

Ako by vyzeral typický systém pre aplikácie HPC využívajúci úložisko GPUDirect alebo podobnú technológiu? Ide o architektúru s fyzickým oddelením funkčných jednotiek v rámci stojana: jedna alebo dve jednotky pre RAM, niekoľko ďalších pre výpočtové uzly GPU a CPU a jedna alebo viac jednotiek pre úložné systémy.

S ohlásením GPUDirect Storage a možným objavením sa podobných technológií od iných predajcov GPU sa dopyt Kingstonu po úložných systémoch navrhnutých na použitie vo vysokovýkonných výpočtových technikách rozširuje. Markerom bude rýchlosť čítania dát z úložného systému porovnateľná s priepustnosťou 40- či 100-Gbit sieťových kariet na vstupe do výpočtovej jednotky s GPU. Ultra-vysokorýchlostné úložné systémy, vrátane externého NVMe cez Fabric, teda prejdú z exotických na hlavný prúd pre HPC aplikácie. Okrem vedeckých a finančných výpočtov nájdu uplatnenie v mnohých ďalších praktických oblastiach, ako sú bezpečnostné systémy na metropolitnej úrovni Bezpečné mesto alebo centrá dohľadu nad dopravou, kde sa vyžaduje rýchlosť rozpoznávania a identifikácie miliónov HD obrázkov za sekundu,“ načrtol. medzera na trhu špičkového úložného systému

Viac informácií o produktoch Kingston nájdete na oficiálne internetové stránky spoločnosť.

Zdroj: hab.com

Pridať komentár