5.8 मिलियन IOPS: किन यति धेरै?

नमस्ते Habr! बिग डाटा र मेशिन लर्निङका लागि डाटा सेटहरू तीव्र रूपमा बढ्दै गएका छन् र हामीले तिनीहरूसँग रहन आवश्यक छ। उच्च प्रदर्शन कम्प्युटिङ (एचपीसी, उच्च प्रदर्शन कम्प्युटिङ) को क्षेत्रमा अर्को अभिनव प्रविधिको बारेमा हाम्रो पोस्ट, किंग्स्टन बुथमा देखाइएको छ। सुपरकम्प्युटिङ-२०१९। यो ग्राफिक प्रशोधन एकाइहरू (GPU) र GPUDirect भण्डारण बस प्रविधिको साथ सर्भरहरूमा हाई-एन्ड डाटा भण्डारण प्रणाली (SDS) को प्रयोग हो। भण्डारण प्रणाली र GPU बीच प्रत्यक्ष डेटा आदानप्रदानको लागि धन्यवाद, CPU लाई बाइपास गरेर, GPU एक्सेलेटरहरूमा डेटा लोड गर्ने म्याग्निच्युडको अर्डरद्वारा द्रुत हुन्छ, त्यसैले बिग डाटा अनुप्रयोगहरू GPU हरूले प्रदान गर्ने अधिकतम कार्यसम्पादनमा चल्छन्। बारीमा, HPC प्रणाली विकासकर्ताहरू उच्चतम I/O गतिको साथ भण्डारण प्रणालीहरूमा प्रगतिमा रुचि राख्छन्, जस्तै कि किंग्स्टनद्वारा उत्पादित।

5.8 मिलियन IOPS: किन यति धेरै?

GPU कार्यसम्पादन डेटा लोडिङलाई आउटस्पेस गर्छ

CUDA, GPU-आधारित हार्डवेयर र सफ्टवेयर समानान्तर कम्प्युटिङ् वास्तुकला सामान्य-उद्देश्य अनुप्रयोगहरू विकास गर्नको लागि, 2007 मा सिर्जना गरिएको भएदेखि, GPU हरूको हार्डवेयर क्षमताहरू आफैंमा अविश्वसनीय रूपमा बढेको छ। आज, GPU हरू HPC अनुप्रयोगहरू जस्तै बिग डाटा, मेसिन लर्निङ (ML), र डीप लर्निङ (DL) मा प्रयोग भइरहेका छन्।

ध्यान दिनुहोस् कि सर्तहरूको समानताको बावजुद, अन्तिम दुई एल्गोरिदमिक रूपमा फरक कार्यहरू हुन्। ML ले कम्प्यूटरलाई संरचित डाटामा आधारित तालिम दिन्छ, जबकि DL ले कम्प्युटरलाई न्यूरल नेटवर्कबाट प्रतिक्रियाको आधारमा तालिम दिन्छ। भिन्नताहरू बुझ्न मद्दत गर्ने एउटा उदाहरण एकदम सरल छ। मानौं कि कम्प्युटरले भण्डारण प्रणालीबाट लोड गरिएका बिरालाहरू र कुकुरहरूको तस्बिरहरू बीच भेद गर्नुपर्छ। ML को लागि, तपाईंले धेरै ट्यागहरूसँग छविहरूको सेट पेश गर्नुपर्छ, जसमध्ये प्रत्येकले जनावरको एक विशेष विशेषतालाई परिभाषित गर्दछ। DL को लागि, यो धेरै ठूलो संख्यामा छविहरू अपलोड गर्न पर्याप्त छ, तर केवल एउटा ट्यागको साथ "यो बिरालो हो" वा "यो कुकुर हो"। DL साना बच्चाहरूलाई कसरी सिकाइन्छ जस्तै धेरै मिल्दोजुल्दो छ - उनीहरूलाई किताब र जीवनमा कुकुर र बिरालाहरूको चित्रहरू मात्र देखाइन्छ (धेरै जसो, विस्तृत भिन्नताको व्याख्या नगरी पनि), र बच्चाको मस्तिष्क आफैंले जनावरको प्रकार निर्धारण गर्न थाल्छ। तुलनाको लागि तस्विरहरूको एक निश्चित महत्वपूर्ण संख्या (अनुमान अनुसार, हामी प्रारम्भिक बचपन भर मात्र एक सय वा दुई शो बारेमा कुरा गर्दैछौं)। DL एल्गोरिदमहरू अझै पनि एकदम सही छैनन्: एक तंत्रिका नेटवर्कको लागि छविहरू पहिचान गर्न पनि सफलतापूर्वक काम गर्न, GPU मा लाखौं छविहरू फिड र प्रशोधन गर्न आवश्यक छ।

प्रस्तावनाको सारांश: GPU हरूमा आधारित, तपाईं बिग डाटा, ML र DL को क्षेत्रमा HPC अनुप्रयोगहरू निर्माण गर्न सक्नुहुन्छ, तर त्यहाँ एक समस्या छ - डाटा सेटहरू यति ठूलो छन् कि भण्डारण प्रणालीबाट GPU मा डाटा लोड गर्न समय खर्च भयो। अनुप्रयोगको समग्र प्रदर्शन कम गर्न थाल्छ। अर्को शब्दमा, अन्य सबसिस्टमहरूबाट आउने ढिलो I/O डाटाका कारण छिटो GPU हरू कम प्रयोगमा रहन्छन्। GPU को I/O गति र CPU/भण्डारण प्रणालीमा बसको भिन्नता म्याग्निच्युडको अर्डर हुन सक्छ।

GPUDirect भण्डारण प्रविधिले कसरी काम गर्छ?

I/O प्रक्रिया CPU द्वारा नियन्त्रित हुन्छ, जस्तै भण्डारणबाट GPU हरूमा थप प्रशोधनका लागि डाटा लोड गर्ने प्रक्रिया। यसले टेक्नोलोजीको लागि अनुरोधको नेतृत्व गर्‍यो जसले GPU र NVMe ड्राइभहरू बीच एक अर्कासँग द्रुत रूपमा सञ्चार गर्न सीधा पहुँच प्रदान गर्दछ। NVIDIA यस्तो प्रविधि प्रस्ताव गर्ने पहिलो थियो र यसलाई GPUDirect भण्डारण भनिन्छ। वास्तवमा, यो GPUDirect RDMA (रिमोट डाइरेक्ट मेमोरी ठेगाना) टेक्नोलोजीको भिन्नता हो जुन उनीहरूले पहिले विकसित गरेका थिए।

5.8 मिलियन IOPS: किन यति धेरै?
NVIDIA का सीईओ जेन्सेन हुआंगले SC-19 मा GPUDirect RDMA को एक संस्करणको रूपमा GPUDirect भण्डारण प्रस्तुत गर्नेछन्। स्रोत: NVIDIA

GPUDirect RDMA र GPUDirect भण्डारण बीचको भिन्नता ठेगानाहरू बीचको यन्त्रहरूमा छ। GPUDirect RDMA टेक्नोलोजीलाई फ्रन्ट-एन्ड नेटवर्क इन्टरफेस कार्ड (NIC) र GPU मेमोरी बीच सीधा डाटा सार्न पुन: प्रयोग गरिएको छ, र GPUDirect भण्डारणले स्थानीय वा रिमोट भण्डारण जस्तै NVMe वा NVMe ओभर फेब्रिक (NVMe-oF) र बीच सीधा डेटा मार्ग प्रदान गर्दछ। GPU मेमोरी।

दुबै GPUDirect RDMA र GPUDirect भण्डारणले CPU मेमोरीमा बफर मार्फत अनावश्यक डेटा आवागमनबाट बच्न र प्रत्यक्ष मेमोरी पहुँच (DMA) मेकानिजमलाई नेटवर्क कार्ड वा भण्डारणबाट सीधै GPU मेमोरीमा वा बाट डाटा सार्न अनुमति दिन्छ - सबै केन्द्रीय CPU मा लोड बिना। GPUDirect भण्डारणको लागि, भण्डारणको स्थानले फरक पार्दैन: यो GPU इकाई भित्र, र्याक भित्र, वा NVMe-oF को रूपमा नेटवर्कमा जडान भएको NVME डिस्क हुन सक्छ।

5.8 मिलियन IOPS: किन यति धेरै?
GPUDirect भण्डारणको सञ्चालनको योजना। स्रोत: NVIDIA

NVMe मा हाई-एन्ड भण्डारण प्रणालीहरू HPC अनुप्रयोग बजारमा मागमा छन्

GPUDirect Storage को आगमन संग, GPU को थ्रुपुट संग सम्बन्धित I/O गति संग भण्डारण प्रणाली प्रस्ताव गर्न ठूला ग्राहकहरु को चासो आकर्षित हुनेछ भन्ने महसुस गर्दै, SC-19 प्रदर्शनीमा किङ्स्टनले एक प्रणालीको डेमो देखाएको थियो। NVMe डिस्कहरूमा आधारित भण्डारण प्रणाली र GPU भएको एकाइ, जसले प्रति सेकेन्ड हजारौं उपग्रह छविहरूको विश्लेषण गर्दछ। हामीले 10 DC1000M U.2 NVMe ड्राइभहरूमा आधारित यस्तो भण्डारण प्रणालीको बारेमा पहिले नै लेखेका छौं। सुपर कम्प्यूटर प्रदर्शनी को एक रिपोर्ट मा.

5.8 मिलियन IOPS: किन यति धेरै?
10 DC1000M U.2 NVMe ड्राइभमा आधारित भण्डारण प्रणालीले ग्राफिक्स एक्सेलेटरहरूसँग सर्भरलाई पर्याप्त रूपमा पूरक बनाउँछ। स्रोत: किंग्स्टन

यो भण्डारण प्रणाली 1U वा ठूलो र्याक एकाइको रूपमा डिजाइन गरिएको छ र DC1000M U.2 NVMe ड्राइभहरूको संख्याको आधारमा मापन गर्न सकिन्छ, प्रत्येकको क्षमता 3.84-7.68 TB। DC1000M किंग्स्टनको डाटा सेन्टर ड्राइभको लाइनमा U.2 फारम कारकमा पहिलो NVMe SSD मोडेल हो। यसको एक सहनशीलता मूल्याङ्कन छ (DWPD, ड्राइभले प्रति दिन लेख्छ), यसले ड्राइभको ग्यारेन्टी जीवनको लागि दिनको एक पटक यसको पूर्ण क्षमतामा डेटा पुन: लेख्न अनुमति दिन्छ।

Ubuntu 3.13 LTS अपरेटिङ सिस्टम, Linux kernel 18.04.3-5.0.0-generic मा fio v31 परीक्षणमा, प्रदर्शनी भण्डारण नमूनाले दिगो थ्रुपुट (सस्टेन्ड ब्यान्डविथ) को साथ 5.8 मिलियन IOPS को पढ्ने गति (सस्टेन्ड रिड) देखाएको छ। 23.8 Gbit/s को।

एरियल पेरेज, किङ्स्टनमा SSD व्यवसाय प्रबन्धक, नयाँ भण्डारण प्रणालीहरूको बारेमा भन्नुभयो: "हामी U.2 NVMe SSD समाधानहरूको साथ सर्भरहरूको अर्को पुस्तालाई सुसज्जित गर्न तयार छौं जुन धेरै डेटा स्थानान्तरण अवरोधहरू हटाउनका लागि परम्परागत रूपमा भण्डारणसँग सम्बन्धित छ। NVMe SSD ड्राइभ र हाम्रो प्रिमियम सर्भर प्रिमियर DRAM को संयोजनले किङ्स्टनलाई उद्योगको सबैभन्दा व्यापक अन्त-देखि-अन्त डेटा समाधान प्रदायकहरू मध्ये एक बनाउँछ।"

5.8 मिलियन IOPS: किन यति धेरै?
gfio v3.13 परीक्षणले DC23.8M U.1000 NVMe ड्राइभहरूमा डेमो भण्डारण प्रणालीको लागि 2 Gbps को थ्रुपुट देखायो। स्रोत: किंग्स्टन

GPUDirect भण्डारण वा समान प्रविधि प्रयोग गरेर HPC अनुप्रयोगहरूको लागि सामान्य प्रणाली कस्तो देखिन्छ? यो र्याक भित्र कार्यात्मक एकाइहरूको भौतिक विभाजन भएको वास्तुकला हो: RAM को लागि एक वा दुई एकाइहरू, GPU र CPU कम्प्युटिङ नोडहरूका लागि धेरै, र भण्डारण प्रणालीहरूको लागि एक वा बढी एकाइहरू।

GPUDirect भण्डारणको घोषणा र अन्य GPU विक्रेताहरूबाट समान प्रविधिहरूको सम्भावित उदयको साथ, उच्च-सम्पादन कम्प्युटिङमा प्रयोगको लागि डिजाइन गरिएको भण्डारण प्रणालीहरूको लागि किङ्स्टनको माग विस्तार हुँदैछ। मार्कर भण्डारण प्रणालीबाट डाटा पढ्ने गति हुनेछ, GPU भएको कम्प्युटिङ एकाइको प्रवेशद्वारमा 40- वा 100-Gbit नेटवर्क कार्डहरूको थ्रुपुटसँग तुलना गर्न सकिन्छ। यसरी, अल्ट्रा-हाई-स्पीड भण्डारण प्रणालीहरू, फेब्रिक मार्फत बाह्य NVMe सहित, HPC अनुप्रयोगहरूका लागि विदेशीबाट मुख्यधारामा जान्छ। विज्ञान र वित्तीय गणनाको अतिरिक्त, तिनीहरूले धेरै अन्य व्यावहारिक क्षेत्रहरूमा आवेदन फेला पार्नेछन्, जस्तै सेफ सिटी महानगर स्तरमा सुरक्षा प्रणाली वा यातायात निगरानी केन्द्रहरू, जहाँ प्रति सेकेन्ड लाखौं HD छविहरूको पहिचान र पहिचान गति आवश्यक हुन्छ, "रूपरेखा। शीर्ष भण्डारण प्रणालीको बजार आला

Kingston उत्पादनहरु को बारे मा अधिक जानकारी मा पाउन सकिन्छ आधिकारिक वेबसाइट कम्पनी

स्रोत: www.habr.com

एक टिप्पणी थप्न