5.8 ล้าน IOPS: ทำไมมาก?

สวัสดีฮับ! ชุดข้อมูลสำหรับ Big Data และการเรียนรู้ของเครื่องมีการเติบโตแบบทวีคูณ และเราจำเป็นต้องตามให้ทัน โพสต์ของเราเกี่ยวกับอีกเทคโนโลยีที่เป็นนวัตกรรมในด้านการประมวลผลประสิทธิภาพสูง (HPC, High Performance Computing) ซึ่งจัดแสดงที่บูธของ Kingston ที่ ซูเปอร์คอมพิวเตอร์-2019. นี่คือการใช้ระบบจัดเก็บข้อมูล Hi-End (SDS) ในเซิร์ฟเวอร์ที่มีหน่วยประมวลผลกราฟิก (GPU) และเทคโนโลยีบัสจัดเก็บข้อมูล GPUDirect ด้วยการแลกเปลี่ยนข้อมูลโดยตรงระหว่างระบบจัดเก็บข้อมูลและ GPU โดยไม่ผ่าน CPU การโหลดข้อมูลลงในตัวเร่ง GPU จะถูกเร่งตามลำดับความสำคัญ ดังนั้นแอปพลิเคชัน Big Data จึงทำงานด้วยประสิทธิภาพสูงสุดที่ GPU มอบให้ ในทางกลับกัน นักพัฒนาระบบ HPC สนใจความก้าวหน้าในระบบจัดเก็บข้อมูลที่มีความเร็ว I/O สูงสุด เช่น ที่ผลิตโดย Kingston

5.8 ล้าน IOPS: ทำไมมาก?

ประสิทธิภาพของ GPU แซงหน้าการโหลดข้อมูล

นับตั้งแต่ CUDA ซึ่งเป็นสถาปัตยกรรมการประมวลผลแบบขนานทั้งฮาร์ดแวร์และซอฟต์แวร์ที่ใช้ GPU สำหรับการพัฒนาแอปพลิเคชันอเนกประสงค์ ถูกสร้างขึ้นในปี 2007 ความสามารถด้านฮาร์ดแวร์ของ GPU เองก็เติบโตขึ้นอย่างไม่น่าเชื่อ ปัจจุบัน GPU ถูกนำมาใช้มากขึ้นในแอปพลิเคชัน HPC เช่น Big Data, การเรียนรู้ของเครื่อง (ML) และการเรียนรู้เชิงลึก (DL)

โปรดทราบว่าแม้จะมีคำศัพท์ที่คล้ายคลึงกัน แต่สองคำสุดท้ายก็เป็นงานที่แตกต่างกันตามอัลกอริทึม ML ฝึกคอมพิวเตอร์ตามข้อมูลที่มีโครงสร้าง ในขณะที่ DL ฝึกคอมพิวเตอร์ตามผลตอบรับจากโครงข่ายประสาทเทียม ตัวอย่างที่จะช่วยให้เข้าใจความแตกต่างนั้นค่อนข้างง่าย สมมติว่าคอมพิวเตอร์ต้องแยกแยะระหว่างภาพถ่ายของแมวและสุนัขที่โหลดจากระบบจัดเก็บข้อมูล สำหรับ ML คุณควรส่งชุดรูปภาพที่มีแท็กจำนวนมาก ซึ่งแต่ละแท็กจะกำหนดคุณลักษณะเฉพาะประการหนึ่งของสัตว์ สำหรับ DL การอัปโหลดรูปภาพจำนวนมากขึ้นก็เพียงพอแล้ว แต่มีเพียงแท็กเดียว "นี่คือแมว" หรือ "นี่คือสุนัข" DL มีความคล้ายคลึงกับวิธีการสอนเด็กเล็กมาก - เป็นเพียงการแสดงรูปภาพสุนัขและแมวในหนังสือและในชีวิต (บ่อยที่สุดโดยไม่ต้องอธิบายความแตกต่างโดยละเอียดด้วยซ้ำ) และสมองของเด็กเองก็เริ่มกำหนดประเภทของสัตว์หลังจากนั้น รูปภาพจำนวนหนึ่งที่สำคัญสำหรับการเปรียบเทียบ ( ตามการประมาณการเรากำลังพูดถึงการแสดงเพียงร้อยหรือสองรายการตลอดช่วงวัยเด็ก) อัลกอริธึม DL ยังไม่สมบูรณ์แบบ: เพื่อให้โครงข่ายประสาทเทียมสามารถระบุรูปภาพได้สำเร็จ จำเป็นต้องป้อนและประมวลผลรูปภาพนับล้านลงใน GPU

สรุปคำนำ: คุณสามารถสร้างแอปพลิเคชัน HPC ในด้าน Big Data, ML และ DL ได้โดยใช้ GPU แต่มีปัญหาคือชุดข้อมูลมีขนาดใหญ่มากจนต้องใช้เวลาในการโหลดข้อมูลจากระบบจัดเก็บข้อมูลไปยัง GPU เริ่มลดประสิทธิภาพโดยรวมของแอปพลิเคชัน กล่าวอีกนัยหนึ่ง GPU ที่รวดเร็วยังคงมีการใช้งานน้อยเกินไปเนื่องจากข้อมูล I/O ที่ช้าที่มาจากระบบย่อยอื่น ความแตกต่างของความเร็ว I/O ของ GPU และบัสไปยัง CPU/ระบบจัดเก็บข้อมูลอาจเป็นลำดับความสำคัญได้

เทคโนโลยี GPUDirect Storage ทำงานอย่างไร

กระบวนการ I/O ถูกควบคุมโดย CPU เช่นเดียวกับกระบวนการโหลดข้อมูลจากที่จัดเก็บข้อมูลไปยัง GPU เพื่อการประมวลผลต่อไป สิ่งนี้นำไปสู่การร้องขอเทคโนโลยีที่จะให้การเข้าถึงโดยตรงระหว่าง GPU และไดรฟ์ NVMe เพื่อสื่อสารระหว่างกันอย่างรวดเร็ว NVIDIA เป็นเจ้าแรกที่นำเสนอเทคโนโลยีดังกล่าวและเรียกมันว่า GPUDirect Storage นี่เป็นรูปแบบหนึ่งของเทคโนโลยี GPUDirect RDMA (Remote Direct Memory Address) ที่พวกเขาพัฒนาขึ้นก่อนหน้านี้

5.8 ล้าน IOPS: ทำไมมาก?
Jensen Huang ซีอีโอของ NVIDIA จะนำเสนอ GPUDirect Storage ในรูปแบบหนึ่งของ GPUDirect RDMA ที่ SC-19 ที่มา: NVIDIA

ความแตกต่างระหว่าง GPUDirect RDMA และ GPUDirect Storage อยู่ที่อุปกรณ์ที่ใช้กำหนดที่อยู่ เทคโนโลยี GPUDirect RDMA ถูกนำมาใช้ใหม่เพื่อย้ายข้อมูลโดยตรงระหว่างการ์ดอินเทอร์เฟซเครือข่ายส่วนหน้า (NIC) และหน่วยความจำ GPU และ GPUDirect Storage ให้เส้นทางข้อมูลโดยตรงระหว่างที่เก็บข้อมูลในตัวเครื่องหรือระยะไกล เช่น NVMe หรือ NVMe over Fabric (NVMe-oF) และ หน่วยความจำจีพียู

ทั้ง GPUDirect RDMA และ GPUDirect Storage หลีกเลี่ยงการเคลื่อนย้ายข้อมูลที่ไม่จำเป็นผ่านบัฟเฟอร์ในหน่วยความจำ CPU และอนุญาตให้กลไกการเข้าถึงหน่วยความจำโดยตรง (DMA) ย้ายข้อมูลจากการ์ดเครือข่ายหรือที่เก็บข้อมูลไปยังหรือจากหน่วยความจำ GPU โดยตรง - ทั้งหมดนี้โดยไม่ต้องโหลดบน CPU กลาง สำหรับ GPUDirect Storage ตำแหน่งของพื้นที่จัดเก็บข้อมูลไม่สำคัญ อาจเป็นดิสก์ NVME ภายในยูนิต GPU ภายในแร็ค หรือเชื่อมต่อผ่านเครือข่ายในรูปแบบ NVMe-oF

5.8 ล้าน IOPS: ทำไมมาก?
แผนการทำงานของ GPUDirect Storage ที่มา: NVIDIA

ระบบจัดเก็บข้อมูลระดับ Hi-End บน NVMe เป็นที่ต้องการในตลาดแอปพลิเคชัน HPC

ด้วยตระหนักดีว่าการถือกำเนิดของ GPUDirect Storage จะทำให้ลูกค้ารายใหญ่สนใจที่จะนำเสนอระบบจัดเก็บข้อมูลที่มีความเร็ว I/O ที่สอดคล้องกับทรูพุตของ GPU ที่นิทรรศการ SC-19 KINGSTON ได้สาธิตระบบที่ประกอบด้วย ระบบจัดเก็บข้อมูลที่ใช้ดิสก์ NVMe และหน่วยที่มี GPU ซึ่งวิเคราะห์ภาพดาวเทียมนับพันภาพต่อวินาที เราได้เขียนเกี่ยวกับระบบจัดเก็บข้อมูลดังกล่าวโดยใช้ไดรฟ์ DC10M U.1000 NVMe 2 ตัวแล้ว ในรายงานจากนิทรรศการซูเปอร์คอมพิวเตอร์.

5.8 ล้าน IOPS: ทำไมมาก?
ระบบจัดเก็บข้อมูลที่ใช้ไดรฟ์ DC10M U.1000 NVMe จำนวน 2 ตัว ช่วยเสริมเซิร์ฟเวอร์ที่มีตัวเร่งกราฟิกได้อย่างเพียงพอ ที่มา: คิงส์ตัน

ระบบจัดเก็บข้อมูลนี้ได้รับการออกแบบให้เป็นยูนิตแร็คขนาด 1U ขึ้นไป และสามารถปรับขนาดได้โดยขึ้นอยู่กับจำนวนไดรฟ์ DC1000M U.2 NVMe โดยแต่ละตัวมีความจุ 3.84-7.68 TB DC1000M เป็น NVMe SSD รุ่นแรกในรูปแบบ U.2 ในกลุ่มผลิตภัณฑ์ไดรฟ์ศูนย์ข้อมูลของ Kingston มีระดับความทนทาน (DWPD, การเขียนไดรฟ์ต่อวัน) ทำให้สามารถเขียนข้อมูลใหม่จนเต็มความจุวันละครั้งเพื่อรับประกันอายุการใช้งานของไดรฟ์

ในการทดสอบ fio v3.13 บนระบบปฏิบัติการ Ubuntu 18.04.3 LTS, เคอร์เนล Linux 5.0.0-31-ทั่วไป ตัวอย่างพื้นที่จัดเก็บข้อมูลนิทรรศการแสดงความเร็วในการอ่าน (Sustained Read) ที่ 5.8 ล้าน IOPS พร้อมปริมาณงานที่ยั่งยืน (Sustained Bandwidth) ) 23.8 Gbit/s

Ariel Perez ผู้จัดการธุรกิจ SSD ของ Kingston กล่าวถึงระบบจัดเก็บข้อมูลใหม่ว่า "เราพร้อมที่จะติดตั้งเซิร์ฟเวอร์รุ่นต่อไปด้วยโซลูชัน U.2 NVMe SSD เพื่อขจัดปัญหาคอขวดในการถ่ายโอนข้อมูลจำนวนมากที่มักเกี่ยวข้องกับการจัดเก็บข้อมูล การผสมผสานระหว่างไดรฟ์ NVMe SSD และ Server Premier DRAM ระดับพรีเมียมทำให้ Kingston เป็นหนึ่งในผู้ให้บริการโซลูชันข้อมูลแบบ end-to-end ที่ครอบคลุมมากที่สุดในอุตสาหกรรม"

5.8 ล้าน IOPS: ทำไมมาก?
การทดสอบ gfio v3.13 แสดงปริมาณงาน 23.8 Gbps สำหรับระบบจัดเก็บข้อมูลสาธิตบนไดรฟ์ DC1000M U.2 NVMe ที่มา: คิงส์ตัน

ระบบทั่วไปสำหรับแอปพลิเคชัน HPC จะมีลักษณะอย่างไรเมื่อใช้ GPUDirect Storage หรือเทคโนโลยีที่คล้ายกัน นี่คือสถาปัตยกรรมที่มีการแยกหน่วยการทำงานทางกายภาพภายในแร็ค: หนึ่งหรือสองหน่วยสำหรับ RAM, อีกสองสามหน่วยสำหรับโหนดการประมวลผล GPU และ CPU และหนึ่งหรือหลายหน่วยสำหรับระบบจัดเก็บข้อมูล

ด้วยการประกาศ GPUDirect Storage และการเกิดขึ้นของเทคโนโลยีที่คล้ายกันจากผู้จำหน่าย GPU รายอื่นๆ ความต้องการระบบจัดเก็บข้อมูลของ Kingston ที่ออกแบบมาเพื่อใช้ในคอมพิวเตอร์ประสิทธิภาพสูงจึงเพิ่มมากขึ้น เครื่องหมายจะเป็นความเร็วในการอ่านข้อมูลจากระบบจัดเก็บข้อมูลซึ่งเทียบได้กับปริมาณงานของการ์ดเครือข่าย 40- หรือ 100-Gbit ที่ทางเข้าหน่วยประมวลผลด้วย GPU ดังนั้น ระบบจัดเก็บข้อมูลความเร็วสูงพิเศษ รวมถึง NVMe ภายนอกผ่าน Fabric จะเปลี่ยนจากสิ่งแปลกใหม่ไปสู่กระแสหลักสำหรับแอปพลิเคชัน HPC นอกเหนือจากการคำนวณทางวิทยาศาสตร์และการเงินแล้ว พวกเขายังจะพบการใช้งานในด้านการปฏิบัติอื่นๆ อีกมากมาย เช่น ระบบรักษาความปลอดภัยในระดับเมือง Safe City หรือศูนย์เฝ้าระวังการขนส่ง ซึ่งจำเป็นต้องมีความเร็วในการจดจำและระบุภาพ HD หลายล้านภาพต่อวินาที” ช่องทางการตลาดของระบบจัดเก็บข้อมูลชั้นนำ

สามารถดูข้อมูลเพิ่มเติมเกี่ยวกับผลิตภัณฑ์ของ Kingston ได้ที่ เว็บไซต์อย่างเป็นทางการ บริษัท

ที่มา: will.com

เพิ่มความคิดเห็น