แนวโน้มอุตสาหกรรมในระบบจัดเก็บข้อมูลขนาดใหญ่

วันนี้เราจะพูดถึงวิธีที่ดีที่สุดในการจัดเก็บข้อมูลในโลกที่เครือข่ายยุคที่ XNUMX เครื่องสแกนจีโนม และรถยนต์ไร้คนขับผลิตข้อมูลในหนึ่งวันได้มากกว่าที่มวลมนุษยชาติสร้างขึ้นก่อนการปฏิวัติอุตสาหกรรม

แนวโน้มอุตสาหกรรมในระบบจัดเก็บข้อมูลขนาดใหญ่

โลกของเราสร้างข้อมูลมากขึ้นเรื่อยๆ บางส่วนจะหายวับไปและสูญหายไปทันทีที่รวบรวมได้ อีกอันควรเก็บไว้นานกว่านี้ และอีกอันได้รับการออกแบบอย่างสมบูรณ์ "สำหรับศตวรรษ" - อย่างน้อยเราก็เห็นมันจากปัจจุบัน การไหลของข้อมูลจะตกลงในศูนย์ข้อมูลด้วยความเร็วที่วิธีการใหม่ ๆ เทคโนโลยีใด ๆ ที่ออกแบบมาเพื่อตอบสนอง "ความต้องการ" ที่ไม่มีที่สิ้นสุดนี้กำลังล้าสมัยอย่างรวดเร็ว

แนวโน้มอุตสาหกรรมในระบบจัดเก็บข้อมูลขนาดใหญ่

40 ปีของการพัฒนาสตอเรจแบบกระจาย

ที่เก็บข้อมูลเครือข่ายแรกในรูปแบบที่เราคุ้นเคยปรากฏขึ้นในทศวรรษที่ 1980 หลายท่านคงเคยเจอกับ NFS (Network File System), AFS (Andrew File System) หรือ Coda ทศวรรษต่อมา แฟชั่นและเทคโนโลยีได้เปลี่ยนไป และระบบไฟล์แบบกระจายได้เปิดทางให้กับระบบจัดเก็บข้อมูลคลัสเตอร์ตาม GPFS (General Parallel File System), CFS (Clustered File Systems) และ StorNext โดยพื้นฐานแล้วมีการใช้พื้นที่เก็บข้อมูลแบบบล็อกของสถาปัตยกรรมคลาสสิกซึ่งระบบไฟล์เดียวถูกสร้างขึ้นโดยใช้ซอฟต์แวร์เลเยอร์ โซลูชันเหล่านี้และโซลูชันที่คล้ายกันยังคงใช้อยู่ ครองตลาดเฉพาะกลุ่มและเป็นที่ต้องการค่อนข้างมาก

ในช่วงเปลี่ยนสหัสวรรษ กระบวนทัศน์การจัดเก็บข้อมูลแบบกระจายเปลี่ยนไปบ้าง และระบบที่มีสถาปัตยกรรม SN (Shared-Nothing) เป็นผู้นำ มีการเปลี่ยนแปลงจากที่เก็บข้อมูลคลัสเตอร์เป็นที่เก็บข้อมูลบนโหนดแยกต่างหากซึ่งตามกฎแล้วเป็นเซิร์ฟเวอร์แบบคลาสสิกพร้อมซอฟต์แวร์ที่ให้ที่เก็บข้อมูลที่เชื่อถือได้ หลักการดังกล่าวถูกสร้างขึ้น เช่น HDFS (Hadoop Distributed File System) และ GFS (Global File System)

ในช่วงใกล้ปี 2010 แนวคิดเกี่ยวกับระบบจัดเก็บข้อมูลแบบกระจายเริ่มสะท้อนให้เห็นในผลิตภัณฑ์เชิงพาณิชย์อย่างเต็มรูปแบบมากขึ้น เช่น VMware vSAN, Dell EMC Isilon และ หัวเว่ย โอเชี่ยนสตอร์. เบื้องหลังแพลตฟอร์มดังกล่าวไม่ใช่ชุมชนของผู้ที่ชื่นชอบอีกต่อไป แต่เป็นผู้จำหน่ายเฉพาะที่รับผิดชอบฟังก์ชันการทำงาน การสนับสนุน การบำรุงรักษาบริการของผลิตภัณฑ์ และรับประกันการพัฒนาต่อไป โซลูชันดังกล่าวเป็นที่ต้องการมากที่สุดในหลายด้าน

แนวโน้มอุตสาหกรรมในระบบจัดเก็บข้อมูลขนาดใหญ่

ผู้ประกอบการโทรคมนาคม

บางทีหนึ่งในผู้บริโภคที่เก่าแก่ที่สุดของระบบจัดเก็บข้อมูลแบบกระจายคือผู้ให้บริการโทรคมนาคม แผนภาพแสดงกลุ่มแอปพลิเคชันที่สร้างข้อมูลจำนวนมาก OSS (ระบบสนับสนุนการดำเนินงาน), MSS (บริการสนับสนุนการจัดการ) และ BSS (ระบบสนับสนุนธุรกิจ) เป็นชั้นซอฟต์แวร์เสริมสามชั้นที่จำเป็นสำหรับการให้บริการแก่สมาชิก การรายงานทางการเงินแก่ผู้ให้บริการ และการสนับสนุนการปฏิบัติงานแก่วิศวกรของผู้ปฏิบัติงาน

บ่อยครั้งที่ข้อมูลของเลเยอร์เหล่านี้ปะปนกันอย่างมาก และเพื่อหลีกเลี่ยงการสะสมสำเนาที่ไม่จำเป็น จึงมีการใช้ที่เก็บข้อมูลแบบกระจายเพื่อรวบรวมข้อมูลจำนวนทั้งหมดที่มาจากเครือข่ายการทำงาน ที่เก็บข้อมูลจะรวมกันเป็นพูลส่วนกลางซึ่งบริการทั้งหมดเข้าถึงได้

การคำนวณของเราแสดงให้เห็นว่าการเปลี่ยนจากระบบสตอเรจแบบคลาสสิกไปเป็นระบบบล็อกช่วยให้คุณประหยัดงบประมาณได้มากถึง 70% เพียงละทิ้งระบบสตอเรจระดับไฮเอนด์โดยเฉพาะและใช้เซิร์ฟเวอร์สถาปัตยกรรมแบบคลาสสิกทั่วไป (ปกติคือ x86) ซึ่งทำงานร่วมกับซอฟต์แวร์พิเศษ ผู้ให้บริการระบบเซลลูลาร์ได้รับโซลูชันดังกล่าวในปริมาณมากมาเป็นเวลานาน โดยเฉพาะอย่างยิ่ง ผู้ประกอบการรัสเซียใช้ผลิตภัณฑ์ดังกล่าวจาก Huawei มานานกว่าหกปี

ใช่ งานจำนวนหนึ่งไม่สามารถทำได้โดยใช้ระบบกระจาย ตัวอย่างเช่น ด้วยข้อกำหนดด้านประสิทธิภาพที่เพิ่มขึ้นหรือความเข้ากันได้กับโปรโตคอลรุ่นเก่า แต่อย่างน้อย 70% ของข้อมูลที่ผู้ดำเนินการประมวลผลสามารถอยู่ในกลุ่มการกระจาย

แนวโน้มอุตสาหกรรมในระบบจัดเก็บข้อมูลขนาดใหญ่

การธนาคาร

ในธนาคารใดก็ตาม มีระบบไอทีที่หลากหลาย ตั้งแต่การประมวลผลไปจนถึงระบบธนาคารอัตโนมัติ โครงสร้างพื้นฐานนี้ยังทำงานกับข้อมูลจำนวนมาก ในขณะที่งานส่วนใหญ่ไม่ต้องการประสิทธิภาพและความน่าเชื่อถือที่เพิ่มขึ้นของระบบสตอเรจ เช่น การพัฒนา การทดสอบ การทำงานอัตโนมัติของกระบวนการในสำนักงาน ฯลฯ การใช้ระบบสตอเรจแบบคลาสสิกเป็นไปได้ที่นี่ แต่ทุก ๆ ปีจะมีกำไรน้อยลงเรื่อย ๆ นอกจากนี้ ในกรณีนี้ จะไม่มีความยืดหยุ่นในการใช้ทรัพยากรพื้นที่เก็บข้อมูล ซึ่งประสิทธิภาพจะคำนวณจากโหลดสูงสุด

เมื่อใช้ระบบจัดเก็บข้อมูลแบบกระจาย โหนดของพวกเขาซึ่งอันที่จริงคือเซิร์ฟเวอร์ธรรมดา สามารถแปลงได้ตลอดเวลา ตัวอย่างเช่น เป็นเซิร์ฟเวอร์ฟาร์มและใช้เป็นแพลตฟอร์มคอมพิวเตอร์

แนวโน้มอุตสาหกรรมในระบบจัดเก็บข้อมูลขนาดใหญ่

ทะเลสาบข้อมูล

แผนภาพด้านบนแสดงรายชื่อผู้ใช้บริการทั่วไป ทะเลสาบข้อมูล. บริการเหล่านี้อาจเป็นบริการรัฐบาลอิเล็กทรอนิกส์ (เช่น "Gosuslugi") องค์กรที่ผ่านการเปลี่ยนผ่านสู่ระบบดิจิทัล โครงสร้างทางการเงิน ฯลฯ ทั้งหมดนี้จำเป็นต้องทำงานกับข้อมูลที่ต่างกันจำนวนมาก

การทำงานของระบบจัดเก็บข้อมูลแบบคลาสสิกเพื่อแก้ปัญหาดังกล่าวนั้นไม่มีประสิทธิภาพ เนื่องจากจำเป็นต้องมีทั้งการเข้าถึงประสิทธิภาพสูงเพื่อบล็อกฐานข้อมูลและการเข้าถึงไลบรารีของเอกสารที่สแกนซึ่งจัดเก็บเป็นวัตถุเป็นประจำ ตัวอย่างเช่นที่นี่สามารถเชื่อมโยงระบบการสั่งซื้อผ่านพอร์ทัลเว็บได้ เพื่อใช้งานทั้งหมดนี้บนแพลตฟอร์มสตอเรจแบบคลาสสิก คุณจะต้องมีอุปกรณ์ชุดใหญ่สำหรับงานต่างๆ ระบบที่เก็บข้อมูลอเนกประสงค์แนวนอนหนึ่งระบบสามารถครอบคลุมงานทั้งหมดที่ระบุไว้ก่อนหน้านี้ได้อย่างง่ายดาย คุณเพียงแค่ต้องสร้างพูลหลายตัวในนั้นที่มีลักษณะการจัดเก็บข้อมูลที่แตกต่างกัน

แนวโน้มอุตสาหกรรมในระบบจัดเก็บข้อมูลขนาดใหญ่

ผู้สร้างข้อมูลใหม่

ปริมาณข้อมูลที่เก็บไว้ในโลกเพิ่มขึ้นประมาณ 30% ต่อปี นี่เป็นข่าวดีสำหรับผู้จำหน่ายพื้นที่เก็บข้อมูล แต่อะไรคือและจะเป็นแหล่งข้อมูลหลักของข้อมูลนี้

เมื่อสิบปีที่แล้ว โซเชียลเน็ตเวิร์กกลายเป็นตัวสร้างดังกล่าว ซึ่งจำเป็นต้องสร้างอัลกอริธึมใหม่ โซลูชันฮาร์ดแวร์ ฯลฯ จำนวนมาก ตอนนี้มีสามปัจจัยหลักที่ขับเคลื่อนการเติบโตของสตอเรจ อย่างแรกคือคลาวด์คอมพิวติ้ง ปัจจุบัน บริษัทประมาณ 70% ใช้บริการคลาวด์ไม่ทางใดก็ทางหนึ่ง สิ่งเหล่านี้อาจเป็นระบบอีเมล การสำรองข้อมูล และเอนทิตีเสมือนจริงอื่นๆ
เครือข่ายรุ่นที่ห้ากำลังกลายเป็นตัวขับเคลื่อนที่สอง นี่คือความเร็วใหม่และปริมาณการถ่ายโอนข้อมูลใหม่ จากการคาดการณ์ของเรา การนำ 5G มาใช้อย่างแพร่หลายจะทำให้ความต้องการการ์ดหน่วยความจำแฟลชลดลง ไม่ว่าโทรศัพท์จะมีหน่วยความจำเท่าใดก็ตามก็ยังคงสิ้นสุดและหากแกดเจ็ตมีช่องสัญญาณ 100 เมกะบิตก็ไม่จำเป็นต้องเก็บรูปภาพไว้ในเครื่อง

เหตุผลกลุ่มที่สามที่ทำให้ความต้องการระบบสตอเรจเพิ่มขึ้น ได้แก่ การพัฒนาอย่างรวดเร็วของปัญญาประดิษฐ์ การเปลี่ยนไปใช้การวิเคราะห์ข้อมูลขนาดใหญ่ และแนวโน้มสู่ระบบอัตโนมัติสากลของทุกสิ่งที่เป็นไปได้

คุณลักษณะของ "การรับส่งข้อมูลใหม่" คือ ไม่มีโครงสร้าง. เราจำเป็นต้องจัดเก็บข้อมูลนี้โดยไม่กำหนดรูปแบบแต่อย่างใด จำเป็นสำหรับการอ่านครั้งต่อไปเท่านั้น ตัวอย่างเช่น ระบบการให้คะแนนของธนาคารเพื่อกำหนดขนาดสินเชื่อที่มีอยู่จะดูรูปถ่ายที่คุณโพสต์บนโซเชียลเน็ตเวิร์ก กำหนดความถี่ที่คุณไปทะเลและร้านอาหาร และในขณะเดียวกันก็ศึกษาสารสกัดจากเอกสารทางการแพทย์ของคุณที่มีให้ ในแง่หนึ่งข้อมูลเหล่านี้มีความครอบคลุมและขาดความเป็นเนื้อเดียวกัน

แนวโน้มอุตสาหกรรมในระบบจัดเก็บข้อมูลขนาดใหญ่

มหาสมุทรของข้อมูลที่ไม่มีโครงสร้าง

ปัญหาที่เกิดจาก "ข้อมูลใหม่" เกิดจากอะไร? แน่นอนว่าสิ่งแรกคือจำนวนข้อมูลและระยะเวลาโดยประมาณของการจัดเก็บ รถยนต์ไร้คนขับสมัยใหม่เพียงอย่างเดียวสามารถสร้างข้อมูลได้มากถึง 60TB ทุกวันจากเซ็นเซอร์และกลไกทั้งหมด เพื่อพัฒนาอัลกอริทึมการเคลื่อนไหวใหม่ ข้อมูลนี้จะต้องได้รับการประมวลผลภายในวันเดียวกัน มิฉะนั้นจะเริ่มสะสม ในเวลาเดียวกันควรเก็บไว้เป็นเวลานานหลายสิบปี จากนั้นจึงจะเป็นไปได้ที่จะสรุปผลบนพื้นฐานของตัวอย่างการวิเคราะห์ขนาดใหญ่ในอนาคต

อุปกรณ์หนึ่งเครื่องสำหรับถอดรหัสลำดับพันธุกรรมผลิตได้ประมาณ 6 เทราไบต์ต่อวัน และข้อมูลที่รวบรวมด้วยความช่วยเหลือไม่ได้หมายความถึงการลบเลย นั่นคือตามสมมุติฐานแล้วควรเก็บไว้ตลอดไป

ในที่สุดเครือข่ายเดียวกันทั้งหมดของรุ่นที่ห้า นอกเหนือจากข้อมูลที่ส่งเองแล้ว เครือข่ายดังกล่าวยังเป็นตัวสร้างข้อมูลขนาดใหญ่: บันทึกกิจกรรม บันทึกการโทร ผลลัพธ์ขั้นกลางของการโต้ตอบระหว่างเครื่องกับเครื่อง ฯลฯ

ทั้งหมดนี้ต้องการการพัฒนาแนวทางและอัลกอริธึมใหม่สำหรับการจัดเก็บและประมวลผลข้อมูล และแนวทางดังกล่าวกำลังเกิดขึ้น

แนวโน้มอุตสาหกรรมในระบบจัดเก็บข้อมูลขนาดใหญ่

เทคโนโลยีแห่งยุคใหม่

โซลูชันสามกลุ่มที่ออกแบบมาเพื่อรับมือกับข้อกำหนดใหม่สำหรับระบบจัดเก็บข้อมูลสามารถแยกแยะได้: การแนะนำของปัญญาประดิษฐ์ วิวัฒนาการทางเทคนิคของสื่อจัดเก็บข้อมูล และนวัตกรรมในด้านสถาปัตยกรรมระบบ เริ่มจาก AI กันก่อน

แนวโน้มอุตสาหกรรมในระบบจัดเก็บข้อมูลขนาดใหญ่

ในโซลูชันใหม่ของ Huawei ปัญญาประดิษฐ์ได้ถูกนำมาใช้ในระดับพื้นที่จัดเก็บข้อมูลแล้ว ซึ่งติดตั้งโปรเซสเซอร์ AI ที่ช่วยให้ระบบสามารถวิเคราะห์สถานะและคาดการณ์ความล้มเหลวได้อย่างอิสระ หากระบบจัดเก็บข้อมูลเชื่อมต่อกับบริการคลาวด์ที่มีความสามารถในการประมวลผลที่สำคัญ ปัญญาประดิษฐ์จะสามารถประมวลผลข้อมูลเพิ่มเติมและปรับปรุงความแม่นยำของสมมติฐานได้

นอกจากความล้มเหลวแล้ว AI ดังกล่าวยังสามารถคาดการณ์การโหลดสูงสุดในอนาคตและเวลาที่เหลือจนกว่าความจุจะหมดลง สิ่งนี้ทำให้คุณสามารถเพิ่มประสิทธิภาพและปรับขนาดระบบได้ก่อนที่เหตุการณ์ที่ไม่ต้องการจะเกิดขึ้น

แนวโน้มอุตสาหกรรมในระบบจัดเก็บข้อมูลขนาดใหญ่

ตอนนี้เกี่ยวกับวิวัฒนาการของผู้ให้บริการข้อมูล แฟลชไดรฟ์รุ่นแรกผลิตขึ้นโดยใช้เทคโนโลยี SLC (Single-Level Cell) อุปกรณ์ที่ใช้นั้นรวดเร็ว เชื่อถือได้ เสถียร แต่มีความจุน้อยและมีราคาแพงมาก การเพิ่มปริมาณและการลดราคาทำได้โดยการลดทอนทางเทคนิคบางประการ เนื่องจากความเร็ว ความน่าเชื่อถือ และอายุการใช้งานของไดรฟ์ลดลง อย่างไรก็ตาม แนวโน้มดังกล่าวไม่ได้ส่งผลกระทบต่อระบบสตอเรจเอง ซึ่งโดยทั่วไปแล้ว ด้วยเทคนิคทางสถาปัตยกรรมที่หลากหลาย ทำให้มีประสิทธิภาพมากขึ้นและน่าเชื่อถือมากขึ้น

แต่ทำไมคุณถึงต้องการระบบจัดเก็บข้อมูลคลาส All-Flash? แค่เปลี่ยน HDD เก่าในระบบที่ใช้งานอยู่แล้วด้วย SSD ใหม่ในฟอร์มแฟคเตอร์เดียวกันยังไม่พออีกหรือ สิ่งนี้จำเป็นสำหรับการใช้ทรัพยากรทั้งหมดของ SSD ใหม่อย่างมีประสิทธิภาพ ซึ่งเป็นไปไม่ได้ในระบบเก่า

ตัวอย่างเช่น Huawei ได้พัฒนาเทคโนโลยีจำนวนหนึ่งเพื่อแก้ปัญหานี้ ซึ่งหนึ่งในนั้นคือ แฟลชลิงค์ซึ่งทำให้สามารถเพิ่มประสิทธิภาพการโต้ตอบของตัวควบคุมดิสก์ได้มากที่สุด

การระบุอัจฉริยะทำให้สามารถแยกย่อยข้อมูลออกเป็นหลายๆ สตรีม และรับมือกับปรากฏการณ์ที่ไม่พึงประสงค์ต่างๆ เช่น WA (เขียนขยายเสียง). ในเวลาเดียวกัน อัลกอริธึมการกู้คืนใหม่ โดยเฉพาะอย่างยิ่ง การโจมตี 2.0+, เพิ่มความเร็วในการสร้างใหม่, ลดเวลาให้เหลือค่าที่ไม่มีนัยสำคัญอย่างสมบูรณ์

ความล้มเหลว ความแออัดยัดเยียด การรวบรวมขยะ - ปัจจัยเหล่านี้ไม่ส่งผลกระทบต่อประสิทธิภาพของระบบจัดเก็บข้อมูลอีกต่อไปด้วยการปรับแต่งพิเศษของตัวควบคุม

แนวโน้มอุตสาหกรรมในระบบจัดเก็บข้อมูลขนาดใหญ่

และบล็อกดาต้าสโตร์เตรียมพบกับ NVMe. จำได้ว่ารูปแบบคลาสสิกสำหรับการจัดระเบียบการเข้าถึงข้อมูลทำงานดังนี้: โปรเซสเซอร์เข้าถึงคอนโทรลเลอร์ RAID ผ่านบัส PCI Express ในที่สุดก็โต้ตอบกับดิสก์เชิงกลผ่าน SCSI หรือ SAS การใช้ NVMe บนแบ็กเอนด์ทำให้กระบวนการทั้งหมดเร็วขึ้นอย่างเห็นได้ชัด แต่มีข้อเสียอย่างหนึ่ง: ไดรฟ์ต้องเชื่อมต่อโดยตรงกับโปรเซสเซอร์เพื่อให้สามารถเข้าถึงหน่วยความจำได้โดยตรง

ขั้นตอนต่อไปของการพัฒนาเทคโนโลยีที่เราเห็นอยู่ในขณะนี้คือการใช้ NVMe-oF (NVMe over Fabrics) สำหรับเทคโนโลยีบล็อกของ Huawei พวกเขารองรับ FC-NVMe (NVMe ผ่าน Fibre Channel) แล้ว และ NVMe บน RoCE (RDMA บน Converged Ethernet) ก็กำลังมา โมเดลทดสอบใช้งานได้ดีเหลืออีกไม่กี่เดือนก่อนการนำเสนออย่างเป็นทางการ โปรดทราบว่าทั้งหมดนี้จะปรากฏในระบบแบบกระจายซึ่ง "Ethernet ที่ไม่มีการสูญเสีย" จะเป็นที่ต้องการอย่างมาก

แนวโน้มอุตสาหกรรมในระบบจัดเก็บข้อมูลขนาดใหญ่

วิธีเพิ่มเติมในการเพิ่มประสิทธิภาพการทำงานของพื้นที่เก็บข้อมูลแบบกระจายคือการปฏิเสธการมิเรอร์ข้อมูลโดยสิ้นเชิง โซลูชันของ Huawei ไม่ใช้ n สำเนาเหมือนใน RAID 1 ปกติอีกต่อไป และเปลี่ยนไปใช้กลไกทั้งหมด EC (ลบรหัส). แพ็คเกจทางคณิตศาสตร์พิเศษจะคำนวณบล็อกควบคุมด้วยความถี่ที่แน่นอน ซึ่งช่วยให้คุณสามารถกู้คืนข้อมูลระดับกลางได้ในกรณีที่ข้อมูลสูญหาย

กลไกการขจัดข้อมูลซ้ำซ้อนและการบีบอัดกลายเป็นข้อบังคับ หากในระบบจัดเก็บข้อมูลแบบคลาสสิก เราถูกจำกัดด้วยจำนวนโปรเซสเซอร์ที่ติดตั้งในคอนโทรลเลอร์ ดังนั้นในระบบจัดเก็บข้อมูลแบบกระจายในแนวนอนที่ปรับขนาดได้ แต่ละโหนดจะมีทุกสิ่งที่คุณต้องการ: ดิสก์ หน่วยความจำ โปรเซสเซอร์ และการเชื่อมต่อระหว่างกัน ทรัพยากรเหล่านี้เพียงพอสำหรับการขจัดข้อมูลซ้ำซ้อนและการบีบอัดเพื่อให้มีผลกระทบต่อประสิทธิภาพการทำงานน้อยที่สุด

และเกี่ยวกับวิธีการเพิ่มประสิทธิภาพฮาร์ดแวร์ ที่นี่ เป็นไปได้ที่จะลดภาระของโปรเซสเซอร์กลางด้วยความช่วยเหลือของไมโครวงจรเฉพาะเพิ่มเติม (หรือบล็อกเฉพาะในโปรเซสเซอร์เอง) ซึ่งมีบทบาท TOE (TCP/IP Offload Engine) หรือรับงานทางคณิตศาสตร์ของ EC, การขจัดข้อมูลซ้ำซ้อน และการบีบอัดข้อมูล

แนวโน้มอุตสาหกรรมในระบบจัดเก็บข้อมูลขนาดใหญ่

แนวทางใหม่ในการจัดเก็บข้อมูลรวมอยู่ในสถาปัตยกรรมแบบแยกส่วน (กระจาย) ในระบบจัดเก็บข้อมูลแบบรวมศูนย์ มีโรงงานเซิร์ฟเวอร์ที่เชื่อมต่อผ่าน Fibre Channel ไปยัง SAN ด้วยอาร์เรย์มากมาย ข้อเสียของวิธีนี้คือความยุ่งยากในการปรับขนาดและการรับประกันระดับการบริการ (ในแง่ของประสิทธิภาพหรือเวลาแฝง) ระบบไฮเปอร์คอนเวอร์จใช้โฮสต์เดียวกันสำหรับทั้งการจัดเก็บและการประมวลผลข้อมูล สิ่งนี้ให้ขอบเขตเกือบไม่จำกัดสำหรับการปรับขนาด แต่มีค่าใช้จ่ายสูงสำหรับการรักษาความสมบูรณ์ของข้อมูล

สถาปัตยกรรมแบบแยกส่วนไม่เหมือนกับทั้งสองข้อข้างต้น แบ่งพาร์ติชันระบบออกเป็นโรงงานคำนวณและระบบจัดเก็บข้อมูลในแนวนอน. สิ่งนี้ให้ข้อดีของทั้งสองสถาปัตยกรรมและอนุญาตให้ปรับขนาดได้เกือบไม่ จำกัด เฉพาะองค์ประกอบที่มีประสิทธิภาพไม่เพียงพอ

แนวโน้มอุตสาหกรรมในระบบจัดเก็บข้อมูลขนาดใหญ่

จากการบูรณาการสู่การบรรจบกัน

งานคลาสสิกซึ่งมีความเกี่ยวข้องเพิ่มขึ้นในช่วง 15 ปีที่ผ่านมาคือความต้องการจัดเตรียมพื้นที่เก็บข้อมูลแบบบล็อก การเข้าถึงไฟล์ การเข้าถึงออบเจกต์ การดำเนินงานของฟาร์มสำหรับข้อมูลขนาดใหญ่ ฯลฯ พร้อมๆ กัน น้ำตาลไอซิ่งบนเค้กสามารถ เช่น ระบบสำรองข้อมูลไปยังเทปแม่เหล็ก

ในระยะแรก เฉพาะการจัดการบริการเหล่านี้เท่านั้นที่สามารถรวมเป็นหนึ่งได้ ระบบจัดเก็บข้อมูลที่แตกต่างกันถูกปิดสำหรับซอฟต์แวร์พิเศษบางตัว ซึ่งผู้ดูแลระบบแจกจ่ายทรัพยากรจากพูลที่มีอยู่ แต่เนื่องจากพูลเหล่านี้มีความแตกต่างกันในด้านฮาร์ดแวร์ การโอนย้ายโหลดระหว่างกันจึงเป็นไปไม่ได้ ในระดับที่สูงขึ้นของการรวม การรวมเกิดขึ้นที่ระดับเกตเวย์ หากมีการเข้าถึงไฟล์ที่ใช้ร่วมกัน อาจได้รับผ่านโปรโตคอลที่แตกต่างกัน

วิธีการคอนเวอร์เจนซ์ที่ก้าวหน้าที่สุดที่เรามีอยู่ตอนนี้เกี่ยวข้องกับการสร้างระบบไฮบริดสากล ในแบบของเราที่ควรจะเป็น โอเชียนสตอร์ 100ดี. การเข้าถึงแบบสากลใช้ทรัพยากรฮาร์ดแวร์เดียวกัน โดยแบ่งตามตรรกะออกเป็นพูลต่างๆ แต่อนุญาตให้โอนย้ายโหลดได้ ทั้งหมดนี้สามารถทำได้ผ่านคอนโซลการจัดการเดียว ด้วยวิธีนี้ เราจึงสามารถใช้แนวคิดของ "ศูนย์ข้อมูลหนึ่งแห่ง - ระบบจัดเก็บข้อมูลเดียว"

แนวโน้มอุตสาหกรรมในระบบจัดเก็บข้อมูลขนาดใหญ่

ค่าใช้จ่ายในการจัดเก็บข้อมูลในขณะนี้กำหนดการตัดสินใจทางสถาปัตยกรรมหลายอย่าง และแม้ว่าจะสามารถวางไว้ในระดับแนวหน้าได้อย่างปลอดภัย แต่เรากำลังพูดถึงพื้นที่เก็บข้อมูล "สด" ที่มีการเข้าถึงแบบแอ็คทีฟในปัจจุบัน ดังนั้นประสิทธิภาพจึงต้องนำมาพิจารณาด้วย คุณสมบัติที่สำคัญอีกประการหนึ่งของระบบกระจายรุ่นต่อไปคือการรวมกัน ท้ายที่สุด ไม่มีใครต้องการให้ระบบที่แตกต่างกันหลายระบบได้รับการจัดการจากคอนโซลที่แตกต่างกัน คุณสมบัติทั้งหมดนี้รวมอยู่ในชุดผลิตภัณฑ์ใหม่ของ Huawei โอเชียนสตอร์ แปซิฟิก.

ที่เก็บข้อมูลขนาดใหญ่รุ่นต่อไป

OceanStor Pacific เป็นไปตามข้อกำหนดด้านความน่าเชื่อถือ 99,9999 ประการ (100%) และสามารถใช้สร้างศูนย์ข้อมูลระดับ HyperMetro ได้ ด้วยระยะห่างระหว่างศูนย์ข้อมูลสองแห่งสูงสุด 2 กม. ระบบจะแสดงความล่าช้าเพิ่มเติมอีก XNUMX มิลลิวินาที ซึ่งทำให้สามารถสร้างโซลูชันป้องกันภัยพิบัติที่อิงจากศูนย์ดังกล่าวได้ รวมถึงระบบที่มีเซิร์ฟเวอร์ครบองค์ประชุม

แนวโน้มอุตสาหกรรมในระบบจัดเก็บข้อมูลขนาดใหญ่

ผลิตภัณฑ์ในซีรีส์ใหม่แสดงให้เห็นถึงความอเนกประสงค์ในแง่ของโปรโตคอล OceanStor 100D รองรับการเข้าถึงแบบบล็อก การเข้าถึงวัตถุ และการเข้าถึง Hadoop แล้ว การเข้าถึงไฟล์จะถูกนำมาใช้ในอนาคตอันใกล้นี้ ไม่จำเป็นต้องเก็บสำเนาข้อมูลไว้หลายชุด หากสามารถออกสำเนาผ่านโปรโตคอลที่แตกต่างกันได้

แนวโน้มอุตสาหกรรมในระบบจัดเก็บข้อมูลขนาดใหญ่

ดูเหมือนว่าแนวคิดของ "เครือข่ายแบบไม่สูญเสียข้อมูล" เกี่ยวข้องกับที่เก็บข้อมูลอย่างไร ความจริงก็คือระบบจัดเก็บข้อมูลแบบกระจายถูกสร้างขึ้นบนพื้นฐานของเครือข่ายที่รวดเร็วซึ่งสนับสนุนอัลกอริทึมที่เหมาะสมและกลไก RoCE ระบบปัญญาประดิษฐ์ที่สวิตช์ของเรารองรับช่วยเพิ่มความเร็วเครือข่ายและลดเวลาแฝง เอ.ไอ.แฟบริค. ประสิทธิภาพที่เพิ่มขึ้นของระบบจัดเก็บข้อมูลเมื่อเปิดใช้งาน AI Fabric สามารถเข้าถึง 20%

แนวโน้มอุตสาหกรรมในระบบจัดเก็บข้อมูลขนาดใหญ่

โหนดพื้นที่เก็บข้อมูลแบบกระจาย OceanStor Pacific ใหม่คืออะไร โซลูชันฟอร์มแฟกเตอร์ 5U ประกอบด้วยไดรฟ์ 120 ตัวและสามารถแทนที่โหนดแบบคลาสสิกได้สามโหนด ซึ่งมากกว่าพื้นที่ชั้นวางสองเท่า เนื่องจากการปฏิเสธที่จะจัดเก็บสำเนาประสิทธิภาพของไดรฟ์จึงเพิ่มขึ้นอย่างมาก (มากถึง + 92%)

เราคุ้นเคยกับข้อเท็จจริงที่ว่าที่เก็บข้อมูลที่กำหนดโดยซอฟต์แวร์เป็นซอฟต์แวร์พิเศษที่ติดตั้งบนเซิร์ฟเวอร์แบบคลาสสิก แต่ตอนนี้ เพื่อให้ได้ค่าพารามิเตอร์ที่เหมาะสมที่สุด โซลูชันทางสถาปัตยกรรมนี้ยังต้องใช้โหนดพิเศษอีกด้วย ประกอบด้วยเซิร์ฟเวอร์สองตัวที่ใช้โปรเซสเซอร์ ARM ซึ่งจัดการอาร์เรย์ของไดรฟ์ขนาดสามนิ้ว

แนวโน้มอุตสาหกรรมในระบบจัดเก็บข้อมูลขนาดใหญ่

เซิร์ฟเวอร์เหล่านี้ไม่เหมาะกับโซลูชันแบบไฮเปอร์คอนเวอร์จ ประการแรก มีแอปพลิเคชั่นไม่กี่ตัวสำหรับ ARM และประการที่สอง การรักษาสมดุลของโหลดทำได้ยาก เราขอแนะนำให้เปลี่ยนไปใช้ที่เก็บข้อมูลแยกต่างหาก: คลัสเตอร์คอมพิวเตอร์ที่แสดงโดยเซิร์ฟเวอร์แบบคลาสสิกหรือแบบแร็ค ทำงานแยกกัน แต่เชื่อมต่อกับโหนดที่เก็บข้อมูล OceanStor Pacific ซึ่งทำงานโดยตรงด้วย และมันก็พิสูจน์ตัวเอง

ตัวอย่างเช่น ลองใช้โซลูชันการจัดเก็บข้อมูลขนาดใหญ่แบบไฮเปอร์คอนเวอร์จแบบคลาสสิกที่ใช้ชั้นวางเซิร์ฟเวอร์ 15 ชั้น หากคุณกระจายโหลดระหว่างเซิร์ฟเวอร์ประมวลผล OceanStor Pacific และโหนดจัดเก็บข้อมูลแยกออกจากกัน จำนวนชั้นวางที่ต้องการจะลดลงครึ่งหนึ่ง! ซึ่งจะช่วยลดต้นทุนการดำเนินงานศูนย์ข้อมูลและลดต้นทุนรวมในการเป็นเจ้าของ ในโลกที่ปริมาณข้อมูลที่เก็บไว้เพิ่มขึ้น 30% ต่อปี ประโยชน์ดังกล่าวไม่ได้กระจัดกระจาย

***

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับโซลูชันของ Huawei และสถานการณ์การใช้งาน โปรดไปที่ เว็บไซต์ หรือติดต่อตัวแทนของบริษัทโดยตรง

ที่มา: will.com

เพิ่มความคิดเห็น