เพิ่มประสิทธิภาพการกระจายเซิร์ฟเวอร์ข้ามแร็ค

ในการสนทนาครั้งหนึ่งฉันถูกถามคำถาม:

— มีอะไรที่ฉันสามารถอ่านเกี่ยวกับวิธีบรรจุเซิร์ฟเวอร์ลงในชั้นวางได้อย่างถูกต้องหรือไม่

ฉันรู้ว่าฉันไม่รู้จักข้อความเช่นนั้นฉันจึงเขียนเอง

ประการแรก ข้อความนี้เกี่ยวกับเซิร์ฟเวอร์จริงในศูนย์ข้อมูลทางกายภาพ (DC) ประการที่สอง เราเชื่อว่ามีเซิร์ฟเวอร์จำนวนมาก: หลายแสนเซิร์ฟเวอร์ สำหรับจำนวนที่น้อยกว่าข้อความนี้ไม่สมเหตุสมผล ประการที่สาม เราพิจารณาว่าเรามีข้อจำกัดสามประการ: พื้นที่ทางกายภาพในชั้นวาง แหล่งจ่ายไฟต่อชั้นวาง และปล่อยให้ชั้นวางยืนเป็นแถวเพื่อให้เราสามารถใช้สวิตช์ ToR หนึ่งตัวเพื่อเชื่อมต่อเซิร์ฟเวอร์ในชั้นวางที่อยู่ติดกัน

คำตอบสำหรับคำถามนั้นขึ้นอยู่กับพารามิเตอร์ที่เรากำลังปรับให้เหมาะสม และสิ่งที่เราสามารถเปลี่ยนแปลงได้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด ตัวอย่างเช่น เราแค่ต้องใช้พื้นที่ขั้นต่ำเพื่อที่จะเหลือพื้นที่ไว้สำหรับการเติบโตต่อไป หรือบางทีเราอาจมีอิสระในการเลือกความสูงของชั้นวาง กำลังไฟต่อชั้นวาง ช่องเสียบใน PDU จำนวนชั้นวางในกลุ่มสวิตช์ (สวิตช์ตัวเดียวสำหรับ 1, 2 หรือ 3 ชั้นวาง) ความยาวของสายไฟและงานดึง ( นี่เป็นสิ่งสำคัญที่ปลายแถว: เมื่อมี 10 ชั้นวางในแถวและ 3 ชั้นวางต่อสวิตช์ คุณจะต้องดึงสายไฟไปยังอีกแถวหนึ่งหรือใช้พอร์ตในสวิตช์น้อยเกินไป) เป็นต้น แยกเรื่องราว: การเลือกเซิร์ฟเวอร์และการเลือก DC เราจะถือว่าพวกเขาถูกเลือก

เป็นการดีที่จะเข้าใจความแตกต่างและรายละเอียดบางอย่าง โดยเฉพาะอย่างยิ่งการใช้เซิร์ฟเวอร์เฉลี่ย/สูงสุด และวิธีการจ่ายไฟฟ้าให้เรา ดังนั้น หากเรามีแหล่งจ่ายไฟของรัสเซียที่ 230V และหนึ่งเฟสต่อแร็ค เครื่องจักรขนาด 32A ก็สามารถรองรับ ~7kW ได้ สมมติว่าเราจ่ายค่าไฟ 6kW ต่อแร็คในนาม หากผู้ให้บริการวัดปริมาณการใช้ของเราสำหรับแถวที่มี 10 ชั้นวางเท่านั้น ไม่ใช่สำหรับแต่ละชั้นวาง และหากเครื่องตั้งค่าไว้ที่จุดตัดแบบมีเงื่อนไข 7 kW ในทางเทคนิคแล้ว เราจะสามารถใช้พลังงาน 6.9 kW ในชั้นวางเดียว และ 5.1 kW ในอีกชั้นหนึ่งและ ทุกอย่างจะเรียบร้อย - ไม่ถูกลงโทษ

โดยปกติแล้วเป้าหมายหลักของเราคือการลดต้นทุนให้เหลือน้อยที่สุด เกณฑ์ที่ดีที่สุดในการวัดคือการลด TCO (ต้นทุนรวมในการเป็นเจ้าของ) ประกอบด้วยชิ้นส่วนดังต่อไปนี้:

  • ฝ่ายทุน: การซื้อโครงสร้างพื้นฐาน DC เซิร์ฟเวอร์ ฮาร์ดแวร์เครือข่าย และสายเคเบิล
  • OPEX: การเช่า DC การใช้ไฟฟ้า การบำรุงรักษา OPEX ขึ้นอยู่กับอายุการใช้งาน ก็สมเหตุสมผลที่จะถือว่าเป็น 3 ปี

เพิ่มประสิทธิภาพการกระจายเซิร์ฟเวอร์ข้ามแร็ค

ขึ้นอยู่กับว่าแต่ละชิ้นมีขนาดใหญ่แค่ไหนในวงกลมโดยรวม เราจำเป็นต้องเพิ่มประสิทธิภาพชิ้นที่แพงที่สุด และปล่อยให้ส่วนที่เหลือใช้ทรัพยากรที่เหลือทั้งหมดอย่างมีประสิทธิภาพมากที่สุด

สมมติว่าเรามี DC อยู่แล้ว มีความสูงของชั้นวางเป็นหน่วย H (เช่น H=47) ไฟฟ้าต่อแร็ค Prack (Prack=6kW) และเราตัดสินใจใช้เซิร์ฟเวอร์สองยูนิต h=2U เราจะถอด 2..4 ยูนิตออกจากชั้นวางสำหรับสวิตช์ แผงแพทช์ และผู้จัดงาน เหล่านั้น. ทางกายภาพ เรามีเซิร์ฟเวอร์ Sh=rounddown((H-2..4)/h) ในแร็คของเรา (เช่น Sh = Rounddown((47-4)/2)=21 เซิร์ฟเวอร์ต่อแร็ค) มาจำช.นี้กัน

ในกรณีธรรมดา เซิร์ฟเวอร์ทั้งหมดในแร็คจะเหมือนกัน โดยรวมแล้ว หากเราเติมเซิร์ฟเวอร์ลงในแร็ค จากนั้นในแต่ละเซิร์ฟเวอร์ เราจะสามารถใช้พลังงานโดยเฉลี่ย Pserv=Prack/Sh (Pserv = 6000W/21 = 287W) เพื่อความง่าย เราจะเพิกเฉยต่อการใช้สวิตช์ที่นี่

มาดูกันก่อนและพิจารณาว่า Pmax ปริมาณการใช้เซิร์ฟเวอร์สูงสุดคือเท่าใด ถ้ามันง่ายมาก ไม่ได้ผลมาก และปลอดภัยอย่างสมบูรณ์ เราจะอ่านสิ่งที่เขียนบนแหล่งจ่ายไฟของเซิร์ฟเวอร์ - นี่แหละ

หากซับซ้อนและมีประสิทธิภาพมากขึ้น เราจะนำ TDP (แพ็คเกจการออกแบบการระบายความร้อน) ของส่วนประกอบทั้งหมดมาสรุปผล (ซึ่งไม่เป็นความจริงมากนัก แต่ก็เป็นไปได้)

โดยปกติแล้วเราจะไม่ทราบ TDP ของส่วนประกอบ (ยกเว้น CPU) ดังนั้นเราจึงใช้วิธีที่ถูกต้องที่สุด แต่ก็เป็นวิธีที่ซับซ้อนที่สุดด้วย (เราต้องการห้องปฏิบัติการ) - เราใช้เซิร์ฟเวอร์ทดลองของการกำหนดค่าที่จำเป็นและโหลดมัน ตัวอย่างเช่น ด้วย Linpack (CPU และหน่วยความจำ) และ fio (ดิสก์) เราจะวัดปริมาณการใช้ หากเราจริงจัง เรายังจำเป็นต้องสร้างสภาพแวดล้อมที่อบอุ่นที่สุดในทางเดินเย็นในระหว่างการทดสอบ เนื่องจากจะส่งผลต่อทั้งการใช้พัดลมและการใช้ CPU เราได้รับการใช้งานเซิร์ฟเวอร์เฉพาะสูงสุดด้วยการกำหนดค่าเฉพาะในเงื่อนไขเฉพาะเหล่านี้ภายใต้โหลดเฉพาะนี้ เราเพียงแต่หมายถึงว่าเฟิร์มแวร์ระบบใหม่ เวอร์ชันซอฟต์แวร์อื่น และเงื่อนไขอื่นๆ อาจส่งผลต่อผลลัพธ์

กลับมาที่ Pserv และวิธีที่เราเปรียบเทียบกับ Pmax มันเป็นเรื่องของการทำความเข้าใจว่าบริการทำงานอย่างไร และความกังวลใจของผู้อำนวยการด้านเทคนิคของคุณแข็งแกร่งแค่ไหน

หากเราไม่รับความเสี่ยงใดๆ เลย เราเชื่อว่าเซิร์ฟเวอร์ทั้งหมดสามารถเริ่มใช้งานสูงสุดพร้อมกันได้ ในเวลาเดียวกันอาจเกิดการป้อนข้อมูลหนึ่งรายการใน DC แม้ภายใต้เงื่อนไขเหล่านี้ อินฟราก็ต้องให้บริการ ดังนั้น Pserv ≡ Pmax นี่เป็นแนวทางที่ความน่าเชื่อถือเป็นสิ่งสำคัญอย่างยิ่ง

หากผู้อำนวยการฝ่ายเทคโนโลยีไม่เพียงแต่คิดถึงความปลอดภัยในอุดมคติเท่านั้น แต่ยังคิดถึงเงินของบริษัทด้วยและมีความกล้าพอ คุณก็สามารถตัดสินใจได้ว่า

  • เรากำลังเริ่มจัดการผู้ขายของเรา โดยเฉพาะอย่างยิ่ง เรากำลังห้ามการบำรุงรักษาตามกำหนดเวลาในช่วงเวลาที่มีการใช้งานสูงสุดที่วางแผนไว้ เพื่อลดการลดลงของอินพุตเดียว
  • และ/หรือสถาปัตยกรรมของเราทำให้คุณเสียแร็ค/แถว/DC แต่บริการยังคงทำงานต่อไป
  • และ/หรือเรากระจายโหลดในแนวนอนทั่วทั้งแร็ค ดังนั้นบริการของเราจะไม่กระโดดไปสู่การใช้งานสูงสุดในแร็คเดียวทั้งหมดรวมกัน

ในที่นี้มีประโยชน์มากไม่เพียงแค่คาดเดาเท่านั้น แต่ยังใช้ในการติดตามปริมาณการใช้ไฟฟ้าและทราบว่าเซิร์ฟเวอร์ใช้ไฟฟ้าจริงอย่างไรภายใต้สภาวะปกติและจุดสูงสุด ดังนั้น หลังจากการวิเคราะห์ ผู้อำนวยการฝ่ายเทคโนโลยีจึงบีบทุกอย่างที่มีแล้วพูดว่า: “เราทำการตัดสินใจโดยตั้งใจว่าค่าเฉลี่ยสูงสุดที่ทำได้ของการใช้เซิร์ฟเวอร์สูงสุดต่อแร็คนั้น **มาก** ต่ำกว่าปริมาณการใช้สูงสุดมาก” ตามเงื่อนไข Pserv = 0.8* พีแม็กซ์

จากนั้นแร็คขนาด 6kW ไม่สามารถรองรับเซิร์ฟเวอร์ 16 เครื่องที่มี Pmax = 375W ได้อีกต่อไป แต่จะมีเซิร์ฟเวอร์ 20 เครื่องที่มี Pserv = 375W * 0.8 = 300W เหล่านั้น. เซิร์ฟเวอร์เพิ่มขึ้น 25% นี่เป็นการประหยัดได้มาก เพราะเราต้องการชั้นวางน้อยลง 25% ทันที (และเราจะประหยัดค่า PDU สวิตช์ และสายเคเบิลด้วย) ข้อเสียร้ายแรงของการแก้ปัญหาดังกล่าวคือเราต้องติดตามอย่างต่อเนื่องว่าสมมติฐานของเรายังคงถูกต้อง เวอร์ชันเฟิร์มแวร์ใหม่ไม่ได้เปลี่ยนการทำงานของพัดลมและการบริโภคอย่างมีนัยสำคัญว่าการพัฒนาอย่างกะทันหันด้วยการเปิดตัวใหม่ไม่ได้เริ่มใช้เซิร์ฟเวอร์อย่างมีประสิทธิภาพมากขึ้น (อ่าน: พวกเขาได้รับโหลดมากขึ้นและปริมาณการใช้เซิร์ฟเวอร์มากขึ้น) ท้ายที่สุดแล้วทั้งสมมติฐานและข้อสรุปเบื้องต้นของเราก็จะไม่ถูกต้องทันที นี่เป็นความเสี่ยงที่ต้องดำเนินการอย่างรับผิดชอบ (หรือหลีกเลี่ยงแล้วจ่ายเงินสำหรับชั้นวางที่ใช้งานน้อยเกินไปอย่างเห็นได้ชัด)

หมายเหตุสำคัญ - คุณควรพยายามกระจายเซิร์ฟเวอร์จากบริการต่างๆ ในแนวนอนข้ามแร็ค หากเป็นไปได้ นี่เป็นสิ่งจำเป็นเพื่อไม่ให้สถานการณ์เกิดขึ้นเมื่อเซิร์ฟเวอร์ชุดหนึ่งมาถึงสำหรับบริการเดียว ชั้นวางจะถูกบรรจุในแนวตั้งเพื่อเพิ่ม "ความหนาแน่น" (เพราะเป็นวิธีที่ง่ายกว่า) ในความเป็นจริง ปรากฎว่าแร็คหนึ่งเต็มไปด้วยเซิร์ฟเวอร์โหลดต่ำที่เหมือนกันของบริการเดียวกัน และอีกแร็คหนึ่งเต็มไปด้วยเซิร์ฟเวอร์โหลดสูงเท่ากัน ความน่าจะเป็นของการล้มครั้งที่สองนั้นสูงขึ้นอย่างมากเพราะว่า โปรไฟล์โหลดเหมือนกัน และเซิร์ฟเวอร์ทั้งหมดรวมกันในแร็คนี้เริ่มใช้ปริมาณเท่ากันอันเป็นผลมาจากโหลดที่เพิ่มขึ้น

กลับไปที่การกระจายเซิร์ฟเวอร์ในชั้นวาง เราได้ดูพื้นที่ชั้นวางทางกายภาพและข้อจำกัดด้านพลังงานแล้ว ตอนนี้เรามาดูที่เครือข่ายกัน คุณสามารถใช้สวิตช์กับพอร์ต 24/32/48 N ได้ (เช่น เรามีสวิตช์ ToR 48 พอร์ต) โชคดีที่ไม่มีทางเลือกมากมายหากคุณไม่คิดจะแยกสายเคเบิล เรากำลังพิจารณาสถานการณ์เมื่อเรามีสวิตช์หนึ่งตัวต่อแร็ค หนึ่งสวิตช์สำหรับแร็คสองหรือสามแร็คในกลุ่ม Rnet สำหรับฉันดูเหมือนว่ามากกว่าสามชั้นวางในกลุ่มนั้นมากเกินไปแล้ว เพราะ... ปัญหาการเดินสายระหว่างชั้นวางจะใหญ่ขึ้นมาก

ดังนั้น สำหรับแต่ละสถานการณ์เครือข่าย (1, 2 หรือ 3 แร็คในกลุ่ม) เราจะกระจายเซิร์ฟเวอร์ไปตามแร็ค:

Srack = นาที (Sh, ปัดเศษ (Prack/Pserv), ปัดเศษ (N/Rnet))

ดังนั้นสำหรับตัวเลือกที่มี 2 ชั้นวางในกลุ่ม:

Srack2 = นาที (21, การปัดเศษ (6000/300), การปัดเศษ (48/2)) = นาที (21, 20, 24) = 20 เซิร์ฟเวอร์ต่อแร็ค

เราพิจารณาตัวเลือกที่เหลือในลักษณะเดียวกัน:

สแร็ค1 = 20
สแร็ค3 = 16

และเราเกือบจะถึงที่นั่นแล้ว เรานับจำนวนแร็คเพื่อกระจายเซิร์ฟเวอร์ S ทั้งหมดของเรา (ปล่อยให้เป็น 1000):

R = บทสรุป (S / (Srack * Rnet)) * Rnet

R1 = บทสรุป (1000 / (20 * 1)) * 1 = 50 * 1 = 50 ชั้นวาง

R2 = บทสรุป (1000 / (20 * 2)) * 2 = 25 * 2 = 50 ชั้นวาง

R3 = บทสรุป (1000 / (16 * 3)) * 3 = 25 * 2 = 63 ชั้นวาง

ต่อไป เราจะคำนวณ TCO สำหรับแต่ละตัวเลือกตามจำนวนชั้นวาง จำนวนสวิตช์ที่ต้องการ การเดินสายเคเบิล ฯลฯ เราเลือกตัวเลือกที่ TCO ต่ำกว่า กำไร!

โปรดทราบว่าแม้ว่าจำนวนชั้นวางที่ต้องการสำหรับตัวเลือก 1 และ 2 จะเท่ากัน แต่ราคาจะแตกต่างกันเพราะ จำนวนสวิตช์สำหรับตัวเลือกที่สองคือครึ่งหนึ่งและความยาวของสายเคเบิลที่ต้องการนั้นยาวกว่า

ป.ล. หากคุณมีโอกาสเล่นกับกำลังต่อแร็คและความสูงของแร็ค ความแปรปรวนจะเพิ่มขึ้น แต่กระบวนการสามารถลดลงไปเป็นกระบวนการที่อธิบายไว้ข้างต้นได้เพียงแค่ทำตามตัวเลือกต่างๆ ใช่ จะมีการผสมผสานกันมากขึ้น แต่ก็ยังมีจำนวนที่จำกัด - แหล่งจ่ายไฟไปยังชั้นวางสำหรับการคำนวณสามารถเพิ่มขึ้นได้ขั้นละ 1 kW ชั้นวางทั่วไปจะมีขนาดมาตรฐานในจำนวนที่จำกัด: 42U, 45U, 47U, 48U , 52U. และนี่คือการวิเคราะห์แบบ What-If ของ Excel ในโหมดตารางข้อมูลสามารถช่วยในการคำนวณได้ เราดูจานที่ได้รับและเลือกขั้นต่ำ

ที่มา: will.com

เพิ่มความคิดเห็น