🥇เพิ่มประสิทธิภาพการกระจายเซิร์ฟเวอร์ข้ามแร็ค

ในแชทหนึ่ง ฉันถูกถามคำถามว่า:

ฉันสามารถอ่านอะไรเกี่ยวกับวิธีการแพ็คเซิร์ฟเวอร์ลงในแร็คอย่างถูกต้องได้ไหม

ฉันเพิ่งรู้ว่าฉันไม่รู้ข้อความดังกล่าว ดังนั้นฉันจึงเขียนข้อความของตัวเองขึ้นมา

ก่อนอื่นเลย ข้อความนี้เกี่ยวกับ เซิร์ฟเวอร์ทางกายภาพ ในศูนย์ข้อมูลทางกายภาพ (DC) ประการที่สอง เราสมมติว่ามีเซิร์ฟเวอร์จำนวนมากพอสมควร คือหลายร้อยหรือหลายพันเครื่อง สำหรับจำนวนที่น้อยกว่านี้ ข้อความนี้จะไม่มีความหมาย ประการที่สาม เราสมมติว่าเรามีข้อจำกัดสามประการ ได้แก่ พื้นที่วางแร็คทางกายภาพ แหล่งจ่ายไฟสำหรับแร็ค และสมมติว่าแร็คจัดเรียงเป็นแถว เราสามารถใช้สวิตช์ ToR ตัวเดียวเพื่อเชื่อมต่อเซิร์ฟเวอร์ในแร็คที่อยู่ติดกันได้

คำตอบของคำถามนี้ขึ้นอยู่กับพารามิเตอร์ที่เรากำลังปรับให้เหมาะสมและสิ่งที่เราสามารถปรับเปลี่ยนได้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด ตัวอย่างเช่น เราอาจจำเป็นต้องใช้พื้นที่เพียงเล็กน้อยเพื่อให้มีพื้นที่เพียงพอสำหรับการเติบโตในอนาคต หรือบางทีเราอาจมีความยืดหยุ่นมากขึ้นในการเลือกความสูงของแร็ค กำลังไฟต่อแร็ค เต้ารับของชุดจ่ายไฟ (PDU) จำนวนแร็คในกลุ่มสวิตช์ (หนึ่งสวิตช์ต่อ 1, 2 หรือ 3 แร็ค) ความยาวสายเคเบิล และต้นทุนการเดินสาย (ซึ่งเป็นสิ่งสำคัญอย่างยิ่งที่ปลายแถว: หากมีแร็ค 10 แร็คต่อแถวและ 3 แร็คต่อสวิตช์ เราจะต้องขยายสายเคเบิลไปยังแถวอื่นหรือใช้ประโยชน์จากพอร์ตในสวิตช์ไม่เต็มที่) เป็นต้น หัวข้อแยกต่างหาก: การเลือกเซิร์ฟเวอร์และการเลือกศูนย์ข้อมูล สมมติว่าได้เลือกทั้งสองอย่างแล้ว

จะเป็นประโยชน์อย่างยิ่งหากเข้าใจรายละเอียดปลีกย่อย โดยเฉพาะอย่างยิ่งอัตราการใช้ไฟฟ้าเฉลี่ย/สูงสุดของเซิร์ฟเวอร์ และวิธีที่เราใช้ไฟฟ้า ตัวอย่างเช่น หากเรามีแหล่งจ่ายไฟฟ้า 230 โวลต์ของรัสเซีย และเป็นแบบเฟสเดียวต่อแร็ค เบรกเกอร์ 32A สามารถรองรับไฟได้ประมาณ 7 กิโลวัตต์ สมมติว่าเราจ่ายไฟ 6 กิโลวัตต์ต่อแร็ค หากผู้ให้บริการวัดค่าการใช้ไฟฟ้าของเราเฉพาะแถวที่มี 10 แร็ค ไม่ใช่สำหรับแต่ละแร็ค และหากเบรกเกอร์ตั้งค่าให้ตัดไฟที่ 7 กิโลวัตต์ ในทางเทคนิคแล้ว เราสามารถใช้ไฟได้ 6.9 กิโลวัตต์ในแร็คหนึ่ง และ 5.1 กิโลวัตต์ในอีกแร็คหนึ่ง และทุกอย่างจะเรียบร้อยดี โดยไม่มีค่าปรับใดๆ

เป้าหมายหลักของเราคือการลดค่าใช้จ่ายให้น้อยที่สุด ตัวชี้วัดที่ดีที่สุดในการวัดผลคือการลด TCO (ต้นทุนรวมในการเป็นเจ้าของ) ซึ่งประกอบด้วยองค์ประกอบต่อไปนี้:

CAPEX: การซื้อโครงสร้างพื้นฐานศูนย์ข้อมูล เซิร์ฟเวอร์ ฮาร์ดแวร์เครือข่าย และสายเคเบิล
OPEX: ค่าเช่าศูนย์ข้อมูล ค่าไฟฟ้า และค่าบำรุงรักษา OPEX ขึ้นอยู่กับอายุการใช้งาน โดยประมาณการที่สมเหตุสมผลคือ 3 ปี

ขึ้นอยู่กับว่าชิ้นส่วนแต่ละชิ้นในพายทั้งหมดมีขนาดใหญ่แค่ไหน เราจำเป็นต้องปรับแต่งชิ้นส่วนที่มีราคาแพงที่สุด และปล่อยให้ชิ้นส่วนอื่นๆ ใช้ทรัพยากรที่เหลืออย่างมีประสิทธิภาพมากที่สุด

สมมติว่าเรามีศูนย์ข้อมูลอยู่แล้ว ความสูงแร็ค H หน่วย (เช่น H = 47) และการใช้พลังงาน Prack (Prack = 6 กิโลวัตต์) เราจึงตัดสินใจใช้เซิร์ฟเวอร์สองหน่วย h = 2U เราจะนำ 2.4 หน่วยออกจากแร็คสำหรับสวิตช์ แผงแพทช์ และอุปกรณ์จัดระเบียบ ซึ่งหมายความว่าในทางกายภาพ แร็คของเราสามารถติดตั้งเซิร์ฟเวอร์ Sh = rounddown((H - 2.4) / h) ได้ (นั่นคือ Sh = rounddown((47 - 4) / 2) = 21 เซิร์ฟเวอร์ต่อแร็ค) จำ Sh นี้ไว้

ในกรณีที่ง่ายที่สุด เซิร์ฟเวอร์ทั้งหมดในแร็คจะเหมือนกันทุกประการ ดังนั้น หากเราใส่เซิร์ฟเวอร์ลงในแร็คจนเต็ม เซิร์ฟเวอร์ดังนั้น การใช้พลังงานเฉลี่ยของแต่ละเซิร์ฟเวอร์จะเป็น Pserv = Prack/Sh (Pserv = 6000W/21 = 287W) เพื่อความง่าย เราจะไม่คำนึงถึงการใช้พลังงานของสวิตช์ในที่นี้

ลองย้อนกลับไปดูสักหน่อย แล้วลองนิยามว่าอัตราการกินไฟสูงสุดของเซิร์ฟเวอร์ (Pmax) คือเท่าไร ถ้ามันง่ายมาก ไม่มีประสิทธิภาพ และปลอดภัยอย่างสมบูรณ์ ก็อ่านสิ่งที่เขียนไว้บนแหล่งจ่ายไฟของเซิร์ฟเวอร์ก็พอ

หากมีความซับซ้อนและมีประสิทธิภาพมากขึ้น เราก็จะนำ TDP (แพ็คเกจการออกแบบเชิงความร้อน) ของส่วนประกอบทั้งหมดมาสรุปรวมกัน (ซึ่งไม่เป็นความจริงทั้งหมด แต่ก็เป็นไปได้)

โดยทั่วไปแล้ว เราไม่ทราบค่า TDP ของส่วนประกอบต่างๆ (ยกเว้น CPU) ดังนั้นเราจึงใช้วิธีการที่แม่นยำที่สุด แต่ก็ซับซ้อนที่สุดเช่นกัน (ซึ่งต้องใช้ห้องปฏิบัติการ) นั่นคือ เรานำเซิร์ฟเวอร์ทดลองที่มีการกำหนดค่าตามที่ต้องการมาโหลดด้วย Linpack (CPU และหน่วยความจำ) และ fio (ไดรฟ์) เพื่อวัดการใช้พลังงาน หากจะพูดกันจริงๆ แล้ว เราควรสร้างสภาพแวดล้อมที่อุ่นที่สุดเท่าที่จะเป็นไปได้ในห้องเย็นระหว่างการทดสอบ เนื่องจากสิ่งนี้ส่งผลต่อทั้งการใช้พลังงานของพัดลมและการใช้พลังงานของ CPU ซึ่งจะทำให้ได้การใช้พลังงานสูงสุดของเซิร์ฟเวอร์เฉพาะที่มีการกำหนดค่าเฉพาะภายใต้เงื่อนไขเฉพาะเหล่านี้ภายใต้ภาระเฉพาะนี้ โปรดทราบว่าเฟิร์มแวร์ระบบใหม่ ซอฟต์แวร์เวอร์ชันใหม่ และเงื่อนไขอื่นๆ อาจส่งผลต่อผลลัพธ์

เอาล่ะ กลับมาที่ Pserv และวิธีที่เราเปรียบเทียบกับ Pmax กัน มันเป็นเรื่องของความเข้าใจวิธีการทำงานของบริการต่างๆ และความกังวลของผู้อำนวยการฝ่ายเทคนิคของคุณ

หากเราไม่ยอมรับความเสี่ยงใดๆ เราถือว่าเซิร์ฟเวอร์ทั้งหมดอาจเริ่มใช้ความจุสูงสุดทันที ขณะเดียวกัน อินพุตหนึ่งตัวที่ส่งไปยังศูนย์ข้อมูลอาจล้มเหลวได้ แม้ภายใต้เงื่อนไขเหล่านี้ โครงสร้างพื้นฐานยังคงต้องให้บริการ ดังนั้น Pserv ≡ Pmax นี่คือแนวทางที่ความน่าเชื่อถือเป็นสิ่งสำคัญอย่างยิ่ง

หากผู้อำนวยการฝ่ายเทคนิคไม่เพียงแต่คิดถึงความปลอดภัยในอุดมคติเท่านั้น แต่ยังคิดถึงเงินของบริษัทด้วยและมีความกล้าหาญเพียงพอ คุณก็สามารถตัดสินใจได้ว่า

เรากำลังเริ่มจัดการกับผู้ขายของเรา โดยเฉพาะอย่างยิ่ง เราห้ามการบำรุงรักษาตามกำหนดเวลาในช่วงที่มีโหลดสูงสุดตามแผน เพื่อลดการลดลงของอินพุตหนึ่งรายการให้เหลือน้อยที่สุด
และ/หรือสถาปัตยกรรมของเราอนุญาตให้คุณสูญเสียแร็ค/แถว/ศูนย์ข้อมูล แต่บริการต่างๆ ยังคงทำงานต่อไป
และ/หรือเรากระจายโหลดในแนวนอนไปทั่วชั้นวางได้ดี ดังนั้นบริการของเราจะไม่กระโดดไปที่การบริโภคสูงสุดในชั้นวางเดียวในคราวเดียว

ตรงนี้มีประโยชน์มาก ไม่ใช่แค่การคาดเดา แต่ยังรวมถึงการตรวจสอบการใช้พลังงานและทราบปริมาณพลังงานที่เซิร์ฟเวอร์ใช้จริงในสภาวะปกติและสภาวะสูงสุด ดังนั้น หลังจากการวิเคราะห์ CTO จึงสรุปทุกอย่างที่พวกเขามีและกล่าวว่า "เรายอมรับโดยสมัครใจว่าค่าเฉลี่ยการใช้เซิร์ฟเวอร์สูงสุดที่ทำได้ต่อแร็คนั้นต่ำกว่าการใช้สูงสุด **มาก**" โดยสมมติว่า Pserv = 0.8 * Pmax

ดังนั้น แร็คขนาด 6 กิโลวัตต์จึงสามารถรองรับเซิร์ฟเวอร์ได้ 20 เซิร์ฟเวอร์ที่มี Pserv = 375 วัตต์ * 0.8 = 300 วัตต์ ไม่ใช่ 16 เซิร์ฟเวอร์ ซึ่งหมายความว่ามีเซิร์ฟเวอร์เพิ่มขึ้น 25% ซึ่งถือเป็นการประหยัดที่สำคัญ เพราะเราจำเป็นต้องใช้แร็คน้อยลง 25% ทันที (และเราจะประหยัดค่า PDU สวิตช์ และสายเคเบิลได้) ข้อเสียที่สำคัญของโซลูชันนี้คือ เราต้องคอยตรวจสอบสมมติฐานของเราอย่างต่อเนื่องเพื่อให้แน่ใจว่าสมมติฐานยังคงถูกต้อง เฟิร์มแวร์เวอร์ชันใหม่ไม่ได้เปลี่ยนแปลงการทำงานของพัดลมและการใช้พลังงานอย่างมีนัยสำคัญ และทีมพัฒนาไม่ได้เริ่มใช้เซิร์ฟเวอร์อย่างมีประสิทธิภาพมากขึ้นในเวอร์ชันใหม่ (หมายความว่าพวกเขามีโหลดที่สูงขึ้นและใช้พลังงานต่อเซิร์ฟเวอร์ที่สูงขึ้น) ท้ายที่สุดแล้ว สมมติฐานและข้อสรุปเบื้องต้นของเราก็จะไม่ถูกต้องทันที นี่เป็นความเสี่ยงที่ต้องยอมรับอย่างรับผิดชอบ (หรือหลีกเลี่ยงแล้วจ่ายเงินชดเชยสำหรับแร็คที่ใช้ประโยชน์ได้น้อยอย่างเห็นได้ชัด)

หมายเหตุสำคัญ: หากเป็นไปได้ พยายามกระจายเซิร์ฟเวอร์จากบริการต่างๆ ในแนวนอนไปยังแร็ค การทำเช่นนี้จำเป็นเพื่อหลีกเลี่ยงสถานการณ์ที่เซิร์ฟเวอร์จำนวนมากสำหรับบริการหนึ่งมาถึงและแร็คถูกวางซ้อนกันในแนวตั้งเพื่อเพิ่มความหนาแน่น (เพราะง่ายกว่า) อย่างไรก็ตาม ในความเป็นจริง แร็คหนึ่งจะเต็มไปด้วยเซิร์ฟเวอร์ที่เหมือนกันและมีโหลดต่ำจากบริการหนึ่ง ในขณะที่อีกแร็คหนึ่งจะเต็มไปด้วยเซิร์ฟเวอร์ที่เหมือนกันและมีโหลดสูง โอกาสที่แร็คที่สองจะล้มเหลวมีสูงกว่ามาก เนื่องจากโปรไฟล์โหลดเหมือนกัน และเซิร์ฟเวอร์ทั้งหมดในแร็คนั้นจะเริ่มใช้พลังงานในปริมาณเท่ากันเมื่อโหลดเพิ่มขึ้น

กลับมาที่การกระจายเซิร์ฟเวอร์ในแร็คกันต่อครับ เราได้พิจารณาข้อจำกัดด้านพื้นที่และพลังงานของแร็คไปแล้ว ทีนี้มาดูเครือข่ายกันบ้าง สามารถใช้สวิตช์ที่มีพอร์ต N 24/32/48 พอร์ตได้ (ตัวอย่างเช่น เราใช้สวิตช์ ToR 48 พอร์ต) โชคดีที่มีตัวเลือกไม่มากนัก เว้นแต่คุณจะพิจารณาสายเคเบิลแบบแยกส่วน เรากำลังพิจารณาสถานการณ์ที่เรามีสวิตช์หนึ่งตัวต่อแร็ค สวิตช์หนึ่งตัวต่อสองแร็ค หรือสามแร็คในกลุ่ม Rnet ผมคิดว่าการมีแร็คมากกว่าสามแร็คในกลุ่มนั้นมากเกินไป เพราะปัญหาการเดินสายระหว่างแร็คกลายเป็นเรื่องท้าทายมากขึ้น

ดังนั้น สำหรับแต่ละสถานการณ์เครือข่าย (1, 2 หรือ 3 แร็คในกลุ่ม) เราจะกระจายเซิร์ฟเวอร์ไปยังแร็คต่างๆ:

Srack = min(Sh, ปัดเศษลง(Prack/Pserv), ปัดเศษลง(N/Rnet))

ดังนั้นสำหรับตัวเลือกที่มี 2 ชั้นวางในกลุ่ม:

Srack2 = min(21, ปัดเศษลง(6000/300), ปัดเศษลง(48/2)) = min(21, 20, 24) = 20 เซิร์ฟเวอร์ต่อแร็ค

เราคำนวณตัวเลือกที่เหลือในลักษณะเดียวกัน:

สแคร็ก1 = 20
สแคร็ก3 = 16

และเราเกือบจะถึงเป้าหมายแล้ว ลองคำนวณจำนวนแร็คที่จำเป็นในการกระจายเซิร์ฟเวอร์ S ทั้งหมดของเรา (สมมติว่า 1000) กัน

R = roundup(S / (Srack * Rnet)) * Rnet

R1 = ปัดเศษขึ้น (1000 / (20 * 1)) * 1 = 50 * 1 = 50 ชั้นวาง

R2 = ปัดเศษขึ้น (1000 / (20 * 2)) * 2 = 25 * 2 = 50 ชั้นวาง

R3 = roundup(1000 / (16 * 3)) * 3 = 25 * 2 = 63 ชั้นวาง

ต่อไป เราจะคำนวณ TCO ของแต่ละตัวเลือกโดยพิจารณาจากจำนวนแร็ค จำนวนสวิตช์ที่ต้องการ สายเคเบิล ฯลฯ เลือกตัวเลือกที่มี TCO ต่ำที่สุด กำไร!

โปรดทราบว่าแม้ว่าจำนวนแร็คที่ต้องการสำหรับตัวเลือก 1 และ 2 จะเท่ากัน แต่ราคาจะแตกต่างกัน เนื่องจากจำนวนสวิตช์สำหรับตัวเลือกที่สองนั้นมีน้อยกว่าครึ่งหนึ่ง และความยาวของสายเคเบิลที่ต้องการก็จะมากกว่า

ปล. หากคุณสามารถปรับกำลังไฟฟ้าของแร็คและความสูงของแร็คได้ ความแปรปรวนจะเพิ่มขึ้น แต่กระบวนการนี้สามารถลดลงเหลือเพียงข้างต้นได้ เพียงแค่ทำซ้ำตามตัวเลือกต่างๆ ใช่ แม้จะมีการผสมผสานที่หลากหลายมากขึ้น แต่ก็ยังมีจำนวนจำกัดมาก — กำลังไฟฟ้าของแร็คสามารถเพิ่มได้ทีละ 1 กิโลวัตต์สำหรับการคำนวณ และแร็คมาตรฐานมีขนาดจำกัด: 42U, 45U, 47U, 48U, 52U การวิเคราะห์แบบ What-If ของ Excel ในโหมดตารางข้อมูลอาจเป็นประโยชน์ในกรณีนี้ ดูตารางผลลัพธ์และเลือกค่าต่ำสุด

ที่มา: will.com