Mengoptimumkan pengedaran pelayan merentas rak

Dalam salah satu sembang saya ditanya soalan:

β€” Adakah terdapat apa-apa yang boleh saya baca tentang cara membungkus pelayan dengan betul ke dalam rak?

Saya menyedari bahawa saya tidak tahu teks sedemikian, jadi saya menulis sendiri.

Pertama, teks ini adalah mengenai pelayan fizikal dalam pusat data fizikal (DC). Kedua, kami percaya terdapat banyak pelayan: ratusan ribu; untuk bilangan yang lebih kecil, teks ini tidak masuk akal. Ketiga, kami menganggap bahawa kami mempunyai tiga kekangan: ruang fizikal dalam rak, bekalan kuasa setiap rak, dan biarkan rak berdiri dalam baris supaya kami boleh menggunakan satu suis ToR untuk menyambungkan pelayan di rak bersebelahan.

Jawapan kepada soalan itu sangat bergantung pada parameter yang kami optimumkan dan perkara yang boleh kami ubah untuk mencapai hasil yang terbaik. Sebagai contoh, kita hanya perlu mengambil ruang minimum untuk meninggalkan lebih banyak untuk pertumbuhan selanjutnya. Atau mungkin kita mempunyai kebebasan dalam memilih ketinggian rak, kuasa setiap rak, soket dalam PDU, bilangan rak dalam sekumpulan suis (satu suis untuk 1, 2 atau 3 rak), panjang wayar dan kerja menarik ( ini penting di hujung baris: dengan 10 rak berturut-turut dan 3 rak setiap suis, anda perlu menarik wayar ke baris lain atau kurang menggunakan port dalam suis), dsb., dsb. Cerita berasingan: pemilihan pelayan dan pemilihan DC, kami akan menganggap bahawa mereka dipilih.

Adalah baik untuk memahami beberapa nuansa dan butiran, khususnya, purata/penggunaan maksimum pelayan, dan cara elektrik dibekalkan kepada kami. Jadi, jika kita mempunyai bekalan kuasa Rusia sebanyak 230V dan satu fasa setiap rak, maka mesin 32A boleh mengendalikan ~7kW. Katakan kita secara nominal membayar 6kW setiap rak. Jika pembekal mengukur penggunaan kami hanya untuk deretan 10 rak, dan bukan untuk setiap rak, dan jika mesin ditetapkan pada potongan 7 kW secara bersyarat, maka secara teknikal kami boleh menggunakan 6.9 kW dalam satu rak, 5.1 kW dalam rak yang lain dan semuanya akan baik - tidak boleh dihukum.

Biasanya matlamat utama kami adalah untuk meminimumkan kos. Kriteria terbaik untuk diukur ialah pengurangan TCO (jumlah kos pemilikan). Ia terdiri daripada kepingan berikut:

  • CAPEX: pembelian infrastruktur DC, pelayan, perkakasan rangkaian dan kabel
  • OPEX: Penyewaan DC, penggunaan elektrik, penyelenggaraan. OPEX bergantung pada hayat perkhidmatan. Adalah munasabah untuk mengandaikan ia menjadi 3 tahun.

Mengoptimumkan pengedaran pelayan merentas rak

Bergantung pada saiz kepingan individu dalam pai keseluruhan, kita perlu mengoptimumkan yang paling mahal, dan biarkan yang lain menggunakan semua sumber yang tinggal secekap mungkin.

Katakan kita mempunyai DC sedia ada, terdapat ketinggian rak unit H (contohnya, H=47), elektrik setiap rak Prack (Prack=6kW), dan kami memutuskan untuk menggunakan pelayan dua unit h=2U. Kami akan mengeluarkan 2..4 unit dari rak untuk suis, panel tampalan dan penganjur. Itu. secara fizikal, kami mempunyai pelayan Sh=rounddown((H-2..4)/j) dalam rak kami (iaitu Sh = rounddown((47-4)/2)=21 pelayan setiap rak). Mari kita ingat Sh ini.

Dalam kes mudah, semua pelayan dalam rak adalah sama. Secara keseluruhan, jika kita mengisi rak dengan pelayan, maka pada setiap pelayan kita boleh membelanjakan secara purata kuasa Pserv=Prack/Sh (Pserv = 6000W/21 = 287W). Untuk memudahkan, kami mengabaikan penggunaan suis di sini.

Mari kita ambil langkah ke tepi dan tentukan berapa penggunaan pelayan maksimum Pmax. Jika ia sangat mudah, sangat tidak berkesan dan benar-benar selamat, maka kami membaca apa yang tertulis pada bekalan kuasa pelayan - ini dia.

Jika ia lebih kompleks dan lebih cekap, maka kami mengambil TDP (pakej reka bentuk terma) semua komponen dan merumuskannya (ini tidak begitu benar, tetapi mungkin).

Biasanya kami tidak mengetahui TDP komponen (kecuali untuk CPU), jadi kami mengambil pendekatan yang paling betul, tetapi juga yang paling kompleks (kami memerlukan makmal) - kami mengambil pelayan percubaan konfigurasi yang diperlukan dan memuatkannya, contohnya, dengan Linpack (CPU dan memori) dan fio (cakera) , kami mengukur penggunaan. Jika kita mengambil serius, kita juga perlu mencipta persekitaran paling hangat di koridor sejuk semasa ujian, kerana ini akan menjejaskan kedua-dua penggunaan kipas dan penggunaan CPU. Kami mendapat penggunaan maksimum pelayan tertentu dengan konfigurasi khusus dalam keadaan khusus ini di bawah beban khusus ini. Kami hanya bermaksud bahawa perisian tegar sistem baharu, versi perisian yang berbeza dan keadaan lain mungkin menjejaskan hasilnya.

Jadi, kembali kepada Pserv dan bagaimana kita membandingkannya dengan Pmax. Ini adalah soal memahami cara perkhidmatan berfungsi dan sejauh mana keberanian pengarah teknikal anda.

Jika kami tidak mengambil sebarang risiko sama sekali, kami percaya bahawa semua pelayan boleh mula menggunakan maksimumnya secara serentak. Pada masa yang sama, satu input ke DC mungkin berlaku. Walaupun dalam keadaan ini, infra mesti menyediakan perkhidmatan, jadi Pserv ≑ Pmax. Ini adalah pendekatan di mana kebolehpercayaan adalah sangat penting.

Jika pengarah teknologi berfikir bukan sahaja tentang keselamatan yang ideal, tetapi juga tentang wang syarikat dan cukup berani, maka anda boleh memutuskannya

  • Kami mula menguruskan vendor kami, khususnya, kami melarang penyelenggaraan berjadual pada masa beban puncak yang dirancang untuk meminimumkan penurunan dalam satu input;
  • dan/atau seni bina kami membolehkan anda kehilangan rak/baris/DC, tetapi perkhidmatan terus berfungsi;
  • dan/atau kami menyebarkan beban dengan baik secara mendatar merentasi rak, jadi perkhidmatan kami tidak akan melonjak ke penggunaan maksimum dalam satu rak semuanya.

Di sini ia sangat berguna bukan sahaja untuk meneka, tetapi untuk memantau penggunaan dan mengetahui bagaimana pelayan sebenarnya menggunakan elektrik dalam keadaan normal dan puncak. Oleh itu, selepas beberapa analisis, pengarah teknologi memerah semua yang dia ada dan berkata: "kami membuat keputusan sukarela bahawa purata maksimum yang boleh dicapai bagi penggunaan pelayan maksimum bagi setiap rak adalah **sangat** di bawah penggunaan maksimum," bersyarat Pserv = 0.8* Pmaks.

Dan kemudian rak 6kW tidak lagi boleh menampung 16 pelayan dengan Pmax = 375W, tetapi 20 pelayan dengan Pserv = 375W * 0.8 = 300W. Itu. 25% lebih banyak pelayan. Ini adalah penjimatan yang sangat besar - selepas semua, kami memerlukan 25% lebih sedikit rak (dan kami juga akan menjimatkan PDU, suis dan kabel). Kelemahan serius penyelesaian sedemikian ialah kita mesti sentiasa memantau bahawa andaian kita masih betul. Bahawa versi perisian tegar baru tidak banyak mengubah operasi peminat dan penggunaan, bahawa pembangunan tiba-tiba dengan keluaran baru tidak mula menggunakan pelayan dengan lebih cekap (baca: mereka mencapai beban yang lebih besar dan penggunaan yang lebih besar pada pelayan). Lagipun, kedua-dua andaian dan kesimpulan awal kami serta-merta menjadi tidak betul. Ini adalah risiko yang mesti diambil secara bertanggungjawab (atau dielakkan dan kemudian membayar untuk rak yang jelas kurang digunakan).

Nota penting - anda harus cuba mengedarkan pelayan daripada perkhidmatan yang berbeza secara mendatar merentas rak, jika boleh. Ini adalah perlu supaya situasi tidak berlaku apabila satu kumpulan pelayan tiba untuk satu perkhidmatan, rak itu secara menegak padat dengannya untuk meningkatkan "ketumpatan" (kerana cara itu lebih mudah). Pada hakikatnya, ternyata satu rak dipenuhi dengan pelayan beban rendah yang sama dengan perkhidmatan yang sama, dan yang lain diisi dengan pelayan beban tinggi yang sama. Kebarangkalian kejatuhan kedua adalah jauh lebih tinggi, kerana profil beban adalah sama, dan semua pelayan bersama-sama dalam rak ini mula menggunakan jumlah yang sama akibat peningkatan beban.

Mari kembali kepada pengedaran pelayan dalam rak. Kami telah melihat ruang rak fizikal dan had kuasa, sekarang mari kita lihat rangkaian. Anda boleh menggunakan suis dengan port 24/32/48 N (contohnya, kami mempunyai suis ToR 48 port). Nasib baik, tidak ada banyak pilihan jika anda tidak memikirkan tentang kabel pecah. Kami sedang mempertimbangkan senario apabila kami mempunyai satu suis setiap rak, satu suis untuk dua atau tiga rak dalam kumpulan Rnet. Nampaknya saya lebih daripada tiga rak dalam satu kumpulan sudah terlalu banyak, kerana... masalah kabel antara rak menjadi lebih besar.

Jadi, untuk setiap senario rangkaian (1, 2 atau 3 rak dalam satu kumpulan), kami mengedarkan pelayan di antara rak:

Srack = min(Sh, rounddown(Prack/Pserv), rounddown(N/Rnet))

Oleh itu, untuk pilihan dengan 2 rak dalam satu kumpulan:

Srack2 = min(21, rounddown(6000/300), rounddown(48/2)) = min(21, 20, 24) = 20 pelayan setiap rak.

Kami mempertimbangkan pilihan yang selebihnya dengan cara yang sama:

Srack1 = 20
Srack3 = 16

Dan kita hampir sampai. Kami mengira bilangan rak untuk mengedarkan semua pelayan kami S (biarlah 1000):

R = bulatan(S / (Srack * Rnet)) * Rnet

R1 = bulat(1000 / (20 * 1)) * 1 = 50 * 1 = 50 rak

R2 = bulat(1000 / (20 * 2)) * 2 = 25 * 2 = 50 rak

R3 = bulat(1000 / (16 * 3)) * 3 = 25 * 2 = 63 rak

Seterusnya, kami mengira TCO untuk setiap pilihan berdasarkan bilangan rak, bilangan suis yang diperlukan, kabel, dsb. Kami memilih pilihan di mana TCO lebih rendah. Untung!

Ambil perhatian bahawa walaupun bilangan rak yang diperlukan untuk pilihan 1 dan 2 adalah sama, harganya akan berbeza, kerana bilangan suis untuk pilihan kedua adalah separuh daripada jumlah, dan panjang kabel yang diperlukan lebih panjang.

PS Jika anda mempunyai peluang untuk bermain dengan kuasa setiap rak dan ketinggian rak, kebolehubahan meningkat. Tetapi proses itu boleh dikurangkan kepada yang diterangkan di atas dengan hanya melalui pilihan. Ya, akan ada lebih banyak kombinasi, tetapi masih bilangan yang sangat terhad - bekalan kuasa ke rak untuk pengiraan boleh ditingkatkan dalam langkah 1 kW, rak biasa datang dalam bilangan saiz standard yang terhad: 42U, 45U, 47U, 48U , 52U. Dan di sini analisis What-If Excel dalam mod Jadual Data boleh membantu dengan pengiraan. Kami melihat plat yang diterima dan memilih yang minimum.

Sumber: www.habr.com

Tambah komen