Optimizimi i shpërndarjes së serverëve nëpër rafte

Në një nga bisedat më bënë një pyetje:

— A ka ndonjë gjë që mund të lexoj se si t'i paketoj siç duhet serverët në rafte?

E kuptova që nuk e dija një tekst të tillë, kështu që shkrova timin.

Së pari, ky tekst ka të bëjë me serverët fizikë në qendrat fizike të të dhënave (DC). Së dyti, ne besojmë se ka mjaft serverë: qindra-mijëra; për një numër më të vogël ky tekst nuk ka kuptim. Së treti, ne konsiderojmë se kemi tre kufizime: hapësirën fizike në raftet, furnizimin me energji elektrike për raft, dhe lërini raftet të qëndrojnë në rreshta në mënyrë që të mund të përdorim një ndërprerës ToR për të lidhur serverët në raftet ngjitur.

Përgjigja e pyetjes varet shumë nga parametri që po optimizojmë dhe çfarë mund të ndryshojmë për të arritur rezultatin më të mirë. Për shembull, ne vetëm duhet të zëmë një hapësirë ​​minimale në mënyrë që të lëmë më shumë për rritje të mëtejshme. Ose ndoshta kemi liri në zgjedhjen e lartësisë së rafteve, fuqinë për raft, prizat në PDU, numrin e rafteve në një grup çelsash (një ndërprerës për 1, 2 ose 3 rafte), gjatësinë e telave dhe punën e tërheqjes ( kjo është kritike në skajet e rreshtave: me 10 rafte në një rresht dhe 3 rafte për çelës, do t'ju duhet të tërhiqni telat në një rresht tjetër ose të mos përdorni portat në çelës), etj., etj. Tregime të veçanta: përzgjedhja e serverëve dhe përzgjedhja e DC-ve, ne do të supozojmë se ato janë përzgjedhur.

Do të ishte mirë të kuptonim disa nga nuancat dhe detajet, në veçanti, konsumin mesatar/maksimal të serverëve dhe mënyrën se si na furnizohet me energji elektrike. Pra, nëse kemi një furnizim me energji ruse prej 230 V dhe një fazë për raft, atëherë një makinë 32A mund të përballojë ~ 7 kW. Le të themi se ne nominalisht paguajmë për 6 kW për raft. Nëse ofruesi mat konsumin tonë vetëm për një rresht prej 10 raftesh, dhe jo për çdo raft, dhe nëse makina është vendosur në një ndërprerje të kushtëzuar 7 kW, atëherë teknikisht mund të konsumojmë 6.9 kW në një raft të vetëm, 5.1 kW në një tjetër dhe gjithçka do të jetë në rregull - jo e dënueshme.

Zakonisht qëllimi ynë kryesor është të minimizojmë kostot. Kriteri më i mirë për të matur është një reduktim në TCO (kosto totale e pronësisë). Ai përbëhet nga pjesët e mëposhtme:

  • CAPEX: blerja e infrastrukturës DC, serverëve, pajisjeve të rrjetit dhe kabllove
  • OPEX: Qira DC, konsumi i energjisë elektrike, mirëmbajtja. OPEX varet nga jeta e shërbimit. Është e arsyeshme të supozohet se është 3 vjet.

Optimizimi i shpërndarjes së serverëve nëpër rafte

Në varësi të asaj se sa të mëdha janë pjesët individuale në byrekun e përgjithshëm, ne duhet të zgjedhim më të shtrenjtën dhe t'i lëmë të tjerët të përdorin të gjitha burimet e mbetura në mënyrë sa më efikase të jetë e mundur.

Le të themi se kemi një DC ekzistuese, ka një lartësi rafti prej njësive H (për shembull, H=47), energji elektrike për raft Prack (Prack=6kW) dhe vendosëm të përdorim serverë me dy njësi h=2U. Ne do të heqim 2..4 njësi nga rafti për çelsat, panelet patch dhe organizatorët. ato. fizikisht, ne kemi serverë Sh=rounddown((H-2..4)/h) në raftin tonë (d.m.th. Sh = rounddown((47-4)/2)=21 serverë për raft). Le të kujtojmë këtë Sh.

Në rastin e thjeshtë, të gjithë serverët në një raft janë identikë. Në total, nëse mbushim një raft me serverë, atëherë në çdo server mund të shpenzojmë mesatarisht fuqinë Pserv=Prack/Sh (Pserv = 6000W/21 = 287W). Për thjeshtësi, ne injorojmë konsumin e ndërprerësit këtu.

Le të bëjmë një hap mënjanë dhe të përcaktojmë se cili është konsumi maksimal i serverit Pmax. Nëse është shumë e thjeshtë, shumë joefektive dhe plotësisht e sigurt, atëherë lexojmë se çfarë është shkruar në furnizimin me energji të serverit - kjo është ajo.

Nëse është më e ndërlikuar, më efikase, atëherë marrim TDP (paketën e dizajnit termik) të të gjithë komponentëve dhe e përmbledhim (kjo nuk është shumë e vërtetë, por është e mundur).

Zakonisht ne nuk e dimë TDP-në e komponentëve (përveç CPU-së), kështu që ne marrim qasjen më korrekte, por edhe më komplekse (na duhet një laborator) - marrim një server eksperimental të konfigurimit të kërkuar dhe e ngarkojmë atë. për shembull, me Linpack (CPU dhe memorie) dhe fio (disqe), ne matim konsumin. Nëse e marrim seriozisht, duhet të krijojmë edhe ambientin më të ngrohtë në korridorin e ftohtë gjatë provave, sepse kjo do të ndikojë si në konsumin e ventilatorit ashtu edhe në konsumin e CPU-së. Ne marrim konsumin maksimal të një serveri specifik me një konfigurim specifik në këto kushte specifike nën këtë ngarkesë specifike. Thjesht nënkuptojmë që firmware-i i ri i sistemit, një version i ndryshëm i softuerit dhe kushte të tjera mund të ndikojnë në rezultatin.

Pra, kthehemi te Pserv dhe si e krahasojmë atë me Pmax. Është një çështje për të kuptuar se si funksionojnë shërbimet dhe sa të forta janë nervat e drejtorit tuaj teknik.

Nëse nuk rrezikojmë fare, besojmë se të gjithë serverët mund të fillojnë njëkohësisht të konsumojnë maksimumin e tyre. Në të njëjtin moment, mund të ndodhë një hyrje në DC. Edhe në këto kushte, infra duhet të ofrojë shërbim, kështu që Pserv ≡ Pmax. Kjo është një qasje ku besueshmëria është absolutisht e rëndësishme.

Nëse drejtori i teknologjisë mendon jo vetëm për sigurinë ideale, por edhe për paratë e kompanisë dhe është mjaft i guximshëm, atëherë mund të vendosni që

  • Ne po fillojmë të menaxhojmë shitësit tanë, në veçanti, po ndalojmë mirëmbajtjen e planifikuar në momentet e ngarkesës maksimale të planifikuar për të minimizuar rënien në një hyrje;
  • dhe/ose arkitektura jonë ju lejon të humbni një raft/rresht/DC, por shërbimet vazhdojnë të funksionojnë;
  • dhe/ose e shpërndajmë mirë ngarkesën horizontalisht nëpër raftet, kështu që shërbimet tona nuk do të kalojnë kurrë në konsumin maksimal në një raft të gjitha së bashku.

Këtu është shumë e dobishme jo vetëm të hamendësosh, por të monitorosh konsumin dhe të dish se si serverët konsumojnë në të vërtetë energjinë elektrike në kushte normale dhe të pikut. Prandaj, pas disa analizave, drejtori i teknologjisë shtrydh gjithçka që ka dhe thotë: "ne marrim një vendim të vullnetshëm që mesatarja maksimale e arritshme e konsumit maksimal të serverit për raft të jetë **aq** nën konsumin maksimal," me kusht Pserv = 0.8* Pmax.

Dhe atëherë një raft 6 kW nuk mund të strehojë më 16 serverë me Pmax = 375W, por 20 serverë me Pserv = 375W * 0.8 = 300W. ato. 25% më shumë serverë. Ky është një kursim shumë i madh - në fund të fundit, ne kemi nevojë menjëherë për 25% më pak rafte (dhe gjithashtu do të kursejmë në PDU, çelsat dhe kabllot). Një disavantazh serioz i një zgjidhjeje të tillë është se ne duhet të monitorojmë vazhdimisht që supozimet tona janë ende të sakta. Se versioni i ri i firmuerit nuk ndryshon ndjeshëm funksionimin e tifozëve dhe konsumin, se zhvillimi papritmas me lëshimin e ri nuk filloi t'i përdorte serverët në mënyrë shumë më efikase (lexo: ata arritën ngarkesë më të madhe dhe konsum më të madh në server). Në fund të fundit, atëherë si supozimet dhe përfundimet tona fillestare bëhen menjëherë të pasakta. Ky është një rrezik që duhet marrë me përgjegjësi (ose të shmanget dhe më pas të paguhet për raftet dukshëm të pashfrytëzuara).

Një shënim i rëndësishëm - duhet të përpiqeni të shpërndani serverë nga shërbime të ndryshme horizontalisht nëpër raftet, nëse është e mundur. Kjo është e nevojshme në mënyrë që situatat të mos ndodhin kur një grup serverësh arrin për një shërbim, raftet janë të mbushura vertikalisht me të për të rritur "dendësinë" (sepse është më e lehtë në këtë mënyrë). Në realitet, rezulton se një raft është i mbushur me serverë identikë me ngarkesë të ulët të të njëjtit shërbim, dhe tjetri është i mbushur me serverë po aq të ngarkuar. Probabiliteti i rënies së dytë është dukshëm më i lartë, sepse profili i ngarkesës është i njëjtë, dhe të gjithë serverët së bashku në këtë raft fillojnë të konsumojnë të njëjtën sasi si rezultat i rritjes së ngarkesës.

Le të kthehemi në shpërndarjen e serverëve në rafte. Ne kemi parë hapësirën fizike të rafteve dhe kufizimet e fuqisë, tani le të shohim rrjetin. Ju mund të përdorni çelsat me porte 24/32/48 N (për shembull, ne kemi çelsat ToR me 48 porta). Për fat të mirë, nuk ka shumë opsione nëse nuk mendoni për kabllot e shkëputjes. Ne po shqyrtojmë skenarë kur kemi një ndërprerës për raft, një ndërprerës për dy ose tre rafte në grupin Rnet. Më duket se më shumë se tre rafte në një grup tashmë janë shumë, sepse ... problemi i kabllove midis rafteve bëhet shumë më i madh.

Pra, për çdo skenar rrjeti (1, 2 ose 3 rafte në një grup), ne shpërndajmë serverët midis rafteve:

Srack = min (Sh, përmbledhje (Prack/Pserv), përmbledhje (N/Rnet))

Kështu, për opsionin me 2 rafte në një grup:

Srack2 = min (21, përmbledhje (6000/300), përmbledhje (48/2)) = min (21, 20, 24) = 20 serverë për raft.

Ne i konsiderojmë opsionet e mbetura në të njëjtën mënyrë:

Srack1 = 20
Srack3 = 16

Dhe ne jemi pothuajse atje. Ne numërojmë numrin e rafteve për të shpërndarë të gjithë serverët tanë S (le të jetë 1000):

R = përmbledhje (S / (Srack * Rnet)) * Rnet

R1 = përmbledhje (1000 / (20 * 1)) * 1 = 50 * 1 = 50 rafte

R2 = përmbledhje (1000 / (20 * 2)) * 2 = 25 * 2 = 50 rafte

R3 = përmbledhje (1000 / (16 * 3)) * 3 = 25 * 2 = 63 rafte

Më pas, ne llogarisim TCO-në për çdo opsion bazuar në numrin e rafteve, numrin e kërkuar të çelsave, kabllot, etj. Ne zgjedhim opsionin ku TCO është më e ulët. Fitimi!

Vini re se megjithëse numri i kërkuar i rafteve për opsionet 1 dhe 2 është i njëjtë, çmimi i tyre do të jetë i ndryshëm, sepse numri i çelsave për opsionin e dytë është gjysma e më shumë, dhe gjatësia e kabllove të kërkuara është më e gjatë.

PS Nëse keni mundësi të luani me fuqinë për raft dhe lartësinë e raftit, ndryshueshmëria rritet. Por procesi mund të reduktohet në atë të përshkruar më sipër thjesht duke kaluar nëpër opsionet. Po, do të ketë më shumë kombinime, por ende një numër shumë i kufizuar - furnizimi me energji elektrike në raft për llogaritje mund të rritet në hapa prej 1 kW, raftet tipike vijnë në një numër të kufizuar madhësish standarde: 42U, 45U, 47U, 48U , 52U. Dhe këtu analiza What-If e Excel në modalitetin e Tabelës së të Dhënave mund të ndihmojë me llogaritjet. Ne shikojmë pllakat e marra dhe zgjedhim minimumin.

Burimi: www.habr.com

Shto një koment