Optimalizace distribuce serverů mezi stojany

V jednom z chatů jsem dostal otázku:

— Mohu si přečíst něco o tom, jak správně zabalit servery do stojanů?

Uvědomil jsem si, že takový text neznám, a tak jsem napsal svůj vlastní.

Za prvé, tento text je o fyzických serverech ve fyzických datových centrech (DC). Za druhé se domníváme, že serverů je poměrně hodně: stovky tisíc, pro menší počet tento text nedává smysl. Za třetí, uvažujeme, že máme tři omezení: fyzický prostor ve stojanech, napájení každého stojanu a stojany necháme stát v řadách, abychom mohli použít jeden přepínač ToR pro připojení serverů v sousedních stojanech.

Odpověď na otázku velmi závisí na tom, jaký parametr optimalizujeme a co můžeme změnit, abychom dosáhli nejlepšího výsledku. Potřebujeme například jen zabrat minimum místa, abychom toho nechali více na další růst. Nebo možná máme svobodu ve výběru výšky racků, výkonu na rack, zásuvek v PDU, počtu racků ve skupině přepínačů (jeden přepínač pro 1, 2 nebo 3 racky), délky vodičů a tažné práce ( to je kritické na koncích řad: s 10 stojany v řadě a 3 stojany na přepínač budete muset vytáhnout dráty do jiné řady nebo nevyužívat porty v přepínači), atd., atd. Samostatné příběhy: výběr serverů a výběr DC, budeme předpokládat, že jsou vybrány.

Bylo by dobré porozumět některým nuancím a detailům, zejména průměrné/maximální spotřebě serverů a způsobu, jakým je k nám dodávána elektřina. Takže pokud máme ruský zdroj 230V a jednu fázi na rack, tak 32A stroj zvládne ~7kW. Řekněme, že nominálně platíme za 6 kW na stojan. Pokud nám poskytovatel měří spotřebu pouze pro řadu 10 stojanů a ne pro každý stojan a pokud je stroj nastaven na podmíněně 7 kW cutoff, pak technicky můžeme spotřebovat 6.9 kW v jednom stojanu, 5.1 kW v jiném a vše bude v pořádku - bez trestu.

Obvykle je naším hlavním cílem minimalizovat náklady. Nejlepším kritériem pro měření je snížení TCO (celkové náklady na vlastnictví). Skládá se z následujících dílů:

  • CAPEX: nákup DC infrastruktury, serverů, síťového hardwaru a kabeláže
  • OPEX: DC pronájem, spotřeba elektřiny, údržba. OPEX závisí na životnosti. Je rozumné předpokládat, že to budou 3 roky.

Optimalizace distribuce serverů mezi stojany

Podle toho, jak velké jsou jednotlivé kusy v celkovém koláči, musíme optimalizovat to nejdražší a zbytek nechat využít všechny zbývající zdroje co nejefektivněji.

Řekněme, že máme stávající DC, máme výšku racku H jednotek (například H=47), elektřinu na racku Prack (Prack=6kW) a rozhodli jsme se použít h=2U dvoujednotkové servery. Vyjmeme 2..4 jednotky z racku pro vypínače, patch panely a organizéry. Tito. fyzicky máme v našem racku servery Sh=rounddown((H-2..4)/h) (tj. Sh = rounddown((47-4)/2)=21 serverů na rack). Připomeňme si toto Sh.

V jednoduchém případě jsou všechny servery v racku identické. V součtu, pokud naplníme rack servery, pak na každý server můžeme utratit v průměru výkon Pserv=Prack/Sh (Pserv = 6000W/21 = 287W). Pro jednoduchost zde ignorujeme spotřebu přepínače.

Udělejme krok stranou a zjistěme, jaká je maximální spotřeba serveru Pmax. Pokud je to velmi jednoduché, velmi neúčinné a zcela bezpečné, pak čteme, co je napsáno na napájecím zdroji serveru - to je ono.

Pokud je to složitější a efektivnější, vezmeme TDP (termální návrhový balíček) všech komponent a shrneme to (není to moc pravda, ale je to možné).

Obvykle neznáme TDP komponent (kromě CPU), proto zvolíme nejsprávnější, ale také nejkomplexnější přístup (potřebujeme laboratoř) - vezmeme experimentální server požadované konfigurace a načteme jej, například u Linpacku (CPU a paměti) a fio (disky) měříme spotřebu. Když to vezmeme vážně, musíme také při testech vytvořit co nejteplejší prostředí ve studeném koridoru, protože to ovlivní spotřebu ventilátoru i CPU. Získáme maximální spotřebu konkrétního serveru s konkrétní konfigurací v těchto specifických podmínkách při této specifické zátěži. Jednoduše máme na mysli, že nový firmware systému, jiná verze softwaru a další podmínky mohou ovlivnit výsledek.

Takže zpět k Pserv a jak to porovnáme s Pmax. Jde o to pochopit, jak služby fungují a jak silné jsou nervy vašeho technického ředitele.

Pokud nebudeme riskovat, věříme, že všechny servery mohou současně začít spotřebovávat své maximum. Současně může nastat jeden vstup do DC. I za těchto podmínek musí infra poskytovat službu, takže Pserv ≡ Pmax. Toto je přístup, kde je spolehlivost absolutně důležitá.

Pokud technický ředitel přemýšlí nejen o ideálním zabezpečení, ale také o penězích společnosti a je dostatečně odvážný, můžete se rozhodnout, že

  • Začínáme řídit naše dodavatele, zejména zakazujeme plánovanou údržbu v době plánovaného špičkového zatížení, abychom minimalizovali pokles jednoho vstupu;
  • a/nebo naše architektura umožňuje ztratit rack/řádek/DC, ale služby nadále fungují;
  • a/nebo náklad dobře rozložíme vodorovně přes regály, takže naše služby nikdy nepřeskočí na maximální spotřebu v jednom regálu dohromady.

Zde je velmi užitečné nejen odhadovat, ale sledovat spotřebu a vědět, jak servery skutečně spotřebovávají elektřinu za normálních a špičkových podmínek. Technický ředitel proto po nějaké analýze zmáčkne vše, co má, a řekne: „Učiníme dobrovolné rozhodnutí, že maximální dosažitelný průměr maximální spotřeby serveru na rack je **o tolik** pod maximální spotřebou,“ podmíněně Pserv = 0.8* Pmax.

A pak 6kW rack již nepojme 16 serverů s Pmax = 375W, ale 20 serverů s Pserv = 375W * 0.8 = 300W. Tito. o 25 % více serverů. To je velmi velká úspora – vždyť hned potřebujeme o 25 % méně racků (a ušetříme i za PDU, switche a kabely). Závažnou nevýhodou takového řešení je, že musíme neustále sledovat, zda jsou naše předpoklady stále správné. Že nová verze firmware nijak výrazně nemění chod ventilátorů a spotřebu, že vývoj najednou s novým vydáním nezačal využívat servery mnohem efektivněji (čti: dosáhli větší zátěže a větší spotřeby na serveru). Ostatně pak se naše počáteční předpoklady i závěry okamžitě stanou nesprávnými. Toto je riziko, které je třeba brát zodpovědně (nebo se mu vyhnout a následně platit za zjevně nevyužité regály).

Důležitá poznámka – pokud je to možné, měli byste se pokusit distribuovat servery z různých služeb horizontálně mezi stojany. Je to nutné, aby nedocházelo k situacím, kdy pro jednu službu dorazí jedna dávka serverů, racky se jí vertikálně balí, aby se zvýšila „hustota“ (protože je to jednodušší). Ve skutečnosti se ukazuje, že jeden rack je naplněn identickými nízkozatíženými servery stejné služby a druhý je naplněn stejně vysoce vytíženými servery. Pravděpodobnost druhého pádu je výrazně vyšší, protože profil zátěže je stejný a všechny servery společně v tomto racku začnou v důsledku zvýšené zátěže spotřebovávat stejné množství.

Vraťme se k distribuci serverů do racků. Podívali jsme se na fyzický prostor v racku a omezení napájení, nyní se podíváme na síť. Můžete použít přepínače s 24/32/48 N porty (například máme 48portové ToR přepínače). Naštěstí není mnoho možností, pokud neuvažujete o vylamovacích kabelech. Zvažujeme scénáře, kdy máme jeden přepínač na rack, jeden přepínač pro dva nebo tři racky ve skupině Rnet. Zdá se mi, že více než tři stojany ve skupině je už moc, protože... problém s kabeláží mezi stojany je mnohem větší.

Takže pro každý síťový scénář (1, 2 nebo 3 racky ve skupině) rozdělujeme servery mezi racky:

Srack = min (Sh, zaokrouhlení dolů (Prack/Pserv), zaokrouhlení dolů (N/Rnet))

Tedy pro možnost se 2 stojany ve skupině:

Srack2 = min(21, zaokrouhlení dolů(6000/300), zaokrouhlení dolů(48/2)) = min(21, 20, 24) = 20 serverů na rack.

Zbývající možnosti zvažujeme stejným způsobem:

Srack1 = 20
Srack3 = 16

A jsme skoro tam. Počítáme počet racků pro distribuci všech našich serverů S (ať je to 1000):

R = roundup (S / (Srack * Rnet)) * Rnet

R1 = zaokrouhlení (1000 / (20 * 1)) * 1 = 50 * 1 = 50 stojanů

R2 = zaokrouhlení (1000 / (20 * 2)) * 2 = 25 * 2 = 50 stojanů

R3 = zaokrouhlení (1000 / (16 * 3)) * 3 = 25 * 2 = 63 stojanů

Dále vypočítáme TCO pro každou možnost na základě počtu racků, požadovaného počtu přepínačů, kabeláže atd. Volíme variantu, kde je TCO nižší. Zisk!

Všimněte si, že ačkoliv je požadovaný počet stojanů pro možnosti 1 a 2 stejný, jejich cena se bude lišit, protože počet přepínačů pro druhou možnost je poloviční a délka požadovaných kabelů je delší.

PS Pokud máte možnost hrát si s výkonem na stojan a výškou stojanu, variabilita se zvyšuje. Proces však lze zredukovat na výše popsaný jednoduchým procházením možností. Ano, bude více kombinací, ale stále velmi omezený počet - napájení rozvaděče pro výpočet lze navyšovat v krocích po 1 kW, typické rozvaděče se dodávají v omezeném počtu standardních velikostí: 42U, 45U, 47U, 48U , 52U. A zde může s výpočty pomoci analýza What-If Excelu v režimu tabulky dat. Podíváme se na přijaté talíře a vybereme minimum.

Zdroj: www.habr.com

Přidat komentář