Jak Uma.Tech vyvinul infrastrukturu

Spustili jsme nové služby, návštěvnost vzrostla, vyměnili jsme servery, připojili nové weby a předělali datová centra – a nyní budeme vyprávět tento příběh, jehož začátek jsme vám představili před pěti lety.

Pět let je typická doba pro sčítání průběžných výsledků. Proto jsme se rozhodli hovořit o rozvoji naší infrastruktury, která za posledních pět let prošla překvapivě zajímavou cestou rozvoje, na kterou jsme hrdí. Kvantitativní změny, které jsme zavedli, se změnily v kvalitativní, infrastruktura nyní může fungovat v režimech, které se v polovině minulého desetiletí zdály fantastické.

Zajišťujeme provoz nejsložitějších projektů s nejpřísnějšími požadavky na spolehlivost a zátěž, včetně PREMIER a Match TV. Sportovní přenosy a premiéry populárních televizních seriálů vyžadují provoz v terabitech/s, to snadno implementujeme a tak často je pro nás práce s takovou rychlostí již dávno samozřejmostí. A před pěti lety byl nejtěžším projektem běžícím na našich systémech Rutube, který se od té doby vyvinul, zvýšil objemy a provoz, což bylo třeba vzít v úvahu při plánování zatížení.

Mluvili jsme o tom, jak jsme vyvinuli hardware naší infrastruktury ("Rutube 2009-2015: historie našeho hardwaru") a vyvinul systém zodpovědný za nahrávání videí („Od nuly do 700 gigabitů za sekundu – jak jeden z největších webů pro hostování videa v Rusku nahrává video“), ale od napsání těchto textů uplynulo hodně času, vznikla a implementovala se spousta dalších řešení, jejichž výsledky nám umožňují plnit moderní požadavky a být dostatečně flexibilní, abychom se přizpůsobili novým úkolům.

Jak Uma.Tech vyvinul infrastrukturu

Jádro sítě Neustále se vyvíjíme. V roce 2015 jsme přešli na zařízení Cisco, o kterých jsme se zmiňovali v předchozím článku. Tehdy to bylo stále stejné 10/40G, ale z pochopitelných důvodů po několika letech upgradovali stávající šasi a nyní aktivně používáme 25/100G.

Jak Uma.Tech vyvinul infrastrukturu

100G spoje již dávno nejsou luxusem (spíše jde o naléhavý požadavek doby v našem segmentu), ani vzácností (připojování v takové rychlosti poskytuje stále více operátorů). 10/40G však zůstává relevantní: prostřednictvím těchto odkazů nadále propojujeme operátory s malým objemem provozu, pro který je v současnosti nevhodné používat prostornější port.

Jádro sítě, které jsme vytvořili, si zaslouží samostatnou úvahu a stane se tématem samostatného článku o něco později. Tam se ponoříme do technických detailů a zvážíme logiku našeho jednání při jeho vytváření. Nyní však budeme pokračovat v kreslení infrastruktury více schematicky, protože vaše pozornost, milí čtenáři, není neomezená.

Video výstupní servery rychle se vyvíjet, k čemuž nabízíme hodně úsilí. Pokud jsme dříve používali hlavně 2U servery se 4-5 síťovými kartami se dvěma 10G porty, nyní je většina provozu odesílána z 1U serverů, které mají 2-3 karty se dvěma 25G porty každý. Karty s 10G a 25G jsou cenově téměř stejné a rychlejší řešení vám umožňují přenášet přes 10G i 25G. Výsledkem byly zřejmé úspory: méně serverových komponent a kabelů pro připojení – nižší náklady (a vyšší spolehlivost), komponenty zabírají méně místa v racku – bylo možné umístit více serverů na jednotku plochy, a tedy nižší náklady na pronájem.

Ale důležitější je nárůst rychlosti! Nyní můžeme poslat více než 1G s 100U! A to na pozadí situace, kdy některé velké ruské projekty označují 40G výstup z 2U za „úspěch“. Rádi bychom jejich problémy!

Jak Uma.Tech vyvinul infrastrukturu

Všimněte si, že stále používáme generaci síťových karet, které mohou fungovat pouze na 10G. Toto zařízení funguje stabilně a je nám velmi známé, takže jsme ho nevyhodili, ale našli jsme pro něj nové využití. Tyto komponenty jsme nainstalovali na servery pro ukládání videa, u kterých jedno nebo dvě rozhraní 1G zjevně nestačí k efektivnímu fungování; zde se ukázalo, že jsou relevantní 10G karty.

Skladovací systémy také rostou. Za posledních pět let se změnily z dvanáctidiskových (12x HDD 2U) na šestatřicetidiskové (36x HDD 4U). Někteří se bojí použít tak prostorné „karosy“, protože pokud jeden takový podvozek selže, může dojít k ohrožení produktivity – nebo dokonce provozuschopnosti! – pro celý systém. U nás se to ale nestane: zajistili jsme zálohování na úrovni geograficky distribuovaných kopií dat. Šasi jsme distribuovali do různých datových center – používáme celkem tři – a tím eliminujeme výskyt problémů jak v případě poruch v šasi, tak při pádu lokality.

Jak Uma.Tech vyvinul infrastrukturu

Tento přístup samozřejmě učinil hardwarový RAID nadbytečným, což jsme opustili. Odstraněním redundance jsme současně zvýšili spolehlivost systému zjednodušením řešení a odstraněním jednoho z potenciálních bodů selhání. Připomeňme, že naše skladovací systémy jsou „domácí“. Udělali jsme to zcela záměrně a s výsledkem jsme byli naprosto spokojeni.

datová centra Za posledních pět let jsme se několikrát změnili. Od napsání předchozího článku jsme nezměnili pouze jedno datové centrum – DataLine – zbytek si vyžádal výměnu s vývojem naší infrastruktury. Všechny přesuny mezi místy byly naplánovány.

Před dvěma lety jsme se přesunuli do MMTS-9 a přestěhovali jsme se na místo s vysoce kvalitními opravami, dobrým chladicím systémem, stabilním napájením a žádným prachem, který dříve ležel v silných vrstvách na všech površích a také ucpal vnitřky našeho zařízení. . Vyberte si kvalitní služby – bez prachu! – se stal důvodem našeho přesunu.

Jak Uma.Tech vyvinul infrastrukturu

Téměř vždy „jeden pohyb se rovná dvěma požárům“, ale problémy během migrace jsou pokaždé jiné. Tentokrát byla hlavní potíž při pohybu v rámci jednoho datového centra „poskytována“ optická křížová propojení – jejich hojnost mezi podlažími, aniž by je telekomunikační operátoři spojili do jediného křížového propojení. Proces aktualizace a přesměrování křížových spojení (se kterým nám pomohli inženýři MMTS-9) byl možná nejobtížnější fází migrace.

Druhá migrace proběhla před rokem, v roce 2019 jsme přešli z nepříliš kvalitního datového centra na O2xygen. Důvody přesunu byly obdobné jako výše uvedené, byly však doplněny o problém neatraktivnosti původního datového centra pro telekomunikační operátory – mnoho poskytovatelů se do tohoto bodu muselo „dohánět“ vlastními silami.

Jak Uma.Tech vyvinul infrastrukturu

Migrace 13 racků na kvalitní místo v MMTS-9 umožnila tuto lokalitu rozvíjet nejen jako místo operátora (pár racků a „dopředu“ operátorů), ale také ji využít jako jednu z ty hlavní. Tím se migrace z nepříliš kvalitního datového centra poněkud zjednodušila – většinu zařízení jsme z něj převezli na jiné místo a O2xygen dostal roli vývojového, poslal tam 5 racků s vybavením.

Dnes je O2xygen již plnohodnotnou platformou, kam „dorazili“ operátoři, které potřebujeme, a noví se dále připojují. Pro operátory se O2xygen ukázal jako atraktivní i z pohledu strategického rozvoje.

Hlavní fázi stěhování provádíme vždy za jednu noc a při migraci v rámci MMTS-9 a na O2xygen jsme se tohoto pravidla drželi. Zdůrazňujeme, že striktně dodržujeme pravidlo „přes noc“ bez ohledu na počet stojanů! Dokonce došlo k precedentu, kdy jsme přesunuli 20 stojanů a dokončili to také za jednu noc. Migrace je poměrně jednoduchý proces, který vyžaduje přesnost a konzistenci, ale existují zde určité triky, a to jak v procesu přípravy, tak při přesunu a při nasazení na nové místo. V případě zájmu jsme připraveni hovořit o migraci podrobně.

výsledky Máme rádi pětileté rozvojové plány. Dokončili jsme výstavbu nové infrastruktury odolné proti chybám distribuované ve třech datových centrech. Prudce jsme zvýšili hustotu provozu - pokud jsme byli nedávno spokojeni s 40-80G s 2U, nyní je pro nás norma 100G s 1U. Nyní i terabit provozu vnímáme jako samozřejmost. Jsme připraveni dále rozvíjet naši infrastrukturu, která se ukázala být flexibilní a škálovatelná.

Otázka: O čem bych vám, milí čtenáři, měl v následujících textech vyprávět? O tom, proč jsme začali vytvářet domácí systémy pro ukládání dat? O jádru sítě a jeho funkcích? O tricích a jemnostech migrace mezi datovými centry? O optimalizaci rozhodnutí o dodávce výběrem komponent a doladěním parametrů? O vytváření udržitelných řešení díky vícenásobné redundanci a možnostem horizontálního škálování v rámci datového centra, která jsou implementována ve struktuře tří datových center?

Autor: Petr Vinogradov - technický ředitel Uma.Tech Křečci

Zdroj: www.habr.com

Přidat komentář