Come Uma.Tech ha sviluppato l'infrastruttura

Abbiamo lanciato nuovi servizi, il traffico è cresciuto, sostituito server, collegato nuovi siti e ristrutturato data center - e ora racconteremo questa storia, il cui inizio vi abbiamo presentato cinque anni fa.

Cinque anni sono un periodo tipico per riassumere i risultati provvisori. Abbiamo quindi deciso di parlare dello sviluppo della nostra infrastruttura, che negli ultimi cinque anni ha attraversato un percorso di sviluppo sorprendentemente interessante, di cui siamo orgogliosi. I cambiamenti quantitativi che abbiamo implementato si sono trasformati in cambiamenti qualitativi; ora l’infrastruttura può funzionare in modalità che sembravano fantastiche a metà dell’ultimo decennio.

Garantiamo il funzionamento dei progetti più complessi con i requisiti più severi di affidabilità e carichi, inclusi PREMIER e Match TV. Le trasmissioni sportive e la prima di serie TV popolari richiedono traffico in terabit/s, lo implementiamo facilmente e così spesso che lavorare con tali velocità è diventato da tempo un luogo comune per noi. E cinque anni fa, il progetto più pesante in esecuzione sui nostri sistemi era Rutube, che da allora ha sviluppato, aumentato volumi e traffico, di cui bisognava tener conto nella pianificazione dei carichi.

Abbiamo parlato di come abbiamo sviluppato l'hardware della nostra infrastruttura ("Rutube 2009-2015: la storia del nostro hardware") e ha sviluppato un sistema responsabile del caricamento dei video ("Da zero a 700 gigabit al secondo: come carica i video uno dei più grandi siti di hosting video in Russia"), ma è passato molto tempo da quando sono stati scritti questi testi, sono state create e implementate molte altre soluzioni, i cui risultati ci consentono di soddisfare le esigenze moderne e di essere sufficientemente flessibili per adattarci a nuovi compiti.

Come Uma.Tech ha sviluppato l'infrastruttura

Nucleo della rete Siamo in costante sviluppo. Siamo passati alle apparecchiature Cisco nel 2015, di cui abbiamo parlato nell'articolo precedente. Allora era sempre lo stesso 10/40G, ma per ovvie ragioni, dopo alcuni anni hanno aggiornato il telaio esistente e ora utilizziamo attivamente 25/100G.

Come Uma.Tech ha sviluppato l'infrastruttura

Per molto tempo i collegamenti 100G non sono stati né un lusso (anzi, questa è un'urgente esigenza del momento nel nostro segmento), né una rarità (sempre più operatori forniscono collegamenti a tali velocità). Rimane comunque rilevante il 10/40G: attraverso questi collegamenti continuiamo a connettere operatori con poco traffico, per i quali attualmente non è opportuno utilizzare una porta più capiente.

Il nucleo della rete che abbiamo creato merita una considerazione separata e diventerà argomento di un articolo separato poco dopo. Lì approfondiremo i dettagli tecnici e considereremo la logica delle nostre azioni durante la creazione. Ma ora continueremo a disegnare l'infrastruttura in modo più schematico, poiché la vostra attenzione, cari lettori, non è illimitata.

Server di uscita video evolversi rapidamente, per il quale offriamo molto impegno. Se prima utilizzavamo principalmente server 2U con 4-5 schede di rete con due porte 10G ciascuna, ora la maggior parte del traffico viene inviato da server 1U, che hanno 2-3 schede con due porte 25G ciascuna. Le schede con 10G e 25G hanno quasi lo stesso costo e le soluzioni più veloci consentono di trasmettere sia su 10G che su 25G. Il risultato è stato un evidente risparmio: meno componenti del server e cavi per la connessione - costi inferiori (e maggiore affidabilità), i componenti occupano meno spazio nel rack - è diventato possibile posizionare più server per unità di superficie e, quindi, ridurre i costi di noleggio.

Ma ancora più importante è il guadagno in velocità! Ora possiamo inviare più di 1G con 100U! E questo avviene in un contesto in cui alcuni grandi progetti russi definiscono l’uscita 40G da 2U un “risultato”. Vorremmo i loro problemi!

Come Uma.Tech ha sviluppato l'infrastruttura

Tieni presente che utilizziamo ancora la generazione di schede di rete che possono funzionare solo su 10G. Questa attrezzatura funziona stabilmente e ci è molto familiare, quindi non l'abbiamo buttata via, ma ne abbiamo trovato un nuovo utilizzo. Abbiamo installato questi componenti in server di archiviazione video, per i quali una o due interfacce 1G chiaramente non sono sufficienti per funzionare in modo efficace; qui le schede 10G si sono rivelate rilevanti.

Sistemi di stoccaggio stanno anche crescendo. Negli ultimi cinque anni, sono passati da dodici dischi (12x HDD 2U) a trentasei dischi (36x HDD 4U). Alcuni hanno paura di utilizzare “carcasse” così capienti, poiché se uno di questi telai si guasta, potrebbe esserci una minaccia alla produttività – o addirittura all’operatività! – per l'intero sistema. Ma da noi questo non accadrà: abbiamo previsto il backup a livello di copie geo-distribuite dei dati. Abbiamo distribuito lo chassis in diversi data center - ne utilizziamo tre in totale - e questo elimina il verificarsi di problemi sia in caso di guasti allo chassis che in caso di caduta del sito.

Come Uma.Tech ha sviluppato l'infrastruttura

Naturalmente, questo approccio ha reso ridondante il RAID hardware, che abbiamo abbandonato. Eliminando la ridondanza, abbiamo contemporaneamente aumentato l'affidabilità del sistema semplificando la soluzione ed eliminando uno dei potenziali punti di guasto. Ricordiamo che i nostri sistemi di contenimento sono “fatti in casa”. Lo abbiamo fatto in modo abbastanza deliberato e siamo rimasti completamente soddisfatti del risultato.

Centri dati Negli ultimi cinque anni siamo cambiati più volte. Dalla stesura dell'articolo precedente, non abbiamo modificato solo un data center, DataLine, il resto ha richiesto la sostituzione man mano che la nostra infrastruttura si sviluppava. Tutti i trasferimenti tra i siti erano pianificati.

Due anni fa, siamo migrati all'interno dell'MMTS-9, trasferendoci in un sito con riparazioni di alta qualità, un buon sistema di raffreddamento, alimentazione stabile e assenza di polvere, che in precedenza giaceva in strati spessi su tutte le superfici e intasava anche l'interno delle nostre apparecchiature . Scegli servizi di qualità – e niente polvere! – è diventato il motivo del nostro trasloco.

Come Uma.Tech ha sviluppato l'infrastruttura

Quasi sempre “uno spostamento equivale a due incendi”, ma i problemi durante la migrazione sono ogni volta diversi. Questa volta, la principale difficoltà di spostamento all'interno di un data center è stata "fornita" dalle connessioni incrociate ottiche, ovvero la loro abbondanza tra i piani senza essere combinate in un'unica connessione incrociata dagli operatori di telecomunicazioni. Il processo di aggiornamento e reindirizzamento delle connessioni incrociate (con il quale gli ingegneri MMTS-9 ci hanno aiutato) è stata forse la fase più difficile della migrazione.

La seconda migrazione è avvenuta un anno fa; nel 2019 siamo passati da un data center non proprio buono a O2xygen. Le ragioni del trasloco erano simili a quelle discusse sopra, ma a queste si aggiungeva il problema della scarsa attrattiva del data center originale per gli operatori di telecomunicazioni: molti provider hanno dovuto "recuperare" questo punto da soli.

Come Uma.Tech ha sviluppato l'infrastruttura

La migrazione di 13 rack in un sito di alta qualità in MMTS-9 ha permesso di sviluppare questa posizione non solo come posizione dell'operatore (un paio di rack e "avanti" degli operatori), ma anche di utilizzarla come uno dei quelli principali. Ciò ha in qualche modo semplificato la migrazione da un data center non molto buono: abbiamo trasportato la maggior parte delle apparecchiature da esso a un altro sito e a O2xygen è stato assegnato il ruolo di sviluppo, inviando lì 5 rack con apparecchiature.

Oggi O2xygen è già una piattaforma a tutti gli effetti, dove gli operatori di cui abbiamo bisogno sono “arrivati” e nuovi continuano a connettersi. Per gli operatori O2xygen si è rivelata interessante anche dal punto di vista dello sviluppo strategico.

Eseguiamo sempre la fase principale del trasferimento in una notte e durante la migrazione all'interno di MMTS-9 e verso O2xygen abbiamo rispettato questa regola. Sottolineiamo che seguiamo rigorosamente la regola dello “spostamento notturno”, indipendentemente dal numero di scaffalature! C'è stato anche un precedente in cui abbiamo spostato 20 scaffalature e abbiamo completato anche questo in una notte. La migrazione è un processo abbastanza semplice che richiede precisione e coerenza, ma ci sono alcuni trucchi qui, sia nel processo di preparazione, sia durante lo spostamento e durante la distribuzione in una nuova posizione. Siamo pronti a parlare della migrazione in dettaglio se sei interessato.

Giudizio Ci piacciono i piani di sviluppo quinquennali. Abbiamo completato la costruzione di una nuova infrastruttura tollerante ai guasti distribuita su tre data center. Abbiamo aumentato notevolmente la densità del traffico: se recentemente eravamo soddisfatti di 40-80G con 2U, ora la norma per noi è 100G con 1U. Adesso anche un terabit di traffico è percepito da noi come un luogo comune. Siamo pronti a sviluppare ulteriormente la nostra infrastruttura, che si è rivelata flessibile e scalabile.

Domanda: Cosa dovrei raccontarvi nei seguenti testi, cari lettori? Perché abbiamo iniziato a creare sistemi di archiviazione dati fatti in casa? Informazioni sul nucleo della rete e sulle sue funzionalità? Sui trucchi e le sottigliezze della migrazione tra data center? Vuoi ottimizzare le decisioni di consegna selezionando i componenti e mettendo a punto i parametri? Vuoi creare soluzioni sostenibili grazie a molteplici ridondanze e capacità di scalabilità orizzontale all'interno di un data center, implementate in una struttura di tre data center?

Autore: Petr Vinogradov - Direttore tecnico di Uma.Tech criceti

Fonte: habr.com

Aggiungi un commento