Uma.Tech 如何開發基礎設施

我們推出了新服務、流量成長、更換了伺服器、連接了新網站並改造了資料中心 - 現在我們將講述這個故事,我們在五年前向您介紹了這個故事的開頭.

五年是總結中期業績的典型時間。 因此,我們決定談談我們的基礎設施的發展,在過去的五年裡,我們的基礎設施經歷了一條令人驚訝的有趣的發展道路,我們對此感到自豪。 我們實施的量變已經轉變為質變;現在基礎設施可以以過去十年中看似美妙的模式運作。

我們確保最複雜的專案的運行,對可靠性和負載有最嚴格的要求,包括 PREMIER 和 Match TV。 體育賽事轉播和熱門電視劇的首播需要太比特/秒的流量,我們可以輕鬆實現這一點,而且這樣的速度對我們來說早已司空見慣。 五年前,我們系統上運行的最重的項目是 Rutube,該項目自開發以來,數量和流量不斷增加,在規劃負載時必須考慮到這一點。

我們討論瞭如何開發基礎設施的硬體(“Rutube 2009-2015:我們硬體的歷史”)並開發了一個負責上傳影片的系統(“從零到每秒 700 吉比特 - 俄羅斯最大的視頻託管網站之一如何上傳視頻”),但是自從這些文本編寫以來已經過去了很多時間,許多其他解決方案已經被創建和實施,其結果使我們能夠滿足現代要求並足夠靈活以適應新任務。

Uma.Tech 如何開發基礎設施

網路核心 我們不斷發展。 我們在2015年改用了Cisco設備,這點我們在上一篇文章中提到過。 那時仍然是相同的 10/40G,但由於顯而易見的原因,幾年後他們升級了現有機箱,現在我們積極使用 25/100G。

Uma.Tech 如何開發基礎設施

長期以來,100G 連結既不是奢侈品(而是我們所處時代的迫切需求),也不是稀有品(越來越多的營運商提供這種速度的連結)。 然而,10/40G 仍然具有相關性:透過這些鏈路,我們繼續以少量流量連接營運商,目前不適合使用更大容量的連接埠。

我們創建的網路核心值得單獨考慮,稍後將成為另一篇文章的主題。 在那裡,我們將深入研究技術細節,並在創建它時考慮我們的操作邏輯。 但現在我們將繼續更示意性地繪製基礎設施,因為親愛的讀者,您的注意力不是無限的。

視訊輸出伺服器 快速發展,為此我們付出了很多努力。 如果之前我們主要使用帶有2-4 個網卡(每個網卡有兩個5G 連接埠)的10U 伺服器,那麼現在大部分流量是從1U 伺服器發送的,這些伺服器有2-3 個網卡,每個網卡有兩個25G 連接埠。 10G 和 25G 卡的成本幾乎相同,更快的解決方案可讓您透過 10G 和 25G 進行傳輸。 結果是明顯的節省:更少的伺服器組件和連接電纜- 更低的成本(和更高的可靠性),組件在機架中佔用的空間更少- 可以在單位面積上放置更多的伺服器,從而降低租賃成本。

但更重要的是速度的提升! 現在我們可以用1U發送超過100G! 而這是在俄羅斯一些大型計畫將40U的2G輸出稱為「成就」的背景下進行的。 我們想解決他們的問題!

Uma.Tech 如何開發基礎設施

請注意,我們仍然使用只能運行在 10G 上的一代網路卡。 這台設備工作穩定,而且我們也很熟悉,所以我們沒有丟掉它,而是為它找到了新的用途。 我們將這些元件安裝在視訊儲存伺服器中,一兩個 1G 介面顯然不足以有效運作;這裡 10G 卡就足夠了。

儲存系統 也在成長。 在過去五年中,它們已從十二個磁碟(12x HDD 2U)變為三十六個磁碟(36x HDD 4U)。 有些人害怕使用如此寬敞的“機箱”,因為如果這樣的機箱出現故障,可能會對生產力甚至可操作性造成威脅! – 對於整個系統。 但這不會發生在我們身上:我們提供了地理分散式資料副本層級的備份。 我們將機箱分配到不同的資料中心(總共使用了三個),這消除了機箱故障和站點崩潰時出現問題的情況。

Uma.Tech 如何開發基礎設施

當然,這種方法使硬體 RAID 變得多餘,我們放棄了。 透過消除冗餘,我們同時透過簡化解決方案並消除潛在故障點之一來提高系統可靠性。 讓我們提醒您,我們的儲存系統是「自製的」。 我們這樣做是經過深思熟慮的,我們對結果非常滿意。

數據中心 五年來,我們發生了多次變化。 自從撰寫上一篇文章以來,我們不僅僅更改了一個資料中心 - DataLine - 隨著我們的基礎設施的發展,其餘資料中心都需要更換。 站點之間的所有轉移均已規劃。

兩年前,我們搬到了MMTS-9內部,搬到了一個維修品質高、冷卻系統良好、供電穩定、沒有灰塵的地方,以前灰塵在所有表面厚厚地沉積,也堵塞了我們設備的內部。 選擇優質服務-無塵! ——成為我們搬家的原因。

Uma.Tech 如何開發基礎設施

幾乎總是“一舉兩得”,但每次遷移過程中遇到的問題都不同。 這一次,在一個資料中心內移動的主要困難是由光交叉連接「提供」的——它們在樓層之間的豐富性並沒有被電信業者組合成單一交叉連接。 更新和重新路由交叉連接的過程(MMTS-9 工程師幫助我們)可能是遷移過程中最困難的階段。

第二次遷移發生在一年前;2019 年,我們從一個不太好的資料中心遷移到 O2xygen。 此舉的原因與上面討論的類似,但補充的是原有資料中心對電信業者缺乏吸引力的問題——許多供應商必須自己「趕上」這一點。

Uma.Tech 如何開發基礎設施

將13 個機架遷移到MMTS-9 中的高品質站點使得該位置不僅可以開發為操作員位置(幾個機架和操作員的「前沿」),而且還可以將其用作操作員的位置之一。主要的。 這在一定程度上簡化了從一個不太好的資料中心的遷移- 我們將大部分設備從該資料中心運輸到另一個站點,O2xygen 被賦予了開發中心的角色,將5 個裝有設備的機架發送到那裡。

如今,O2xygen 已經是一個成熟的平台,我們需要的運營商已經“抵達”,並且新的運營商不斷連接。 對於營運商來說,從策略發展的角度來看,O2xygen 也具有吸引力。

我們總是在一晚內完成遷移的主要階段,並且在 MMTS-9 內遷移到 O2xygen 時,我們遵守這項規則。 我們強調,無論貨架數量多少,我們都嚴格遵循「隔夜搬家」規則! 甚至還有先例,我們搬了20個機架,但一晚就完成了。 遷移是一個相當簡單的過程,需要準確性和一致性,但在準備過程、移動時以及部署到新位置時都存在一些技巧。 如果您有興趣,我們準備詳細討論遷移。

Результаты 我們喜歡五年發展計劃。 我們已經完成了分佈在三個資料中心的新的容錯基礎設施的建設。 我們大幅提高了流量密度 - 如果說最近我們對 40U 的 80-2G 感到滿意,那麼現在我們的標準是 100U 的 1G。 現在,即使是太比特的流量也被我們視為司空見慣。 我們已準備好進一步開發我們的基礎設施,事實證明該基礎設施非常靈活且可擴展。

問題: 親愛的讀者,我該在下面的文字中告訴你什麼? 關於為什麼我們開始創建自製資料儲存系統? 關於網路核心及其特徵? 關於資料中心之間遷移的技巧和微妙之處? 關於透過選擇組件和微調參數來優化交付決策? 關於透過資料中心內的多重冗餘和水平擴展功能創建可持續的解決方案,這些解決方案在三個資料中心的結構中實施?

作者:Petr Vinogradov - Uma.Tech 技術總監 倉鼠

來源: www.habr.com

添加評論