Bloomberg Storage 支持團隊依賴開源和 SDS

Bloomberg Storage 支持團隊依賴開源和 SDS

TL博士:彭博存儲工程團隊創建了內部使用的雲端存儲,不會幹擾基礎設施,並且可以承受大流行期間交易波動的重載。

馬修·倫納德 (Mattew Leonard) 在談到他作為彭博存儲工程團隊的技術經理的工作時,經常使用“挑戰”和“有趣”這兩個詞。 挑戰來自廣泛的儲存範圍,從最新的基於 NVMe 的 SAN 陣列到 DevOps 中的開源軟體定義儲存。 這就是「樂趣」開始的地方(請參閱我在 Habré 上的頭像, 約譯員).

Leonard 和他的 25 名同事團隊負責管理超過 100 PB 的容量和一個內部雲,供 6000 名工程師開發 Bloomberg Terminal 應用程序,正是這項技術使 Michael Bloomberg 成為了億萬富翁。 團隊為 Bloomberg Engineering 設計、建置和維護儲存系統。

與 IT 行業的其他人員一樣,2020 年對於儲存工程團隊的成員來說是不尋常的一年,因為 COVID-19 迫使他們遠端工作。 倫納德表示,由於面對面的互動被取消,疫情對他的「緊密團隊」產生了社交影響,但員工很快就適應了在家中使用筆記型電腦和視訊會議工作。

令人驚訝的是,我想說這並沒有讓事情變得更糟。 適應期很短——並不是每個人都準備好在家工作。 一兩週後,每個人都明白了這一點。 在這段時間裡,我們能夠找到讓自己忙碌的方法,購買和升級設備,並增加成本來支援公司。 我們必須發揮創造力,但我們沒有受傷

最大的挑戰可能早於 COVID-19 高峰期。 這是由於擔心疫情對全球經濟的影響而導致市場交易波動。 從全球資本市場流入彭博終端的資料量幾乎翻了一番,240月下旬的某些日子達到了XNUMX億資訊。 這是對儲存系統的嚴峻考驗。

當您在一天內立即將儲存需求增加一倍時,確實會產生有趣的問題。 我們能夠克服這個問題,並確保為應用程式開發團隊提供所需的空間和效能。 這大部分與我們如何看待儲存系統有關。 今天我們沒有創造任何東西。 我們不會說:“我們使用 ABC,所以我們將為 ABC 建立基礎設施。” 我們與團隊一起進行所謂的“數據預算”,以預測使用情況、分析使用情況和性能趨勢,我們也將關注安全性。 這種計劃、思考和有條不紊的盡職調查使我們能夠毫不費力地對激增採取嚴厲行動。 當然,我很緊張,但我在自己的位置上感到很舒服。

Leonard 最近與 SearchStorage 詳細討論了資料驅動型企業的儲存管理問題。 他討論如何提供私有雲儲存解決方案,使其能夠向使用者提供 AWS 功能,同時將任何資料保存在 Bloomberg 資料中心。

如果不再有大流行,彭博工程師在管理儲存方面會遇到什麼困難?

我們有很多需求,我們只是被拉向不同的方向。 因此,我們需要提供不同SLA等級的許多不同類型的產品,以幫助我們的應用程式開發人員專注於他們的任務,而不是擔心儲存本身。

您為此採取什麼策略?

我們正在嘗試做的部分工作是提高儲存效能。 想想 AWS 模型,開發工程師走進來,按下按鈕,然後「點擊」神奇地獲得正確的儲存類型來解決他的問題。

您的儲存基礎架構是什麼樣的?

由於我們擁有非常多樣化的生態系統和許多不同的開發人員,因此我們無法提供單一產品。 我們有物件、文件和區塊儲存。 這些是不同的產品,我們提供不同類型的技術來交付它們。 對於區塊,我們使用 SAN。 我們還有 SDS,它提供了另一種具有不同效能要求的區塊儲存選項。 對於文件,我們使用 NFS。 SDS 也用於物件儲存。 區塊和物件部分形成了用於計算和儲存的內部私有雲。

那麼您不使用公有雲儲存嗎?

這是正確的。 一些開發團隊有權使用公有雲。 但由於我們業務的性質,我們更願意對離開我們牆壁的東西有更多的控制權。 所以,是的,我們有自己的雲,並且在我們的控制之下。 這是位於我們管理的資料中心內的設備。

在我們的資料中心,我們更喜歡多供應商策略。 他們是大型供應商,但我們不會透露具體是誰(彭博社的政策是不支持任何供應商, 約譯員).

您是否使用超融合基礎架構來建立您的私有雲?

不。 我們彭博社正在選擇一個不走向超融合的方向。 我們正在嘗試將計算與存儲分離,以便我們可以獨立擴展它們。 我們前進的方向,尤其是我們的雲,是讓我們能夠將這兩個實體分開。 這都是因為我們國家有些事情需要密集運算,而有些則需要儲存。 如果均勻地擴展它們,您將損失資源,無論是金錢還是資料中心的空間,或購買不需要的容量。 這就是為什麼我們希望在兩個實體之間有一個通用的接口,但讓它們成為完全不同的系統並由不同的團隊管理。

建構私有雲需要克服哪些障礙?

規模問題。 就像大多數事情一樣,細節決定成敗。 當您思考這些東西如何運作、如何使它們具有彈性、如何處理營運負載、如何與實體資產團隊溝通時,事情就會變得有點有趣。 我們面臨的挑戰是找到一種方法,使一切成為我們的應用程式開發人員想要使用的可擴展且可支援的產品,能夠豐富功能集,同時保持公有雲正在做的事情的最前沿。 並且還要將所有這些整合在一起,以便它繼續發揮作用。 這是我們的主要問題——我們在業務的各個領域開展工作,並努力滿足所有需求,但不忽視其他需求。

您認為您需要 AWS 和其他公有雲中提供的最新功能嗎?

S3 最有趣的事實是生活水準不斷變化,新功能不斷添加。 這就像一個新玩具。 如果有人在新版本中看到新功能,他們就會想要它。 並非所有 AWS 功能都適用於我們的環境,因此了解哪些功能可以幫助開發人員以及如何在內部使用這些功能非常重要且有趣。

您使用什麼儲存設備?

我們使用最新的設備。 我們的內部雲端完全基於NVMe Flash,這使得這些系統非常強大。 它使我們的生活變得更加輕鬆,對於我們的開發人員來說這也是一個很好的功能,因為他們不必擔心儲存效能。

您使用物件儲存做什麼?

我們有 6000 名開發人員致力於基礎設施建設,他們並不因任何一種用例而團結在一起。 您能想到的任何選項,我們都可能在物件儲存中提供。 一些團隊將其用於冷檔案存儲,一些團隊將其用於數據傳輸,還有一些團隊將其用於事務應用程式。 所有這些用例都需要不同等級的 SLA,因此如您所見,我們有不同類型的流量,以及基礎架構的不同使用者的各種需求。 這不是在我們的任何儲存之上運行的同類用例,這顯然使事情變得更加複雜。

Kubernetes 和容器對您來說有多大作用?這對儲存有何影響?

我們正在推動儲存生產力,以創造一種雲端的感覺,一種服務即服務的感覺,開發人員可以透過一個按鈕來加速他們的技術並在此過程中刪除基礎設施。

編者註:15年2020月XNUMX日準備就緒 Ceph 視訊課程。 您將學習 Ceph 網路儲存技術,以在專案中使用它來提高容錯能力。

我們有三個團隊,第一個是儲存API團隊。 他們為 Bloomberg 的應用程式開發客戶提供程式存取、端點和預定義工作流程。 這是一個全端Web開發人員團隊,他們使用node.js、python、Apache Airflow等開源技術,因此他們研究容器化和虛擬化。

我們還有兩個實際移動位元和位元組的技術團隊。 它們與設備更直接相關。 我們有很多設備,這些團隊沒有使用虛擬化和容器。

我們正在努力跟上行業中正在發生的事情,研究 Kubernetes CSI 驅動程序,並與 Bloomberg 實施 Kubernetes 的團隊密切合作,以評估我們是否可以使 Kubernetes 存儲與我們擁有的技術一致地工作,並且我們已經它工作了。 我們使用SDS來支援Kubernetes連接到持久性儲存。 我們已經成功開發了這項技術,兩個團隊仍在繼續討論如何將這項技術提供給彭博社的其他人。 我們已經證明這是完全可能的。

您還使用哪些其他開源軟體,特別是儲存方面的軟體?

我們使用 Apache Airflow、HAProxy 來限制應用程式流量。 我們也使用 Ceph,一個 SDS 平台。 有了它,您可以擁有一個命令系統,但為客戶端提供多個介面。 其中一個虛擬化平台在 OpenStack 上運行 - 我們與該團隊密切合作。 我們有一個開源虛擬化平台,使用開源SDS平台進行儲存。 這很有趣。

您在未來兩到三年內考慮使用哪些儲存技術?

我們一直在研究儲存行業中發生的其他很酷的新事物。 這是我們工作的一部分,而不是「這是你的 SAN,在這裡管理,這裡是你的 NFS,在那裡管理」。 我們嘗試與客戶溝通,即由我們的應用程式開發人員。 我們共同努力了解他們試圖解決哪些問題以及它將如何影響我們的外部彭博客戶 - 銀行和其他使用我們軟體的客戶。 然後我們回到資料儲存世界,尋找機會幫助他們實現目標。 我們如何幫助他們找到適合其 SLA 或他們想要做什麼的正確儲存技術? 因為我們有這麼多工程師在做很酷的事情,所以永遠不會變得無聊。

我們目前正在研究提高可能在通用伺服器上運行的 SDS 效能的方法。 因此,我們正在研究 NVMe over TCP,這是一項非常有趣且很酷的舉措,也是眾多舉措之一。 我們也正在與行業關鍵人士和一些現有供應商合作,以了解他們提供的產品以及實際性能如何,我們是否可以開始在公司的生產中使用它。 這開啟了以前無法進入的新視野。

對PS有一點幫助

PS 如果可以的話,我想提醒您,28月30日至XNUMX日將舉行 密集的 Kubernetes 基礎,適合那些不了解 Kubernetes,但想要熟悉它並開始使用它的人。

來源: www.habr.com

添加評論