請不要因為標題就妄下結論! 我們有有力的論據來支持它,我們已經盡可能緊湊地打包它們。 我們提請您注意一篇關於我們新存儲系統的概念和操作原理的帖子,該帖子於 2020 年 XNUMX 月發布。
在我們看來,Dorado V6 存儲系列的主要競爭優勢在於標題中提到的性能和可靠性。 是的,是的,它是如此簡單,但是我們設法實現這種“簡單”的決定有哪些棘手和不那麼棘手的決定,我們今天將討論。
為了更好地釋放新一代系統的潛力,我們將討論模型系列的老代表(模型 8000、18000)。 除非另有說明,否則它們是注定的。
關於市場的幾句話
為了更好地了解華為解決方案在市場上的地位,讓我們轉向一個行之有效的標準——”
2019 年,Gartner 在其研究中將上述兩個領域合二為一——“主存儲”。 結果,華為再次進入領導者象限,僅次於 IBM、Hitachi Vantara 和 Infinidat 等供應商。
為了完成這幅圖,我們注意到 Gartner 收集了 80% 的數據用於美國市場的分析,這導致了對那些在美國有很好代表性的公司的明顯偏見。 與此同時,面向歐洲和亞洲市場的供應商發現自己處於明顯不利的地位。 儘管如此,去年華為產品在右上象限佔據了應有的位置,根據 Gartner 的判斷,“可以推薦使用”。
Dorado V6 的新功能
尤其是Dorado V6產品線,以入門級3000系列系統為代表,初期配備16個控制器,可橫向擴展至1200個控制器、192個驅動器和8GB緩存。 此外,該系統還將配備外部光纖通道(16 / 32 / 1 Gb / s)和以太網(10 / 25 / 40 / 100 / XNUMX Gb / s)端口。
請注意,沒有商業成功的協議的使用現在正在被逐步淘汰,因此一開始我們決定放棄對以太網光纖通道 (FCoE) 和 Infiniband (IB) 的支持。 它們將在以後的固件版本中添加。 對 NVMe over Fabric (NVMe-oF) 的支持在光纖通道之上開箱即用。 計劃於 XNUMX 月發布的下一個固件計劃支持 NVMe over Ethernet 模式。 在我們看來,上述設置足以滿足大多數華為客戶的需求。
文件訪問在當前固件版本中不可用,並將出現在年底的下一個更新中。 假設在本機級別實現,由帶有以太網端口的控制器本身實現,無需使用額外的設備。
Dorado V6 3000 系列型號與舊型號之間的主要區別在於它在後端支持一種協議 - SAS 3.0。 因此,那裡的驅動器只能與命名接口一起使用。 從我們的角度來看,它提供的性能對於此類設備來說已經足夠了。
Dorado V6 5000 和 6000 系列系統是中端解決方案。 它們也採用 2U 外形並配備兩個控制器。 它們在性能、處理器數量、最大磁盤數量和高速緩存大小方面各不相同。 然而,在架構和工程方面,Dorado V6 5000 和 6000 是相同的,看起來也一樣。
高端類包括Dorado V6 8000和18000系列系統,4U尺寸,默認獨立架構,控制器和驅動器分開放置。 它們也可以配備最少兩個控制器,儘管客戶通常要求四個或更多。
Dorado V6 8000 擴展到 16 個控制器,Dorado V6 18000 擴展到 32 個。這些系統具有不同的處理器,具有不同的內核數和緩存大小。 同時,保留了工程解決方案的特性,就像在中端類模型中一樣。
2U存儲架通過RDMA連接,帶寬100Gb/s。 較舊的Dorado V6後端也支持SAS 3.0,但更多的是以防帶有該接口的SSD價格下降很多。 那麼即使考慮到較低的生產率,它們的使用也將具有經濟可行性。 目前,SAS 和 NVMe 接口的 SSD 之間的成本差異很小,我們不准備推薦這樣的解決方案。
控制器內部
Dorado V6 控制器是在我們自己的元件基礎上製造的。 沒有來自英特爾的處理器,沒有來自 Broadcom 的 ASIC。 因此,主板的每個組件以及主板本身都完全不受美國公司製裁壓力相關風險的影響。 那些親眼見過我們任何設備的人可能已經註意到徽標下方帶有紅色條紋的盾牌。 這意味著該產品不含美國成分。 這是華為的官方課程 - 過渡到自己生產的組件,或者在任何情況下,在不遵守美國政策的國家生產。
這是您可以在控制器板上看到的內容。
- 通用網絡接口(海思1822芯片)負責連接光纖通道或以太網。
- 提供系統BMC芯片的遠程接入,即海思1710,實現對系統的全功能遠程控制和監控。 類似的也用於我們的服務器和其他解決方案中。
- 中央處理器,是華為公司生產的基於ARM架構的鯤鵬920芯片。 上圖中顯示的是他,儘管其他控制器可能具有不同的型號,具有不同的內核數量、不同的時鐘速度等。一個控制器中的處理器數量也因型號而異。 例如,在較舊的 Dorado V6 系列中,一塊板上有四個。
- SSD 控制器(海思 1812e 芯片),同時支持 SAS 和 NVMe 驅動器。 此外,華為自主生產SSD,但不自己生產NAND單元,更願意以未切割矽片的形式從全球四大廠商採購。 華為自主生產的芯片進行切割、測試、封裝,然後以自有品牌發布。
- 人工智能芯片是Ascend 310,默認情況下,控制器上沒有它,而是通過單獨的卡安裝,佔用了一個為網卡預留的插槽。 該芯片用於提供智能緩存行為、性能管理或去重和壓縮過程。 所有這些任務都可以在中央處理器的幫助下解決,但 AI 芯片可以讓你更高效地完成這件事。
單獨介紹鯤鵬處理器
鯤鵬處理器是一個片上系統(SoC),除了計算單元外,還有加速各種進程的硬件模塊,例如計算校驗和或執行糾刪碼。 它還實現了對 SAS、以太網、DDR4(從六通道到八通道)等的硬件支持。所有這些都讓華為能夠打造出性能不遜於經典英特爾解決方案的存儲控制器。
此外,基於 ARM 架構的專有解決方案使華為能夠創建完整的服務器解決方案,並將其作為 x86 的替代方案提供給客戶。
全新 Dorado V6 架構……
舊系列存儲系統 Dorado V6 的內部架構由四個主要子域(工廠)表示。
第一個工廠是一個公共前端(負責與 SAN 工廠或主機通信的網絡接口)。
第二個是一組控制器,每個控制器都可以通過 RDMA 協議“延伸”到任何前端網卡和相鄰的“引擎”,這是一個有四個控制器的盒子,以及電源和冷卻他們共同的單位。 現在高端級Dorado V6車型可以配備兩個這樣的“引擎”(分別是八個控制器)。
三廠負責後端,由RDMA 100G網卡組成。
最後,“硬件”第四大廠以插件式智能倉儲貨架為代表。
這種對稱結構釋放了 NVMe 技術的全部潛力,並保證了高性能和可靠性。 I/O 過程在處理器和內核之間最大程度地並行化,為多個線程提供同步讀寫。
......她給了我們什麼
Dorado V6方案的最高性能比上一代系統(同級別)提升約20倍,可達XNUMX萬IOPS。
這是因為在上一代設備中,NVMe 支持僅擴展到帶驅動器的抽屜式貨架。 現在它存在於從主機到SSD的各個階段。 後端網絡也發生了變化:SAS/PCIe 已經讓位於吞吐量為 2 Gb/s 的 RoCEv100。
SSD 外形規格也發生了變化。 如果早先每個 2U 架子有 25 個驅動器,現在它已經增加到 36 個手掌大小的物理磁盤。 此外,貨架“變聰明了”。 現在它們每個都有一個由兩個基於 ARM 芯片的控制器組成的容錯系統,類似於安裝在中央控制器中的控制器。
到目前為止,他們只是在進行數據重組,但隨著新固件的發布,壓縮和擦除編碼將被添加到其中,這將使主控制器的負載從 15% 減少到 5%。 同時將一些任務轉移到貨架上,可以釋放內部網絡的帶寬。 所有這些都顯著增加了系統的可擴展性潛力。
上一代存儲系統中的壓縮和重複數據刪除是使用固定長度的塊執行的。 現在,添加了一種使用可變長度塊的模式,目前需要強制打開。 後續更新可能會改變這種情況。
還簡要介紹了對故障的容忍度。 如果兩個控制器之一出現故障,Dorado V3 仍可運行。 Dorado V6即使XNUMX個控制器中有XNUMX個連續失效或一個引擎中有XNUMX個同時失效,也能保證數據的可用性。
經濟方面的可靠性
最近,一項針對華為客戶認為可接受的 IT 基礎設施個別元素停機時間的調查。 大多數情況下,受訪者可以容忍應用程序在幾百秒內沒有響應的假設情況。 對於操作系統或主機總線適配器,數十秒(基本上是重啟時間)是關鍵的停機時間。 客戶對網絡提出了更高的要求:其帶寬不應消失超過 10-20 秒。 您可能會猜到,最重要的受訪者考慮了存儲系統故障。 從業務代表的角度來看,簡單的存儲一年不應該超過……幾秒鐘!
換句話說,如果銀行的客戶端應用程序在 100 秒內沒有響應,這很可能不會造成災難性後果。 但是,如果存儲系統不能為相同的數量工作,則可能會導致業務中斷和重大財務損失。
上圖顯示了十大銀行的一小時工作成本(福布斯 2017 年數據)。 同意,如果貴公司的規模接近中國銀行的規模,那麼證明需要花費數百萬美元購買存儲系統就不會那麼困難。 反過來說也是正確的:如果企業在停機期間沒有遭受重大損失,那麼就不太可能購買高端存儲系統。 無論如何,重要的是要了解在系統管理員處理拒絕工作的存儲系統時,您的錢包中可能會形成多大的漏洞。
第二次故障轉移
在上圖中的方案A中,您可以認出我們上一代的Dorado V3系統。 它的四個控制器成對工作,只有兩個控制器包含緩存副本。 一對中的控制器可以重新分配負載。 同時,如您所見,這裡沒有前端和後端“工廠”,因此每個存儲架都連接到特定的控制器對。
解決方案 B 圖顯示了目前市場上來自另一家供應商(認可?)的解決方案。 這裡已經有前端和後端工廠,驅動器同時連接到四個控制器。 誠然,在系統內部算法的工作中,有些細微差別在第一次近似中並不明顯。
右邊是我們當前的 Dorado V6 存儲架構,具有完整的內部結構。 考慮一下這些系統如何在典型情況下(一個控制器發生故障)存活下來。
在包括 Dorado V3 在內的經典系統中,在發生故障時重新分配負載所需的時間達到四秒。 在此期間,I/O 完全停止。 我們同事的解決方案 B,儘管採用了更現代的架構,但故障停機時間更高,為 XNUMX 秒。
Storage Dorado V6 在發生故障後僅需一秒即可恢復工作。 這一結果的實現要歸功於允許控制器訪問“外部”內存的同質內部 RDMA 環境。 第二個重要的情況是前端工廠的存在,因此主機的路徑不會改變。 端口保持不變,負載只是通過多通道驅動程序發送到健康的控制器。
根據相同的方案,Dorado V6 中第二個控制器的故障在一秒鐘內解決。 Dorado V3 大約需要 XNUMX 秒,而另一家供應商的解決方案需要 XNUMX 秒。 對於許多 DBMS,這樣的時間間隔不再被認為是可以接受的,因為在此期間系統將切換到待機模式並停止工作。 這首先涉及由許多部分組成的 DBMS。
第三個控制器故障 Solution A 無法存活。 僅僅是因為丟失了對部分數據磁盤的訪問權限。 反過來,在這種情況下,解決方案 B 會恢復其工作能力,這與之前的情況一樣需要 XNUMX 秒。
Dorado V6 中有什麼? 一秒。
什麼可以在一秒鐘內完成
幾乎沒有,但我們不需要它。 再次,在高端級別的 Dorado V6 中,前端工廠與控制器工廠解耦。 這意味著沒有屬於特定控制器的硬編碼端口。 故障轉移不涉及尋找替代路徑或重新初始化多通道。 該系統繼續像以前一樣工作。
多重容錯
較舊的 Dorado V6 型號可以輕鬆地承受來自任何“引擎”的任何兩個(!)控制器同時發生故障。 這是因為該解決方案現在保留了三個緩存副本。 所以,即使是雙重失敗,也總會有一份完整的副本。
其中一個“引擎”中所有四個控制器的同步故障也不會導致致命後果,因為緩存的所有三個副本在任何給定時間都分佈在“引擎”中。 系統本身會監控對此類工作邏輯的遵守情況。
最後,一個不太可能發生的情況是八個控制器中的七個相繼發生故障。 此外,為保持可操作性而發生的個別故障之間的最小允許間隔為 15 分鐘。 在此期間,存儲系統有時間執行緩存遷移所需的操作。
最後一個倖存的控制器將運行數據存儲並維護緩存五天(默認值,可以在設置中輕鬆更改)。 之後,緩存將被禁用,但存儲系統將繼續工作。
無干擾更新
新的 OS Dorado V6 允許您在不重新啟動控制器的情況下更新存儲固件。
與之前的解決方案一樣,該操作系統基於 Linux,但是,許多操作進程已從內核模式轉移到用戶模式。 大多數功能,例如那些負責重複數據刪除和壓縮的功能,現在都是在後台運行的常規守護進程。 因此,無需更改整個操作系統即可更新各個模塊。 假設,要增加對新協議的支持,只需要關閉相應的軟件模塊並啟動一個新的。
很明顯,更新整個系統的問題仍然存在,因為內核中可能有一些元素需要更新。 但根據我們的觀察,這些不到總數的 6%。 這使您重新啟動控制器的頻率比以前低十倍。
容災和高可用性 (HA/DR) 解決方案
開箱即用的 Dorado V6 已準備好集成到地理分佈式解決方案、城市級集群(地鐵)和“三重”數據中心。
上圖左側是許多人已經熟悉的城域集群。 兩個存儲系統以主動/主動模式運行,彼此相距最遠 100 公里。 這種具有一個或多個仲裁服務器的基礎架構可以由來自不同公司的解決方案支持,包括我們的 FusionSphere 雲操作系統。 在此類項目中特別重要的是站點之間通道的特性,在我們的案例中,所有其他任務都由 HyperMetro 功能接管,再次可用,開箱即用。 如果需要,可以通過光纖通道以及 IP 網絡中的 iSCSI 進行集成。 不再需要強制存在專用的“暗”光學器件,因為系統能夠通過現有通道進行通信。
在構建此類系統時,存儲的唯一硬件要求是分配用於復制的端口。 購買許可證、運行法定服務器(物理或虛擬)並提供與控制器的 IP 連接(10 Mbps,50 毫秒)就足夠了。
這種架構可以很容易地轉移到具有三個數據中心的系統中(請參見插圖的右側)。 例如,當兩個數據中心以城域集群模式運行時,距離超過 100 公里的第三個站點使用異步複製。
系統在技術上支持各種業務場景,在大規模過剩的情況下將實施。
具有多個故障的城域集群的生存
上圖和下圖還展示了一個經典的城域集群,由兩個存儲系統和一個仲裁服務器組成。 如您所見,在九種可能的多重故障場景中的六種中,我們的基礎設施將保持運行。
例如,在第二種情況下,如果仲裁服務器發生故障並且站點之間的同步失敗,系統仍然可以保持生產,因為第二個站點停止工作。 此行為已內置到內置算法中。
即使在 15 次失敗之後,如果它們之間的間隔至少為 XNUMX 秒,也可以保持對信息的訪問。
袖子里通常的王牌
回想一下,華為不僅生產存儲系統,還生產全系列的網絡設備。 無論您選擇哪家存儲提供商,如果站點之間使用WDM網絡,90%的情況下都會建立在我們公司的解決方案上。 一個合乎邏輯的問題出現了:當可以從一個供應商處獲得保證彼此兼容的所有硬件時,為什麼要組裝一個系統動物園?
對於性能問題
可能沒有人需要相信過渡到全閃存存儲可以顯著降低基礎設施維護成本,因為所有日常操作的執行速度都快了許多倍。 此類設備的所有供應商都證明了這一點。 同時,許多供應商在啟用各種存儲模式時性能下降方面開始變得狡猾。
在我們這個行業,普遍的做法是下發存儲系統試運行一兩天。 供應商在一個空系統上運行了 20 分鐘的測試,獲得了宇宙性能數據。 而在實際操作中,“水下耙子”迅速爬出。 一天后,美麗的 IOPS 值減少了一半或三倍,如果存儲系統被 80% 填滿,它們會變得更少。 當啟用 RAID 5 而不是 RAID 10 時,還會損失 10-15%,並且在城域集群模式下,性能還會減半。
上面列出的所有內容都與 Dorado V6 無關。 我們的客戶有機會在周末或至少在夜間進行性能測試。 然後垃圾收集會顯現出來,而且各種選項(如快照和復制)的激活如何影響所達到的 IOPS 量也變得清晰起來。
在 Dorado V6 中,帶有奇偶校驗的快照和 RAID 對性能幾乎沒有影響(3-5% 而不是 10-15%)。 80% 滿的存儲系統上的垃圾收集(用零填充驅動器單元格)、壓縮、重複數據刪除將始終影響請求處理的整體速度。 但有趣的是Dorado V6,無論你激活什麼功能組合和保護機制,最終的存儲性能都不會低於空載時的80%。
負載均衡
Dorado V6 的高性能是通過每個階段的平衡來實現的,即:
- 多次通過;
- 使用來自一台主機的多個連接;
- 前端工廠的可用性;
- 存儲控制器操作的並行化;
- 負載分佈在 RAID 2.0+ 級別的所有驅動器上。
基本上,這是一種常見的做法。 如今,很少有人將所有數據都放在一個 LUN 上:每個人都在嘗試擁有八個、四十個甚至更多。 這是一個明顯而正確的方法,我們也贊同。 但是,如果您的任務只需要一個更易於維護的 LUN,我們的架構解決方案可使其達到多個 LUN 可用性能的 80%。
動態 CPU 調度
使用一個 LUN 時處理器上的負載分配通過以下方式實現:LUN 級別的任務被劃分為單獨的小“分片”,每個分片都嚴格分配給“引擎”中的特定控制器。 這樣做是為了使系統在跨不同控制器“跳躍”該數據時不會損失性能。
另一種保持高性能的機制是動態調度,其中某些處理器內核可以分配給不同的任務池。 例如,如果系統現在在重複數據刪除和壓縮級別處於空閒狀態,那麼某些內核可能會參與服務 I/O 的過程。 或相反亦然。 所有這些都是自動完成的,並且對用戶透明。
每個 Dorado V6 核心的當前負載數據不會顯示在圖形界面中,但您可以通過命令行訪問控制器操作系統並使用常用的 Linux 命令 最佳.
NVMe 和 RoCE 支持
如前所述,Dorado V6 目前完全支持開箱即用的 NVMe over Fibre Channel,不需要任何許可證。 年中將出現對 NVMe over Ethernet 模式的支持。 要充分利用它,您需要存儲系統本身以及交換機和網絡適配器對具有直接內存訪問 (DMA) 版本 v2.0 的以太網的支持。 例如,例如 Mellanox ConnectX-4 或 ConnectX-5。 您也可以使用基於我們芯片製作的網卡。 此外,必須在操作系統級別實施 RoCE 支持。
總的來說,我們認為 Dorado V6 是一個以 NVMe 為中心的系統。 儘管現有對光纖通道和 iSCSI 的支持,但未來計劃切換到具有 RDMA 的高速以太網。
一小撮營銷
由於Dorado V6系統具有高容錯、良好的擴展性、支持多種遷移技術等特點,隨著存儲系統的密集使用開始,其收購的經濟效果變得明顯。 我們將繼續努力使系統的所有權盡可能有利可圖,即使在第一階段並不明顯。
特別是,我們已經形成了與延長存儲系統生命週期相關的 FLASH EVER 計劃,旨在為客戶在升級過程中盡可能減輕負擔。
該方案包括多項措施:
- 能夠在不更換整個設備的情況下逐步更換新版本的控制器和磁盤架(適用於 Dorado V6 高端系統);
- 聯合存儲的可能性(將不同版本的 Dorado 組合為一個混合存儲集群的一部分);
- 智能虛擬化(使用第三方硬件作為 Dorado 解決方案的一部分的能力)。
仍然需要注意的是,世界上的困難局勢對新系統的商業前景影響不大。 儘管 Dorado V6 的正式發布僅在一月份,但我們看到中國對它的巨大需求,以及來自俄羅斯和國際金融和政府部門的合作夥伴對它的極大興趣。
除其他事項外,與大流行有關,無論持續多長時間,為遠程員工提供虛擬桌面的問題都尤為突出。 在這個過程中,多拉多V6也可以去掉很多問題。 為此,我們正在做出一切必要的努力,包括實際上同意將新系統納入 VMware 兼容性列表。
***
順便說一下,不要忘記我們不僅在俄語區而且在全球範圍內舉辦的眾多網絡研討會。 XNUMX 月份的網絡研討會列表可在
來源: www.habr.com