為什麼 OceanStor Dorado V6 是最快、最可靠的存儲解決方案

請不要根據標題妄下結論!我們有一些堅實的論點來支持它,我們盡可能緊湊地表達了它們。我們向您介紹一篇有關我們新資料儲存系統的概念和操作原理的文章,該系統於 2020 年 XNUMX 月發布。

為什麼 OceanStor Dorado V6 是最快、最可靠的存儲解決方案

我們認為,Dorado V6 儲存系統系列的主要競爭優勢在於標題中提到的效能和可靠性。是的,是的,就這麼簡單,但今天我們將討論我們用了哪些聰明和不那麼聰明的解決方案來實現這種「簡單」。

為了更好地展現新一代系統的潛力,我們將向您介紹該系列的舊款代表產品(8000 型、18000 型)。除非另有說明,這些就是所指的。

為什麼 OceanStor Dorado V6 是最快、最可靠的存儲解決方案

關於市場

為了更好地理解華為解決方案在市場上的地位,讓我們採用一個經過驗證的標準——“魔力像限» Gartner。兩年前,在通用磁碟陣列領域,我們公司是穩居領先地位的,僅次於NetApp和Hewlett Packard Enterprise。 2018年,華為在固態儲存市場的地位主要體現在「挑戰者」的地位上,但距離取得領導地位仍存在一些不足之處。

2019 年,Gartner 在其研究中將上述兩個領域合併為一個:「主儲存」。因此,華為再次與 IBM、Hitachi Vantara 和 Infinidat 等供應商並列成為領導者象限。

為了完善這一圖景,我們注意到 Gartner 分析的 80% 數據都是在美國市場收集的,這導致其明顯偏向那些在美國有良好代表性的公司。同時,專注於歐洲和亞洲市場的供應商發現自己處於明顯較不有利的地位。即便如此,華為產品去年仍名列右上象限,並被Gartner評為「推薦」。

為什麼 OceanStor Dorado V6 是最快、最可靠的存儲解決方案

Dorado V6 的新功能

尤其是 Dorado V6 產品線,以 3000 系列的入門系統為代表。初始配備兩個控制器,可水平擴展至最多16個控制器、1200個磁碟和192GB快取。該系統還將配備外部光纖通道(8/16/32 Gbps)和乙太網路(1/10/25/40/100 Gbps)連接埠。

需要注意的是,那些商業上不成功的協定的使用目前正在被逐步淘汰,因此我們一開始就決定放棄對乙太網路光纖通道 (FCoE) 和 Infiniband (IB) 的支援。它們將被添加到後續的韌體版本中。可透過光纖通道開箱即用地獲得 NVMe over Fabric (NVMe-oF) 支援。下一個韌體版本計劃於 6 月發布,並支援乙太網路 NVMe 模式。我們認為,上述設定足以滿足大多數華為客戶的需求。

目前韌體版本不提供文件存取功能,該功能將在年底前的下一次更新中出現。該實作應該是在本機級別,由具有乙太網路連接埠的控制器本身實現,而無需使用額外的設備。

Dorado V6 3000系列型號與舊款型號的主要區別在於,它在後端支援一種協議 - SAS 3.0。因此,那裡的驅動器只能與指定的介面一起使用。從我們的角度來看,對於這種類型的設備來說,它提供的性能已經足夠了。

Dorado V6 5000 和 6000 系列系統是中階解決方案。它們也採用 2U 外形尺寸並配備兩個控制器。它們在效能、處理器數量、最大磁碟數量和快取大小方面有所不同。然而,從架構和工程角度來看,Dorado V6 5000 和 6000 是相同的,外觀也一樣。

高階等級包括 Dorado V6 8000 和 18000 系列系統。它們採用 4U 尺寸,預設具有單獨的架構,其中控制器和驅動器位於不同的位置。在最低配置中,它們也可以只配備兩個控制器,儘管客戶通常要求安裝四個或更多。

Dorado V6 8000 可水平擴展到最多 16 個控制器,而 Dorado V6 18000 可水平擴展到最多 32 個控制器。這些系統具有不同的處理器,具有不同的核心數和快取大小。工程解決方案的特性得以保留,就像中階車型一樣。

帶有驅動器的 2U 機架透過 RDMA 連接,吞吐量為 100 Gbps。舊款 Dorado V6 系列的後端也支援 SAS 3.0,但以防具有此介面的 SSD 硬碟價格大幅下降。這樣,即使考慮到較低的生產率,它們的使用仍具有經濟可行性。目前,SAS 和 NVMe 介面的 SSD 之間的成本差異非常小,我們還沒有準備好推薦這樣的解決方案。

為什麼 OceanStor Dorado V6 是最快、最可靠的存儲解決方案

控制器內部

Dorado V6 控制器是在我們自己的元素基礎上製作的。沒有英特爾處理器,沒有博通 ASIC。這樣,主機板的每一個部件,包括主機板本身,就完全擺脫了美國公司製裁壓力帶來的風險的影響。那些親眼見過我們設備的人可能已經注意到標誌下方帶有紅色條紋的盾牌。這意味著該產品不含有美國成分。這是華為的官方政策——轉而使用自己生產的零件,或至少是那些不遵循美國政策的國家生產的零件。

這就是您在控制器板上看到的。

  • 通用網路介面(海思1822晶片)負責連接光纖通道或乙太網路。
  • 提供遠端系統可存取性的BMC晶片,即Hisilicon 1710,可實現系統的全功能遠端控制和監控。我們的伺服器和其他解決方案中也使用了類似的技術。
  • 中央處理器為華為基於ARM架構打造的鯤鵬920晶片。它就是上圖所示的那個,儘管其他控制器可能安裝了不同數量的核心、不同的時脈頻率等的不同型號。一個控制器中的處理器數量也因型號而異。例如,在高級 Dorado V6 系列中,一塊主機板上就有四個。
  • SSD控制器(海思1812e晶片),支援SAS和NVMe驅動器的連接。補充一下,華為自己生產SSD,但不自己生產NAND單元,而是傾向於從全球四大製造商以未切割的矽片形式購買。華為自己進行晶片的切割、測試和封裝,然後以自己的品牌發布。
  • AI晶片是Ascend 310,預設情況下它不存在於控制器上,而是透過單獨的卡片安裝,該卡佔用分配給網路適配器的插槽之一。該晶片用於提供智慧型快取行為、效能管理或重複資料刪除和壓縮過程。所有這些任務都可以透過CPU來解決,但AI晶片可以讓這些任務更有效率地完成。

為什麼 OceanStor Dorado V6 是最快、最可靠的存儲解決方案

關於鯤鵬處理器

鯤鵬處理器是一個系統單晶片(SoC),除了計算單元外,還包含加速各種過程的硬體模組,例如計算校驗和或執行擦除編碼。它還實現了對SAS、乙太網路、DDR4(六通道到八通道)等的硬體支持,這一切使得華為能夠打造出性能不遜於經典英特爾解決方案的儲存控制器。

此外,華為專有的基於 ARM 的解決方案使其能夠創建成熟的伺服器解決方案,並將其作為 x86 的替代方案提供給客戶。

為什麼 OceanStor Dorado V6 是最快、最可靠的存儲解決方案

全新 Dorado V6 架構…

高階系列 Dorado V6 儲存系統的內部架構由四個主要子域(工廠)表示。

第一個結構是通用前端(負責與 SAN 結構或主機通訊的網路介面)。

第二個是一組控制器,每個控制器都可以透過 RDMA 協定“到達”任何前端網卡或相鄰的“引擎”,“引擎”是一個帶有四個控制器的盒子,以及它們共用的電源和冷卻裝置。目前,高階的 Dorado V6 車型可以配備兩個這樣的「引擎」(分別是八個控制器)。

第三個工廠負責後端,由RDMA 100G網路卡組成。

最後,「硬體」上的第四個工廠是連接儲存設備的智慧貨架。

這種對稱結構充分發揮了NVMe技術的潛力,並確保了高性能和可靠性。輸入/輸出過程盡可能在處理器和核心之間並行化,從而為多個執行緒提供同時讀取和寫入的功能。

為什麼 OceanStor Dorado V6 是最快、最可靠的存儲解決方案

……她給了我們什麼?

Dorado V6解決方案最高效能較上一代系統(同級)提升約20倍,可達XNUMX萬IOPS。

這是因為在上一代裝置中,NVMe 支援僅在具有磁碟機的連接架上可用。現在它存在於從主機到SSD的各個階段。後端網路也發生了變化,SAS/PCIe 讓位於吞吐量為 2 Gbps 的 RoCEv100。

SSD 外形尺寸本身也改變了。如果以前每個 2U 機架有 25 個驅動器,那麼現在已經增加到 36 個手掌大小的實體格式磁碟。此外,貨架也變得更加「智慧」。現在,它們每個都擁有一個基於 ARM 晶片的兩個控制器的容錯系統,類似於安裝在中央控制器中的控制器。

為什麼 OceanStor Dorado V6 是最快、最可靠的存儲解決方案

目前他們只進行資料重組,但隨著新韌體的發布,將添加壓縮和擦除編碼,這將使主控制器的負載從 15% 減少到 5%。將一些任務移到架子上還可以釋放內部網路的頻寬。所有這些都大大增加了系統的可擴展潛力。

上一代的儲存系統中壓縮和重複資料刪除是使用固定長度的區塊執行的。現在新增了使用可變長度區塊的模式,但仍需要強制啟用。後續韌體更新可能會改變這種情況。

另外,簡單說一下拒絕容忍度。如果兩個控制器中的一個發生故障,Dorado V3 仍可繼續運作。 Dorado V6 即使八個控制器中七個連續發生故障,或一個引擎中的四個同時發生故障,也能確保資料的可用性。

為什麼 OceanStor Dorado V6 是最快、最可靠的存儲解決方案

從經濟角度看可靠性

華為最近對其客戶進行了一項調查,以了解該公司認為其 IT 基礎設施各個元素的停機時間可以接受的程度。大多數情況下,受訪者可以容忍應用程式數百秒無回應的假設情況。對於作業系統或主機匯流排適配器,關鍵停機時間為數十秒(基本上是重新啟動時間)。客戶對網路提出了更高的要求:其吞吐量損失不應超過 10 至 20 秒。正如您可能猜到的那樣,受訪者認為儲存系統故障是最嚴重的。從業務角度來看,儲存停機時間不應超過…每年幾秒鐘!

換句話說,如果銀行的客戶端應用程式100秒內沒有回應,很可能不會造成災難性的後果。但如果儲存系統在相同的時間內無法運行,可能會導致業務關閉和重大財務損失。

為什麼 OceanStor Dorado V6 是最快、最可靠的存儲解決方案

上圖顯示了十大銀行每小時的工作成本(福布斯 2017 年數據)。同意,如果貴公司的規模與中國的銀行相近,那麼證明購買數百萬美元的儲存系統的必要性就不會那麼困難了。反之亦然:如果企業沒有因停機而遭受重大損失,那麼就不太可能購買高階儲存系統。無論如何,當系統管理員處理已停止工作的資料儲存系統時,重要的是要了解您的錢包可能出現的漏洞的大小。

為什麼 OceanStor Dorado V6 是最快、最可靠的存儲解決方案

一秒緊急切換

上圖中的解決方案 A 是我們上一代 Dorado V3 系統。它的四個控制器成對工作,並且快取副本僅包含在兩個控制器中。一對控制器可以重新分配負載。同時,如您所見,這裡沒有前端和後端“工廠”,因此每個帶有驅動器的架子都連接到特定的控制器對。

解決方案 B 圖顯示了目前市場上另一家供應商提供的解決方案(認識嗎?)。已經有前端和後端工廠,驅動器同時連接到四個控制器。確實,系統內部演算法的運作中存在一些不太明顯的細微差別。

右側是我們目前的 Dorado V6 儲存架構,其中包括所有內部元件。讓我們考慮一下這些系統如何應對典型情況——一個控制器發生故障。

在包括 Dorado V3 在內的經典系統中,發生故障時重新分配負載所需的時間達到四秒。在此期間,輸入/輸出完全停止。在我們同事提供的解決方案 B 中,儘管採用了更現代的架構,但發生故障時的停機時間甚至更長——六秒鐘。

Dorado V6儲存系統故障後僅需XNUMX秒鐘即可恢復。這一結果得益於同質的內部 RDMA 環境,它允許控制器存取「外部」記憶體。第二個重要情況是存在前端工廠,因此主機的路徑不會改變。連接埠保持不變,負載只是透過多路驅動器發送到工作控制器。

Dorado V6中第二個控制器故障也依照同樣的方案在3秒內處理。對於 Dorado VXNUMX,大約需要六秒,而對於其他供應商的解決方案,則需要九秒。對於許多 DBMS 來說,這樣的間隔不再被認為是可以接受的,因為在此期間系統會切換到待機模式並停止運作。這主要涉及由多個部分組成的 DBMS。

解決方案 A 無法承受第三個控制器的故障。只是因為無法存取某些包含資料的磁碟。反過來,在這種情況下,解決方案 B 會恢復功能,與前一種情況一樣,這需要九秒鐘。

Dorado V6 有哪些功能?一秒鐘。

為什麼 OceanStor Dorado V6 是最快、最可靠的存儲解決方案

一秒鐘你能做什麼?

幾乎沒有,但我們不需要。讓我們再次重申,在高端 Dorado V6 中,前端工廠與控制器工廠是分開的。這意味著沒有嚴格分配屬於特定控制器的連接埠。故障重建不涉及搜尋替代路徑或重新初始化多遍。系統繼續像以前一樣運作。

為什麼 OceanStor Dorado V6 是最快、最可靠的存儲解決方案

多重故障容忍度

較舊的 Dorado V6 型號可以輕鬆承受任何“引擎”上的任何兩個(!)控制器同時發生故障。這是因為該解決方案現在儲存了三個快取副本。因此,即使發生雙重故障,也總會有完整的副本。

其中一個引擎的所有四個控制器同步發生故障也不會造成致命的後果,因為快取的所有三個副本在任何給定時間都會分佈在引擎之間。系統本身監控是否遵守該操作邏輯。

最後,極不可能發生的情況是八個控制器中有七個連續發生故障。此外,為保持可操作性,可接受的單一故障之間的最小間隔為 15 分鐘。在此期間,儲存系統有時間執行遷移快取所需的操作。

最後倖存的控制器將保持資料儲存運作並維護快取五天(預設值,可在設定中輕鬆更改)。此後,快取將被停用,但儲存系統將繼續運作。

為什麼 OceanStor Dorado V6 是最快、最可靠的存儲解決方案

禁止打擾更新

新的 Dorado V6 OS 可讓您無需重新啟動控制器即可更新儲存系統的韌體。

與先前的解決方案一樣,該作業系統基於Linux,但許多操作流程已從核心移至使用者模式。大多數功能(例如負責重複資料刪除和壓縮的功能)現在都是在背景運行的常規守護程式。由於這一點,無需更改整個作業系統即可更新單一模組。假設要添加對新協議的支持,您只需禁用相應的軟體模組並啟動一個新的。

顯然,關於更新整個系統的問題仍然存在,因為即使是核心也可能包含需要更新的元素。但根據我們的觀察,這些只佔總數的不到6%。這使得您重新啟動控制器的頻率比以前減少幾十倍。

為什麼 OceanStor Dorado V6 是最快、最可靠的存儲解決方案

抗災和高可用性 (HA/DR) 解決方案

Dorado V6 開箱即用,可整合至地理分散式解決方案、城域叢集和三重資料中心。

上圖左側是許多人已經熟悉的城域網路。兩個儲存系統以主動/主動模式運行,彼此相距最遠 100 公里。這種具有一個或多個仲裁伺服器的基礎設施可以由不同公司的解決方案支持,包括我們的 FusionSphere 雲端作業系統。在這樣的專案中,網站之間的通道特性特別重要;在我們的案例中,所有其他任務均由 HyperMetro 功能承擔,該功能同樣是「開箱即用」的。如果有需要,可以透過光纖通道進行集成,也可以透過 IP 網路中的 iSCSI 進行集成。由於系統能夠透過現有管道進行通信,因此不再需要專用的「暗」光學器件。

在建構這樣的系統時,儲存系統的唯一硬體要求是分配用於複製的連接埠。只需購買許可證、啟動仲裁伺服器(實體或虛擬)並為控制器提供 IP 連線(10 Mbit/s,50 ms)即可。

此架構可以輕鬆移植到三資料中心系統(見圖右側)。例如,當兩個資料中心以城域叢集模式運作時,距離超過 100 公里的第三個站點使用非同步複製。

該系統在技術支援發生大規模事件時將實施的各種業務場景。

為什麼 OceanStor Dorado V6 是最快、最可靠的存儲解決方案

城域集群在發生多個故障時的生存能力

上圖和下圖也展示了由兩個儲存系統和一個仲裁伺服器組成的經典城域叢集。如您所見,在九種可能的多重故障場景中的六種中,我們的基礎設施仍將保持運作。

例如,在第二種情況下,如果仲裁伺服器和站點之間的同步發生故障,系統仍能保持高效,因為第二個站點停止運作。此行為已內建於內建演算法中。

即使發生三次故障,如果三次故障之間的間隔至少為 15 秒,則仍然可以保持對資訊的存取。

為什麼 OceanStor Dorado V6 是最快、最可靠的存儲解決方案

你熟悉的王牌

需要提醒的是,華為不僅生產儲存系統,還生產全系列的網路設備。無論您選擇哪家儲存系統供應商,如果站點之間使用WDM網絡,90%的情況下都會採用我們公司的解決方案。一個合乎邏輯的問題出現了:當所有保證相互兼容的硬體都可以從一個供應商處獲得時,為什麼還要組裝一個系統動物園呢?

為什麼 OceanStor Dorado V6 是最快、最可靠的存儲解決方案

關於生產力問題

可能不需要任何人說服,過渡到全快閃儲存系統可以顯著降低基礎設施維護成本,因為所有常規操作的執行速度都快了很多倍。所有此類設備的供應商都證明了這一點。同時,許多供應商在談到開啟各種儲存系統操作模式時效能下降的問題時開始變得不誠實。

在我們的產業中,發放儲存系統供測試使用一兩天是常見的做法。供應商在空系統上運行了 20 分鐘的測試,獲得了天文數字的性能數據。但在實際使用中,「水下耙子」很快就顯現出來。在 80 小時內,美麗的 IOPS 值會減少兩到三倍,如果儲存系統被填滿到 5%,它們會更少。當啟用 RAID 10 而不是 RAID 10 時,又會損失 15-XNUMX%,而在城域叢集模式下,效能會進一步減半。

上面列出的所有內容都與 Dorado V6 無關。我們的客戶有機會在週末或至少夜間進行性能測試。這就是垃圾收集發揮作用的地方,以及啟用快照和複製等各種選項如何影響實現的 IOPS 數量。

在 Dorado V6 中,快照和帶有奇偶校驗的 RAID 對效能幾乎沒有影響(3-5% 而不是 10-15%)。在 80% 已滿的儲存系統上進行垃圾收集(用零填充儲存單元)、壓縮和重複資料刪除將始終影響請求處理的整體速度。但 Dorado V6 的有趣之處在於,無論您啟動哪種功能和保護機制組合,儲存系統的最終效能都不會低於無負載時所獲得資料的 80%。

為什麼 OceanStor Dorado V6 是最快、最可靠的存儲解決方案

負載均衡

Dorado V6 的高性能是透過每個階段的平衡來實現的,即:

  • 多次通過;
  • 使用來自一個主機的多個連線;
  • 存在前端工廠;
  • 儲存系統控制器操作的並行化;
  • 在 RAID 2.0+ 等級上跨所有磁碟機分配負載。

原則上,這是常見的做法。如今,很少有人將所有資料保存在一個 LUN 上:每個人都試圖擁有八個、四十個甚至更多。這是我們共同的、顯而易見且正確的做法。但是,如果您的應用程式只需要一個 LUN(更易於維護),我們的架構解決方案可讓您透過多個 LUN 實現 80% 的效能。

為什麼 OceanStor Dorado V6 是最快、最可靠的存儲解決方案

處理器負載的動態調度

我們實現了以下方式來在使用一個 LUN 時分配處理器上的負載:在 LUN 級別將任務劃分為單獨的小“分片”,每個分片都嚴格分配給“引擎”中的特定控制器。這樣做是為了確保系統在跨不同控制器「跳躍」此數據時不會損失效能。

保持高效能的另一種機制是動態調度,其中某些處理器核心可以分配給不同的任務池。例如,如果系統目前在重複資料刪除和壓縮等級處於空閒狀態,則某些核心可能參與 I/O 服務過程。或反之亦然。所有這些都是自動完成的,對使用者來說是透明的。

Dorado V6 的每個核心的當前負載資料不會顯示在圖形介面中,但您可以透過命令列存取控制器作業系統並使用常規 Linux 命令 最佳.

為什麼 OceanStor Dorado V6 是最快、最可靠的存儲解決方案

NVMe 和 RoCE 支持

如上所述,Dorado V6 目前完全支援開箱即用的 NVMe over Fibre Channel,並且不需要任何許可證。對 NVMe over 乙太網路模式的支援將於年中出現。要充分使用它,您將需要儲存系統本身以及交換器和網路適配器對直接記憶體存取 (DMA) 版本 v2.0 的乙太網路的支援。例如 Mellanox ConnectX-4 或 ConnectX-5。您也可以使用基於我們的微電路的網路卡。此外,必須在作業系統層級實現 RoCE 支援。

整體而言,我們認為 Dorado V6 是一個以 NVMe 為導向的系統。儘管目前已經支援光纖通道和 iSCSI,但未來計劃切換到使用 RDMA 的高速乙太網路。

為什麼 OceanStor Dorado V6 是最快、最可靠的存儲解決方案

一點行銷

由於Dorado V6系統具有較高的抗故障能力、良好的水平擴展能力、支援各種遷移技術等特點,隨著儲存系統開始密集使用,其購買的經濟效果逐漸顯現。我們將繼續努力使擁有該系統盡可能有利可圖,即使這還不是顯而易見的。

特別是,我們創建了 FLASH EVER 計劃,該計劃與延長儲存系統的生命週期有關,旨在盡可能減輕客戶在升級過程中的負擔。

為什麼 OceanStor Dorado V6 是最快、最可靠的存儲解決方案

該計劃包括多項措施:

  • 能夠逐步以新版本的磁碟替換控制器和機架,而無需更換整個設備(適用於高階 Dorado V6 系統);
  • 聯合儲存的可能性(將不同版本的 Dorado 組合成一個混合儲存叢集);
  • 智慧虛擬化(使用第三方硬體作為 Dorado 解決方案的一部分的能力)。

為什麼 OceanStor Dorado V6 是最快、最可靠的存儲解決方案

值得注意的是,世界困難局勢對新系統的商業前景影響不大。儘管 Dorado V6 於 XNUMX 月才正式發布,但我們發現中國市場對它的需求很大,而且來自俄羅斯和國際金融部門和政府機構的合作夥伴也對它很感興趣。

除此之外,無論疫情持續多久,為遠端員工提供虛擬桌面的問題都變得特別突出。在這個過程中,Dorado V6也能解答很多疑問。為此,我們正在盡一切努力,包括幾乎已經同意將新系統納入VMware相容清單。

***

順便說一句,不要忘記我們舉辦的眾多網路研討會,這些研討會不僅在俄語區舉行,而且在全球範圍內舉行。四月份網路研討會清單可訪問 鏈接.

來源: www.habr.com