我們徹底認為,OceanStor Dorado 18000 V6 是一款真正的高階資料儲存系統,為未來幾年提供了良好的儲備。同時,我們消除了人們對全快閃儲存的普遍擔憂,並展示了華為如何充分利用它們:端到端 NVMe、SCM 上的額外快取以及一大堆其他解決方案。


新數據格局—新資料存儲
所有行業的數據強度都在增加。銀行業就是一個明顯的例子。過去幾年,銀行交易數量增加了十倍以上。如圖所示 光是在俄羅斯,2010年至2018年期間,使用塑膠卡進行的非現金交易數量就增加了三十多倍——從每人每年5,8筆增加到172筆。重點主要在於小額支付的勝利:我們大多數人都已經熟悉了網路銀行,而且銀行現在就在我們的指尖——在我們的手機上。
信貸機構的 IT 基礎設施必須做好應對此類挑戰的準備。這確實是一個挑戰。除此之外,如果以前銀行只需要在營業時間內確保資料可用性,現在需要 24/7 可用。直到最近,5 毫秒還被認為是可接受的延遲標準,但那又怎樣呢?現在即使 1 毫秒也太多了。對於現代儲存系統,目標值為 0,5 毫秒。
可靠性也是如此:在2010年代,人們形成了一種經驗認識,足以將其水準提升到「五十分」——99,999%。確實,這種理解已經過時了。 2020年,企業對儲存的要求達到99,9999%,對整體架構解決方案的要求達到99,99999%,這是絕對正常的。這並不是一時興起,而是一種迫切需求:要不是沒有基礎設施維護的時間窗口,就是時間窗口很小。

為了清楚起見,將這些指標投射到貨幣層面上會很方便。最簡單的方法是使用金融組織的例子。上圖顯示了世界十大銀行每家每小時的收入是多少。僅對中國工商銀行來說,這相當於中國最大的信貸機構 IT 基礎設施停機一小時所造成的損失(而且計算只考慮利潤損失!)。從這個角度來看,很明顯,減少停機時間和提高可靠性,不僅僅是幾個百分點,甚至是百分之一,都是完全合理的。不僅是為了提高競爭力,而且只是為了維持市場地位。
其他行業也正在發生類似的變化。例如,在航空運輸方面:在大流行之前,航空旅行只是年復一年地增長,許多人開始幾乎像出租車一樣使用它。就消費模式而言,服務全面可用的習慣已經在社會中紮根:到達機場後,我們需要Wi-Fi連接、支付服務、區域地圖等。一年前我們也認為可以接受的基礎設施和建設方法正在迅速變得過時。

現在轉向全快閃記憶體還為時過早嗎?
為了解決上述問題,從效能角度來看,AFA——全快閃陣列,也就是完全建構在快閃記憶體上的陣列——是最好的選擇。直到最近,人們仍然懷疑它們的可靠性是否與基於 HDD 和混合硬碟組裝的硬碟相當。畢竟,固態快閃記憶體有一個稱為平均故障間隔時間或MTBF(平均故障間隔時間)的指標。遺憾的是,由於 I/O 操作而導致的單元退化是必然的。
因此,如果 SSD 失效,如何防止資料遺失,全快閃記憶體的前景就變得黯淡起來。備份是一種常見的選擇,但根據現代要求,恢復時間將長得令人無法接受。另一種解決方法是在主軸驅動器上設置第二級存儲,但這種方案會失去“嚴格閃存”系統的一些優點。
然而,數字卻並非如此:包括Google在內的數位經濟巨頭近年來的統計數據表明,快閃記憶體比硬碟可靠許多倍。此外,無論是短期還是長期:快閃記憶體驅動器平均需要四到六年才會出現故障。在資料儲存的可靠性方面,它們絲毫不遜於主軸磁碟上的驅動器,甚至超過它們。

支持主軸驅動器的另一個傳統論點是它們的經濟性。毫無疑問,在硬碟上儲存 1 TB 的成本仍然相對較低。如果僅考慮硬體成本,則在主軸硬碟上儲存 1 TB 比在 SSD 上儲存更便宜。然而,在財務規劃的背景下,重要的不僅是購買特定設備的金額,還包括長期擁有該設備的總成本(三到七年)。
從這個角度來看,一切都完全不同了。即使我們去掉快閃記憶體陣列上通常使用的重複資料刪除和壓縮,使其運行更具經濟利潤,但機架中介質佔用的空間、散熱和功耗等特徵仍然存在。據他們稱,同花的表現優於前輩。因此,考慮到所有參數,快閃記憶體儲存系統的 TCO 通常幾乎是主軸驅動器或混合驅動器陣列的一半。
根據 ESG 機構的報告,Dorado V6 全快閃儲存系統可以在五年內將擁有成本降低高達 78%,包括透過有效的重複資料刪除和壓縮以及低功耗消耗和散熱。德國分析公司 DCIG 也推薦它們作為當今 TCO 的最佳產品。
使用固態硬碟可以節省可用空間,減少故障數量,減少解決方案的維修時間,並減少儲存系統的能耗和散熱。事實證明,AFA 在經濟上至少可以與主軸驅動器上的傳統陣列相媲美,並且常常超越它們。

華為皇家同花順
在我們的全快閃儲存中,排名第一的是高階系統OceanStor Dorado 18000 V6。不僅在我們之間:在整個行業中,它保持著速度記錄 - 在最大配置下高達 20 萬次 IPOS。此外,它還非常可靠:即使兩個控制器同時飛行,或多達七個控制器相繼飛行,或整個引擎同時飛行,數據也將保存下來。內建的人工智慧為「一萬八千」提供了相當大的優勢,包括管理內部流程的靈活性。讓我們看看這一切是如何實現的。

在很大程度上,華為處於領先地位,因為它是市場上唯一一家完全自行生產資料儲存系統的製造商。我們有自己的電路、自己的微代碼和自己的服務。
OceanStor Dorado系統中的控制器是基於華為自行設計和生產的處理器-鯤鵬920。 AI晶片Ascend 310也來自華為,它可以優化故障預測並提出設定建議,I/O板-Smart I/O模組也來自華為。最後,固態硬碟中的控制器是內部設計和製造的。所有這些都為制定整體平衡的高效能解決方案奠定了基礎。

在過去的一年裡,我們在俄羅斯一家大型銀行實施了一個項目,以實施我們的頂級儲存系統。結果,城域集群中的40多台OceanStor Dorado 18000 V6表現出穩定的性能:每個系統都可以去除超過百萬的IOPS,並且這也考慮了由於距離而造成的延遲。

端對端 NVMe
最新的華為儲存系統支援端對端NVMe,這是我們關注的一個原因。傳統上使用的儲存存取協定是在 IT 的古老時代開發的:它們基於 SCSI 命令(你好,1980 年代!),這需要許多功能來確保向後相容性。無論您選擇哪種存取方法,這種情況下的協定開銷都是巨大的。因此,對於使用SCSI協定的儲存設備,I/O延遲不能低於0,4~0,5ms。反過來,作為一個為與快閃記憶體配合使用而創建的協議,並且為了臭名昭著的向後相容性而擺脫了束縛,NVMe(非揮發性記憶體Express)將延遲降低至0,1 毫秒,而且不是在儲存系統上,而是在整個系統上堆疊,從主機到驅動器。 NVMe符合可預見的未來資料儲存的發展趨勢,這並不奇怪。我們也把賭注押在了 NVMe 上,並逐漸遠離 SCSI。今天生產的所有華為儲存系統,包括Dorado系列,都支援NVMe(但是,作為端到端,它僅在Dorado V6系列的高級型號上實現)。

FlashLink:一些技術
整個 OceanStor Dorado 系列的基石技術是 FlashLink。更準確地說,它是一個結合了確保高性能和可靠性的一整套技術的術語。這包括重複資料刪除和壓縮技術、RAID 2.0+資料分配系統的功能、「冷」和「熱」資料的分離、全條帶順序資料記錄(隨機記錄,以及新的和更改的數據,被聚合到一個大堆疊並按順序寫入,這提高了讀寫速度)。
除此之外,FlashLink 還包括兩個重要的組件 - 磨損均衡和全域垃圾收集。它們值得單獨討論。
事實上,任何固態硬碟都是微型儲存系統,擁有大量的區塊和保證資料可用性的控制器。除此之外,透過將來自「殺死」細胞的數據轉移到「未殺死」細胞的事實來確保這一點。這確保了它們可以被讀取。這種傳輸有多種演算法。一般來說,控制器試圖平衡所有儲存單元的磨損。這種方法有一個缺點。當資料在 SSD 內部移動時,其執行的 I/O 操作數量會大幅減少。目前,這是必要的罪。
因此,如果一個系統有很多SSD,它的性能圖表就會呈現「鋸齒」模式,急劇上升和下降。問題在於,池中的任何一個驅動器都可以隨時開始資料遷移,陣列中所有 SSD 的整體效能會同時降低。但華為工程師想出瞭如何避免「電鋸」。
幸運的是,磁碟機中的控制器、儲存控制器和微代碼都是華為原生的;OceanStor Dorado 18000 V6中的這些進程是在陣列中的所有磁碟機上集中、同步啟動的。此外,在儲存控制器的命令下並且恰好在沒有繁重的 I/O 負載的情況下。
人工智慧晶片也參與選擇正確的數據傳輸時機:根據前幾個月的訪問統計數據,它能夠以最高的機率預測在不久的將來是否會出現活躍的I/O,以及是否會出現活躍的I/ O。
此外,系統控制器可以看到每個儲存單元中發生的情況,這與競爭製造商的儲存系統不同:它們被迫從第三方供應商購買固態介質,這就是控制器無法獲得單元級詳細資訊的原因此類存儲。
因此,OceanStor Dorado 18000 V6在進行磨損平衡操作時,效能損失的時間非常短,並且主要在不干擾任何其他進程的情況下進行。這可以持續提供高性能、穩定的性能。

OceanStor Dorado 18000 V6 為何可靠?
現代資料儲存系統具有四個層級的可靠性:
- 硬件,在驅動層;
- 建築、設備層面;
- 架構以及軟體部分;
- 累積的,與整個決策有關。
讓我們提醒您,由於我們公司設計和生產儲存系統本身的所有組件,因此我們確保四個層級中每個層級的可靠性,並能夠徹底監控其中哪個層級目前發生的情況。

驅動器的可靠性主要由前面描述的磨損均衡和全局垃圾收集來保證。當 SSD 對於系統來說就像一個黑盒子時,它不知道其單元到底是如何磨損的。對於 OceanStor Dorado 18000 V6,驅動器是透明的,可以在陣列中的所有驅動器之間實現統一平衡。透過這種方式,可以顯著延長SSD的壽命並確保其運作的高可靠性。

驅動器的可靠性也受到其中額外冗餘單元的影響。除了簡單的保留之外,儲存系統還使用所謂的 DIF 單元,其中包含校驗和以及附加程式碼,除了 RAID 陣列層級的保護之外,還可以保護每個區塊免受單一錯誤的影響。

架構可靠性的關鍵是 SmartMatrix 解決方案。簡而言之,這四個控制器位於被動背板上,作為一個引擎的一部分。兩個這樣的引擎(分別帶有八個控制器)連接到帶有驅動器的公共架子上。由於 SmartMatrix,即使八個控制器中的七個停止運行,對所有資料(包括讀取和寫入)的存取仍將保留。而如果八個控制器中有六個遺失,甚至還可以繼續進行快取操作。

同一被動背板上的 I/O 板可供所有控制器(前端和後端)使用。透過這種全網狀連接方案,無論出現什麼問題,都可以始終保持對驅動器的存取。

在故障選項的背景下討論架構的可靠性是最合適的,資料儲存系統能夠提供保護。
如果兩個控制器「掉落」(包括同時掉落),儲存將不會造成任何損失。這種穩定性的實現是因為任何一個快取區塊在不同的控制器上肯定還有兩個副本,即總共存在三個副本。此外,至少有一個位於不同的引擎上。因此,即使整個引擎及其所有四個控制器停止工作,也能保證快取中的所有資訊得到保存,因為在剩餘引擎的至少一個控制器中,快取將被複製。最後,透過菊花鏈連接,您最多可以丟失七個控制器,即使將它們以兩個為一組的方式刪除,所有 I/O 和高速緩存中的所有資料都將被保留。

與其他製造商的高階儲存相比,很明顯,即使在兩個控制器或整個引擎失效後,也只有華為能夠提供完整的資料保護和完全可用性。大多數供應商使用一種帶有驅動器連接的所謂控制器對的方案。不幸的是,在此配置中,如果兩個控制器發生故障,則存在丟失對驅動器的 I/O 存取的風險。

遺憾的是,不能客觀地排除單一組件的故障。在這種情況下,效能會下降一段時間:對於那些要寫入但尚未寫入或已要求寫入的區塊,需要重建路徑並恢復 I/O 操作的存取。 OceanStor Dorado 18000 V6 的平均換道時間約為一秒,明顯低於業界最接近的同類產品(4 秒)。這是透過相同的被動背板實現的:當控制器發生故障時,其他人立即看到它的輸入輸出,特別是哪個資料塊沒有被記錄;結果,最近的控制器接管該過程。因此能夠在一秒鐘內恢復生產力。應該補充的是,間隔是穩定的:一個控制器為一秒,另一個控制器為一秒,等等。

在OceanStor Dorado 18000 V6被動背板中,所有闆卡均可被所有控制器訪問,無需任何額外尋址。這意味著任何控制器都能夠在任何連接埠上取得 I/O。無論 I/O 到達什麼前端端口,控制器都將準備好處理它。這使得內部轉移數量最少,並且平衡顯著簡化。
前端平衡是使用多路徑驅動程式執行的,而且平衡是在系統本身內執行的,因為所有控制器都能看到所有 I/O 連接埠。

傳統上,華為所有陣列的設計方式都是不存在單點故障。所有組件均可熱插拔,無需重新啟動系統:控制器、電源模組、冷卻模組、I/O 板等。

RAID-TP等技術也提高了整個系統的可靠性。這是 RAID 群組的名稱,它允許您在最多三個磁碟機同時發生故障的情況下確保自己安全。而且 1 TB 的重建始終需要不到 30 分鐘。 最佳記錄結果比主軸驅動器上相同資料量的記錄速度快八倍。因此,可以使用極其容量的驅動器,例如 7,68 甚至 15 TB,而不必擔心系統可靠性。
重要的是,重建不是在備用驅動器中進行,而是在備用空間(備用容量)中進行。每個驅動器都有專用空間,用於在發生故障後恢復資料。因此,恢復不是根據“多對一”方案而是根據“多對多”方案來執行,因此可以顯著加速該過程。只要有空閒容量,恢復就可以繼續。

另外,值得一提的是來自多個儲存的解決方案的可靠性 - 在城域叢集中,或者用華為術語來說,HyperMetro。我們的整個資料儲存系統都支援此類方案,並允許使用檔案和區塊存取。此外,它以區塊為基礎,透過光纖通道和乙太網路(包括 iSCSI)運作。
本質上,我們討論的是從一個儲存系統到另一個儲存系統的雙向複製,其中複製的 LUN 被賦予與主 LUN 相同的 LUN-ID。該技術的工作原理主要是由於兩個不同系統的快取的一致性。因此,主機位於哪一側完全沒有區別:在這裡和那裡它看到相同的邏輯驅動器。因此,沒有什麼可以阻止您部署分佈在兩個網站上的故障轉移叢集。
法定人數可以是實體法定人數,也可以是虛擬法定人數。 Linux——虛擬機器。它可以位於第三方站點,且資源需求不高。常見的做法是租用一個虛擬站點專門用於託管仲裁虛擬機器。
該技術還允許擴展:一個城域叢集中的兩個儲存設施,一個具有非同步複製功能的附加站點。

從歷史上看,許多客戶已經形成了一個「儲存動物園」:一堆來自不同製造商、不同型號、不同世代、具有不同功能的儲存系統。同時,主機的數量可能令人印象深刻,而且它們通常是虛擬化的。在這種情況下,管理的首要任務之一是快速、統一、方便地向主機提供邏輯磁碟,最好不要深入研究這些磁碟的實體位置。這就是我們的OceanStor DJ軟體解決方案的設計初衷,它可以統一管理各種資料儲存系統並提供服務,而無需綁定特定的儲存模型。

與人工智慧相同
前面已經提到,OceanStor Dorado 18000 V6內建人工智慧演算法Ascend處理器。它們首先用於預測故障,其次用於產生配置建議,這也提高了儲存的效能和可靠性。
預測期限為兩個月:AI引擎假設這段時間最有可能發生什麼,是否是時候進行擴展、更改訪問策略等。

華為人工智慧發展的下一階段涉及將其推向全球水平。在服務維護期間(故障處理或建議),華為會匯總來自所有客戶儲存設施的日誌系統的資訊。根據收集到的信息,對已發生的或潛在可能的故障進行分析,並提出全局建議- 不是基於一個甚至十幾個特定存儲系統的功能,而是基於數千個此類設備正在發生和已經發生的情況。樣本龐大,基於它,人工智慧演算法開始極快地學習,這就是預測準確性顯著提高的原因。
兼容性

2019-2020年,關於我們的設備與VMware產品的交互,有許多暗示。為了最終阻止他們,我們負責任地聲明:VMware是華為的合作夥伴。我們進行了所有可能的測試來確定我們的硬體與其軟體的兼容性,因此,在 VMware 網站上,硬體相容性表毫無保留地列出了我們生產的當前可用的儲存系統。也就是說,在VMware軟體環境下,您可以使用華為存儲,包括Dorado V6,並提供全面支援。

我們與博科的合作也是如此。我們繼續合作並測試我們產品的兼容性 - 根據他們的結果,我們可以自信地斷言我們的儲存系統與最新的 Brocade FC 交換器完全相容。

接下來是什麼?
我們不斷開發和改進我們的處理器:它們變得更快、更可靠,而且效能不斷提高。我們也正在改進人工智慧晶片——在其基礎上生產模組,以加速重複資料刪除和壓縮。那些有權訪問我們的配置器的人可能已經注意到,在 Dorado V6 型號中,這些卡已經可供訂購。
我們還致力於在存儲級內存上進行額外的緩存 - 非揮發性內存,具有特別低的延遲,每次讀取大約十微秒。除此之外,SCM 還可以提高效能,尤其是在處理大數據和解決 OLTP 問題時。下次更新後,SCM 卡應該可供訂購。
當然,文件存取功能將擴展到整個華為資料儲存系列 - 請繼續關注我們的更新。
來源: www.habr.com
