大容量存儲系統的行業趨勢

今天,我們將討論如何在第五代網絡、基因組掃描儀和自動駕駛汽車一天產生的數據超過工業革命前全人類產生的數據的世界中最好地存儲數據。

大容量存儲系統的行業趨勢

我們的世界產生越來越多的信息。 其中一些是稍縱即逝的,一旦收集起來就會丟失。 另一個應該保存更長時間,另一個完全是“百年”設計的——至少我們現在是這樣看的。 信息流以如此之快的速度進入數據中心,任何旨在滿足這種無休止“需求”的新方法、任何技術都將迅速變得過時。

大容量存儲系統的行業趨勢

分佈式存儲發展40年

我們熟悉的第一個網絡存儲出現在 1980 年代。 你們中的許多人都遇到過 NFS(網絡文件系統)、AFS(Andrew 文件系統)或 Coda。 十年後,時尚和技術發生了變化,分佈式文件系統已經讓位於基於 GPFS(通用並行文件系統)、CFS(集群文件系統)和 StorNext 的集群存儲系統。 作為基礎,使用了經典架構的塊存儲,在其之上使用軟件層創建了單個文件系統。 這些和類似的解決方案仍在使用,佔據了他們的利基並且需求量很大。

千禧年之際,分佈式存儲範式發生了一些變化,採用 SN(Shared-Nothing)架構的系統佔據了主導地位。 從集群存儲過渡到單獨節點上的存儲,通常,這些節點是帶有提供可靠存儲的軟件的經典服務器; 例如,HDFS(Hadoop 分佈式文件系統)和 GFS(全局文件系統)構建了這樣的原則。

接近 2010 年,分佈式存儲系統的概念越來越多地開始反映在成熟的商業產品中,例如 VMware vSAN、Dell EMC Isilon 和我們的 華為OceanStor. 上述平台的背後不再是愛好者社區,而是特定的供應商,他們負責產品的功能、支持、服務維護並保證其進一步發展。 此類解決方案在多個領域的需求量最大。

大容量存儲系統的行業趨勢

電信運營商

也許分佈式存儲系統最古老的消費者之一是電信運營商。 該圖顯示了哪些應用程序組產生了大量數據。 OSS(運營支持系統)、MSS(管理支持服務)和 BSS(業務支持系統)是向用戶提供服務、向提供商提供財務報告以及向運營商工程師提供運營支持所需的三個互補軟件層。

通常,這些層的數據彼此強烈混合,並且為了避免不必要的副本的積累,使用分佈式存儲來積累來自工作網絡的全部信息量。 存儲組合成一個公共池,所有服務都可以訪問該池。

我們的計算表明,從經典存儲系統到塊存儲系統的過渡僅通過放棄專用的高端存儲系統並使用傳統的經典架構服務器(通常是 x70),並結合專用軟件,您就可以節省高達 86% 的預算。 很長一段時間以來,移動運營商一直在大量購買此類解決方案。 特別是,俄羅斯運營商已經使用華為的此類產品六年多了。

是的,許多任務無法使用分佈式系統執行。 例如,隨著性能要求的提高或與舊協議的兼容性。 但算子處理的數據至少有70%可以放在分佈式池中。

大容量存儲系統的行業趨勢

銀行業

在任何一家銀行中,都有許多不同的 IT 系統,從處理系統到自動化銀行系統。 這種基礎設施還處理大量信息,而大多數任務並不需要提高存儲系統的性能和可靠性,例如開發、測試、辦公流程自動化等。在這裡,使用經典存儲系統是可能的,但每年它的利潤越來越少。 此外,在這種情況下,存儲資源的使用沒有靈活性,其性能是根據峰值負載計算的。

在使用分佈式存儲系統時,它們的節點,其實就是普通的服務器,可以隨時轉換,比如變成一個服務器群,作為一個計算平台。

大容量存儲系統的行業趨勢

數據湖

上圖顯示了典型服務消費者的列表。 數據湖. 這些可以是電子政務服務(例如“Gosuslugi”)、經歷了數字化的企業、金融結構等。所有這些都需要處理大量異構信息。

用於解決此類問題的經典存儲系統的操作效率低下,因為既需要對塊數據庫的高性能訪問,也需要定期訪問存儲為對象的掃描文檔庫。 例如,這裡可以綁定一個通過門戶網站的訂單系統。 要在經典存儲平台上實現所有這些,您將需要大量設備來完成不同的任務。 一個水平的通用存儲系統可以輕鬆涵蓋前面列出的所有任務:您只需要在其中創建幾個具有不同存儲特性的池。

大容量存儲系統的行業趨勢

新信息的產生者

世界上存儲的信息量每年以大約 30% 的速度增長。 這對存儲供應商來說是個好消息,但這些數據的主要來源是什麼?

十年前,社交網絡成為這樣的發電機,需要創造大量新的算法、硬件解決方案等。現在存儲增長的主要驅動力有三個。 首先是雲計算。 目前,大約 70% 的公司以某種方式使用雲服務。 這些可以是電子郵件系統、備份和其他虛擬化實體。
第五代網絡正在成為第二個驅動力。 這些是新的速度和新的數據傳輸量。 根據我們的預測,5G 的廣泛採用將導致對閃存卡的需求下降。 不管手機有多少內存,它還是結束了,如果小工具有百兆通道,就沒有必要在本地存儲照片。

存儲系統需求增長的第三組原因包括人工智能的快速發展、向大數據分析的過渡以及一切可能的普遍自動化趨勢。

“新流量”的一個特點是其 非結構化. 我們需要在不以任何方式定義其格式的情況下存儲這些數據。 僅供後續閱讀時需要。 例如,用於確定可用貸款規模的銀行評分系統將查看您在社交網絡上發布的照片​​,確定您去海邊和餐館的頻率,同時研究您可用的醫療文件中的摘錄。 這些數據,一方面是全面的,另一方面又缺乏同質性。

大容量存儲系統的行業趨勢

非結構化數據的海洋

“新數據”的出現會帶來哪些問題? 其中首先當然是信息本身的數量及其存儲的估計期限。 僅現代自動無人駕駛汽車每天從其所有傳感器和機制中生成多達 60TB 的數據。 要開發新的運動算法,必須在同一天內處理這些信息,否則就會開始積累。 同時,它應該保存很長時間——幾十年。 只有這樣,以後才有可能根據大樣本分析得出結論。

一台用於破譯基因序列的設備每天產生大約 6 TB 的數據。 並且在其幫助下收集的數據根本不意味著刪除,也就是說,假設它們應該被永久存儲。

最後,第五代所有相同的網絡。 除了本身傳輸的信息之外,這樣的網絡本身就是一個巨大的數據生成器:活動日誌、通話記錄、機器對機器交互的中間結果等。

所有這些都需要開發新的方法和算法來存儲和處理信息。 這種方法正在出現。

大容量存儲系統的行業趨勢

新時代的技術

可以區分三組旨在應對信息存儲系統新要求的解決方案:人工智能的引入、存儲介質的技術演進和系統架構領域的創新。 讓我們從人工智能開始。

大容量存儲系統的行業趨勢

在新的華為解決方案中,人工智能已經應用於存儲本身,配備了人工智能處理器,允許系統獨立分析其狀態並預測故障。 如果存儲系統連接到具有顯著計算能力的服務雲,人工智能可以處理更多信息並提高其假設的準確性。

除了故障之外,此類 AI 還能夠預測未來的峰值負載以及容量耗盡之前的剩餘時間。 這使您可以在任何不需要的事件發生之前優化性能並擴展系統。

大容量存儲系統的行業趨勢

現在談談數據載體的演變。 第一個閃存驅動器是使用 SLC(單級單元)技術製造的。 基於它的設備快速、可靠、穩定,但容量小且非常昂貴。 數量的增加和價格的降低是通過某些技術讓步實現的,因此降低了驅動器的速度、可靠性和壽命。 然而,這種趨勢並沒有影響存儲系統本身,由於各種架構技巧,存儲系統通常變得更加高效和可靠。

但您為什麼需要全閃存級存儲系統? 僅僅用相同外形規格的新 SSD 替換已運行系統中的舊 HDD 還不夠嗎? 這是為了有效地使用新 SSD 的所有資源所必需的,這在舊系統中是根本不可能的。

以華為為例,已經開發出多項技術來解決這個問題,其中之一就是 閃聯,這使得盡可能優化磁盤控制器交互成為可能。

智能識別可以將數據分解成多個流並應對許多不良現象,例如 WA (寫放大)。 同時,新的恢復算法,特別是 RAID 2.0+, 提高了重建的速度,將其時間減少到完全無關緊要的值。

故障、過度擁擠、垃圾收集——由於控制器的特殊改進,這些因素也不再影響存儲系統的性能。

大容量存儲系統的行業趨勢

和塊數據存儲正在準備迎接 NVMe. 回想一下組織數據訪問的經典方案是這樣工作的:處理器通過 PCI Express 總線訪問 RAID 控制器。 反過來,它通過 SCSI 或 SAS 與機械磁盤交互。 在後端使用 NVMe 顯著加快了整個過程,但有一個缺點:驅動器必須直接連接到處理器才能為其提供直接內存訪問。

我們現在看到的下一階段技術發展是 NVMe-oF(NVMe over Fabrics)的使用。 至於華為區塊技術,他們已經支持FC-NVMe(NVMe over Fibre Channel),NVMe over RoCE(RDMA over Converged Ethernet)也在路上。 測試模型非常實用,距離正式展示還有幾個月的時間。 請注意,這一切也將出現在分佈式系統中,其中“無損以太網”的需求量很大。

大容量存儲系統的行業趨勢

優化分佈式存儲工作的另一種方法是完全拒絕數據鏡像。 華為解決方案不再像通常的RAID 1那樣使用n個副本,完全切換到機制 EC (擦除編碼)。 一個特殊的數學包以一定的頻率計算控制塊,允許您在丟失的情況下恢復中間數據。

重複數據刪除和壓縮機製成為強制性的。 如果說在經典存儲系統中我們受到控制器中安裝的處理器數量的限制,那麼在分佈式水平可擴展存儲系統中,每個節點都包含您需要的一切:磁盤、內存、處理器和互連。 這些資源足以讓重複數據刪除和壓縮對性能的影響降到最低。

以及關於硬件優化的方法。 在這裡,可以藉助額外的專用微電路(或處理器本身的專用塊)來減少中央處理器的負載,這些微電路起到了作用 TOE (TCP/IP 卸載引擎)或承擔 EC、重複數據刪除和壓縮的數學任務。

大容量存儲系統的行業趨勢

數據存儲的新方法體現在分解(分佈式)架構中。 在集中式存儲系統中,有一個服務器工廠通過光纖通道連接到 SAN的 有很多數組。 這種方法的缺點是難以擴展和提供有保證的服務水平(在性能或延遲方面)。 超融合系統使用相同的主機來存儲和處理信息。 這為擴展提供了幾乎無限的空間,但需要為維護數據完整性付出高昂的成本。

與上述兩者不同,分解架構意味著 將系統劃分為計算工廠和水平存儲系統. 這提供了兩種架構的優勢,並且只允許幾乎無限地擴展性能不夠的元素。

大容量存儲系統的行業趨勢

從整合到融合

一個經典的任務是需要同時提供塊存儲、文件訪問、對象訪問、大數據農場的運營等,其相關性在過去 15 年才有所增長。錦上添花可以例如,也可以是磁帶的備份系統。

第一階段,只能統一管理這些服務。 異構數據存儲系統對某些專用軟件關閉,管理員通過這些軟件從可用池中分配資源。 但由於這些池的硬件不同,因此無法在它們之間遷移負載。 在更高級別的集成中,整合發生在網關級別。 如果存在共享文件訪問權限,則可以通過不同的協議進行訪問。

我們現在可用的最先進的收斂方法涉及創建通用混合系統。 就像我們應該的那樣 海洋存儲100D. 通用訪問使用相同的硬件資源,邏輯上分為不同的池,但允許負載遷移。 所有這些都可以通過一個管理控制台來完成。 通過這種方式,我們成功地實現了“一個數據中心-一個存儲系統”的概念。

大容量存儲系統的行業趨勢

存儲信息的成本現在決定了許多架構決策。 雖然它可以安全地放在最前沿,但我們今天討論的是具有主動訪問的“實時”存儲,因此還必須考慮性能。 下一代分佈式系統的另一個重要特性是統一性。 畢竟,沒有人希望從不同的控制台管理多個不同的系統。 所有這些品質都體現在華為新系列產品中。 太平洋儲存.

下一代大容量存儲

OceanStor Pacific滿足六個99,9999(100%)的可靠性要求,可用於打造雙活級數據中心。 兩個數據中心之間的距離最遠為 2 公里,系統顯示出 XNUMX 毫秒的額外延遲,這使得基於它們構建任何防災解決方案成為可能,包括那些具有仲裁服務器的解決方案。

大容量存儲系統的行業趨勢

新系列的產品在協議方面展示了多功能性。 OceanStor 100D已經支持塊訪問、對象訪問和Hadoop訪問。 文件訪問將在不久的將來實現。 如果可以通過不同的協議發布數據,則無需保留數據的多個副本。

大容量存儲系統的行業趨勢

這樣看來,“無損網絡”的概念跟存儲有什麼關係呢? 事實上,分佈式存儲系統是建立在支持適當算法和RoCE機制的快速網絡的基礎上的。 我們的交換機支持的人工智能係統有助於進一步提高網絡速度並減少延遲。 人工智能織物. 開啟AI Fabric後,存儲系統的性能提升可達20%。

大容量存儲系統的行業趨勢

什麼是新的OceanStor Pacific分佈式存儲節點? 5U 外形規格的解決方案包括 120 個驅動器,可以替換三個經典節點,使機架空間增加一倍以上。 由於拒絕存儲副本,驅動器的效率顯著提高(高達 + 92%)。

我們已經習慣了軟件定義存儲是一種安裝在經典服務器上的特殊軟件。 但是現在,為了達到最優參數,這種架構方案還需要特殊的節點。 它由兩台基於 ARM 處理器的服務器組成,管理著一個三英寸驅動器陣列。

大容量存儲系統的行業趨勢

這些服務器不太適合超融合解決方案。 一來ARM的應用很少,二來很難保持負載均衡。 我們建議切換到單獨的存儲:以經典服務器或機架服務器為代表的計算集群單獨運行,但連接到 OceanStor Pacific 存儲節點,這些節點也執行其直接任務。 它證明了自己。

例如,我們以佔用 15 個服務器機架的經典超融合大數據存儲解決方案為例。 如果在各個 OceanStor Pacific 計算服務器和存儲節點之間分配負載,將它們彼此分開,所需機架的數量將減半! 這降低了數據中心的運營成本並降低了總體擁有成本。 在存儲信息量以每年 30% 的速度增長的世界中,這種好處並不少見。

***

有關華為解決方案及其應用場景的更多信息,請訪問我們的 在線 或直接聯繫公司代表。

來源: www.habr.com

添加評論