Trendy branżowe w systemach pamięci masowej

Dziś porozmawiamy o tym, jak najlepiej przechowywać dane w świecie, w którym sieci piątej generacji, skanery genomu i samojezdne samochody produkują więcej danych w ciągu jednego dnia niż cała ludzkość przed rewolucją przemysłową.

Trendy branżowe w systemach pamięci masowej

Nasz świat generuje coraz więcej informacji. Niektóre z nich są ulotne i znikają równie szybko, jak zostały zebrane. Drugi powinien być przechowywany dłużej, a drugi jest w całości zaprojektowany „na wieki” – tak to przynajmniej widzimy z teraźniejszości. Przepływ informacji w centrach danych odbywa się z taką prędkością, że każde nowe podejście, każda technologia zaprojektowana w celu zaspokojenia tego niekończącego się „popytu” szybko staje się przestarzała.

Trendy branżowe w systemach pamięci masowej

40 lat rozwoju rozproszonej pamięci masowej

Pierwsze magazyny sieciowe w znanej nam formie pojawiły się w latach 1980. Wielu z was spotkało się z NFS (Network File System), AFS (Andrew File System) lub Coda. Dziesięć lat później moda i technologia uległy zmianie, a rozproszone systemy plików ustąpiły miejsca klastrowym systemom pamięci masowej opartym na GPFS (General Parallel File System), CFS (Clustered File Systems) i StorNext. Jako podstawę wykorzystano pamięci blokowe o klasycznej architekturze, na których z wykorzystaniem warstwy programowej utworzono pojedynczy system plików. Te i podobne rozwiązania są nadal używane, zajmują swoją niszę i są dość poszukiwane.

Na przełomie tysiącleci paradygmat rozproszonego przechowywania danych nieco się zmienił, a prym wzięły systemy o architekturze SN (Shared-Nothing). Nastąpiło przejście od przechowywania w klastrze do przechowywania w oddzielnych węzłach, którymi z reguły były klasyczne serwery z oprogramowaniem zapewniającym niezawodne przechowywanie; takie zasady są budowane, powiedzmy, HDFS (Hadoop Distributed File System) i GFS (Global File System).

Bliżej 2010 roku koncepcje leżące u podstaw rozproszonych systemów pamięci masowej zaczęły coraz częściej znajdować odzwierciedlenie w pełnowartościowych produktach komercyjnych, takich jak VMware vSAN, Dell EMC Isilon i nasze Huawei OceanStor. Za wspomnianymi platformami stoi już nie społeczność entuzjastów, ale konkretni dostawcy, którzy odpowiadają za funkcjonalność, wsparcie, utrzymanie serwisowe produktu i gwarantują jego dalszy rozwój. Takie rozwiązania są najbardziej poszukiwane w kilku obszarach.

Trendy branżowe w systemach pamięci masowej

Operatorzy telekomunikacyjni

Być może jednymi z najstarszych konsumentów rozproszonych systemów pamięci masowej są operatorzy telekomunikacyjni. Diagram pokazuje, które grupy aplikacji generują większość danych. OSS (Operations Support Systems), MSS (Management Support Services) i BSS (Business Support Systems) to trzy uzupełniające się warstwy oprogramowania wymagane do świadczenia usług abonentom, raportowania finansowego dostawcy oraz wsparcia operacyjnego inżynierów operatora.

Często dane tych warstw są ze sobą mocno przemieszane i aby uniknąć gromadzenia się zbędnych kopii stosuje się rozproszone magazyny gromadzące całą ilość informacji pochodzących z działającej sieci. Magazyny są połączone we wspólną pulę, do której dostęp mają wszystkie usługi.

Z naszych wyliczeń wynika, że ​​przejście z klasycznych systemów pamięci masowej na blokowe pozwala zaoszczędzić do 70% budżetu jedynie poprzez rezygnację z dedykowanych systemów pamięci masowej hi-end i korzystanie z konwencjonalnych serwerów o klasycznej architekturze (zwykle x86), współpracujących ze specjalistycznym oprogramowaniem. Operatorzy komórkowi nabywają tego typu rozwiązania w znacznych ilościach już od dłuższego czasu. W szczególności rosyjscy operatorzy używają takich produktów Huawei od ponad sześciu lat.

Tak, wielu zadań nie da się wykonać w systemach rozproszonych. Na przykład ze zwiększonymi wymaganiami dotyczącymi wydajności lub kompatybilnością ze starszymi protokołami. Ale co najmniej 70% danych przetwarzanych przez operatora można umieścić w puli rozproszonej.

Trendy branżowe w systemach pamięci masowej

Sektor bankowy

W każdym banku istnieje wiele różnorodnych systemów informatycznych, począwszy od przetwarzania, a skończywszy na zautomatyzowanym systemie bankowym. Infrastruktura ta pracuje również z ogromną ilością informacji, podczas gdy większość zadań nie wymaga zwiększonej wydajności i niezawodności systemów pamięci masowej, takich jak tworzenie, testowanie, automatyzacja procesów biurowych itp. Tutaj możliwe jest wykorzystanie klasycznych systemów pamięci masowej , ale z roku na rok jest to coraz mniej opłacalne. Ponadto w tym przypadku nie ma elastyczności w wydatkowaniu zasobów pamięci masowej, której wydajność jest obliczana na podstawie obciążenia szczytowego.

W przypadku korzystania z rozproszonych systemów pamięci masowych ich węzły, które w rzeczywistości są zwykłymi serwerami, można w dowolnym momencie przekształcić np. w farmę serwerów i wykorzystać jako platformę obliczeniową.

Trendy branżowe w systemach pamięci masowej

Jeziora danych

Powyższy diagram przedstawia listę typowych odbiorców usług. jezioro danych. Mogą to być usługi e-government (na przykład „Gosuslugi”), przedsiębiorstwa, które przeszły cyfryzację, struktury finansowe itp. Wszystkie one muszą pracować z dużymi ilościami heterogenicznych informacji.

Działanie klasycznych systemów składowania do rozwiązywania takich problemów jest nieefektywne, ponieważ wymagany jest zarówno wysokowydajny dostęp do blokowych baz danych, jak i regularny dostęp do bibliotek zeskanowanych dokumentów przechowywanych jako obiekty. Tutaj na przykład można powiązać system zamówień przez portal internetowy. Aby zaimplementować to wszystko na klasycznej platformie pamięci masowej, będziesz potrzebować dużego zestawu sprzętu do różnych zadań. Jeden poziomy uniwersalny system pamięci masowej może z łatwością obsłużyć wszystkie wymienione wcześniej zadania: wystarczy utworzyć w nim kilka pul o różnych właściwościach pamięci masowej.

Trendy branżowe w systemach pamięci masowej

Generatory nowych informacji

Ilość informacji przechowywanych na świecie rośnie o około 30% rocznie. To dobra wiadomość dla dostawców pamięci masowych, ale co jest i będzie głównym źródłem tych danych?

Dziesięć lat temu sieci społecznościowe stały się takimi generatorami, co wymagało stworzenia dużej liczby nowych algorytmów, rozwiązań sprzętowych itp. Obecnie istnieją trzy główne czynniki napędzające wzrost pamięci masowej. Pierwszym z nich jest przetwarzanie w chmurze. Obecnie około 70% firm korzysta z usług w chmurze w taki czy inny sposób. Mogą to być systemy poczty elektronicznej, kopie zapasowe i inne zwirtualizowane podmioty.
Sieci piątej generacji stają się drugim motorem napędowym. To nowe prędkości i nowe wolumeny transferu danych. Według naszych prognoz powszechne przyjęcie 5G doprowadzi do spadku popytu na karty pamięci flash. Bez względu na to, ile pamięci jest w telefonie, nadal się kończy, a jeśli gadżet ma 100-megabitowy kanał, nie ma potrzeby przechowywania zdjęć lokalnie.

Trzecia grupa powodów, dla których rośnie zapotrzebowanie na systemy pamięci masowych, to szybki rozwój sztucznej inteligencji, przejście na analitykę big data oraz trend w kierunku powszechnej automatyzacji wszystkiego, co jest możliwe.

Cechą „nowego ruchu” jest jego nieustrukturyzowany. Dane te musimy przechowywać bez definiowania w jakikolwiek sposób ich formatu. Jest to wymagane tylko do późniejszego czytania. Na przykład bankowy system scoringowy w celu określenia dostępnej wielkości kredytu będzie patrzył na zdjęcia, które zamieszczasz w sieciach społecznościowych, ustalając, jak często chodzisz nad morze i do restauracji, a jednocześnie bada wyciągi z dostępnych mu dokumentów medycznych. Dane te z jednej strony są wyczerpujące, z drugiej zaś brakuje im jednorodności.

Trendy branżowe w systemach pamięci masowej

Ocean nieustrukturyzowanych danych

Jakie problemy pociąga za sobą pojawienie się „nowych danych”? Pierwszym z nich jest oczywiście ilość samych informacji oraz przewidywany okres ich przechowywania. Sam nowoczesny autonomiczny samochód bez kierowcy generuje codziennie do 60 TB danych ze wszystkich swoich czujników i mechanizmów. Aby opracować nowe algorytmy ruchu, informacje te muszą zostać przetworzone w ciągu tego samego dnia, w przeciwnym razie zaczną się gromadzić. Jednocześnie powinien być przechowywany przez bardzo długi czas - dziesięciolecia. Tylko wtedy będzie można w przyszłości wyciągać wnioski na podstawie dużych próbek analitycznych.

Jedno urządzenie do rozszyfrowywania sekwencji genetycznych produkuje dziennie około 6 terabajtów. A dane zebrane za jego pomocą wcale nie oznaczają usunięcia, czyli hipotetycznie powinny być przechowywane na zawsze.

Wreszcie wszystkie te same sieci piątej generacji. Oprócz samych przesyłanych informacji, taka sieć sama w sobie jest ogromnym generatorem danych: dzienników aktywności, rejestrów połączeń, pośrednich wyników interakcji maszyna-maszyna itp.

Wszystko to wymaga opracowania nowych podejść i algorytmów przechowywania i przetwarzania informacji. I takie podejścia się pojawiają.

Trendy branżowe w systemach pamięci masowej

Technologie nowej ery

Można wyróżnić trzy grupy rozwiązań mających sprostać nowym wymaganiom stawianym systemom przechowywania informacji: wprowadzenie sztucznej inteligencji, ewolucja techniczna nośników pamięci oraz innowacje w zakresie architektury systemów. Zacznijmy od AI.

Trendy branżowe w systemach pamięci masowej

W nowych rozwiązaniach Huawei sztuczna inteligencja jest wykorzystywana już na poziomie samej pamięci masowej, która wyposażona jest w procesor AI, który pozwala systemowi samodzielnie analizować jego stan i przewidywać awarie. Jeśli system pamięci masowej jest podłączony do chmury usługowej o znacznych możliwościach obliczeniowych, sztuczna inteligencja może przetwarzać więcej informacji i poprawiać trafność swoich hipotez.

Oprócz awarii taka sztuczna inteligencja jest w stanie przewidzieć przyszłe obciążenie szczytowe oraz czas pozostały do ​​wyczerpania pojemności. Pozwala to zoptymalizować wydajność i skalować system, zanim wystąpią niepożądane zdarzenia.

Trendy branżowe w systemach pamięci masowej

Teraz o ewolucji nośników danych. Pierwsze pendrive'y powstały w technologii SLC (Single-Level Cell). Urządzenia na nim oparte były szybkie, niezawodne, stabilne, ale miały małą pojemność i były bardzo drogie. Wzrost wolumenu i spadek ceny osiągnięto poprzez pewne ustępstwa techniczne, dzięki którym zmniejszono prędkość, niezawodność i żywotność napędów. Niemniej jednak trend nie wpłynął na same systemy pamięci masowej, które dzięki różnym sztuczkom architektonicznym ogólnie stały się zarówno bardziej wydajne, jak i niezawodne.

Ale dlaczego potrzebowałeś systemów pamięci masowej klasy All-Flash? Czy nie wystarczyło wymienić stare dyski twarde w już działającym systemie na nowe dyski SSD o tej samej obudowie? Było to wymagane, aby efektywnie wykorzystać wszystkie zasoby nowych dysków SSD, co w starszych systemach było po prostu niemożliwe.

Na przykład Huawei opracował szereg technologii rozwiązania tego problemu, z których jedną jest FlashLink, co pozwoliło maksymalnie zoptymalizować interakcje dysk-kontroler.

Inteligentna identyfikacja umożliwiła dekompozycję danych na kilka strumieni i radzenie sobie z szeregiem niepożądanych zjawisk, jak np. WA (wzmocnienie zapisu). Jednocześnie w szczególności nowe algorytmy odzyskiwania RAID 2.0+, zwiększył szybkość odbudowy, skracając jej czas do wartości zupełnie nieistotnych.

Awaria, przepełnienie, wyrzucanie śmieci - te czynniki również nie wpływają już na wydajność systemu przechowywania dzięki specjalnemu dopracowaniu kontrolerów.

Trendy branżowe w systemach pamięci masowej

Magazyny danych blokowych przygotowują się do spotkania NVMe. Przypomnijmy, że klasyczny schemat organizacji dostępu do danych działał w następujący sposób: procesor uzyskiwał dostęp do kontrolera RAID za pośrednictwem magistrali PCI Express. To z kolei wchodziło w interakcje z dyskami mechanicznymi poprzez SCSI lub SAS. Zastosowanie NVMe na backendzie znacznie przyspieszyło cały proces, ale miało jedną wadę: dyski musiały być bezpośrednio podłączone do procesora, aby zapewnić mu bezpośredni dostęp do pamięci.

Następną fazą rozwoju technologii, którą obecnie obserwujemy, jest wykorzystanie NVMe-oF (NVMe over Fabrics). Jeśli chodzi o technologie blokowe Huawei, obsługują one już FC-NVMe (NVMe przez Fibre Channel), a NVMe przez RoCE (RDMA przez Converged Ethernet) jest w drodze. Modele testowe są w miarę funkcjonalne, do ich oficjalnej prezentacji pozostało kilka miesięcy. Należy pamiętać, że to wszystko pojawi się również w systemach rozproszonych, gdzie „Ethernet bez strat” będzie bardzo poszukiwany.

Trendy branżowe w systemach pamięci masowej

Dodatkowym sposobem na optymalizację pracy rozproszonych magazynów było całkowite odrzucenie dublowania danych. Rozwiązania Huawei nie wykorzystują już n kopii, jak w zwykłej RAID 1, i całkowicie przechodzą na mechanizm EC (Kodowanie kasowania). Specjalny pakiet matematyczny oblicza bloki kontrolne z określoną częstotliwością, co pozwala przywrócić dane pośrednie w przypadku utraty.

Mechanizmy deduplikacji i kompresji stają się obowiązkowe. O ile w klasycznych systemach pamięci masowych ogranicza nas liczba procesorów zainstalowanych w kontrolerach, o tyle w rozproszonych systemach pamięci masowych skalowalnych poziomo każdy węzeł zawiera wszystko, czego potrzeba: dyski, pamięć, procesory i interkonekt. Te zasoby są wystarczające, aby deduplikacja i kompresja miały minimalny wpływ na wydajność.

Oraz o metodach optymalizacji sprzętu. Tutaj udało się zmniejszyć obciążenie procesorów centralnych za pomocą dodatkowych dedykowanych mikroukładów (lub dedykowanych bloków w samym procesorze), które odgrywają rolę TOE (TCP/IP Offload Engine) lub przejmowanie zadań matematycznych EC, deduplikacji i kompresji.

Trendy branżowe w systemach pamięci masowej

Nowe podejścia do przechowywania danych są zawarte w zdezagregowanej (rozproszonej) architekturze. W scentralizowanych systemach pamięci masowej istnieje fabryka serwerów połączona za pośrednictwem Fibre Channel SAN z dużą ilością tablic. Wadą tego podejścia są trudności ze skalowaniem i zapewnieniem gwarantowanego poziomu usług (pod względem wydajności lub opóźnień). Systemy hiperkonwergentne używają tych samych hostów zarówno do przechowywania, jak i przetwarzania informacji. Daje to niemal nieograniczone możliwości skalowania, ale pociąga za sobą wysokie koszty utrzymania integralności danych.

W przeciwieństwie do obu powyższych, zdezagregowana architektura implikuje podział systemu na fabrykę obliczeniową i poziomy system pamięci masowej. Zapewnia to zalety obu architektur i pozwala na niemal nieograniczone skalowanie tylko elementu, którego wydajność jest niewystarczająca.

Trendy branżowe w systemach pamięci masowej

Od integracji do konwergencji

Klasycznym zadaniem, którego znaczenie wzrosło dopiero w ciągu ostatnich 15 lat, jest konieczność jednoczesnego zapewnienia pamięci blokowej, dostępu do plików, dostępu do obiektów, obsługi farmy dla big data itp. Wisienką na torcie może być być również np. systemem kopii zapasowych na taśmę magnetyczną.

W pierwszym etapie możliwe było ujednolicenie jedynie zarządzania tymi usługami. Heterogeniczne systemy przechowywania danych były zamknięte dla jakiegoś specjalistycznego oprogramowania, za pomocą którego administrator dystrybuował zasoby z dostępnych pul. Ale ponieważ te pule różniły się sprzętem, migracja obciążenia między nimi była niemożliwa. Na wyższym poziomie integracji konsolidacja odbywała się na poziomie bramy. Gdyby istniał współdzielony dostęp do plików, można by go udzielić za pośrednictwem różnych protokołów.

Najbardziej zaawansowana dostępna nam obecnie metoda konwergencji polega na stworzeniu uniwersalnego systemu hybrydowego. Tak jak powinno być u nas OceanStor 100D. Uniwersalny dostęp wykorzystuje te same zasoby sprzętowe, logicznie podzielone na różne pule, ale umożliwia migrację obciążenia. Wszystko to można zrobić za pomocą jednej konsoli zarządzania. W ten sposób udało nam się zrealizować koncepcję „jednego centrum danych – jednego systemu pamięci masowej”.

Trendy branżowe w systemach pamięci masowej

Koszt przechowywania informacji determinuje obecnie wiele decyzji architektonicznych. I choć śmiało można go postawić na pierwszym miejscu, to dziś dyskutujemy o przechowywaniu „na żywo” z aktywnym dostępem, więc wydajność też musi być wzięta pod uwagę. Inną ważną właściwością systemów rozproszonych nowej generacji jest unifikacja. W końcu nikt nie chce mieć kilku różnych systemów zarządzanych z różnych konsol. Wszystkie te cechy zawarte są w nowej serii produktów Huawei. OceanStor Pacyfik.

Pamięć masowa nowej generacji

OceanStor Pacific spełnia wymagania niezawodności sześciu dziewiątek (99,9999%) i może być wykorzystany do stworzenia centrum danych klasy HyperMetro. Przy odległości pomiędzy dwoma centrami danych do 100 km, systemy wykazują dodatkowe opóźnienie rzędu 2 ms, co pozwala na zbudowanie na ich bazie dowolnych rozwiązań odpornych na awarie, w tym z serwerami kworum.

Trendy branżowe w systemach pamięci masowej

Produkty nowej serii wykazują wszechstronność w zakresie protokołów. Już teraz OceanStor 100D obsługuje dostęp do bloków, dostęp do obiektów i dostęp Hadoop. Dostęp do plików zostanie wdrożony w najbliższej przyszłości. Nie ma potrzeby przechowywania wielu kopii danych, jeśli można je wydać za pomocą różnych protokołów.

Trendy branżowe w systemach pamięci masowej

Wydawałoby się, co pojęcie „bezstratnej sieci” ma wspólnego z pamięcią masową? Faktem jest, że rozproszone systemy pamięci masowej budowane są w oparciu o szybką sieć obsługującą odpowiednie algorytmy oraz mechanizm RoCE. System sztucznej inteligencji obsługiwany przez nasze przełączniki pomaga jeszcze bardziej zwiększyć prędkość sieci i zmniejszyć opóźnienia. Tkanina sztucznej inteligencji. Wzrost wydajności systemów pamięci masowej po aktywacji AI Fabric może osiągnąć 20%.

Trendy branżowe w systemach pamięci masowej

Czym jest nowy rozproszony węzeł magazynowania OceanStor Pacific? Rozwiązanie o rozmiarze 5U obejmuje 120 dysków i może zastąpić trzy klasyczne węzły, zwiększając ponad dwukrotnie miejsce w szafie. Dzięki odmowie przechowywania kopii wydajność dysków znacznie wzrasta (nawet do +92%).

Przyzwyczailiśmy się, że storage definiowany programowo to specjalne oprogramowanie instalowane na klasycznym serwerze. Ale teraz, aby osiągnąć optymalne parametry, to rozwiązanie architektoniczne wymaga również specjalnych węzłów. Składa się z dwóch serwerów opartych na procesorach ARM, które zarządzają macierzą dysków trzycalowych.

Trendy branżowe w systemach pamięci masowej

Te serwery nie nadają się dobrze do rozwiązań hiperkonwergentnych. Po pierwsze, aplikacji dla ARM jest niewiele, a po drugie trudno jest utrzymać równowagę obciążenia. Sugerujemy przejście na osobną pamięć masową: klaster obliczeniowy, reprezentowany przez serwery klasyczne lub stelażowe, działa osobno, ale jest połączony z węzłami pamięci masowej OceanStor Pacific, które również wykonują swoje bezpośrednie zadania. I to się usprawiedliwia.

Weźmy na przykład klasyczne hiperkonwergentne rozwiązanie do przechowywania dużych zbiorów danych, które zajmuje 15 szaf serwerowych. Jeśli rozdzielisz obciążenie między poszczególne serwery obliczeniowe OceanStor Pacific i węzły pamięci masowej, oddzielając je od siebie, liczba wymaganych szaf zmniejszy się o połowę! Zmniejsza to koszty eksploatacji centrum danych i obniża całkowity koszt posiadania. W świecie, w którym ilość przechowywanych informacji rośnie o 30% rocznie, takie korzyści nie są rozproszone.

***

Aby uzyskać więcej informacji na temat rozwiązań Huawei i scenariuszy ich zastosowania, odwiedź naszą stronę witryna internetowa lub kontaktując się bezpośrednio z przedstawicielami firmy.

Źródło: www.habr.com

Dodaj komentarz