Tendències del sector en sistemes d'emmagatzematge massiu

Avui parlarem de la millor manera d'emmagatzemar dades en un món on les xarxes de cinquena generació, els escàners del genoma i els cotxes autònoms produeixen més dades al dia que tota la humanitat generada abans de la revolució industrial.

Tendències del sector en sistemes d'emmagatzematge massiu

El nostre món està generant cada cop més informació. Una part és fugaç i es perd tan ràpidament com es recull. Un altre s'hauria d'emmagatzemar més temps, i un altre fins i tot està dissenyat "durant segles", almenys això és el que veiem des del present. Els fluxos d'informació s'instal·len als centres de dades a una velocitat tal que qualsevol nou enfocament, qualsevol tecnologia dissenyada per satisfer aquesta "demanda" sense fi esdevé obsoleta ràpidament.

Tendències del sector en sistemes d'emmagatzematge massiu

40 anys de desenvolupament de sistemes d'emmagatzematge distribuït

El primer emmagatzematge de xarxa en la forma que coneixem va aparèixer als anys vuitanta. Molts de vosaltres us heu trobat amb NFS (Network File System), AFS (Andrew File System) o Coda. Una dècada més tard, la moda i la tecnologia han canviat, i els sistemes de fitxers distribuïts han donat pas als sistemes d'emmagatzematge en clúster basats en GPFS (General Parallel File System), CFS (Clustered File Systems) i StorNext. Es va utilitzar com a base l'emmagatzematge en blocs de l'arquitectura clàssica, a sobre del qual es va crear un únic sistema de fitxers mitjançant una capa de programari. Aquestes i solucions similars encara s'utilitzen, ocupen el seu nínxol i tenen una gran demanda.

Al tombant del mil·lenni, el paradigma d'emmagatzematge distribuït va canviar una mica i els sistemes amb arquitectura SN (Shared-Nothing) van ocupar les posicions de lideratge. Hi ha hagut una transició de l'emmagatzematge en clúster a l'emmagatzematge en nodes individuals, que, per regla general, eren servidors clàssics amb programari que proporcionava un emmagatzematge fiable; Sobre aquests principis, per exemple, es construeixen HDFS (Hadoop Distributed File System) i GFS (Global File System).

Més a prop de la dècada de 2010, els conceptes subjacents als sistemes d'emmagatzematge distribuïts van començar a reflectir-se cada cop més en productes comercials complets, com ara VMware vSAN, Dell EMC Isilon i els nostres Huawei OceanStor. Darrere de les plataformes esmentades ja no hi ha una comunitat d'entusiastes, sinó venedors específics que són responsables de la funcionalitat, el suport i el servei del producte i garanteixen el seu desenvolupament posterior. Aquestes solucions són les més demandades en diverses àrees.

Tendències del sector en sistemes d'emmagatzematge massiu

Operadors de telecomunicacions

Potser un dels consumidors més antics de sistemes d'emmagatzematge distribuït són els operadors de telecomunicacions. El diagrama mostra quins grups d'aplicacions produeixen la major part de les dades. OSS (Operations Support Systems), MSS (Management Support Services) i BSS (Business Support Systems) representen tres capes de programari complementàries necessàries per oferir servei als subscriptors, informes financers al proveïdor i suport operatiu als enginyers de l'operador.

Sovint, les dades d'aquestes capes es barregen molt entre si i, per evitar l'acumulació de còpies innecessàries, s'utilitza emmagatzematge distribuït, que acumula tota la quantitat d'informació procedent de la xarxa operativa. Els magatzems es combinen en una piscina comuna, a la qual s'hi accedeix tots els serveis.

Els nostres càlculs mostren que la transició dels sistemes d'emmagatzematge clàssics als sistemes d'emmagatzematge de blocs permet estalviar fins a un 70% del pressupost només abandonant els sistemes d'emmagatzematge d'alta gamma dedicats i utilitzant servidors d'arquitectura clàssica convencional (normalment x86), treballant conjuntament amb serveis especialitzats. programari. Els operadors mòbils ja fa temps que van començar a comprar aquestes solucions en grans quantitats. En particular, els operadors russos fa més de sis anys que utilitzen aquests productes de Huawei.

Sí, una sèrie de tasques no es poden completar amb sistemes distribuïts. Per exemple, amb requisits de rendiment augmentats o compatibilitat amb protocols més antics. Però almenys el 70% de les dades processades per l'operador es poden localitzar en un pool distribuït.

Tendències del sector en sistemes d'emmagatzematge massiu

Sector bancari

A qualsevol banc hi ha molts sistemes informàtics diferents, començant per la tramitació i acabant amb un sistema bancari automatitzat. Aquesta infraestructura també funciona amb una gran quantitat d'informació, mentre que la majoria de tasques no requereixen un major rendiment i fiabilitat dels sistemes d'emmagatzematge, per exemple, desenvolupament, proves, automatització de processos d'oficina, etc. Aquí, és possible l'ús de sistemes d'emmagatzematge clàssics, però cada any és cada cop menys rendible. A més, en aquest cas no hi ha flexibilitat en l'ús dels recursos del sistema d'emmagatzematge, el rendiment dels quals es calcula en funció de la càrrega màxima.

Quan s'utilitzen sistemes d'emmagatzematge distribuïts, els seus nodes, que de fet són servidors normals, es poden convertir en qualsevol moment, per exemple, en una granja de servidors i utilitzar-los com a plataforma informàtica.

Tendències del sector en sistemes d'emmagatzematge massiu

Data llacs

El diagrama anterior mostra una llista de consumidors de serveis típics llac de dades. Poden ser serveis d'administració electrònica (per exemple, “Serveis de govern”), empreses digitalitzades, institucions financeres, etc. Tots ells necessiten treballar amb grans volums d'informació heterogènia.

L'ús de sistemes d'emmagatzematge clàssics per resoldre aquests problemes és ineficaç, ja que requereix un accés d'alt rendiment per bloquejar bases de dades i un accés regular a les biblioteques de documents escanejats emmagatzemats com a objectes. Per exemple, un sistema de comandes a través d'un portal web també es pot enllaçar aquí. Per implementar tot això en una plataforma d'emmagatzematge clàssica, necessitareu un gran conjunt d'equips per a diferents tasques. Un sistema d'emmagatzematge universal horitzontal pot cobrir totes les tasques enumerades anteriorment: només cal que creeu diverses agrupacions amb diferents característiques d'emmagatzematge.

Tendències del sector en sistemes d'emmagatzematge massiu

Generadors de nova informació

La quantitat d'informació emmagatzemada al món està creixent al voltant d'un 30% anual. Aquesta és una bona notícia per als venedors d'emmagatzematge, però quina és i serà la font principal d'aquestes dades?

Fa deu anys, les xarxes socials es van convertir en generadores d'aquest tipus, i això va requerir la creació d'un gran nombre de nous algorismes, solucions de maquinari, etc. Ara hi ha tres principals motors per al creixement dels volums d'emmagatzematge. El primer és la computació en núvol. Actualment, aproximadament el 70% de les empreses utilitzen els serveis al núvol d'una manera o altra. Aquests poden ser sistemes de correu electrònic, còpies de seguretat i altres entitats virtualitzades.
El segon conductor són les xarxes de cinquena generació. Aquestes són noves velocitats i nous volums de transferència de dades. Segons les nostres previsions, l'adopció generalitzada del 5G comportarà una caiguda de la demanda de targetes de memòria flash. No importa quanta memòria hi hagi al telèfon, encara s'esgota, i si el gadget té un canal de 100 megabits, no cal emmagatzemar fotos localment.

El tercer grup de raons per les quals creix la demanda de sistemes d'emmagatzematge inclou el ràpid desenvolupament de la intel·ligència artificial, la transició a l'anàlisi de big data i la tendència a l'automatització universal de tot el possible.

Una característica del "nou trànsit" és la seva manca d'estructura. Hem d'emmagatzemar aquestes dades sense definir el seu format de cap manera. Només és necessari per a la lectura posterior. Per exemple, per determinar l'import del préstec disponible, un sistema de puntuació bancari examinarà les fotos que publiqueu a les xarxes socials, determinarà si sovint aneu al mar i als restaurants i, al mateix temps, estudiarà els extractes dels vostres documents mèdics disponibles. a ell. Aquestes dades, d'una banda, són exhaustives, però, de l'altra, manquen d'homogeneïtat.

Tendències del sector en sistemes d'emmagatzematge massiu

Oceà de dades no estructurades

Quins problemes comporta l'aparició de “noves dades”? El primer d'ells, per descomptat, és el gran volum d'informació i el període estimat del seu emmagatzematge. Només un cotxe autònom sense conductor modern genera fins a 60 terabytes de dades cada dia a partir de tots els seus sensors i mecanismes. Per desenvolupar nous algorismes de moviment, aquesta informació s'ha de processar el mateix dia, en cas contrari començarà a acumular-se. Al mateix temps, s'ha d'emmagatzemar durant molt de temps: dècades. Només així serà possible en el futur extreure conclusions a partir de grans mostres analítiques.

Un dispositiu per desxifrar seqüències genètiques produeix uns 6 TB al dia. I les dades recollides amb la seva ajuda no impliquen en absolut la seva eliminació, és a dir, hipotèticament, s'haurien d'emmagatzemar per sempre.

Finalment, les mateixes xarxes de cinquena generació. A més de la informació transmesa real, aquesta xarxa en si és un gran generador de dades: registres d'activitats, registres de trucades, resultats intermedis d'interaccions màquina a màquina, etc.

Tot això requereix el desenvolupament de nous enfocaments i algorismes per emmagatzemar i processar la informació. I aquests enfocaments estan sorgint.

Tendències del sector en sistemes d'emmagatzematge massiu

Tecnologies de la nova era

Hi ha tres grups de solucions dissenyades per fer front als nous requeriments dels sistemes d'emmagatzematge d'informació: la introducció de la intel·ligència artificial, l'evolució tècnica dels mitjans d'emmagatzematge i les innovacions en l'àmbit de l'arquitectura de sistemes. Comencem amb la IA.

Tendències del sector en sistemes d'emmagatzematge massiu

En les noves solucions de Huawei, la intel·ligència artificial s'utilitza a nivell del propi emmagatzematge, que està equipat amb un processador d'IA que permet al sistema analitzar de manera independent el seu estat i predir fallades. Si el sistema d'emmagatzematge està connectat a un núvol de serveis que té capacitats informàtiques importants, la intel·ligència artificial podrà processar més informació i augmentar la precisió de les seves hipòtesis.

A més dels errors, aquesta IA pot predir la càrrega màxima futura i el temps que queda fins que s'esgota la capacitat. Això us permet optimitzar el rendiment i escalar el sistema abans que es produeixi cap esdeveniment no desitjat.

Tendències del sector en sistemes d'emmagatzematge massiu

Ara sobre l'evolució dels mitjans d'emmagatzematge. Les primeres unitats flash es van fer utilitzant la tecnologia SLC (Single-Level Cell). Els dispositius basats en ell eren ràpids, fiables, estables, però tenien poca capacitat i eren molt cars. El creixement del volum i la reducció de preus es van aconseguir mitjançant determinades concessions tècniques, a causa de les quals es va reduir la velocitat, la fiabilitat i la vida útil dels accionaments. No obstant això, la tendència no va afectar els propis sistemes d'emmagatzematge, que, a causa de diversos trucs arquitectònics, generalment es van fer més productius i més fiables.

Però, per què necessiteu sistemes d'emmagatzematge All-Flash? No n'hi havia prou amb substituir els discs durs antics en un sistema operatiu ja per nous SSD del mateix factor de forma? Això era necessari per utilitzar de manera eficaç tots els recursos de les noves unitats d'estat sòlid, cosa que era simplement impossible en sistemes antics.

Huawei, per exemple, ha desenvolupat una sèrie de tecnologies per resoldre aquest problema, una de les quals és FlashLink, que va permetre optimitzar al màxim les interaccions "disc-controlador".

La identificació intel·ligent va permetre descompondre les dades en diversos fluxos i fer front a una sèrie de fenòmens indesitjables, com ara WA (amplificació d'escriptura). Al mateix temps, nous algorismes de recuperació, en particular RAID 2.0+, va augmentar la velocitat de reconstrucció, reduint el seu temps a quantitats completament insignificants.

Falla, amuntegament, recollida d'escombraries: aquests factors també ja no afecten el rendiment del sistema d'emmagatzematge gràcies a modificacions especials als controladors.

Tendències del sector en sistemes d'emmagatzematge massiu

I els emmagatzematges de dades de blocs també es preparen per reunir-se NVMe. Recordem que l'esquema clàssic per organitzar l'accés a les dades funcionava així: el processador accedia al controlador RAID mitjançant el bus PCI Express. Això, al seu torn, va interactuar amb discs mecànics mitjançant SCSI o SAS. L'ús de NVMe al backend va accelerar significativament tot el procés, però tenia un inconvenient: les unitats havien d'estar connectades directament al processador per tal de proporcionar-li accés directe a la memòria.

La següent fase de desenvolupament tecnològic que estem veient ara és l'ús de NVMe-oF (NVMe over Fabrics). Pel que fa a les tecnologies de blocs de Huawei, ja admeten FC-NVMe (NVMe sobre canal de fibra) i NVMe sobre RoCE (RDMA sobre Ethernet convergent) està en camí. Els models de prova són bastant funcionals; queden diversos mesos per a la seva presentació oficial. Tingueu en compte que tot això apareixerà en sistemes distribuïts, on "Ethernet sense pèrdues" tindrà una gran demanda.

Tendències del sector en sistemes d'emmagatzematge massiu

Una manera addicional d'optimitzar el funcionament de l'emmagatzematge distribuït va ser l'abandonament total de la duplicació de dades. Les solucions de Huawei ja no utilitzen n còpies, com en el RAID 1 habitual, i canvien completament al EC (Esborrar la codificació). Un paquet matemàtic especial calcula els blocs de control amb una certa periodicitat, que permeten restaurar dades intermèdies en cas de pèrdua.

Els mecanismes de deduplicació i compressió esdevenen obligatoris. Si en els sistemes d'emmagatzematge clàssics estem limitats pel nombre de processadors instal·lats als controladors, aleshores en els sistemes d'emmagatzematge escalables horitzontalment distribuïts, cada node conté tot el necessari: discs, memòria, processadors i interconnexió. Aquests recursos són suficients per garantir que la deduplicació i la compressió tinguin un impacte mínim en el rendiment.

I sobre els mètodes d'optimització de maquinari. Aquí va ser possible reduir la càrrega dels processadors centrals amb l'ajuda de xips dedicats addicionals (o blocs dedicats al propi processador), que tenen un paper important. TOE (TCP/IP Offload Engine) o assumint les tasques matemàtiques d'EC, deduplicació i compressió.

Tendències del sector en sistemes d'emmagatzematge massiu

Els nous enfocaments per a l'emmagatzematge de dades s'incorporen en una arquitectura desagregada (distribuïda). Els sistemes d'emmagatzematge centralitzats tenen una fàbrica de servidors connectada mitjançant Fibre Channel SANT amb moltes matrius. Els desavantatges d'aquest enfocament són la dificultat d'escalar i garantir un nivell de servei garantit (en termes de rendiment o latència). Els sistemes hiperconvergents utilitzen els mateixos hosts tant per emmagatzemar com per processar la informació. Això ofereix un abast pràcticament il·limitat per a l'escalat, però comporta costos elevats per mantenir la integritat de les dades.

A diferència dels dos anteriors, implica una arquitectura desagregada dividint el sistema en un teixit informàtic i un sistema d'emmagatzematge horitzontal. Això proporciona els avantatges d'ambdues arquitectures i permet escalar gairebé il·limitadament només l'element que no té rendiment.

Tendències del sector en sistemes d'emmagatzematge massiu

De la integració a la convergència

Una tasca clàssica, la rellevància de la qual només ha crescut durant els últims 15 anys, és la necessitat de proporcionar simultàniament emmagatzematge en blocs, accés a fitxers, accés a objectes, funcionament d'una granja de dades, etc. La cirereta del pastís també podria ser, per exemple, un sistema de còpia de seguretat en cinta magnètica.

En una primera etapa només es va poder unificar la gestió d'aquests serveis. Es van connectar sistemes d'emmagatzematge de dades heterogenis a algun programari especialitzat, mitjançant el qual l'administrador distribuïa els recursos dels pools disponibles. Però com que aquestes agrupacions tenien un maquinari diferent, la migració de càrrega entre elles era impossible. A un nivell d'integració superior, l'agregació es va produir a nivell de passarel·la. Si la compartició de fitxers estigués disponible, es podria servir mitjançant diferents protocols.

El mètode de convergència més avançat del que disposem actualment consisteix en la creació d'un sistema híbrid universal. Exactament el que hauria de ser el nostre OceanStor 100D. L'accés universal utilitza els mateixos recursos de maquinari, dividits lògicament en grups diferents, però permetent la migració de càrrega. Tot això es pot fer mitjançant una única consola de gestió. D'aquesta manera, vam poder implementar el concepte "un centre de dades - un sistema d'emmagatzematge".

Tendències del sector en sistemes d'emmagatzematge massiu

El cost d'emmagatzemar la informació determina ara moltes decisions arquitectòniques. I tot i que es pot posar al capdavant amb seguretat, avui parlem d'emmagatzematge "en directe" amb accés actiu, de manera que també s'ha de tenir en compte el rendiment. Una altra propietat important dels sistemes distribuïts de nova generació és la unificació. Després de tot, ningú vol tenir diversos sistemes diferents controlats des de diferents consoles. Totes aquestes qualitats es concreten en la nova sèrie de productes Huawei OceanStor Pacific.

Sistema d'emmagatzematge massiu de nova generació

OceanStor Pacific compleix els requisits de fiabilitat de sis nou (99,9999%) i es pot utilitzar per crear centres de dades de classe HyperMetro. Amb una distància entre dos centres de dades de fins a 100 km, els sistemes mostren una latència addicional de 2 ms, que permet construir sobre la seva base qualsevol solució resistent a desastres, incloses les amb servidors de quòrum.

Tendències del sector en sistemes d'emmagatzematge massiu

Els productes de la nova sèrie demostren la versatilitat del protocol. OceanStor 100D ja admet l'accés de bloqueig, l'accés a objectes i l'accés a Hadoop. L'accés als fitxers també s'implementarà en un futur proper. No cal emmagatzemar diverses còpies de dades si es poden emetre mitjançant protocols diferents.

Tendències del sector en sistemes d'emmagatzematge massiu

Sembla, què té a veure el concepte de "xarxa sense pèrdues" amb els sistemes d'emmagatzematge? El fet és que els sistemes d'emmagatzematge de dades distribuïts es construeixen sobre la base d'una xarxa ràpida que admet els algorismes adequats i el mecanisme RoCE. El sistema d'intel·ligència artificial compatible amb els nostres commutadors ajuda a augmentar encara més la velocitat de la xarxa i reduir la latència. Tela AI. El guany en el rendiment d'emmagatzematge quan s'activa AI Fabric pot arribar al 20%.

Tendències del sector en sistemes d'emmagatzematge massiu

Què és el nou node d'emmagatzematge distribuït OceanStor Pacific? La solució de factor de forma 5U inclou 120 unitats i pot substituir tres nodes clàssics, la qual cosa proporciona un estalvi més del doble en l'espai del bastidor. En no emmagatzemar còpies, l'eficiència de les unitats augmenta significativament (fins a +92%).

Estem acostumats al fet que l'emmagatzematge definit per programari és un programari especial instal·lat en un servidor clàssic. Però ara, per aconseguir paràmetres òptims, aquesta solució arquitectònica també requereix nodes especials. Consta de dos servidors basats en processadors ARM que gestionen una matriu de unitats de tres polzades.

Tendències del sector en sistemes d'emmagatzematge massiu

Aquests servidors no són adequats per a solucions hiperconvergents. En primer lloc, hi ha força aplicacions per a ARM i, en segon lloc, és difícil mantenir l'equilibri de càrrega. Proposem passar a l'emmagatzematge separat: un clúster informàtic, representat per servidors clàssics o rack, funciona per separat, però està connectat als nodes d'emmagatzematge OceanStor Pacific, que també realitzen les seves tasques directes. I es justifica.

Per exemple, prenguem una solució clàssica d'emmagatzematge de grans dades amb un sistema hiperconvergent que ocupa 15 bastidors de servidors. Si distribuïu la càrrega entre servidors informàtics separats i nodes d'emmagatzematge OceanStor Pacific, separant-los els uns dels altres, el nombre de bastidors necessaris es reduirà a la meitat. Això redueix els costos operatius del centre de dades i el cost total de propietat. En un món on el volum d'informació emmagatzemada creix un 30% a l'any, aquests avantatges no es descarten.

***

Podeu obtenir més informació sobre les solucions de Huawei i els seus escenaris d'aplicació al nostre Online o contactant directament amb els representants de l'empresa.

Font: www.habr.com

Afegeix comentari