Com triar l'emmagatzematge sense disparar-se al peu

Introducció

És hora de comprar emmagatzematge. Quina agafar, a qui escoltar? El venedor A parla del venedor B, i després hi ha l'integrador C, que diu el contrari i aconsella el venedor D. En aquesta situació, fins i tot el cap d'un arquitecte d'emmagatzematge experimentat girarà, sobretot amb tots els nous venedors i SDS i hiperconvergència que estan de moda. avui.

Aleshores, com ho entens tot i no acabes sent un ximple? Nosaltres (AntonVirtual Anton Zhbankov i corp Evgeniy Elizarov) intentem parlar-ne en rus senzill.
L'article té moltes similituds i en realitat és una extensió de "Disseny del centre de dades virtualitzat” pel que fa a l'elecció dels sistemes d'emmagatzematge i la revisió de les tecnologies d'emmagatzematge. Veurem breument la teoria general, però us recomanem que llegiu també aquest article.

Per què?

Sovint podeu veure una situació en què una persona nova arriba a un fòrum o a un xat especialitzat, com ara les discussions d'emmagatzematge, i fa la pregunta: "aquí m'ofereixen dues opcions d'emmagatzematge: ABC SuperStorage S600 i XYZ HyperOcean 666v4, què recomanes ?”

I comença la confusió sobre qui té quines característiques de la implementació de trets terribles i incomprensibles, que per a una persona no preparada són completament xinesos.

Per tant, la pregunta clau i la primera que us heu de fer molt abans de comparar les especificacions de les propostes comercials és PER QUÈ? Per què és necessari aquest sistema d'emmagatzematge?

Com triar l'emmagatzematge sense disparar-se al peu

La resposta serà inesperada, i molt a l'estil de Tony Robbins: per emmagatzemar dades. Gràcies, capità! No obstant això, de vegades ens aprofundim tant en la comparació de detalls que en primer lloc oblidem per què estem fent tot això.

Per tant, la tasca d'un sistema d'emmagatzematge de dades és emmagatzemar i proporcionar accés a les DADES amb un rendiment determinat. Començarem amb les dades.

Dades

Tipus de dades

Quin tipus de dades volem emmagatzemar? Una pregunta molt important que pot eliminar molts sistemes d'emmagatzematge de la consideració. Per exemple, teniu previst emmagatzemar vídeos i fotos. Podeu eliminar immediatament els sistemes dissenyats per a l'accés aleatori en blocs petits, o els sistemes amb funcions pròpies de compressió/desduplicació. Aquests poden ser simplement sistemes excel·lents, no volem dir res dolent. Però en aquest cas, els seus punts forts es debilitaran (el vídeo i les fotos no es comprimeixen) o simplement augmentaran significativament el cost del sistema.

Per contra, si l'ús previst és un SGBD transaccional ocupat, els excel·lents sistemes de transmissió multimèdia capaços de lliurar gigabytes per segon seran una mala elecció.

Volum de dades

Quantes dades pensem emmagatzemar? La quantitat sempre es transforma en qualitat; això no s'ha d'oblidar mai, sobretot en el nostre temps de creixement exponencial del volum de dades. Els sistemes de classe petabyte ja no són estranys, però com més gran sigui la capacitat de petabyte, més específic serà el sistema, menys accessible serà la funcionalitat habitual dels sistemes d'accés aleatori de mida petita i mitjana. És trivial perquè les taules d'estadístiques d'accés al bloc són més grans que la quantitat de RAM disponible als controladors. Per no parlar de la compressió/nivell. Suposem que volem canviar l'algorisme de compressió a un de més potent i comprimir 20 petabytes de dades. Quant de temps trigarà: sis mesos, un any?

D'altra banda, per què molestar-se si necessiteu emmagatzemar i processar 500 GB de dades? Només 500. Els SSD domèstics (amb DWPD baix) d'aquesta mida no costen res. Per què construir una fàbrica de canal de fibra i comprar sistemes d'emmagatzematge extern de gamma alta que costen l'equivalent a un pont de ferro colat?

Quin percentatge del total són dades calentes? Què tan desigual és la càrrega en termes de volum de dades? Aquí és on la tecnologia d'emmagatzematge en nivells o la memòria cau Flash poden ser molt útils si la quantitat de dades calentes és petita en comparació amb el total. O viceversa, amb una càrrega uniforme en tot el volum, que sovint es troba en sistemes de streaming (videovigilància, alguns sistemes d'anàlisi), aquestes tecnologies no proporcionaran res i només augmentaran el cost/complexitat del sistema.

IS

L'altra cara de les dades és el sistema d'informació que utilitza les dades. Un IS té un conjunt de requisits que hereten dades. Per obtenir més informació sobre l'IS, vegeu "Disseny de centre de dades virtualitzat".

Requisits de resiliència/Disponibilitat

Els requisits de tolerància a errors / disponibilitat de dades s'hereten de l'IS que els utilitza i s'expressen en tres números: RPO, OTR, disponibilitat.

Disponibilitat — la quota durant un període de temps determinat durant el qual les dades estan disponibles per treballar amb ells. Normalment s'expressa com un nombre de 9. Per exemple, dos nou per any significa que la disponibilitat és del 99% o, en cas contrari, es permeten 95 hores d'indisponibilitat a l'any. Tres nou - 9,5 hores per any.

RPO/RTO no són indicadors totals, sinó per a cada incident (accident), en contrast amb la disponibilitat.

RPO — la quantitat de dades perdudes durant un accident (en hores). Per exemple, si les còpies de seguretat es produeixen un cop al dia, RPO = 24 hores. Aquells. En cas de desastre i pèrdua total del sistema d'emmagatzematge, es poden perdre dades fins a 24 hores (des del moment de la còpia de seguretat). A partir de l'RPO especificat per a l'IS, per exemple, s'escriuen regulacions de còpia de seguretat. A més, basant-se en RPO, podeu entendre quanta replicació de dades síncrona/asíncrona es necessita.

OTR — hora de restaurar el servei (accés a les dades) després d'un desastre. A partir del valor RTO donat, podem entendre si es necessita un metrocluster o si la replicació unidireccional és suficient. Necessites un sistema d'emmagatzematge multicontrolador de classe alta?

Com triar l'emmagatzematge sense disparar-se al peu

Requisits de rendiment

Tot i que aquesta és una pregunta molt òbvia, és on sorgeixen la majoria de les dificultats. En funció de si ja es disposa d'algun tipus d'infraestructura o no, es construiran maneres de recollir les estadístiques necessàries.

Ja teniu un sistema d'emmagatzematge i busqueu un substitut o voleu comprar-ne un altre per ampliar-lo. Aquí tot és senzill. Enteneu quins serveis ja teniu i quins penseu implementar en un futur proper. A partir dels serveis actuals, teniu l'oportunitat de recopilar estadístiques de rendiment. Decidiu el nombre actual d'IOPS i la latència actual: quins són aquests indicadors i són suficients per a les vostres tasques? Això es pot fer tant al propi sistema d'emmagatzematge de dades com des dels hosts que hi estan connectats.

A més, cal mirar no només la càrrega actual, sinó durant un període determinat (preferiblement un mes). Vegeu quins són els pics màxims durant el dia, quina càrrega crea la còpia de seguretat, etc. Si el vostre sistema d'emmagatzematge o el seu programari no us proporciona un conjunt complet d'aquestes dades, podeu utilitzar l'eina RRD gratuïta, que pot funcionar amb la majoria dels sistemes d'emmagatzematge i commutadors més populars i us pot proporcionar estadístiques de rendiment detallades. També val la pena mirar la càrrega dels amfitrions que funcionen amb aquest sistema d'emmagatzematge, per a màquines virtuals específiques o què s'està executant exactament en aquest amfitrió.

Com triar l'emmagatzematge sense disparar-se al peu

Val la pena assenyalar per separat que si els retards en el volum i el magatzem de dades que es troba en aquest volum difereixen bastant significativament, hauríeu de prestar atenció a la vostra xarxa SAN, hi ha una gran probabilitat que hi hagi problemes i abans de comprar-ne una nova. sistema, val la pena mirar aquest problema, perquè hi ha una probabilitat molt alta d'augmentar el rendiment del sistema actual.

Esteu construint una infraestructura des de zero o comprant un sistema per a algun servei nou, les càrregues del qual no coneixeu. Hi ha diverses opcions: comunicar-se amb els companys sobre recursos especialitzats per intentar esbrinar i predir la càrrega, contactar amb un integrador que tingui experiència en la implementació de serveis similars i que us pugui calcular la càrrega. I la tercera opció (normalment la més difícil, sobretot si es tracta d'aplicacions escrites a casa o rares) és intentar esbrinar els requisits de rendiment dels desenvolupadors del sistema.

I, si us plau, tingueu en compte que l'opció més correcta des del punt de vista de l'aplicació pràctica és un pilot en equips actuals o equips proporcionats per a proves per part d'un proveïdor/integrador.

Requisits especials

Els requisits especials són tot allò que no entra en els requisits de rendiment, tolerància a errors i funcionalitat per al tractament i subministrament directe de dades.

Un dels requisits especials més senzills per a un sistema d'emmagatzematge de dades es pot anomenar "mitjans d'emmagatzematge alienables". I immediatament queda clar que aquest sistema d'emmagatzematge de dades ha d'incloure una biblioteca de cintes o simplement una unitat de cinta a la qual s'aboca la còpia de seguretat. Després d'això, una persona especialment entrenada signa la cinta i la porta amb orgull a una caixa forta especial.
Un altre exemple d'un requisit especial és un disseny a prova de cops protegit.

On

El segon component principal a l'hora d'escollir un sistema d'emmagatzematge concret és la informació sobre ON s'ubicarà aquest sistema d'emmagatzematge. Partint de la geografia o condicions climàtiques, i acabant amb el personal.

Client

Per a qui està previst aquest sistema d'emmagatzematge? La pregunta té els motius següents:

Client/comercial del govern.
El client comercial no té restriccions i ni tan sols està obligat a fer licitacions, llevat d'acord amb la seva pròpia normativa interna.

Un client del govern és una cosa diferent. 44 Llei federal i altres delícies amb licitacions i especificacions tècniques que es poden impugnar.

El client està sota sancions
Bé, la pregunta aquí és molt senzilla: l'elecció només està limitada per les ofertes disponibles per a un client determinat.

Reglaments interns / venedors / models permesos per a la compra
La pregunta també és extremadament senzilla, però cal recordar-la.

On físicament

En aquesta part considerem totes les qüestions relacionades amb la geografia, els canals de comunicació i el microclima a les instal·lacions d'allotjament.

personal

Qui treballarà amb aquest sistema d'emmagatzematge? Això no és menys important que el que pot fer el propi sistema d'emmagatzematge.
Per molt prometedor, fantàstic i meravellós que sigui el sistema d'emmagatzematge del venedor A, probablement no tingui sentit instal·lar-lo si el personal només sap com treballar amb el venedor B i no hi ha plans per a més compres i cooperació contínua amb A.

I, per descomptat, l'altra cara de la qüestió és com hi ha personal format disponible en una ubicació geogràfica determinada directament a l'empresa i potencialment al mercat laboral. Per a les regions, escollir sistemes d'emmagatzematge amb interfícies senzilles o la capacitat de centralitzar la gestió de forma remota pot tenir molt de sentit. En cas contrari, en algun moment pot arribar a ser insoportablement dolorós. Internet està ple d'històries sobre com un nou empleat que va arribar, l'estudiant d'ahir, va configurar una cosa que va destruir tota l'oficina.

Com triar l'emmagatzematge sense disparar-se al peu

L’entorn

I, per descomptat, una qüestió important és en quin entorn funcionarà aquest sistema d'emmagatzematge.

  • Què passa amb l'alimentació/refrigeració?
  • Quina connexió
  • On s'instal·larà?
  • Etc.

Sovint aquestes preguntes es donen per fetes i no es tenen en compte especialment, però de vegades són les que poden capgirar-ho tot.

Què

Venedor

A partir d'avui (mitjans de 2019), el mercat d'emmagatzematge rus es pot dividir en 5 categories:

  1. La divisió més alta són empreses ben establertes amb una àmplia gamma de prestatgeries de discs, des dels més senzills fins als de gamma alta (HPE, DellEMC, Hitachi, NetApp, IBM / Lenovo)
  2. Segona divisió: empreses amb una línia limitada, jugadors de nínxol, venedors de SDS seriosos o nouvinguts en ascens (Fujitsu, Datacore, Infinidat, Huawei, Pure, etc.)
  3. Tercera divisió: solucions de nínxol de gamma baixa, SDS barats, productes avançats basats en ceph i altres projectes oberts (Infortrend, Starwind, etc.)
  4. Segment SOHO: sistemes d'emmagatzematge petits i ultra-petits a nivell domèstic/oficina petita (Synology, QNAP, etc.)
  5. Sistemes d'emmagatzematge substituïts per importació: inclou tant el maquinari de la primera divisió amb etiquetes reetiquetes com els rars representants de la segona (RAIDIX, els donarem el segon per endavant), però principalment aquesta és la tercera divisió (Aerodisk, Baum, Depo, etc.)

La divisió és força arbitrària i no vol dir en absolut que el tercer o el segment SOHO sigui dolent i no es pugui utilitzar. En projectes concrets amb un conjunt de dades i un perfil de càrrega clarament definits, poden funcionar molt bé, superant amb escreix la primera divisió pel que fa a la relació preu/qualitat. És important decidir primer els vostres objectius, perspectives de creixement i funcionalitat requerida, i després Synology us servirà fidelment i el vostre cabell es tornarà suau i sedós.

Un dels factors importants a l'hora d'escollir un venedor és l'entorn actual. Quants sistemes d'emmagatzematge ja teniu i amb quins sistemes d'emmagatzematge poden treballar els vostres enginyers. Necessites un altre proveïdor, un altre punt de contacte, migraràs gradualment tota la càrrega del proveïdor A al proveïdor B?

No s'ha de produir entitats més enllà del que és necessari.

iSCSI/FC/Fitxer

No hi ha consens entre els enginyers sobre el tema dels protocols d'accés, i el debat s'assembla més a les discussions teològiques que les d'enginyeria. Però, en general, es poden destacar els següents punts:

FCoE més mort que viu.

FC vs iSCSI. Un dels avantatges clau de FC el 2019 sobre l'emmagatzematge IP, una fàbrica dedicada per a l'accés a dades, es compensa amb una xarxa IP dedicada. FC no té avantatges globals sobre les xarxes IP, i la IP es pot utilitzar per crear sistemes d'emmagatzematge de qualsevol nivell de càrrega, fins a sistemes per a DBMS pesats per al sistema bancari principal d'un banc gran. D'altra banda, la mort del FC ja fa uns quants anys que es va profetitzar, però alguna cosa ho impedeix constantment. Avui, per exemple, alguns actors del mercat d'emmagatzematge desenvolupen activament l'estàndard NVMEoF. Si compartirà el destí de FCoE, el temps ho dirà.

Accés a fitxers tampoc és quelcom indigne d'atenció. NFS/CIFS funciona bé en entorns de productivitat i, si es dissenya correctament, no té més queixes que els protocols de bloqueig.

Hibrid / All Flash Array

Els sistemes d'emmagatzematge clàssics tenen dos tipus:

  1. AFA (All Flash Array): sistemes optimitzats per a l'ús de SSD.
  2. Híbrid: us permet utilitzar tant HDD com SSD o una combinació d'ells.

La seva principal diferència són les tecnologies d'eficiència d'emmagatzematge admeses i el nivell màxim de rendiment (IOPS elevat i baixa latència). Tots dos sistemes (en la majoria dels seus models, sense comptar el segment de gamma baixa) poden funcionar tant com a dispositius de blocs com de fitxers. La funcionalitat admesa depèn del nivell del sistema i, per als models més joves, sovint es redueix a un nivell mínim. Val la pena parar atenció a això quan s'estudien les característiques d'un model en particular, i no només les capacitats de tota la línia en conjunt. També, per descomptat, les seves característiques tècniques, com processador, quantitat de memòria, memòria cau, nombre i tipus de ports, etc., també depenen del nivell del sistema. Des del punt de vista de la gestió, els AFA es diferencien dels sistemes híbrids (de disc) només en la implementació de mecanismes per treballar amb unitats SSD, i fins i tot si feu servir un SSD en un sistema híbrid, això no vol dir en absolut que podreu per aconseguir el nivell de rendiment a nivell d'un sistema AFA. A més, en la majoria dels casos, els mecanismes d'emmagatzematge eficients en línia estan desactivats en sistemes híbrids i la seva inclusió comporta una pèrdua de rendiment.

Sistemes d'emmagatzematge especials

A més dels sistemes d'emmagatzematge d'ús general, centrats principalment en el processament de dades operatives, hi ha sistemes d'emmagatzematge especials amb principis clau fonamentalment diferents dels habituals (baixa latència, IOPS elevats):

Mitjans de comunicació.

Aquests sistemes estan dissenyats per emmagatzemar i processar fitxers multimèdia grans. Resp. el retard esdevé pràcticament sense importància i la capacitat d'enviar i rebre dades en una banda àmplia en molts fluxos paral·lels passa a primer pla.

Desduplicació de sistemes d'emmagatzematge per a còpies de seguretat.

Atès que les còpies de seguretat es distingeixen per la seva similitud entre si, cosa rara en condicions normals (la còpia de seguretat mitjana difereix de la còpia d'ahir en un 1-2%), aquesta classe de sistemes empaqueta de manera extremadament eficient les dades que s'hi registren en un espai força petit. nombre de suports físics. Per exemple, en alguns casos, les relacions de compressió de dades poden arribar a 200 a 1.

Sistemes d'emmagatzematge d'objectes.

Aquests sistemes d'emmagatzematge no tenen els volums habituals d'accés a blocs i els recursos compartits de fitxers i, sobretot, s'assemblen a una base de dades enorme. L'accés a un objecte emmagatzemat en un sistema d'aquest tipus es realitza mitjançant un identificador únic o mitjançant metadades (per exemple, tots els objectes en format JPEG amb una data de creació entre XX-XX-XXXX i YY-YY-YYYY).

Sistema de compliment.

No són tan habituals a Rússia avui dia, però val la pena esmentar-los. La finalitat d'aquests sistemes d'emmagatzematge és garantir l'emmagatzematge de dades per complir amb les polítiques de seguretat o els requisits reglamentaris. Alguns sistemes (per exemple, EMC Centera) han implementat una funció per prohibir la supressió de dades: tan bon punt es gira la clau i el sistema entra en aquest mode, ni l'administrador ni ningú més poden suprimir físicament les dades que ja s'han enregistrat.

Tecnologies propietàries

memòria cau flash

Flash Cache és un nom comú per a totes les tecnologies propietàries per utilitzar la memòria flash com a memòria cau de segon nivell. Quan s'utilitza una memòria cau flash, el sistema d'emmagatzematge es calcula normalment per proporcionar una càrrega constant dels discs magnètics, mentre que el pic és servit per la memòria cau.

En aquest cas, cal entendre el perfil de càrrega i el grau de localització de l'accés als blocs de volums d'emmagatzematge. La memòria cau Flash és una tecnologia per a càrregues de treball amb consultes molt localitzades i pràcticament no és aplicable a volums carregats de manera uniforme (com ara per als sistemes d'anàlisi).

Hi ha dues implementacions de memòria cau flash disponibles al mercat:

  • Llegeix només. En aquest cas, només s'emmagatzemen a la memòria cau les dades de lectura i l'escriptura va directament als discs. Alguns fabricants, com NetApp, creuen que escriure als seus sistemes d'emmagatzematge ja és òptim i la memòria cau no ajudarà gens.
  • Llegir escriure. No només la lectura, sinó també l'escriptura s'emmagatzema en memòria cau, la qual cosa us permet emmagatzemar el flux i reduir l'impacte de la penalització RAID i, com a resultat, augmentar el rendiment global dels sistemes d'emmagatzematge amb un mecanisme d'escriptura menys òptim.

Tiring

L'emmagatzematge multinivell (cansador) és una tecnologia per combinar nivells amb diferents nivells de rendiment, com ara SSD i HDD, en un sol grup de discs. En cas de desnivell pronunciat d'accés als blocs de dades, el sistema podrà equilibrar automàticament els blocs de dades, traslladant els carregats a un nivell d'alt rendiment, i els freds, per contra, a un més lent.

Els sistemes híbrids de les classes mitjanes i baixes utilitzen emmagatzematge de diversos nivells amb dades que es mouen entre nivells segons una programació. Al mateix temps, la mida del bloc d'emmagatzematge de diversos nivells per als millors models és de 256 MB. Aquestes característiques no ens permeten considerar la tecnologia d'emmagatzematge en nivells com una tecnologia per augmentar la productivitat, com molta gent creu erròniament. L'emmagatzematge multinivell en sistemes de classe baixa i mitjana és una tecnologia per optimitzar els costos d'emmagatzematge per a sistemes amb desigualtats de càrrega pronunciats.

Instantània

Per molt que parlem de la fiabilitat dels sistemes d'emmagatzematge, hi ha moltes oportunitats de perdre dades que no depenen de problemes de maquinari. Això podria ser virus, pirates informàtics o qualsevol altra supressió/corrupció no intencionada de dades. Per aquest motiu, fer una còpia de seguretat de les dades de producció és una part integral de la feina d'un enginyer.

Una instantània és una instantània d'un volum en algun moment del temps. Quan es treballa amb la majoria de sistemes, com ara virtualització, bases de dades, etc. hem de fer una instantània de la qual copiarem les dades a una còpia de seguretat, mentre que el nostre IS podrà continuar treballant amb aquest volum de manera segura. Però val la pena recordar que no totes les instantànies són igualment útils. Els diferents venedors tenen diferents enfocaments per crear instantànies relacionades amb la seva arquitectura.

CoW (copia sobre escriptura). Quan intenteu escriure un bloc de dades, el seu contingut original es copia a una àrea especial, després de la qual l'escriptura continua amb normalitat. Això evita la corrupció de dades dins de la instantània. Naturalment, totes aquestes manipulacions de dades "paràsites" causen càrrega addicional al sistema d'emmagatzematge i per aquest motiu, els venedors amb implementacions similars no recomanen utilitzar més d'una dotzena d'instantànies i no utilitzar-les en absolut en volums molt carregats.

Fila (redirecció a escriptura). En aquest cas, el volum original es congela de manera natural i, quan s'intenta escriure un bloc de dades, el sistema d'emmagatzematge escriu dades en una àrea especial a l'espai lliure, canviant la ubicació d'aquest bloc a la taula de metadades. Això us permet reduir el nombre d'operacions de reescriptura, que finalment elimina la caiguda del rendiment i elimina les restriccions a les instantànies i el seu nombre.

Les instantànies també són de dos tipus en relació amb les aplicacions:

Coherència de l'aplicació. En el moment de crear una instantània, el sistema d'emmagatzematge extreu un agent al sistema operatiu del consumidor, que esborra de manera forçada les memòries cau de disc de memòria a disc i obliga l'aplicació a fer-ho. En aquest cas, en restaurar des d'una instantània, les dades seran coherents.

Xoc consistent. En aquest cas, no passa res semblant i la instantània es crea tal qual. En el cas de la recuperació d'una instantània d'aquest tipus, la imatge és idèntica a la que passaria si l'alimentació s'apaga sobtadament i és possible una pèrdua de dades, s'enganxes a la memòria cau i no arribessin mai al disc. Aquestes instantànies són més fàcils d'implementar i no causen degradació del rendiment a les aplicacions, però són menys fiables.

Per què es necessiten instantànies als sistemes d'emmagatzematge?

  • Còpia de seguretat sense agent directament des del sistema d'emmagatzematge
  • Creeu entorns de prova basats en dades reals
  • En el cas dels sistemes d'emmagatzematge de fitxers, es pot utilitzar per crear entorns VDI mitjançant l'ús d'instantànies del sistema d'emmagatzematge en lloc d'un hipervisor.
  • Assegureu-vos de RPO baixos creant instantànies programades amb una freqüència significativament superior a la freqüència de còpia de seguretat

Clonació

Clonació de volums: funciona amb un principi similar al de les instantànies, però s'utilitza no només per llegir dades, sinó per treballar-hi completament. Podem obtenir una còpia exacta del nostre volum, amb totes les dades, sense fer-ne una còpia física, la qual cosa estalviarà espai. Normalment, la clonació de volum s'utilitza a Test&Dev o si voleu comprovar la funcionalitat d'algunes actualitzacions del vostre IS. La clonació us permetrà fer-ho de la manera més ràpida i econòmica possible pel que fa als recursos del disc, perquè Només s'escriuran els blocs de dades canviats.

Replicació / Diari

La replicació és un mecanisme per crear una còpia de dades en un altre sistema d'emmagatzematge físic. Normalment, cada venedor té una tecnologia patentada que només funciona dins de la seva pròpia línia. Però també hi ha solucions de tercers, incloses les que funcionen a nivell d'hipervisor, com ara VMware vSphere Replication.

La funcionalitat de les tecnologies propietàries i la facilitat d'ús d'aquestes solen ser molt superiors a les universals, però resulten inaplicables quan, per exemple, cal fer una rèplica de NetApp a HP MSA.

La replicació es divideix en dos subtipus:

Sincrònic. En el cas de la replicació síncrona, l'operació d'escriptura s'envia immediatament al segon sistema d'emmagatzematge i l'execució no es confirma fins que el sistema d'emmagatzematge remot ho confirma. A causa d'això, el retard d'accés augmenta, però tenim una còpia mirall exacta de les dades. Aquells. RPO = 0 en cas de pèrdua del sistema d'emmagatzematge principal.

asíncron. Les operacions d'escriptura només s'executen al sistema d'emmagatzematge principal i es confirmen immediatament, alhora que s'acumulen en un buffer per a la transmissió per lots al sistema d'emmagatzematge remot. Aquest tipus de replicació és rellevant per a dades menys valuoses, o per a canals amb baix ample de banda o alta latència (típic per a distàncies superiors a 100 km). En conseqüència, RPO = freqüència d'enviament de paquets.

Sovint, juntament amb la replicació, hi ha un mecanisme registre operacions de disc. En aquest cas, s'assigna una àrea especial per al registre i les operacions d'enregistrament d'una certa profunditat en el temps, o limitades pel volum del registre, s'emmagatzemen. Per a determinades tecnologies propietàries, com EMC RecoverPoint, hi ha una integració amb el programari del sistema que us permet enllaçar determinades adreces d'interès a una entrada de registre específica. Gràcies a això, és possible fer retrocedir l'estat d'un volum (o crear un clon) no només al 23 d'abril, 11 hores 59 segons 13 mil·lisegons, sinó al moment anterior a “DROP ALL TABLES; COMPROMÍS”.

Clúster de metro

El clúster Metro és una tecnologia que permet crear una replicació síncrona bidireccional entre dos sistemes d'emmagatzematge de tal manera que des de l'exterior aquest parell sembla un sistema d'emmagatzematge. S'utilitza per crear clústers amb braços separats geogràficament a distàncies de metro (menys de 100 km).

A partir de l'exemple d'ús en un entorn de virtualització, el metrocluster permet crear un magatzem de dades amb màquines virtuals, accessible per gravar des de dos centres de dades alhora. En aquest cas, es crea un clúster a nivell d'hipervisor, format per hosts en diferents centres de dades físics, connectats a aquest magatzem de dades. El que et permet fer el següent:

  • Automatització total del procés de recuperació després de la mort d'un dels centres de dades. Sense cap fons addicional, totes les màquines virtuals que s'executen al centre de dades mort es reiniciaran automàticament a la resta. RTO = temps d'espera del clúster d'alta disponibilitat (15 segons per a VMware) + temps per carregar el sistema operatiu i iniciar els serveis.
  • Evitar desastres o, en rus, evitar desastres. Si es planifica el treball de la font d'alimentació al centre de dades 1, tindrem l'oportunitat de migrar tota la càrrega important al centre de dades 2 sense parar amb antelació, abans que comenci el treball.

Virtualització

La virtualització d'emmagatzematge és tècnicament l'ús de volums d'un altre sistema d'emmagatzematge com a discs. Un virtualitzador d'emmagatzematge pot simplement transferir el volum d'una altra persona al consumidor com a propi, reflectint-lo simultàniament a un altre sistema d'emmagatzematge o fins i tot crear un RAID a partir de volums externs.
Els representants clàssics de la classe de virtualització d'emmagatzematge són EMC VPLEX i IBM SVC. I, per descomptat, sistemes d'emmagatzematge amb funcionalitat de virtualització: NetApp, Hitachi, IBM / Lenovo Storwize.

Per què podria ser necessari?

  • Redundància a nivell de sistema d'emmagatzematge. Es crea un mirall entre els volums, i una meitat pot estar a HP 3Par i l'altra a NetApp. I el virtualitzador és d'EMC.
  • Mou les dades amb un temps d'inactivitat mínim entre sistemes d'emmagatzematge de diferents fabricants. Suposem que les dades s'han de migrar de l'antic 3Par, que es cancel·larà, al nou Dell. En aquest cas, els consumidors es desconnecten de 3Par, els volums es transfereixen sota VPLEX i es tornen a presentar als consumidors. Com que no ha canviat gaire el volum, el treball continua. El procés de duplicació del volum al nou Dell comença en segon pla i, un cop finalitzat, el mirall es trenca i 3Par està desactivat.
  • Organització de metroclusters.

Compressió/deduplicació

La compressió i la desduplicació són tecnologies que us permeten estalviar espai en disc al vostre sistema d'emmagatzematge. Val la pena esmentar de seguida que no totes les dades estan subjectes a compressió i/o deduplicació en principi, mentre que alguns tipus de dades es comprimeixen i es desdupliquen millor, i d'altres a l'inrevés.

Hi ha 2 tipus de compressió i deduplicació:

En linia — La compressió i la deduplicació dels blocs de dades es produeix abans d'escriure aquestes dades al disc. Així, el sistema només calcula el hash del bloc i el compara a la taula amb els existents. En primer lloc, és més ràpid que escriure al disc i, en segon lloc, no malgastem espai addicional al disc.

posat - quan aquestes operacions es realitzen sobre dades ja enregistrades situades en discs. En conseqüència, primer s'escriuen les dades al disc i només aleshores es calcula el hash i s'eliminen els blocs innecessaris i s'alliberen els recursos del disc.

Val la pena dir que la majoria de venedors utilitzen ambdós tipus, la qual cosa els permet optimitzar aquests processos i augmentar així la seva eficiència. La majoria dels proveïdors d'emmagatzematge tenen utilitats que us permeten analitzar els vostres conjunts de dades. Aquestes utilitats funcionen segons la mateixa lògica que s'implementa en el sistema d'emmagatzematge, de manera que el nivell d'eficiència estimat serà el mateix. A més, no oblideu que molts venedors tenen programes de garantia de rendiment que prometen nivells de rendiment no inferiors als indicats per a determinats tipus de dades (o tots). I no hauríeu de descuidar aquest programa, ja que calculant el sistema per a les vostres tasques, tenint en compte el coeficient d'eficiència d'un sistema determinat, podeu estalviar volum. També val la pena tenir en compte que aquests programes estan dissenyats per a sistemes AFA, però gràcies a la compra d'un volum més petit de SSD que els HDD en sistemes clàssics, això reduirà el seu cost, i si no és igual al cost d'un sistema de disc, llavors apropar-s'hi bastant.

Model

I aquí arribem a la pregunta correcta.

"M'ofereixen dues opcions d'emmagatzematge: ABC SuperStorage S600 i XYZ HyperOcean 666v4, què recomaneu?"

Es converteix en "Aquí m'ofereixen dues opcions d'emmagatzematge: ABC SuperStorage S600 i XYZ HyperOcean 666v4, què recomanes?

La càrrega objectiu és combinar màquines virtuals VMware amb bucles de producció/prova/desenvolupament. Test = productiu. 150 TB cadascun amb un rendiment màxim de 80 IOPS Bloc de 000 kb 8% d'accés aleatori 50/80 de lectura-escriptura. 20 TB per al desenvolupament, 300 IOPS són suficients, 50 aleatoris, 000 d'escriptura.

Productivitat presumiblement al metrocluster RPO = 15 minuts RTO = 1 hora, desenvolupament en replicació asíncrona RPO = 3 hores, prova en un sol lloc.

Hi haurà un DBMS de 50 TB, el registre seria bo per a ells.

Tenim servidors Dell a tot arreu, sistemes d'emmagatzematge Hitachi antics, amb prou feines poden fer front, tenim previst augmentar la càrrega un 50% en termes de volum i rendiment".

Com diuen, una pregunta correctament formulada conté el 80% de la resposta.

Дополнительная информация

Què hauríeu de llegir addicionalment segons els autors

llibres

  • Olifer i Olifer “Xarxes d'ordinadors”. El llibre ajudarà a sistematitzar i potser entendre millor com funciona el mitjà de transmissió de dades per als sistemes d'emmagatzematge IP/Ethernet
  • Emmagatzematge i gestió de la informació d'EMC. Un excel·lent llibre sobre els fonaments bàsics dels sistemes d'emmagatzematge, els perquès, els com i els perquès.

Fòrums i xats

Recomanacions generals

Preus

Ara, pel que fa als preus, en general, si hi ha preus per als sistemes d'emmagatzematge, solen ser preus de llista, dels quals cada client rep un descompte individual. La mida del descompte consta d'un gran nombre de paràmetres, de manera que és senzillament impossible predir quin preu final rebrà la vostra empresa sense demanar-ho al distribuïdor. Però, al mateix temps, recentment han començat a aparèixer models de gamma baixa a les botigues d'informàtica habituals, com per exemple nix.ru o xcom-shop.ru. Aquí podeu comprar immediatament el sistema que us interessa a un preu fix, com qualsevol component d'ordinador.

Però m'agradaria assenyalar de seguida que una comparació directa per TB/$ no és correcta. Si ens ho apropem des d'aquest punt de vista, aleshores la solució més barata serà un simple servidor JBOD +, que no proporcionarà ni la flexibilitat ni la fiabilitat que proporciona un sistema d'emmagatzematge de doble controlador complet. Això no vol dir en absolut que JBOD sigui fàstic i un truc brut desagradable, només cal que torneu a entendre molt clarament com i amb quins propòsits utilitzareu aquesta solució. Sovint podeu escoltar que no hi ha res a trencar a JBOD, només hi ha un pla posterior. Tanmateix, de vegades també fallen els backplanes. Tot es trenca tard o d'hora.

En total

Cal comparar els sistemes entre si no només pel preu, o no només pel rendiment, sinó per la totalitat de tots els indicadors.

Compreu HDD només si esteu segur que necessiteu HDD. Per a càrregues baixes i tipus de dades incompressibles, en cas contrari, val la pena recórrer als programes de garantia d'eficiència d'emmagatzematge SSD, que ara tenen la majoria de venedors (i realment funcionen, fins i tot a Rússia), però tot depèn de les aplicacions i les dades que es trobaran. en aquest sistema d'emmagatzematge.

No vagis per barat. De vegades, aquests amaguen molts moments desagradables, un dels quals Evgeniy Elizarov va descriure en els seus articles sobre Infortrend. I que, al final, aquesta barata et pot resultar contraproduent. No oblidis: "l'avar paga dues vegades".

Font: www.habr.com

Afegeix comentari