Nozares tendences lielapjoma uzglabāšanas sistēmās

Šodien mēs runāsim par to, kā vislabāk uzglabāt datus pasaulē, kurā piektās paaudzes tīkli, genoma skeneri un pašbraucošas automašīnas ražo vairāk datu dienā, nekā visa cilvēce radīja pirms rūpnieciskās revolūcijas.

Nozares tendences lielapjoma uzglabāšanas sistēmās

Mūsu pasaule ģenerē arvien vairāk informācijas. Daļa no tā ir īslaicīga un tiek pazaudēta tikpat ātri, kā tiek savākta. Cits ir jāuzglabā ilgāk, un cits ir pat veidots “gadsimtiem ilgi” - vismaz to mēs redzam no tagadnes. Informācijas plūsmas datu centros iekārtojas tādā ātrumā, ka jebkura jauna pieeja, jebkura tehnoloģija, kas paredzēta šī nebeidzamā “pieprasījuma” apmierināšanai, ātri noveco.

Nozares tendences lielapjoma uzglabāšanas sistēmās

40 gadi sadalīto uzglabāšanas sistēmu izstrādes

Pirmā tīkla krātuve mums pazīstamajā formā parādījās 1980. gados. Daudzi no jums ir saskārušies ar NFS (tīkla failu sistēma), AFS (Andrew failu sistēma) vai Coda. Desmit gadus vēlāk mode un tehnoloģijas ir mainījušās, un izkliedētās failu sistēmas ir kļuvušas par klasteru glabāšanas sistēmām, kuru pamatā ir GPFS (vispārējā paralēlā failu sistēma), CFS (klasterētās failu sistēmas) un StorNext. Par pamatu tika izmantota klasiskās arhitektūras bloku krātuve, kurai virsū tika izveidota viena failu sistēma, izmantojot programmatūras slāni. Šie un līdzīgi risinājumi joprojām tiek izmantoti, ieņem savu nišu un ir diezgan pieprasīti.

Tūkstošgades mijā izkliedētās krātuves paradigma nedaudz mainījās, un sistēmas ar SN (Shared-Nothing) arhitektūru ieņēma vadošās pozīcijas. Ir notikusi pāreja no klasteru krātuves uz krātuvi atsevišķos mezglos, kas parasti bija klasiski serveri ar programmatūru, kas nodrošina uzticamu krātuvi; Uz šādiem principiem, piemēram, ir veidota HDFS (Hadoop Distributed File System) un GFS (globālā failu sistēma).

Tuvāk 2010. gadiem jēdzieni, kas ir pamatā izplatītajām uzglabāšanas sistēmām, arvien vairāk sāka atspoguļoties pilnvērtīgos komerciālos produktos, piemēram, VMware vSAN, Dell EMC Isilon un mūsu Huawei OceanStor. Aiz minētajām platformām vairs nav entuziastu kopiena, bet gan konkrēti pārdevēji, kas atbild par produkta funkcionalitāti, atbalstu un apkalpošanu un garantē tā tālāku attīstību. Šādi risinājumi ir visvairāk pieprasīti vairākās jomās.

Nozares tendences lielapjoma uzglabāšanas sistēmās

Telekomunikāciju operatori

Iespējams, ka viens no vecākajiem izplatīto datu glabāšanas sistēmu patērētājiem ir telekomunikāciju operatori. Diagramma parāda, kuras lietojumprogrammu grupas rada lielāko daļu datu. OSS (operāciju atbalsta sistēmas), MSS (pārvaldības atbalsta pakalpojumi) un BSS (biznesa atbalsta sistēmas) ir trīs papildu programmatūras slāņi, kas nepieciešami pakalpojumu sniegšanai abonentiem, finanšu pārskatu sniegšanai pakalpojumu sniedzējam un darbības atbalstam operatoru inženieriem.

Bieži vien šo slāņu dati tiek stipri sajaukti viens ar otru, un, lai izvairītos no nevajadzīgu kopiju uzkrāšanās, tiek izmantota izkliedētā krātuve, kurā tiek uzkrāts viss informācijas apjoms, kas nāk no operētājtīkla. Krātuves ir apvienotas kopējā baseinā, kuram piekļūst visi dienesti.

Mūsu aprēķini liecina, ka pāreja no klasiskajām uzglabāšanas sistēmām uz bloku glabāšanas sistēmām ļauj ietaupīt līdz pat 70% no budžeta, tikai atsakoties no specializētām augstākās klases glabāšanas sistēmām un izmantojot parastos klasiskās arhitektūras serverus (parasti x86), strādājot kopā ar specializētiem programmatūra. Mobilo sakaru operatori jau sen ir sākuši iegādāties šādus risinājumus lielos daudzumos. Jo īpaši Krievijas operatori ir izmantojuši šādus Huawei produktus vairāk nekā sešus gadus.

Jā, vairākus uzdevumus nevar izpildīt, izmantojot sadalītās sistēmas. Piemēram, ar paaugstinātām veiktspējas prasībām vai saderību ar vecākiem protokoliem. Bet vismaz 70% operatora apstrādāto datu var atrasties izkliedētā pūlā.

Nozares tendences lielapjoma uzglabāšanas sistēmās

Banku sektors

Jebkurā bankā ir daudz dažādu IT sistēmu, sākot no apstrādes un beidzot ar automatizētu banku sistēmu. Šī infrastruktūra strādā arī ar milzīgu informācijas apjomu, savukārt lielākajai daļai uzdevumu nav nepieciešama paaugstināta glabāšanas sistēmu veiktspēja un uzticamība, piemēram, izstrāde, testēšana, biroja procesu automatizācija u.c. Šeit iespējams izmantot klasiskās uzglabāšanas sistēmas, bet ar katru gadu tas ir arvien mazāk izdevīgi. Turklāt šajā gadījumā nav elastības, izmantojot uzglabāšanas sistēmas resursus, kuru veiktspēja tiek aprēķināta, pamatojoties uz maksimālo slodzi.

Izmantojot izkliedētās uzglabāšanas sistēmas, to mezglus, kas patiesībā ir parastie serveri, jebkurā laikā var pārveidot, piemēram, par serveru fermu un izmantot kā skaitļošanas platformu.

Nozares tendences lielapjoma uzglabāšanas sistēmās

Datu ezeri

Augšējā diagrammā parādīts tipisku pakalpojumu patērētāju saraksts datu ezers. Tie varētu būt e-pārvaldes pakalpojumi (piemēram, “Valdības pakalpojumi”), digitalizēti uzņēmumi, finanšu institūcijas utt. Visiem tiem jāstrādā ar lieliem neviendabīgas informācijas apjomiem.

Klasisko uzglabāšanas sistēmu izmantošana šādu problēmu risināšanai ir neefektīva, jo ir nepieciešama gan augstas veiktspējas piekļuve bloku datu bāzēm, gan regulāra piekļuve skenēto dokumentu bibliotēkām, kas glabājas kā objekti. Piemēram, šeit var piesaistīt arī pasūtīšanas sistēmu, izmantojot tīmekļa portālu. Lai to visu īstenotu uz klasiskās uzglabāšanas platformas, jums būs nepieciešams liels aprīkojuma komplekts dažādu uzdevumu veikšanai. Viena horizontāla universāla uzglabāšanas sistēma var labi aptvert visus iepriekš uzskaitītos uzdevumus: jums vienkārši ir jāizveido vairāki baseini ar dažādiem uzglabāšanas parametriem.

Nozares tendences lielapjoma uzglabāšanas sistēmās

Jaunas informācijas ģeneratori

Pasaulē uzkrātās informācijas apjoms pieaug par aptuveni 30% gadā. Šīs ir labas ziņas krātuves pārdevējiem, taču kas ir un būs galvenais šo datu avots?

Pirms desmit gadiem par šādiem ģeneratoriem kļuva sociālie tīkli, tādēļ bija jāizveido liels skaits jaunu algoritmu, aparatūras risinājumu u.c. Tagad ir trīs galvenie krātuves apjoma pieauguma virzītāji. Pirmais ir mākoņdatošana. Šobrīd mākoņpakalpojumus tādā vai citādā veidā izmanto aptuveni 70% uzņēmumu. Tās var būt elektroniskā pasta sistēmas, rezerves kopijas un citas virtualizētas vienības.
Otrais draiveris ir piektās paaudzes tīkli. Tie ir jauni ātrumi un jauni datu pārraides apjomi. Saskaņā ar mūsu prognozēm, plašā 5G ieviešana izraisīs pieprasījuma kritumu pēc zibatmiņas kartēm. Neatkarīgi no tā, cik daudz atmiņas ir tālrunī, tā joprojām beidzas, un, ja sīkrīkam ir 100 megabitu kanāls, nav nepieciešams saglabāt fotoattēlus lokāli.

Trešā iemeslu grupa, kāpēc pieprasījums pēc uzglabāšanas sistēmām aug, ietver straujo mākslīgā intelekta attīstību, pāreju uz lielo datu analīzi un tendenci uz visa iespējamā universālo automatizāciju.

“Jaunās satiksmes” iezīme ir tā struktūras trūkums. Mums šie dati ir jāsaglabā, nekādā veidā nedefinējot to formātu. Tas ir nepieciešams tikai turpmākai lasīšanai. Piemēram, lai noteiktu pieejamo aizdevuma summu, banku vērtēšanas sistēma apskatīs jūsu ievietotās fotogrāfijas sociālajos tīklos, noteiks, vai bieži dodaties uz jūru un restorānos, un tajā pašā laikā izpētīs pieejamos jūsu medicīnisko dokumentu izrakstus. uz to. Šie dati, no vienas puses, ir visaptveroši, bet, no otras puses, tiem trūkst viendabīguma.

Nozares tendences lielapjoma uzglabāšanas sistēmās

Nestrukturētu datu okeāns

Kādas problēmas rada “jaunu datu” parādīšanās? Pirmais no tiem, protams, ir milzīgais informācijas apjoms un paredzamais tās glabāšanas laiks. Mūsdienīga autonoma automašīna bez vadītāja vien katru dienu no visiem sensoriem un mehānismiem ģenerē līdz 60 terabaitiem datu. Lai izstrādātu jaunus kustību algoritmus, šī informācija ir jāapstrādā tās pašas dienas laikā, pretējā gadījumā tā sāks uzkrāties. Tajā pašā laikā tas ir jāuzglabā ļoti ilgu laiku - gadu desmitiem. Tikai tad nākotnē būs iespējams izdarīt secinājumus, pamatojoties uz lieliem analītiskajiem paraugiem.

Viena ierīce ģenētisko secību atšifrēšanai ražo apmēram 6 TB dienā. Un ar tās palīdzību savāktie dati vispār nenozīmē dzēšanu, tas ir, hipotētiski, tie ir jāsaglabā mūžīgi.

Visbeidzot, tie paši piektās paaudzes tīkli. Papildus faktiskajai pārraidītajai informācijai šāds tīkls pats par sevi ir milzīgs datu ģenerators: darbību žurnāli, zvanu ieraksti, starprezultāti starp mašīnu mijiedarbībām utt.

Tas viss prasa jaunu pieeju un algoritmu izstrādi informācijas uzglabāšanai un apstrādei. Un šādas pieejas parādās.

Nozares tendences lielapjoma uzglabāšanas sistēmās

Jaunā laikmeta tehnoloģijas

Ir trīs risinājumu grupas, kas izstrādātas, lai tiktu galā ar jaunām prasībām informācijas uzglabāšanas sistēmām: mākslīgā intelekta ieviešana, datu nesēju tehniskā evolūcija un inovācijas sistēmu arhitektūras jomā. Sāksim ar AI.

Nozares tendences lielapjoma uzglabāšanas sistēmās

Jaunajos Huawei risinājumos mākslīgais intelekts tiek izmantots pašas krātuves līmenī, kas ir aprīkots ar AI procesoru, kas ļauj sistēmai patstāvīgi analizēt tās stāvokli un paredzēt kļūmes. Ja krātuves sistēma ir savienota ar pakalpojumu mākoni, kuram ir ievērojamas skaitļošanas iespējas, mākslīgais intelekts spēs apstrādāt vairāk informācijas un palielināt savu hipotēžu precizitāti.

Papildus kļūmēm šāds AI var paredzēt turpmāko maksimālo slodzi un laiku, kas atlicis līdz jaudas izsmelšanai. Tas ļauj optimizēt veiktspēju un mērogot sistēmu, pirms notiek nevēlami notikumi.

Nozares tendences lielapjoma uzglabāšanas sistēmās

Tagad par datu nesēju attīstību. Pirmie zibatmiņas diski tika izgatavoti, izmantojot SLC (Single-Level Cell) tehnoloģiju. Uz tā balstītās ierīces bija ātras, uzticamas, stabilas, taču tām bija maza ietilpība un tās bija ļoti dārgas. Apjoma pieaugums un cenu samazinājums tika panākts ar zināmām tehniskām koncesijām, kuru dēļ tika samazināts piedziņu ātrums, uzticamība un kalpošanas laiks. Tomēr tendence neietekmēja pašas uzglabāšanas sistēmas, kas dažādu arhitektūras triku dēļ kopumā kļuva gan produktīvākas, gan uzticamākas.

Bet kāpēc jums bija vajadzīgas All-Flash uzglabāšanas sistēmas? Vai nepietika vienkārši nomainīt vecos HDD jau operētājsistēmā ar jauniem SSD diskiem ar tādu pašu formu? Tas bija nepieciešams, lai efektīvi izmantotu visus jauno cietvielu disku resursus, kas vecākās sistēmās vienkārši nebija iespējams.

Piemēram, Huawei šīs problēmas risināšanai ir izstrādājis vairākas tehnoloģijas, no kurām viena ir FlashLink, kas ļāva pēc iespējas optimizēt “diska kontrollera” mijiedarbību.

Intelektuālā identifikācija ļāva sadalīt datus vairākās plūsmās un tikt galā ar vairākām nevēlamām parādībām, piemēram, WA (rakstīšanas pastiprinājums). Tajā pašā laikā, jo īpaši, jauni atkopšanas algoritmi RAID 2.0+, palielināja pārbūves ātrumu, samazinot tā laiku līdz pavisam nenozīmīgiem apjomiem.

Neveiksmes, pārapdzīvotība, atkritumu savākšana - arī šie faktori vairs neietekmē uzglabāšanas sistēmas darbību, pateicoties īpašām kontrolleru modifikācijām.

Nozares tendences lielapjoma uzglabāšanas sistēmās

Un arī bloku datu krātuves gatavojas tikties NVMe. Atcerēsimies, ka klasiskā datu piekļuves organizēšanas shēma darbojās šādi: procesors piekļuva RAID kontrollerim caur PCI Express kopni. Tas, savukārt, mijiedarbojās ar mehāniskajiem diskiem, izmantojot SCSI vai SAS. NVMe izmantošana aizmugurē ievērojami paātrināja visu procesu, taču tam bija viens trūkums: diskdziņiem bija jābūt tieši savienotiem ar procesoru, lai nodrošinātu tam tiešu piekļuvi atmiņai.

Nākamais tehnoloģiju attīstības posms, ko mēs tagad redzam, ir NVMe-oF (NVMe over Fabrics) izmantošana. Kas attiecas uz Huawei bloku tehnoloģijām, tās jau atbalsta FC-NVMe (NVMe, izmantojot šķiedru kanālu), un NVMe pār RoCE (RDMA, izmantojot konverģēto Ethernet) ir ceļā. Testa modeļi ir diezgan funkcionāli, līdz to oficiālajai prezentācijai atlikuši vairāki mēneši. Ņemiet vērā, ka tas viss parādīsies sadalītajās sistēmās, kur bezzudumu Ethernet būs ļoti pieprasīts.

Nozares tendences lielapjoma uzglabāšanas sistēmās

Papildu veids, kā optimizēt sadalītās krātuves darbību, bija pilnīga atteikšanās no datu spoguļošanas. Huawei risinājumi vairs neizmanto n kopiju, kā parastajā RAID 1, un pilnībā pāriet uz EC (Dzēšanas kodēšana). Speciālā matemātiskā pakete noteiktā periodiskumā aprēķina kontroles blokus, kas ļauj atjaunot starpposma datus zuduma gadījumā.

Deduplikācijas un saspiešanas mehānismi kļūst obligāti. Ja klasiskajās uzglabāšanas sistēmās mūs ierobežo kontrolieros uzstādīto procesoru skaits, tad sadalītās horizontāli mērogojamās uzglabāšanas sistēmās katrs mezgls satur visu nepieciešamo: diskus, atmiņu, procesorus un starpsavienojumus. Šie resursi ir pietiekami, lai nodrošinātu, ka dublēšanās un saspiešana minimāli ietekmē veiktspēju.

Un par aparatūras optimizācijas metodēm. Šeit bija iespējams samazināt centrālo procesoru slodzi, izmantojot papildu speciālās mikroshēmas (vai speciālos blokus pašā procesorā), kam ir nozīme TOE (TCP/IP Offload Engine) vai uzņemties EK matemātiskos uzdevumus, dublēšanu un saspiešanu.

Nozares tendences lielapjoma uzglabāšanas sistēmās

Jaunas pieejas datu glabāšanai ir ietvertas dezagregētā (izplatītā) arhitektūrā. Centralizētajām uzglabāšanas sistēmām ir serveru rūpnīca, kas ir savienota, izmantojot Fibre Channel SAN ar daudziem masīviem. Šīs pieejas trūkumi ir mērogošanas grūtības un garantēta pakalpojumu līmeņa nodrošināšana (veiktspējas vai latentuma ziņā). Hiperkonverģētās sistēmas izmanto vienus un tos pašus saimniekdatorus gan informācijas glabāšanai, gan apstrādei. Tas sniedz praktiski neierobežotas mērogošanas iespējas, bet rada lielas izmaksas datu integritātes uzturēšanai.

Atšķirībā no abiem iepriekš minētajiem, dezagregēta arhitektūra nozīmē sadalot sistēmu skaitļošanas sistēmā un horizontālajā uzglabāšanas sistēmā. Tas nodrošina abu arhitektūru priekšrocības un ļauj gandrīz neierobežoti mērogot tikai to elementu, kuram trūkst veiktspējas.

Nozares tendences lielapjoma uzglabāšanas sistēmās

No integrācijas līdz konverģencei

Klasisks uzdevums, kura aktualitāte pēdējo 15 gadu laikā ir tikai pieaugusi, ir nepieciešamība vienlaicīgi nodrošināt bloku krātuvi, piekļuvi failiem, piekļuvi objektiem, lielas datu fermas darbību utt. būt, piemēram, rezerves sistēma uz magnētiskās lentes.

Pirmajā posmā varētu būt vienota tikai šo pakalpojumu vadība. Heterogēnās datu uzglabāšanas sistēmas tika savienotas ar kādu specializētu programmatūru, caur kuru administrators sadalīja resursus no pieejamajiem pūliem. Bet, tā kā šiem baseiniem bija atšķirīga aparatūra, slodzes migrācija starp tiem nebija iespējama. Augstākā integrācijas līmenī apkopošana notika vārtejas līmenī. Ja failu koplietošana būtu pieejama, to varētu apkalpot, izmantojot dažādus protokolus.

Vismodernākā konverģences metode, kas mums šobrīd ir pieejama, ietver universālas hibrīda sistēmas izveidi. Tieši tādam, kādai vajadzētu kļūt mūsējam OceanStor 100D. Universālā piekļuve izmanto vienus un tos pašus aparatūras resursus, kas loģiski sadalīti dažādos baseinos, bet ļauj veikt slodzes migrāciju. To visu var izdarīt, izmantojot vienu pārvaldības konsoli. Tādā veidā mēs varējām īstenot koncepciju "viens datu centrs - viena uzglabāšanas sistēma".

Nozares tendences lielapjoma uzglabāšanas sistēmās

Informācijas glabāšanas izmaksas tagad nosaka daudzus arhitektūras lēmumus. Un, lai gan to var droši izvirzīt priekšplānā, šodien mēs apspriežam "dzīvu" krātuvi ar aktīvu piekļuvi, tāpēc ir jāņem vērā arī veiktspēja. Vēl viena svarīga nākamās paaudzes sadalīto sistēmu īpašība ir apvienošana. Galu galā neviens nevēlas, lai vairākas atšķirīgas sistēmas tiktu vadītas no dažādām konsolēm. Visas šīs īpašības ir iemiesotas jaunajā Huawei produktu sērijā OceanStor Pacific.

Jaunās paaudzes lielapjoma uzglabāšanas sistēma

OceanStor Pacific atbilst sešu deviņu uzticamības prasībām (99,9999%), un to var izmantot HyperMetro klases datu centru izveidei. Ar attālumu starp diviem datu centriem līdz 100 km, sistēmas demonstrē papildu latentumu 2 ms, kas ļauj uz to pamata izveidot jebkādus katastrofu izturīgus risinājumus, tostarp tādus, kuros ir kvoruma serveri.

Nozares tendences lielapjoma uzglabāšanas sistēmās

Jaunās sērijas produkti demonstrē protokola daudzpusību. Jau tagad OceanStor 100D atbalsta piekļuvi blokam, piekļuvi objektiem un Hadoop piekļuvi. Tuvākajā laikā tiks ieviesta arī piekļuve failiem. Nav nepieciešams uzglabāt vairākas datu kopijas, ja tās var izdot, izmantojot dažādus protokolus.

Nozares tendences lielapjoma uzglabāšanas sistēmās

Šķiet, kāds sakars jēdzienam “bezzudumu tīkls” ar uzglabāšanas sistēmām? Fakts ir tāds, ka sadalītās datu uzglabāšanas sistēmas ir veidotas, pamatojoties uz ātru tīklu, kas atbalsta atbilstošus algoritmus un RoCE mehānismu. Mūsu slēdžu atbalstītā mākslīgā intelekta sistēma palīdz vēl vairāk palielināt tīkla ātrumu un samazināt latentumu. AI audums. Krātuves veiktspējas pieaugums, aktivizējot AI Fabric, var sasniegt 20%.

Nozares tendences lielapjoma uzglabāšanas sistēmās

Kas ir jaunais OceanStor Pacific izplatītās krātuves mezgls? 5U formas faktora risinājums ietver 120 diskus un var aizstāt trīs klasiskos mezglus, kas nodrošina vairāk nekā divkāršu ietaupījumu plauktā. Neglabājot kopijas, ievērojami palielinās diskdziņu efektivitāte (līdz +92%).

Mēs esam pieraduši, ka programmatūras definēta krātuve ir īpaša programmatūra, kas instalēta klasiskajā serverī. Taču tagad, lai sasniegtu optimālos parametrus, šim arhitektoniskajam risinājumam ir nepieciešami arī īpaši mezgli. Tas sastāv no diviem serveriem, kuru pamatā ir ARM procesori, kas pārvalda trīs collu disku masīvu.

Nozares tendences lielapjoma uzglabāšanas sistēmās

Šie serveri nav piemēroti hiperkonverģētiem risinājumiem. Pirmkārt, ARM ir diezgan daudz lietojumprogrammu, un, otrkārt, ir grūti saglabāt slodzes līdzsvaru. Mēs piedāvājam pāriet uz atsevišķu krātuvi: skaitļošanas klasteris, ko pārstāv klasiskie vai plauktu serveri, darbojas atsevišķi, bet ir savienots ar OceanStor Pacific krātuves mezgliem, kas arī veic savus tiešos uzdevumus. Un tas sevi attaisno.

Piemēram, ņemsim klasisku lielo datu uzglabāšanas risinājumu ar hiperkonverģētu sistēmu, kas aizņem 15 serveru plauktus. Ja sadalīsiet slodzi starp atsevišķiem skaitļošanas serveriem un OceanStor Pacific krātuves mezgliem, atdalot tos vienu no otra, nepieciešamo statīvu skaits tiks samazināts uz pusi! Tas samazina datu centra darbības izmaksas un samazina kopējās īpašumtiesību izmaksas. Pasaulē, kurā uzkrātās informācijas apjoms pieaug par 30% gadā, šādas priekšrocības netiek mētātas.

***

Plašāku informāciju par Huawei risinājumiem un to pielietojuma scenārijiem varat iegūt mūsu vietnē Tiešsaistē vai tieši sazinoties ar uzņēmuma pārstāvjiem.

Avots: www.habr.com

Pievieno komentāru