Šodien mēs runāsim par to, kā vislabāk uzglabāt datus pasaulē, kurā piektās paaudzes tīkli, genoma skeneri un pašbraucošas automašīnas ražo vairāk datu dienā, nekā visa cilvēce radīja pirms rūpnieciskās revolūcijas.
Mūsu pasaule ģenerē arvien vairāk informācijas. Daļa no tā ir īslaicīga un tiek pazaudēta tikpat ātri, kā tiek savākta. Cits ir jāuzglabā ilgāk, un cits ir pat veidots “gadsimtiem ilgi” - vismaz to mēs redzam no tagadnes. Informācijas plūsmas datu centros iekārtojas tādā ātrumā, ka jebkura jauna pieeja, jebkura tehnoloģija, kas paredzēta šī nebeidzamā “pieprasījuma” apmierināšanai, ātri noveco.
40 gadi sadalīto uzglabāšanas sistēmu izstrādes
Pirmā tīkla krātuve mums pazīstamajā formā parādījās 1980. gados. Daudzi no jums ir saskārušies ar NFS (tīkla failu sistēma), AFS (Andrew failu sistēma) vai Coda. Desmit gadus vēlāk mode un tehnoloģijas ir mainījušās, un izkliedētās failu sistēmas ir kļuvušas par klasteru glabāšanas sistēmām, kuru pamatā ir GPFS (vispārējā paralēlā failu sistēma), CFS (klasterētās failu sistēmas) un StorNext. Par pamatu tika izmantota klasiskās arhitektūras bloku krātuve, kurai virsū tika izveidota viena failu sistēma, izmantojot programmatūras slāni. Šie un līdzīgi risinājumi joprojām tiek izmantoti, ieņem savu nišu un ir diezgan pieprasīti.
Tūkstošgades mijā izkliedētās krātuves paradigma nedaudz mainījās, un sistēmas ar SN (Shared-Nothing) arhitektūru ieņēma vadošās pozīcijas. Ir notikusi pāreja no klasteru krātuves uz krātuvi atsevišķos mezglos, kas parasti bija klasiski serveri ar programmatūru, kas nodrošina uzticamu krātuvi; Uz šādiem principiem, piemēram, ir veidota HDFS (Hadoop Distributed File System) un GFS (globālā failu sistēma).
Tuvāk 2010. gadiem jēdzieni, kas ir pamatā izplatītajām uzglabāšanas sistēmām, arvien vairāk sāka atspoguļoties pilnvērtīgos komerciālos produktos, piemēram, VMware vSAN, Dell EMC Isilon un mūsu
Telekomunikāciju operatori
Iespējams, ka viens no vecākajiem izplatīto datu glabāšanas sistēmu patērētājiem ir telekomunikāciju operatori. Diagramma parāda, kuras lietojumprogrammu grupas rada lielāko daļu datu. OSS (operāciju atbalsta sistēmas), MSS (pārvaldības atbalsta pakalpojumi) un BSS (biznesa atbalsta sistēmas) ir trīs papildu programmatūras slāņi, kas nepieciešami pakalpojumu sniegšanai abonentiem, finanšu pārskatu sniegšanai pakalpojumu sniedzējam un darbības atbalstam operatoru inženieriem.
Bieži vien šo slāņu dati tiek stipri sajaukti viens ar otru, un, lai izvairītos no nevajadzīgu kopiju uzkrāšanās, tiek izmantota izkliedētā krātuve, kurā tiek uzkrāts viss informācijas apjoms, kas nāk no operētājtīkla. Krātuves ir apvienotas kopējā baseinā, kuram piekļūst visi dienesti.
Mūsu aprēķini liecina, ka pāreja no klasiskajām uzglabāšanas sistēmām uz bloku glabāšanas sistēmām ļauj ietaupīt līdz pat 70% no budžeta, tikai atsakoties no specializētām augstākās klases glabāšanas sistēmām un izmantojot parastos klasiskās arhitektūras serverus (parasti x86), strādājot kopā ar specializētiem programmatūra. Mobilo sakaru operatori jau sen ir sākuši iegādāties šādus risinājumus lielos daudzumos. Jo īpaši Krievijas operatori ir izmantojuši šādus Huawei produktus vairāk nekā sešus gadus.
Jā, vairākus uzdevumus nevar izpildīt, izmantojot sadalītās sistēmas. Piemēram, ar paaugstinātām veiktspējas prasībām vai saderību ar vecākiem protokoliem. Bet vismaz 70% operatora apstrādāto datu var atrasties izkliedētā pūlā.
Banku sektors
Jebkurā bankā ir daudz dažādu IT sistēmu, sākot no apstrādes un beidzot ar automatizētu banku sistēmu. Šī infrastruktūra strādā arī ar milzīgu informācijas apjomu, savukārt lielākajai daļai uzdevumu nav nepieciešama paaugstināta glabāšanas sistēmu veiktspēja un uzticamība, piemēram, izstrāde, testēšana, biroja procesu automatizācija u.c. Šeit iespējams izmantot klasiskās uzglabāšanas sistēmas, bet ar katru gadu tas ir arvien mazāk izdevīgi. Turklāt šajā gadījumā nav elastības, izmantojot uzglabāšanas sistēmas resursus, kuru veiktspēja tiek aprēķināta, pamatojoties uz maksimālo slodzi.
Izmantojot izkliedētās uzglabāšanas sistēmas, to mezglus, kas patiesībā ir parastie serveri, jebkurā laikā var pārveidot, piemēram, par serveru fermu un izmantot kā skaitļošanas platformu.
Datu ezeri
Augšējā diagrammā parādīts tipisku pakalpojumu patērētāju saraksts
Klasisko uzglabāšanas sistēmu izmantošana šādu problēmu risināšanai ir neefektīva, jo ir nepieciešama gan augstas veiktspējas piekļuve bloku datu bāzēm, gan regulāra piekļuve skenēto dokumentu bibliotēkām, kas glabājas kā objekti. Piemēram, šeit var piesaistīt arī pasūtīšanas sistēmu, izmantojot tīmekļa portālu. Lai to visu īstenotu uz klasiskās uzglabāšanas platformas, jums būs nepieciešams liels aprīkojuma komplekts dažādu uzdevumu veikšanai. Viena horizontāla universāla uzglabāšanas sistēma var labi aptvert visus iepriekš uzskaitītos uzdevumus: jums vienkārši ir jāizveido vairāki baseini ar dažādiem uzglabāšanas parametriem.
Jaunas informācijas ģeneratori
Pasaulē uzkrātās informācijas apjoms pieaug par aptuveni 30% gadā. Šīs ir labas ziņas krātuves pārdevējiem, taču kas ir un būs galvenais šo datu avots?
Pirms desmit gadiem par šādiem ģeneratoriem kļuva sociālie tīkli, tādēļ bija jāizveido liels skaits jaunu algoritmu, aparatūras risinājumu u.c. Tagad ir trīs galvenie krātuves apjoma pieauguma virzītāji. Pirmais ir mākoņdatošana. Šobrīd mākoņpakalpojumus tādā vai citādā veidā izmanto aptuveni 70% uzņēmumu. Tās var būt elektroniskā pasta sistēmas, rezerves kopijas un citas virtualizētas vienības.
Otrais draiveris ir piektās paaudzes tīkli. Tie ir jauni ātrumi un jauni datu pārraides apjomi. Saskaņā ar mūsu prognozēm, plašā 5G ieviešana izraisīs pieprasījuma kritumu pēc zibatmiņas kartēm. Neatkarīgi no tā, cik daudz atmiņas ir tālrunī, tā joprojām beidzas, un, ja sīkrīkam ir 100 megabitu kanāls, nav nepieciešams saglabāt fotoattēlus lokāli.
Trešā iemeslu grupa, kāpēc pieprasījums pēc uzglabāšanas sistēmām aug, ietver straujo mākslīgā intelekta attīstību, pāreju uz lielo datu analīzi un tendenci uz visa iespējamā universālo automatizāciju.
“Jaunās satiksmes” iezīme ir tā
Nestrukturētu datu okeāns
Kādas problēmas rada “jaunu datu” parādīšanās? Pirmais no tiem, protams, ir milzīgais informācijas apjoms un paredzamais tās glabāšanas laiks. Mūsdienīga autonoma automašīna bez vadītāja vien katru dienu no visiem sensoriem un mehānismiem ģenerē līdz 60 terabaitiem datu. Lai izstrādātu jaunus kustību algoritmus, šī informācija ir jāapstrādā tās pašas dienas laikā, pretējā gadījumā tā sāks uzkrāties. Tajā pašā laikā tas ir jāuzglabā ļoti ilgu laiku - gadu desmitiem. Tikai tad nākotnē būs iespējams izdarīt secinājumus, pamatojoties uz lieliem analītiskajiem paraugiem.
Viena ierīce ģenētisko secību atšifrēšanai ražo apmēram 6 TB dienā. Un ar tās palīdzību savāktie dati vispār nenozīmē dzēšanu, tas ir, hipotētiski, tie ir jāsaglabā mūžīgi.
Visbeidzot, tie paši piektās paaudzes tīkli. Papildus faktiskajai pārraidītajai informācijai šāds tīkls pats par sevi ir milzīgs datu ģenerators: darbību žurnāli, zvanu ieraksti, starprezultāti starp mašīnu mijiedarbībām utt.
Tas viss prasa jaunu pieeju un algoritmu izstrādi informācijas uzglabāšanai un apstrādei. Un šādas pieejas parādās.
Jaunā laikmeta tehnoloģijas
Ir trīs risinājumu grupas, kas izstrādātas, lai tiktu galā ar jaunām prasībām informācijas uzglabāšanas sistēmām: mākslīgā intelekta ieviešana, datu nesēju tehniskā evolūcija un inovācijas sistēmu arhitektūras jomā. Sāksim ar AI.
Jaunajos Huawei risinājumos mākslīgais intelekts tiek izmantots pašas krātuves līmenī, kas ir aprīkots ar AI procesoru, kas ļauj sistēmai patstāvīgi analizēt tās stāvokli un paredzēt kļūmes. Ja krātuves sistēma ir savienota ar pakalpojumu mākoni, kuram ir ievērojamas skaitļošanas iespējas, mākslīgais intelekts spēs apstrādāt vairāk informācijas un palielināt savu hipotēžu precizitāti.
Papildus kļūmēm šāds AI var paredzēt turpmāko maksimālo slodzi un laiku, kas atlicis līdz jaudas izsmelšanai. Tas ļauj optimizēt veiktspēju un mērogot sistēmu, pirms notiek nevēlami notikumi.
Tagad par datu nesēju attīstību. Pirmie zibatmiņas diski tika izgatavoti, izmantojot SLC (Single-Level Cell) tehnoloģiju. Uz tā balstītās ierīces bija ātras, uzticamas, stabilas, taču tām bija maza ietilpība un tās bija ļoti dārgas. Apjoma pieaugums un cenu samazinājums tika panākts ar zināmām tehniskām koncesijām, kuru dēļ tika samazināts piedziņu ātrums, uzticamība un kalpošanas laiks. Tomēr tendence neietekmēja pašas uzglabāšanas sistēmas, kas dažādu arhitektūras triku dēļ kopumā kļuva gan produktīvākas, gan uzticamākas.
Bet kāpēc jums bija vajadzīgas All-Flash uzglabāšanas sistēmas? Vai nepietika vienkārši nomainīt vecos HDD jau operētājsistēmā ar jauniem SSD diskiem ar tādu pašu formu? Tas bija nepieciešams, lai efektīvi izmantotu visus jauno cietvielu disku resursus, kas vecākās sistēmās vienkārši nebija iespējams.
Piemēram, Huawei šīs problēmas risināšanai ir izstrādājis vairākas tehnoloģijas, no kurām viena ir
Intelektuālā identifikācija ļāva sadalīt datus vairākās plūsmās un tikt galā ar vairākām nevēlamām parādībām, piemēram,
Neveiksmes, pārapdzīvotība, atkritumu savākšana - arī šie faktori vairs neietekmē uzglabāšanas sistēmas darbību, pateicoties īpašām kontrolleru modifikācijām.
Un arī bloku datu krātuves gatavojas tikties
Nākamais tehnoloģiju attīstības posms, ko mēs tagad redzam, ir NVMe-oF (NVMe over Fabrics) izmantošana. Kas attiecas uz Huawei bloku tehnoloģijām, tās jau atbalsta FC-NVMe (NVMe, izmantojot šķiedru kanālu), un NVMe pār RoCE (RDMA, izmantojot konverģēto Ethernet) ir ceļā. Testa modeļi ir diezgan funkcionāli, līdz to oficiālajai prezentācijai atlikuši vairāki mēneši. Ņemiet vērā, ka tas viss parādīsies sadalītajās sistēmās, kur bezzudumu Ethernet būs ļoti pieprasīts.
Papildu veids, kā optimizēt sadalītās krātuves darbību, bija pilnīga atteikšanās no datu spoguļošanas. Huawei risinājumi vairs neizmanto n kopiju, kā parastajā RAID 1, un pilnībā pāriet uz
Deduplikācijas un saspiešanas mehānismi kļūst obligāti. Ja klasiskajās uzglabāšanas sistēmās mūs ierobežo kontrolieros uzstādīto procesoru skaits, tad sadalītās horizontāli mērogojamās uzglabāšanas sistēmās katrs mezgls satur visu nepieciešamo: diskus, atmiņu, procesorus un starpsavienojumus. Šie resursi ir pietiekami, lai nodrošinātu, ka dublēšanās un saspiešana minimāli ietekmē veiktspēju.
Un par aparatūras optimizācijas metodēm. Šeit bija iespējams samazināt centrālo procesoru slodzi, izmantojot papildu speciālās mikroshēmas (vai speciālos blokus pašā procesorā), kam ir nozīme
Jaunas pieejas datu glabāšanai ir ietvertas dezagregētā (izplatītā) arhitektūrā. Centralizētajām uzglabāšanas sistēmām ir serveru rūpnīca, kas ir savienota, izmantojot Fibre Channel
Atšķirībā no abiem iepriekš minētajiem, dezagregēta arhitektūra nozīmē sadalot sistēmu skaitļošanas sistēmā un horizontālajā uzglabāšanas sistēmā. Tas nodrošina abu arhitektūru priekšrocības un ļauj gandrīz neierobežoti mērogot tikai to elementu, kuram trūkst veiktspējas.
No integrācijas līdz konverģencei
Klasisks uzdevums, kura aktualitāte pēdējo 15 gadu laikā ir tikai pieaugusi, ir nepieciešamība vienlaicīgi nodrošināt bloku krātuvi, piekļuvi failiem, piekļuvi objektiem, lielas datu fermas darbību utt. būt, piemēram, rezerves sistēma uz magnētiskās lentes.
Pirmajā posmā varētu būt vienota tikai šo pakalpojumu vadība. Heterogēnās datu uzglabāšanas sistēmas tika savienotas ar kādu specializētu programmatūru, caur kuru administrators sadalīja resursus no pieejamajiem pūliem. Bet, tā kā šiem baseiniem bija atšķirīga aparatūra, slodzes migrācija starp tiem nebija iespējama. Augstākā integrācijas līmenī apkopošana notika vārtejas līmenī. Ja failu koplietošana būtu pieejama, to varētu apkalpot, izmantojot dažādus protokolus.
Vismodernākā konverģences metode, kas mums šobrīd ir pieejama, ietver universālas hibrīda sistēmas izveidi. Tieši tādam, kādai vajadzētu kļūt mūsējam
Informācijas glabāšanas izmaksas tagad nosaka daudzus arhitektūras lēmumus. Un, lai gan to var droši izvirzīt priekšplānā, šodien mēs apspriežam "dzīvu" krātuvi ar aktīvu piekļuvi, tāpēc ir jāņem vērā arī veiktspēja. Vēl viena svarīga nākamās paaudzes sadalīto sistēmu īpašība ir apvienošana. Galu galā neviens nevēlas, lai vairākas atšķirīgas sistēmas tiktu vadītas no dažādām konsolēm. Visas šīs īpašības ir iemiesotas jaunajā Huawei produktu sērijā
Jaunās paaudzes lielapjoma uzglabāšanas sistēma
OceanStor Pacific atbilst sešu deviņu uzticamības prasībām (99,9999%), un to var izmantot HyperMetro klases datu centru izveidei. Ar attālumu starp diviem datu centriem līdz 100 km, sistēmas demonstrē papildu latentumu 2 ms, kas ļauj uz to pamata izveidot jebkādus katastrofu izturīgus risinājumus, tostarp tādus, kuros ir kvoruma serveri.
Jaunās sērijas produkti demonstrē protokola daudzpusību. Jau tagad OceanStor 100D atbalsta piekļuvi blokam, piekļuvi objektiem un Hadoop piekļuvi. Tuvākajā laikā tiks ieviesta arī piekļuve failiem. Nav nepieciešams uzglabāt vairākas datu kopijas, ja tās var izdot, izmantojot dažādus protokolus.
Šķiet, kāds sakars jēdzienam “bezzudumu tīkls” ar uzglabāšanas sistēmām? Fakts ir tāds, ka sadalītās datu uzglabāšanas sistēmas ir veidotas, pamatojoties uz ātru tīklu, kas atbalsta atbilstošus algoritmus un RoCE mehānismu. Mūsu slēdžu atbalstītā mākslīgā intelekta sistēma palīdz vēl vairāk palielināt tīkla ātrumu un samazināt latentumu.
Kas ir jaunais OceanStor Pacific izplatītās krātuves mezgls? 5U formas faktora risinājums ietver 120 diskus un var aizstāt trīs klasiskos mezglus, kas nodrošina vairāk nekā divkāršu ietaupījumu plauktā. Neglabājot kopijas, ievērojami palielinās diskdziņu efektivitāte (līdz +92%).
Mēs esam pieraduši, ka programmatūras definēta krātuve ir īpaša programmatūra, kas instalēta klasiskajā serverī. Taču tagad, lai sasniegtu optimālos parametrus, šim arhitektoniskajam risinājumam ir nepieciešami arī īpaši mezgli. Tas sastāv no diviem serveriem, kuru pamatā ir ARM procesori, kas pārvalda trīs collu disku masīvu.
Šie serveri nav piemēroti hiperkonverģētiem risinājumiem. Pirmkārt, ARM ir diezgan daudz lietojumprogrammu, un, otrkārt, ir grūti saglabāt slodzes līdzsvaru. Mēs piedāvājam pāriet uz atsevišķu krātuvi: skaitļošanas klasteris, ko pārstāv klasiskie vai plauktu serveri, darbojas atsevišķi, bet ir savienots ar OceanStor Pacific krātuves mezgliem, kas arī veic savus tiešos uzdevumus. Un tas sevi attaisno.
Piemēram, ņemsim klasisku lielo datu uzglabāšanas risinājumu ar hiperkonverģētu sistēmu, kas aizņem 15 serveru plauktus. Ja sadalīsiet slodzi starp atsevišķiem skaitļošanas serveriem un OceanStor Pacific krātuves mezgliem, atdalot tos vienu no otra, nepieciešamo statīvu skaits tiks samazināts uz pusi! Tas samazina datu centra darbības izmaksas un samazina kopējās īpašumtiesību izmaksas. Pasaulē, kurā uzkrātās informācijas apjoms pieaug par 30% gadā, šādas priekšrocības netiek mētātas.
***
Plašāku informāciju par Huawei risinājumiem un to pielietojuma scenārijiem varat iegūt mūsu vietnē
Avots: www.habr.com