Täna räägime sellest, kuidas kõige paremini andmeid salvestada maailmas, kus viienda põlvkonna võrgud, genoomiskannerid ja isejuhtivad autod toodavad päevas rohkem andmeid kui kogu inimkond enne tööstusrevolutsiooni.
Meie maailm genereerib üha rohkem teavet. Osa sellest on üürike ja kaob sama kiiresti, kui see kogutakse. Teist tuleks säilitada kauem ja teine on isegi loodud "sajandeid" - vähemalt nii näeme praegusest. Infovood settivad andmekeskustesse sellise kiirusega, et igasugune uus lähenemine, iga selle lõputu “nõudluse” rahuldamiseks loodud tehnoloogia vananeb kiiresti.
40 aastat hajutatud salvestussüsteemide arendamist
Esimene võrgusalvestus meile tuttaval kujul ilmus 1980. aastatel. Paljud teist on kohanud NFS-i (võrgufailisüsteem), AFS-i (Andrew failisüsteem) või Codat. Kümmekond aastat hiljem on mood ja tehnoloogia muutunud ning hajutatud failisüsteemid on andnud teed rühmitatud salvestussüsteemidele, mis põhinevad GPFS-il (General Parallel File System), CFS-il (Clustered File Systems) ja StorNextil. Aluseks võeti klassikalise arhitektuuri plokksalvestus, mille peale loodi tarkvarakihi abil ühtne failisüsteem. Sellised ja sarnased lahendused on endiselt kasutusel, hõivavad oma niši ja on üsna nõudlikud.
Aastatuhande vahetusel hajussalvestuse paradigma mõnevõrra muutus ning juhtpositsioonidele asusid SN (Shared-Nothing) arhitektuuriga süsteemid. Toimunud on üleminek klastrisalvestuselt salvestusele üksikutel sõlmedel, mis reeglina olid klassikalised serverid, mille tarkvara pakkus usaldusväärset salvestusruumi; Sellistel põhimõtetel on üles ehitatud näiteks HDFS (Hadoop Distributed File System) ja GFS (globaalne failisüsteem).
2010. aastatele lähemal hakkasid hajutatud salvestussüsteemide aluseks olevad kontseptsioonid üha enam kajastuma täisväärtuslikes kommertstoodetes, nagu VMware vSAN, Dell EMC Isilon ja meie
Telekommunikatsioonioperaatorid
Võib-olla on üks vanimaid hajutatud salvestussüsteemide tarbijaid telekommunikatsioonioperaatorid. Diagramm näitab, millised rakenduste rühmad toodavad suurema osa andmetest. OSS (Operations Support Systems), MSS (Management Support Services) ja BSS (Business Support Systems) esindavad kolme täiendavat tarkvarakihti, mis on vajalikud abonentidele teenuse pakkumiseks, teenusepakkujale finantsaruandluseks ja operaatoriinseneridele tegevustoeks.
Tihti on nende kihtide andmed omavahel tugevalt segunenud ning tarbetute koopiate kuhjumise vältimiseks kasutatakse hajutatud salvestusruumi, mis akumuleerib kogu operatsioonivõrgust tuleva infohulga. Laod on ühendatud ühiseks basseiniks, kuhu pääsevad kõik teenused.
Meie arvutused näitavad, et üleminek klassikalistelt salvestussüsteemidelt blokeeritud salvestussüsteemidele võimaldab säästa kuni 70% eelarvest ainult siis, kui loobute spetsiaalsetest kõrgtaseme salvestussüsteemidest ja kasutate tavapäraseid klassikalise arhitektuuriga servereid (tavaliselt x86), töötades koos spetsialiseeritud salvestussüsteemidega. tarkvara. Mobiilsideoperaatorid on juba ammu hakanud selliseid lahendusi suurtes kogustes ostma. Eelkõige on Venemaa operaatorid selliseid Huawei tooteid kasutanud rohkem kui kuus aastat.
Jah, mitmeid ülesandeid ei saa hajutatud süsteemide abil täita. Näiteks suurenenud jõudlusnõuetega või ühilduvus vanemate protokollidega. Kuid vähemalt 70% operaatori töödeldavatest andmetest võib asuda hajutatud kogumis.
Pangandussektor
Igas pangas on palju erinevaid IT-süsteeme, alustades töötlemisest ja lõpetades automatiseeritud pangasüsteemiga. See infrastruktuur töötab ka suure hulga teabega, samas kui enamik ülesandeid ei nõua salvestussüsteemide suuremat jõudlust ja töökindlust, näiteks arendus, testimine, kontoriprotsesside automatiseerimine jne. Siin on võimalik kasutada klassikalisi salvestussüsteeme, aga iga aastaga on see järjest vähem kasumlik. Lisaks puudub antud juhul paindlikkus salvestussüsteemi ressursside kasutamisel, mille jõudlust arvutatakse tippkoormuse alusel.
Hajutatud salvestussüsteemide kasutamisel saab nende sõlmed, mis on tegelikult tavalised serverid, igal ajal konverteerida näiteks serverifarmiks ja kasutada arvutusplatvormina.
Andmejärved
Ülaltoodud diagramm näitab tüüpiliste teenusetarbijate loendit
Klassikaliste salvestussüsteemide kasutamine selliste probleemide lahendamiseks on ebaefektiivne, kuna see nõuab nii suure jõudlusega juurdepääsu blokeeritud andmebaasidele kui ka regulaarset juurdepääsu objektidena salvestatud skannitud dokumentide teekidele. Siia saab linkida ka näiteks veebiportaali kaudu tellimissüsteemi. Selle kõige rakendamiseks klassikalisel salvestusplatvormil vajate erinevate ülesannete jaoks suurt komplekti seadmeid. Üks horisontaalne universaalne salvestussüsteem võib katta kõik eelnevalt loetletud ülesanded: peate lihtsalt looma mitu erinevate salvestusomadustega basseini.
Uue teabe generaatorid
Maailmas talletatava teabe hulk kasvab umbes 30% aastas. See on hea uudis salvestusseadmete müüjatele, kuid mis on ja saab olema nende andmete peamine allikas?
Kümme aastat tagasi muutusid sellisteks generaatoriteks sotsiaalvõrgustikud, mis nõudis suure hulga uute algoritmide, riistvaralahenduste jms loomist. Nüüd on salvestusmahtude kasvul kolm peamist tõukejõudu. Esimene on pilvandmetöötlus. Praegu kasutab pilveteenuseid ühel või teisel viisil ligikaudu 70% ettevõtetest. Need võivad olla elektronpostisüsteemid, varukoopiad ja muud virtualiseeritud üksused.
Teine draiver on viienda põlvkonna võrgud. Need on uued kiirused ja uued andmeedastusmahud. Meie prognooside kohaselt toob 5G laialdane kasutuselevõtt kaasa nõudluse vähenemise välkmälukaartide järele. Ükskõik kui palju mälu telefonis on, saab see ikkagi tühjaks ja kui vidinal on 100-megabitine kanal, pole vaja fotosid kohapeal salvestada.
Kolmas põhjuste grupp, miks nõudlus salvestussüsteemide järele kasvab, hõlmab tehisintellekti kiiret arengut, üleminekut suurandmete analüüsile ning suundumust kõige võimaliku universaalsele automatiseerimisele.
"Uue liikluse" tunnuseks on see
Struktureerimata andmete ookean
Milliseid probleeme "uute andmete" tekkimine endaga kaasa toob? Esimene neist on loomulikult teabe suur hulk ja selle eeldatav säilitusaeg. Ainuüksi kaasaegne juhita autonoomne auto genereerib iga päev kuni 60 terabaiti andmeid kõigist oma anduritest ja mehhanismidest. Uute liikumisalgoritmide väljatöötamiseks tuleb see teave töödelda sama päeva jooksul, vastasel juhul hakkab see kogunema. Samal ajal tuleb seda säilitada väga pikka aega - aastakümneid. Alles siis on tulevikus võimalik teha järeldusi suurte analüütiliste valimite põhjal.
Üks seade geneetiliste järjestuste dešifreerimiseks toodab umbes 6 TB päevas. Ja tema abiga kogutud andmed ei tähenda üldse kustutamist, see tähendab, et hüpoteetiliselt tuleks neid säilitada igavesti.
Lõpuks samad viienda põlvkonna võrgud. Lisaks tegelikule edastatavale teabele on selline võrk ise tohutu andmete generaator: tegevuslogid, kõnekirjed, masinatevahelise suhtluse vahetulemused jne.
Kõik see nõuab uute lähenemisviiside ja algoritmide väljatöötamist teabe salvestamiseks ja töötlemiseks. Ja selliseid lähenemisi on tekkimas.
Uue ajastu tehnoloogiad
Infosalvestussüsteemidele esitatavate uute nõuetega toimetulemiseks on loodud kolm lahenduste rühma: tehisintellekti kasutuselevõtt, andmekandjate tehniline areng ja uuendused süsteemiarhitektuuri valdkonnas. Alustame AI-st.
Uutes Huawei lahendustes kasutatakse tehisintellekti salvestusruumi enda tasemel, mis on varustatud AI protsessoriga, mis võimaldab süsteemil iseseisvalt oma seisukorda analüüsida ja tõrkeid ennustada. Kui salvestussüsteem on ühendatud teenusepilvega, millel on märkimisväärsed arvutusvõimalused, suudab tehisintellekt töödelda rohkem teavet ja suurendada oma hüpoteeside täpsust.
Lisaks tõrgetele suudab selline tehisintellekt ennustada tulevast tippkoormust ja võimsuse ammendumiseni jäänud aega. See võimaldab optimeerida jõudlust ja süsteemi skaleerida enne soovimatute sündmuste toimumist.
Nüüd salvestusmeediumite arengust. Esimesed mälupulgad valmistati SLC (Single-Level Cell) tehnoloogia abil. Sellel põhinevad seadmed olid kiired, töökindlad, stabiilsed, kuid väikese võimsusega ja väga kallid. Mahu kasv ja hinnalangus saavutati teatud tehniliste mööndustega, mille tõttu vähenesid ajamite kiirus, töökindlus ja tööiga. Sellegipoolest ei mõjutanud trend salvestussüsteeme endid, mis erinevate arhitektuuriliste nippide tõttu muutusid üldiselt nii tootlikumaks kui ka töökindlamaks.
Aga miks vajasite All-Flash salvestussüsteeme? Kas ei piisanud lihtsalt vanade kõvaketaste asendamisest juba operatsioonisüsteemis uute, sama kujuga SSD-dega? Seda oli vaja uute tahkisketaste kõigi ressursside tõhusaks kasutamiseks, mis vanemates süsteemides oli lihtsalt võimatu.
Näiteks Huawei on selle probleemi lahendamiseks välja töötanud mitmeid tehnoloogiaid, millest üks on
Arukas identifitseerimine võimaldas jagada andmed mitmeks vooluks ja tulla toime mitmete soovimatute nähtustega, nagu näiteks
Rikked, ülerahvastatus, prügikoristus – need tegurid ei mõjuta enam ka salvestussüsteemi jõudlust tänu kontrollerite spetsiaalsetele muudatustele.
Ja ka plokkide andmehoidlad valmistuvad kohtumiseks
Järgmine tehnoloogiaarenduse etapp, mida praegu näeme, on NVMe-oF (NVMe over Fabrics) kasutamine. Mis puutub Huawei plokkide tehnoloogiatesse, siis need juba toetavad FC-NVMe-d (NVMe over Fibre Channel) ja NVMe over RoCE (RDMA over Converged Ethernet) on teel. Testmudelid on üsna töökorras, ametliku esitluseni on jäänud mitu kuud. Pange tähele, et see kõik ilmub hajutatud süsteemides, kus "kadudeta Etherneti" järele on suur nõudlus.
Täiendav viis hajutatud salvestusruumi toimimise optimeerimiseks oli andmete peegeldamisest täielik loobumine. Huawei lahendused ei kasuta enam n koopiat, nagu tavalises RAID 1-s, ja lülituvad täielikult üle
Duplikatsiooni- ja tihendusmehhanismid muutuvad kohustuslikuks. Kui klassikalistes salvestussüsteemides piirab meid kontrolleritesse paigaldatud protsessorite arv, siis hajutatud horisontaalselt skaleeritavates salvestussüsteemides sisaldab iga sõlm kõike vajalikku: kettaid, mälu, protsessoreid ja ühendusi. Need ressursid on piisavad tagamaks, et dubleerimisel ja tihendamisel on jõudlusele minimaalne mõju.
Ja riistvara optimeerimise meetodite kohta. Siin oli võimalik vähendada keskprotsessorite koormust täiendavate spetsiaalsete kiipide (või spetsiaalsete plokkide abil protsessoris endas), mis mängivad rolli.
Andmete salvestamise uued lähenemisviisid on hõlmatud hajutatud (jaotatud) arhitektuuriga. Tsentraliseeritud salvestussüsteemidel on Fibre Channeli kaudu ühendatud serveritehas
Erinevalt mõlemast ülaltoodust eeldab liigendatud arhitektuur süsteemi jagamine arvutuskangaks ja horisontaalseks salvestussüsteemiks. See pakub mõlema arhitektuuri eeliseid ja võimaldab peaaegu piiramatult skaleerida ainult seda elementi, millel puudub jõudlus.
Integratsioonist lähenemiseni
Klassikaline ülesanne, mille asjakohasus on viimase 15 aasta jooksul ainult kasvanud, on vajadus tagada samaaegselt blokksalvestus, failidele juurdepääs, juurdepääs objektidele, suurandmete farmi toimimine jne. Kirsiks tordil võiks olla ka olla näiteks varusüsteem magnetlindil.
Esimeses etapis suudeti ühendada ainult nende teenuste juhtimine. Heterogeensed andmesalvestussüsteemid ühendati mõne spetsiaalse tarkvaraga, mille kaudu administraator jagas ressursse olemasolevatest kogumitest. Kuid kuna neil kogumitel oli erinev riistvara, oli koormuse migreerimine nende vahel võimatu. Integratsiooni kõrgemal tasemel toimus liitmine lüüsi tasemel. Kui failide jagamine oleks saadaval, saaks seda teenindada erinevate protokollide kaudu.
Meile praegu saadaolev kõige arenenum konvergentsimeetod hõlmab universaalse hübriidsüsteemi loomist. Täpselt selline, nagu meie oma peaks saama
Teabe säilitamise hind määrab nüüd paljud arhitektuurilised otsused. Ja kuigi selle võib julgelt esiplaanile seada, arutame täna aktiivse juurdepääsuga "reaalajas" salvestusruumi, seega tuleb arvestada ka jõudlusega. Järgmise põlvkonna hajutatud süsteemide teine oluline omadus on unifitseerimine. Lõppude lõpuks ei taha keegi, et erinevatelt konsoolidelt juhitaks mitut erinevat süsteemi. Kõik need omadused avalduvad Huawei uues seerias
Uue põlvkonna massmälusüsteem
OceanStor Pacific vastab kuue üheksa töökindlusnõuetele (99,9999%) ja seda saab kasutada HyperMetro klassi andmekeskuste loomiseks. Kui kahe andmekeskuse vaheline kaugus on kuni 100 km, näitavad süsteemid täiendavat latentsusaega 2 ms, mis võimaldab nende alusel ehitada mis tahes katastroofikindlaid lahendusi, sealhulgas kvoorumiserveritega lahendusi.
Uue seeria tooted demonstreerivad protokolli mitmekülgsust. OceanStor 100D toetab juba blokkjuurdepääsu, objektile juurdepääsu ja Hadoopi juurdepääsu. Lähiajal juurutatakse ka juurdepääs failidele. Andmete mitut koopiat pole vaja salvestada, kui neid saab väljastada erinevate protokollide kaudu.
Näib, mida on "kadudeta võrgu" kontseptsioonil pistmist salvestussüsteemidega? Fakt on see, et hajutatud andmesalvestussüsteemid on üles ehitatud kiire võrgu baasil, mis toetab vastavaid algoritme ja RoCE mehhanismi. Meie lülitite toetatud tehisintellekti süsteem aitab veelgi suurendada võrgu kiirust ja vähendada latentsust.
Mis on uus hajutatud salvestussõlm OceanStor Pacific? 5U-vormingus lahendus sisaldab 120 draivi ja võib asendada kolme klassikalist sõlme, mis võimaldab rohkem kui kahekordselt kokku hoida riiuliruumi. Koopiaid mitte salvestades tõuseb draivide efektiivsus oluliselt (kuni +92%).
Oleme harjunud, et tarkvarapõhise salvestusruumi puhul on tegemist klassikalise serveriga installitud spetsiaalse tarkvaraga. Kuid nüüd vajab see arhitektuurne lahendus optimaalsete parameetrite saavutamiseks ka spetsiaalseid sõlme. See koosneb kahest ARM-protsessoritel põhinevast serverist, mis haldavad kolmetolliste draivide massiivi.
Need serverid ei sobi hüperkonvergeeritud lahenduste jaoks. Esiteks on ARM-i jaoks päris palju rakendusi ja teiseks on raske koormuse tasakaalu hoida. Teeme ettepaneku liikuda eraldi salvestusruumile: arvutusklaster, mida esindavad klassikalised või rack-serverid, töötab eraldi, kuid on ühendatud OceanStor Pacificu salvestussõlmedega, mis täidavad ka oma otseseid ülesandeid. Ja see õigustab ennast.
Näiteks võtame klassikalise suure andmesalvestuslahenduse hüperkonvergeeritud süsteemiga, mis võtab enda alla 15 serveririiulit. Kui jagate koormuse eraldi arvutiserverite ja OceanStor Pacificu salvestussõlmede vahel, eraldades need üksteisest, väheneb vajalike riiulite arv poole võrra! See vähendab andmekeskuse tegevuskulusid ja vähendab kogu omamise kulusid. Maailmas, kus salvestatava teabe maht kasvab 30% aastas, ei loobi selliseid eeliseid.
***
Lisateavet Huawei lahenduste ja nende rakendusstsenaariumide kohta leiate meie veebisaidilt
Allikas: www.habr.com