Tänään puhumme siitä, kuinka parhaiten tallentaa dataa maailmassa, jossa viidennen sukupolven verkot, genomiskannerit ja itse ajavat autot tuottavat enemmän dataa päivässä kuin koko ihmiskunta tuotti ennen teollista vallankumousta.
Maailmamme tuottaa yhä enemmän tietoa. Osa siitä on ohikiitävää ja katoaa yhtä nopeasti kuin se kerätään. Toista tulisi säilyttää pidempään, ja toinen on jopa suunniteltu "satoja vuosia" - näin ainakin näemme nykyisyydestä. Tietovirrat asettuvat palvelinkeskuksiin niin nopeasti, että mikä tahansa uusi lähestymistapa, mikä tahansa tekniikka, joka on suunniteltu tyydyttämään tätä loputonta "kysyntää", vanhenee nopeasti.
40 vuotta hajautettujen tallennusjärjestelmien kehitystä
Ensimmäinen verkkotallennus meille tutussa muodossa ilmestyi 1980-luvulla. Monet teistä ovat kohdanneet NFS:n (Network File System), AFS:n (Andrew File System) tai Codan. Kymmenen vuotta myöhemmin muoti ja tekniikka ovat muuttuneet, ja hajautetut tiedostojärjestelmät ovat väistyneet ryhmitetyille tallennusjärjestelmille, jotka perustuvat GPFS:ään (General Parallel File System), CFS:ään (Clustered File Systems) ja StorNextiin. Pohjaksi käytettiin klassisen arkkitehtuurin lohkotallennustilaa, jonka päälle luotiin yksi tiedostojärjestelmä ohjelmistokerroksen avulla. Näitä ja vastaavia ratkaisuja käytetään edelleen, ne täyttävät markkinaraon ja ovat melko kysyttyjä.
Vuosituhannen vaihteessa hajautetun tallennuksen paradigma muuttui jonkin verran, ja SN (Shared-Nothing) -arkkitehtuurilla varustetut järjestelmät ottivat johtoaseman. Klusteritallennustilasta on siirrytty yksittäisiin solmuihin, jotka olivat pääsääntöisesti klassisia palvelimia, joissa oli luotettavaa tallennustilaa tarjoava ohjelmisto. Tällaisille periaatteille rakennetaan esimerkiksi HDFS (Hadoop Distributed File System) ja GFS (Global File System).
Lähempänä 2010-lukua hajautettujen tallennusjärjestelmien taustalla olevat käsitteet alkoivat yhä enemmän näkyä täysimittaisissa kaupallisissa tuotteissa, kuten VMware vSAN, Dell EMC Isilon ja meidän
Operaattorit maailmassa
Ehkä yksi vanhimmista hajautettujen tallennusjärjestelmien käyttäjistä on teleoperaattorit. Kaavio näyttää, mitkä sovellusryhmät tuottavat suurimman osan tiedoista. OSS (Operations Support Systems), MSS (Management Support Services) ja BSS (Business Support Systems) edustavat kolmea toisiaan täydentävää ohjelmistotasoa, jotka tarvitaan palvelun tarjoamiseen tilaajille, taloudelliseen raportointiin palveluntarjoajalle ja operatiiviseen tukeen operaattoriinsinööreille.
Usein näiden kerrosten tiedot sekoittuvat voimakkaasti keskenään ja tarpeettomien kopioiden kertymisen välttämiseksi käytetään hajautettua tallennustilaa, joka kerää koko käyttöverkosta tulevan tiedon. Varastot on yhdistetty yhteiseksi uima-altaaksi, jonne pääsevät kaikki palvelut.
Laskelmamme osoittavat, että siirtyminen klassisista tallennusjärjestelmistä lohkotallennusjärjestelmiin mahdollistaa jopa 70 % budjetin säästämisen vain luopumalla omistetuista hi-end-tallennusjärjestelmistä ja käyttämällä perinteisiä klassisen arkkitehtuurin palvelimia (yleensä x86) yhdessä erikoistuneiden kanssa. ohjelmisto. Matkapuhelinoperaattorit ovat jo kauan sitten alkaneet ostaa tällaisia ratkaisuja suuria määriä. Erityisesti venäläiset operaattorit ovat käyttäneet tällaisia Huawein tuotteita yli kuuden vuoden ajan.
Kyllä, useita tehtäviä ei voida suorittaa hajautetuilla järjestelmillä. Esimerkiksi lisääntyneet suorituskykyvaatimukset tai yhteensopivuus vanhempien protokollien kanssa. Mutta vähintään 70 % operaattorin käsittelemistä tiedoista voi sijaita hajautetussa poolissa.
Pankkisektori
Jokaisessa pankissa on monia erilaisia IT-järjestelmiä käsittelystä automatisoituun pankkijärjestelmään. Tämä infrastruktuuri toimii myös valtavan tietomäärän kanssa, kun taas useimmat tehtävät eivät vaadi tallennusjärjestelmien suorituskyvyn ja luotettavuuden lisäämistä, esimerkiksi kehitys, testaus, toimistoprosessien automatisointi jne. Tässä on mahdollista käyttää klassisia tallennusjärjestelmiä, mutta joka vuosi se on vähemmän kannattavaa. Lisäksi tässä tapauksessa ei ole joustavuutta varastojärjestelmän resurssien käytössä, joiden suorituskyky lasketaan huippukuormituksen perusteella.
Hajautettuja tallennusjärjestelmiä käytettäessä niiden solmut, jotka ovat itse asiassa tavallisia palvelimia, voidaan milloin tahansa muuntaa esimerkiksi palvelinfarmiksi ja käyttää laskenta-alustana.
Data järvet
Yllä oleva kaavio näyttää luettelon tyypillisistä palvelunkuluttajista
Klassisten tallennusjärjestelmien käyttäminen tällaisten ongelmien ratkaisemiseen on tehotonta, koska se vaatii sekä tehokkaan pääsyn estotietokantoihin että säännöllistä pääsyä objekteina tallennettujen skannattujen asiakirjojen kirjastoihin. Tähän voi linkittää myös esimerkiksi tilausjärjestelmän verkkoportaalin kautta. Tämän kaiken toteuttamiseksi klassisella tallennusalustalla tarvitset suuren joukon laitteita erilaisiin tehtäviin. Yksi horisontaalinen yleinen tallennusjärjestelmä voi hyvinkin kattaa kaikki aiemmin luetellut tehtävät: sinun tarvitsee vain luoda useita pooleja, joilla on erilaiset tallennusominaisuudet.
Uuden tiedon generaattorit
Maailmassa tallennetun tiedon määrä kasvaa noin 30 % vuodessa. Tämä on hyvä uutinen tallennustilatoimittajille, mutta mikä on ja tulee olemaan näiden tietojen päälähde?
Kymmenen vuotta sitten sosiaalisista verkostoista tuli tällaisia generaattoreita, mikä edellytti lukuisten uusien algoritmien, laitteistoratkaisujen jne. luomista. Nyt tallennusvolyymien kasvulle on kolme päätekijää. Ensimmäinen on pilvilaskenta. Tällä hetkellä noin 70 % yrityksistä käyttää pilvipalveluita tavalla tai toisella. Nämä voivat olla sähköpostijärjestelmiä, varmuuskopioita ja muita virtualisoituja kokonaisuuksia.
Toinen ajuri on viidennen sukupolven verkot. Nämä ovat uusia nopeuksia ja uusia tiedonsiirtomääriä. Ennustemme mukaan 5G:n laaja käyttöönotto johtaa flash-muistikorttien kysynnän laskuun. Riippumatta siitä, kuinka paljon muistia puhelimessa on, se loppuu silti, ja jos gadgetissa on 100 megabitin kanava, kuvia ei tarvitse tallentaa paikallisesti.
Kolmas syyryhmä tallennusjärjestelmien kysynnän kasvuun sisältää tekoälyn nopean kehityksen, siirtymisen big datan analytiikkaan ja suuntauksen kohti kaiken mahdollisen yleismaailmallista automatisointia.
"Uuden liikenteen" ominaisuus on sen
Strukturoimattoman datan valtameri
Mitä ongelmia "uuden datan" syntyminen tuo mukanaan? Ensimmäinen niistä on tietysti tiedon valtava määrä ja sen arvioitu säilytysaika. Pelkästään nykyaikainen kuljettajaton autonominen auto tuottaa jopa 60 teratavua dataa joka päivä kaikista antureistaan ja mekanismeistaan. Uusien liikealgoritmien kehittämiseksi nämä tiedot on käsiteltävä saman päivän sisällä, muuten niitä alkaa kertyä. Samanaikaisesti se on säilytettävä erittäin pitkään - vuosikymmeniä. Vasta silloin voidaan tulevaisuudessa tehdä johtopäätöksiä suurten analyyttisten näytteiden perusteella.
Yksi laite geneettisten sekvenssien purkamiseen tuottaa noin 6 TB päivässä. Ja sen avulla kerätyt tiedot eivät tarkoita ollenkaan poistamista, eli hypoteettisesti ne tulisi säilyttää ikuisesti.
Lopuksi samat viidennen sukupolven verkot. Varsinaisen välitetyn tiedon lisäksi tällainen verkko itsessään on valtava tiedon generaattori: toimintalokit, puhelutietueet, koneen välisen vuorovaikutuksen välitulokset jne.
Kaikki tämä edellyttää uusien lähestymistapojen ja algoritmien kehittämistä tiedon tallentamiseen ja käsittelyyn. Ja sellaisia lähestymistapoja on tulossa.
Uuden aikakauden teknologiat
Tietojen tallennusjärjestelmien uusiin vaatimuksiin on suunniteltu kolme ratkaisuryhmää: tekoälyn käyttöönotto, tallennusvälineiden tekninen kehitys ja innovaatiot järjestelmäarkkitehtuurin alalla. Aloitetaan tekoälyllä.
Uusissa Huawei-ratkaisuissa tekoälyä käytetään itse tallennustilan tasolla, joka on varustettu tekoälyprosessorilla, jonka avulla järjestelmä voi itsenäisesti analysoida tilaansa ja ennustaa vikoja. Jos tallennusjärjestelmä liitetään palvelupilveen, jossa on merkittäviä laskentaominaisuuksia, tekoäly pystyy käsittelemään enemmän tietoa ja lisäämään hypoteesien tarkkuutta.
Vikojen lisäksi tällainen tekoäly voi ennustaa tulevan huippukuormituksen ja jäljellä olevan ajan kapasiteetin loppumiseen. Näin voit optimoida suorituskykyä ja skaalata järjestelmää ennen kuin ei-toivottuja tapahtumia tapahtuu.
Nyt tallennusvälineiden kehityksestä. Ensimmäiset flash-asemat valmistettiin käyttämällä SLC (Single-Level Cell) -tekniikkaa. Siihen perustuvat laitteet olivat nopeita, luotettavia, vakaita, mutta niiden kapasiteetti oli pieni ja erittäin kalliita. Volyymien kasvu ja hinnanalennukset saavutettiin tietyillä teknisillä myönnytyksillä, joiden ansiosta taajuusmuuttajien nopeus, luotettavuus ja käyttöikä pienenivät. Trendi ei kuitenkaan vaikuttanut itse varastojärjestelmiin, joista eri arkkitehtonisten temppujen ansiosta tuli yleisesti sekä tuottavampia että luotettavampia.
Mutta miksi tarvitsit All-Flash-tallennusjärjestelmiä? Eikö riittänyt vain vaihtaa vanhat kiintolevyt jo käyttöjärjestelmässä uusiin samankokoisiin SSD-levyihin? Tämä vaadittiin uusien puolijohdeasemien kaikkien resurssien tehokkaaseen käyttöön, mikä oli yksinkertaisesti mahdotonta vanhemmissa järjestelmissä.
Esimerkiksi Huawei on kehittänyt useita teknologioita tämän ongelman ratkaisemiseksi, joista yksi on
Älykäs tunnistaminen mahdollisti tietojen hajotuksen useiksi virroiksi ja selviytymisen useista ei-toivotuista ilmiöistä, kuten esim.
Vika, ylikuormitus, roskien kerääminen - nämä tekijät eivät myöskään enää vaikuta säilytysjärjestelmän suorituskykyyn ohjaimiin tehtyjen erityisten muutosten ansiosta.
Ja myös lohkotietovarastot valmistautuvat tapaamiseen
Seuraava teknologian kehitysvaihe, jota näemme nyt, on NVMe-oF:n (NVMe over Fabrics) käyttö. Mitä tulee Huawein lohkotekniikoihin, ne tukevat jo FC-NVMe:tä (NVMe over Fibre Channel), ja NVMe over RoCE (RDMA over Converged Ethernet) on tulossa. Testimallit ovat varsin toimivia, niiden viralliseen esittelyyn on useita kuukausia jäljellä. Huomaa, että kaikki tämä näkyy hajautetuissa järjestelmissä, joissa "häviöttömällä Ethernetillä" on suuri kysyntä.
Toinen tapa optimoida hajautetun tallennustilan toimintaa oli tietojen peilaus kokonaan luopuminen. Huawei-ratkaisut eivät enää käytä n kopiota, kuten tavallisessa RAID 1:ssä, ja siirtyvät kokonaan
Deduplikaatio- ja pakkausmekanismit tulevat pakollisiksi. Jos klassisissa tallennusjärjestelmissä ohjaimiin asennettujen prosessorien lukumäärä rajoittaa meitä, niin hajautetuissa vaakasuunnassa skaalautuvissa tallennusjärjestelmissä jokainen solmu sisältää kaiken tarvittavan: levyt, muistin, prosessorit ja liitännät. Nämä resurssit riittävät varmistamaan, että duplikoinnin ja pakkaamisen vaikutus suorituskykyyn on minimaalinen.
Ja laitteiston optimointimenetelmistä. Täällä oli mahdollista vähentää keskusprosessorien kuormitusta ylimääräisten dedikoitujen sirujen (tai itse prosessorissa olevien dedikoitujen lohkojen) avulla, joilla on rooli
Uudet lähestymistavat tietojen tallentamiseen sisältyvät hajautettuun (hajautettuun) arkkitehtuuriin. Keskitetyissä tallennusjärjestelmissä on Fibre Channelin kautta yhdistetty palvelintehdas
Toisin kuin molemmat edellä mainitut, hajautettu arkkitehtuuri tarkoittaa järjestelmän jakaminen laskentakankaaksi ja vaakasuoraan tallennusjärjestelmään. Tämä tarjoaa molempien arkkitehtuurien edut ja mahdollistaa lähes rajattoman skaalauksen vain sellaiselle elementille, jolta puuttuu suorituskyky.
Integraatiosta lähentymiseen
Klassinen tehtävä, jonka merkitys on vain kasvanut viimeisen 15 vuoden aikana, on tarve tarjota samanaikaisesti lohkotallennus, tiedostopääsy, pääsy esineisiin, big data farmin toiminta jne. Huippua kakun päällä voisi myös olla esimerkiksi varajärjestelmä magneettinauhalle.
Ensimmäisessä vaiheessa vain näiden palvelujen hallinta voitiin yhtenäistää. Heterogeeniset tiedontallennusjärjestelmät yhdistettiin joihinkin erikoisohjelmistoihin, joiden kautta järjestelmänvalvoja jakoi resursseja käytettävissä olevista pooleista. Mutta koska näillä poolilla oli eri laitteisto, kuormien siirto niiden välillä oli mahdotonta. Korkeammalla integraatiotasolla yhdistäminen tapahtui yhdyskäytävätasolla. Jos tiedostojen jakaminen olisi käytettävissä, se voitaisiin palvella eri protokollien kautta.
Edistyksellisin tällä hetkellä käytettävissämme oleva konvergenssimenetelmä sisältää universaalin hybridijärjestelmän luomisen. Juuri sellainen kuin meidän pitäisi olla
Tiedon säilytyskustannukset määräävät nyt monia arkkitehtonisia päätöksiä. Ja vaikka se voidaan turvallisesti asettaa etusijalle, keskustelemme tänään "live-tallennustilasta", jossa on aktiivinen pääsy, joten myös suorituskyky on otettava huomioon. Toinen tärkeä seuraavan sukupolven hajautettujen järjestelmien ominaisuus on yhdistäminen. Loppujen lopuksi kukaan ei halua hallita useita eri järjestelmiä eri konsoleista. Kaikki nämä ominaisuudet ilmentyvät uudessa Huawei-tuotesarjassa
Uuden sukupolven massamuistijärjestelmä
OceanStor Pacific täyttää kuuden yhdeksän luotettavuusvaatimukset (99,9999 %) ja sitä voidaan käyttää HyperMetro-luokan datakeskusten luomiseen. Kun kahden datakeskuksen välinen etäisyys on jopa 100 kilometriä, järjestelmät osoittavat 2 ms:n lisälatenssia, mikä mahdollistaa niiden pohjalta minkä tahansa katastrofinkestävän ratkaisun rakentamisen, mukaan lukien ne, joissa on koorumipalvelimia.
Uuden sarjan tuotteet osoittavat protokollan monipuolisuutta. OceanStor 100D tukee jo nyt esto-, objekti- ja Hadoop-käyttöä. Myös tiedostojen käyttöoikeus otetaan käyttöön lähitulevaisuudessa. Tiedoista ei tarvitse tallentaa useita kopioita, jos ne voidaan antaa eri protokollien kautta.
Vaikuttaa siltä, mitä "häviöttömän verkon" käsitteellä on tekemistä tallennusjärjestelmien kanssa? Tosiasia on, että hajautetut tiedontallennusjärjestelmät on rakennettu nopean verkon pohjalle, joka tukee sopivia algoritmeja ja RoCE-mekanismia. Kytkimiemme tukema tekoälyjärjestelmä auttaa lisäämään verkon nopeutta entisestään ja vähentämään latenssia.
Mikä on uusi hajautettu OceanStor Pacific -tallennussolmu? 5U-muotoinen ratkaisu sisältää 120 asemaa ja voi korvata kolme klassista solmua, mikä säästää telinetilaa yli kaksinkertaisesti. Kopioiden tallentamatta jättäminen lisää asemien tehokkuutta merkittävästi (+92 %).
Olemme tottuneet siihen, että ohjelmiston määrittämä tallennus on erikoisohjelmistoa, joka on asennettu perinteiselle palvelimelle. Mutta nyt optimaalisten parametrien saavuttamiseksi tämä arkkitehtoninen ratkaisu vaatii myös erityisiä solmuja. Se koostuu kahdesta ARM-prosessoreihin perustuvasta palvelimesta, jotka hallitsevat kolmen tuuman asemia.
Nämä palvelimet eivät sovellu hyperkonvergoituihin ratkaisuihin. Ensinnäkin ARM:lle on olemassa useita sovelluksia, ja toiseksi kuormitustasapainon ylläpitäminen on vaikeaa. Ehdotamme siirtymistä erilliseen varastoon: laskentaklusteri, jota edustavat klassiset tai räkkipalvelimet, toimii erikseen, mutta on yhdistetty OceanStor Pacific -tallennussolmuihin, jotka myös suorittavat suoria tehtäviään. Ja se oikeuttaa itsensä.
Otetaan esimerkiksi klassinen big data -tallennusratkaisu, jossa on hyperkonvergoitu järjestelmä, joka kattaa 15 palvelintelinettä. Jos jaat kuorman erillisten laskentapalvelimien ja OceanStor Pacific -tallennussolmujen kesken erottamalla ne toisistaan, tarvittavien telineiden määrä puolittuu! Tämä vähentää konesalin käyttökustannuksia ja alentaa kokonaiskustannuksia. Maailmassa, jossa tallennetun tiedon määrä kasvaa 30 % vuodessa, tällaisia etuja ei heitellä.
***
Saat lisätietoja Huawei-ratkaisuista ja niiden sovellusskenaarioista sivuiltamme
Lähde: will.com