Այսօր մենք կխոսենք այն մասին, թե ինչպես կարելի է լավագույնս պահպանել տվյալները մի աշխարհում, որտեղ հինգերորդ սերնդի ցանցերը, գենոմի սկաներները և ինքնակառավարվող մեքենաներն օրական ավելի շատ տվյալներ են արտադրում, քան ամբողջ մարդկությունը ստեղծվել է մինչև արդյունաբերական հեղափոխությունը:
Մեր աշխարհը ավելի ու ավելի շատ տեղեկատվություն է ստեղծում: Դրա մի մասը անցողիկ է և կորչում է նույնքան արագ, որքան հավաքվում է: Մեկը պետք է ավելի երկար պահվի, իսկ մյուսը նույնիսկ նախագծված է «դարերի համար», համենայնդեպս դա այն է, ինչ մենք տեսնում ենք ներկայից: Տեղեկատվական հոսքերը տվյալների կենտրոններում տեղավորվում են այնպիսի արագությամբ, որ ցանկացած նոր մոտեցում, ցանկացած տեխնոլոգիա, որը նախատեսված է բավարարելու այս անսահման «պահանջարկը» արագորեն հնանում է:
Բաշխված պահեստավորման համակարգերի զարգացման 40 տարի
Առաջին ցանցային պահեստը մեզ ծանոթ տեսքով հայտնվել է 1980-ականներին: Ձեզանից շատերը հանդիպել են NFS (Ցանցային ֆայլային համակարգ), AFS (Andrew File System) կամ Coda: Մեկ տասնամյակ անց նորաձևությունն ու տեխնոլոգիաները փոխվեցին, և բաշխված ֆայլային համակարգերը իրենց տեղը զիջեցին GPFS-ի (General Parallel File System), CFS-ի (Clustered File Systems) և StorNext-ի վրա հիմնված կլաստերային պահպանման համակարգերին: Որպես հիմք օգտագործվել է դասական ճարտարապետության բլոկների պահպանումը, որի վրա ստեղծվել է մեկ ֆայլային համակարգ՝ օգտագործելով ծրագրային շերտ: Այս և նմանատիպ լուծումները դեռ օգտագործվում են, զբաղեցնում են իրենց տեղը և բավականին պահանջված են։
Հազարամյակի վերջում բաշխված պահեստավորման պարադիգմը որոշ չափով փոխվեց, և SN (Shared-Nothing) ճարտարապետությամբ համակարգերը գրավեցին առաջատար դիրքերը: Կլաստերային պահեստավորումից անցում է կատարվել առանձին հանգույցների պահեստավորման, որոնք, որպես կանոն, դասական սերվերներ էին հուսալի պահեստավորում ապահովող ծրագրային ապահովմամբ. Նման սկզբունքներով, ասենք, կառուցված են HDFS (Hadoop Distributed File System) և GFS (Global File System):
Ավելի մոտ 2010-ականներին, բաշխված պահեստավորման համակարգերի հիմքում ընկած գաղափարներն ավելի ու ավելի սկսեցին արտացոլվել լիարժեք առևտրային արտադրանքներում, ինչպիսիք են VMware vSAN-ը, Dell EMC Isilon-ը և մեր
Հեռահաղորդակցության օպերատորներ
Թերևս բաշխված պահեստավորման համակարգերի ամենահին սպառողներից մեկը հեռահաղորդակցության օպերատորներն են: Դիագրամը ցույց է տալիս, թե հավելվածների որ խմբերն են արտադրում տվյալների մեծ մասը: OSS (Օպերացիաների Աջակցման Համակարգեր), MSS (Կառավարման Աջակցման Ծառայություններ) և BSS (Բիզնեսի Աջակցման Համակարգեր) ներկայացնում են երեք լրացուցիչ ծրագրային շերտեր, որոնք անհրաժեշտ են բաժանորդներին ծառայություններ մատուցելու, մատակարարին ֆինանսական հաշվետվություններ տրամադրելու և օպերատորի ինժեներներին գործառնական աջակցություն ցուցաբերելու համար:
Հաճախ այդ շերտերի տվյալները խիստ խառնվում են միմյանց հետ, և ավելորդ պատճենների կուտակումից խուսափելու համար օգտագործվում է բաշխված պահեստավորում, որը կուտակում է գործող ցանցից ստացվող տեղեկատվության ողջ ծավալը։ Պահեստները միավորված են ընդհանուր լողավազանի մեջ, որտեղ հասանելի են բոլոր ծառայությունները:
Մեր հաշվարկները ցույց են տալիս, որ դասական պահեստավորման համակարգերից անցումը արգելափակման համակարգերին թույլ է տալիս խնայել բյուջեի մինչև 70%-ը՝ հրաժարվելով հատուկ hi-end պահեստավորման համակարգերից և օգտագործելով սովորական դասական ճարտարապետության սերվերներ (սովորաբար x86)՝ աշխատելով մասնագիտացվածների հետ համատեղ: ծրագրային ապահովում։ Բջջային կապի օպերատորները վաղուց սկսել են մեծ քանակությամբ նման լուծումներ գնել: Մասնավորապես, ռուսական օպերատորները Huawei-ի նման արտադրանքն օգտագործում են ավելի քան վեց տարի։
Այո, մի շարք առաջադրանքներ չեն կարող կատարվել բաշխված համակարգերի միջոցով: Օրինակ, կատարողականի բարձրացված պահանջներով կամ ավելի հին արձանագրությունների հետ համատեղելիությամբ: Բայց օպերատորի կողմից մշակված տվյալների առնվազն 70%-ը կարող է տեղակայվել բաշխված լողավազանում:
Բանկային ոլորտ
Ցանկացած բանկում կան բազմաթիվ տարբեր ՏՏ համակարգեր՝ սկսած պրոցեսինգից մինչև բանկային ավտոմատացված համակարգով: Այս ենթակառուցվածքը նույնպես աշխատում է հսկայական քանակությամբ տեղեկատվության հետ, մինչդեռ առաջադրանքների մեծ մասը չի պահանջում պահեստավորման համակարգերի արդյունավետության և հուսալիության բարձրացում, օրինակ՝ մշակում, փորձարկում, գրասենյակային գործընթացների ավտոմատացում և այլն։ Այստեղ հնարավոր է դասական պահեստավորման համակարգերի օգտագործումը։ բայց տարեցտարի դա ավելի ու ավելի քիչ եկամտաբեր է լինում։ Բացի այդ, այս դեպքում չկա ճկունություն պահեստավորման համակարգի ռեսուրսների օգտագործման հարցում, որոնց կատարողականը հաշվարկվում է գագաթնակետային բեռի հիման վրա:
Բաշխված պահեստավորման համակարգեր օգտագործելիս դրանց հանգույցները, որոնք իրականում սովորական սերվերներ են, կարող են ցանկացած պահի վերածվել, օրինակ, սերվերային ֆերմայի և օգտագործվել որպես հաշվողական հարթակ:
Տվյալների լճեր
Վերևի դիագրամը ցույց է տալիս տիպիկ ծառայության սպառողների ցուցակը
Նման խնդիրների լուծման համար դասական պահեստավորման համակարգերի օգտագործումն անարդյունավետ է, քանի որ պահանջում է տվյալների բազաների արգելափակման բարձր արդյունավետության հասանելիություն և որպես օբյեկտ պահվող սկանավորված փաստաթղթերի գրադարաններ կանոնավոր մուտք: Օրինակ, վեբ պորտալի միջոցով պատվիրման համակարգը նույնպես կարող է կապված լինել այստեղ: Այս ամենը դասական պահեստային հարթակում իրականացնելու համար ձեզ անհրաժեշտ կլինի սարքավորումների մեծ հավաքածու տարբեր խնդիրների համար: Հորիզոնական ունիվերսալ պահեստավորման համակարգը կարող է լավ ծածկել նախկինում թվարկված բոլոր առաջադրանքները. պարզապես անհրաժեշտ է ստեղծել մի քանի լողավազաններ՝ պահեստավորման տարբեր բնութագրերով:
Նոր տեղեկատվության գեներատորներ
Աշխարհում պահվող տեղեկատվության ծավալը տարեկան աճում է մոտ 30%-ով։ Սա լավ նորություն է պահեստավորման վաճառողների համար, բայց ո՞րն է և ո՞րն է լինելու այս տվյալների հիմնական աղբյուրը:
Տասը տարի առաջ սոցիալական ցանցերը դարձան այդպիսի գեներատորներ, ինչը պահանջում էր մեծ թվով նոր ալգորիթմների, ապարատային լուծումների ստեղծում և այլն։ Այժմ պահեստավորման ծավալների աճի երեք հիմնական շարժիչ ուժ կա։ Առաջինը ամպային հաշվարկն է: Ներկայումս ընկերությունների մոտավորապես 70%-ն այս կամ այն կերպ օգտվում է ամպային ծառայություններից։ Դրանք կարող են լինել էլեկտրոնային փոստի համակարգեր, պահուստային պատճեններ և այլ վիրտուալացված սուբյեկտներ:
Երկրորդ դրայվերը հինգերորդ սերնդի ցանցերն են: Սրանք նոր արագություններ են և տվյալների փոխանցման նոր ծավալներ: Մեր կանխատեսումների համաձայն՝ 5G-ի համատարած ընդունումը կհանգեցնի ֆլեշ հիշողության քարտերի պահանջարկի անկմանը։ Հեռախոսում որքան էլ հիշողություն կա, այն միեւնույն է վերջանում է, իսկ եթե գաջեթը 100 մեգաբիթանոց ալիք ունի, լուսանկարները տեղում պահելու կարիք չկա։
Պատճառների երրորդ խումբը, թե ինչու է մեծանում պահեստավորման համակարգերի պահանջարկը, ներառում է արհեստական ինտելեկտի արագ զարգացումը, մեծ տվյալների վերլուծության անցումը և հնարավոր ամեն ինչի համընդհանուր ավտոմատացման միտումը:
«Նոր տրաֆիկի» առանձնահատկությունն այն է
Չկառուցված տվյալների օվկիանոս
Ի՞նչ խնդիրներ է առաջացնում «նոր տվյալների» ի հայտ գալը: Դրանցից առաջինը, իհարկե, տեղեկատվության մեծ ծավալն է և դրա պահպանման գնահատված ժամկետը։ Ժամանակակից առանց վարորդի ինքնավար մեքենան ամեն օր արտադրում է մինչև 60 տերաբայթ տվյալներ իր բոլոր սենսորներից և մեխանիզմներից: Շարժման նոր ալգորիթմներ մշակելու համար այս տեղեկատվությունը պետք է մշակվի նույն օրվա ընթացքում, հակառակ դեպքում այն կսկսի կուտակվել։ Միևնույն ժամանակ, այն պետք է պահպանվի շատ երկար ժամանակ՝ տասնամյակներ։ Միայն դրանից հետո ապագայում հնարավոր կլինի մեծ վերլուծական նմուշների հիման վրա եզրակացություններ անել։
Գենետիկական հաջորդականությունների վերծանման մեկ սարքը օրական արտադրում է մոտ 6 ՏԲ: Իսկ դրա օգնությամբ հավաքագրված տվյալները բոլորովին էլ ջնջում չեն ենթադրում, այսինքն՝ հիպոթետիկորեն դրանք պետք է ընդմիշտ պահպանվեն։
Վերջապես, նույն հինգերորդ սերնդի ցանցերը։ Ի հավելումն իրական փոխանցվող տեղեկատվության, նման ցանցն ինքնին տվյալների հսկայական գեներատոր է.
Այս ամենը պահանջում է տեղեկատվության պահպանման և մշակման նոր մոտեցումների և ալգորիթմների մշակում: Եվ նման մոտեցումներ են ի հայտ գալիս։
Նոր դարաշրջանի տեխնոլոգիաներ
Գոյություն ունեն լուծումների երեք խումբ, որոնք նախատեսված են տեղեկատվության պահպանման համակարգերի նոր պահանջներին համապատասխանելու համար՝ արհեստական ինտելեկտի ներդրում, պահեստավորման միջոցների տեխնիկական էվոլյուցիա և համակարգի ճարտարապետության ոլորտում նորարարություններ: Սկսենք AI-ից:
Huawei-ի նոր լուծումներում արհեստական ինտելեկտն օգտագործվում է հենց պահեստի մակարդակում, որը հագեցած է AI պրոցեսորով, որը թույլ է տալիս համակարգին ինքնուրույն վերլուծել իր վիճակը և կանխատեսել խափանումները։ Եթե պահեստավորման համակարգը միացված է սպասարկման ամպին, որն ունի զգալի հաշվողական հնարավորություններ, արհեստական ինտելեկտը կկարողանա մշակել ավելի շատ տեղեկատվություն և բարձրացնել իր վարկածների ճշգրտությունը։
Ի հավելումն խափանումների, նման AI-ն կարող է կանխատեսել ապագա գագաթնակետային բեռը և մինչև տարողունակության սպառումը մնացած ժամանակը: Սա թույլ է տալիս օպտիմիզացնել աշխատանքը և մասշտաբավորել համակարգը՝ նախքան անցանկալի իրադարձությունների առաջացումը:
Այժմ պահեստավորման կրիչների էվոլյուցիայի մասին: Առաջին ֆլեշ կրիչները պատրաստվել են SLC (Single-Level Cell) տեխնոլոգիայով։ Դրա վրա հիմնված սարքերն արագ էին, հուսալի, կայուն, բայց ունեին փոքր հզորություն և շատ թանկ էին։ Ծավալի աճը և գների նվազումը ձեռք են բերվել որոշակի տեխնիկական զիջումների միջոցով, ինչի շնորհիվ կրճատվել են կրիչների արագությունը, հուսալիությունը և ծառայության ժամկետը: Այնուամենայնիվ, միտումը չի ազդել բուն պահեստավորման համակարգերի վրա, որոնք, տարբեր ճարտարապետական հնարքների շնորհիվ, ընդհանուր առմամբ դարձել են և՛ ավելի արդյունավետ, և՛ ավելի հուսալի:
Բայց ինչո՞ւ էին Ձեզ անհրաժեշտ All-Flash պահեստավորման համակարգերը: Բավական չէ՞ր պարզապես հին HDD-ները փոխարինել արդեն գործող համակարգում նույն ձևի նոր SSD-ներով: Սա պահանջվում էր նոր պինդ վիճակում գտնվող կրիչների բոլոր ռեսուրսներն արդյունավետ օգտագործելու համար, ինչը պարզապես անհնար էր հին համակարգերում:
Huawei-ն, օրինակ, այս խնդիրը լուծելու համար մշակել է մի շարք տեխնոլոգիաներ, որոնցից մեկն այն է
Խելացի նույնականացումը հնարավորություն է տվել տվյալները տարրալուծել մի քանի հոսքերի և հաղթահարել մի շարք անցանկալի երևույթներ, ինչպիսիք են.
Խափանում, գերբնակեցում, աղբահանություն. այս գործոնները նույնպես այլևս չեն ազդում պահեստավորման համակարգի աշխատանքի վրա՝ կարգավորիչների հատուկ փոփոխությունների շնորհիվ:
Եվ բլոկ տվյալների պահեստները նույնպես պատրաստվում են հանդիպել
Տեխնոլոգիաների զարգացման հաջորդ փուլը, որը մենք տեսնում ենք հիմա, NVMe-oF-ի (NVMe over Fabrics) օգտագործումն է: Ինչ վերաբերում է Huawei-ի բլոկ տեխնոլոգիաներին, ապա դրանք արդեն աջակցում են FC-NVMe-ին (NVMe օպտիկամանրաթելային ալիքով), իսկ NVMe-ն՝ RoCE-ի միջոցով (RDMA՝ Converged Ethernet-ի միջոցով): Թեստային մոդելները բավականին ֆունկցիոնալ են, դրանց պաշտոնական ներկայացմանը մի քանի ամիս է մնացել։ Նշենք, որ այս ամենը կհայտնվի բաշխված համակարգերում, որտեղ «անկորուստ Ethernet»-ը մեծ պահանջարկ կունենա։
Բաշխված պահեստավորման օպտիմիզացման լրացուցիչ միջոց էր տվյալների արտացոլման ամբողջական հրաժարումը: Huawei լուծումներն այլևս չեն օգտագործում n օրինակ, ինչպես սովորական RAID 1-ում, և ամբողջությամբ անցնում են
Կրկնօրինակման և սեղմման մեխանիզմները դառնում են պարտադիր: Եթե դասական պահեստավորման համակարգերում մենք սահմանափակվում ենք կարգավորիչներում տեղադրված պրոցեսորների քանակով, ապա բաշխված հորիզոնական մասշտաբավոր պահեստավորման համակարգերում յուրաքանչյուր հանգույց պարունակում է անհրաժեշտ ամեն ինչ՝ սկավառակներ, հիշողություն, պրոցեսորներ և փոխկապակցվածություն: Այս ռեսուրսները բավարար են ապահովելու համար, որ կրկնօրինակումը և սեղմումը նվազագույն ազդեցություն ունենան կատարողականի վրա:
Իսկ ապարատային օպտիմալացման մեթոդների մասին։ Այստեղ հնարավոր եղավ նվազեցնել կենտրոնական պրոցեսորների ծանրաբեռնվածությունը լրացուցիչ հատուկ չիպերի օգնությամբ (կամ հատուկ բլոկներ հենց պրոցեսորում), որոնք դեր են խաղում
Տվյալների պահպանման նոր մոտեցումները մարմնավորված են տարանջատված (բաշխված) ճարտարապետության մեջ: Կենտրոնացված պահեստավորման համակարգերն ունեն սերվերի գործարան, որը միացված է Fiber Channel-ի միջոցով
Ի տարբերություն վերը նշված երկուսի, ենթադրում է տարանջատված ճարտարապետություն համակարգը բաժանելով հաշվողական գործվածքի և հորիզոնական պահեստավորման համակարգի. Սա ապահովում է երկու ճարտարապետության առավելությունները և թույլ է տալիս գրեթե անսահմանափակ մասշտաբավորում միայն այն տարրի համար, որը չունի կատարողականություն:
Ինտեգրումից մինչև կոնվերգենցիա
Դասական խնդիր, որի արդիականությունն աճել է միայն վերջին 15 տարիների ընթացքում, անհրաժեշտ է միաժամանակ ապահովել բլոկների պահեստավորում, ֆայլերի հասանելիություն, հասանելիություն դեպի օբյեկտներ, տվյալների մեծ ֆերմայի գործարկում և այլն։ լինի, օրինակ, պահեստային համակարգ մագնիսական ժապավենի վրա:
Առաջին փուլում հնարավոր եղավ միավորել միայն այդ ծառայությունների ղեկավարությունը։ Տարասեռ տվյալների պահպանման համակարգերը միացված էին որոշ մասնագիտացված ծրագրերի, որոնց միջոցով ադմինիստրատորը բաշխում էր ռեսուրսները հասանելի լողավազաններից: Բայց քանի որ այս լողավազաններն ունեին տարբեր սարքավորումներ, բեռների տեղափոխումը նրանց միջև անհնար էր: Ինտեգրման ավելի բարձր մակարդակում ագրեգացումը տեղի է ունեցել դարպասի մակարդակում: Եթե ֆայլերի փոխանակումը հասանելի լիներ, այն կարող էր սպասարկվել տարբեր արձանագրությունների միջոցով:
Ներկայումս մեզ հասանելի ամենաառաջադեմ կոնվերգենցիայի մեթոդը ներառում է ունիվերսալ հիբրիդային համակարգի ստեղծումը: Հենց այն, ինչ մերը պետք է դառնա
Տեղեկությունների պահպանման ծախսերն այժմ որոշում են բազմաթիվ ճարտարապետական որոշումներ: Եվ չնայած այն կարող է ապահով կերպով դրվել առաջին պլանում, այսօր մենք քննարկում ենք «կենդանի» պահեստավորումը ակտիվ հասանելիությամբ, ուստի պետք է նաև հաշվի առնել կատարողականը: Հաջորդ սերնդի բաշխված համակարգերի մեկ այլ կարևոր հատկություն միավորումն է: Ի վերջո, ոչ ոք չի ցանկանում ունենալ տարբեր կոնսուլներից կառավարվող մի քանի տարբեր համակարգեր: Այս բոլոր որակները մարմնավորված են Huawei-ի արտադրանքի նոր շարքում
Նոր սերնդի զանգվածային պահեստավորման համակարգ
OceanStor Pacific-ը համապատասխանում է վեց-ինը հուսալիության պահանջներին (99,9999%) և կարող է օգտագործվել HyperMetro դասի տվյալների կենտրոններ ստեղծելու համար: Երկու տվյալների կենտրոնների միջև մինչև 100 կմ հեռավորության վրա համակարգերը ցուցադրում են լրացուցիչ ուշացում՝ 2 ms, ինչը հնարավորություն է տալիս դրանց հիման վրա ստեղծել աղետներին դիմակայող ցանկացած լուծում, այդ թվում՝ քվորում սերվերներով:
Նոր շարքի արտադրանքները ցուցադրում են արձանագրության բազմակողմանիություն: Արդեն OceanStor 100D-ն աջակցում է արգելափակման, օբյեկտների և Hadoop մուտքի հնարավորություն: Մոտ ապագայում կիրականացվի նաև ֆայլերի հասանելիությունը։ Տվյալների մի քանի օրինակներ պահելու կարիք չկա, եթե դրանք կարող են տրվել տարբեր արձանագրությունների միջոցով:
Թվում է, թե ի՞նչ կապ ունի «անկորուստ ցանց» հասկացությունը պահեստավորման համակարգերի հետ: Փաստն այն է, որ տվյալների պահպանման բաշխված համակարգերը կառուցված են արագ ցանցի հիման վրա, որն աջակցում է համապատասխան ալգորիթմներին և RoCE մեխանիզմին: Արհեստական ինտելեկտի համակարգը, որն աջակցում է մեր անջատիչները, օգնում է էլ ավելի մեծացնել ցանցի արագությունը և նվազեցնել ուշացումը:
Ո՞րն է նոր OceanStor Pacific բաշխված պահեստային հանգույցը: 5U ձևաչափի լուծումը ներառում է 120 կրիչներ և կարող է փոխարինել երեք դասական հանգույցներ, որոնք ապահովում են ավելի քան կրկնակի խնայողություններ դարակների տարածքում: Պատճենները չպահելով՝ կրիչների արդյունավետությունը զգալիորեն բարձրանում է (մինչև +92%)։
Մենք սովոր ենք այն փաստին, որ ծրագրային ապահովման կողմից սահմանված պահեստը դասական սերվերի վրա տեղադրված հատուկ ծրագրակազմ է: Բայց հիմա, օպտիմալ պարամետրերի հասնելու համար, այս ճարտարապետական լուծումը պահանջում է նաև հատուկ հանգույցներ: Այն բաղկացած է ARM պրոցեսորների վրա հիմնված երկու սերվերից, որոնք կառավարում են երեք դյույմանոց կրիչներ:
Այս սերվերները հարմար չեն հիպերկոնվերգացված լուծումների համար: Նախ՝ ARM-ի համար բավականին շատ հավելվածներ կան, երկրորդ՝ դժվար է պահպանել բեռների հավասարակշռությունը։ Մենք առաջարկում ենք անցնել առանձին պահեստի. հաշվողական կլաստերը, որը ներկայացված է դասական կամ դարակային սերվերներով, գործում է առանձին, բայց միացված է OceanStor Pacific պահեստավորման հանգույցներին, որոնք նույնպես կատարում են իրենց ուղղակի առաջադրանքները: Եվ դա իրեն արդարացնում է։
Օրինակ, եկեք վերցնենք մեծ տվյալների պահպանման դասական լուծումը հիպերկոնվերգացված համակարգով, որը զբաղեցնում է 15 սերվերի դարակ: Եթե բեռը բաշխեք առանձին հաշվողական սերվերների և OceanStor Pacific պահեստավորման հանգույցների միջև՝ դրանք միմյանցից բաժանելով, պահանջվող դարակաշարերի թիվը կկրճատվի երկու անգամ: Սա նվազեցնում է տվյալների կենտրոնի գործառնական ծախսերը և նվազեցնում սեփականության ընդհանուր արժեքը: Աշխարհում, որտեղ պահվող տեղեկատվության ծավալն աճում է տարեկան 30%-ով, նման առավելությունները չեն շպրտվում:
***
Huawei-ի լուծումների և դրանց կիրառման սցենարների մասին լրացուցիչ տեղեկություններ կարող եք ստանալ մեր կայքում
Source: www.habr.com