ለአደጋ የሚቋቋም ደመና፡ እንዴት እንደሚሰራ

ሃይ ሀብር!

ከአዲስ ዓመት በዓላት በኋላ፣ በሁለት ጣቢያዎች ላይ የተመሰረተ ከአደጋ የማይከላከል ደመናን እንደገና አስጀመርን። ዛሬ እንዴት እንደሚሰራ እንነግርዎታለን እና የክላስተር ግለሰባዊ አካላት ሲሳኩ እና አጠቃላይ ጣቢያው ሲበላሽ ለደንበኛ ቨርቹዋል ማሽኖች ምን እንደሚፈጠር እናሳያለን (አጥፊ - ሁሉም ነገር በእነሱ ጥሩ ነው)።

ለአደጋ የሚቋቋም ደመና፡ እንዴት እንደሚሰራ
በ OST ጣቢያው ላይ አደጋን የሚቋቋም የደመና ማከማቻ ስርዓት።

ውስጡ ያለው

በመከለያው ስር፣ ክላስተር የሲስኮ ዩሲኤስ አገልጋዮች ከVMware ESXi hypervisor፣ ሁለት INFINIDAT InfiniBox F2240 ማከማቻ ሲስተሞች፣ የCisco Nexus አውታረ መረብ መሳሪያዎች፣ እንዲሁም Brocade SAN መቀየሪያዎች አሉት። ክላስተር በሁለት ጣቢያዎች የተከፈለ ነው - OST እና NORD, ማለትም እያንዳንዱ የውሂብ ማእከል አንድ አይነት የመሳሪያዎች ስብስብ አለው. በእውነቱ, ይህ ነው አደጋን መቋቋም የሚችል.

በአንድ ጣቢያ ውስጥ፣ ዋና ዋና ነገሮችም ተባዝተዋል (አስተናጋጆች፣ SAN switches፣ networking)።
ሁለቱ ጣቢያዎች በተለዩ የፋይበር ኦፕቲክ መስመሮች የተገናኙ ናቸው፣ እንዲሁም የተያዙ ናቸው።

ስለ ማከማቻ ስርዓቶች ጥቂት ቃላት። የመጀመሪያውን የአደጋ መከላከያ ደመና በNetApp ላይ ገንብተናል። እዚህ INFINIDATን መርጠናል፣ እና ለምን እንደሆነ እነሆ፡-

  • ገባሪ-ንቁ ማባዛት አማራጭ። ከማከማቻ ስርዓቶች ውስጥ አንዱ ሙሉ በሙሉ ባይሳካም ቨርቹዋል ማሽኑ ስራውን እንዲቀጥል ያስችለዋል። ስለ ማባዛት በኋላ የበለጠ እነግራችኋለሁ።
  • የስርዓት ስህተት መቻቻልን ለመጨመር ሶስት የዲስክ መቆጣጠሪያዎች. አብዛኛውን ጊዜ ሁለት ናቸው.
  • ዝግጁ መፍትሄ. ከአውታረ መረቡ ጋር መገናኘት እና ማዋቀር ብቻ የሚያስፈልገው ቅድመ-የተገጣጠመ መደርደሪያ አግኝተናል።
  • በትኩረት ቴክኒካዊ ድጋፍ. የ INFINIDAT መሐንዲሶች የማከማቻ ስርዓት ምዝግብ ማስታወሻዎችን እና ክስተቶችን በየጊዜው ይመረምራሉ, አዲስ የጽኑ ትዕዛዝ ስሪቶችን ይጫኑ እና በማዋቀር ላይ ያግዛሉ.

ከማሸግ ላይ ያሉ አንዳንድ ፎቶዎች እነኚሁና፡

ለአደጋ የሚቋቋም ደመና፡ እንዴት እንደሚሰራ

ለአደጋ የሚቋቋም ደመና፡ እንዴት እንደሚሰራ

እንዴት እንደሚሰራ

ደመናው በራሱ ውስጥ ጥፋትን የሚቋቋም ነው። ደንበኛው ከአንድ ሃርድዌር እና ሶፍትዌር ውድቀቶች ይጠብቀዋል። አደጋን የሚቋቋም በአንድ ጣቢያ ውስጥ ካሉ ግዙፍ ውድቀቶች ለመከላከል ይረዳል፡ ለምሳሌ የማከማቻ ስርዓት አለመሳካት (ወይም የኤስዲኤስ ክላስተር፣ ብዙ ጊዜ የሚከሰት 🙂)፣ በማከማቻ አውታረ መረብ ውስጥ ያሉ ግዙፍ ስህተቶች፣ ወዘተ. ደህና፣ እና ከሁሉም በላይ አስፈላጊው፡ እንዲህ ያለው ደመና የሚድነው አንድ ሙሉ ጣቢያ በእሳት፣ በመጥፋቱ፣ በወራሪ ቁጥጥር ወይም በባዕድ ማረፊያ ምክንያት ተደራሽ በማይሆንበት ጊዜ ነው።

በእነዚህ ሁሉ አጋጣሚዎች የደንበኛው ቨርቹዋል ማሽኖች መስራታቸውን ይቀጥላሉ፣ እና ለምን እንደሆነ ይኸው ነው።

የክላስተር ዲዛይኑ የተነደፈው ማንኛውም የESXi አስተናጋጅ ከደንበኛ ቨርችዋል ማሽኖች ጋር ሁለቱን የማከማቻ ስርዓቶች ማግኘት እንዲችል ነው። በ OST ጣቢያ ላይ ያለው የማከማቻ ስርዓት ካልተሳካ፣ ቨርቹዋል ማሽኖቹ መስራታቸውን ይቀጥላሉ፡ እየሰሩ ያሉት አስተናጋጆች የማከማቻ ስርዓቱን በ NORD ላይ ለውሂብ ያገኙታል።

ለአደጋ የሚቋቋም ደመና፡ እንዴት እንደሚሰራ
በክላስተር ውስጥ ያለው የግንኙነት ንድፍ ይህን ይመስላል።

ይህ ሊሆን የቻለው ኢንተር-ስዊች ሊንክ በሁለቱ ሳይቶች SAN ጨርቆች መካከል በመዋቀሩ ነው፡ የጨርቅ A OST SAN ማብሪያ ከፋብሪካ A NORD SAN ማብሪያና በተመሳሳይ መልኩ ለጨርቃ ጨርቅ ቢ SAN መቀየሪያዎች የተገናኘ ነው።

ደህና ፣ እነዚህ ሁሉ የ SAN ፋብሪካዎች ውስብስብ ነገሮች ትርጉም እንዲሰጡ ፣ ንቁ-ንቁ ማባዛት በሁለቱ የማከማቻ ስርዓቶች መካከል ተዋቅሯል-መረጃው በአንድ ጊዜ ለአካባቢያዊ እና የርቀት ማከማቻ ስርዓቶች ፣ RPO = 0 ይፃፋል። የመጀመሪያው መረጃ በአንድ የማከማቻ ስርዓት ላይ ተከማችቷል እና ቅጂው በሌላኛው ላይ ይከማቻል። ውሂቡ በማከማቻ ጥራዞች ደረጃ ይደገማል፣ እና የቪኤም ውሂቡ (ዲስኮች፣ የውቅር ፋይል፣ ስዋፕ ​​ፋይል፣ ወዘተ) በላያቸው ላይ ተከማችቷል።

የ ESXi አስተናጋጅ ዋናውን ድምጽ እና ቅጂውን እንደ አንድ የዲስክ መሳሪያ (የማከማቻ መሳሪያ) ይመለከታል። ከESXi አስተናጋጅ ወደ እያንዳንዱ የዲስክ መሳሪያ 24 መንገዶች አሉ።

12 ዱካዎች ከአካባቢው የማከማቻ ስርዓት (ምርጥ መንገዶች) ጋር ያገናኙታል, የተቀሩት 12 ደግሞ ከርቀት ማከማቻ ስርዓት (ጥሩ ያልሆኑ መንገዶች). በተለመደው ሁኔታ ውስጥ, ESXi "ምርጥ" መንገዶችን በመጠቀም በአካባቢው የማከማቻ ስርዓት ላይ ያለውን መረጃ ይደርሳል. ይህ የማከማቻ ስርዓት ሲሳካ፣ ESXi ጥሩ መንገዶችን ያጣል እና ወደ "ምርጥ ያልሆኑ" ይቀየራል። በሥዕላዊ መግለጫው ላይ የሚታየው ይህ ነው።

ለአደጋ የሚቋቋም ደመና፡ እንዴት እንደሚሰራ
የአደጋ መከላከያ ክላስተር እቅድ።

ሁሉም የደንበኛ ኔትወርኮች ከሁለቱም ጣቢያዎች ጋር በጋራ የአውታረ መረብ ጨርቅ በኩል የተገናኙ ናቸው። እያንዳንዱ ጣቢያ የደንበኛው አውታረ መረቦች የሚቋረጡበትን የአቅራቢ ጠርዝ (PE) ያሂዳል። ፒኢዎች ወደ አንድ የጋራ ዘለላ አንድ ሆነዋል። ፒኢ በአንድ ጣቢያ ላይ ካልተሳካ ሁሉም ትራፊክ ወደ ሁለተኛው ጣቢያ ይዛወራሉ። ለዚህም ምስጋና ይግባውና ያለ ፒኢ የተተወው ጣቢያ ምናባዊ ማሽኖች በአውታረ መረቡ ላይ ለደንበኛው ተደራሽ ሆነው ይቆያሉ።

በተለያዩ ውድቀቶች ወቅት የደንበኛ ምናባዊ ማሽኖች ምን እንደሚሆኑ አሁን እንመልከት። በጣም ቀላል በሆኑ አማራጮች እንጀምር እና በጣም ከባድ በሆነው - የጠቅላላው ጣቢያ ውድቀት። በምሳሌዎቹ ውስጥ፣ ዋናው መድረክ OST ይሆናል፣ እና የመጠባበቂያው መድረክ፣ ከውሂብ ቅጂዎች ጋር፣ NORD ይሆናል።

በደንበኛው ምናባዊ ማሽን ላይ ምን ይከሰታል ...

የማባዛት ማገናኛ አልተሳካም። በሁለቱ ጣቢያዎች የማከማቻ ስርዓቶች መካከል ማባዛት ይቆማል.
ESXi የሚሰራው በአካባቢያዊ የዲስክ መሳሪያዎች (በተመቻቸ ዱካዎች) ብቻ ነው።
ምናባዊ ማሽኖች መስራታቸውን ቀጥለዋል።

ለአደጋ የሚቋቋም ደመና፡ እንዴት እንደሚሰራ

ISL (ኢንተር-ስዊች ሊንክ) ይቋረጣል። ጉዳዩ የማይመስል ነገር ነው። አንዳንድ እብድ ኤክስካቫተር በአንድ ጊዜ ብዙ የኦፕቲካል መስመሮችን ካልቆፈረ በቀር፣ እነዚህም በገለልተኛ መስመሮች የሚሰሩ እና በተለያዩ ግብአቶች ወደ ድረ-ገጾቹ የሚገቡት። ግን ለማንኛውም. በዚህ አጋጣሚ፣ የESXi አስተናጋጆች የመንገዶቹን ግማሹን ያጣሉ እና የአካባቢ ማከማቻ ስርዓቶቻቸውን ብቻ ማግኘት ይችላሉ። ቅጂዎች ተሰብስበዋል፣ ግን አስተናጋጆች እነሱን ማግኘት አይችሉም።

ምናባዊ ማሽኖች በመደበኛነት ይሰራሉ።

ለአደጋ የሚቋቋም ደመና፡ እንዴት እንደሚሰራ

የ SAN መቀየሪያ ከጣቢያዎቹ በአንዱ ላይ አልተሳካም። የESXi አስተናጋጆች ወደ ማከማቻ ስርዓቱ አንዳንድ መንገዶችን ያጣሉ። በዚህ አጋጣሚ ማብሪያው ያልተሳካበት ቦታ ላይ ያሉ አስተናጋጆች የሚሰሩት በHBAs በአንዱ በኩል ብቻ ነው።

ቨርቹዋል ማሽኖቹ በመደበኛነት መስራታቸውን ቀጥለዋል።

ለአደጋ የሚቋቋም ደመና፡ እንዴት እንደሚሰራ

በአንደኛው ጣቢያ ላይ ያሉ ሁሉም የ SAN መቀየሪያዎች አልተሳኩም። በ OST ጣቢያ ላይ እንዲህ ዓይነት አደጋ ተከስቷል እንበል። በዚህ አጋጣሚ፣ በዚህ ጣቢያ ላይ ያሉ የESXi አስተናጋጆች ወደ ዲስክ መሳሪያዎቻቸው የሚወስዱትን ሁሉንም መንገዶች ያጣሉ። መደበኛው VMware vSphere HA ሜካኒኬሽን ወደ ጨዋታ ነው የሚመጣው፡ ሁሉንም የ OST ጣቢያ ምናባዊ ማሽኖችን በNORD ቢበዛ በ140 ሰከንድ ውስጥ እንደገና ያስጀምራቸዋል።

በNORD ጣቢያ አስተናጋጆች ላይ የሚሰሩ ምናባዊ ማሽኖች በመደበኛነት እየሰሩ ናቸው።

ለአደጋ የሚቋቋም ደመና፡ እንዴት እንደሚሰራ

የESXi አስተናጋጅ በአንድ ጣቢያ ላይ አልተሳካም። እዚህ የ vSphere HA አሠራር እንደገና ይሠራል: ከተሳካው አስተናጋጅ የሚመጡ ምናባዊ ማሽኖች በሌሎች አስተናጋጆች ላይ እንደገና ይጀመራሉ - በተመሳሳይ ወይም በርቀት ጣቢያ ላይ. የቨርቹዋል ማሽን ዳግም ማስጀመር ጊዜ እስከ 1 ደቂቃ ነው።

ሁሉም የESXi አስተናጋጆች በ OST ጣቢያ ላይ ካልተሳኩ ምንም አማራጮች የሉም፡ ቪኤምዎቹ በሌላ ላይ እንደገና ተጀምረዋል። ዳግም ማስጀመር ጊዜ ተመሳሳይ ነው።

ለአደጋ የሚቋቋም ደመና፡ እንዴት እንደሚሰራ

የማከማቻ ስርዓቱ በአንድ ጣቢያ ላይ አልተሳካም. የማከማቻ ስርዓቱ በ OST ጣቢያ ላይ አልተሳካም እንበል። ከዚያ የ ESXi የOST ጣቢያ አስተናጋጆች በNORD ውስጥ ካሉ የማከማቻ ቅጂዎች ጋር ለመስራት ይቀየራሉ። ያልተሳካው የማከማቻ ስርዓት ወደ አገልግሎት ከተመለሰ በኋላ የግዳጅ ማባዛት ይከሰታል እና የ ESXi OST አስተናጋጆች እንደገና የአካባቢ ማከማቻ ስርዓቱን ማግኘት ይጀምራሉ።

ምናባዊ ማሽኖች በዚህ ጊዜ ሁሉ በመደበኛነት እየሰሩ ናቸው።

ለአደጋ የሚቋቋም ደመና፡ እንዴት እንደሚሰራ

ከጣቢያዎቹ አንዱ አልተሳካም። በዚህ አጋጣሚ ሁሉም ቨርቹዋል ማሽኖች በ vSphere HA ዘዴ በመጠባበቂያ ቦታ ላይ እንደገና ይጀመራሉ። የቪኤም ዳግም ማስጀመር ጊዜ 140 ሰከንድ ነው። በዚህ አጋጣሚ ሁሉም የቨርቹዋል ማሽኑ የአውታረ መረብ ቅንብሮች ይቀመጣሉ እና በአውታረ መረቡ ላይ ለደንበኛው ተደራሽ ሆኖ ይቆያል።

በመጠባበቂያው ቦታ ላይ የማሽኖች ዳግም ማስጀመር በተቀላጠፈ ሁኔታ መሄዱን ለማረጋገጥ እያንዳንዱ ጣቢያ በግማሽ የተሞላ ነው። ሁለተኛው አጋማሽ ሁሉም ቨርቹዋል ማሽኖች ከተጎዳው ከሁለተኛው ቦታ ቢንቀሳቀሱ መጠባበቂያ ነው።

ለአደጋ የሚቋቋም ደመና፡ እንዴት እንደሚሰራ

በሁለት የመረጃ ቋቶች ላይ የተመሰረተ አደጋን የሚቋቋም ደመና ከእንደዚህ አይነት ውድቀቶች ይከላከላል።

ይህ ደስታ ርካሽ አይደለም, ምክንያቱም ከዋናው ሀብቶች በተጨማሪ, በሁለተኛው ቦታ ላይ የመጠባበቂያ ክምችት ያስፈልጋል. ስለዚህ, የንግድ-ወሳኝ አገልግሎቶች በእንደዚህ ዓይነት ደመና ውስጥ ይቀመጣሉ, ለረጅም ጊዜ የሚቆይበት ጊዜ ትልቅ የገንዘብ እና ስም ኪሳራ ያስከትላል, ወይም የመረጃ ስርዓቱ ከአደጋ-መቋቋም መስፈርቶች ከተቆጣጠሪዎች ወይም የውስጥ ኩባንያ ደንቦች ተገዢ ከሆነ.

ምንጮች:

  1. www.infinidat.com/sites/default/files/resource-pdfs/DS-INFBOX-190331-US_0.pdf
  2. support.infinidat.com/hc/en-us/articles/207057109-InfiniBox-ምርጥ-ተግባር-መመሪያዎች

ምንጭ: hab.com

አስተያየት ያክሉ