تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

سلام به همه! با این مقاله، AERODISK یک وبلاگ در Habré باز می کند. هورای، رفقا!

مقالات قبلی در Habré سوالاتی در مورد معماری و پیکربندی اولیه سیستم های ذخیره سازی مورد بحث قرار دادند. در این مقاله سؤالی را بررسی خواهیم کرد که قبلاً پوشش داده نشده است، اما اغلب پرسیده می شود - در مورد تحمل خطا در سیستم های ذخیره سازی موتور AERODISK. تیم ما همه چیز را انجام خواهد داد تا اطمینان حاصل شود که سیستم ذخیره سازی AERODISK کار نمی کند، یعنی. آن را بشکن

این اتفاق افتاد که مقالاتی در مورد تاریخچه شرکت ما، در مورد محصولات ما و همچنین نمونه ای از اجرای موفقیت آمیز قبلاً در هابره آویزان شده است. با تشکر فراوان از شرکای ما - شرکت های TS Solution و Softline.

بنابراین، من مهارت های مدیریت کپی پیست را در اینجا آموزش نمی دهم، بلکه به سادگی پیوندهایی به اصل این مقالات ارائه خواهم کرد:

من همچنین می خواهم یک خبر خوب را به اشتراک بگذارم. اما من البته با مشکل شروع می کنم. ما به عنوان یک فروشنده جوان، در کنار سایر هزینه ها، دائماً با این واقعیت روبرو هستیم که بسیاری از مهندسان و مدیران به سادگی نمی دانند که چگونه سیستم ذخیره سازی خود را به درستی کار کنند.
واضح است که مدیریت اکثر سیستم های ذخیره سازی از دیدگاه مدیر تقریباً یکسان به نظر می رسد، اما هر سازنده ویژگی های خاص خود را دارد. و ما در اینجا مستثنی نیستیم.

بنابراین، به منظور ساده سازی کار آموزش متخصصان فناوری اطلاعات، تصمیم گرفتیم امسال را به آموزش رایگان اختصاص دهیم. برای انجام این کار، در بسیاری از شهرهای بزرگ روسیه، ما شبکه ای از مراکز صلاحیت AERODISK را افتتاح می کنیم، که در آن هر متخصص فنی علاقه مند می تواند یک دوره کاملاً رایگان را بگذراند و گواهی مدیریت سیستم های ذخیره سازی موتور AERODISK را دریافت کند.

در هر مرکز صلاحیت، ما یک پایه نمایشی کامل از سیستم ذخیره سازی AERODISK و یک سرور فیزیکی نصب می کنیم که معلم ما آموزش های حضوری را روی آن انجام می دهد. ما برنامه کاری مراکز صلاحیت را به محض ظهور منتشر خواهیم کرد، اما قبلاً یک مرکز در نیژنی نووگورود افتتاح کرده ایم و شهر کراسنودار در رتبه بعدی قرار دارد. با استفاده از لینک های زیر می توانید در آموزش ثبت نام کنید. در اینجا اطلاعات شناخته شده در مورد شهرها و تاریخ ها وجود دارد:

  • نیژنی نووگورود (از قبل باز است - می توانید در اینجا ثبت نام کنید https://aerodisk.promo/nn/);
    تا 16 آوریل 2019 می توانید در هر ساعت کاری به مرکز مراجعه کنید و در 16 آوریل 2019 یک دوره آموزشی بزرگ برگزار می شود.
  • کراسنودار (به زودی باز می شود - می توانید در اینجا ثبت نام کنید https://aerodisk.promo/krsnd/ );
    از 9 آوریل تا 25 آوریل 2019 می توانید در هر ساعت کاری به مرکز مراجعه کنید و در 25 آوریل 2019 یک دوره آموزشی بزرگ برگزار می شود.
  • یکاترینبورگ (به زودی باز می شود، اطلاعات را در وب سایت ما یا در Habré دنبال کنید).
    مه-ژوئن 2019.
  • نووسیبیرسک (اطلاعات را در وب سایت ما یا در Habré دنبال کنید)؛
    اکتبر 2019
  • کراسنویارسک (اطلاعات را در وب سایت ما یا در Habré دنبال کنید)؛
    نوامبر 2019

و البته، اگر مسکو از شما دور نیست، در هر زمان می توانید از دفتر ما در مسکو دیدن کنید و آموزش های مشابهی را پشت سر بگذارید.

همه. ما کار بازاریابی را تمام کردیم، بیایید به سمت فناوری حرکت کنیم!

در Habré ما به طور منظم مقالات فنی در مورد محصولات خود، آزمایش های بارگذاری، مقایسه ها، ویژگی های استفاده و پیاده سازی های جالب منتشر خواهیم کرد.

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

هشدار! پس از خواندن مقاله، می توانید بگویید: خوب، البته، فروشنده خودش را بررسی می کند تا همه چیز "با صدای بلند"، شرایط گلخانه و غیره کار کند. من جواب می دهم: هیچ چیز مانند آن! برخلاف رقبای خارجی خود، ما در اینجا نزدیک به شما واقع شده‌ایم و شما همیشه می‌توانید (در مسکو یا هر کمیته مرکزی) به ما مراجعه کنید و سیستم ذخیره‌سازی ما را به هر طریقی تست کنید. بنابراین، برای ما چندان منطقی نیست که نتایج را با یک تصویر ایده آل از جهان تنظیم کنیم، زیرا بررسی ما بسیار آسان است. برای کسانی که خیلی تنبل هستند و وقت ندارند، می توانیم آزمایش از راه دور را سازماندهی کنیم. ما یک آزمایشگاه ویژه برای این کار داریم. با ما تماس بگیرید.

ACHTUNG-2! این تست یک تست بار نیست، زیرا در اینجا ما فقط به تحمل خطا اهمیت می دهیم. ظرف چند هفته، ما یک پایه قدرتمندتر آماده خواهیم کرد و آزمایش بار سیستم ذخیره سازی را انجام خواهیم داد و نتایج را در اینجا منتشر خواهیم کرد (به هر حال، درخواست آزمایش پذیرفته می شود).

بنابراین، بیایید آن را بشکنیم.

پایه تست

غرفه ما از سخت افزارهای زیر تشکیل شده است:

  • 1 عدد سیستم ذخیره سازی Aerodisk Engine N2 (2 کنترلر، 64 گیگابایت حافظه نهان، 8 پورت FC 8 گیگابیت بر ثانیه، 4 پورت اترنت 10 گیگابیت بر ثانیه SFP+، 4 پورت اترنت 1 گیگابیت بر ثانیه). دیسک های زیر در سیستم ذخیره سازی نصب شده اند:
  • 4 عدد دیسک SAS SSD 900 گیگابایت؛
  • 12 x SAS 10k دیسک 1,2 ترابایت؛
  • 1 عدد سرور فیزیکی با ویندوز سرور 2016 (2xXeon E5 2667 v3، 96 گیگابایت رم، 2 پورت xFC 8 گیگابیت بر ثانیه، 2 پورت اترنت 10 گیگابیت بر ثانیه SFP+)؛
  • سوئیچ 2 x SAN 8G;
  • 2 سوئیچ LAN 10G;

ما سرور را از طریق سوئیچ ها از طریق اترنت FC و 10G به سیستم ذخیره سازی متصل کردیم. نمودار پایه در زیر آمده است.

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

اجزای مورد نیاز ما مانند MPIO و iSCSI initiator روی ویندوز سرور نصب می شوند.
مناطق روی سوئیچ‌های FC پیکربندی می‌شوند، VLAN‌های مربوطه روی سوئیچ‌های LAN پیکربندی می‌شوند، و MTU 9000 روی پورت‌های ذخیره‌سازی، سوئیچ‌ها و میزبان نصب می‌شود (نحوه انجام همه این‌ها در مستندات ما توضیح داده شده است، بنابراین ما توضیح نمی‌دهیم. این فرآیند در اینجا).

روش آزمون

طرح تست تصادف به شرح زیر است:

  • بررسی خرابی پورت های FC و Ethernet.
  • بررسی قطعی برق
  • بررسی خرابی کنترلر
  • بررسی خرابی دیسک در یک گروه/پول.

تمام آزمایشات تحت شرایط بار مصنوعی انجام می شود که توسط برنامه IOMETER تولید می کنیم. به موازات آن، آزمایشات مشابهی را انجام خواهیم داد، اما در شرایط کپی فایل های حجیم در سیستم ذخیره سازی.

پیکربندی IOmeter به شرح زیر است:

  • خواندن/نوشتن – 70/30
  • بلوک - 128k (ما تصمیم گرفتیم سیستم های ذخیره سازی را در بلوک های بزرگ بشوییم)
  • تعداد نخ ها - 128 (که بسیار شبیه بار تولیدی است)
  • کاملا تصادفی
  • تعداد کارگران - 4 (2 برای FC، 2 برای iSCSI)

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت
تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

این آزمون دارای اهداف زیر است:

  1. اطمینان حاصل کنید که فرآیند بارگذاری و کپی مصنوعی باعث وقفه یا ایجاد خطا در سناریوهای مختلف خرابی نمی شود.
  2. اطمینان حاصل کنید که فرآیند تعویض پورت ها، کنترلرها و غیره به اندازه کافی خودکار است و در صورت خرابی نیازی به اقدامات مدیر نیست (یعنی در هنگام خرابی، ما در مورد Failback صحبت نمی کنیم).
  3. اطمینان حاصل کنید که اطلاعات موجود در گزارش ها به درستی نمایش داده می شوند.

آماده سازی هاست و سیستم ذخیره سازی

ما دسترسی بلوک را در سیستم ذخیره سازی با استفاده از پورت های FC و اترنت (به ترتیب FC و iSCSI) پیکربندی کردیم. بچه های TS Solution به طور مفصل نحوه انجام این کار را در مقاله قبلی توضیح دادند (https://habr.com/ru/company/tssolution/blog/432876/). و البته هیچ کس کتابچه راهنما و دوره ها را لغو نکرد.

ما با استفاده از تمام درایوهایی که داشتیم یک گروه هیبریدی راه اندازی کردیم. 2 دیسک SSD به حافظه پنهان، 2 دیسک SSD به عنوان یک لایه ذخیره سازی اضافی (Online-tier) اضافه شد. ما 12 درایو SAS10k را در RAID-60P (تعادل سه گانه) گروه بندی کردیم تا خرابی سه درایو را در گروه به طور همزمان بررسی کنیم. یک دیسک برای جایگزینی خودکار باقی مانده است.

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

ما دو LUN را وصل کردیم (یکی از طریق FC، یکی از طریق iSCSI).

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

مالک هر دو LUN کنترل کننده Engine-0 است

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

بیایید امتحان را شروع کنیم

ما IOMETER را با پیکربندی بالا فعال می کنیم.

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

ما یک توان عملیاتی 1.8 گیگابایت بر ثانیه و تاخیر 3 میلی ثانیه را ثبت می کنیم. هیچ خطایی وجود ندارد (تعداد کل خطا).

در همان زمان، از درایو محلی "C" میزبان خود، به طور موازی شروع به کپی کردن دو فایل بزرگ 100 گیگابایتی در LUN های ذخیره سازی FC و iSCSI (درایوهای E و G در ویندوز) با استفاده از رابط های دیگر می کنیم.

در بالا فرآیند کپی در LUN FC، در زیر به iSCSI آمده است.

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

تست شماره 1: غیرفعال کردن پورت های ورودی/خروجی

از پشت به سیستم ذخیره سازی نزدیک می شویم))) و با یک حرکت جزئی دست تمام کابل های FC و Ethernet 10G را از کنترلر Engine-0 بیرون می آوریم. انگار یک خانم نظافتچی با یک دستشویی از کنارش رد شده و تصمیم گرفته است که زمین را دقیقاً در جایی که شیار و کابل ها قرار دارد بشویید (یعنی کنترلر هنوز کار می کند، اما پورت های I/O خاموش هستند).

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

بیایید به IOMETER و کپی کردن فایل ها نگاه کنیم. توان خروجی به 0,5 گیگابایت در ثانیه کاهش یافت، اما به سرعت به سطح قبلی خود بازگشت (در حدود 4-5 ثانیه). هیچ خطایی وجود ندارد.

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

کپی کردن فایل ها متوقف نشده است، سرعت کاهش یافته است، اما اصلا مهم نیست (از 840 مگابایت بر ثانیه به 720 مگابایت در ثانیه کاهش یافته است). کپی متوقف نشده است

ما به گزارش های سیستم ذخیره سازی نگاه می کنیم و پیامی در مورد در دسترس نبودن پورت ها و جابجایی خودکار گروه می بینیم.

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

پنل اطلاعات همچنین به ما می گوید که همه چیز با پورت های FC خیلی خوب نیست.

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

سیستم ذخیره سازی از خرابی درگاه های ورودی/خروجی جان سالم به در برد با موفقیت.

تست شماره 2. غیرفعال کردن کنترلر ذخیره سازی

تقریباً بلافاصله (پس از اینکه کابل ها را دوباره به سیستم ذخیره سازی وصل کردیم) تصمیم گرفتیم که سیستم ذخیره سازی را با بیرون کشیدن کنترلر از شاسی به پایان برسانیم.

دوباره از پشت به سیستم ذخیره سازی نزدیک می شویم (ما آن را دوست داشتیم)) و این بار کنترل کننده Engine-1 را که در این لحظه صاحب RDG است (که گروه به آن منتقل شد) بیرون می آوریم.

وضعیت در IOmeter به شرح زیر است. ورودی/خروجی حدود 5 ثانیه متوقف شد. خطاها جمع نمی شوند.

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

پس از 5 ثانیه، I/O با تقریباً همان توان عملیاتی، اما با تأخیر 35 میلی ثانیه از سر گرفته شد (تأخیرها پس از حدود چند دقیقه اصلاح شدند). همانطور که از اسکرین شات ها مشخص است، مقدار Total Error count 0 است، یعنی هیچ خطایی در نوشتن یا خواندن وجود ندارد.

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

بیایید به کپی کردن فایل های خود نگاه کنیم. همانطور که می بینید، قطع نشد، عملکرد کمی کاهش یافت، اما در کل همه چیز به همان ~ 800 مگابایت بر ثانیه بازگشت.

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

به سیستم ذخیره سازی می رویم و در پنل اطلاعات یک نفرین می بینیم که کنترلر Engine-1 در دسترس نیست (البته ما آن را کشتیم).

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

همچنین یک ورودی مشابه را در لاگ ها مشاهده می کنیم.

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

کنترلر ذخیره سازی نیز از خرابی جان سالم به در برد با موفقیت.

تست شماره 3: قطع برق.

فقط در مورد، ما دوباره شروع به کپی کردن فایل ها کردیم، اما IOMETER را متوقف نکردیم.
ما واحد منبع تغذیه را می کشیم.

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

هشدار دیگری به سیستم ذخیره سازی در پنل اطلاعات اضافه شده است.

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

همچنین در منوی سنسورها می بینیم که سنسورهای مرتبط با منبع تغذیه خارج شده قرمز شده اند.

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

سیستم ذخیره سازی به کار خود ادامه می دهد. خرابی واحد منبع تغذیه به هیچ وجه بر عملکرد سیستم ذخیره سازی تأثیر نمی گذارد؛ از نظر میزبان، نشانگرهای سرعت کپی و IOMETER بدون تغییر باقی ماندند.

تست قطع برق قبول شد با موفقیت.

قبل از تست نهایی تصمیم گرفتیم که سیستم ذخیره سازی را کمی زنده کنیم و کنترلر و منبع تغذیه را دوباره برگردانیم و کابل ها را نیز مرتب کنیم که سیستم ذخیره سازی با آیکون های سبز رنگ در پنل سلامت خود ما را با خوشحالی آگاه کرد. .

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

تست شماره 4. خرابی سه دیسک در یک گروه

قبل از این آزمایش، یک مرحله آماده سازی اضافی را انجام دادیم. واقعیت این است که سیستم ذخیره سازی ENGINE چیز بسیار مفیدی را ارائه می دهد - سیاست های بازسازی متفاوت. TS Solution قبلاً در مورد این ویژگی نوشته بود، اما اجازه دهید ماهیت آن را یادآوری کنیم. مدیر فضای ذخیره سازی می تواند اولویت تخصیص منابع را در حین بازسازی مشخص کند. یا در جهت عملکرد ورودی/خروجی، یعنی بازسازی بیشتر طول می کشد، اما هیچ کاهش عملکردی وجود ندارد. یا در جهت سرعت بازسازی، اما بهره وری کاهش می یابد. یا یک گزینه متعادل. از آنجایی که عملکرد ذخیره سازی در طول بازسازی گروه دیسک همیشه دردسر ادمین است، ما سیاستی را با تعصب نسبت به عملکرد ورودی/خروجی و به قیمت کاهش سرعت بازسازی آزمایش خواهیم کرد.

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

حالا بیایید خرابی دیسک را بررسی کنیم. ما همچنین ضبط در LUN ها (فایل ها و IOMETER) را فعال می کنیم. از آنجایی که ما یک گروه با برابری سه گانه (RAID-60P) داریم، به این معنی است که سیستم باید در برابر خرابی سه دیسک مقاومت کند و پس از خرابی، تعویض خودکار باید کار کند، یک دیسک باید جای یکی از دیسک های خراب را بگیرد. در RDG، و بازسازی باید روی آن آغاز شود.

شروع. ابتدا، از طریق رابط ذخیره‌سازی، دیسک‌هایی را که می‌خواهیم بیرون بیاوریم برجسته می‌کنیم (تا دیسک تغییر خودکار را از دست ندهیم و نکشیم).

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

نشان روی سخت افزار را بررسی می کنیم. همه چیز اوکی است، ما سه دیسک هایلایت شده را می بینیم.

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

و این سه دیسک را بیرون می آوریم.

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

بیایید به آنچه در میزبان است نگاه کنیم. و آنجا... اتفاق خاصی نیفتاد.

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت
تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

نشانگرهای کپی (بالاتر از ابتدا هستند، زیرا حافظه نهان گرم شده است) و IOMETER هنگام برداشتن دیسک ها و شروع بازسازی (در عرض 5-10٪) تغییر زیادی نمی کنند.

بیایید به آنچه در سیستم ذخیره سازی وجود دارد نگاه کنیم.

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

در وضعیت گروه شاهد هستیم که روند بازسازی آغاز شده و رو به اتمام است.

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

در اسکلت RDG می توانید ببینید که 2 دیسک در وضعیت قرمز قرار دارند و یکی قبلاً جایگزین شده است. دیسک جایگزین خودکار دیگر وجود ندارد؛ آن جایگزین دیسک سوم شکست خورده شد. بازسازی چند دقیقه طول کشید، نوشتن فایل‌ها در صورت خرابی 3 دیسک قطع نشد و عملکرد ورودی/خروجی تغییر چندانی نکرد.

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

تست های تصادف سیستم ذخیره سازی AERODISK ENGINE N2، تست قدرت

تست خرابی دیسک قطعا قبول شد با موفقیت.

نتیجه

در این مرحله، ما تصمیم گرفتیم که خشونت علیه سیستم های ذخیره سازی را متوقف کنیم. بیایید خلاصه کنیم:

  • بررسی خرابی پورت FC - موفقیت آمیز
  • بررسی خرابی پورت اترنت - موفقیت آمیز
  • بررسی خرابی کنترلر - موفقیت آمیز
  • تست خرابی برق - موفقیت آمیز
  • بررسی خرابی دیسک در grouppool - موفقیت آمیز

هیچ‌کدام از خرابی‌ها ضبط را متوقف نکردند یا باعث خطا در بار مصنوعی نشدند؛ البته یک ضربه عملکرد وجود داشت (و ما می‌دانیم چگونه بر آن غلبه کنیم که به زودی انجام خواهیم داد) اما با توجه به اینکه این ثانیه‌ها هستند، کاملاً قابل قبول است. نتیجه‌گیری: تحمل خطا تمامی اجزای سیستم ذخیره‌سازی AERODISK در سطحی کار می‌کند، هیچ نقطه‌ای از خرابی وجود ندارد.

بدیهی است که در یک مقاله نمی توانیم همه سناریوهای شکست را آزمایش کنیم، اما سعی کردیم محبوب ترین آنها را پوشش دهیم. لذا خواهشمند است نظرات، پیشنهادات خود را برای انتشارات بعدی و البته انتقادات کافی را ارسال فرمایید. ما خوشحال خواهیم شد که بحث کنیم (یا بهتر است به آموزش بیایید، من برنامه را برای هر موردی کپی می کنم)! تا تست های جدید!

  • نیژنی نووگورود (از قبل باز است - می توانید در اینجا ثبت نام کنید https://aerodisk.promo/nn/);
    تا 16 آوریل 2019 می توانید در هر ساعت کاری به مرکز مراجعه کنید و در 16 آوریل 2019 یک دوره آموزشی بزرگ برگزار می شود.
  • کراسنودار (به زودی باز می شود - می توانید در اینجا ثبت نام کنید https://aerodisk.promo/krsnd/ );
    از 9 آوریل تا 25 آوریل 2019 می توانید در هر ساعت کاری به مرکز مراجعه کنید و در 25 آوریل 2019 یک دوره آموزشی بزرگ برگزار می شود.
  • یکاترینبورگ (به زودی باز می شود، اطلاعات را در وب سایت ما یا در Habré دنبال کنید).
    مه-ژوئن 2019.
  • نووسیبیرسک (اطلاعات را در وب سایت ما یا در Habré دنبال کنید)؛
    اکتبر 2019
  • کراسنویارسک (اطلاعات را در وب سایت ما یا در Habré دنبال کنید)؛
    نوامبر 2019

منبع: www.habr.com

اضافه کردن نظر