امروز در مورد بهترین روش برای ذخیره دادهها در دنیایی صحبت خواهیم کرد که در آن شبکههای نسل پنجم، اسکنرهای ژنوم و خودروهای خودران بیشتر از کل بشریت تولید شده قبل از انقلاب صنعتی در روز دادههای بیشتری تولید میکنند.
دنیای ما در حال تولید اطلاعات بیشتر و بیشتر است. بخشی از آن زودگذر است و به همان سرعتی که جمع می شود از بین می رود. دیگری باید مدت بیشتری ذخیره شود، و دیگری حتی "قرن ها" طراحی شده است - حداقل این چیزی است که از زمان حال می بینیم. جریانهای اطلاعات در مراکز داده با چنان سرعتی مستقر میشوند که هر رویکرد جدید، هر فناوری که برای ارضای این «تقاضای» بیپایان طراحی شده باشد، به سرعت منسوخ میشود.
40 سال توسعه سیستم های ذخیره سازی توزیع شده
اولین ذخیره سازی شبکه به شکلی که ما با آن آشنا هستیم در دهه 1980 ظاهر شد. بسیاری از شما با NFS (سیستم فایل شبکه)، AFS (سیستم فایل اندرو) یا Coda برخورد کرده اید. یک دهه بعد، مد و تکنولوژی تغییر کرد و سیستم های فایل توزیع شده جای خود را به سیستم های ذخیره سازی خوشه ای مبتنی بر GPFS (سیستم فایل موازی عمومی)، CFS (سیستم های فایل خوشه ای) و StorNext دادند. ذخیره سازی بلوک معماری کلاسیک به عنوان پایه مورد استفاده قرار گرفت که در بالای آن یک سیستم فایل واحد با استفاده از یک لایه نرم افزار ایجاد شد. این و راه حل های مشابه هنوز مورد استفاده قرار می گیرند، جایگاه آنها را اشغال می کنند و کاملاً مورد تقاضا هستند.
در آغاز هزاره، الگوی ذخیره سازی توزیع شده تا حدودی تغییر کرد و سیستم هایی با معماری SN (هیچ چیز مشترک) موقعیت های پیشرو را به خود اختصاص دادند. انتقالی از ذخیره سازی خوشه ای به ذخیره سازی روی گره های جداگانه صورت گرفته است که معمولاً سرورهای کلاسیک با نرم افزارهایی بودند که ذخیره سازی قابل اعتماد را فراهم می کردند. بر اساس چنین اصولی، مثلاً، HDFS (سیستم فایل توزیع شده هادوپ) و GFS (سیستم فایل جهانی) ساخته شده اند.
نزدیک به دهه 2010، مفاهیم زیربنایی سیستم های ذخیره سازی توزیع شده به طور فزاینده ای در محصولات تجاری تمام عیار مانند VMware vSAN، Dell EMC Isilon و ما منعکس شد.
اپراتورهای مخابراتی
شاید یکی از قدیمی ترین مصرف کنندگان سیستم های ذخیره سازی توزیع شده اپراتورهای مخابراتی باشند. نمودار نشان می دهد که کدام گروه از برنامه ها حجم عمده ای از داده ها را تولید می کنند. OSS (سیستمهای پشتیبانی عملیات)، MSS (خدمات پشتیبانی مدیریت) و BSS (سیستمهای پشتیبانی کسبوکار) سه لایه نرمافزاری مکمل مورد نیاز برای ارائه خدمات به مشترکین، گزارشدهی مالی به ارائهدهنده و پشتیبانی عملیاتی از مهندسان اپراتور را نشان میدهند.
اغلب، داده های این لایه ها به شدت با یکدیگر مخلوط می شوند و برای جلوگیری از انباشته شدن کپی های غیر ضروری، از فضای ذخیره سازی توزیع شده استفاده می شود که کل اطلاعات دریافتی از شبکه عامل را جمع می کند. انبارها در یک استخر مشترک ترکیب شده اند که همه سرویس ها به آن دسترسی دارند.
محاسبات ما نشان میدهد که انتقال از سیستمهای ذخیرهسازی کلاسیک به سیستمهای ذخیرهسازی بلوکی به شما این امکان را میدهد که تنها با کنار گذاشتن سیستمهای ذخیرهسازی پیشرفته اختصاصی و استفاده از سرورهای معماری کلاسیک معمولی (معمولاً x70)، تا 86 درصد از بودجه را صرفهجویی کنید، که با همکاری با متخصصین کار میکنند. نرم افزار. اپراتورهای تلفن همراه از مدت ها قبل شروع به خرید چنین راه حل هایی در مقادیر زیاد کرده اند. به طور خاص، اپراتورهای روسی بیش از شش سال است که از چنین محصولاتی از هواوی استفاده می کنند.
بله، تعدادی از کارها را نمی توان با استفاده از سیستم های توزیع شده تکمیل کرد. به عنوان مثال، با افزایش الزامات عملکرد یا سازگاری با پروتکل های قدیمی تر. اما حداقل 70 درصد از داده های پردازش شده توسط اپراتور می تواند در یک استخر توزیع شده قرار گیرد.
بخش بانکی
در هر بانکی، سیستمهای فناوری اطلاعات مختلفی وجود دارد که از پردازش شروع میشود و به سیستم بانکی خودکار ختم میشود. این زیرساخت همچنین با حجم عظیمی از اطلاعات کار می کند، در حالی که اکثر وظایف نیازی به افزایش عملکرد و قابلیت اطمینان سیستم های ذخیره سازی ندارند، به عنوان مثال توسعه، آزمایش، اتوماسیون فرآیندهای اداری و غیره. در اینجا استفاده از سیستم های ذخیره سازی کلاسیک امکان پذیر است. اما هر سال سود آن کمتر و کمتر می شود. علاوه بر این، در این حالت هیچ گونه انعطافی در استفاده از منابع سیستم ذخیره سازی که عملکرد آن بر اساس پیک بار محاسبه می شود وجود ندارد.
هنگام استفاده از سیستم های ذخیره سازی توزیع شده، گره های آنها، که در واقع سرورهای معمولی هستند، می توانند در هر زمان، به عنوان مثال، به یک مزرعه سرور تبدیل شوند و به عنوان یک پلت فرم محاسباتی مورد استفاده قرار گیرند.
دریاچه های داده
نمودار بالا لیستی از مصرف کنندگان خدمات معمولی را نشان می دهد
استفاده از سیستمهای ذخیرهسازی کلاسیک برای حل چنین مشکلاتی بیاثر است، زیرا هم به دسترسی با کارایی بالا به بلوک پایگاههای داده و هم دسترسی منظم به کتابخانههای اسناد اسکن شده به عنوان اشیا نیاز دارد. به عنوان مثال، یک سیستم سفارش از طریق یک پورتال وب نیز می تواند در اینجا پیوند داده شود. برای پیاده سازی همه اینها بر روی یک پلت فرم ذخیره سازی کلاسیک، به مجموعه بزرگی از تجهیزات برای کارهای مختلف نیاز دارید. یک سیستم ذخیره سازی جهانی افقی ممکن است به خوبی تمام وظایف ذکر شده قبلی را پوشش دهد: فقط باید چندین استخر با ویژگی های ذخیره سازی مختلف در آن ایجاد کنید.
تولید کنندگان اطلاعات جدید
میزان اطلاعات ذخیره شده در جهان سالانه حدود 30 درصد در حال افزایش است. این خبر خوبی برای فروشندگان ذخیره سازی است، اما منبع اصلی این داده ها چیست و خواهد بود؟
ده سال پیش، شبکه های اجتماعی به چنین مولدهایی تبدیل شدند؛ این امر مستلزم ایجاد تعداد زیادی الگوریتم جدید، راه حل های سخت افزاری و غیره بود. اکنون سه محرک اصلی برای رشد حجم ذخیره سازی وجود دارد. اولین مورد محاسبات ابری است. در حال حاضر، تقریباً 70 درصد از شرکت ها از خدمات ابری به روشی استفاده می کنند. اینها میتوانند سیستمهای پست الکترونیکی، نسخههای پشتیبان و دیگر نهادهای مجازیسازی شده باشند.
درایور دوم شبکه های نسل پنجم است. اینها سرعت های جدید و حجم جدید انتقال داده است. طبق پیش بینی های ما، پذیرش گسترده 5G منجر به کاهش تقاضا برای کارت های حافظه فلش خواهد شد. هر چقدر هم که حافظه در گوشی وجود داشته باشد، باز هم تمام می شود و اگر گجت دارای کانال 100 مگابیتی باشد، نیازی به ذخیره عکس ها به صورت محلی نیست.
دسته سوم دلایلی که باعث می شود تقاضا برای سیستم های ذخیره سازی در حال رشد است، شامل توسعه سریع هوش مصنوعی، انتقال به تجزیه و تحلیل داده های بزرگ و گرایش به اتوماسیون جهانی هر چیزی است.
یکی از ویژگی های "ترافیک جدید" آن است
اقیانوس داده های بدون ساختار
ظهور "داده های جدید" چه مشکلاتی را به دنبال دارد؟ البته اولین مورد در میان آنها حجم بسیار زیاد اطلاعات و مدت تخمینی ذخیره آن است. یک خودروی مدرن بدون راننده به تنهایی روزانه تا 60 ترابایت داده را از تمام سنسورها و مکانیسم های خود تولید می کند. برای توسعه الگوریتم های حرکتی جدید، این اطلاعات باید در همان روز پردازش شوند، در غیر این صورت شروع به انباشتگی خواهند کرد. در عین حال، باید برای مدت بسیار طولانی - دهه ها - ذخیره شود. تنها در این صورت است که در آینده می توان بر اساس نمونه های تحلیلی بزرگ نتیجه گیری کرد.
یک دستگاه برای رمزگشایی توالی های ژنتیکی حدود 6 ترابایت در روز تولید می کند. و داده های جمع آوری شده با کمک آن به هیچ وجه به معنای حذف نیست، یعنی به طور فرضی باید برای همیشه ذخیره شود.
بالاخره همون شبکه های نسل پنجم. علاوه بر اطلاعات ارسالی واقعی، چنین شبکه ای خود یک تولید کننده عظیم داده است: گزارش های فعالیت، سوابق تماس، نتایج میانی تعاملات ماشین به ماشین و غیره.
همه اینها مستلزم توسعه رویکردها و الگوریتم های جدید برای ذخیره و پردازش اطلاعات است. و چنین رویکردهایی در حال ظهور هستند.
فناوری های عصر جدید
سه گروه از راه حل ها برای مقابله با الزامات جدید برای سیستم های ذخیره سازی اطلاعات طراحی شده اند: معرفی هوش مصنوعی، تکامل فنی رسانه های ذخیره سازی و نوآوری در زمینه معماری سیستم. بیایید با هوش مصنوعی شروع کنیم.
در راه حل های جدید هوآوی، هوش مصنوعی در سطح خود ذخیره سازی استفاده می شود که مجهز به یک پردازنده هوش مصنوعی است که به سیستم اجازه می دهد تا به طور مستقل وضعیت خود را تجزیه و تحلیل کند و خرابی ها را پیش بینی کند. اگر سیستم ذخیره سازی به یک ابر سرویس متصل شود که قابلیت محاسباتی قابل توجهی دارد، هوش مصنوعی قادر به پردازش اطلاعات بیشتر و افزایش دقت فرضیه های خود خواهد بود.
علاوه بر خرابی ها، چنین هوش مصنوعی می تواند اوج بار آینده و زمان باقی مانده تا اتمام ظرفیت را پیش بینی کند. این به شما امکان می دهد عملکرد را بهینه کنید و سیستم را قبل از وقوع هر گونه رویداد نامطلوب مقیاس کنید.
اکنون در مورد تکامل رسانه های ذخیره سازی. اولین درایوهای فلش با استفاده از فناوری SLC (Single-Level Cell) ساخته شدند. دستگاه های مبتنی بر آن سریع، قابل اعتماد، پایدار بودند، اما ظرفیت کمی داشتند و بسیار گران بودند. رشد حجم و کاهش قیمت از طریق امتیازات فنی خاصی حاصل شد که به همین دلیل سرعت، قابلیت اطمینان و عمر خدمات درایوها کاهش یافت. با این وجود، این روند بر خود سیستمهای ذخیرهسازی تأثیری نمیگذارد، که به دلیل ترفندهای مختلف معماری، عموماً سازندهتر و قابل اعتمادتر شدند.
اما چرا به سیستم های ذخیره سازی All-Flash نیاز داشتید؟ آیا جایگزین کردن هارد دیسک های قدیمی در یک سیستم عامل از قبل با SSD های جدید با همان شکل کافی نبود؟ این امر برای استفاده مؤثر از تمام منابع درایوهای حالت جامد جدید مورد نیاز بود، که در سیستم های قدیمی به سادگی غیرممکن بود.
به عنوان مثال هواوی برای حل این مشکل چندین فناوری توسعه داده است که یکی از آنها این است
شناسایی هوشمند امکان تجزیه داده ها به چندین جریان و مقابله با تعدادی از پدیده های نامطلوب مانند
خرابی، ازدحام بیش از حد، جمع آوری زباله - این عوامل نیز به لطف تغییرات ویژه در کنترلرها، دیگر بر عملکرد سیستم ذخیره سازی تأثیر نمی گذارد.
و ذخیرههای بلوک داده نیز در حال آماده شدن برای ملاقات هستند
مرحله بعدی توسعه فناوری که اکنون شاهد آن هستیم، استفاده از NVMe-oF (NVMe over Fabrics) است. در مورد فناوریهای بلاک هوآوی، آنها قبلاً از FC-NVMe (NVMe از طریق کانال فیبر) پشتیبانی میکنند و NVMe از طریق RoCE (RDMA از طریق اترنت همگرا) در راه است. مدل های آزمایشی کاملاً کاربردی هستند و چندین ماه تا ارائه رسمی آنها باقی مانده است. توجه داشته باشید که همه اینها در سیستم های توزیع شده ظاهر می شوند، جایی که "اترنت بدون ضرر" تقاضای زیادی خواهد داشت.
یک راه اضافی برای بهینه سازی عملکرد ذخیره سازی توزیع شده، کنار گذاشتن کامل انعکاس داده ها بود. راهحلهای هواوی دیگر مانند RAID 1 معمولی از n کپی استفاده نمیکنند و کاملاً به آن تغییر میکنند
مکانیسم های تکراری و فشرده سازی اجباری می شوند. اگر در سیستم های ذخیره سازی کلاسیک ما با تعداد پردازنده های نصب شده در کنترلرها محدود می شویم، در سیستم های ذخیره سازی مقیاس پذیر افقی توزیع شده، هر گره شامل همه چیز لازم است: دیسک، حافظه، پردازنده و اتصال. این منابع برای اطمینان از اینکه تکرار و فشرده سازی کمترین تأثیر را بر عملکرد دارند، کافی هستند.
و در مورد روش های بهینه سازی سخت افزار. در اینجا امکان کاهش بار روی پردازنده های مرکزی با کمک تراشه های اختصاصی اضافی (یا بلوک های اختصاصی در خود پردازنده) وجود داشت که نقش دارند.
رویکردهای جدید برای ذخیره سازی داده ها در یک معماری تفکیک شده (توزیع شده) تجسم یافته اند. سیستم های ذخیره سازی متمرکز دارای یک کارخانه سرور هستند که از طریق کانال فیبر به آن متصل است
برخلاف هر دو مورد فوق، یک معماری تفکیک شده دلالت دارد تقسیم سیستم به یک پارچه محاسباتی و یک سیستم ذخیره سازی افقی. این مزیت هر دو معماری را فراهم میکند و اجازه میدهد تا تنها عنصری که عملکردی ندارد، تقریباً نامحدود باشد.
از ادغام تا همگرایی
یک کار کلاسیک که ارتباط آن تنها در 15 سال گذشته افزایش یافته است، نیاز به فراهم کردن همزمان ذخیره سازی بلوک، دسترسی به فایل، دسترسی به اشیا، بهره برداری از یک مزرعه بزرگ داده و غیره است. به عنوان مثال، یک سیستم پشتیبان بر روی نوار مغناطیسی باشد.
در مرحله اول، تنها مدیریت این خدمات می تواند یکپارچه شود. سیستمهای ذخیرهسازی دادههای ناهمگن به برخی از نرمافزارهای تخصصی متصل شدند که از طریق آن مدیر منابع را از استخرهای موجود توزیع میکرد. اما از آنجایی که این استخرها سخت افزار متفاوتی داشتند، مهاجرت بار بین آنها غیرممکن بود. در سطح بالاتری از ادغام، تجمع در سطح دروازه رخ داد. اگر اشتراکگذاری فایل در دسترس بود، میتوان آن را از طریق پروتکلهای مختلف ارائه کرد.
پیشرفته ترین روش همگرایی که در حال حاضر در دسترس ما است، شامل ایجاد یک سیستم ترکیبی جهانی است. دقیقاً همان چیزی که مال ما باید شود
اکنون هزینه ذخیره سازی اطلاعات بسیاری از تصمیمات معماری را تعیین می کند. و اگرچه می توان آن را با خیال راحت در خط مقدم قرار داد، امروز ما در مورد ذخیره سازی "زنده" با دسترسی فعال بحث می کنیم، بنابراین عملکرد نیز باید در نظر گرفته شود. یکی دیگر از ویژگی های مهم سیستم های توزیع شده نسل بعدی یکسان سازی است. به هر حال، هیچ کس نمی خواهد چندین سیستم متفاوت از کنسول های مختلف کنترل شود. تمامی این ویژگی ها در سری جدید محصولات هوآوی تجسم یافته است
سیستم ذخیره سازی انبوه نسل جدید
OceanStor Pacific الزامات قابلیت اطمینان شش و نه (99,9999٪) را برآورده می کند و می تواند برای ایجاد مراکز داده کلاس HyperMetro استفاده شود. با فاصله بین دو مرکز داده تا 100 کیلومتر، سیستمها تأخیر اضافی 2 میلیثانیه را نشان میدهند که امکان ساخت راهحلهای مقاوم در برابر بلایا را بر اساس آنها، از جمله راهحلهای دارای سرورهای حد نصاب، ممکن میسازد.
محصولات سری جدید تطبیق پذیری پروتکل را نشان می دهند. در حال حاضر، OceanStor 100D از دسترسی بلوک، دسترسی به شی و دسترسی Hadoop پشتیبانی می کند. دسترسی به فایل نیز در آینده نزدیک اجرا خواهد شد. در صورتی که داده ها از طریق پروتکل های مختلف صادر شوند، نیازی به ذخیره کپی های متعدد نیست.
به نظر می رسد، مفهوم "شبکه بدون ضرر" چه ارتباطی با سیستم های ذخیره سازی دارد؟ واقعیت این است که سیستم های ذخیره سازی داده های توزیع شده بر اساس یک شبکه سریع ساخته شده اند که از الگوریتم های مناسب و مکانیزم RoCE پشتیبانی می کند. سیستم هوش مصنوعی پشتیبانی شده توسط سوئیچ های ما به افزایش بیشتر سرعت شبکه و کاهش تاخیر کمک می کند.
گره ذخیره سازی توزیع شده جدید OceanStor Pacific چیست؟ راه حل فرم فاکتور 5U شامل 120 درایو است و می تواند جایگزین سه گره کلاسیک شود که باعث صرفه جویی بیش از دو برابری در فضای رک می شود. با ذخیره نکردن کپی ها، کارایی درایوها به طور قابل توجهی افزایش می یابد (تا +92٪).
ما به این واقعیت عادت کردهایم که ذخیرهسازی نرمافزاری، نرمافزار ویژهای است که روی یک سرور کلاسیک نصب میشود. اما اکنون برای دستیابی به پارامترهای بهینه، این راه حل معماری به گره های خاصی نیز نیاز دارد. این شامل دو سرور مبتنی بر پردازنده های ARM است که مجموعه ای از درایوهای سه اینچی را مدیریت می کنند.
این سرورها برای راه حل های hyperconverged مناسب نیستند. اولاً، برنامه های بسیار کمی برای ARM وجود دارد و ثانیاً حفظ تعادل بار دشوار است. پیشنهاد ما انتقال به فضای ذخیرهسازی جداگانه است: یک خوشه محاسباتی، که توسط سرورهای کلاسیک یا رک نشان داده میشود، به طور جداگانه عمل میکند، اما به گرههای ذخیرهسازی OceanStor Pacific متصل است، که وظایف مستقیم خود را نیز انجام میدهند. و خودش را توجیه می کند.
به عنوان مثال، بیایید یک راه حل کلاسیک ذخیره سازی کلان داده را با یک سیستم ابرهمگرا که 15 رک سرور را اشغال می کند، در نظر بگیریم. اگر بار را بین سرورهای محاسباتی جداگانه و گره های ذخیره سازی OceanStor Pacific توزیع کنید و آنها را از یکدیگر جدا کنید، تعداد رک های مورد نیاز نصف می شود! این امر هزینه های عملیاتی مرکز داده را کاهش می دهد و هزینه کل مالکیت را کاهش می دهد. در دنیایی که حجم اطلاعات ذخیره شده سالانه 30 درصد در حال افزایش است، چنین مزیت هایی وجود ندارد.
***
میتوانید اطلاعات بیشتری در مورد راهحلهای Huawei و سناریوهای کاربردی آنها در ما دریافت کنید
منبع: www.habr.com