مقاييس تخزين الكائنات الجديدة

مقاييس تخزين الكائنات الجديدةالقلعة الطائرة من تأليف نيلي دييل

أمر تخزين الكائنات S3 Mail.ru التخزين السحابي قم بترجمة مقال حول المعايير المهمة عند اختيار تخزين الكائنات. وفيما يلي النص من وجهة نظر المؤلف.

عندما يتعلق الأمر بتخزين الكائنات، يفكر الأشخاص عادةً في شيء واحد فقط: السعر لكل تيرابايت/جيجابايت. بالطبع، هذا المقياس مهم، لكنه يجعل النهج أحادي الجانب ويساوي بين تخزين الكائنات وأداة تخزين الأرشيف. بالإضافة إلى ذلك، يقلل هذا الأسلوب من أهمية تخزين الكائنات لمجموعة تكنولوجيا المؤسسة.

عند اختيار تخزين الكائنات، يجب عليك الانتباه إلى خمس خصائص:

  • الأداء؛
  • قابلية التوسع؛
  • متوافق مع S3؛
  • الاستجابة للفشل.
  • نزاهة.

تعتبر هذه الخصائص الخمس مقاييس جديدة لتخزين الكائنات، بالإضافة إلى التكلفة. دعونا ننظر إليهم جميعا.

أداء

مخازن الكائنات التقليدية تفتقر إلى الأداء. لقد ضحى مقدمو الخدمات بها باستمرار سعيًا وراء الأسعار المنخفضة. ومع ذلك، مع تخزين الكائنات الحديثة، تختلف الأمور.

تقترب أنظمة التخزين المختلفة من سرعة Hadoop أو تتجاوزها. المتطلبات الحديثة لسرعات القراءة والكتابة: من 10 جيجابايت/ثانية لمحركات الأقراص الصلبة، حتى 35 جيجابايت/ثانية لـ NVMe. 

تعتبر هذه الإنتاجية كافية لـ Spark وPresto وTensorflow وTeradata وVertica وSplunk وأطر الحوسبة الحديثة الأخرى في مجموعة التحليلات. تشير حقيقة تكوين قواعد بيانات MPP لتخزين الكائنات إلى أنه يتم استخدامها بشكل متزايد كمخزن أساسي.

إذا كان نظام التخزين الخاص بك لا يوفر السرعة التي تحتاجها، فلن تتمكن من استخدام البيانات واستخراج القيمة منها. حتى إذا قمت باسترداد البيانات من تخزين الكائنات إلى بنية معالجة في الذاكرة، فستظل بحاجة إلى عرض النطاق الترددي لنقل البيانات من الذاكرة وإليها. لا تحتوي متاجر الكائنات القديمة على ما يكفي منها.

هذه هي النقطة الأساسية: مقياس الأداء الجديد هو الإنتاجية، وليس الكمون. إنه مطلوب للبيانات على نطاق واسع وهو المعيار في البنية التحتية الحديثة للبيانات.

على الرغم من أن المعايير هي طريقة جيدة لتحديد الأداء، إلا أنه لا يمكن قياسها بدقة قبل تشغيل التطبيق في البيئة. فقط بعد ذلك يمكنك تحديد مكان عنق الزجاجة بالضبط: في البرامج أو الأقراص أو الشبكة أو على مستوى الحوسبة.

التدرجية

تشير قابلية التوسع إلى عدد البيتابايت التي تتناسب مع مساحة اسم واحدة. ما يدعيه البائعون هو سهولة التوسع، وما لا يقولونه هو أنه مع التوسع، تصبح الأنظمة المتجانسة الضخمة هشة ومعقدة وغير مستقرة ومكلفة.

المقياس الجديد لقابلية التوسع هو عدد مساحات الأسماء أو العملاء الذين يمكنك خدمتهم. يتم أخذ المقياس مباشرة من أجهزة القياس الفائقة، حيث تكون وحدات التخزين الأساسية صغيرة ولكنها تصل إلى مليارات الوحدات. بشكل عام، هذا مقياس سحابي.

عندما تكون الكتل البرمجية الإنشائية صغيرة، يكون من الأسهل تحسينها من حيث الأمان والتحكم في الوصول وإدارة السياسات وإدارة دورة الحياة والتحديثات غير المتقطعة. وفي النهاية ضمان الإنتاجية. إن حجم كتلة البناء هو دالة على إمكانية التحكم في منطقة الفشل، وهي الطريقة التي يتم بها بناء الأنظمة عالية المرونة.

تعدد الإيجار له العديد من الخصائص. بينما يتحدث البعد عن كيفية توفير المؤسسات للوصول إلى البيانات والتطبيقات، فإنه يشير أيضًا إلى التطبيقات نفسها والمنطق الكامن وراء عزلها عن بعضها البعض.

خصائص النهج الحديث لتعدد العملاء:

  • في وقت قصير، يمكن أن ينمو عدد العملاء من عدة مئات إلى عدة ملايين.
  • العملاء معزولون تمامًا عن بعضهم البعض. يتيح لهم ذلك تشغيل إصدارات مختلفة من نفس البرنامج وتخزين الكائنات بتكوينات وأذونات وميزات ومستويات أمان وصيانة مختلفة. يعد ذلك ضروريًا عند التوسع في الخوادم والتحديثات والمناطق الجغرافية الجديدة.
  • التخزين قابل للتطوير بشكل مرن، ويتم توفير الموارد عند الطلب.
  • يتم التحكم في كل عملية بواسطة واجهة برمجة التطبيقات (API) ويتم تشغيلها آليًا دون تدخل بشري.
  • يمكن استضافة البرامج في حاويات واستخدام أنظمة التنسيق القياسية مثل Kubernetes.

متوافق مع S3

تعد Amazon S3 API المعيار الفعلي لتخزين الكائنات. يدعي كل بائع برامج تخزين الكائنات التوافق معه. التوافق مع S3 هو ثنائي: إما أنه مطبق بالكامل أو لا.

من الناحية العملية، هناك المئات أو الآلاف من سيناريوهات الحافة حيث يحدث خطأ ما عند استخدام تخزين الكائنات. خاصة من مقدمي البرامج والخدمات الاحتكارية. حالات الاستخدام الرئيسية هي الأرشفة المباشرة أو النسخ الاحتياطي، لذلك هناك أسباب قليلة لاستدعاء واجهة برمجة التطبيقات (API)، وحالات الاستخدام متجانسة.

تتمتع البرمجيات مفتوحة المصدر بمزايا كبيرة. وهو يغطي معظم سيناريوهات الحافة، نظرًا لحجم وتنوع التطبيقات وأنظمة التشغيل وبنيات الأجهزة.

كل هذا مهم لمطوري التطبيقات، لذلك من المفيد اختبار التطبيق مع موفري التخزين. المصدر المفتوح يجعل العملية أسهل - من الأسهل فهم النظام الأساسي المناسب لتطبيقك. يمكن استخدام الموفر كنقطة دخول واحدة إلى التخزين، مما يعني أنه سيلبي احتياجاتك. 

المصدر المفتوح يعني: التطبيقات غير مرتبطة ببائع وتكون أكثر شفافية. وهذا يضمن دورة حياة طويلة للتطبيق.

وبعض الملاحظات الإضافية حول المصدر المفتوح وS3. 

إذا كنت تقوم بتشغيل تطبيق بيانات ضخمة، فإن S3 SELECT يعمل على تحسين الأداء والكفاءة بمقدار كبير. يقوم بذلك عن طريق استخدام SQL لاسترداد الكائنات التي تحتاجها من التخزين فقط.

النقطة الأساسية هي دعم إشعارات الجرافة. تعمل إشعارات الجرافة على تسهيل الحوسبة بدون خادم، وهو مكون مهم في أي بنية خدمات صغيرة يتم تقديمها كخدمة. نظرًا لأن تخزين الكائنات هو تخزين سحابي فعال، تصبح هذه الإمكانية بالغة الأهمية عندما يتم استخدام تخزين الكائنات بواسطة التطبيقات المستندة إلى السحابة.

أخيرًا، يجب أن يدعم تطبيق S3 واجهات برمجة تطبيقات التشفير من جانب الخادم Amazon S3: SSE-C، وSSE-S3، وSSE-KMS. والأفضل من ذلك، أن S3 يدعم الحماية من العبث الآمنة حقًا. 

الرد على الإخفاقات

المقياس الذي ربما يتم تجاهله غالبًا هو كيفية تعامل النظام مع حالات الفشل. تحدث حالات الفشل لعدة أسباب، ويجب أن يتعامل تخزين الكائنات معها جميعًا.

على سبيل المثال، هناك نقطة فشل واحدة، ومقياسها هو صفر.

لسوء الحظ، تستخدم العديد من أنظمة تخزين الكائنات عقدًا خاصة يجب تمكينها حتى تعمل المجموعة بشكل صحيح. يتضمن ذلك عقد الأسماء أو خوادم البيانات التعريفية - مما يؤدي إلى إنشاء نقطة فشل واحدة.

حتى في حالة وجود نقاط فشل متعددة، فإن القدرة على تحمل الفشل الكارثي أمر بالغ الأهمية. تفشل الأقراص، وتفشل الخوادم. المفتاح هو إنشاء برنامج مصمم للتعامل مع الفشل كحالة طبيعية. في حالة فشل القرص أو العقدة، سيستمر هذا البرنامج في العمل دون تغييرات.

تضمن الحماية المضمنة ضد محو البيانات وتدهورها إمكانية فقدان عدد من الأقراص أو العقد يساوي عدد كتل التكافؤ لديك، أي نصف الأقراص عادةً. عندها فقط لن يتمكن البرنامج من إرجاع البيانات.

نادرا ما يتم اختبار الفشل تحت الحمل، ولكن مثل هذا الاختبار إلزامي. ستظهر محاكاة فشل التحميل إجمالي التكاليف المتكبدة بعد الفشل.

تناسق

وتسمى درجة الاتساق البالغة 100% أيضًا بالاتساق الصارم. يعد الاتساق مكونًا أساسيًا في أي نظام تخزين، ولكن الاتساق القوي نادر. على سبيل المثال، Amazon S3 ListObject ليس متسقًا تمامًا، فهو متسق فقط في النهاية.

ما هو المقصود بالاتساق الصارم؟ بالنسبة لجميع العمليات التي تلي عملية PUT المؤكدة، يجب أن يحدث ما يلي:

  • القيمة المحدثة مرئية عند القراءة من أي عقدة.
  • التحديث محمي ضد تكرار فشل العقدة.

وهذا يعني أنه إذا قمت بسحب القابس في منتصف التسجيل، فلن يتم فقدان أي شيء. لا يقوم النظام أبدًا بإرجاع البيانات التالفة أو القديمة. يعد هذا معيارًا مرتفعًا مهمًا في العديد من السيناريوهات، بدءًا من تطبيقات المعاملات وحتى النسخ الاحتياطي والاسترداد.

اختتام

هذه هي مقاييس جديدة لتخزين الكائنات تعكس أنماط الاستخدام في المؤسسات اليوم، حيث يعد الأداء والاتساق وقابلية التوسع ومجالات الأخطاء والتوافق مع S3 هي اللبنات الأساسية للتطبيقات السحابية وتحليلات البيانات الضخمة. أوصي باستخدام هذه القائمة بالإضافة إلى السعر عند إنشاء مجموعات بيانات حديثة. 

حول تخزين كائنات Mail.ru Cloud Solutions: العمارة S3. 3 سنوات من تطور Mail.ru Cloud Storage.

ماذا تقرأ:

  1. مثال لتطبيق قائم على الأحداث يعتمد على خطافات الويب في تخزين الكائنات S3 Mail.ru Cloud Solutions.
  2. أكثر من Ceph: تخزين الكتل السحابية MCS 
  3. العمل مع تخزين كائنات Mail.ru Cloud Solutions S3 كنظام ملفات.
  4. قناتنا على Telegram تحتوي على أخبار حول تحديثات وحدة تخزين S3 والمنتجات الأخرى

المصدر: www.habr.com

إضافة تعليق