كيفية نقل وتحميل ودمج البيانات الكبيرة جدًا بتكلفة رخيصة وبسرعة؟ ما هو تحسين الضغط لأسفل؟

تتطلب أي عملية بيانات كبيرة قدرًا كبيرًا من القوة الحاسوبية. يمكن أن يستغرق النقل النموذجي للبيانات من قاعدة بيانات إلى Hadoop أسابيع أو يكلف ما يعادل تكلفة جناح طائرة. لا تريد الانتظار وإنفاق المال؟ موازنة الحمل عبر منصات مختلفة. إحدى الطرق هي تحسين الضغط لأسفل.

لقد طلبت من المدرب الروسي الرائد لتطوير وإدارة منتجات Informatica، Alexey Ananyev، التحدث عن وظيفة تحسين الضغط لأسفل في Informatica Big Data Management (BDM). هل سبق لك أن تعلمت العمل مع منتجات Informatica؟ على الأرجح، كان Alexey هو من أخبرك بأساسيات PowerCenter وشرح لك كيفية إنشاء الخرائط.

أليكسي أنانييف، رئيس التدريب في مجموعة DIS

ما هو الضغط لأسفل؟

الكثير منكم على دراية بإدارة البيانات الضخمة (BDM) من Informatica. يمكن للمنتج دمج البيانات الضخمة من مصادر مختلفة، ونقلها بين أنظمة مختلفة، وتوفير الوصول السهل إليها، والسماح لك بتكوين ملف تعريف لها، وغير ذلك الكثير.
في الأيدي اليمنى، يمكن لـ BDM أن يعمل العجائب: سيتم إكمال المهام بسرعة وبأقل قدر ممكن من موارد الحوسبة.

هل تريد ذلك أيضا؟ تعلم كيفية استخدام ميزة الضغط لأسفل في BDM لتوزيع حمل الحوسبة عبر منصات مختلفة. تسمح لك تقنية الضغط لأسفل بتحويل التعيين إلى برنامج نصي وتحديد البيئة التي سيتم تشغيل هذا البرنامج النصي فيها. يتيح لك هذا الاختيار الجمع بين نقاط القوة في الأنظمة الأساسية المختلفة وتحقيق أقصى أداء لها.

لتكوين بيئة تنفيذ البرنامج النصي، تحتاج إلى تحديد نوع الضغط لأسفل. يمكن تشغيل البرنامج النصي بالكامل على Hadoop أو توزيعه جزئيًا بين المصدر والحوض. هناك 4 أنواع محتملة من الضغط لأسفل. لا يلزم تحويل التعيين إلى برنامج نصي (أصلي). يمكن إجراء التعيين قدر الإمكان على المصدر (المصدر) أو بالكامل على المصدر (الكامل). يمكن أيضًا تحويل التعيين إلى برنامج نصي Hadoop (لا شيء).

تحسين الضغط لأسفل

يمكن دمج الأنواع الأربعة المدرجة بطرق مختلفة - يمكن تحسين الضغط لأسفل ليناسب الاحتياجات المحددة للنظام. على سبيل المثال، غالبًا ما يكون استخراج البيانات من قاعدة البيانات باستخدام إمكانياتها الخاصة أكثر ملاءمة. وسيتم تحويل البيانات باستخدام Hadoop، حتى لا تفرط في تحميل قاعدة البيانات نفسها.

لنفكر في الحالة التي يكون فيها المصدر والوجهة موجودين في قاعدة البيانات، ويمكن تحديد منصة تنفيذ التحويل: اعتمادًا على الإعدادات، ستكون Informatica أو خادم قاعدة بيانات أو Hadoop. سيسمح لك هذا المثال بفهم الجانب الفني لتشغيل هذه الآلية بدقة أكبر. بطبيعة الحال، في الحياة الحقيقية، لا ينشأ هذا الموقف، لكنه مناسب بشكل أفضل لإظهار الوظيفة.

لنأخذ رسم الخرائط لقراءة جدولين في قاعدة بيانات أوراكل واحدة. ويتم تسجيل نتائج القراءة في جدول في نفس قاعدة البيانات. سيكون مخطط التعيين كما يلي:

كيفية نقل وتحميل ودمج البيانات الكبيرة جدًا بتكلفة رخيصة وبسرعة؟ ما هو تحسين الضغط لأسفل؟

في شكل رسم الخرائط على Informatica BDM 10.2.1 يبدو كما يلي:

كيفية نقل وتحميل ودمج البيانات الكبيرة جدًا بتكلفة رخيصة وبسرعة؟ ما هو تحسين الضغط لأسفل؟

نوع الضغط لأسفل - أصلي

إذا اخترنا النوع الأصلي المنسدل لأسفل، فسيتم إجراء التعيين على خادم Informatica. ستتم قراءة البيانات من خادم Oracle، ونقلها إلى خادم Informatica، وتحويلها هناك، ونقلها إلى Hadoop. وبعبارة أخرى، سوف نحصل على عملية ETL عادية.

نوع الضغط لأسفل - المصدر

عند اختيار نوع المصدر، نحصل على الفرصة لتوزيع عمليتنا بين خادم قاعدة البيانات (DB) وHadoop. عند تنفيذ عملية بهذا الإعداد، سيتم إرسال طلبات استرداد البيانات من الجداول إلى قاعدة البيانات. وسيتم تنفيذ الباقي على شكل خطوات على Hadoop.
سيبدو مخطط التنفيذ كما يلي:

كيفية نقل وتحميل ودمج البيانات الكبيرة جدًا بتكلفة رخيصة وبسرعة؟ ما هو تحسين الضغط لأسفل؟

فيما يلي مثال لإعداد بيئة وقت التشغيل.

كيفية نقل وتحميل ودمج البيانات الكبيرة جدًا بتكلفة رخيصة وبسرعة؟ ما هو تحسين الضغط لأسفل؟

في هذه الحالة، سيتم تنفيذ التعيين في خطوتين. سنرى في إعداداته أنه قد تحول إلى برنامج نصي سيتم إرساله إلى المصدر. علاوة على ذلك، سيتم تنفيذ دمج الجداول وتحويل البيانات في شكل استعلام متجاوز على المصدر.
في الصورة أدناه، نرى تعيينًا محسّنًا على BDM، واستعلامًا مُعاد تعريفه على المصدر.

كيفية نقل وتحميل ودمج البيانات الكبيرة جدًا بتكلفة رخيصة وبسرعة؟ ما هو تحسين الضغط لأسفل؟

سيتم تقليص دور Hadoop في هذا التكوين إلى إدارة تدفق البيانات وتنظيمها. سيتم إرسال نتيجة الاستعلام إلى Hadoop. بمجرد الانتهاء من القراءة، سيتم كتابة الملف من Hadoop إلى الحوض.

نوع الضغط لأسفل – كامل

عند تحديد النوع الكامل، سيتحول التعيين بالكامل إلى استعلام قاعدة بيانات. وسيتم إرسال نتيجة الطلب إلى Hadoop. ويرد أدناه رسم تخطيطي لمثل هذه العملية.

كيفية نقل وتحميل ودمج البيانات الكبيرة جدًا بتكلفة رخيصة وبسرعة؟ ما هو تحسين الضغط لأسفل؟

يظهر مثال على الإعداد أدناه.

كيفية نقل وتحميل ودمج البيانات الكبيرة جدًا بتكلفة رخيصة وبسرعة؟ ما هو تحسين الضغط لأسفل؟

ونتيجة لذلك، سوف نحصل على رسم خرائط الأمثل مماثلة لتلك السابقة. والفرق الوحيد هو أن كل المنطق يتم نقله إلى جهاز الاستقبال في شكل تجاوز إدخاله. ويرد أدناه مثال على التعيين الأمثل.

كيفية نقل وتحميل ودمج البيانات الكبيرة جدًا بتكلفة رخيصة وبسرعة؟ ما هو تحسين الضغط لأسفل؟

هنا، كما في الحالة السابقة، يلعب Hadoop دور الموصل. ولكن هنا تتم قراءة المصدر بالكامل، ثم يتم تنفيذ منطق معالجة البيانات على مستوى المتلقي.

نوع الضغط لأسفل فارغ

حسنًا، الخيار الأخير هو النوع المنسدل، والذي من خلاله سيتحول تعييننا إلى برنامج نصي Hadoop.

سيبدو التعيين الأمثل الآن كما يلي:

كيفية نقل وتحميل ودمج البيانات الكبيرة جدًا بتكلفة رخيصة وبسرعة؟ ما هو تحسين الضغط لأسفل؟

هنا سيتم أولاً قراءة البيانات من الملفات المصدر على Hadoop. ثم، باستخدام وسائله الخاصة، سيتم دمج هذين الملفين. بعد ذلك، سيتم تحويل البيانات وتحميلها إلى قاعدة البيانات.

من خلال فهم مبادئ تحسين الضغط لأسفل، يمكنك تنظيم العديد من العمليات بشكل فعال للغاية للعمل مع البيانات الضخمة. وهكذا، في الآونة الأخيرة، قامت إحدى الشركات الكبيرة، في غضون أسابيع قليلة فقط، بتنزيل البيانات الضخمة من التخزين إلى Hadoop، والتي كانت قد جمعتها سابقًا لعدة سنوات.

المصدر: www.habr.com

إضافة تعليق