تطوير مخزن البيانات والانتقال إلى مخزن بيانات الأعمال

في المقال السابق ، تحدثت عن أساسيات DATA VAULT ، ووصف العناصر الرئيسية لـ DATA VAULT والغرض منها. في هذه المرحلة ، لا يمكن اعتبار موضوع DATA VAULT مستنفدًا ، فمن الضروري التحدث عن الخطوات التالية في تطور DATA VAULT.

وفي هذه المقالة ، سأركز على تطوير DATA VAULT والانتقال إلى BUSINESS DATA VAULT أو ببساطة BUSINESS VAULT.

أسباب ظهور مخزن بيانات الأعمال

وتجدر الإشارة إلى أن DATA VAULT ، التي تتمتع بنقاط قوة معينة ، لا تخلو من عيوبها. ومن هذه العوائق صعوبة كتابة الاستفسارات التحليلية. تحتوي الاستعلامات على عدد كبير من JOINs ، الرمز طويل ومرهق. كذلك ، فإن البيانات التي تدخل مخزن البيانات لا تخضع لأي تحويلات ، وبالتالي ، من وجهة نظر الأعمال ، فإن DATA VAULT في شكلها الخالص ليس لها قيمة غير مشروطة.

للقضاء على أوجه القصور هذه ، تم توسيع منهجية DATA VAULT بعناصر مثل:

  • جداول PIT (نقطة زمنية) ؛
  • طاولات BRIDGE
  • اشتقاقات محددة مسبقا.

دعونا نلقي نظرة فاحصة على الغرض من هذه العناصر.

جداول حفرة

كقاعدة عامة ، يمكن أن يحتوي كائن عمل واحد (HUB) على بيانات بمعدلات تحديث مختلفة ، على سبيل المثال ، إذا كنا نتحدث عن البيانات التي تميز شخصًا ما ، فيمكننا القول أن المعلومات المتعلقة برقم الهاتف أو العنوان أو البريد الإلكتروني لديها معدل تحديث أعلى من قل ، الاسم الكامل ، تفاصيل جواز السفر ، الحالة الاجتماعية أو الجنس.

لذلك ، عند تحديد الأقمار الصناعية ، يجب على المرء أن يضع في اعتباره وتيرة تجديدها. لماذا هو مهم؟

إذا قمت بتخزين السمات بمعدلات تحديث مختلفة في نفس الجدول ، فسيتعين عليك إضافة صف إلى الجدول في كل مرة يتم فيها تحديث السمة التي تم تغييرها بشكل متكرر. نتيجة لذلك ، هناك زيادة في مقدار مساحة القرص ، وزيادة في وقت تنفيذ الاستعلامات.

الآن بعد أن فصلنا الأقمار الصناعية حسب معدل التحديث ، ويمكننا تحميل البيانات عليها بشكل مستقل ، نحتاج إلى التأكد من أنه يمكننا الحصول على بيانات محدثة. أفضل دون استخدام عمليات JOIN غير الضرورية.

اسمحوا لي أن أشرح ، على سبيل المثال ، أنك تحتاج إلى الحصول على معلومات محدثة (بحلول تاريخ آخر تحديث) من الأقمار الصناعية بمعدلات تحديث مختلفة. للقيام بذلك ، لن تحتاج فقط إلى إنشاء JOIN ، ولكن أيضًا لإنشاء العديد من الاستعلامات المتداخلة (لكل قمر صناعي يحتوي على معلومات) مع اختيار الحد الأقصى لتاريخ التحديث MAX (تاريخ التحديث). مع كل JOIN جديد ، ينمو هذا الرمز ، ويصبح من الصعب فهمه بسرعة كبيرة.

تم تصميم جدول PIT لتبسيط مثل هذه الاستعلامات ، ويتم ملء جداول PIT في نفس الوقت الذي تتم فيه كتابة البيانات الجديدة في DATA VAULT. جدول الحفرة:

تطوير مخزن البيانات والانتقال إلى مخزن بيانات الأعمال

وبالتالي ، لدينا معلومات حول أهمية البيانات لجميع الأقمار الصناعية في كل نقطة زمنية. باستخدام JOINs في جدول PIT ، يمكننا التخلص تمامًا من الاستعلامات المتداخلة ، بالطبع بشرط أن يتم ملء PIT يوميًا وبدون فجوات. حتى إذا كانت هناك فجوات في PIT ، يمكنك فقط الحصول على بيانات محدثة باستخدام استعلام واحد متداخل في PIT نفسها. سيعمل استعلام واحد متداخل بشكل أسرع من الاستعلامات المتداخلة لكل قمر صناعي.

BRIDGE

تُستخدم جداول BRIDGE أيضًا لتبسيط الاستعلامات التحليلية. ومع ذلك ، فإن الاختلاف عن PIT هو وسيلة لتبسيط وتسريع الطلبات بين مختلف المحاور والروابط والأقمار الصناعية الخاصة بهم.

يحتوي الجدول على جميع المفاتيح اللازمة لجميع الأقمار الصناعية التي تُستخدم غالبًا في الاستعلامات. بالإضافة إلى ذلك ، إذا لزم الأمر ، يمكن استكمال مفاتيح الأعمال المجزأة بمفاتيح في شكل نصي ، إذا كانت أسماء المفاتيح مطلوبة للتحليل.

الحقيقة هي أنه بدون استخدام BRIDGE ، في عملية الحصول على البيانات الموجودة في الأقمار الصناعية التي تنتمي إلى محاور مختلفة ، سيكون من الضروري الانضمام ليس فقط إلى الأقمار الصناعية نفسها ، ولكن أيضًا الروابط التي تربط المحاور.

يتم تحديد وجود أو عدم وجود BRIDGE من خلال تكوين التخزين ، والحاجة إلى تحسين سرعة تنفيذ الاستعلام. من الصعب الخروج بمثال عالمي عن BRIGE.

اشتقاقات محددة مسبقا

هناك نوع آخر من الكائنات يقربنا من مخزن بيانات الأعمال ، وهو عبارة عن جداول تحتوي على مؤشرات محسوبة مسبقًا. هذه الجداول مهمة حقًا للأعمال ، فهي تحتوي على معلومات مجمعة وفقًا لقواعد معينة وتجعل الوصول إليها سهلاً نسبيًا.

من الناحية المعمارية ، فإن التحديدات المحددة مسبقًا ليست أكثر من قمر صناعي آخر لمحور معين. إنه ، مثل القمر الصناعي العادي ، يحتوي على مفتاح عمل وتاريخ إنشاء السجل في القمر الصناعي. هذا ، مع ذلك ، هو المكان الذي تنتهي فيه أوجه التشابه. يتم تحديد التكوين الإضافي لسمات مثل هذا القمر الصناعي "المتخصص" من قبل مستخدمي الأعمال بناءً على المؤشرات الأكثر شيوعًا والمحسوبة مسبقًا.

على سبيل المثال ، قد يشتمل المحور الذي يحتوي على معلومات حول موظف على قمر صناعي بمؤشرات مثل:

  • اقل اجر؛
  • الحد الأقصى للراتب
  • متوسط ​​الدخل؛
  • المجموع التراكمي للأجور المتراكمة ، إلخ.

من المنطقي تضمين DERIVATIONS محدد مسبقًا في جدول PIT لنفس المحور ، ثم يمكنك بسهولة الحصول على شرائح بيانات الموظف لتاريخ محدد.

الاستنتاجات

كما تبين الممارسة ، فإن استخدام DATA VAULT من قبل مستخدمي الأعمال صعب إلى حد ما لعدة أسباب:

  • رمز الاستعلام معقد ومرهق ؛
  • تؤثر وفرة JOINs على أداء الاستعلام ؛
  • تتطلب كتابة الاستفسارات التحليلية معرفة ممتازة بهيكل المستودع.

لتبسيط الوصول إلى البيانات ، تم توسيع DATA VAULT بكائنات إضافية:

  • جداول PIT (نقطة زمنية) ؛
  • طاولات BRIDGE
  • اشتقاقات محددة مسبقا.

التالي مقالة أخطط لإخبار ، في رأيي ، الأكثر إثارة للاهتمام لأولئك الذين يعملون مع ذكاء الأعمال. سأقدم طرقًا لإنشاء الجداول - الحقائق والجداول - الأبعاد بناءً على DATA VAULT.

تعتمد مواد المقال على:

  • في منشور Kenta Graziano ، الذي يحتوي ، بالإضافة إلى الوصف التفصيلي ، على مخططات نموذجية ؛
  • كتاب: "إنشاء مستودع بيانات قابل للتطوير باستخدام DATA VAULT 2.0" ؛
  • مقالة أساسيات مخزن البيانات.

المصدر: www.habr.com

إضافة تعليق