Вітрини даних DATA VAULT

У попередніх статтях, ми познайомилися з основами DATA VAULT, розширенням DATA VAULT до більш придатного для аналізу стану та створенням BUSINESS DATA VAULT. Настав час завершувати серію третьою статтею.

Як я анонсував у попередній публікації, ця стаття буде присвячена темі BI, а точніше підготовці DATA VAULT як джерело даних для BI. Розглянемо, як створити таблиці фактів та вимірювань та, тим самим, створити схему зірка.

Коли я почав вивчати англомовні матеріали на тему створення вітрин даних над DATA VAULT у мене виникло відчуття достатньої складності процесу. Так як статті мають значний обсяг, там є посилання до змін у формулюваннях, що з'явилися в методології Data Vault 2.0, позначається важливість цих формулювань.

Однак, заглибившись у переклад, стало зрозуміло, що цей процес не такий вже й складний. Але, можливо, у вас складеться інша думка.

І так, давайте переходити до суті.

Таблиці вимірювань та фактів у DATA VAULT

Найскладніша для розуміння інформація:

  • Таблиці вимірів будуються на інформації хабів та їх сателітів;
  • Таблиці фактів будуються на інформації лінків та їх сателітів.

І це очевидно, після прочитання статті про основах DATA VAULT. Хаби зберігають унікальні ключі бізнес об'єктів, їх сателіти стану атрибутів бізнес об'єктів прив'язані до часу, сателіти, прив'язані до лінків, що підтримують транзакції, зберігають числові характеристики цих транзакцій.

У цьому теорія, у принципі закінчується.

Але, все ж таки, на мій погляд, необхідно відзначити пару понять, які можуть зустрітися в статтях про методологію DATA VAULT:

  • Raw Data Marts - вітрини "сирих" даних;
  • Information Marts – інформаційні вітрини.

Поняття “Raw Data Marts” – позначає вітрини побудовані над даними DATA VAULT шляхом виконання досить простих JOIN'ів. Підхід “Raw Data Marts” дозволяє гнучко та в короткий термін розширити проект сховища інформацією, що підходить для аналізу. Такий підхід не передбачає виконання складних трансформацій даних та виконання бізнес правил перед поміщенням у вітрину, однак, дані “Raw Data Marts” мають бути зрозумілі бізнес користувачеві та покликані служити основою для подальшого перетворення, наприклад, інструментами BI.

Поняття "Information Marts" з'явилося в методології Data Vault 2.0, воно замінило старе поняття "Data Marts". Ця зміна обумовлена ​​усвідомленням завдання реалізації моделі даних для побудови звітів як перетворення даних в інформацію. Схема “Information Marts” насамперед має забезпечувати бізнес придатною для прийняття рішень інформацією.

Досить багатослівні визначення відображають два простих факти:

  1. Вітрини типу “Raw Data Marts” будуються на сирому (RAW) DATA VAULT, що містить лише базові поняття: HUBS, LINKS, SATELLITES;
  2. Вітрини “Information Marts” будуються за допомогою елементів BUSINESS VAULT: PIT, BRIDGE.

Якщо звернутися до прикладів зберігання інформації про співробітника можна сказати, що вітрина, що відображає поточний номер телефону співробітника, що діє на сьогодні, - це вітрина типу "Raw Data Marts". Для формування такої вітрини використовується бізнес-ключ співробітника та функція MAX(), використана на атрибуті дати завантаження в сателіт (MAX(SatLoadDate)). Коли потрібно зберігати історію зміни атрибуту у вітрині – використовується, потрібно розуміти з якою за якою дату телефон був актуальним, первинним ключем такої таблиці складе компіляція бізнес ключа та дати завантаження в сателіт, також додається поле дати закінчення періоду актуальності.

Створення вітрини, що зберігає актуальну інформацію кожного атрибуту кількох сателітів, що входить у хаб, наприклад, номер телефону, адреса, ПІБ, передбачає використання PIT таблиці, через звернення до якої легко отримати всі дати актуальності. Вітрини такого типу відносять до "Information Marts".

Обидва підходи актуальні як вимірювань, так фактів.

Для створення вітрин, що зберігають інформацію про декілька лінків та хабів, може бути задіяно звернення до BRIDGE таблиць.

Цією статтею я завершую цикл про концепцію DATA VAULT, сподіваюся інформація, якою я поділився, буде корисна в реалізації ваших проектів.

Як завжди, на завершення, кілька корисних посилань:

  • Стаття Кента Граціано, в якій, крім детального опису, містяться схеми моделі;

Джерело: habr.com

Додати коментар або відгук