DATA VAULT әзірлеу және BUSINESS DATA VAULT жүйесіне көшу

Алдыңғы мақалада мен DATA VAULT негіздері туралы айттым, DATA VAULT негізгі элементтерін және олардың мақсатын сипаттадым. Бұл DATA VAULT тақырыбын таусылған деп санауға болмайды, DATA VAULT эволюциясының келесі қадамдары туралы айту керек.

Және бұл мақалада мен DATA VAULT әзірлеуге және BUSINESS DATA VAULT немесе жай ғана BUSINESS VAULT-ке көшуге тоқталамын.

BUSINESS DATA BAULT пайда болу себептері

Айта кету керек, DATA VAULT белгілі бір күшті жақтарына ие болғанымен, кемшіліктері де жоқ емес. Осындай кемшіліктердің бірі аналитикалық сұрауларды жазудағы қиындық. Сұрауларда JOIN саны айтарлықтай көп, код ұзақ және ауыр. Сондай-ақ, DATA VAULT енгізілетін деректер ешқандай түрлендіруге ұшырамайды, сондықтан бизнес тұрғысынан DATA VAULT таза түрінде абсолютті мәнге ие болмайды.

Осы кемшіліктерді жою үшін DATA VAULT әдістемесі келесі элементтермен кеңейтілді:

  • PIT (уақыт бойынша нүкте) кестелері;
  • BRIDGE кестелері;
  • АЛДЫН АЛА АНЫҚТАЛҒАН ТУЫНДЫҚТАР.

Осы элементтердің мақсатын толығырақ қарастырайық.

PIT кестелері

Әдетте, бір шаруашылық жүргізуші субъектіде (HUB) әртүрлі жаңарту жылдамдығы бар деректер болуы мүмкін, мысалы, егер біз адамды сипаттайтын деректер туралы айтатын болсақ, телефон нөмірі, мекенжай немесе электрондық пошта туралы ақпараттың жаңарту жылдамдығы жоғарырақ деп айта аламыз: толық аты-жөні, төлқұжат мәліметтері, отбасылық жағдайы немесе жынысы.

Сондықтан, спутниктерді анықтау кезінде олардың жаңартылу жиілігін есте ұстаған жөн. Неліктен маңызды?

Бір кестеде әртүрлі жаңарту жылдамдығы бар атрибуттарды сақтасаңыз, ең жиі өзгеретін төлсипат жаңартылған сайын кестеге жол қосуға тура келеді. Нәтиже - дискілік кеңістіктің ұлғаюы және сұрауды орындау уақытының ұлғаюы.

Енді біз спутниктерді жаңарту жиілігі бойынша бөлдік және оларға деректерді дербес жүктей аламыз, біз жаңартылған деректерді ала алатынымызды қамтамасыз етуіміз керек. Жақсырақ, қажетсіз JOIN қолданбай.

Түсіндіруге рұқсат етіңіз, мысалы, әртүрлі жаңарту жылдамдығы бар жерсеріктерден ағымдағы (соңғы жаңарту күніне сәйкес) ақпаратты алу керек. Мұны істеу үшін сізге JOIN жасау ғана емес, сонымен қатар ең жоғары жаңарту күні MAX (Жаңарту күні) таңдай отырып, бірнеше кірістірілген сұрауларды (ақпараты бар әрбір спутник үшін) жасау қажет. Әрбір жаңа JOIN арқылы мұндай код өседі және оны түсіну өте қиын болады.

PIT кестесі осындай сұрауларды жеңілдету үшін жасалған; PIT кестелері DATA VAULT-ке жаңа деректерді жазумен бір уақытта толтырылады. PIT кестесі:

DATA VAULT әзірлеу және BUSINESS DATA VAULT жүйесіне көшу

Осылайша, бізде уақыттың әрбір нүктесінде барлық спутниктерге арналған деректердің өзектілігі туралы ақпарат бар. PIT кестесіне JOIN көмегімен біз кірістірілген сұрауларды толығымен жоя аламыз, әрине PIT күн сайын және бос орындарсыз толтырылған жағдайда. PIT-де бос орындар болса да, соңғы деректерді PIT-тің өзіне бір кірістірілген сұрауды пайдаланып ғана алуға болады. Бір кірістірілген сұрау әрбір жерсерікке кірістірілген сұрауларға қарағанда жылдамырақ өңделеді.

КӨПІР

BRIDGE кестелері аналитикалық сұрауларды жеңілдету үшін де қолданылады. Дегенмен, PIT-тен айырмашылығы - әртүрлі хабтар, сілтемелер және олардың спутниктері арасындағы сұраныстарды жеңілдету және жылдамдату құралы.

Кестеде сұраныстарда жиі қолданылатын барлық жерсеріктерге қажетті барлық кілттер бар. Сонымен қатар, қажет болған жағдайда, талдау үшін кілттердің атаулары қажет болса, хэштелген бизнес кілттері мәтіндік түрдегі кілттермен толықтырылуы мүмкін.

Өйткені, BRIDGE қолданбай, әртүрлі хабтарға жататын жерсеріктерде орналасқан деректерді қабылдау процесінде тек спутниктердің өздеріне ғана емес, сонымен қатар хабтарды қосатын сілтемелерге де JOIN жасау қажет болады.

BRIDGE болуы немесе болмауы сақтау конфигурациясымен және сұрауды орындау жылдамдығын оңтайландыру қажеттілігімен анықталады. BRIGE-нің әмбебап мысалын шығару қиын.

АЛДЫН АЛА АНЫҚТАЛҒАН ТУЫНДЫҚТАР

Бізді БИЗНЕС деректер қоймасына жақындататын тағы бір нысан түрі - алдын ала есептелген көрсеткіштерді қамтитын кестелер. Мұндай кестелер бизнес үшін өте маңызды, олар берілген ережелерге сәйкес жинақталған ақпаратты қамтиды және оларға қол жеткізуді салыстырмалы түрде жеңілдетеді.

Архитектуралық тұрғыдан, АЛДЫН АЛА АНЫҚТАЛҒАН ДЕРИВАЦИЯЛАР белгілі бір хабтың басқа жерсерігінен басқа ештеңе емес. Ол кәдімгі спутник сияқты бизнес кілтін және спутниктегі жазбаның жасалған күнін қамтиды. Дегенмен, ұқсастықтар осы жерде аяқталады. Мұндай «мамандандырылған» спутниктің атрибуттарының одан әрі құрамын бизнес пайдаланушылар ең танымал, алдын ала есептелген көрсеткіштер негізінде анықтайды.

Мысалы, қызметкер туралы ақпаратты қамтитын хаб келесі индикаторлары бар жерсерікті қамтуы мүмкін:

  • Ең төменгі жалақы;
  • Ең жоғары жалақы;
  • Орташа жалақы;
  • Есептелген жалақының жиынтық жиынтығы және т.б.

Алдын ала АНЫҚТАЛҒАН ТУЫНДЫҚтарды сол хабтың PIT кестесіне қосу қисынды, содан кейін арнайы таңдалған күні қызметкер үшін деректер бөліктерін оңай алуға болады.

ҚОРЫТЫНДЫ

Тәжірибе көрсеткендей, бизнес пайдаланушылардың DATA VAULT пайдалануы бірнеше себептерге байланысты біршама қиын:

  • Сұрау коды күрделі және ауыр;
  • JOIN көптігі сұраулардың орындалуына әсер етеді;
  • Аналитикалық сұрауларды жазу сақтау дизайны бойынша тамаша білімді қажет етеді.

Деректерге қол жеткізуді жеңілдету үшін DATA VAULT қосымша нысандармен кеңейтілген:

  • PIT (уақыт бойынша нүкте) кестелері;
  • BRIDGE кестелері;
  • АЛДЫН АЛА АНЫҚТАЛҒАН ТУЫНДЫҚТАР.

Келесі мақала Мен BI-мен жұмыс істейтіндер үшін ең қызықтысын айтуды жоспарлап отырмын. Мен DATA VAULT негізінде фактілер кестелері мен өлшемдер кестелерін жасау жолдарын ұсынамын.

Мақаланың материалдары мыналарға негізделген:

  • туралы басылымдар Кент Грациано, онда егжей-тегжейлі сипаттамадан басқа, модельдің диаграммалары бар;
  • Кітап: «DATA VAULT 2.0 көмегімен масштабталатын деректер қоймасын құру»;
  • Мақала Деректер қоймасының негіздері.

Ақпарат көзі: www.habr.com

пікір қалдыру