Agile DWH සැලසුම් ක්‍රමවේද පිළිබඳ දළ විශ්ලේෂණය

ගබඩා පහසුකම් සංවර්ධනය කිරීම දිගු හා බැරෑරුම් කටයුත්තකි.

ව්‍යාපෘතියක ජීවිතයේ බොහෝ දේ රඳා පවතින්නේ වස්තු ආකෘතිය සහ මූලික ව්‍යුහය ආරම්භයේ දී කෙතරම් හොඳින් සිතා බලා තිබේද යන්න මතය.

සාමාන්‍යයෙන් පිළිගත් ප්‍රවේශය තරු යෝජනා ක්‍රමය තුන්වන සාමාන්‍ය ස්වරූපය සමඟ ඒකාබද්ධ කිරීමේ විවිධ ප්‍රභේදයන් වී ඇත. රීතියක් ලෙස, මූලධර්මය අනුව: ආරම්භක දත්ත - 3NF, ප්රදර්ශනය - තරුව. විශ්ලේෂණාත්මක ගබඩාවක් කෙබඳු විය යුතුද යන්න ගැන සිතන විට පළපුරුදු DWH විශේෂඥයෙකුගේ මනසට නැඟෙන පළමු (සහ සමහර විට එකම) මෙම ප්‍රවේශය, කාලය-පරීක්ෂා කරන ලද සහ විශාල පර්යේෂණ ප්‍රමාණයකින් සහාය වේ.

අනෙක් අතට, පොදුවේ ව්‍යාපාර සහ විශේෂයෙන්ම පාරිභෝගික අවශ්‍යතා ඉක්මනින් වෙනස් වන අතර දත්ත “ගැඹුරෙන්” සහ “පළලෙන්” වර්ධනය වේ. තාරකාවක ප්‍රධාන අවාසිය පෙනෙන්නේ මෙයයි - සීමිතයි නම්යශීලීභාවය.

DWH සංවර්ධකයෙකු ලෙස ඔබේ නිහඬ සහ සුවපහසු ජීවිතය තුළ හදිසියේ නම්:

  • කාර්යය "අවම වශයෙන් ඉක්මනින් යමක් කිරීමට, පසුව අපි බලමු";
  • අවම වශයෙන් සතියකට වරක් නව මූලාශ්‍ර සම්බන්ධ කිරීම සහ ව්‍යාපාර ආකෘතිය ප්‍රතිනිර්මාණය කිරීමත් සමඟ වේගයෙන් සංවර්ධනය වන ව්‍යාපෘතියක් දර්ශනය විය;
  • පද්ධතිය කෙබඳු විය යුතුද සහ එය අවසානයේ ඉටු කළ යුතු කාර්යයන් මොනවාදැයි නොදන්නා පාරිභෝගිකයෙකු පෙනී සිට ඇත, නමුත් අඛණ්ඩව එයට සමීප වෙමින් අපේක්ෂිත ප්‍රති result ලය අත්හදා බැලීමට සහ අඛණ්ඩව පිරිපහදු කිරීමට සූදානම්;
  • ව්‍යාපෘති කළමණාකරු ශුභාරංචිය සමඟ පිටත්ව ගියේය: “දැන් අපට කඩිසරයි!”

නැතහොත් ඔබට ගබඩා පහසුකම් ගොඩනඟන්නේ කෙසේදැයි සොයා බැලීමට ඔබ උනන්දු වන්නේ නම් - කප්පාදුවට සාදරයෙන් පිළිගනිමු!

Agile DWH සැලසුම් ක්‍රමවේද පිළිබඳ දළ විශ්ලේෂණය

"නම්යශීලීභාවය" යන්නෙන් අදහස් කරන්නේ කුමක්ද?

පළමුව, "නම්‍යශීලී" ලෙස හැඳින්වීමට පද්ධතියකට තිබිය යුතු ගුණාංග මොනවාදැයි නිර්වචනය කරමු.

වෙනමම, විස්තර කරන ලද ගුණාංග විශේෂයෙන් සම්බන්ධ විය යුතු බව සඳහන් කිරීම වටී පද්ධති, කිරීමට නොවේ ක්රියාවලිය එහි සංවර්ධනය. එම නිසා Agile ගැන සංවර්ධන ක්‍රමවේදයක් ලෙස කියවීමට අවශ්‍ය නම් වෙනත් ලිපි කියවීම වඩාත් සුදුසුය. උදාහරණයක් ලෙස, එහිම, Habré හි, රසවත් ද්‍රව්‍ය රාශියක් ඇත (වැනි සමාලෝචනය и ප්රායෝගික, සහ ගැටළු සහගතය).

දත්ත ගබඩාවේ සංවර්ධන ක්‍රියාවලිය සහ ව්‍යුහය සම්පූර්ණයෙන්ම සම්බන්ධ නොවන බව මින් අදහස් නොවේ. සමස්තයක් වශයෙන්, කඩිසර ගෘහ නිර්මාණ ශිල්පයක් සඳහා Agile ගබඩාවක් සංවර්ධනය කිරීම සැලකිය යුතු ලෙස පහසු විය යුතුය. කෙසේ වෙතත්, ප්‍රායෝගිකව, බොහෝ විට කිම්බල් සහ ඩේටාවෝල්ට් අනුව සම්භාව්‍ය ඩීඩබ්ලිව්එච් හි කඩිසර සංවර්ධනය සමඟ විකල්ප තිබේ - දිය ඇල්ලට අනුව, එක් ව්‍යාපෘතියක් මත එහි ආකාර දෙකකින් නම්‍යශීලී වීමේ ප්‍රීතිමත් අහඹු සිදුවීම්වලට වඩා.

ඉතින්, නම්‍යශීලී ගබඩාවකට තිබිය යුතු හැකියාවන් මොනවාද? මෙහි කරුණු තුනක් ඇත:

  1. ඉක්මනින් බෙදා හැරීම සහ වේගවත් හැරීම - මෙයින් අදහස් කරන්නේ ඉතා මැනවින් පළමු ව්‍යාපාරික ප්‍රතිඵලය (උදාහරණයක් ලෙස, පළමු වැඩ වාර්තා) හැකිතාක් ඉක්මනින් ලබා ගත යුතු බවයි, එනම් සමස්ත පද්ධතියම සම්පූර්ණයෙන්ම සැලසුම් කර ක්‍රියාත්මක කිරීමට පෙර පවා. එපමණක් නොව, එක් එක් පසු සංශෝධනය ද හැකි තරම් සුළු කාලයක් ගත විය යුතුය.
  2. පුනරාවර්තන ශෝධනය - මෙයින් අදහස් කරන්නේ එක් එක් පසු වැඩිදියුණු කිරීම් දැනටමත් ක්‍රියාත්මක වන ක්‍රියාකාරීත්වයට පරමාදර්ශීව බලපාන්නේ නැති බවයි. විශාල ව්‍යාපෘතිවල බොහෝ විට විශාලතම බියකරු සිහිනය බවට පත්වන්නේ මේ මොහොතයි - ඉක්මනින් හෝ පසුව, තනි වස්තූන් බොහෝ සම්බන්ධතා ලබා ගැනීමට පටන් ගනී, පවතින වගුවකට ක්ෂේත්‍රයක් එක් කිරීමට වඩා අසල පිටපතක තර්කනය සම්පූර්ණයෙන්ම පුනරාවර්තනය කිරීම පහසු වේ. පවතින වස්තූන් කෙරෙහි වැඩිදියුණු කිරීම් වල බලපෑම විශ්ලේෂණය කිරීම වැඩිදියුණු කිරීම් වලට වඩා වැඩි කාලයක් ගතවනු ඇතැයි ඔබ පුදුමයට පත් වුවහොත්, ඔබ බොහෝ විට බැංකු හෝ ටෙලිකොම් වල විශාල දත්ත ගබඩා සමඟ වැඩ කර නොමැත.
  3. වෙනස්වන ව්‍යාපාරික අවශ්‍යතාවලට නිරන්තරයෙන් අනුගත වීම - සමස්ත වස්තු ව්‍යුහය සැලසුම් කළ යුත්තේ හැකි ප්‍රසාරණය සැලකිල්ලට ගනිමින් පමණක් නොව, මෙම ඊළඟ ප්‍රසාරණයේ දිශාව සැලසුම් අවධියේදී සිහිනෙන්වත් නොසිතිය හැකි යැයි අපේක්ෂාවෙනි.

ඔව්, මෙම සියලු අවශ්‍යතා එක් පද්ධතියකින් සපුරාලිය හැකිය (ඇත්ත වශයෙන්ම, සමහර අවස්ථාවල සහ සමහර වෙන් කිරීම් සමඟ).

පහතින් මම දත්ත ගබඩා සඳහා වඩාත් ජනප්‍රිය කඩිසර නිර්මාණ ක්‍රමවේද දෙකක් සලකා බලමි - ඇන්කර් ආකෘතිය и දත්ත ගබඩාව. වරහන් වලින් ඉවත්ව ඇත්තේ, උදාහරණයක් ලෙස, EAV, 6NF (එහි පිරිසිදු ස්වරූපයෙන්) සහ NoSQL විසඳුම් හා සම්බන්ධ සෑම දෙයක්ම වැනි විශිෂ්ට ශිල්පීය ක්‍රම - ඒවා කෙසේ හෝ නරක වන නිසා නොව, මේ අවස්ථාවේ දී ලිපිය අත්පත් කර ගැනීමට තර්ජනය කරන නිසා නොවේ. සාමාන්ය විසර්ජන පරිමාව. මේ සියල්ල තරමක් වෙනස් පන්තියක විසඳුම් වලට සම්බන්ධ වේ - එක්කෝ ඔබේ ව්‍යාපෘතියේ සමස්ත ගෘහනිර්මාණ ශිල්පය (EAV වැනි) නොතකා, හෝ ගෝලීය වශයෙන් වෙනත් තොරතුරු ගබඩා කිරීමේ ආදර්ශ (ප්‍රස්තාර දත්ත සමුදායන් වැනි) ඔබට විශේෂිත අවස්ථාවන්හිදී භාවිතා කළ හැකි ශිල්පීය ක්‍රමවලට සම්බන්ධ වේ. සහ වෙනත් විකල්ප NoSQL).

"සම්භාව්ය" ප්රවේශයේ ගැටළු සහ නම්යශීලී ක්රමවේදයන් තුළ ඔවුන්ගේ විසඳුම්

"සම්භාව්‍ය" ප්‍රවේශය යන්නෙන් මා අදහස් කරන්නේ හොඳ පැරණි තරුව (යටින් පවතින ස්ථරවල නිශ්චිත ක්‍රියාත්මක කිරීම කුමක් වුවත්, Kimball, Inmon සහ CDM හි අනුගාමිකයන් මට සමාව දෙනු ඇත).

1. සම්බන්ධතා වල දෘඪ කාර්ඩිනලිටි

මෙම ආකෘතිය දත්ත පැහැදිලි බෙදීමක් මත පදනම් වේ මානය и කරුණු. මෙය තාර්කික ය - සියල්ලට පසු, අතිමහත් බහුතරයක දත්ත විශ්ලේෂණය සමහර අංශවල (මානයන්) ඇතැම් සංඛ්‍යාත්මක දර්ශක (කරුණු) විශ්ලේෂණයට පැමිණේ.

මෙම අවස්ථාවෙහිදී, වස්තූන් අතර සම්බන්ධතා විදේශ යතුරක් භාවිතා කරමින් වගු අතර සම්බන්ධතා ආකාරයෙන් ස්ථාපිත කර ඇත. මෙය තරමක් ස්වාභාවික පෙනුමක් ඇති නමුත් වහාම නම්‍යශීලී වීමේ පළමු සීමාවට මඟ පාදයි - සම්බන්ධතා වල ප්‍රධානත්වය පිළිබඳ දැඩි අර්ථ දැක්වීම.

මෙයින් අදහස් කරන්නේ වගු සැලසුම් කිරීමේ අදියරේදී, එක් එක් සම්බන්ධිත වස්තු යුගල සඳහා ඒවා බොහෝ ගණනකට හෝ 1 සිට බොහෝ ගණනකට පමණක් සහ “කුමන දිශාවට” සම්බන්ධ කළ හැකිද යන්න ඔබ නිවැරදිව තීරණය කළ යුතු බවයි. ප්‍රාථමික යතුර ඇත්තේ කුමන වගුවද සහ විදේශීය යතුර ඇත්තේ කුමන වගුවද යන්න මෙය සෘජුවම තීරණය කරයි. නව අවශ්යතාවයන් ලැබුණු විට මෙම ආකල්පය වෙනස් කිරීම බොහෝ විට පදනම නැවත සකස් කිරීමට හේතු වනු ඇත.

උදාහරණයක් ලෙස, විකුණුම් දෙපාර්තමේන්තුවේ දිවුරුම් මත පදනම්ව, "මුදල් කුවිතාන්සි" වස්තුව සැලසුම් කිරීමේදී, ඔබ ක්රියා කිරීමේ හැකියාව නියම කර ඇත. චෙක් පොසිෂන් කිහිපයක් සඳහා එක් උසස්වීමක් (නමුත් අනෙක් අතට නොවේ):

Agile DWH සැලසුම් ක්‍රමවේද පිළිබඳ දළ විශ්ලේෂණය
ටික කලකට පසු, සගයන් එකම ස්ථාවරයක ක්‍රියා කළ හැකි නව අලෙවිකරණ උපාය මාර්ගයක් හඳුන්වා දෙන ලදී එකවර උසස්වීම් කිහිපයක්. දැන් ඔබට සම්බන්ධතාවය වෙනම වස්තුවකට වෙන් කිරීමෙන් වගු වෙනස් කළ යුතුය.

(ප්‍රවර්ධන චෙක්පත සම්බන්ධ වී ඇති සියලුම ව්‍යුත්පන්න වස්තු ද වැඩිදියුණු කළ යුතුය).

Agile DWH සැලසුම් ක්‍රමවේද පිළිබඳ දළ විශ්ලේෂණය
Data Vault සහ Anchor Model හි සබඳතා

මෙම තත්වය වළක්වා ගැනීම තරමක් සරල විය: මෙය කිරීමට ඔබ විකුණුම් දෙපාර්තමේන්තුව විශ්වාස කළ යුතු නැත. සියලුම සම්බන්ධතා මුලින් වෙනම වගු වල ගබඩා කර ඇත සහ එය බොහෝ සිට බොහෝ ලෙස සකසන්න.

මෙම ප්රවේශය යෝජනා කරන ලදී ඩෑන් ලින්ස්ටෙඩ් සුසමාදර්ශයේ කොටසක් ලෙස දත්ත ගබඩාව සහ සම්පූර්ණ සහාය Lars Rönnbäck в ඇන්කර් ආකෘතිය.

එහි ප්‍රතිඵලයක් වශයෙන්, නම්‍යශීලී ක්‍රමවේදවල පළමු සුවිශේෂී ලක්ෂණය අපට ලැබේ:

වස්තු අතර සම්බන්ධතා මාපිය ආයතනවල ගුණාංගවල ගබඩා කර නැත, නමුත් එය වෙනම ආකාරයේ වස්තුවකි.

В දත්ත ගබඩාව එවැනි සම්බන්ධක වගු හැඳින්වේ ලින්ක්, සහ ඇතුළත ඇන්කර් ආකෘතිය - ටයි පටියක්. මුලින්ම බැලූ බැල්මට, ඔවුන් ඉතා සමාන ය, නමුත් ඔවුන්ගේ වෙනස්කම් නමෙන් අවසන් නොවේ (පහත සාකච්ඡා කරනු ඇත). ගෘහ නිර්මාණ ශිල්පය දෙකෙහිම, සබැඳි වගු සම්බන්ධ කළ හැක ඕනෑම ආයතන ගණනක් (අවශ්‍ය නොවේ 2).

මෙම අතිරික්තය, මුලින්ම බැලූ බැල්මට, වෙනස් කිරීම් සඳහා සැලකිය යුතු නම්යශීලී බවක් ලබා දෙයි. එවැනි ව්‍යුහයක් පවතින සබැඳිවල ප්‍රධානත්වයේ වෙනස්කම් වලට පමණක් නොව, නව ඒවා එකතු කිරීමට ද ඉවසා සිටියි - දැන් චෙක්පත් ස්ථානයක එය බිඳ දැමූ අයකැමියාට සබැඳියක් තිබේ නම්, එවැනි සබැඳියක පෙනුම සරල වනු ඇත. පවතින වස්තු සහ ක්‍රියාවලි වලට බලපෑමක් නොකර පවතින වගු මත ඇඩෝනයක් බවට පත් වන්න.

Agile DWH සැලසුම් ක්‍රමවේද පිළිබඳ දළ විශ්ලේෂණය

2. දත්ත අනුපිටපත් කිරීම

නම්‍යශීලී ගෘහනිර්මාණ ශිල්ප මගින් විසඳන ලද දෙවන ගැටළුව අඩුවෙන් පැහැදිලි වන අතර එය ප්‍රථම ස්ථානයට ආවේනික වේ. SCD2 වර්ගයේ මිනුම් (දෙවන වර්ගයේ මානයන් සෙමින් වෙනස් කිරීම), ඒවා පමණක් නොව.

සම්භාව්‍ය ගබඩාවක, මානයක් යනු සාමාන්‍යයෙන් ආදේශක යතුරක් (PK ලෙස) සහ වෙනම තීරුවල ව්‍යාපාරික යතුරු සහ ගුණාංග සමූහයක් අඩංගු වගුවකි.

Agile DWH සැලසුම් ක්‍රමවේද පිළිබඳ දළ විශ්ලේෂණය

මානයක් අනුවාදනයට සහය දක්වන්නේ නම්, සම්මත ක්ෂේත්‍ර සමූහයට අනුවාද වලංගු සීමාවන් එකතු කරනු ලබන අතර, මූලාශ්‍රයේ එක් පේළියක් සඳහා අනුවාද කිහිපයක් ගබඩාවේ දිස්වේ (අනුවාද කළ ගුණාංගවල එක් එක් වෙනස් කිරීම සඳහා එකක්).

මානයක අඩුම තරමින් නිතර වෙනස් වන අනුවාද ගුණාංගයක් තිබේ නම්, එවැනි මානයක අනුවාද සංඛ්‍යාව සිත් ඇදගන්නා සුළු වනු ඇත (ඉතිරි උපලක්ෂණ අනුවාද නොකළත් හෝ කිසිදා වෙනස් නොවුනත්), සහ එවැනි ගුණාංග කිහිපයක් තිබේ නම්, අනුවාද ගණනට හැකිය ඔවුන්ගේ සංඛ්යාවෙන් ඝාතීය ලෙස වර්ධනය වේ. මෙම මානය සැලකිය යුතු තැටි ඉඩ ප්‍රමාණයක් ගත හැක, නමුත් එය ගබඩා කරන බොහෝ දත්ත වෙනත් පේළි වලින් වෙනස් කළ නොහැකි ගුණාංගවල අනුපිටපත් වේ.

Agile DWH සැලසුම් ක්‍රමවේද පිළිබඳ දළ විශ්ලේෂණය

ඒ අතරම, එය බොහෝ විට භාවිතා වේ denormalization — සමහර ගුණාංග හිතාමතාම අගයක් ලෙස ගබඩා කර ඇති අතර, විමර්ශන පොතකට හෝ වෙනත් මානයක් වෙත සබැඳියක් ලෙස නොවේ. මෙම ප්‍රවේශය දත්ත ප්‍රවේශය වේගවත් කරයි, මානයකට ප්‍රවේශ වීමේදී සම්බන්ධ වන සංඛ්‍යාව අඩු කරයි.

සාමාන්යයෙන් මෙය මඟ පෙන්වයි එකම තොරතුරු ස්ථාන කිහිපයක එකවර ගබඩා කර ඇත. උදාහරණයක් ලෙස, පදිංචි කලාපය සහ සේවාදායකයාගේ කාණ්ඩය පිළිබඳ තොරතුරු එකවර “සේවාදායක” මානයන් සහ “මිලදී ගැනීම”, “බෙදා හැරීම” සහ “ඇමතුම් මධ්‍යස්ථාන ඇමතුම්” කරුණු මෙන්ම “සේවාදායක - සේවාදායක කළමනාකරු” තුළ ගබඩා කළ හැකිය. "සබැඳි වගුව.

පොදුවේ ගත් කල, ඉහත විස්තර කර ඇති දේ සාමාන්‍ය (අනුවාද නොවන) මානයන් සඳහා අදාළ වේ, නමුත් අනුවාද වලදී ඒවාට වෙනස් පරිමාණයක් තිබිය හැකිය: වස්තුවක නව අනුවාදයක පෙනුම (විශේෂයෙන් ආපසු හැරී බැලීමේදී) අදාළ සියල්ල යාවත්කාලීන කිරීමට පමණක් නොවේ. වගු, නමුත් අදාළ වස්තූන්ගේ නව අනුවාදවල කැස්කැඩින් පෙනුමට - වගුව 1 ගොඩනැගීමට වගුව 2 භාවිතා කරන විට සහ වගුව 2 ගොඩනැගීමට වගුව 3 භාවිතා කරයි. වගුව 1 හි එක ගුණාංගයක්වත් වගුව 3 ගොඩනැගීමට සම්බන්ධ නොවූවත් (සහ වෙනත් ප්‍රභවයන්ගෙන් ලබාගත් වගුව 2 හි අනෙකුත් ගුණාංග සම්බන්ධ වේ), මෙම ඉදිකිරීම අනුවාදනය කිරීම අවම වශයෙන් අතිරේක පොදු කාර්ය සඳහා සහ උපරිම වශයෙන් අමතර සඳහා හේතු වේ. වගුව 3 හි අනුවාද. එයට කිසිසේත්ම සම්බන්ධයක් නැති, සහ දාමයේ තවත් පහළට.

Agile DWH සැලසුම් ක්‍රමවේද පිළිබඳ දළ විශ්ලේෂණය

3. නැවත සකස් කිරීමේ රේඛීය නොවන සංකීර්ණත්වය

ඒ අතරම, වෙනත් පදනමක් මත ගොඩනගා ඇති සෑම නව වෙළඳසැල් ඉදිරිපසම ETL වෙත වෙනස්කම් සිදු කරන විට දත්ත "අපසරනය" කළ හැකි ස්ථාන ගණන වැඩි කරයි. මෙය, එක් එක් පසු සංශෝධනයේ සංකීර්ණත්වය (සහ කාලසීමාව) වැඩි කිරීමට හේතු වේ.

ඉහත විස්තර කරන්නේ කලාතුරකින් වෙනස් කරන ලද ETL ක්‍රියාවලි සහිත පද්ධති නම්, ඔබට එවැනි සුසමාදර්ශයක් තුළ ජීවත් විය හැකිය - නව වෙනස් කිරීම් අදාළ සියලු වස්තූන් සඳහා නිවැරදිව සිදු කර ඇති බවට ඔබ සහතික විය යුතුය. සංශෝධන නිතර සිදු වුවහොත්, සම්බන්ධතා කිහිපයක් අහම්බෙන් "අතුරුදහන්" වීමේ සම්භාවිතාව සැලකිය යුතු ලෙස වැඩි වේ.

ඊට අමතරව, "අනුවාද" ETL "අනුවාද නොවන" එකට වඩා සැලකිය යුතු ලෙස සංකීර්ණ බව අපි සැලකිල්ලට ගන්නේ නම්, මෙම සම්පූර්ණ පහසුකම නිතර යාවත්කාලීන කිරීමේදී වැරදි වළක්වා ගැනීම තරමක් අපහසු වේ.

Data Vault සහ Anchor Model හි වස්තූන් සහ ගුණාංග ගබඩා කිරීම

නම්‍යශීලී ගෘහ නිර්මාණ ශිල්පයේ කතුවරුන් විසින් යෝජනා කරන ලද ප්‍රවේශය පහත පරිදි සකස් කළ හැකිය:

වෙනස් වන දේ එලෙසම පවතින දෙයින් වෙන් කිරීම අවශ්‍ය වේ. එනම්, attributes වලින් වෙන වෙනම ගබඩා යතුරු.

කෙසේ වෙතත්, යමෙකු ව්යාකූල නොවිය යුතුය අනුවාදය නොවේ සමඟ ගුණාංගය නොවෙනස්ව: පළමු එක එහි වෙනස්කම් වල ඉතිහාසය ගබඩා නොකරයි, නමුත් වෙනස් කළ හැකිය (උදාහරණයක් ලෙස, ආදාන දෝෂයක් නිවැරදි කිරීමේදී හෝ නව දත්ත ලබා ගැනීමේදී); දෙවැන්න කිසි විටෙකත් වෙනස් නොවේ.

Data Vault සහ Anchor Model හි වෙනස් කළ නොහැකි ලෙස සැලකිය හැකි දේ මත දෘෂ්ටිකෝණ වෙනස් වේ.

වාස්තු විද්‍යාත්මක දෘෂ්ටි කෝණයකින් දත්ත ගබඩාව, නොවෙනස්ව සැලකිය හැකිය සම්පූර්ණ යතුරු කට්ටලය - ස්වාභාවික (සංවිධානයේ TIN, මූලාශ්‍ර පද්ධතියේ නිෂ්පාදන කේතය, ආදිය) සහ ආදේශක. මෙම අවස්ථාවෙහිදී, වෙනස්වීම්වල ප්‍රභවය සහ/හෝ සංඛ්‍යාතය අනුව ඉතිරි ගුණාංග කණ්ඩායම් වලට බෙදිය හැකිය. එක් එක් කණ්ඩායම සඳහා වෙනම වගුවක් පවත්වා ගන්න ස්වාධීන අනුවාද කට්ටලයක් සමඟ.

සුසමාදර්ශය තුළ ඇන්කර් ආකෘතිය වෙනස් නොවන ලෙස සැලකේ ආදේශක යතුර පමණි සාරය. අනෙක් සියල්ල (ස්වාභාවික යතුරු ඇතුළුව) එහි ගුණාංගවල විශේෂ අවස්ථාවක් පමණි. එහි සියලු ගුණාංග පෙරනිමියෙන් එකිනෙකින් ස්වාධීන වේ, එබැවින් එක් එක් ගුණාංග සඳහා a වෙනම වගුව.

В දත්ත ගබඩාව entity keys අඩංගු tables ලෙස හැඳින්වේ හුබාමි. මධ්‍යස්ථානවල සෑම විටම ස්ථාවර ක්ෂේත්‍ර සමූහයක් අඩංගු වේ:

  • ස්වභාවික ආයතන යතුරු
  • ආදේශක යතුර
  • මූලාශ්රය වෙත සබැඳිය
  • වාර්තා එකතු කිරීමේ කාලය

හබ්ස් හි පළ කිරීම් කිසි විටෙකත් වෙනස් නොවන අතර අනුවාද නොමැත. බාහිරව, මධ්‍යස්ථාන ආදේශක ජනනය කිරීමට සමහර පද්ධතිවල භාවිතා කරන ID-සිතියම් ආකාරයේ වගු වලට බෙහෙවින් සමාන වේ, කෙසේ වෙතත්, Data Vault හි ආදේශක ලෙස ව්‍යාපාරික යතුරු කට්ටලයක හැෂ් භාවිතා කිරීම නිර්දේශ කෙරේ. මෙම ප්‍රවේශය මූලාශ්‍රවලින් සම්බන්ධතා සහ ගුණාංග පූරණය කිරීම සරල කරයි (ආදේශකයක් ලබා ගැනීමට කේන්ද්‍රයට සම්බන්ධ වීමට අවශ්‍ය නැත, ස්වාභාවික යතුරක හැෂ් ගණනය කරන්න), නමුත් වෙනත් ගැටළු ඇති කළ හැකිය (උදාහරණයක් ලෙස, ගැටීම්, කේස් සහ මුද්‍රණය කළ නොහැකි නූල් යතුරු වල අක්ෂර, ආදිය. .p.), එබැවින් එය සාමාන්යයෙන් පිළිගනු නොලැබේ.

අනෙකුත් සියලුම ආයතන ගුණාංග විශේෂ වගු වල ගබඩා කර ඇත චන්ද්රිකා. එක් කේන්ද්‍රස්ථානයකට විවිධ ගුණාංග ගබඩා කරන චන්ද්‍රිකා කිහිපයක් තිබිය හැක.

Agile DWH සැලසුම් ක්‍රමවේද පිළිබඳ දළ විශ්ලේෂණය

චන්ද්රිකා අතර ගුණාංග බෙදා හැරීම මූලධර්මය අනුව සිදු වේ ඒකාබද්ධ වෙනස් කිරීම — එක් චන්ද්‍රිකාවක අනුවාද නොකළ ගුණාංග ගබඩා කළ හැකිය (උදාහරණයක් ලෙස, උපන් දිනය සහ පුද්ගලයෙකු සඳහා SNILS), තවත් එකක - කලාතුරකින් වෙනස් කරන අනුවාද (උදාහරණයක් ලෙස, අවසාන නම සහ විදේශ ගමන් බලපත්‍ර අංකය), තෙවනුව - නිතර වෙනස් වන ඒවා (උදාහරණයක් ලෙස, බෙදාහැරීමේ ලිපිනය, කාණ්ඩය, අවසන් ඇණවුමේ දිනය, ආදිය). මෙම අවස්ථාවෙහිදී, අනුවාද කිරීම සිදු කරනු ලබන්නේ තනි චන්ද්‍රිකා මට්ටමින් මිස සමස්තයක් ලෙස නොවේ, එබැවින් එක් චන්ද්‍රිකාවක් තුළ අනුවාදවල ඡේදනය අවම වන පරිදි ගුණාංග බෙදා හැරීම සුදුසුය (එය ගබඩා කර ඇති මුළු අනුවාද ගණන අඩු කරයි. )

එසේම, දත්ත පැටවීමේ ක්‍රියාවලිය ප්‍රශස්ත කිරීම සඳහා, විවිධ ප්‍රභවයන්ගෙන් ලබාගත් ගුණාංග බොහෝ විට තනි චන්ද්‍රිකා තුළ ඇතුළත් වේ.

චන්ද්‍රිකා මධ්‍යස්ථානය සමඟ සන්නිවේදනය කරන්නේ මාර්ගයෙනි විදේශීය යතුර (එය 1 සිට බොහෝ කාඩිනලිටි වලට අනුරූප වේ). මෙයින් අදහස් කරන්නේ බහුවිධ ගුණාංග අගයන් (උදාහරණයක් ලෙස, එක් සේවාදායකයෙකු සඳහා සම්බන්ධතා දුරකථන අංක කිහිපයක්) මෙම "පෙරනිමි" ගෘහ නිර්මාණ ශිල්පය මගින් සහාය දක්වන බවයි.

В ඇන්කර් ආකෘතිය යතුරු ගබඩා කරන වගු ලෙස හැඳින්වේ නැංගුරම්. ඔවුන් තබා ගන්නේ:

  • ආදේශක යතුරු පමණි
  • මූලාශ්රය වෙත සබැඳිය
  • වාර්තා එකතු කිරීමේ කාලය

ඇන්කර් ආකෘතියේ දෘෂ්ටි කෝණයෙන් ස්වභාවික යතුරු සලකා බලනු ලැබේ සාමාන්ය ගුණාංග. මෙම විකල්පය තේරුම් ගැනීමට වඩා දුෂ්කර බවක් පෙනෙන්නට ඇත, නමුත් එය වස්තුව හඳුනා ගැනීම සඳහා වැඩි ඉඩක් ලබා දෙයි.

Agile DWH සැලසුම් ක්‍රමවේද පිළිබඳ දළ විශ්ලේෂණය

උදාහරණයක් ලෙස, එකම ආයතනය පිළිබඳ දත්ත විවිධ පද්ධති වලින් පැමිණිය හැකි නම්, ඒ සෑම එකක්ම තමන්ගේම ස්වභාවික යතුර භාවිතා කරයි. Data Vault හි, මෙය මධ්‍යස්ථාන කිහිපයක තරමක් අපහසු ව්‍යුහයන්ට තුඩු දිය හැකිය (එක් ප්‍රභවයකට එකක් + ඒකාබද්ධ ප්‍රධාන අනුවාදයක්), ඇන්කර් ආකෘතියේ දී, එක් එක් ප්‍රභවයේ ස්වාභාවික යතුර තමන්ගේම ගුණාංගයට වැටෙන අතර ස්වාධීනව පැටවීමේදී භාවිතා කළ හැක. අනෙක් සියල්ල.

නමුත් මෙහි එක් ද්‍රෝහී කරුණක් ද තිබේ: විවිධ පද්ධතිවල ගුණාංග එක් ආයතනයක ඒකාබද්ධ වන්නේ නම්, බොහෝ විට සමහරක් තිබේ. "ඇලවීම" නීති, විවිධ මූලාශ්‍රවලින් වාර්තා ආයතනයේ එක් අවස්ථාවකට අනුරූප වන බව පද්ධතිය තේරුම් ගත යුතුය.

В දත්ත ගබඩාව මෙම නීති බොහෝ විට ගොඩනැගීම තීරණය කරනු ඇත ප්‍රධාන ආයතනයේ "ආදේශක කේන්ද්‍රය" සහ ස්වභාවික මූලාශ්‍ර යතුරු සහ ඒවායේ මුල් ගුණාංග ගබඩා කරන මධ්‍යස්ථානවලට කිසිදු ආකාරයකින් බලපෑම් නොකරයි. යම් අවස්ථාවක දී ඒකාබද්ධ කිරීමේ නීති වෙනස් වුවහොත් (හෝ එය සිදු කරන ගුණාංග යාවත්කාලීන කර ඇත), එය ආදේශක මධ්‍යස්ථාන නැවත හැඩගැස්වීමට ප්‍රමාණවත් වේ.

В ඇන්කර් ආකෘතිය එවැනි ආයතනයක් බොහෝ විට ගබඩා වනු ඇත එකම නැංගුරම. මෙයින් අදහස් කරන්නේ සියලු ගුණාංග, ඒවා කුමන මූලාශ්‍රයකින් පැමිණියද, එකම ආදේශකයකට බැඳී ඇති බවයි. වැරදි ලෙස ඒකාබද්ධ කළ වාර්තා වෙන් කිරීම සහ පොදුවේ ගත් කල, එවැනි පද්ධතියක ඒකාබද්ධ වීමේ අදාළත්වය නිරීක්ෂණය කිරීම වඩා දුෂ්කර විය හැකිය, විශේෂයෙන් නීති තරමක් සංකීර්ණ නම් සහ නිතර වෙනස් වන අතර එකම ගුණාංගය විවිධ ප්‍රභවයන්ගෙන් ලබා ගත හැකිය (එය නිසැකවම වුවද. හැකි, එක් එක් ගුණාංග අනුවාදය එහි මූලාශ්‍රය වෙත සබැඳියක් රඳවා තබා ගන්නා බැවින්).

ඕනෑම අවස්ථාවක, ඔබේ පද්ධතිය ක්‍රියාකාරීත්වය ක්‍රියාත්මක කිරීමට අදහස් කරන්නේ නම් අඩු කිරීම, වාර්තා ඒකාබද්ධ කිරීම සහ අනෙකුත් MDM මූලද්‍රව්‍ය, කඩිසර ක්‍රමවේදවල ස්වාභාවික යතුරු ගබඩා කිරීමේ අංශ කෙරෙහි විශේෂ අවධානයක් යොමු කිරීම වටී. ඒකාබද්ධ කිරීමේ දෝෂ අනුව විශාල Data Vault සැලසුම හදිසියේම ආරක්ෂිත වනු ඇත.

ඇන්කර් ආකෘතිය නමින් අතිරේක වස්තු වර්ගයක් ද සපයයි ගැටය එය අත්‍යවශ්‍යයෙන්ම විශේෂයි පිරිහුණු නැංගුරම් වර්ගය, එක් ගුණාංගයක් පමණක් අඩංගු විය හැක. පැතලි නාමාවලි ගබඩා කිරීම සඳහා නෝඩ් භාවිතා කළ යුතු වේ (උදාහරණයක් ලෙස, ස්ත්‍රී පුරුෂ භාවය, විවාහක තත්ත්වය, පාරිභෝගික සේවා කාණ්ඩය, ආදිය). ඇන්කර් මෙන් නොව ගැටය සම්බන්ධිත ගුණාංග වගු නොමැත, සහ එහි එකම ගුණාංගය (නම) සෑම විටම යතුර සමඟ එකම වගුවේ ගබඩා කර ඇත. ඇන්කර් එකිනෙක සම්බන්ධ කර ඇති ආකාරයටම ටයි ටේබල් (ටයි) මගින් නෝඩ් ඇන්කර් වෙත සම්බන්ධ කර ඇත.

Nodes භාවිතය සම්බන්ධයෙන් පැහැදිලි මතයක් නොමැත. උදාහරණ වශයෙන්, නිකොලායි ගොලොව්, රුසියාවේ ඇන්කර් මොඩලය භාවිතය සක්‍රීයව ප්‍රවර්ධනය කරන, විශ්වාස කරන්නේ (අසාධාරණ ලෙස නොවේ) එක පරිශීලන පොතක් සඳහා එය නිශ්චිතවම ප්‍රකාශ කළ නොහැකි බවයි. හැම විටම ස්ථිතික සහ තනි මට්ටමේ වනු ඇත, එබැවින් සියලු වස්තූන් සඳහා සම්පූර්ණ නැංගුරමක් වහාම භාවිතා කිරීම වඩා හොඳය.

Data Vault සහ Anchor මාදිලිය අතර ඇති තවත් වැදගත් වෙනසක් වන්නේ ලබා ගැනීමේ හැකියාවයි සම්බන්ධතා වල ගුණාංග:

В දත්ත ගබඩාව සබැඳි යනු මධ්‍යස්ථානවලට සමාන පූර්ණ-පරිපූර්ණ වස්තු වන අතර ඒවා තිබිය හැක තමන්ගේම ගුණාංග. මෙම ඇන්කර් ආකෘතිය සබැඳි භාවිතා කරනු ලබන්නේ ඇන්කර් සම්බන්ධ කිරීමට පමණි ඔවුන්ගේම ගුණාංග තිබිය නොහැක. මෙම වෙනස සැලකිය යුතු ලෙස වෙනස් ආකෘති ප්රවේශයන් ඇති කරයි කරුණු, එය තවදුරටත් සාකච්ඡා කරනු ඇත.

කරුණු ගබඩා කිරීම

මීට පෙර, අපි ප්රධාන වශයෙන් මිනුම් ආකෘති නිර්මාණය ගැන කතා කළා. කරුණු ටිකක් පැහැදිලි අඩුයි.

В දත්ත ගබඩාව කරුණු ගබඩා කිරීම සඳහා සාමාන්ය වස්තුවකි සබැඳිය, එහි චන්ද්‍රිකාවල සැබෑ දර්ශක එකතු වේ.

මෙම ප්රවේශය අවබෝධාත්මක බව පෙනේ. එය විශ්ලේෂණය කරන ලද දර්ශක වෙත පහසු ප්‍රවේශයක් සපයන අතර සාමාන්‍යයෙන් සාම්ප්‍රදායික කරුණු වගුවකට සමාන වේ (දර්ශක පමණක් ගබඩා කර ඇත්තේ වගුවේ නොව “අසල්වැසි” වගුවේ ය). නමුත් අන්තරායන් ද ඇත: ආකෘතියේ සාමාන්‍ය වෙනස් කිරීම් වලින් එකක් - කරුණු යතුර පුළුල් කිරීම - අවශ්‍ය වේ සබැඳියට නව විදේශීය යතුරක් එක් කිරීම. මෙය, අනෙක් අතට, මොඩියුලරිටි "බිඳ" කරන අතර අනෙකුත් වස්තූන් සඳහා වෙනස් කිරීම් සඳහා අවශ්යතාවය ඇති කරයි.

В ඇන්කර් ආකෘතිය සම්බන්ධතාවයකට තමන්ගේම ගුණාංග තිබිය නොහැක, එබැවින් මෙම ප්‍රවේශය ක්‍රියා නොකරනු ඇත - නියත වශයෙන්ම සියලුම ගුණාංග සහ දර්ශක එක් නිශ්චිත නැංගුරමකට සම්බන්ධ කළ යුතුය. මෙයින් නිගමනය සරලයි - සෑම කරුණකටම තමන්ගේම නැංගුරම අවශ්‍ය වේ. අපි කරුණු ලෙස වටහා ගැනීමට පුරුදු වී සිටින සමහර දේ සඳහා, මෙය ස්වාභාවික ලෙස පෙනෙනු ඇත - නිදසුනක් ලෙස, මිලදී ගැනීමක කාරණය “ඇණවුම” හෝ “රිසිට්පත”, සැසියකට වෙබ් අඩවියක් නැරඹීම යනාදිය දක්වා පරිපූර්ණ ලෙස අඩු කළ හැකිය. නමුත් එවැනි ස්වාභාවික “වාහක වස්තුවක්” සොයා ගැනීම එතරම් පහසු නොවන කරුණු ද තිබේ - නිදසුනක් ලෙස, සෑම දිනකම ආරම්භයේදී ගබඩාවල ඇති භාණ්ඩවල නටබුන්.

ඒ අනුව, ඇන්කර් ආකෘතියේ කරුණු යතුරක් පුළුල් කිරීමේදී මොඩියුලරිටි පිළිබඳ ගැටළු මතු නොවේ (අනුරූප නැංගුරමට නව සම්බන්ධතාවයක් එක් කිරීම ප්‍රමාණවත් වේ), නමුත් කරුණු ප්‍රදර්ශනය කිරීම සඳහා ආකෘතියක් සැලසුම් කිරීම නොපැහැදිලි ය; “කෘතිම” නැංගුරම් දිස්විය හැකිය. ව්‍යාපාර වස්තු ආකෘතිය අපැහැදිලි ආකාරයකින් ප්‍රදර්ශනය කරයි.

නම්‍යශීලී බව අත්කර ගන්නා ආකාරය

මෙම අවස්ථා දෙකෙහිම ප්රතිඵලයක් ලෙස ඉදි කිරීම් අඩංගු වේ සැලකිය යුතු ලෙස වැඩි වගුසාම්ප්රදායික මිනුම් වලට වඩා. නමුත් එය ගත විය හැක සැලකිය යුතු ලෙස අඩු තැටි ඉඩ සාම්ප්‍රදායික මානය ලෙස අනුවාදිත ගුණාංග සමූහයක් සමඟින්. ස්වාභාවිකවම, මෙහි මැජික් නොමැත - ඒ සියල්ල සාමාන්‍යකරණය ගැන ය. චන්ද්‍රිකා (දත්ත සුරක්ෂිතාගාරයේ) හෝ තනි වගු (Anchor Model) හරහා උපලක්ෂණ බෙදා හැරීමෙන්, අපි අඩු කරමු (හෝ සම්පූර්ණයෙන්ම ඉවත් කරන්න) අනෙක් ගුණාංග වෙනස් කිරීමේදී සමහර ගුණාංගවල අගයන් අනුපිටපත් කිරීම.

සඳහා දත්ත ගබඩාව ජයග්‍රහණ චන්ද්‍රිකා අතර ගුණාංග බෙදා හැරීම මත රඳා පවතී ඇන්කර් ආකෘතිය - මිනුම් වස්තුවකට අනුවාදවල සාමාන්‍ය සංඛ්‍යාවට සෘජුවම සමානුපාතික වේ.

කෙසේ වෙතත්, අවකාශ ඉතිරිකිරීම් වැදගත්, නමුත් ප්‍රධාන නොවේ, ගුණාංග වෙන වෙනම ගබඩා කිරීමේ වාසිය. සබඳතා වෙනම ගබඩා කිරීම සමඟ එක්ව, මෙම ප්රවේශය ගබඩා කරයි මොඩියුලර් නිර්මාණය. මෙයින් අදහස් කරන්නේ එවැනි ආකෘතියක් තුළ තනි පුද්ගල ගුණාංග සහ සම්පූර්ණ නව විෂය ක්ෂේත්‍ර දෙකම එකතු කිරීම පෙනෙන බවයි උපරි ව්යුහය පවතින වස්තු සමූහයක් මත ඒවා වෙනස් නොකර. විස්තර කරන ලද ක්‍රමවේදයන් නම්‍යශීලී කරන්නේ මෙයයි.

මෙය කෑලි නිෂ්පාදනයේ සිට මහා පරිමාණ නිෂ්පාදනය දක්වා සංක්‍රමණයට සමාන වේ - සාම්ප්‍රදායික ප්‍රවේශයේ දී ආකෘතියේ සෑම වගුවක්ම අද්විතීය වන අතර විශේෂ අවධානයක් අවශ්‍ය නම්, නම්‍යශීලී ක්‍රමවේදයන් තුළ එය දැනටමත් සම්මත “කොටස්” සමූහයකි. එක් අතකින්, තවත් වගු ඇති අතර, දත්ත පැටවීමේ සහ ලබා ගැනීමේ ක්රියාවලීන් වඩාත් සංකීර්ණ විය යුතුය. අනෙක් අතට, ඔවුන් බවට පත් වේ සාමාන්ය. ඒ කියන්නේ තියෙන්න පුළුවන් ස්වයංක්‍රීය සහ පාර-දත්ත ධාවනය වේ. “අපි එය තබන්නේ කෙසේද?” යන ප්‍රශ්නය, වැඩිදියුණු කිරීම් සැලසුම් කිරීමේ කාර්යයේ සැලකිය යුතු කොටසක් ගත හැකි පිළිතුර දැන් එය වටින්නේ නැත (මෙන්ම වැඩ ක්‍රියාවලීන්ට ආකෘතිය වෙනස් කිරීමේ බලපෑම පිළිබඳ ප්‍රශ්නය )

එවැනි පද්ධතියක විශ්ලේෂකයින් කිසිසේත් අවශ්‍ය නොවන බව මින් අදහස් නොවේ - යමෙකුට තවමත් ගුණාංග සහිත වස්තු සමූහය හරහා ක්‍රියා කළ යුතු අතර ඒ සියල්ල පූරණය කරන්නේ කොතැනද සහ කෙසේද යන්න සොයා බැලිය යුතුය. නමුත් වැඩ ප්රමාණය, මෙන්ම දෝෂයක සම්භාවිතාව සහ පිරිවැය සැලකිය යුතු ලෙස අඩු වේ. විශ්ලේෂණ අදියරේදී සහ ETL සංවර්ධනයේදී, සැලකිය යුතු කොටසක් පාර-දත්ත සංස්කරණය කිරීම දක්වා අඩු කළ හැකිය.

අදුරු පැත්ත

ඉහත සියල්ල ප්‍රවේශයන් දෙකම සැබවින්ම නම්‍යශීලී, තාක්‍ෂණිකව දියුණු සහ පුනරාවර්තන වැඩිදියුණු කිරීම් සඳහා සුදුසු කරයි. ඇත්ත වශයෙන්ම, "තෙල්වල බැරලයක්" ද ඇත, මම හිතන්නේ ඔබට දැනටමත් අනුමාන කළ හැකිය.

දත්ත වියෝජනය, නම්‍යශීලී ගෘහ නිර්මාණ ශිල්පයේ මොඩියුලර්ට යටින්, වගු සංඛ්‍යාව වැඩිවීමට සහ ඒ අනුව, ඉහලින් නියැදීමේදී සම්බන්ධ වීමට. මානයක සියලු ගුණාංග සරලව ලබා ගැනීම සඳහා, සම්භාව්‍ය වෙළඳසැලක එක් තේරීමක් ප්‍රමාණවත් වේ, නමුත් නම්‍යශීලී ගෘහනිර්මාණ ශිල්පයකට සම්පූර්ණ සම්බන්ධක මාලාවක් අවශ්‍ය වේ. එපමණක්ද නොව, මේ සියල්ල වාර්තා සඳහා එකතු වන්නේ කල්තියා ලිවිය හැකි නම්, SQL අතින් ලිවීමට පුරුදු වී සිටින විශ්ලේෂකයින් දෙගුණයක් දුක් විඳිනු ඇත.

මෙම තත්ත්වය පහසු කරවන කරුණු කිහිපයක් තිබේ:

විශාල මානයන් සමඟ වැඩ කරන විට, එහි සියලු ගුණාංග එකවරම පාහේ භාවිතා නොවේ. මෙයින් අදහස් කරන්නේ ආකෘතියේ මුලින්ම බැලූ බැල්මට පෙනෙන ප්‍රමාණයට වඩා අඩු සම්බන්ධක තිබිය හැකි බවයි. Data Vault චන්ද්‍රිකා සඳහා උපලක්ෂණ වෙන් කිරීමේදී බෙදාගැනීමේ අපේක්ෂිත සංඛ්‍යාතය ද සැලකිල්ලට ගත හැක. ඒ අතරම, හබ්ස් හෝ නැංගුරම් ප්‍රධාන වශයෙන් පැටවීමේ අදියරේදී ආදේශක උත්පාදනය සහ සිතියම්ගත කිරීම සඳහා අවශ්‍ය වන අතර විමසුම් වලදී කලාතුරකින් භාවිතා වේ (මෙය ඇන්කර් සඳහා විශේෂයෙන් සත්‍ය වේ).

සියලුම සම්බන්ධ කිරීම් යතුරෙන්. මීට අමතරව, දත්ත ගබඩා කිරීමේ වඩාත් “සම්පීඩිත” ක්‍රමයක් මඟින් ස්කෑනිං වගු අවශ්‍ය ස්ථානවල උඩිස් අඩු කරයි (උදාහරණයක් ලෙස, ගුණාංග අගය අනුව පෙරීමේදී). මෙය සාමාන්‍යකරණය කළ දත්ත සමුදායකින් සම්බන්ධ කිරීම් පොකුරක් සමඟ නියැදීම පේළියකට බොහෝ අනුවාද සහිත එක් බර මානයක් පරිලෝකනය කිරීමට වඩා වේගවත් වනු ඇති බවට හේතු විය හැක.

උදාහරණයක් ලෙස, මෙහි මේ එක් වගුවකින් නියැදියක් සහිත ඇන්කර් ආකෘතියේ කාර්ය සාධනය පිළිබඳ සවිස්තරාත්මක සංසන්දනාත්මක පරීක්ෂණයක් ලිපියේ අඩංගු වේ.

බොහෝ දේ එන්ජිම මත රඳා පවතී. බොහෝ නවීන වේදිකාවල අභ්‍යන්තර සම්බන්ධ වීමේ ප්‍රශස්තකරණ යාන්ත්‍රණ ඇත. උදාහරණයක් ලෙස, MS SQL සහ Oracle හට ඔවුන්ගේ දත්ත වෙනත් සම්බන්ධක සඳහා හැර වෙනත් ඕනෑම තැනක භාවිතා නොකරන්නේ නම් සහ අවසාන තේරීමට (වගුව/එකතු වීම තුරන් කිරීම) සහ MPP Vertica වලට බලපාන්නේ නැතිනම් වගු වෙත සම්බන්ධ වීම "මඟ හැරිය හැක". Avito හි සගයන්ගේ අත්දැකීම්, විමසුම් සැලැස්මේ යම් අතින් ප්‍රශස්තිකරණයක් ලබා දී ඇන්කර් මොඩලය සඳහා විශිෂ්ට එන්ජිමක් බව ඔප්පු වී ඇත. අනෙක් අතට, ඇන්කර් ආකෘතිය ගබඩා කිරීම, උදාහරණයක් ලෙස, සීමිත සම්බන්ධක සහය ඇති ක්ලික් හවුස් හි ගබඩා කිරීම තවමත් ඉතා හොඳ අදහසක් ලෙස නොපෙනේ.

මීට අමතරව, ගෘහ නිර්මාණ ශිල්පය දෙකම සඳහා ඇත විශේෂ චලනයන්, දත්ත ප්‍රවේශය පහසු කිරීම (විමසුම් කාර්ය සාධන ආස්ථානයෙන් සහ අවසාන පරිශීලකයින් සඳහා). උදාහරණ වශයෙන්, Point-In-Time වගු දත්ත සුරක්ෂිතාගාරයේ හෝ විශේෂ වගු කාර්යයන් ඇන්කර් ආකෘතියේ.

එකතුව

සලකා බලන ලද නම්යශීලී ගෘහ නිර්මාණ ශිල්පයේ ප්රධාන සාරය වන්නේ ඔවුන්ගේ "නිර්මාණයේ" මොඩියුලරියයි.

ඉඩ දෙන්නේ මෙම දේපලයි:

  • පාර-දත්ත යෙදවීම හා මූලික ETL ඇල්ගොරිතම ලිවීම සම්බන්ධ මූලික සූදානමකින් පසුව, ඉක්මනින් පාරිභෝගිකයාට පළමු ප්‍රතිඵලය ලබා දෙන්න මූලාශ්‍ර වස්තු කිහිපයක දත්ත අඩංගු වාර්තා කිහිපයක ස්වරූපයෙන්. සම්පූර්ණ වස්තුවේ ආකෘතිය (ඉහළ මට්ටමේ පවා) සම්පූර්ණයෙන්ම සිතීම අවශ්ය නොවේ.
  • දත්ත ආකෘතියකට වස්තු 2-3ක් සමඟ ක්‍රියා කිරීම ආරම්භ කළ හැක (සහ ප්‍රයෝජනවත් විය හැක), පසුව ක්රමයෙන් වර්ධනය වේ (ඇන්කර් ආකෘතිය නිකොලායි සම්බන්ධයෙන් අයදුම් කළා mycelium සමඟ හොඳ සංසන්දනය).
  • විෂය ක්ෂේත්‍රය පුළුල් කිරීම සහ නව මූලාශ්‍ර එකතු කිරීම ඇතුළුව බොහෝ වැඩිදියුණු කිරීම් පවතින ක්රියාකාරිත්වයට බලපාන්නේ නැති අතර දැනටමත් වැඩ කරන දෙයක් බිඳ දැමීමේ අවදානමක් නැත.
  • සම්මත මූලද්‍රව්‍ය බවට වියෝජනය වීම නිසා, එවැනි පද්ධතිවල ETL ක්‍රියාවලීන් එක හා සමානයි, ඒවායේ ලිවීම ඇල්ගොරිතමීකරණයට සහ අවසානයේ දී ස්වයංක්රීයකරණය.

මෙම නම්යශීලී මිල වේ කාර්ය සාධනය. එවැනි ආකෘති මත පිළිගත හැකි කාර්ය සාධනයක් ලබා ගැනීමට නොහැකි බව මින් අදහස් නොවේ. බොහෝ විට, ඔබට අවශ්‍ය ප්‍රමිතික සාක්ෂාත් කර ගැනීම සඳහා ඔබට වැඩි උත්සාහයක් සහ අවධානයක් අවශ්‍ය විය හැකිය.

යෙදුම්

ආයතන වර්ග දත්ත ගබඩාව

Agile DWH සැලසුම් ක්‍රමවේද පිළිබඳ දළ විශ්ලේෂණය

දත්ත ගබඩාව පිළිබඳ වැඩි විස්තර:
Dan Lystadt ගේ වෙබ් අඩවිය
රුසියානු භාෂාවෙන් දත්ත සුරක්ෂිතාගාරය පිළිබඳ සියල්ල
Habré මත Data Vault ගැන

ආයතන වර්ග ඇන්කර් ආකෘතිය

Agile DWH සැලසුම් ක්‍රමවේද පිළිබඳ දළ විශ්ලේෂණය

ඇන්කර් ආකෘතිය පිළිබඳ වැඩි විස්තර:

ඇන්කර් ආකෘතියේ නිර්මාතෘවරුන්ගේ වෙබ් අඩවිය
Avito හි Anchor Model ක්රියාත්මක කිරීමේ අත්දැකීම් පිළිබඳ ලිපිය

සලකා බැලූ ප්‍රවේශයන්ගේ පොදු ලක්ෂණ සහ වෙනස්කම් සහිත සාරාංශ වගුව:

Agile DWH සැලසුම් ක්‍රමවේද පිළිබඳ දළ විශ්ලේෂණය

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න