ගෘහස්ථ දත්ත පාලනය

හෙලෝ, හබ්ර්!

දත්ත යනු සමාගමක වටිනාම වත්කමයි. ඩිජිටල් අවධානයක් ඇති සෑම සමාගමක්ම පාහේ මෙය ප්‍රකාශ කරයි. මේ සමඟ තර්ක කිරීමට අපහසුය: දත්ත කළමනාකරණය, ගබඩා කිරීම සහ සැකසීම සඳහා ප්රවේශයන් සාකච්ඡා නොකර එක් ප්රධාන තොරතුරු තාක්ෂණ සම්මන්ත්රණයක් පවත්වනු නොලැබේ.

දත්ත අප වෙත පැමිණෙන්නේ පිටතින්, එය සමාගම තුළ ද ජනනය වන අතර, අපි ටෙලිකොම් සමාගමක දත්ත ගැන කතා කරන්නේ නම්, අභ්‍යන්තර සේවකයින් සඳහා මෙය සේවාදායකයා, ඔහුගේ රුචිකත්වයන්, පුරුදු සහ ස්ථානය පිළිබඳ තොරතුරු ගබඩාවකි. නිසි පැතිකඩ සහ ඛණ්ඩනය සමග, ප්රචාරණ දීමනා වඩාත් ඵලදායී වේ. කෙසේ වෙතත්, ප්රායෝගිකව, සෑම දෙයක්ම එතරම් රෝස නොවේ. සමාගම් ගබඩා කරන දත්ත බලාපොරොත්තු රහිතව යල් පැන ගිය, අතිරික්ත, පුනරාවර්තන හෝ එහි පැවැත්ම පටු පරිශීලක කවයක් හැර කිසිවෙකු නොදන්නා විය හැකිය. ¯_(ツ)_/¯

ගෘහස්ථ දත්ත පාලනය
වචනයෙන් කියනවා නම්, දත්ත කාර්යක්ෂමව කළමනාකරණය කළ යුතුය - එවිට පමණක් එය ව්‍යාපාරයට සැබෑ ප්‍රතිලාභ සහ ලාභය ගෙන දෙන වත්කමක් බවට පත්වේ. අවාසනාවකට මෙන්, දත්ත කළමනාකරණ ගැටළු විසඳීම සඳහා බොහෝ සංකීර්ණතා ජය ගැනීම අවශ්ය වේ. ඒවාට ප්‍රධාන වශයෙන් හේතු වී ඇත්තේ පද්ධතිවල "සත්වෝද්‍යාන" ආකාරයෙන් ඓතිහාසික උරුමය සහ ඒවායේ කළමනාකරණය සඳහා ඒකාබද්ධ ක්‍රියාවලීන් සහ ප්‍රවේශයන් නොමැතිකමයි. නමුත් "දත්ත ධාවනය" යන්නෙන් අදහස් කරන්නේ කුමක්ද?

කප්පාදුව යටතේ අපි කතා කරන්නේ මෙය හරියටම මෙන්ම විවෘත මූලාශ්‍ර තොගය අපට උපකාර කළ ආකාරයයි.

උපාය මාර්ගික දත්ත කළමනාකරණ දත්ත පාලනය (DG) සංකල්පය රුසියානු වෙළෙඳපොළ තුළ දැනටමත් හොඳින් දන්නා අතර, එය ක්රියාත්මක කිරීමේ ප්රතිඵලයක් ලෙස ව්යාපාර විසින් අත්පත් කරගත් ඉලක්ක පැහැදිලි සහ පැහැදිලිව ප්රකාශ කර ඇත. අපගේ සමාගම ව්යතිරේකයක් නොවූ අතර දත්ත කළමනාකරණය පිළිබඳ සංකල්පය හඳුන්වාදීමේ කාර්යය තමන් විසින්ම සකසා ඇත.

ඉතින් අපි පටන් ගත්තේ කොහෙන්ද? ආරම්භ කිරීම සඳහා, අපි අප වෙනුවෙන් ප්‍රධාන ඉලක්ක සකස් කර ගත්තෙමු:

  1. අපගේ දත්ත ප්‍රවේශ විය හැකි ලෙස තබා ගන්න.
  2. දත්ත ජීවන චක්‍රයේ විනිවිදභාවය සහතික කිරීම.
  3. සමාගම් පරිශීලකයින්ට ස්ථාවර, ස්ථාවර දත්ත ලබා දෙන්න.
  4. සමාගම් පරිශීලකයින්ට සත්‍යාපිත දත්ත ලබා දෙන්න.

අද, මෘදුකාංග වෙළඳපොලේ Data Governance පන්ති මෙවලම් දුසිමක් ඇත.

ගෘහස්ථ දත්ත පාලනය

නමුත් විසඳුම් පිළිබඳ සවිස්තරාත්මක විශ්ලේෂණයකින් සහ අධ්‍යයනයකින් පසුව, අපි අපටම විවේචනාත්මක අදහස් ගණනාවක් සටහන් කළෙමු:

  • බොහෝ නිෂ්පාදකයින් විස්තීර්ණ විසඳුම් කට්ටලයක් ඉදිරිපත් කරයි, එය අපට අතිරික්ත වන අතර පවතින ක්‍රියාකාරීත්වය අනුපිටපත් කරයි. තවද, සම්පත් අනුව මිල අධික, වත්මන් තොරතුරු තාක්ෂණ භූ දර්ශනයට ඒකාබද්ධ වීම.
  • ක්‍රියාකාරීත්වය සහ අතුරුමුහුණත සැලසුම් කර ඇත්තේ තාක්‍ෂණවේදීන් සඳහා මිස ව්‍යාපාරික අවසන් පරිශීලකයන් සඳහා නොවේ.
  • නිෂ්පාදනවල අඩු පැවැත්මේ අනුපාතය සහ රුසියානු වෙළෙඳපොළේ සාර්ථක ක්රියාත්මක කිරීම් නොමැතිකම.
  • මෘදුකාංගයේ අධික පිරිවැය සහ වැඩිදුර සහාය.

රුසියානු සමාගම් සඳහා මෘදුකාංග ආනයනය කිරීම සම්බන්ධයෙන් ඉහත දක්වා ඇති නිර්ණායක සහ නිර්දේශයන් විවෘත මූලාශ්‍ර තොගයක් මත අපගේම සංවර්ධනයක් කරා යාමට අපට ඒත්තු ගැන්වීය. අපි තෝරා ගත් වේදිකාව වූයේ Python හි ලියා ඇති නිදහස් හා විවෘත මූලාශ්‍ර රාමුවක් වන Django ය. එබැවින් ඉහත සඳහන් කළ ඉලක්ක සඳහා දායක වන ප්‍රධාන මොඩියුල අපි හඳුනාගෙන ඇත:

  1. වාර්තා ලේඛනය.
  2. ව්යාපාර පාරිභාෂික ශබ්ද කෝෂය.
  3. තාක්ෂණික පරිවර්තනයන් විස්තර කිරීම සඳහා මොඩියුලය.
  4. මූලාශ්‍රයේ සිට BI මෙවලම දක්වා දත්ත ජීවන චක්‍රය විස්තර කිරීමේ මොඩියුලය.
  5. දත්ත තත්ත්ව පාලන මොඩියුලය.

ගෘහස්ථ දත්ත පාලනය

වාර්තා ලේඛනය

විශාල සමාගම්වල අභ්යන්තර අධ්යයන ප්රතිඵල අනුව, දත්ත සම්බන්ධ ගැටළු විසඳීමේදී, සේවකයින් ඔවුන්ගේ කාලයෙන් 40-80% ක් ඔවුන් සොයමින් සිටිති. එබැවින්, කලින් පාරිභෝගිකයින්ට පමණක් ලබා ගත හැකි පවතින වාර්තා පිළිබඳ විවෘත තොරතුරු සෑදීමේ කාර්යය අප විසින්ම සකසා ඇත. මේ අනුව, අපි නව වාර්තා ජනනය කිරීමේ කාලය අඩු කර දත්ත ප්‍රජාතන්ත්‍රීකරණය සහතික කරමු.

ගෘහස්ථ දත්ත පාලනය

වාර්තාකරණ ලේඛනය විවිධ කලාප, දෙපාර්තමේන්තු සහ අංශවල අභ්‍යන්තර පරිශීලකයින් සඳහා තනි වාර්තාකරණ කවුළුවක් බවට පත්ව ඇත. එය සමාගමේ ආයතනික ගබඩා කිහිපයක නිර්මාණය කර ඇති තොරතුරු සේවා පිළිබඳ තොරතුරු ඒකාබද්ධ කරන අතර ඒවායින් බොහොමයක් Rostelecom හි ඇත.

නමුත් රෙජිස්ට්රි යනු සංවර්ධිත වාර්තා වල වියළි ලැයිස්තුවක් පමණක් නොවේ. සෑම වාර්තාවක් සඳහාම, පරිශීලකයාට එය හුරුපුරුදු වීමට අවශ්‍ය තොරතුරු අපි සපයන්නෙමු:

  • වාර්තාවේ කෙටි විස්තරය;
  • දත්ත ලබා ගැනීමේ ගැඹුර;
  • පාරිභෝගික අංශය;
  • දෘශ්යකරණ මෙවලම;
  • ආයතනික ගබඩාවේ නම;
  • ව්යාපාර ක්රියාකාරී අවශ්යතා;
  • වාර්තාවට සබැඳිය;
  • ප්රවේශය සඳහා යෙදුම වෙත සබැඳිය;
  • ක්රියාත්මක කිරීමේ තත්ත්වය.

වාර්තා සඳහා භාවිත මට්ටමේ විශ්ලේෂණ ලබා ගත හැකි අතර, අනන්‍ය පරිශීලකයින් සංඛ්‍යාව මත පදනම්ව ලොග් විශ්ලේෂණ මත පදනම්ව වාර්තා ලැයිස්තුවේ ඉහළින්ම ශ්‍රේණිගත කර ඇත. සහ එය නොවේ. සාමාන්‍ය ලක්ෂණ වලට අමතරව, අපි අගයන් සහ ගණනය කිරීමේ ක්‍රම පිළිබඳ උදාහරණ සමඟ වාර්තාවල ගුණාංග සංයුතිය පිළිබඳ සවිස්තරාත්මක විස්තරයක් ද ලබා දී ඇත. එවැනි විස්තරයක් පරිශීලකයාට වාර්තාව ඔහුට ප්‍රයෝජනවත්ද නැද්ද යන්න පිළිබඳව වහාම පිළිතුරක් ලබා දෙයි.

මෙම මොඩියුලය සංවර්ධනය කිරීම දත්ත ප්‍රජාතන්ත්‍රීකරණයේ වැදගත් පියවරක් වූ අතර අවශ්‍ය තොරතුරු සොයා ගැනීමට ගතවන කාලය සැලකිය යුතු ලෙස අඩු කළේය. සෙවුම් කාලය අඩු කිරීමට අමතරව, උපදේශන ලබා දීම සඳහා සහායක කණ්ඩායම වෙත ඉල්ලීම් ද අඩු වී ඇත. විවිධ ව්‍යුහාත්මක ඒකක සඳහා අනුපිටපත් වාර්තා සංවර්ධනය වැලැක්වීම - ඒකීය වාර්තා ලේඛනයක් සංවර්ධනය කිරීමෙන් අප ලබා ගත් තවත් ප්‍රයෝජනවත් ප්‍රති result ලයක් සටහන් කළ නොහැක.

ව්යාපාර පාරිභාෂික ශබ්දකෝෂය

එකම සමාගම තුළ පවා ව්‍යාපාර විවිධ භාෂා කතා කරන බව ඔබ කවුරුත් දන්නවා. ඔව්, ඔවුන් එකම නියමයන් භාවිතා කරයි, නමුත් ඒවා සම්පූර්ණයෙන්ම වෙනස් දේවල් අදහස් කරයි. මෙම ගැටළුව විසඳීම සඳහා ව්යාපාර පාරිභාෂික ශබ්ද මාලාවක් නිර්මාණය කර ඇත.

අපට, ව්‍යාපාර පාරිභාෂික ශබ්ද කෝෂයක් යනු නියමයන් සහ ගණනය කිරීමේ ක්‍රමවේදය පිළිබඳ විස්තරයක් සහිත විමර්ශන පොතක් පමණක් නොවේ. මෙය පාරිභාෂිතය සංවර්ධනය කිරීම, එකඟ වීම සහ අනුමත කිරීම, සමාගමේ නියමයන් සහ අනෙකුත් තොරතුරු වත්කම් අතර සබඳතා ගොඩනඟා ගැනීම සඳහා පූර්ණ පරිසරයකි. ව්‍යාපාරික පාරිභාෂික ශබ්ද මාලාවට ඇතුළු වීමට පෙර, ව්‍යාපාරික පාරිභෝගිකයින් සහ දත්ත තත්ත්ව මධ්‍යස්ථානය සමඟ යෙදුම අනුමත කිරීමේ සියලු අදියරයන් හරහා යා යුතුය. මෙයින් පසුව පමණක් එය භාවිතය සඳහා ලබා ගත හැකිය.

මා ඉහත ලියා ඇති පරිදි, මෙම මෙවලමෙහි සුවිශේෂත්වය නම්, එය ව්‍යාපාරික පදයක මට්ටමේ සිට එය භාවිතා කරන විශේෂිත පරිශීලක වාර්තා දක්වා මෙන්ම භෞතික දත්ත සමුදා වස්තු මට්ටම දක්වා සම්බන්ධතා වලට ඉඩ සලසයි.

ගෘහස්ථ දත්ත පාලනය

රෙජිස්ට්‍රි වාර්තා පිළිබඳ සවිස්තරාත්මක විස්තරය සහ භෞතික දත්ත සමුදා වස්තු පිළිබඳ විස්තරය තුළ පාරිභාෂික පද හඳුනාගැනීම් භාවිතා කිරීම තුළින් මෙය කළ හැකි වේ.

දැනට, පදමාලාවේ නියමයන් 4000කට වඩා අර්ථ දක්වා ඇති අතර එකඟ වී ඇත. එහි භාවිතය සමාගමේ තොරතුරු පද්ධතිවල වෙනස්කම් සඳහා ලැබෙන ඉල්ලීම් සැකසීම සරල කර වේගවත් කරයි. ඕනෑම වාර්තාවක අවශ්‍ය දර්ශකය දැනටමත් ක්‍රියාත්මක කර ඇත්නම්, පරිශීලකයා මෙම දර්ශකය භාවිතා කරන සූදානම් කළ වාර්තා කට්ටලයක් වහාම දකිනු ඇති අතර, ආරම්භයකින් තොරව පවතින ක්‍රියාකාරීත්වය ඵලදායී ලෙස නැවත භාවිතා කිරීම හෝ එහි අවම වෙනස් කිරීම තීරණය කිරීමට හැකි වනු ඇත. නව වාර්තාවක් සංවර්ධනය කිරීම සඳහා නව ඉල්ලීම්.

තාක්ෂණික පරිවර්තනයන් සහ DataLineage විස්තර කිරීමේ මොඩියුලය

මෙම මොඩියුල මොනවාද, ඔබ අසයි? වාර්තා ලේඛනය සහ පාරිභාෂික ශබ්ද මාලාව සරලව ක්‍රියාත්මක කිරීම පමණක් ප්‍රමාණවත් නොවේ; භෞතික දත්ත සමුදා ආකෘතිය මත සියලුම ව්‍යාපාරික නියමයන් පදනම් කිරීම ද අවශ්‍ය වේ. මේ අනුව, දත්ත ගබඩාවේ සියලුම ස්ථර හරහා මූලාශ්‍ර පද්ධතිවල සිට BI දෘශ්‍යකරණය දක්වා දත්ත ජීවන චක්‍රය සැකසීමේ ක්‍රියාවලිය සම්පූර්ණ කිරීමට අපට හැකි විය. වෙනත් වචන වලින් කිවහොත්, DataLineage එකක් සාදන්න.

දත්ත පරිවර්තනයේ නීති සහ තර්කනය විස්තර කිරීම සඳහා සමාගමෙහි කලින් භාවිතා කළ ආකෘතිය මත පදනම්ව අපි අතුරු මුහුණතක් සකස් කළෙමු. පෙර පරිදිම අතුරුමුහුණත හරහා එම තොරතුරු ඇතුළත් කර ඇත, නමුත් ව්‍යාපාර පාරිභාෂික ශබ්ද කෝෂයේ සිට හඳුනාගැනීම යන පදය අර්ථ දැක්වීම පූර්ව අවශ්‍යතාවයක් වී ඇත. අපි ව්‍යාපාර සහ භෞතික ස්ථර අතර සම්බන්ධතාවයක් ගොඩනඟන්නේ එලෙසයි.

එය අවශ්ය වන්නේ කාටද? ඔබ වසර ගණනාවක් වැඩ කළ පැරණි ආකෘතියේ වැරැද්ද කුමක්ද? උත්පාදන අවශ්‍යතා සඳහා ශ්‍රම පිරිවැය කොපමණ වැඩි වී තිබේද? මෙවලම ක්‍රියාත්මක කිරීමේදී අපට එවැනි ප්‍රශ්න සමඟ කටයුතු කිරීමට සිදු විය. මෙහි පිළිතුරු ඉතා සරලයි - අප සැමට මෙය අවශ්‍ය වේ, අපගේ සමාගමේ දත්ත කාර්යාලය සහ අපගේ පරිශීලකයින්.

ඇත්ත වශයෙන්ම, සේවකයින්ට අනුවර්තනය වීමට සිදු විය; මුලදී, මෙය ලේඛන සකස් කිරීම සඳහා ශ්රම පිරිවැය සුළු වශයෙන් වැඩි කිරීමට හේතු විය, නමුත් අපි මෙම ගැටළුව විසඳා ඇත. පුහුණුවීම්, ගැටළු සහිත ප්රදේශ හඳුනා ගැනීම සහ ප්රශස්ත කිරීම ඔවුන්ගේ කාර්යය ඉටු කර ඇත. අපි ප්රධාන දෙය සාක්ෂාත් කර ගෙන ඇත - අපි සංවර්ධිත අවශ්යතා වල ගුණාත්මකභාවය වැඩිදියුණු කර ඇත. අනිවාර්ය ක්ෂේත්‍ර, ඒකාබද්ධ විමර්ශන පොත්, ආදාන ආවරණ, බිල්ට් චෙක්පත් - මේ සියල්ල පරිවර්තන විස්තරවල ගුණාත්මකභාවය සැලකිය යුතු ලෙස වැඩිදියුණු කිරීමට හැකි විය. සංවර්ධන අවශ්‍යතා ලෙස ස්ක්‍රිප්ට් භාරදීමේ පුරුද්දෙන් අපි ඉවත් වී සංවර්ධන කණ්ඩායමට පමණක් තිබූ දැනුම බෙදා ගත්තෙමු. උත්පාදනය කරන ලද පාර-දත්ත දත්ත සමුදාය ප්‍රතිගාමී විශ්ලේෂණය කිරීමට අවශ්‍ය කාලය සැලකිය යුතු ලෙස අඩු කරන අතර තොරතුරු තාක්ෂණ භූ දර්ශනයේ (ප්‍රදර්ශන වාර්තා, එකතු කිරීම්, මූලාශ්‍ර) ඕනෑම ස්ථරයක වෙනස්කම්වල බලපෑම ඉක්මනින් තක්සේරු කිරීමේ හැකියාව සපයයි.

සාමාන්‍ය වාර්තා භාවිතා කරන්නන් සමඟ මෙයට ඇති සම්බන්ධය කුමක්ද, ඔවුන්ට ඇති වාසි මොනවාද? DataLineage ගොඩ නැගීමේ හැකියාවට ස්තූතිවන්ත වන්නට, අපගේ පරිශීලකයින්ට, SQL සහ වෙනත් ක්‍රමලේඛන භාෂාවලින් ඈත්ව සිටින අයට පවා, විශේෂිත වාර්තාවක් ජනනය කරන ප්‍රභවයන් සහ වස්තූන් පිළිබඳ තොරතුරු ඉක්මනින් ලබා ගනී.

දත්ත තත්ත්ව පාලන මොඩියුලය

දත්ත විනිවිදභාවය සහතික කිරීම සම්බන්ධයෙන් අප ඉහත කතා කළ සෑම දෙයක්ම වැදගත් වන්නේ අප පරිශීලකයින්ට ලබා දෙන දත්ත නිවැරදි බව තේරුම් නොගෙනය. අපගේ දත්ත පාලන සංකල්පයේ එක් වැදගත් මොඩියුලයක් වන්නේ දත්ත තත්ත්ව පාලන මොඩියුලයයි.

වත්මන් අදියරේදී, මෙය තෝරාගත් ආයතන සඳහා චෙක්පත් නාමාවලියකි. නිෂ්පාදන සංවර්ධනය සඳහා ක්ෂණික ඉලක්කය වන්නේ චෙක්පත් ලැයිස්තුව පුළුල් කිරීම සහ වාර්තාකරණ ලේඛනය සමඟ ඒකාබද්ධ කිරීමයි.
එය ලබා දෙන්නේ කුමක්ද සහ කාටද? රෙජිස්ට්‍රියේ අවසාන පරිශීලකයාට වාර්තා සූදානමේ සැලසුම්ගත සහ සත්‍ය දිනයන්, ගතිකත්වය සමඟ සම්පුර්ණ කරන ලද චෙක්පත් වල ප්‍රතිඵල සහ වාර්තාවට පටවා ඇති මූලාශ්‍ර පිළිබඳ තොරතුරු වෙත ප්‍රවේශය ඇත.

අප සඳහා, අපගේ වැඩ ක්‍රියාවලීන්ට ඒකාබද්ධ කර ඇති දත්ත තත්ත්ව මොඩියුලය වන්නේ:

  • පාරිභෝගික අපේක්ෂාවන් ඉක්මනින් ගොඩනැගීම.
  • දත්ත තවදුරටත් භාවිතා කිරීම පිළිබඳ තීරණ ගැනීම.
  • නිත්‍ය තත්ත්ව පාලනයන් වර්ධනය කිරීම සඳහා වැඩ කිරීමේ ආරම්භක අදියරේදී මූලික ගැටළු සහගත කරුණු සමූහයක් ලබා ගැනීම.

ඇත්ත වශයෙන්ම, මේවා සම්පූර්ණ දත්ත කළමනාකරණ ක්‍රියාවලියක් ගොඩනැගීමේ පළමු පියවර වේ. නමුත් මෙම කාර්යය හිතාමතාම සිදු කිරීමෙන් පමණක්, වැඩ ක්‍රියාවලියට දත්ත පාලන මෙවලම් ක්‍රියාකාරීව හඳුන්වා දීමෙන් පමණක්, අපි අපගේ ගනුදෙනුකරුවන්ට තොරතුරු අන්තර්ගතය, දත්ත පිළිබඳ ඉහළ විශ්වාසයක්, ඔවුන්ගේ ලැබීම්වල විනිවිදභාවය සහ දියත් කිරීමේ වේගය වැඩි කරන බව අපට විශ්වාසයි. නව ක්රියාකාරිත්වය.

DataOffice කණ්ඩායම

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න