දත්ත අංශය. වසර 2013. අතීතාවර්ජනය

2013 වර්ෂය තුළ හොඳින් මල පිට, එය පසුව නිර්මාණය කරන බවක් පෙනෙන්නට තිබුණි දත්ත අංශය, බිග් ඩේටා සහ සාමාන්‍යයෙන් දත්තවල ගැටලුකාරී ප්‍රදේශය සම්බන්ධයෙන් (විශේෂයෙන්ම ආයතනික තෙල් සහ ගෑස් පාරිභෝගිකයින් සමඟ අන්තර්ක්‍රියා කිරීමේ අත්දැකීම් මත පදනම්ව) එවැනි මොළයක් ඇති කරන ලෙස මගෙන් ඉල්ලා සිටියේය. ඉතින් මට අවුරුදු 7කට පස්සේ මේක හම්බුනේ ආතල් එකක් කියලා. සමහර දේවල් පැහැදිලියි. සමහර ඒවා සම්පූර්ණයෙන්ම සත්‍ය නොවන බව පෙනී ගිය නමුත් ... වසර 7 ක් ගතවී ඇත.

මම ඉංග්‍රීසියෙන් ලිව්වා, දැන් ඒක රුසියානු භාෂාවට පරිවර්තනය කරන්න හිතුවා. යමක් තවමත් අදාළ නම් කුමක් කළ යුතුද? (මම බුලටින් පරිවර්තනය කරමි, නමුත් කම්මැලිකමෙන් ඉංග්‍රීසියෙන් සලකුණු තබන්න. කොළ හොඳයි, රතු භයානකයි, නිල් සිහිනයකි).

මම "අද" සිට අවම අදහස් විධිමත් කරමි ඉතාලිඑය පැහැදිලි සහ වෙන්කර හඳුනාගත හැකි වන පරිදි.

ඉතින්, දත්ත! අප වෙනුවෙන් දත්ත...

දත්ත අංශය යනු රුධිර අංශයයි, මන්ද දත්ත සංසන්දනය කළ හැකිය, උදාහරණයක් ලෙස, ව්‍යාපාරික ආයතනයක ශිරා සහ ධමනි හරහා ගමන් කරන රුධිරයට. කෙසේ වෙතත්, රුධිරය සමාන වුවද, ජීවීන් වෙනස් වන අතර එබැවින් නිෂ්පාදනකරණය ඉතා දුෂ්කර, නමුත් එය සංවර්ධනය සඳහා අවස්ථාවක් ද නියෝජනය කරයි.

දත්ත ඔවුන්ගේ ඇස්වලට කෙලින්ම පනින අය සිටිති - මේවා ය අපි.
අවාසනාවකට මෙන්, දත්ත ලක්ෂ්‍යය හිස්ව නොපෙනෙන අය සිටිති. මෙය නැවතත්, අහෝ, අපේ ය පාරිභෝගිකයන්!

දත්ත අංශය. වසර 2013. අතීතාවර්ජනය

එසේ නම්, ව්‍යාපාරික මූලධර්ම...

  1. අපි විකුණනවා ව්යාපාරිකසහ නැත තොරතුරු තාක්ෂණය (සියලු තොරතුරු තාක්ෂණ විශේෂඥයින් මට එකවර සමාව දෙනු ඇත) අපි ලෝකයේ ගැටලු විසඳන නිසා සහ, තවත් මුදල් නිසා.
  2. සියලුම ව්‍යාපාරික ගැටළු තේමාත්මක කර්මාන්ත සිරස් වටා සංකේන්ද්‍රණය වී ඇති අතර ප්‍රමාණවත් ලෙස අවශ්‍ය වනු ඇත විශේෂීකරණය.
  3. ඔප්පු කිරීමට උත්සාහ කරයි "දත්ත" වල වටිනාකම හෝ, ඊටත් වඩා දුෂ්කර, ව්යාපාරයක් සඳහා "දත්ත කළමනාකරණය" වටිනාකම සදාකාලික දුක් වේදනා සහ වේදනාව වේ. මූලික වශයෙන්, එය හොඳ හැඟීමක් ඇති පුද්ගලයෙකු වෙත පැමිණ මෙසේ පැවසීම වැනි ය: "මචං, අපි දැන් ඔබේ රුධිරයට ප්‍රතිකාර කරන්නෙමු, සහ, මචෝ, එය මිල අධිකයි!"
  4. මගේ "තෙත් සිහිනය" SaaS ආකෘතිය තුළ "දත්ත නිස්සාරණය" සහ "විශ්ලේෂණ" විකිණීමයි කුඩා හා මධ්යම ව්යාපාරසිසිල් අතුරුමුහුණත් සමඟ වලාකුළු සේවා 123කට නැග්ගා: ව්‍යාපෘති කළමනාකරණය, උපකාරක සේවාව, ගිණුම්කරණය, CRM, වැටුප් ලේඛනය, කාල වාර්තාකරණය, අලෙවිකරණය, ... ඔබ එය නම් කර, දත්ත තුළ තැන්පත් විය. Youcalc සහ සාර්ථක සාධක (සමහර විට තවත් නැත) මේක හොඳයි!
  5. ටින්කර් කිරීමට කැමති අය සොයන්න "කැපීම" දත්ත සමඟ. ඒවා දුර්ලභ හා අමුතුයි (තේ කොළ වැනි), නමුත් ව්‍යාපාරයට යතුර. නිදසුනක් වශයෙන්, කවියෙකුට සහසම්බන්ධතාවයේ ඉතා දක්ෂ විය හැකිය.
  6. ඉංජිනේරුවන් අවශ්යයි! Crunchers දත්ත වලින් ඇදගත් ගැටළු විසඳුම් බවට පත් කිරීමට අවශ්‍ය වේ. තවද තීරණයේ සාර්ථකත්වය හෝ අසාර්ථකත්වය සම්පූර්ණයෙන්ම ඔවුන් මත රඳා පවතී.
  7. සංවර්ධනය opensource ව්යාපෘති විශාල වටිනාකමක් ඇති අතර මුල සිටම ප්රායෝගිකව සංකීර්ණ විසඳුම් "එකලස්" කිරීමට හැකි වේ.
  8. නමුත්... Hadoop පුස්තකාලයක් බවත්, Lucene යනු පුස්තකාලයක් බවත්, අතර දුර පුස්තකාල සහ කාර්මික නිෂ්පාදන බොහෝ!
  9. ගොඩනඟන ලද විසඳුම් සැලකිය යුතු ලෙස අනුවර්තනය වීමට සිදුවනු ඇත, මන්ද මොඩියුලරිටි и අනුකලනය - ප්රධාන කරුණු.
  10. ඉක්මන් (දෙවියන් වහන්සේ මට සමාව දෙන්න) යනු පාරිභෝගිකයා සමඟ අන්තර්ක්‍රියා කිරීමේ සහ සත්‍යාපනය කිරීමේ ප්‍රධාන තාක්‍ෂණයකි උපකල්පන, එයින් බොහෝ දෙනෙක් සිටිනු ඇත.
  11. සියලුම කේතීකරණ සහ UI බාහිරින් ලබා ගැනීම විශේෂයෙන් කළ හැකි සහ අවශ්‍ය වේ. සියලුම ව්‍යාපාර විශ්ලේෂණ සහ පිරිවිතර පසුතලය ඉවත් වීමට අවශ්යයි ඇතුළත සහ මූලික නිපුණතාවයක් ලෙස සැලකේ.
  12. ව්‍යාපාර තීරණ ගන්නන් ගැන නිරතුරුව "දැනුවත්" කළ යුතුය දත්ත සමඟ නිවැරදිව වැඩ කිරීමේ අවශ්යතාව සහ ඒවා විශ්ලේෂණය කිරීමට නව ක්‍රම නිරන්තරයෙන් සොයමින්. අපගේ සේවකයින්ගේ තාක්ෂණික සහ ව්‍යාපාරික නිපුණතා සංයෝජනය සමස්තයක් ලෙස සමස්ත සංවිධානයේ තත්ත්වය ඉහළ නැංවීමට උපකාරී වේ.
  13. අන්තර්ජාල - ආශ්වාදයේ නිමක් නැති මූලාශ්‍රයක් ඇත (ඒ කාලේ එච්චර බළල්ලු හිටියේ නෑ) අරමුණු සහ විෂය පථය සැලකිය යුතු ලෙස වෙනස් වුවද, ව්‍යවසාය දත්ත කළමනාකරණයට ප්‍රවේශයන් සම්බන්ධයෙන්.

දත්ත අංශය. වසර 2013. අතීතාවර්ජනය

තාක්ෂණික උපකල්පන...

  1. විශාල සංවර්ධන විභවයක් ඇත සරල කිරීම දත්ත මිනිසුන්ට පෙන්වන ආකාරය. ඔබට මෙය "iPhonization" යන වචනය ලෙස හැඳින්විය හැක.
  2. BI වෙළෙන්දන් ඔවුන් සෘජු බව ප්රකාශ කර තිබියදීත් අවසාන පරිශීලකයින් වෙත විශ්ලේෂණ ගෙන එන්න, (ඔවුන් නිසැකවම මෙම දිශාවට ගමන් කරයි) - ඉදිරි ගමන තවමත් සිදුවී නොමැත. මිනිස්සුන්ට හරියට තේරෙන්නේ නැහැ බහුමාන දත්ත.
  3. වැඩි හෝ අඩු සංකීර්ණ, ලිහිල් ව්‍යුහගත දත්ත නියෝජනය කරන පරිශීලක අතුරු මුහුණතක් මුහුණැති form - අනන්ත ගැටලු රාශියක් ද ඉදිරිපත් කරයි. නිගමනය: පැතලි වන තරමට වඩා හොඳය.
  4. ප්‍රභවයන්ගෙන් ස්වයංක්‍රීය දත්ත උපුටාගැනීමේ පදනම මත ගොඩනගා ඇති වේදිකාවක් (එවැනි නිස්සාරණය සඳහා සෑම විටම නිර්මාණය කර නැත) මූලාශ්‍ර, සම්බන්ධකවල ස්ථායිතාව සහ යටිතල පහසුකම් මත සැලකිය යුතු ලෙස රඳා පවතී. ප්‍රතිඵල ලබා දීමට අපොහොසත් වීම සඳහා වේදිකාව (පණිවිඩකරු) සැමවිටම දෝෂාරෝපණය කරනු ඇත. විශ්වාසය - මේ ආකාරයේ වේදිකාවල ප්රාග්ධනය. ඉපැයීමට අපහසු සහ අහිමි වීමට පහසු ප්‍රාග්ධනය.
  5. ව්‍යාපාරික දෘෂ්ටි කෝණයකින්, විශාල දත්ත විශ්ලේෂණය සහ අතර වෙනසක් නොමැත දත්ත පමණි. බොහෝ විට 2x2 තරම් සරල සංඛ්‍යා පිටුපස ඩොලර් මිලියන ගණනක් වටිනා අවස්ථා තිබේ. හොඳ උදාහරණයක් වන්නේ නෝර්වීජියානු රාක්කයේ යටිතල පහසුකම් මූලද්රව්යවල ජීවිතයේ අවසානය පිළිබඳ දත්ත ය. අනාගත කැප් වල සියලුම දිනයන් කවදාද. සියලුම උපකරණ අලුත්වැඩියා කිරීම එක් අක්ෂයක් මත තබා ඇති අතර වසර නවයකින් රාක්ක හර්මගෙදොන් පැමිණෙන බව ඔවුන් සොයා ගත්හ - එක් ඉතා ධනවත් මිනිසෙක් තම පුටුවෙන් නැඟිට කාමරයෙන් කඩිමුඩියේ වැඳ වැටී මෙසේ කීවේය: “කණගාටුයි, මම එසේ නොකරමි මට ගොඩක් වෙලාව තියෙනවා, මට යාත්‍රාව සූදානම් කරන්න ඕනේ..."
  6. එක්සෙල්, සහ අත්‍යවශ්‍යයෙන්ම දත්තවල පැහැදිලි සහ සංක්ෂිප්ත වගු ඉදිරිපත් කිරීමක්, දැවැන්ත බලයක් සහ විශිෂ්ට අනාගතයක් ඇත. මම ලස්සන මේස විශ්වාස කරනවා (සහ තවමත් කරනවා) සහ එපමණයි!
  7. මෙම සියලු "විශ්ලේෂණ" වල ප්රධාන දුන්න වේ තීරණ ස්වයංක්රීයකරණය. ලොකුම අවස්ථා ඇත, නමුත් ඉහළම අවදානම් ද ඇත, ඒ නිසා අවස්ථා පොහොසත් වන්නේ එබැවිනි, අවදානම් ඇත්තේ එබැවිනි, ඒ නිසා අවස්ථා තිබේ, ඒ නිසා ඒවා ටොෆි ... 🙂 ලිං කැණීමේ කළමනාකරණය, උදාහරණයක් ලෙස ...
  8. “ඒකාබද්ධතාවය” ප්‍රධාන අංගයක් නම්, දත්ත තත්‍යානුකූලව සේවාවක් ලෙස ඉදිරිපත් කළ යුතුය. රෙස්ට් රීති, නමුත් ප්රශස්තකරණය ගැන අප අමතක නොකළ යුතුය කාර්ය සාධනය, පරිගණක බලය අඛණ්ඩව වර්ධනය වන බැවින් ඒකාග්‍රතාවය සඳහා බොහෝ විට කැප කරනු ලැබේ.
  9. ප්රධාන දත්ත - ඕනෑම ව්‍යාපාරික ගැටළු විසඳීමට පෙර දේශීයකරණය, උපුටා ගැනීම, ප්‍රමිතිගත කිරීම අවශ්‍ය වන්නේ මෙයයි. ප්‍රධාන දත්ත කුඩා නමුත් එහි ඇති ගැටලු විශාලයි! අර්ථ ශාස්ත්‍රයේ සහෝදරයන් පවසන පරිදි, ලෝකයේ සියලුම ගැටළු වලින් 50% ක් එකම දේ විවිධ නම් වලින් හඳුන්වන නිසා සහ අනෙක් 50% ඔවුන් විවිධ දේ එකම නමින් හැඳින්වීම නිසා ය.
  10. ඕනෑම ආවරණය කිරීම ගබඩා මට්ටමේදී, එය විසඳුමේ විවෘතභාවය සීමා කරන අතර SILO ප්‍රබන්ධයට තුඩු දෙයි. ඔබ විශාල වෙළෙන්දෙකු නම් එය හොඳයි, එසේ නොමැතිනම් එය එසේ වේ. (මෙන්න අපි කතා කරන්නේ, ඇත්ත වශයෙන්ම, වාරණ මට්ටම ගැන නොව, ඒ වන විටත් වයස අවුරුදු 3 ක් වූ AWS S6 ගැන නොව, ලිපිගොනු ගැන ය.).
  11. සම්බන්ධතා ආකෘති නිර්මාණය දත්ත තවදුරටත් අපගේ මිතුරා නොවේ. RDF සහ යතුරු අගය - සිසිල්! වගු 2000ක මාදිලි සහිත සම්බන්ධක දත්ත සමුදායන් වගු 15ක් බවට පරිවර්තනය කිරීම අප දැක ඇති අතර පරිශීලකයන් කිසිවකුට කිසිවක් අහිමි වී නැත.
  12. අන්තර්ජාලය ක්‍රියාත්මක වන්නේ එය පවතින නිසාය URL එක ඇමතීමේ ඒකාබද්ධ ක්රමයක් ලෙස. URL හි වැදගත්කම හෝ ඒ වෙනුවට URI ව්යවසාය තොරතුරු සම්පත් අධිතක්සේරු කිරීම දුෂ්කර ය.
  13. Text mining සහ NLP ජනප්‍රියයි. අන්තර්ජාලය තුළ. නමුත් ආයතනික අංශයේ පවා ව්‍යුහගත නොවන ආයතනික දත්ත වලින් ව්‍යුහගත දත්ත උපුටා ගැනීමෙන් විශාල සාර්ථකත්වයක් අත්කර ගත හැකිය.
  14. සහජීවනය ව්‍යුහගත දත්ත සහ ව්‍යුහගත නොකළ දත්ත වලින් උපුටා ගත් තොරතුරු අතර, i.e. ගොනු - විශ්ලේෂණාත්මක Klondike.
  15. දත්ත උපුටා ගැනීමේදී, අයිතිවාසිකම් සහ අමතක නොකරන්න ප්රකාශන හිමිකම්.
  16. දත්ත නිස්සාරණය කරන සමාගම විසින් a සෑදිය යුතුයහැකර් දෙපාර්තමේන්තුව, වචනයේ හොඳ අර්ථයෙන්. Yellow Pages crawler bot ආරක්ෂණ පද්ධතිවලට එරෙහිව නැඟී එන සටනින් ආශ්වාදයක්.
  17. දත්ත සමඟ වැඩ කිරීමට පෙර, එය අවශ්ය වේ "බලන්න" සම්පූර්ණයෙන්ම. එය පැහැදිලි කිරීමට අපහසුය. වගු ආකෘති මතකයට එයි. සමහරක් සඳහා, චිත්රක නිරූපණයන්, නමුත් ඕනෑම ප්රස්ථාරයක් දැනටමත් අර්ථ නිරූපණයකි. එක් ආකාරයකින් හෝ වෙනත් ආකාරයකින් ... "බලන්න"!
  18. ඉදිරිපස ඇති පරිශීලක "විශ්වාසය" පිළිබඳ ගැටළුව නැවත නැවත කිරීම. සම්බන්ධක/දත්ත උත්පාදන ක්‍රියාවලි කෙරෙහි විශ්වාසය, දත්ත කෙරෙහි විශ්වාසය, ගත් තීරණ කෙරෙහි විශ්වාසය.

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න