දත්ත විද්‍යාවෙන් චාලටන් හඳුනා ගන්නේ කෙසේද?

දත්ත විද්‍යාවෙන් චාලටන් හඳුනා ගන්නේ කෙසේද?
විශ්ලේෂකයින්, යන්ත්‍ර ඉගෙනීම සහ කෘත්‍රිම බුද්ධි විශේෂඥයින් ගැන ඔබ අසා ඇති නමුත් අනවශ්‍ය ලෙස වැඩිපුර ගෙවන අය ගැන ඔබ අසා තිබේද? හමුවන්න දත්ත චාලටන්! ලාභදායි රැකියාවලට හසු වූ මෙම කපටියන් සැබෑ දත්ත විද්‍යාඥයින්ට නරක නාමයක් ලබා දෙයි. එවැනි පුද්ගලයින් පිරිසිදු ජලය වෙත ගෙන එන්නේ කෙසේද යන්න ද්රව්යයේ අපි තේරුම් ගනිමු.

Data Charlatans හැමතැනම

Data charlatans ඔබට හැකි බව පෙනෙන පරිදි සැඟවීමට ඉතා දක්ෂයි ඔවුන්ගෙන් කෙනෙකු වන්නදන්නෙම නැතුව. ඔබේ සංවිධානය වසර ගණනාවක් තිස්සේ මෙම වංචාකරුවන්ට රැකවරණය ලබා දී ඇති අවස්ථා තිබේ, නමුත් ශුභාරංචිය නම් ඔබ සෙවිය යුතු දේ දන්නේ නම් ඔවුන් හඳුනා ගැනීමට පහසු වීමයි.
පළමු අනතුරු ඇඟවීමේ ලකුණ වන්නේ එය තේරුම් නොගැනීමයි විශ්ලේෂණ සහ සංඛ්‍යාලේඛන බොහෝ වෙනස් විෂයයන් වේ. මම මෙය තවදුරටත් පැහැදිලි කරමි.

විවිධ විෂයයන්

සංඛ්‍යාලේඛනඥයින් ඔවුන්ගේ දත්තවලට පිටින් ඇති දේ පිළිබඳ නිගමනවලට එළඹීමට පුහුණු කරනු ලැබේ, දත්ත කට්ටලයක අන්තර්ගතය අධ්‍යයනය කිරීමට විශ්ලේෂකයින් පුහුණු කරනු ලැබේ. වෙනත් වචන වලින් කිවහොත්, විශ්ලේෂකයින් ඔවුන්ගේ දත්තවල ඇති දේ පිළිබඳව නිගමනවලට එළඹෙන අතර සංඛ්‍යාලේඛනඥයින් දත්තවල නොමැති දේ පිළිබඳව නිගමනවලට එළඹේ. විශ්ලේෂකයින් ඔබට හොඳ ප්‍රශ්න (අනුමාන) ඇසීමට උදව් කරයි, සහ සංඛ්‍යාලේඛන ඔබට හොඳ පිළිතුරු ලබා ගැනීමට උපකාරී වේ (පරීක්ෂණ උපකල්පන).

පුටු දෙකක ඉඳගන්න හදන අමුතු හයිබ්‍රිඩ් චරිතත් තියෙනවා... ඇයි නැත්තේ? දත්ත විද්‍යාවේ මූලික සිද්ධාන්තයක්: ඔබ අවිනිශ්චිතතාවයකින් කටයුතු කරන්නේ නම්, භාවිතා නොකරන්න එකම උපකල්පන සහ පරීක්ෂණ සඳහා දත්ත ලක්ෂ්‍යය. දත්ත සීමිත වූ විට, අවිනිශ්චිතතාවය විසින් සංඛ්‍යාලේඛන හෝ විශ්ලේෂණ අතර තෝරා ගැනීමට බල කරයි. පැහැදිලි කිරීම මෙහි.

සංඛ්‍යාලේඛන නොමැතිව, ඔබ විසින් සකස් කරන ලද විනිශ්චය විවේචනයට එරෙහිව නැගී සිටින්නේද යන්න තේරුම් ගැනීමට නොහැකිව සිරවී සිටින අතර, විශ්ලේෂණයකින් තොරව, ඔබ නොදන්නා දේ හීලෑ කිරීමට ඇති ඉඩකඩ අඩුය. මෙය දුෂ්කර තේරීමකි.

මෙම අවුලෙන් මිදීමට චාලටන් මාර්ගය වන්නේ එය නොසලකා හැරීම සහ එය හදිසියේම හෙළි කරන දේ ගැන පුදුම වූවාක් මෙන් පෙනී සිටීමයි. සංඛ්‍යානමය උපකල්පන පරීක්ෂා කිරීම පිටුපස ඇති තර්කය, දත්ත අපගේ මනස වෙනස් කිරීමට තරම් අපව මවිතයට පත් කරන්නේ දැයි විමසීමට හේතු වේ. අපි දැනටමත් දත්ත දැක ඇත්නම් ඒවා ගැන පුදුම වන්නේ කෙසේද?

චාර්ලටන්වරු ආස්වාදයක් ලබා දෙන රටාවක් සොයාගත් විට ඔවුන් පරීක්ෂා කරති එකම දත්ත සඳහා එකම රටාවඔවුන්ගේ න්‍යාය සමඟ නීත්‍යානුකූල p-අගය හෝ දෙකක් සමඟ ප්‍රතිඵලය පළ කිරීමට. එසේ කිරීමෙන්, ඔවුන් ඔබට බොරු කියති (සහ සමහරවිට තමන්ටත්). ඔබ ඔබේ කල්පිතයට ඇලී නොසිටින්නේ නම් මෙම p-අගය වැදගත් නොවේ. කිරීමට ඔබ ඔබේ දත්ත බලන ආකාරය. Charlatans හේතු තේරුම් නොගෙන විශ්ලේෂකයින් සහ සංඛ්යාලේඛනඥයින්ගේ ක්රියාවන් අනුකරණය කරයි. මේ නිසා සමස්ත දත්ත විද්‍යා ක්ෂේත්‍රයම නරක රැප් එකක් වෙමින් පවතී.

සැබෑ සංඛ්‍යාලේඛනඥයන් සෑම විටම තමන්ගේම නිගමනවලට එළඹේ

දැඩි තර්කනය සඳහා සංඛ්‍යාලේඛනඥයින්ගේ පාහේ අද්භූත කීර්තියට ස්තූතිවන්ත වන අතර, දත්ත විද්‍යාවේ ව්‍යාජ තොරතුරු ප්‍රමාණය සෑම විටම ඉහළ මට්ටමක පවතී. වංචා කිරීම සහ හසු නොවී සිටීම පහසුය, විශේෂයෙන් සැකයෙන් තොර වින්දිතයා සිතන්නේ එය සමීකරණ සහ දත්ත ගැන ය. දත්ත කට්ටලයක් යනු දත්ත කට්ටලයක් නේද? නැත. ඔබ එය භාවිතා කරන ආකාරය වැදගත් වේ.

වාසනාවකට මෙන්, චාලටන්වරුන් අල්ලා ගැනීමට ඔබට අවශ්‍ය වන්නේ එක් ඉඟියක් පමණි: ඔවුන් "ඇමරිකාව නැවත සොයා ගනී." දත්තවල පවතින බව ඔවුන් දැනටමත් දන්නා සංසිද්ධි නැවත සොයා ගැනීම.

චාලටන්වරුන් මෙන් නොව, හොඳ විශ්ලේෂකයින් විවෘත මනසකින් යුක්ත වන අතර ආශ්වාදජනක අදහස්වලට විවිධ පැහැදිලි කිරීම් තිබිය හැකි බව තේරුම් ගනී. ඒ අතරම, හොඳ සංඛ්යාලේඛනඥයින් ඔවුන්ගේ නිගමන ඇඳීමට පෙර ප්රවේශමෙන් නිර්වචනය කරති.

විශ්ලේෂකයින් වගකීමෙන් නිදහස් වේ... ඔවුන් තම දත්ත ඉක්මවා නොයන තාක් කල්. තමන් නොදැකපු දේකට හිමිකම් කියන්න පෙළඹෙනවා නම් ඒක වෙනම වැඩක්. ඔවුන් විශ්ලේෂකයෙකු ලෙස "ඔවුන්ගේ සපත්තු ගලවා" සහ සංඛ්යාලේඛනඥයෙකුගේ සපත්තු "වෙනස්" කළ යුතුය. මොනවා උනත් ඔෆිශල් ජොබ් ටයිටල් එක මොකක් උනත් ඕන නම් ට් රේඩ් දෙකම ඉගෙන ගන්න බෑ කියල නීතියක් නෑ. නිකන් ඒවා අවුල් කරන්න එපා.

ඔබ සංඛ්‍යාලේඛනවලට දක්‍ෂ වූ පමණින් ඔබ විශ්ලේෂණවලට දක්‍ෂ බව අදහස් නොවේ, සහ අනෙක් අතට. යමෙකු ඔබට වෙනත් ආකාරයකින් පැවසීමට උත්සාහ කරන්නේ නම්, ඔබ ඔබේ අවධානයෙන් සිටිය යුතුය. ඔබ දැනටමත් අධ්‍යයනය කර ඇති දත්ත පිළිබඳ සංඛ්‍යානමය නිගමනයක් ලබා ගැනීමට ඔබට අවසර ඇති බව මෙම පුද්ගලයා ඔබට පවසන්නේ නම්, මෙය දෙගුණයක් කල්පනාකාරී වීමට හේතුවකි.

අමුතු පැහැදිලි කිරීම්

ඔබ වනාන්තරයේ දත්ත චාලටන් නිරීක්ෂණය කරන විට, ඔවුන් නිරීක්ෂිත දත්ත "පැහැදිලි කිරීම" සඳහා ෆැන්ටසි කතා සෑදීමට කැමති බව ඔබට පෙනෙනු ඇත. වඩා ශාස්ත්‍රීය වන තරමට වඩා හොඳය. මේ කතන්දර ප්‍රතික්‍රියාශීලීව ධාවනය වූවාට කමක් නැත.

චාලටන්වරු මෙය කරන විට - මට ත්‍යාගශීලී වීමට ඉඩ දෙන්න - ඔවුන් බොරු කියනවා. ඔවුන් ඔවුන්ගේ අනුවාද සඳහා ශුන්‍ය සාක්ෂි ඉදිරිපත් කර ඇති බව සඳහා සමීකරණ හෝ අලංකාර සංකල්ප කිසිවක් නැත. ඔවුන්ගේ පැහැදිලි කිරීම් කෙතරම් අසාමාන්‍යද යන්න ගැන පුදුම නොවන්න.

මෙය මුලින්ම ඔබේ අතේ ඇති කාඩ්පත් දෙස බැලීමෙන් ඔබේ "මානසික" හැකියාවන් විදහා දැක්වීමට සමාන වේ, පසුව ඔබ අල්ලාගෙන සිටින දේ ... ඔබ අල්ලාගෙන සිටින දේ අනාවැකි කීමට. එය පසුගාමී නැඹුරුවක් වන අතර, දත්ත විද්‍යාඥ වෘත්තිය එයින් පුරවා ඇත.

දත්ත විද්‍යාවෙන් චාලටන් හඳුනා ගන්නේ කෙසේද?

විශ්ලේෂකයින් පවසන්නේ "ඔබ දියමන්ති රැජින සමඟ ගියා" කියායි. සංඛ්‍යාලේඛනඥයන් පවසන්නේ, “අපි ආරම්භ කිරීමට පෙර මම මගේ උපකල්පන මෙම කඩදාසි කැබැල්ලේ ලියා තැබුවෙමි. අපි සෙල්ලම් කරලා දත්ත ටිකක් බලලා මම හරිද කියලා බලමු." Charlatans පවසන්නේ: "මම දැනගෙන හිටියා ඔයා මේ දියමන්ති රැජින වෙන්න යනවා කියලා..."

දත්ත බෙදාගැනීම සෑම කෙනෙකුටම අවශ්‍ය ඉක්මන් විසඳුමයි.

එතරම් දත්ත නොමැති විට, ඔබට සංඛ්‍යාලේඛන සහ විශ්ලේෂණ අතර තෝරා ගත යුතුය, නමුත් අවශ්‍ය තරම් දත්ත ඇති විට, විශ්ලේෂණ රැවටීමකින් තොරව භාවිතා කිරීමට හොඳ අවස්ථාවක් තිබේ. и සංඛ්යා ලේඛන. චාලටන්වරුන්ට එරෙහිව ඔබට පරිපූර්ණ ආරක්ෂාවක් ඇත - මෙය දත්ත වෙන් කිරීම වන අතර, මගේ මතය අනුව, මෙය දත්ත විද්‍යාවේ බලවත්ම අදහසයි.

චාලටන්වරුන්ගෙන් ඔබව ආරක්ෂා කර ගැනීම සඳහා, ඔබ කළ යුතුව ඇත්තේ ඔබ යම් පරීක්ෂණ දත්ත ඔවුන්ගේ පරීක්ෂාකාරී ඇස්වලින් ඉවතට තබා ගැනීමට වග බලා ගැනීම සහ අනෙක් සියල්ල විශ්ලේෂණ ලෙස සැලකීමයි. ඔබ පිළිගැනීමට අවදානමක් ඇති න්‍යායක් හමු වූ විට, තත්වය තක්සේරු කිරීමට එය භාවිතා කර න්‍යාය විකාරයක් නොවන බව තහවුරු කර ගැනීමට ඔබේ රහස් පරීක්ෂණ දත්ත හෙළි කරන්න. එය ඉතා සරලයි!

දත්ත විද්‍යාවෙන් චාලටන් හඳුනා ගන්නේ කෙසේද?
ගවේෂණ අදියරේදී පරීක්ෂණ දත්ත බැලීමට කිසිවෙකුට ඉඩ නොදෙන බවට වග බලා ගන්න. මෙය සිදු කිරීම සඳහා, පර්යේෂණ දත්ත වලට ඇලී සිටින්න. පරීක්ෂණ දත්ත විශ්ලේෂණය සඳහා භාවිතා නොකළ යුතුය.

මෙය "කුඩා දත්ත" යුගයේ මිනිසුන් පුරුදු වී ඇති දෙයට වඩා විශාල පියවරකි, එහිදී ඔබ සැබවින්ම යමක් දන්නා බව මිනිසුන්ට ඒත්තු ගැන්වීම සඳහා ඔබ දන්නා දේ ඔබ දන්නා ආකාරය පැහැදිලි කළ යුතුය.

ML/AI සඳහා එකම නීති යෙදීම

ML/AI විශේෂඥයින් ලෙස පෙනී සිටින සමහර චාලටන්වරුන් හඳුනා ගැනීමද පහසුය. ඔබ වෙනත් ඕනෑම නරක ඉංජිනේරුවෙකු අල්ලා ගන්නා ආකාරයටම ඔබ ඔවුන්ව අල්ලා ගනු ඇත: ඔවුන් ගොඩනැගීමට උත්සාහ කරන "විසඳුම්" නිරන්තරයෙන් අසාර්ථක වේ. පූර්ව අනතුරු ඇඟවීමේ ලකුණක් වන්නේ කර්මාන්ත සම්මත භාෂා සහ ක්‍රමලේඛන පුස්තකාල පිළිබඳ අත්දැකීම් නොමැතිකමයි.

නමුත් වැඩ කරන බව පෙනෙන පද්ධති ගොඩනඟන මිනිසුන් ගැන කුමක් කිව හැකිද? සැක කටයුතු දෙයක් සිදුවෙමින් පවතින බව ඔබ දන්නේ කෙසේද? එකම රීතිය අදාළ වේ! Charlatan යනු දුෂ්ට චරිතයක් වන අතර එය ආකෘතිය කෙතරම් හොඳින් ක්‍රියා කරයිද යන්න පෙන්වයි… ඔවුන් ආකෘතිය නිර්මාණය කිරීමට භාවිතා කළ දත්තම මත.

ඔබ උමතු තරම් සංකීර්ණ යන්ත්‍ර ඉගෙනුම් පද්ධතියක් ගොඩනගා ඇත්නම්, එය කොතරම් හොඳදැයි ඔබ දන්නේ කෙසේද? ඇය මින් පෙර නොදුටු නව දත්ත සමඟ ඇය වැඩ කරන බව ඔබ ඇයට පෙන්වන තුරු ඔබ නොදනී.

පුරෝකථනය කිරීමට පෙර ඔබ දත්ත දුටු විට, එය එසේ විය නොහැක පෙරකියමින්.

ඔබට බෙදීමට ප්‍රමාණවත් දත්ත ඇති විට, ව්‍යාපෘතියක් සාධාරණීකරණය කිරීමට ඔබට ඔබේ සූත්‍රවල අලංකාරය ඉල්ලා සිටීමට අවශ්‍ය නැත (විද්‍යාවේ පමණක් නොව සෑම තැනකම මම දකින පැරණි විලාසිතාවකි). ඔබට මෙසේ පැවසිය හැකිය. “එය ක්‍රියාත්මක වන බව මම දනිමි, මන්ද මට මා කලින් දැක නැති දත්ත කට්ටලයක් ගෙන එහි සිදුවන්නේ කුමක්ද යන්න නිවැරදිව පුරෝකථනය කළ හැකි බැවිනි… සහ මම නිවැරදි වන්නෙමි. නැවත නැවතත්".

නව දත්තවලට එරෙහිව ඔබේ ආකෘතිය/න්‍යාය පරීක්ෂා කිරීම විශ්වාසය සඳහා හොඳම පදනමයි.

මම දත්ත චාලටන් ඉවසන්නේ නැහැ. ඔබේ අදහස විවිධ චිප්ස් මත පදනම් වූවක් නම් මට කමක් නැත. පැහැදිලි කිරීම් වල අලංකාරය ගැන මම පැහැදීමක් නැත. ඔබ මින් පෙර කිසිදා නොදුටු නව දත්ත පරාසයක ඔබේ න්‍යාය/ආකෘතිය ක්‍රියා කරන බව (සහ දිගටම ක්‍රියා කරන බව) මට පෙන්වන්න. ඔබේ මතයේ ශක්තිය පිළිබඳ සැබෑ පරීක්ෂණය මෙයයි.

දත්ත විද්යාඥයින් සම්බන්ධ කර ගැනීම

මෙම හාස්‍යය තේරුම් ගන්නා ඕනෑම කෙනෙකුට ඔබව බැරෑරුම් ලෙස සැලකීමට අවශ්‍ය නම්, ඔබේ පුද්ගලික නැඹුරුව සජීවීව තබා ගැනීම සඳහා විසිතුරු සමීකරණ පිටුපස සැඟවීම නවත්වන්න. ඔබ සතුව ඇති දේ පෙන්වන්න. ඔබේ න්‍යාය/ආකෘතිය හුදෙක් ආශ්වාදජනක කවියකට වඩා "එය ලබා ගන්නා" අයට දැකීමට අවශ්‍ය නම්, එය අලුත්ම දත්ත කට්ටලයක් මත කෙතරම් හොඳින් ක්‍රියා කරයිද යන්න මහා ප්‍රදර්ශනයක් කිරීමට... සාක්ෂිකරුවන් ඉදිරියේ ධෛර්යවත් වන්න!

නායකයින්ට ආයාචනා කරන්න

දත්ත වලට එරෙහිව පරීක්‍ෂා කරන තුරු ඒ පිළිබඳ කිසිදු "අදහසක්" බැරෑරුම් ලෙස ගැනීම ප්‍රතික්ෂේප කරන්න новых දත්ත. උත්සාහය දැරීමට අවශ්‍ය නැද්ද? විශ්ලේෂණවලට ඇලී සිටින්න, නමුත් මෙම අදහස් මත රඳා නොසිටින්න - ඒවා විශ්වාස කළ නොහැකි අතර විශ්වසනීයත්වය සඳහා පරීක්ෂා කර නොමැත. එසේම, සංවිධානයක් සතුව දත්ත බහුලව ඇති විට, වෙන් කිරීම විද්‍යාවේ පදනම බවට පත් කර, සංඛ්‍යාලේඛන සඳහා පරීක්ෂණ දත්ත වෙත ප්‍රවේශය පාලනය කිරීමෙන් යටිතල පහසුකම් මට්ටමින් එය පවත්වාගෙන යාමේ අවාසියක් නොමැත. ඔබව රැවටීමට දරන උත්සාහයන් නැවැත්වීමට මෙය හොඳ ක්‍රමයකි!

ඔබට හොඳ නැති චාලටන් පිළිබඳ තවත් උදාහරණ බැලීමට අවශ්‍ය නම් - මෙන්න Twitter එකේ අපූරු ත්‍රෙඩ් එකක්.

ප්රතිඵල

දත්ත වෙන් කිරීමට නොහැකි තරම් කුඩා වූ විට, චාලටන් පමණක් ආභාසය දැඩි ලෙස අනුගමනය කිරීමට උත්සාහ කරයි, ඇමරිකාව ප්‍රතිගාමීව සොයා ගනී, දත්තවල ඇති බව දැනටමත් දන්නා සංසිද්ධි ගණිතමය වශයෙන් නැවත සොයා ගනී, සහ පුදුමය සංඛ්‍යානමය වශයෙන් වැදගත් යැයි හඳුන්වයි. මෙය ඔවුන්ව ආශ්වාදයක් සමඟ කටයුතු කරන විවෘත මනසක් ඇති විශ්ලේෂකයෙකුගෙන් සහ පුරෝකථනය කිරීමේදී සාක්ෂි ඉදිරිපත් කරන සූක්ෂම සංඛ්‍යාලේඛන ශිල්පියාගෙන් වෙන්කර හඳුනා ගනී.

දත්ත විශාල ප්‍රමාණයක් ඇති විට, ඔබට දෙලොවෙහිම හොඳම දේ ලබා ගැනීමට හැකි වන පරිදි දත්ත හුවමාරු කර ගැනීමේ පුරුද්ද ඇති කරගන්න! මුල් දත්ත ගොඩේ වෙනම උප කුලක සඳහා විශ්ලේෂණ සහ සංඛ්‍යාලේඛන වෙන වෙනම සිදු කිරීමට වග බලා ගන්න.

  • විශ්ලේෂකයෝ ඔබට ආශ්වාදයක් සහ ඉදිරිදර්ශනයක් පිරිනමයි.
  • සංඛ්යාලේඛන ඔබට දැඩි පරීක්ෂණ පිරිනමයි.
  • චාලටන් විශ්ලේෂණ සහ සංඛ්‍යාලේඛන ලෙස පෙනී සිටින විකෘති පසුබිමක් ඔබට පිරිනමන්න.

සමහර විට, ලිපිය කියවීමෙන් පසු, “මම චාලටන් නොවේද” යන සිතුවිල්ල ඔබට ඇති වේවිද? මේක හොදයි. මෙම සිතුවිල්ලෙන් මිදීමට ක්‍රම දෙකක් තිබේ: පළමුව, ආපසු හැරී බලන්න, ඔබ කළ දේ බලන්න, දත්ත සමඟ ඔබේ වැඩ කටයුතු ප්‍රායෝගික ප්‍රතිලාභ ගෙන තිබේද යන්න. දෙවනුව, ඔබට තවමත් ඔබේ සුදුසුකම් මත වැඩ කළ හැකිය (එය නිසැකවම අතිරික්ත නොවනු ඇත), විශේෂයෙන් අපි අපගේ සිසුන්ට සැබෑ දත්ත විද්‍යාඥයින් වීමට ඉඩ සලසන ප්‍රායෝගික කුසලතා සහ දැනුම ලබා දෙන බැවින්.

දත්ත විද්‍යාවෙන් චාලටන් හඳුනා ගන්නේ කෙසේද?

තවත් පාඨමාලා

වැඩිදුර කියවන්න

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න