Data Science жүйесінен шарлатанды қалай тануға болады?

Data Science жүйесінен шарлатанды қалай тануға болады?
Сіз аналитиктер, машиналық оқыту және жасанды интеллект мамандары туралы естіген шығарсыз, бірақ сіз артық төленетін адамдар туралы естідіңіз бе? Танысу деректер шарлатан! Табысты жұмыстардың арбауына түскен бұл айлакерлер нақты деректер ғалымдарына жаман ат қояды. Материалда мұндай адамдарды таза суға қалай жеткізу керектігін түсінеміз.

Деректер шарлатандары барлық жерде

Деректер шарлатандары көзге көрінбейтін жерде жасыруды жақсы біледі, сондықтан сіз жасай аласыз солардың бірі болтіпті байқамай. Сіздің ұйымыңыз бұл алаяқтарды жылдар бойы ұстап тұруы мүмкін, бірақ жақсы жаңалық, егер сіз не іздеу керектігін білсеңіз, оларды анықтау оңай.
Бірінші ескерту белгісі - нені түсінбеу аналитика мен статистика мүлдем басқа пәндер. Мен мұны әрі қарай түсіндіремін.

Әртүрлі пәндер

Статистиктер өз деректерінен тыс нәрселер туралы қорытынды жасауға үйретіледі, талдаушылар деректер жиынының мазмұнын зерттеуге үйретіледі. Басқаша айтқанда, талдаушылар өз деректерінде не бар екендігі туралы қорытынды жасайды, ал статистиктер деректерде жоқ нәрсе туралы қорытынды жасайды. Сарапшылар жақсы сұрақтар қоюға (болжаулар) көмектеседі, ал статистика жақсы жауаптар алуға көмектеседі (тексеру гипотезалары).

Сондай-ақ адам екі орындыққа отыруға тырысатын оғаш гибридті рөлдер бар ... Неге болмасқа? Деректер туралы ғылымның негізгі қағидасы: егер сіз белгісіздікпен айналыссаңыз, қолданбаңыз бірдей гипотезалар мен тестілеуге арналған деректер нүктесі. Деректер шектелген кезде белгісіздік статистика немесе аналитика арасында таңдау жасауға мәжбүр етеді. Түсіндіру осында.

Статистика болмаса, сіз тығырыққа тіреліп, жаңа ғана тұжырымдаған пайымдауыңыз сынға төтеп бере ме, жоқ па, соны түсіне алмайсыз, ал талдаусыз соқыр қозғаласыз, белгісізді қолға түсіру мүмкіндігі аз. Бұл қиын таңдау.

Шарлатанның бұл тәртіпсіздіктен шығу жолы - оны елемеу, содан кейін кенеттен ашылған нәрсеге таң қалғандай кейіп көрсету. Статистикалық гипотезаларды сынаудың логикасы бұл деректер бізді ойымызды өзгерту үшін жеткілікті таң қалдырады ма деген сұраққа негізделеді. Егер біз оны бұрыннан көрген болсақ, деректерге қалай таң қалуға болады?

Шарлатандар үлгіні тапқан сайын олар шабыттандырады, содан кейін сынақтан өтеді бірдей деректер үшін бірдей үлгінәтижені заңды p-мәнімен немесе екі теориямен бірге орналастыру. Осылайша, олар сізге өтірік айтады (мүмкін, өздеріне де). Егер сіз гипотезаңызды ұстанбасаңыз, бұл p-мәні маңызды емес. қарай деректеріңізді қалай қарайсыз. Шарлатандар себептерін түсінбей, аналитиктер мен статистиктердің әрекетіне еліктейді. Нәтижесінде деректер ғылымының бүкіл саласы нашар рэпке ие болады.

Шынайы статистиктер әрқашан өз қорытындыларын жасайды

Статистиктердің қатаң пайымдаулары үшін дерлік мистикалық беделінің арқасында Data Science жүйесіндегі жалған ақпараттың саны ең жоғары деңгейге жетті. Алдап кету және ұсталмау оңай, әсіресе егер бейхабар жәбірленуші мұның бәрі теңдеулер мен деректер туралы деп ойласа. Деректер жинағы - бұл деректер жиынтығы, солай ма? Жоқ. Сіз оны қалай қолданатыныңыз маңызды.

Бақытымызға орай, шарлатандарды ұстау үшін сізге бір ғана анықтама керек: олар «анықтан кейін Американы қайта ашады». Деректерде олар бұрыннан білетін құбылыстарды қайта ашу.

Шарлатандардан айырмашылығы, жақсы талдаушылар ашық ойлы және шабыттандыратын идеялардың әртүрлі түсіндірмелері болуы мүмкін екенін түсінеді. Сонымен қатар, жақсы статистиктер өз қорытындыларын жасамас бұрын мұқият анықтайды.

Сарапшылар жауапкершіліктен босатылады... егер олар өз деректерінен асып кетпесе. Егер олар көрмеген нәрсені талап етуге азғырылса, бұл басқа жұмыс. Олар аналитик ретінде «аяқ киімдерін шешіп», статистиктің аяқ киіміне «өзгеруі» керек. Ақыр соңында, ресми лауазым қандай болса да, егер қаласаңыз, екі кәсіпті де оқуға болмайды деген ереже жоқ. Тек оларды шатастырмаңыз.

Сіз статистиканы жақсы меңгергеніңіз аналитикада жақсы екеніңізді білдірмейді және керісінше. Егер біреу сізге басқаша айтқысы келсе, сіз сақ болуыңыз керек. Егер бұл адам сізге бұрыннан зерттеген деректер бойынша статистикалық қорытынды жасауға рұқсат етілгенін айтса, бұл екі есе сақ болуға негіз болады.

Біртүрлі түсініктемелер

Жабайы табиғатта деректер шарлатандарын байқаған кезде, олардың бақыланатын деректерді «түсіндіру» үшін қиял-ғажайып әңгімелерді жасауды жақсы көретінін байқайсыз. Неғұрлым академиялық болса, соғұрлым жақсы. Бұл әңгімелердің кері бағытта болуы маңызды емес.

Шарлатандар мұны істегенде - сөзбен жомарт болуға рұқсат етіңіз - олар өтірік айтады. Ешбір теңдеулер немесе әдемі тұжырымдамалар олардың нұсқаларының нөлдік дәлелін ұсынған фактіні толтыра алмайды. Олардың түсініктемелері қаншалықты ерекше екеніне таң қалмаңыз.

Бұл сіздің «психикалық» қабілеттеріңізді алдымен қолдарыңыздағы карталарға қарап, содан кейін қолыңызда не ұстайтыныңызды болжау арқылы ... ұстағаныңызбен бірдей. Бұл кейінге көзқарас, және деректер зерттеушісі мамандығы онымен толтырылған.

Data Science жүйесінен шарлатанды қалай тануға болады?

Сарапшылар: «Сіз жаңа ғана гауһар патшайыммен бірге жүрдіңіз» дейді. Статистика мамандары: «Мен жұмысты бастамас бұрын мен өз болжамдарымды осы қағазға жазып алдым. Ойнайық, кейбір деректерге қарап, менің дұрыс екенімді көрейік». Шарлатандар: «Мен сенің гауһар ханшайымы болатыныңды білдім, өйткені...» дейді.

Деректерді бөлу - бұл бәріне қажет жылдам түзету.

Деректер көп болмаған кезде статистика мен аналитиканы таңдауға тура келеді, бірақ деректер жеткілікті болған кезде аналитиканы алдаусыз пайдалануға тамаша мүмкіндік бар. и статистика. Сізде шарлатандардан тамаша қорғаныс бар - бұл деректерді бөлу және менің ойымша, бұл Data Science саласындағы ең күшті идея.

Шарлатандардан өзіңізді қорғау үшін сізге тек кейбір сынақ деректерін олардың көзіне түспейтініңізге көз жеткізіңіз, содан кейін қалғандарының бәрін аналитика ретінде қарастырыңыз. Сіз қабылдау қаупі бар теорияны кездестіргенде, оны жағдайды бағалау үшін пайдаланыңыз, содан кейін теорияның бос сөз емес екенін тексеру үшін құпия сынақ деректеріңізді ашыңыз. Бұл өте қарапайым!

Data Science жүйесінен шарлатанды қалай тануға болады?
Барлау кезеңінде сынақ деректерін көруге ешкімнің рұқсат етілмегеніне көз жеткізіңіз. Ол үшін зерттеу деректеріне сүйеніңіз. Сынақ деректерін талдау үшін пайдаланбау керек.

Бұл «шағын деректер» дәуіріндегі адамдар әдеттенгеннен үлкен қадам, онда сіз адамдарды шынымен бір нәрсені білетініңізге сендіру үшін не білетініңізді қалай білетініңізді түсіндіруіңіз керек.

ML/AI үшін бірдей ережелерді қолдану

ML/AI сарапшылары ретінде көрінетін кейбір шарлатанды анықтау оңай. Сіз оларды кез келген басқа жаман инженерді ұстайтындай ұстайсыз: олар құруға тырысатын «шешімдер» үнемі сәтсіздікке ұшырайды. Ерте ескерту белгісі - салалық стандартты тілдермен және бағдарламалау кітапханаларымен тәжірибенің болмауы.

Бірақ жұмыс істейтін сияқты жүйелерді жасайтын адамдар туралы не деуге болады? Күдікті нәрсе болып жатқанын қалай білуге ​​болады? Сол ереже қолданылады! Шарлатан - модель жасау үшін пайдаланған деректер бойынша модельдің қаншалықты жақсы орындағанын көрсететін қорқынышты кейіпкер.

Егер сіз өте күрделі машиналық оқыту жүйесін құрсаңыз, оның қаншалықты жақсы екенін қайдан білесіз? Сіз оған бұрын көрмеген жаңа деректермен жұмыс істеп жатқанын көрсетпейінше білмейсіз.

Деректерді болжаудан бұрын көргенде, бұл екіталай бұрынайту.

Бөлу үшін жеткілікті деректер болған кезде, жобаны негіздеу үшін формулаларыңыздың сұлулығына жүгінудің қажеті жоқ (мен ғылымда ғана емес, барлық жерде көретін ескі сәнді әдет). Сен айта аласың: «Мен бұл жұмыс істейтінін білемін, өйткені мен бұрын көрмеген деректер жинағын алып, онда не болатынын болжай аламын ... және мен дұрыс боламын. Қайта-қайта».

Модельіңізді/теорияңызды жаңа деректермен сынау сенімнің ең жақсы негізі болып табылады.

Мен деректер шарлатандарына шыдамаймын. Сіздің пікіріңіз әртүрлі чиптерге негізделген бе, маған бәрібір. Түсініктемелердің әдемілігі мені таң қалдырмайды. Маған сіздің теорияңыз/модель бұрын ешқашан көрмеген бірқатар жаңа деректерде жұмыс істейтінін (және жұмысын жалғастыратынын) көрсетіңіз. Бұл сіздің пікіріңіздің мықтылығының нағыз сынағы.

Деректер ғалымдарымен байланысу

Егер сіз осы әзіл-оспақ түсінетін кез келген адам сізді байыппен қабылдағыңыз келсе, жеке көзқарасыңызды сақтап қалу үшін сәнді теңдеулердің артына жасыруды доғарыңыз. Сізде бар нәрсені көрсетіңіз. Егер сіз оны «түсінетін» адамдар сіздің теорияңызды/үлгіңізді тек шабыттандыратын поэзия емес, көргіңіз келсе, оның жаңа деректер жиынтығында қаншалықты жақсы жұмыс істейтінін куәгерлер алдында көрсетуге батыл болыңыз!

Басшыларға үндеу

Деректерге қатысты кез келген «идеяларды» олар сыналғанға дейін байыпты қабылдаудан бас тартыңыз новых деректер. Сіз күш салғыңыз келмей ме? Аналитиканы ұстаныңыз, бірақ бұл идеяларға сенбеңіз - олар сенімсіз және сенімділік тексерілмеген. Сондай-ақ, ұйымда деректер көп болған кезде, бөлуді ғылымның негізіне айналдырудың және статистика үшін сынақ деректеріне қол жеткізуді бақылау арқылы оны инфрақұрылым деңгейінде ұстаудың ешқандай кемшілігі жоқ. Бұл сізді алдау әрекеттерін тоқтатудың тамаша тәсілі!

Егер сіз шарлатандардың жаман нәрсені жоспарлаған мысалдарын көргіңіз келсе - бұл тамаша twitter желісі.

Нәтижелері

Деректер бөлуге тым кішкентай болған кезде, тек шарлатан шабытты қатаң ұстануға тырысады, Американы ретроспективті түрде ашады, деректерде бұрыннан белгілі құбылыстарды математикалық түрде қайта ашады және тосын оқиғаны статистикалық маңызды деп атайды. Бұл оларды шабытпен айналысатын ашық сарапшыдан және болжау кезінде дәлел ұсынатын мұқият статистикалық маманнан ерекшелендіреді.

Деректер көп болған кезде, екі дүниенің де жақсысын алу үшін деректерді ортақ пайдалануды әдетке айналдырыңыз! Түпнұсқа деректер жинағының бөлек ішкі жиындары үшін аналитика мен статистиканы бөлек орындауды ұмытпаңыз.

  • Сарапшылар сізге шабыт пен перспектива ұсынады.
  • Статистика Сізге қатаң тестілеуді ұсынады.
  • Шарлатандар Сізге аналитика және статистика сияқты болып көрінетін бұрмаланған шолу ұсынады.

Мүмкін, мақаланы оқығаннан кейін сізде «мен шарлатанмын ба?» деген ой туындайтын шығар? Бұл жақсы. Бұл ойдан арылудың екі жолы бар: біріншіден, артқа қараңыз, не істегеніңізді көріңіз, деректермен жұмысыңыз практикалық пайда әкелді ме. Екіншіден, сіз әлі де өз біліктілігіңіз бойынша жұмыс істей аласыз (бұл артық болмайды), әсіресе біз студенттерімізге нақты деректер ғалымдары болуға мүмкіндік беретін практикалық дағдылар мен білім береміз.

Data Science жүйесінен шарлатанды қалай тануға болады?

Қосымша курстар

Толығырақ

Ақпарат көзі: www.habr.com

пікір қалдыру