Ինչպե՞ս ճանաչել շառլատանին Data Science-ից:

Ինչպե՞ս ճանաչել շառլատանին Data Science-ից:
Գուցե դուք լսել եք վերլուծաբանների, մեքենայական ուսուցման և արհեստական ​​ինտելեկտի մասնագետների մասին, բայց լսե՞լ եք նրանց մասին, ովքեր անարդարացիորեն ավել վարձատրվում են: Հանդիպեք տվյալների շառլատան! Այս հաքերները, որոնք հրապուրվել են շահութաբեր աշխատանքով, իրական տվյալների գիտնականներին վատ անուն են տալիս: Նյութում մենք հասկանում ենք, թե ինչպես կարելի է նման մարդկանց բերել մաքուր ջրի:

Տվյալների շառլատաններն ամենուր են

Տվյալների շառլատաններն այնքան լավ են թաքնվում պարզ տեսադաշտում, որ դուք կարող եք լինել նրանցից մեկըառանց նույնիսկ դա գիտակցելու: Հավանական է, որ ձեր կազմակերպությունը տարիներ շարունակ ապաստանել է այս նենգ տղաներին, բայց լավ նորությունն այն է, որ նրանց հեշտ է ճանաչել, եթե գիտեք, թե ինչ փնտրել:
Առաջին նախազգուշական նշանը դա չհասկանալն է վերլուծությունը և վիճակագրությունը շատ տարբեր առարկաներ են. Սա ավելի մանրամասն կբացատրեմ:

Տարբեր առարկաներ

Վիճակագիրները պատրաստված են եզրակացություններ անելու այն մասին, թե ինչն է դուրս իրենց տվյալներից, վերլուծաբանները՝ ուսումնասիրելու տվյալների հավաքածուի բովանդակությունը: Այսինքն՝ վերլուծաբանները եզրակացություններ են անում այն ​​մասին, թե ինչ կա իրենց տվյալների մեջ, իսկ վիճակագիրները եզրակացություններ են անում այն ​​մասին, թե ինչ չկա տվյալների մեջ։ Վերլուծաբաններն օգնում են ձեզ լավ հարցեր տալ (հիպոթեզներ անել), իսկ վիճակագիրները՝ լավ պատասխաններ ստանալ (փորձարկել ձեր վարկածները):

Կան նաև տարօրինակ հիբրիդային դերեր, որտեղ մարդը փորձում է նստել երկու աթոռի վրա... Ինչո՞ւ ոչ: Տվյալների գիտության հիմնական սկզբունքը. եթե գործ ունես անորոշության հետ, չես կարող օգտագործել նույնը տվյալների կետ վարկածների և փորձարկման համար: Երբ տվյալները սահմանափակ են, անորոշությունը ստիպում է ընտրություն կատարել վիճակագրության կամ վերլուծության միջև: Բացատրություն այստեղ.

Առանց վիճակագրության, դուք խրված կլինեք և չեք կարողանա հասկանալ, թե արդյոք ձեր նոր ձևակերպած դատողությունը պահպանվում է, և առանց վերլուծության, դուք շարժվում եք կուրորեն, անհայտը ընտելացնելու փոքր հնարավորություններով: Սա դժվար ընտրություն է։

Այս խառնաշփոթից շառլատանի ելքը դա անտեսելն է և հետո ձևացնել, թե զարմացած է այն ամենից, ինչ հանկարծ հայտնվում է: Վիճակագրական վարկածների փորձարկման տրամաբանությունը հանգում է այն հարցին, թե արդյոք տվյալները մեզ այնքան զարմացնում են, որ փոխեն մեր կարծիքը: Ինչպե՞ս կարող ենք զարմանալ տվյալների վրա, եթե մենք արդեն տեսել ենք դրանք:

Ամեն անգամ, երբ շառլատանները օրինաչափություն են գտնում, ոգեշնչվում են, հետո ստուգում նույն տվյալները համար նույն օրինակը, արդյունքը հրապարակել օրինական p-արժեքով կամ երկու՝ իրենց տեսության կողքին։ Այսպիսով, նրանք ստում են ձեզ (և, հավանաբար, նաև իրենց): Այս p-արժեքը նշանակություն չունի, եթե դուք չմնաք ձեր վարկածին դեպի ինչպես եք դիտել ձեր տվյալները: Շառլատաններն ընդօրինակում են վերլուծաբանների ու վիճակագիրների գործողությունները՝ չհասկանալով պատճառները։ Արդյունքում տվյալների գիտության ողջ ոլորտը վատ համբավ է ստանում։

Իսկական վիճակագիրները միշտ իրենց եզրակացություններն են անում

Շնորհիվ վիճակագիրների համարյա առեղծվածային համբավի՝ իրենց խիստ դատողությունների համար, տվյալների գիտության մեջ կեղծ տեղեկատվության քանակը բոլոր ժամանակների ամենաբարձր մակարդակի վրա է: Հեշտ է խաբելն ու չբռնվելը, հատկապես, եթե չկասկածող զոհը կարծում է, որ ամեն ինչ հավասարումների և տվյալների մասին է: Տվյալների հավաքածուն տվյալների բազա է, այնպես չէ՞: Ոչ Կարևոր է, թե ինչպես եք այն օգտագործում:

Բարեբախտաբար, շառլատաններին բռնելու համար ձեզ միայն մեկ թել է պետք. նրանք «հետադարձաբար բացահայտում են Ամերիկան»: Վերագտնելով այն երևույթները, որոնք արդեն գիտեն, որ առկա են տվյալներում։

Ի տարբերություն շառլատանների, լավ վերլուծաբանները լայնախոհ են և հասկանում են, որ ոգեշնչող գաղափարները կարող են շատ տարբեր բացատրություններ ունենալ: Միևնույն ժամանակ, լավ վիճակագիրները նախքան դրանք անելը ուշադիր սահմանում են իրենց եզրակացությունները:

Վերլուծաբաններն ազատված են պատասխանատվությունից... քանի դեռ նրանք մնում են իրենց տվյալների շրջանակում: Եթե ​​նրանք գայթակղվում են պնդել մի բան, որը չեն տեսել, դա լրիվ այլ աշխատանք է: Պետք է հանեն վերլուծաբանի կոշիկները, հագնեն վիճակագիրի կոշիկները։ Ի վերջո, անկախ նրանից, թե ինչ պաշտոնի կոչում ունի, չկա որևէ կանոն, որն ասում է, որ ցանկության դեպքում չես կարող սովորել երկու մասնագիտություններն էլ: Պարզապես մի շփոթեք նրանց:

Միայն այն, որ դուք լավ եք վիճակագրության մեջ, չի նշանակում, որ լավ եք վերլուծության մեջ, և հակառակը: Եթե ​​ինչ-որ մեկը փորձում է ձեզ այլ բան ասել, դուք պետք է զգույշ լինեք: Եթե ​​այս անձը ձեզ ասում է, որ թույլատրելի է վիճակագրական եզրակացություններ անել արդեն իսկ ուսումնասիրած տվյալներից, դա կրկնակի զգուշանալու պատճառ է։

Տարօրինակ բացատրություններ

Վայրի բնության մեջ շառլատանների տվյալները դիտարկելիս կնկատեք, որ նրանք սիրում են ֆանտաստիկ պատմություններ հորինել՝ «բացատրելու» իրենց դիտարկած տվյալները: Որքան ակադեմիական, այնքան լավ: Կարևոր չէ, որ այս պատմությունները հետադարձ հայացքով են ճշգրտվում։

Երբ դա անում են շառլատանները, պարզ ասեմ, նրանք ստում են: Ոչ մի քանակի հավասարումներ կամ շքեղ հասկացություններ չեն կարող լրացնել այն փաստը, որ նրանք առաջարկել են իրենց տեսությունների զրոյական ապացույցը: Մի զարմացեք, թե որքան անսովոր են նրանց բացատրությունները:

Սա նույնն է, ինչ ցույց տաս քո «հոգեկան» ունակությունները՝ նախ նայելով ձեռքերիդ բացիկներին, հետո գուշակելով, թե ինչ ես բռնում... ինչ ես բռնում։ Սա հետևողական կողմնակալություն է, և տվյալների գիտության մասնագիտությունը լի է դրանով:

Ինչպե՞ս ճանաչել շառլատանին Data Science-ից:

Վերլուծաբաններն ասում են. «Դուք հենց նոր գնացիք ադամանդների թագուհու հետ»: Վիճակագիրներն ասում են. «Ես իմ վարկածները գրել եմ այս թղթի վրա նախքան սկսելը: Եկեք խաղանք և նայենք որոշ տվյալների և տեսնենք, թե արդյոք ես ճիշտ եմ»: Շառլատաններն ասում են. «Ես գիտեի, որ դու դառնալու ես ադամանդի այս թագուհին, որովհետև…»

Տվյալների փոխանակումը բոլորին անհրաժեշտ արագ լուծումն է:

Երբ շատ տվյալներ չկան, պետք է ընտրություն կատարել վիճակագրության և վերլուծության միջև, բայց երբ կան ավելի քան բավարար տվյալներ, մեծ հնարավորություն է ստեղծվում առանց խաբեության վերլուծություն օգտագործելու: и վիճակագրություն։ Դուք կատարյալ պաշտպանություն ունեք շառլատաններից՝ տվյալների տարանջատում, և, իմ կարծիքով, սա տվյալների գիտության ամենահզոր գաղափարն է:

Շառլատաններից ձեզ պաշտպանելու համար ընդամենը պետք է համոզվեք, որ որոշ թեստի տվյալներ հեռու եք պահում նրանց հետաքրքրասեր աչքերից, իսկ մնացածը վերաբերվում են որպես վերլուծությունների: Երբ դուք հանդիպեք մի տեսության, որը դուք վտանգի տակ եք ընդունել, օգտագործեք այն իրավիճակը գնահատելու համար, այնուհետև բացահայտեք ձեր գաղտնի թեստի տվյալները՝ ստուգելու համար, որ տեսությունը անհեթեթ չէ: Դա այնքան պարզ է:

Ինչպե՞ս ճանաչել շառլատանին Data Science-ից:
Համոզվեք, որ հետախուզման փուլում ոչ ոքի չի թույլատրվում դիտել փորձարկման տվյալները: Դա անելու համար հավատարիմ մնացեք հետազոտության տվյալներին: Փորձարկման տվյալները չպետք է օգտագործվեն վերլուծության համար:

Սա մեծ քայլ է այն բանից, ինչին սովոր են մարդիկ «փոքր տվյալների» դարաշրջանում, որտեղ դուք պետք է բացատրեք, թե ինչպես գիտեք այն, ինչ գիտեք, որպեսզի վերջապես համոզեք մարդկանց, որ իրականում ինչ-որ բան գիտեք:

Կիրառեք նույն կանոնները ML/AI-ի նկատմամբ

Որոշ շառլատաններ, ովքեր ներկայանում են որպես ML/AI փորձագետներ, նույնպես հեշտ է նկատել: Դուք նրանց կբռնեք այնպես, ինչպես կբռնեիք ցանկացած այլ վատ ինժեների. այն «լուծումները», որոնք նրանք փորձում են կառուցել, անընդհատ ձախողվում են: Վաղ նախազգուշացման նշան է արդյունաբերության ստանդարտ ծրագրավորման լեզուների և գրադարանների փորձի բացակայությունը:

Բայց ի՞նչ կարելի է ասել այն մարդկանց մասին, ովքեր ստեղծում են համակարգեր, որոնք կարծես թե աշխատում են: Ինչպե՞ս կարող եք իմանալ, թե արդյոք ինչ-որ կասկածելի բան է տեղի ունենում: Նույն կանոնը գործում է! Շառլատանը չարաբաստիկ կերպար է, ով ցույց է տալիս, թե որքան լավ է աշխատել մոդելը… նույն տվյալների վրա, որոնք նրանք օգտագործել են մոդելը ստեղծելու համար:

Եթե ​​դուք ստեղծել եք մեքենայական ուսուցման խելահեղ բարդ համակարգ, ինչպե՞ս կարող եք իմանալ, թե որքան լավն է այն: Դուք չեք իմանա, մինչև ցույց չտաք նրան աշխատել նոր տվյալների հետ, որոնք նա նախկինում չի տեսել:

Երբ դուք տեսաք տվյալները նախքան կանխատեսումը, դա քիչ հավանական է նախկինումպատմելով

Երբ դուք ունեք բավականաչափ տվյալներ առանձնացնելու համար, դուք կարիք չունեք վկայակոչելու ձեր բանաձեւերի գեղեցկությունը՝ նախագիծը հիմնավորելու համար (հին նորաձևության սովորություն, որը ես տեսնում եմ ամենուր, ոչ միայն գիտության մեջ): Դու կարող ես ասել: «Ես գիտեմ, որ դա աշխատում է, քանի որ ես կարող եմ վերցնել տվյալների հավաքածու, որը ես նախկինում չեմ տեսել և կանխատեսել, թե ինչ կլինի այնտեղ… և ես ճիշտ կլինեմ: Նորից ու նորից".

Ձեր մոդելի/տեսության փորձարկումը նոր տվյալների դեմ լավագույն հիմքն է վստահության համար:

Ես չեմ հանդուրժում տվյալների շառլատանները. Ինձ չի հետաքրքրում, եթե ձեր կարծիքը հիմնված է տարբեր հնարքների վրա։ Ես տպավորված չեմ բացատրությունների գեղեցկությամբ։ Ցույց տվեք ինձ, որ ձեր տեսությունը/մոդելը աշխատում է (և շարունակում է գործել) նոր տվյալների մի ամբողջ փունջի վրա, որոնք նախկինում երբեք չեք տեսել: Սա ձեր կարծիքի ուժի իրական փորձությունն է։

Կապվեք տվյալների գիտության փորձագետների հետ

Եթե ​​ցանկանում եք, որ ձեզ լրջորեն վերաբերվեն բոլոր նրանք, ովքեր հասկանում են այս հումորը, դադարեք թաքնվել շքեղ հավասարումների հետևում, որպեսզի աջակցեք անձնական կողմնակալությանը: Ցույց տուր ինձ, թե ինչ ունես: Եթե ​​ցանկանում եք, որ նրանք, ովքեր «հասցնում են դա», դիտեն ձեր տեսությունը/մոդելը որպես ավելին, քան պարզապես ոգեշնչող պոեզիա, քաջություն ունեցեք ցուցադրելու մեծ շոու, թե որքան լավ է այն աշխատում բոլորովին նոր տվյալների վրա... ականատեսների առջև։ !

Դիմում առաջնորդներին

Հրաժարվեք լրջորեն վերաբերվել տվյալների վերաբերյալ որևէ «գաղափարին», քանի դեռ դրանք չեն փորձարկվել նոր տվյալները։ Չե՞ք ցանկանում ջանք գործադրել: Մնացեք վերլուծական տվյալների վրա, բայց մի ապավինեք այս գաղափարներին. դրանք հուսալի չեն և չեն փորձարկվել հուսալիության համար: Ավելին, երբ կազմակերպությունն ունի առատ տվյալներ, գիտության մեջ տարանջատումը հիմնարար դարձնելու և այն ենթակառուցվածքի մակարդակում պահպանելու թերություն չկա՝ վերահսկելով վիճակագրության համար թեստային տվյալների հասանելիությունը: Սա հիանալի միջոց է կանգնեցնելու մարդկանց, ովքեր փորձում են ձեզ խաբել:

Եթե ​​ցանկանում եք տեսնել շառլատանների ավելի շատ օրինակներ, մինչև ոչ լավը, ահա մի հրաշալի թեմա Twitter-ում.

Արդյունքները

Երբ առանձնացնելու համար շատ քիչ տվյալներ կան, միայն շառլատանն է փորձում խստորեն հետևել ոգեշնչմանը` հետահայաց հայտնաբերելով Ամերիկան, մաթեմատիկորեն վերագտնելով արդեն հայտնի երևույթները տվյալների մեջ և անակնկալը անվանելով վիճակագրորեն նշանակալի: Սա տարբերում է նրանց բացամիտ վերլուծաբանից, ով զբաղվում է ոգեշնչմամբ, և բծախնդիր վիճակագիրից, ով ապացույցներ է առաջարկում կանխատեսումներ անելիս:

Երբ շատ տվյալներ կան, սովորություն ձեռք բերեք տարանջատել տվյալները, որպեսզի կարողանաք ունենալ երկու աշխարհներից լավագույնը: Համոզվեք, որ կատարեք վերլուծություններ և վիճակագրություն առանձին տվյալների սկզբնական կույտի առանձին ենթաբազմությունների համար:

  • Վերլուծաբանները առաջարկում է ձեզ ոգեշնչում և լայնախոհություն:
  • Վիճակագրություն առաջարկում է ձեզ խիստ թեստավորում:
  • Շառլատաններ առաջարկում է ձեզ ոլորված հետադարձ հայացք, որը հավակնում է լինել վերլուծական և վիճակագրություն:

Միգուցե հոդվածը կարդալուց հետո ձեզ մոտ առաջանա «ես շառլատան» միտքը։ Սա լավ է: Այս մտքից ազատվելու երկու եղանակ կա՝ նախ հետադարձ հայացք գցեք, տեսեք, թե ինչ եք արել, արդյոք ձեր աշխատանքը տվյալների հետ գործնական օգուտ բերե՞լ է։ Եվ երկրորդը, դուք դեռ կարող եք աշխատել ձեր որակավորումների վրա (որը, իհարկե, ավելորդ չի լինի), հատկապես, որ մենք մեր ուսանողներին տալիս ենք գործնական հմտություններ և գիտելիքներ, որոնք թույլ են տալիս դառնալ իրական տվյալների գիտնականներ:

Ինչպե՞ս ճանաչել շառլատանին Data Science-ից:

Ավելի շատ դասընթացներ

Ավելին կարդացեք

Source: www.habr.com

Добавить комментарий