Kif tirrikonoxxi charlatan tax-Xjenza tad-Data?

Kif tirrikonoxxi charlatan tax-Xjenza tad-Data?
Forsi smajt b'analisti, tagħlim tal-magni u speċjalisti tal-intelliġenza artifiċjali, imma smajt b'dawk li huma mħallsa żejda b'mod inġust? Iltaqa' data charlatan! Dawn il-hacks, imħajjar minn impjiegi li jrendu, jagħtu isem ħażin lix-xjentisti tad-dejta reali. Fil-materjal nifhmu kif inġibu nies bħal dawn għall-ilma nadif.

Charlatans tad-dejta huma kullimkien

Iċ-charlatans tad-dejta huma tant tajbin biex jaħbu f'għajnejhom li tista ' tkun wieħed minnhombla ma jinduna bih. Ċansijiet huma, l-organizzazzjoni tiegħek ilha tilqa 'dawn il-ġuvini sneaky għal snin, iżda l-aħbar tajba hija li huma faċli biex jiġu identifikati jekk taf x'għandek tfittex.
L-ewwel sinjal ta 'twissija huwa nuqqas ta' fehim li l-analitika u l-istatistika huma dixxiplini differenti ħafna. Se nispjega dan aktar.

Dixxiplini differenti

L-istatistika huma mħarrġa biex jaslu konklużjonijiet dwar dak li jmur lil hinn mid-dejta tagħhom, l-analisti huma mħarrġa biex jeżaminaw il-kontenut ta 'sett tad-dejta. Fi kliem ieħor, l-analisti jiġbdu konklużjonijiet dwar dak li hemm fid-dejta tagħhom, u l-istatistiċi jiġbdu konklużjonijiet dwar dak li mhux fid-dejta. L-analisti jgħinuk tistaqsi mistoqsijiet tajbin (tagħmel ipoteżi), u l-istatistika jgħinuk tikseb tweġibiet tajbin (ittestja l-ipoteżijiet tiegħek).

Hemm ukoll rwoli ibridi strambi fejn persuna tipprova toqgħod fuq żewġ siġġijiet... Għaliex le? Prinċipju bażiku tax-xjenza tad-dejta: jekk qed tittratta l-inċertezza, ma tistax tuża l-istess punt tad-dejta għall-ipoteżijiet u l-ittestjar. Meta d-dejta tkun limitata, l-inċertezza ġġiegħel għażla bejn statistika jew analitika. Spjegazzjoni hawn.

Mingħajr statistika, inti tkun mwaħħla u ma tkunx tista 'tifhem jekk il-ġudizzju li għadek fformulajt iżommx, u mingħajr analiżi, qed timxi bl-addoċċ, bi ftit ċans li timmagħna dak li mhux magħruf. Din hija għażla diffiċli.

Il-mod taċ-ċarlatan joħroġ minn dan it-taħwid huwa li jinjora u mbagħad jippretendi li jkun sorpriż b’dak li jirriżulta f’daqqa. Il-loġika wara l-ittestjar tal-ipoteżijiet statistiċi tiġi għall-mistoqsija dwar jekk id-dejta tissorprendix biżżejjed biex inbiddlu moħħna. Kif nistgħu nkunu sorpriżi bid-dejta jekk diġà rajnaha?

Kull meta charlatans isibu mudell, huma jiġu ispirati, imbagħad iċċekkja l-istess data għall- l-istess mudellbiex tippubblika r-riżultat b'valur p leġittimu jew tnejn, ħdejn it-teorija tagħhom. Għalhekk, qed jigdeb lilek (u, forsi, lilhom infushom ukoll). Dan il-valur p ma jimpurtax jekk ma żżommx mal-ipoteżi tiegħek li kif rajt id-dejta tiegħek. Charlatans jimitaw l-azzjonijiet ta 'analisti u statistiċi mingħajr ma jifhmu r-raġunijiet. Bħala riżultat, il-qasam kollu tax-xjenza tad-dejta jieħu reputazzjoni ħażina.

L-istatistika veri dejjem jaslu għall-konklużjonijiet tagħhom stess

Grazzi għar-reputazzjoni kważi mistika tal-istatistika għar-raġunament rigoruż tagħhom, l-ammont ta 'informazzjoni falza fix-Xjenza tad-Data huwa fl-ogħla livell. Huwa faċli li tqarraq u ma tinqabadx, speċjalment jekk il-vittma li ma jissuspettax taħseb li kollox huwa dwar ekwazzjonijiet u data. Sett ta' dejta huwa sett ta' dejta, hux? Nru. Huwa importanti kif tużah.

Fortunatament, għandek bżonn biss ħjiel wieħed biex taqbad iċ-charlatans: qed "jiskopru l-Amerika b'mod retroattiv." Billi jiskopru mill-ġdid fenomeni li huma diġà jafu li huma preżenti fid-dejta.

B'differenza minn charlatans, analisti tajbin huma moħħom miftuħin u jifhmu li l-ideat ta 'ispirazzjoni jista' jkollhom ħafna spjegazzjonijiet differenti. Fl-istess ħin, statistiċi tajbin jiddefinixxu bir-reqqa l-konklużjonijiet tagħhom qabel ma jagħmluhom.

L-analisti huma eżenti mir-responsabbiltà... sakemm jibqgħu fl-ambitu tad-dejta tagħhom. Jekk jitħajru jsostnu xi ħaġa li ma rawx, dak huwa xogħol ieħor. Għandhom ineħħu ż-żraben tal-analista u jilbsu ż-żraben tal-istatistika. Wara kollox, ikun xi jkun it-titlu uffiċjali tax-xogħol, m'hemm l-ebda regola li tgħid li ma tistax tistudja ż-żewġ professjonijiet jekk trid. Biss ma tħawwadhom.

Sempliċement għax int tajjeb fl-istatistika ma jfissirx li int tajjeb fl-analitika, u viċi versa. Jekk xi ħadd jipprova jgħidlek mod ieħor, għandek toqgħod attent. Jekk din il-persuna tgħidlek li huwa permissibbli li tiġbed konklużjonijiet statistiċi minn dejta li diġà studjajt, din hija raġuni biex tkun doppjament attenta.

Spjegazzjonijiet strambi

Meta tosserva charlatans tad-dejta fis-selvaġġ, tinduna li jħobbu jagħmlu stejjer meraviljużi biex "jispjegaw" id-dejta li josservaw. L-aktar akkademiku, l-aħjar. Ma jimpurtax li dawn l-istejjer huma aġġustati b'ħarsa b'lura.

Meta ċ-ċarlatani jagħmlu dan - ħa nkun ċar - qed jigdeb. L-ebda ammont ta 'ekwazzjonijiet jew kunċetti fancy ma jista' jagħmel tajjeb għall-fatt li offrew prova żero tat-teoriji tagħhom. Tibqax sorpriż b'kemm l-ispjegazzjonijiet tagħhom huma mhux tas-soltu.

Dan huwa l-istess bħal turi l-abbiltajiet "psikiċi" tiegħek billi l-ewwel tħares lejn il-karti f'idejk u mbagħad tbassar dak li qed iżżomm ... dak li qed iżżomm. Dan huwa preġudizzju għal ħarsa b'lura, u l-professjoni tax-xjenza tad-dejta hija mimlija sax-xifer magħha.

Kif tirrikonoxxi charlatan tax-Xjenza tad-Data?

L-analisti jgħidu: "Int biss mort mar-Reġina tad-Djamanti." L-istatistika jgħidu, “Iktibt l-ipoteżijiet tiegħi fuq din il-biċċa karta qabel bdejna. Ejja nilagħbu u nħarsu lejn xi dejta u naraw jekk għandix raġun." Iċ-Ċarlatani jgħidu: “Kont naf li kont se ssir din ir-Reġina tad-Djamanti għax...”

Il-kondiviżjoni tad-dejta hija s-soluzzjoni mgħaġġla li kulħadd jeħtieġ.

Meta ma jkunx hemm ħafna dejta, trid tagħżel bejn statistika u analitika, iżda meta jkun hemm aktar minn biżżejjed dejta, hemm opportunità kbira biex tuża l-analitika mingħajr qerq и statistika. Għandek id-difiża perfetta kontra ċ-charlatans - separazzjoni tad-dejta u, fl-opinjoni tiegħi, din hija l-idea l-aktar qawwija fix-Xjenza tad-Data.

Biex tipproteġi lilek innifsek minn charlatans, kull ma trid tagħmel hu li tiżgura li żżomm xi dejta tat-test fejn ma tintlaħaqx mill-għajnejn tagħhom, u mbagħad tittratta l-bqija bħala analytics. Meta tiltaqa 'ma' teorija li tkun f'riskju li taċċetta, użaha biex tevalwa s-sitwazzjoni, u mbagħad ikxef id-dejta sigrieta tat-test tiegħek biex tivverifika li t-teorija mhix xi ħaġa bla sens. Huwa daqshekk sempliċi!

Kif tirrikonoxxi charlatan tax-Xjenza tad-Data?
Kun żgur li ħadd ma jitħalla jara d-dejta tat-test matul il-fażi tal-esplorazzjoni. Biex tagħmel dan, żomm mad-dejta tar-riċerka. Id-dejta tat-test m'għandhiex tintuża għall-analiżi.

Dan huwa pass kbir minn dak li huma mdorrijin bih in-nies fl-era tad-“dejta żgħira”, fejn trid tispjega kif taf x’taf sabiex finalment tikkonvinċi lin-nies li fil-fatt taf xi ħaġa.

Applika l-istess regoli għal ML/AI

Xi charlatans li jippożaw bħala esperti ML/AI huma wkoll faċli biex jinstabu. Int ser taqbadhom bl-istess mod kif taqbad kwalunkwe inġinier ħażin ieħor: is-"soluzzjonijiet" li jippruvaw jibnu kontinwament ifallu. Sinjal ta’ twissija bikrija huwa nuqqas ta’ esperjenza bil-lingwi u l-libreriji tal-ipprogrammar standard tal-industrija.

Imma xi ngħidu dwar in-nies li joħolqu sistemi li jidhru li jaħdmu? Kif tkun taf jekk tkunx għaddejja xi ħaġa suspettuża? L-istess regola tapplika! Iċ-Ċarlatan huwa karattru sinistru li jurik kemm il-mudell ħadem tajjeb... fuq l-istess data li użaw biex ħolqu l-mudell.

Jekk bnejt sistema ta' tagħlim tal-magni kumplessa insanely, kif tkun taf kemm hi tajba? Mhux se tkun taf sakemm turiha taħdem b'dejta ġdida li ma ratx qabel.

Meta rajt id-dejta qabel it-tbassir - mhux probabbli qabeljavżak

Meta jkollok biżżejjed dejta biex tissepara, m'għandekx għalfejn tikkwota s-sbuħija tal-formuli tiegħek biex tiġġustifika l-proġett (vizzju tal-moda antika li nara kullimkien, mhux biss fix-xjenza). Tista’ tgħid: “Naf li jaħdem għax nista’ nieħu data set li ma rajtx qabel u nbassar eżattament x’se jiġri hemmhekk... u nkun raġun. Għal darb’oħra u għal darb’oħra”.

L-ittestjar tal-mudell/teorija tiegħek kontra data ġdida hija l-aħjar bażi għall-kunfidenza.

Ma nittollerax charlatans tad-data. Ma jimpurtaniex jekk l-opinjoni tiegħek hijiex ibbażata fuq tricks differenti. M'iniex impressjonat bis-sbuħija tal-ispjegazzjonijiet. Urini li t-teorija/mudell tiegħek taħdem (u tkompli taħdem) fuq mazz sħiħ ta 'dejta ġdida li qatt ma rajt qabel. Dan huwa t-test reali tas-saħħa tal-opinjoni tiegħek.

Nikkuntattjaw Esperti tax-Xjenza tad-Data

Jekk trid tittieħed bis-serjetà minn kull min jifhem dan l-umoriżmu, tieqaf tinħeba wara ekwazzjonijiet fancy biex tappoġġja l-preġudizzji personali. Urini dak li għandek. Jekk trid li dawk li "jġibuha" jaraw it-teorija/il-mudell tiegħek bħala aktar minn sempliċi poeżija ta' ispirazzjoni, għandek il-kuraġġ li tagħmel spettaklu grandjuż ta' kemm taħdem tajjeb fuq sett ta' data kompletament ġdid... quddiem ix-xhieda !

Appell lill-mexxejja

Irrifjuta li tieħu bis-serjetà kwalunkwe "ideat" dwar id-dejta sakemm tkun ġiet ittestjata ġdid data. Ma tħossokx li tagħmel l-isforz? Żomm ma 'l-analitiċi, imma tistrieħx fuq dawn l-ideat—mhumiex affidabbli u ma ġewx ittestjati għall-affidabbiltà. Barra minn hekk, meta organizzazzjoni jkollha dejta abbundanti, m'hemm l-ebda żvantaġġ biex is-separazzjoni ssir fundamentali fix-xjenza u tinżamm fil-livell tal-infrastruttura billi tikkontrolla l-aċċess għad-dejta tat-test għall-istatistika. Dan huwa mod tajjeb ħafna biex twaqqaf lin-nies jippruvaw iqarquk!

Jekk trid tara aktar eżempji ta 'charlatans sa xejn tajjeb - hawn ħajta mill-isbaħ fuq Twitter.

Riżultati ta '

Meta jkun hemm ftit wisq dejta biex tissepara, charlatan biss jipprova jsegwi b'mod strett l-ispirazzjoni billi jiskopri l-Amerika retrospettivament, jiskopri mill-ġdid matematikament fenomeni diġà magħrufa li huma fid-dejta, u jsejjaħ is-sorpriża statistikament sinifikanti. Dan jiddistingwihom mill-analista b’moħħ miftuħ, li jittratta l-ispirazzjoni, u mill-istatistika metikoluż, li joffri evidenza meta jagħmel tbassir.

Meta jkun hemm ħafna dejta, ħu d-drawwa li tissepara d-dejta sabiex tkun tista’ jkollok l-aħjar miż-żewġ dinjiet! Kun żgur li tagħmel analitika u statistika separatament għal sottogruppi individwali tal-munzell oriġinali tad-dejta.

  • Analisti noffrulek ispirazzjoni u moħħ miftuħ.
  • Statistika toffrilek ittestjar rigoruż.
  • Charlatans noffrulek ħarsa lura mibruma li tippretendi li tkun analytics flimkien ma’ statistika.

Forsi, wara li taqra l-artiklu, ikollok il-ħsieb “jien charlatan”? Dan tajjeb. Hemm żewġ modi kif teħles minn dan il-ħsieb: l-ewwel, ħares lura, ara x'għamilt, jekk ix-xogħol tiegħek bid-dejta ġabitx benefiċċju prattiku. U t-tieni, xorta tista 'taħdem fuq il-kwalifiki tiegħek (li ċertament mhux se jkunu superfluwi), speċjalment peress li aħna nagħtu lill-istudenti tagħna ħiliet prattiċi u għarfien li jippermettulhom isiru xjenzati tad-dejta reali.

Kif tirrikonoxxi charlatan tax-Xjenza tad-Data?

Aktar korsijiet

Aqra iktar

Sors: www.habr.com

Żid kumment