Nola ezagutu Charlatan bat Data Science-tik?

Nola ezagutu Charlatan bat Data Science-tik?
Baliteke analistak, ikaskuntza automatikoa eta adimen artifizialeko espezialisten berri izatea, baina entzun al duzu bidegabe ordaintzen dutenen berri? Ezagutu datu charlatan! Hackeo hauek, lan irabaziak erakarrita, benetako datuen zientzialariei izen txarra ematen diete. Materialean horrelako pertsonak ur garbira nola eraman ulertzen dugu.

Datu charlatans nonahi daude

Datu charlatans oso onak dira bistan ezkutatzen ahal duzula izan horietako batkonturatu ere egin gabe. Baliteke zure erakundeak urteak daramatza mutil maltzur hauek babesten, baina albiste ona da erraz identifikatzen direla zer bilatu behar duzun badakizu.
Lehenengo abisu seinalea hori ulertzea da analitika eta estatistika oso diziplina desberdinak dira. Hau gehiago azalduko dut.

Diziplina desberdinak

Estatistikariak beren datuetatik haratago doanari buruzko ondorioak ateratzeko trebatzen dira, analistak datu multzo baten edukia aztertzeko trebatzen dira. Beste era batera esanda, analistek ondorioak ateratzen dituzte datuetan dagoenari buruz, eta estatistikariek ondorioak ateratzen dituzte datuetan ez dagoenari buruz. Analistek galdera onak egiten laguntzen dizute (hipotesiak egiten), eta estatistikariek erantzun onak lortzen (zure hipotesiak probatu).

Rol hibrido bitxiak ere badaude, non pertsona bat bi aulkitan esertzen saiatzen den... Zergatik ez? Datuen zientziaren oinarrizko printzipioa: ziurgabetasunari aurre egiten bazaizu, ezin duzu erabili berdina hipotesiak eta probak egiteko datu-puntua. Datuak mugatuak direnean, ziurgabetasunak estatistiken edo analitikoen artean aukeratzera behartzen du. azalpen Hemen.

Estatistikarik gabe, trabatuta geratuko zara eta ezin ulertuko zara formulatu berri duzun epaiak mantentzen duen ala ez, eta analisirik gabe, itsu-itsuan mugitzen zara, ezezaguna otzantzeko aukera gutxirekin. Hau aukera zaila da.

Txarlatanak nahaspila horretatik ateratzeko bidea ez ikusiarena egitea da eta, gero, bat-batean gertatzen denarekin harrituta geratzen dela itxuratzea. Hipotesi estatistikoak probatzearen atzean dagoen logika datuek iritziz aldatzeko nahikoa harritzen gaituzten ala ez galderara dator. Nola harritu gaitezke datuekin dagoeneko ikusi baditugu?

Txarlatanek eredu bat aurkitzen duten bakoitzean, inspiratzen dira, gero egiaztatu datu berdinak egiteko eredu bera, emaitza zilegizko p-balio batekin edo birekin argitaratzeko, haien teoriaren ondoan. Horrela, gezurretan ari zaizkizu (eta, agian, beraiek ere). p-balio honek ez du axola zure hipotesiari atxikitzen ez bazaio to nola ikusi dituzun zure datuak. Txarlatanek analista eta estatistikoen ekintzak imitatzen dituzte arrazoiak ulertu gabe. Ondorioz, datu-zientzien arlo osoak ospe txarra hartzen du.

Egiazko estatistikariek beti ateratzen dituzte beren ondorioak

Estatistikariek beren arrazoiketa zorrotzagatik duten ospe ia mistikoari esker, Data Science-n informazio faltsuen kopurua gorena da. Erraza da engainatzea eta ez harrapatzea, batez ere ustekabeko biktimak uste badu dena ekuazio eta datuen ingurukoa dela. Datu multzo bat datu multzo bat da, ezta? Ez. Garrantzitsua da nola erabiltzen duzun.

Zorionez, arrasto bat besterik ez duzu behar txarlatanak harrapatzeko: Β«Atzerakoki Amerika deskubritzen ari diraΒ». Datuetan dagoeneko ezagutzen dituzten fenomenoak berraurkituz.

Charlatanek ez bezala, analista onak irekiak dira eta ideia inspiratzaileak hainbat azalpen izan ditzaketela ulertzen dute. Aldi berean, estatistikari onek kontu handiz definitzen dituzte ondorioak atera baino lehen.

Analistak erantzukizunetik salbuetsita daude... euren datuen esparruan jarraitzen badute. Ikusi ez zuten zerbait aldarrikatzeko tentazioa badute, hori beste lan bat da. Analistaren oinetakoak kendu eta estatistikoaren oinetakoak jantzi beharko lituzkete. Azken finean, lanbide ofiziala zein den edozein dela ere, ez dago araurik nahi izanez gero bi lanbideak ezin direla ikasi dionik. Besterik gabe, ez nahastu.

Estatistiketan ona izateak ez du esan nahi analitikan ona zarenik, eta alderantziz. Norbait kontrakoa esaten saiatzen bazaizu, kontuz ibili beharko zenuke. Pertsona honek esaten badizu zilegi dela ikertu dituzun datuetatik ondorio estatistikoak ateratzea, hori da bikoitza kontuz ibiltzeko arrazoia.

Azalpen bitxiak

Datu charlatanak basatian behatzean, ohartuko zara istorio fantastikoak sortzea gustatzen zaiela behatzen dituzten datuak "azaltzeko". Zenbat eta akademikoagoa, orduan eta hobeto. Ez du axola istorio hauek atzera begira egokituta egotea.

Txarlatanek hori egiten dutenean -argi esango dut- gezurretan ari dira. Ezein ekuazio edo kontzeptu dotoreek ezin dute beren teorien zero froga eskaini izana osatu. Ez harritu haien azalpenak zein arraroak diren.

Hau da zure gaitasun "psikikoak" erakustea lehenik eskuetan dituzun kartei begiratuz eta gero zer daukazun aurreikusten... zer daukazun. Hau atzera begirako alborapena da, eta datu zientzien lanbidea leporaino beteta dago.

Nola ezagutu Charlatan bat Data Science-tik?

Analistek diote: "Diamanteen Erreginarekin joan zara". Estatistikariek diote: β€œHasi baino lehen idatzi nituen nire hipotesiak paper honetan. Jolas dezagun datu batzuk aztertu eta ea zuzen nagoenΒ». Txarlatanek esaten dute: "Banekien Diamanteen Erregina hau bihurtuko zinela..."

Datuak partekatzea denek behar duten konponketa azkarra da.

Datu asko ez daudenean, estatistiken eta analitiken artean aukeratu behar da, baina datu nahikoa baino gehiago dagoenean, aukera paregabea dago analitika engainurik gabe erabiltzeko. ΠΈ estatistikak. Txarlatanen aurkako defentsa ezin hobea duzu: datuak bereiztea eta, nire ustez, hau da Data Science-ko ideiarik indartsuena.

Txarlatanengandik babesteko, egin behar duzun guztia proba-datu batzuk haien begirik gabeko begietatik kanpo mantentzen dituzula eta, ondoren, gainerakoak analitika gisa tratatzea da. Onartzeko arriskuan zauden teoria batekin topo egiten duzunean, erabili egoera ebaluatzeko, eta, ondoren, agerian utzi zure probaren datu sekretuak, teoria zentzugabekeria ez dela egiaztatzeko. Hain sinplea da!

Nola ezagutu Charlatan bat Data Science-tik?
Ziurtatu esplorazio fasean inork ez dituela probako datuak ikusteko baimenik. Horretarako, itsatsi ikerketa datuei. Proba-datuak ez dira analisirako erabili behar.

Hau "datu txikiak" garaian jendea ohituta dagoenarekiko urrats handia da, non dakizuna nola dakizun azaldu behar duzun, azkenean jendea benetan zerbait badakizula konbentzitzeko.

Aplikatu arau berdinak ML/AI-ri

ML/AI aditu gisa agertzen diren charlatan batzuk ere erraz antzematen dira. Beste edozein ingeniari txar harrapatuko zenituzkeen moduan harrapatuko dituzu: eraikitzen saiatzen diren "irtenbideek" etengabe huts egiten dute. Abisu goiztiarreko seinale bat industriako programazio-lengoaia eta liburutegi estandarrekin esperientzia falta da.

Baina zer gertatzen da funtzionatzen dutela diruditen sistemak sortzen dituztenekin? Nola dakizu zerbait susmagarria gertatzen ari ote den? Arau bera aplikatzen da! Charlatan pertsonaia maltzur bat da, ereduak nola funtzionatu zuen erakusten dizuna... eredua sortzeko erabili zituzten datu berberetan.

Ikaskuntza automatikoko sistema izugarri konplexua eraiki baduzu, nola dakizu zein ona den? Ez duzu jakingo orain arte ikusi ez dituen datu berriekin lanean erakusten diozun arte.

Aurreikuspenen aurretik datuak ikusi dituzunean, nekez da aurretikkontatzen

Banatzeko datu nahikoa duzunean, ez duzu zure formulen edertasuna aipatu behar proiektua justifikatzeko (nonahi ikusten dudan moda zaharra, ez zientzian bakarrik). Esan dezakezu: Β«Badakit funtzionatzen duela orain arte ikusi ez dudan datu multzo bat hartu eta bertan zer gertatuko den zehatz-mehatz iragar dezakedalako... eta arrazoi izango dut. Behin eta berriz".

Zure eredua/teoria datu berriekin probatzea da konfiantzarako oinarririk onena.

Ez ditut datu charlatanak onartzen. Berdin zait zure iritzia trikimailu ezberdinetan oinarritzen den. Ez nau harritzen azalpenen edertasunak. Erakutsi iezadazu zure teoriak/ereduak orain arte ikusi ez dituzun datu berri mordo batean funtzionatzen duela (eta lanean jarraitzen duela). Hau da zure iritziaren indarraren benetako proba.

Datu-zientziako adituekin harremanetan jartzea

Umore hau ulertzen duten guztiek serio hartu nahi baduzu, utzi ekuazio dotoreen atzean ezkutatzea alborapen pertsonalak laguntzeko. Erakutsi zer daukazun. "Lortzen dutenek" zure teoria/eredua inspirazio-poesia baino gehiago bezala ikustea nahi baduzu, izan ausardia datu-multzo guztiz berri batean nola funtzionatzen duen erakusteko ausardia... lekukoen aurrean. !

Liderrei dei egitea

Datuei buruzko "ideia" serio hartzeari uko egin, probatu arte berria datuak. Ez al duzu ahalegina egiteko gogorik? Jarraitu analitikekin, baina ez fidatu ideia hauetan: ez dira fidagarriak eta ez dira fidagarritasuna probatu. Gainera, erakunde batek datuak ugari dituenean, ez dago alde txarrik zientzian bereizketa oinarrizkoa izateak eta azpiegitura mailan mantentzeak estatistiketarako probako datuetarako sarbidea kontrolatuz. Jendeak zu engainatu nahian gelditzeko modu bikaina da!

Txarlatanen adibide gehiago ikusi nahi badituzu onik gabekoak - hona hemen Twitterren hari zoragarria.

Emaitzak

Datu gutxiegi daudenean bereizteko, charlatan bat bakarrik saiatzen da inspirazioa zorrozki jarraitzen, Amerika atzera begirako deskubrituz, datuetan jada ezagutzen diren fenomenoak matematikoki berraurkituz eta sorpresa estatistikoki esanguratsutzat joz. Horrek bereizten ditu pentsamendu irekiko analistatik, inspirazioaz arduratzen dena, eta estatistikari zorrotzetik, iragarpenak egiterakoan frogak eskaintzen dituena.

Datu asko daudenean, hartu ohitura datuak bereizteko, bi munduetako onena izan dezazun! Ziurtatu analitikoak eta estatistikak bereizita egiten dituzula jatorrizko datu pilaren azpimultzo indibidualetarako.

  • Analistak inspirazioa eta pentsamendu irekia eskaintzen dizu.
  • Estatistikak proba zorrotzak eskaintzen dizkizu.
  • Txarlatanak analitika eta estatistikak direla dirudien atzerako ikuspegi bihurria eskaintzen dizu.

Beharbada, artikulua irakurri ondoren, "txarlatana al naiz" pentsamendua izango duzu? Hau ondo dago. Pentsamendu hori kentzeko bi modu daude: lehenengo, atzera begiratu, ikusi zer egin duzun, ea datuekin egindako lanak onura praktikoa ekarri duen. Eta bigarrenik, oraindik ere zure tituluak lan ditzakezu (ez da alferrik izango, zalantzarik gabe), batez ere gure ikasleei benetako datu-zientzialari bihurtzeko trebetasun praktikoak eta ezagutzak ematen dizkiegulako.

Nola ezagutu Charlatan bat Data Science-tik?

Ikastaro gehiago

Irakurri gehiago

Iturria: www.habr.com

Gehitu iruzkin berria