Kiel rekoni ĉarlatanon de Data Science?

Kiel rekoni ĉarlatanon de Data Science?
Vi eble aŭdis pri analizistoj, maŝinlernado kaj specialistoj pri artefarita inteligenteco, sed ĉu vi aŭdis pri tiuj, kiuj estas maljuste tropagitaj? Renkontu datumoj ĉarlatano! Ĉi tiuj hakoj, logitaj de enspezigaj laborpostenoj, donas malbonan nomon al realaj datumsciencistoj. En la materialo ni komprenas kiel alporti tiajn homojn al purigi akvon.

Datumaj ĉarlatanoj estas ĉie

Datumaj ĉarlatanoj tiom kapablas kaŝiĝi en klara vido, ke vi povas estu unu el ilieĉ sen rimarki ĝin. Ŝajnas, ke via organizo gastigas ĉi tiujn ruzajn ulojn dum jaroj, sed la bona novaĵo estas, ke ili estas facile identigeblaj se vi scias kion serĉi.
La unua averta signo estas manko de kompreno tion analitiko kaj statistiko estas tre malsamaj fakoj. Mi klarigos ĉi tion plu.

Malsamaj disciplinoj

Statistikistoj estas trejnitaj por tiri konkludojn pri kio iras preter siaj datumoj, analizistoj estas trejnitaj por ekzameni la enhavon de datuma aro. Alivorte, analizistoj faras konkludojn pri tio, kio estas en siaj datumoj, kaj statistikistoj faras konkludojn pri tio, kio ne estas en la datumoj. Analizistoj helpas vin fari bonajn demandojn (fari hipotezojn), kaj statistikistoj helpas vin ricevi bonajn respondojn (testi viajn hipotezojn).

Ekzistas ankaŭ strangaj hibridaj roloj kie persono provas sidi sur du seĝoj... Kial ne? Baza principo de datumscienco: se vi traktas necertecon, vi ne povas uzi la sama datumpunkto por hipotezoj kaj testado. Kiam datumoj estas limigitaj, necerteco devigas elekton inter statistiko aŭ analizo. Klarigo tie.

Sen statistiko, vi estos blokita kaj nekapabla kompreni ĉu la juĝo, kiun vi ĵus formulis, tenas, kaj sen analizo, vi moviĝas blinde, kun malmulte da ŝanco malsovaĝigi la nekonatan. Ĉi tio estas malfacila elekto.

La eliro de la ĉarlatano el ĉi tiu ĥaoso devas ignori ĝin kaj tiam ŝajnigi esti surprizita per kio subite aperas. La logiko malantaŭ testado de statistikaj hipotezoj venas al la demando ĉu la datumoj surprizas nin sufiĉe por ŝanĝi niajn mensojn. Kiel ni povas esti surprizitaj de datumoj se ni jam vidis ĝin?

Kiam ajn ĉarlatanoj trovas ŝablonon, ili inspiriĝas, tiam kontrolas samaj datumoj por la sama ŝablono, por publikigi la rezulton kun legitima p-valoro aŭ du, apud ilia teorio. Tiel, ili mensogas al vi (kaj, eble, ankaŭ al si). Ĉi tiu p-valoro ne gravas se vi ne aliĝas al via hipotezo por kiel vi rigardis viajn datumojn. Ĉarlatanoj imitas la agojn de analizistoj kaj statistikistoj sen kompreni la kialojn. Kiel rezulto, la tuta kampo de datumscienco ricevas malbonan reputacion.

Veraj statistikistoj ĉiam faras siajn proprajn konkludojn

Danke al la preskaŭ mistika reputacio de statistikistoj pro ilia rigora rezonado, la kvanto de falsaj informoj en Datuma Scienco estas ĉiama maksimumo. Estas facile trompi kaj ne kaptiĝi, precipe se la sensuspekta viktimo opinias, ke ĉio temas pri ekvacioj kaj datumoj. Datumararo estas datumaro, ĉu ne? Ne. Gravas kiel vi uzas ĝin.

Feliĉe, vi bezonas nur unu indicon por kapti la ĉarlatanojn: ili "retroaktive malkovras Amerikon". Remalkovrante fenomenojn, kiujn ili jam scias, ĉeestas en la datumoj.

Male al ĉarlatanoj, bonaj analizistoj estas malfermaj kaj komprenas, ke inspiraj ideoj povas havi multajn malsamajn klarigojn. Samtempe, bonaj statistikistoj zorge difinas siajn konkludojn antaŭ ol ili faras ilin.

Analizistoj estas esceptitaj de respondeco... kondiĉe ke ili restas en la amplekso de siaj datumoj. Se ili estas tentataj aserti ion, kion ili ne vidis, tio estas tute alia laboro. Ili devus demeti la ŝuojn de la analizisto kaj surmeti la ŝuojn de la statistikisto. Post ĉio, negrave kia estas la oficiala labortitolo, ne ekzistas regulo, kiu diras, ke vi ne povas studi ambaŭ profesiojn, se vi volas. Nur ne konfuzu ilin.

Nur ĉar vi estas lerta pri statistiko, ne signifas, ke vi estas lerta pri analizo, kaj inverse. Se iu provas diri al vi alie, vi devus esti singarda. Se ĉi tiu persono diras al vi, ke estas permesate eltiri statistikajn konkludojn el datumoj, kiujn vi jam studis, tio estas kialo por esti duoble singarda.

Bizaraj klarigoj

Observante datumajn ĉarlatanojn en natura medio, vi rimarkos, ke ili amas elpensi fantaziajn rakontojn por "klarigi" la datumojn, kiujn ili observas. Ju pli akademia, des pli bone. Ne gravas, ke ĉi tiuj rakontoj estas alĝustigitaj postrespektive.

Kiam ĉarlatanoj faras tion – mi estu klara – ili mensogas. Neniu kvanto da ekvacioj aŭ fantazaj konceptoj povas kompensi la fakton, ke ili ofertis nulan pruvon de siaj teorioj. Ne miru kiom nekutimaj estas iliaj klarigoj.

Ĉi tio estas la sama kiel pruvi viajn "psikiajn" kapablojn unue rigardante la kartojn en viaj manoj kaj poste antaŭdirante, kion vi tenas... kion vi tenas. Ĉi tio estas retrovida biaso, kaj la datuma profesio estas plena de ĝi ĝis la rando.

Kiel rekoni ĉarlatanon de Data Science?

Analizistoj diras: "Vi ĵus iris kun la Reĝino de Diamantoj." La statistikistoj diras, "Mi skribis miajn hipotezojn sur ĉi tiu papero antaŭ ol ni komencis. Ni ludu kaj rigardu iujn datumojn kaj vidu ĉu mi pravas." Ĉarlatanoj diras: "Mi sciis, ke vi fariĝos ĉi tiu Reĝino de Diamantoj ĉar..."

Kunhavigo de datumoj estas la rapida solvo, kiun ĉiuj bezonas.

Kiam ne estas multe da datumoj, vi devas elekti inter statistiko kaj analizo, sed kiam estas pli ol sufiĉaj datumoj, estas bonega ŝanco uzi analizojn sen trompo. и statistiko. Vi havas la perfektan defendon kontraŭ ĉarlatanoj - disigo de datumoj kaj, laŭ mi, ĉi tiu estas la plej potenca ideo en Datuma Scienco.

Por protekti vin kontraŭ ĉarlatanoj, ĉio, kion vi devas fari, estas certigi, ke vi konservas iujn testajn datumojn ekster la atingo de iliaj malklaraj okuloj, kaj poste traktu la ceterajn kiel analizojn. Kiam vi renkontas teorion, kiun vi riskas akcepti, uzu ĝin por taksi la situacion, kaj poste malkaŝu viajn sekretajn testajn datumojn por kontroli, ke la teorio ne estas sensencaĵo. Ĝi estas tiel simpla!

Kiel rekoni ĉarlatanon de Data Science?
Certiĝu, ke neniu rajtas vidi la testajn datumojn dum la esplora fazo. Por fari tion, restu al esploraj datumoj. Testaj datumoj ne estu uzataj por analizo.

Ĉi tio estas granda paŝo de tio, al kio homoj kutimas en la epoko de "malgrandaj datumoj", kie vi devas klarigi kiel vi scias, kion vi scias, por finfine konvinki homojn, ke vi vere scias ion.

Apliku la samajn regulojn al ML/AI

Iuj ĉarlatanoj pozantaj kiel ML/AI-fakuloj ankaŭ estas facile ekvideblaj. Vi kaptos ilin same kiel vi kaptus ajnan alian malbonan inĝenieron: la "solvoj" kiujn ili provas konstrui senĉese malsukcesas. Frua averta signo estas manko de sperto kun industriaj normaj programlingvoj kaj bibliotekoj.

Sed kio pri la homoj, kiuj kreas sistemojn, kiuj ŝajnas funkcii? Kiel vi scias, ĉu io suspektinda okazas? La sama regulo validas! La Ĉarlatano estas malbonaŭgura karaktero, kiu montras al vi kiom bone funkciis la modelo... sur la samaj datumoj, kiujn ili uzis por krei la modelon.

Se vi konstruis freneze kompleksan maŝinlernsistemon, kiel vi scias kiom bona ĝi estas? Vi ne scios ĝis vi montros ŝin laboranta kun novaj datumoj kiujn ŝi ne vidis antaŭe.

Kiam vi vidis la datumojn antaŭ prognozi - estas neprobabla antaŭerakontante

Kiam vi havas sufiĉajn datumojn por apartigi, vi ne bezonas citi la belecon de viaj formuloj por pravigi la projekton (malnovmoda kutimo, kiun mi vidas ĉie, ne nur en scienco). Vi povas diri: “Mi scias, ke ĝi funkcias, ĉar mi povas preni datuman aron, kiun mi antaŭe ne vidis, kaj antaŭdiri ĝuste kio okazos tie... kaj mi pravos. Denove kaj denove".

Testi vian modelon/teorion kontraŭ novaj datumoj estas la plej bona bazo por konfido.

Mi ne toleras datumajn ĉarlatanojn. Ne gravas min, ĉu via opinio baziĝas sur malsamaj lertaĵoj. Ne impresas min la beleco de la klarigoj. Montru al mi, ke via teorio/modelo funkcias (kaj daŭre funkcias) pri tuta amaso da novaj datumoj, kiujn vi neniam antaŭe vidis. Jen la vera provo de la forto de via opinio.

Kontakti Fakulojn pri Datumoj

Se vi volas esti prenita serioze de ĉiuj, kiuj komprenas ĉi tiun humuron, ĉesu kaŝi vin malantaŭ fantazaj ekvacioj por subteni personajn antaŭjuĝojn. Montru al mi, kion vi havas. Se vi volas, ke tiuj, kiuj "akiras ĝin" rigardu vian teorion/modelon kiel pli ol nur inspiran poezion, havu la kuraĝon fari grandiozan spektaklon pri kiom bone ĝi funkcias sur tute nova aro de datumoj... antaŭ atestantoj. !

Alvoko al gvidantoj

Rifuzu preni serioze iujn "ideojn" pri la datumoj ĝis ili estos provitaj nova datumoj. Ĉu vi ne emas peni? Restu kun la analizo, sed ne fidu ĉi tiujn ideojn—ili estas nefidindaj kaj ne estis testitaj pri fidindeco. Plie, kiam organizo havas datumojn en abundo, estas neniu malavantaĝo fari apartigon fundamenta en scienco kaj konservi ĝin sur la infrastruktura nivelo kontrolante aliron al testaj datumoj por statistiko. Ĉi tio estas bonega maniero por malhelpi homojn, kiuj provas trompi vin!

Se vi volas vidi pliajn ekzemplojn de ĉarlatanoj ĝis nenio bona - jen mirinda fadeno en Tvitero.

Rezultoj

Kiam estas tro malmulte da datumoj por apartigi, nur ĉarlatano provas strikte sekvi inspiron malkovrante Amerikon retrospektive, matematike retrovante fenomenojn jam konatajn esti en la datumoj, kaj nomante la surprizon statistike signifa. Ĉi tio distingas ilin de la malferma-mensa analizisto, kiu traktas inspiron, kaj la zorgema statistikisto, kiu proponas pruvojn kiam faras antaŭdirojn.

Kiam estas multaj datumoj, akiru la kutimon disigi la datumojn por ke vi povu havi la plej bonan el ambaŭ mondoj! Nepre faru analizojn kaj statistikojn aparte por individuaj subaroj de la origina amaso da datumoj.

  • Analizistoj proponi al vi inspiron kaj malfermitecon.
  • Statistiko proponas al vi rigorajn provojn.
  • Ĉarlatanoj proponas al vi torditan postrigardon, kiu ŝajnigas esti analizo kaj statistiko.

Eble, leginte la artikolon, vi havos la penson "ĉu mi estas ĉarlatano"? Ĉi tio estas bone. Estas du manieroj forigi ĉi tiun penson: unue, rigardu malantaŭen, vidu, kion vi faris, ĉu via laboro kun datumoj alportis praktikan profiton. Kaj due, vi ankoraŭ povas labori pri viaj kvalifikoj (kiu certe ne estos superflua), precipe ĉar ni donas al niaj studentoj praktikajn kapablojn kaj scion, kiuj ebligas al ili fariĝi veraj datumsciencistoj.

Kiel rekoni ĉarlatanon de Data Science?

Pli da kursoj

Legu pli

fonto: www.habr.com

Aldoni komenton