Kako prepoznati šarlatana iz Data Science?

Kako prepoznati šarlatana iz Data Science?
Morda ste že slišali za analitike, strokovnjake za strojno učenje in umetno inteligenco, toda ali ste slišali za tiste, ki so neupravičeno preplačani? Srečati podatkovni šarlatan! Ti vdori, ki jih privabljajo donosna delovna mesta, dajejo pravim podatkovnim znanstvenikom slabo ime. V gradivu razumemo, kako takšne ljudi pripeljati do čiste vode.

Podatkovni šarlatani so povsod

Podatkovni šarlatani se tako dobro skrivajo na očeh, da lahko bodi eden izmed njihne da bi se tega sploh zavedal. Velika verjetnost je, da vaša organizacija že leta skriva te zahrbtneže, a dobra novica je, da jih je enostavno prepoznati, če veste, kaj iskati.
Prvi opozorilni znak je nerazumevanje tega analitika in statistika sta zelo različni disciplini. To bom pojasnil še naprej.

Različne discipline

Statistiki so usposobljeni za sklepanje o tem, kaj presega njihove podatke, analitiki so usposobljeni za pregledovanje vsebine nabora podatkov. Z drugimi besedami, analitiki sklepajo o tem, kaj je v njihovih podatkih, statistiki pa o tem, česa v podatkih ni. Analitiki vam pomagajo postaviti dobra vprašanja (postaviti hipoteze), statistiki pa vam pomagajo dobiti dobre odgovore (testirati vaše hipoteze).

Obstajajo tudi čudne hibridne vloge, kjer človek poskuša sedeti na dveh stolih ... Zakaj pa ne? Osnovno načelo podatkovne znanosti: če imate opravka z negotovostjo, ne morete uporabljati enako podatkovna točka za hipoteze in testiranje. Ko so podatki omejeni, negotovost prisili k izbiri med statistiko ali analitiko. Pojasnilo tukaj.

Brez statistike boste obstali in ne boste mogli razumeti, ali sodba, ki ste jo pravkar oblikovali, drži, brez analize pa se premikate slepo, z malo možnosti, da bi ukrotili neznano. To je težka izbira.

Šarlatan se iz te zmešnjave reši tako, da jo ignorira in se nato pretvarja, da je presenečen nad tem, kar se nenadoma pojavi. Logika za preizkušanjem statističnih hipotez se spušča v vprašanje, ali nas podatki dovolj presenetijo, da si premislimo. Kako nas lahko presenetijo podatki, če smo jih že videli?

Kadarkoli šarlatani najdejo vzorec, dobijo navdih in nato preverijo isti podatki za isti vzorec, da objavijo rezultat z legitimno p-vrednostjo ali dvema poleg svoje teorije. Tako vam (in morda tudi sebi) lažejo. Ta p-vrednost ni pomembna, če se ne držite svoje hipoteze za kako ste si ogledali svoje podatke. Šarlatani posnemajo dejanja analitikov in statistikov, ne da bi razumeli razloge. Posledično pride celotno področje podatkovne znanosti na slab sloves.

Pravi statistiki vedno sklepajo sami

Zahvaljujoč skoraj mističnemu slovesu statistikov zaradi njihovega strogega sklepanja je količina lažnih informacij v Data Science najvišja v zgodovini. Preprosto je prevarati in ne biti ujet, še posebej, če nič hudega sluteča žrtev misli, da gre le za enačbe in podatke. Nabor podatkov je nabor podatkov, kajne? št. Pomembno je, kako ga uporabljate.

Na srečo potrebujete samo eno sled, da ujamete šarlatane: »retroaktivno odkrivajo Ameriko«. S ponovnim odkrivanjem pojavov, za katere že vedo, da so prisotni v podatkih.

V nasprotju s šarlatani so dobri analitiki odprtega duha in razumejo, da imajo lahko navdihujoče ideje veliko različnih razlag. Hkrati pa dobri statistiki svoje zaključke natančno opredelijo, preden jih naredijo.

Analitiki so izvzeti iz odgovornosti... dokler ostanejo znotraj obsega svojih podatkov. Če jih mika trditi nekaj, česar niso videli, je to čisto druga naloga. Sezuti naj analitikove čevlje in obuti statistikove. Konec koncev, ne glede na to, kakšen je uradni naziv delovnega mesta, ni pravila, ki pravi, da ne morete študirati obeh poklicev, če želite. Samo ne zamenjajte jih.

Samo zato, ker ste dobri v statistiki, še ne pomeni, da ste dobri v analitiki, in obratno. Če vam nekdo poskuša povedati drugače, bodite previdni. Če vam ta oseba reče, da je dovoljeno delati statistične zaključke iz podatkov, ki ste jih že preučili, je to razlog za dvojno previdnost.

Bizarne razlage

Ko opazujete podatkovne šarlatane v divjini, boste opazili, da si radi izmišljujejo fantastične zgodbe, da bi »razložili« podatke, ki jih opazujejo. Bolj akademsko, bolje je. Ni pomembno, da so te zgodbe prirejene za nazaj.

Ko šarlatani to počnejo – naj bom jasen – lažejo. Nobene enačbe ali domišljijski koncepti ne morejo nadomestiti dejstva, da niso ponudili nobenega dokaza za svoje teorije. Naj vas ne preseneti, kako nenavadne so njihove razlage.

To je enako, kot da svoje "psihične" sposobnosti pokažete tako, da najprej pogledate karte v rokah in nato napoveste, kaj imate v rokah ... kaj imate v rokah. To je pristranskost za nazaj in poklic podatkovne znanosti je s tem poln do roba.

Kako prepoznati šarlatana iz Data Science?

Analitiki pravijo: "Pravkar si šel s kraljico diamantov." Statistiki pravijo: »Svoje hipoteze sem zapisal na ta kos papirja, preden smo začeli. Poigrajmo se in poglejmo nekaj podatkov ter preverimo, ali imam prav." Šarlatani pravijo: "Vedel sem, da boš postala ta kraljica diamantov, ker ..."

Skupna raba podatkov je hitra rešitev, ki jo potrebujejo vsi.

Ko podatkov ni veliko, je treba izbirati med statistiko in analitiko, ko pa je podatkov več kot dovolj, je odlična priložnost za uporabo analitike brez zavajanja и statistika. Imate popolno obrambo pred šarlatani – ločevanje podatkov in po mojem mnenju je to najmočnejša ideja v Data Science.

Da bi se zaščitili pred šarlatani, je vse, kar morate storiti, to, da poskrbite, da nekatere testne podatke hranite izven dosega njihovih radovednih oči, ostale pa obravnavate kot analitiko. Ko naletite na teorijo, ki jo tvegate sprejeti, jo uporabite za oceno situacije in nato razkrijte svoje skrivne testne podatke, da preverite, ali teorija ni neumnost. Tako preprosto je!

Kako prepoznati šarlatana iz Data Science?
Prepričajte se, da nihče ne sme videti testnih podatkov med fazo raziskovanja. Če želite to narediti, se držite podatkov raziskav. Testni podatki se ne smejo uporabljati za analizo.

To je velik korak naprej od tistega, česar so ljudje vajeni v dobi "majhnih podatkov", ko morate razložiti, kako veste, kaj veste, da bi ljudi končno prepričali, da nekaj dejansko veste.

Uporabite ista pravila za ML/AI

Nekatere šarlatane, ki se predstavljajo kot strokovnjaki za ML/AI, je prav tako enostavno opaziti. Ujeli jih boste na enak način, kot bi ujeli katerega koli drugega slabega inženirja: »rešitve«, ki jih skušajo zgraditi, nenehno propadajo. Zgodnji opozorilni znak je pomanjkanje izkušenj z industrijskimi standardnimi programskimi jeziki in knjižnicami.

Kaj pa ljudje, ki ustvarjajo sisteme, za katere se zdi, da delujejo? Kako veste, ali se dogaja kaj sumljivega? Velja isto pravilo! Šarlatan je zlovešč lik, ki vam pokaže, kako dobro je model deloval ... na podlagi istih podatkov, ki so jih uporabili za ustvarjanje modela.

Če ste zgradili noro zapleten sistem strojnega učenja, kako veste, kako dober je? Ne boste vedeli, dokler ji ne pokažete dela z novimi podatki, ki jih še ni videla.

Ko ste videli podatke pred napovedjo - to je malo verjetno prejpripovedovanje

Ko imate dovolj podatkov za ločevanje, vam ni treba navajati lepote svojih formul, da bi upravičili projekt (stara modna navada, ki jo vidim povsod, ne le v znanosti). Lahko rečeš: »Vem, da deluje, ker lahko vzamem nabor podatkov, ki ga še nisem videl, in natančno napovem, kaj se bo tam zgodilo ... in imel bom prav. Znova in znova".

Preizkušanje vašega modela/teorije glede na nove podatke je najboljša osnova za zaupanje.

Ne toleriram podatkovnih šarlatanov. Ne zanima me, če vaše mnenje temelji na različnih trikih. Nisem navdušen nad lepoto razlag. Pokažite mi, da vaša teorija/model deluje (in še naprej deluje) na celem kupu novih podatkov, ki jih še niste videli. To je pravi preizkus trdnosti vašega mnenja.

Stik s strokovnjaki za podatkovno znanost

Če želite, da vas vsi, ki razumejo ta humor, jemljejo resno, se nehajte skrivati ​​za domišljijskimi enačbami, da bi podprli osebne pristranskosti. Pokaži mi kaj imaš. Če želite, da tisti, ki "razumejo", na vašo teorijo/model gledajo kot na več kot le navdihujočo poezijo, si zberite pogum in pred pričami pripravite veliko predstavo o tem, kako dobro deluje na popolnoma novem naboru podatkov ... !

Poziv voditeljem

Ne jemljite resno kakršnih koli "zamisli" o podatkih, dokler niso preizkušeni novo podatke. Se vam ne da vložiti truda? Držite se analitike, vendar se ne zanašajte na te ideje – so nezanesljive in niso bile preizkušene glede zanesljivosti. Poleg tega, ko ima organizacija podatkov v izobilju, ni nobene slabe strani, da postane ločevanje temeljno v znanosti in se ohrani na ravni infrastrukture z nadzorovanjem dostopa do testnih podatkov za statistiko. To je odličen način, da preprečite ljudem, ki vas poskušajo preslepiti!

Če želite videti več primerov šarlatanov, ki niso dobri - tukaj je čudovita nit na Twitterju.

Rezultati

Ko je podatkov premalo za ločevanje, le šarlatan skuša dosledno slediti navdihu z odkrivanjem Amerike za nazaj, matematično ponovnim odkrivanjem pojavov, za katere je že znano, da so v podatkih, in presenečenje označi za statistično pomembno. To jih razlikuje od odprtega analitika, ki se ukvarja z navdihom, in natančnega statistika, ki pri napovedovanju ponuja dokaze.

Ko je podatkov veliko, se navadite ločevati podatke, da boste imeli najboljše iz obeh svetov! Ne pozabite narediti analitike in statistike ločeno za posamezne podnabore prvotnega kupa podatkov.

  • Analitiki ponujajo navdih in odprtost.
  • Statistika vam nudijo stroga testiranja.
  • Šarlatani vam ponujajo zvit pogled za nazaj, ki se pretvarja, da je analitika in statistika.

Morda boste po branju članka imeli misel "ali sem šarlatan"? To je v redu. Te misli se lahko znebite na dva načina: najprej se oglejte nazaj, poglejte, kaj ste storili, ali je vaše delo s podatki prineslo praktično korist. In drugič, še vedno lahko delate na svojih kvalifikacijah (kar zagotovo ne bo odveč), še posebej, ker našim študentom dajemo praktične veščine in znanja, ki jim omogočajo, da postanejo pravi podatkovni znanstveniki.

Kako prepoznati šarlatana iz Data Science?

Več tečajev

Preberi več

Vir: www.habr.com

Dodaj komentar