Kako prepoznati šarlatana iz Data Science?

Kako prepoznati šarlatana iz Data Science?
Možda ste čuli za analitičare, stručnjake za strojno učenje i umjetnu inteligenciju, ali jeste li čuli za one koji su nezasluženo preplaćeni? Upoznajte se podatkovni šarlatan! Ovi prevaranti, namamljeni unosnim poslovima, pravim znanstvenicima za podatke stvaraju loš glas. U materijalu razumijemo kako takve ljude dovesti do čiste vode.

Podatkovni šarlatani su posvuda

Podatkovni šarlatani su tako dobri u skrivanju naočigled da možete biti jedan od njiha da to nije ni svjesno. Velika je vjerojatnost da vaša organizacija skriva ove prevarante godinama, ali dobra je vijest da ih je lako prepoznati ako znate što tražiti.
Prvi znak upozorenja je nerazumijevanje što analitika i statistika vrlo su različite discipline. Ovo ću dalje objasniti.

Razne discipline

Statističari su obučeni da donose zaključke o tome što je izvan njihovih podataka, analitičari su obučeni da proučavaju sadržaj skupa podataka. Drugim riječima, analitičari donose zaključke o tome što se nalazi u njihovim podacima, a statističari donose zaključke o onome čega nema u podacima. Analitičari vam pomažu da postavite dobra pitanja (pogađanja), a statistika vam pomaže da dobijete dobre odgovore (testirajte hipoteze).

Ima tu i bizarnih hibridnih uloga gdje osoba pokušava sjediti na dvije stolice... Zašto ne? Osnovno načelo znanosti o podacima: ako imate posla s neizvjesnošću, nemojte koristiti isto podatkovna točka za hipoteze i testiranje. Kada su podaci ograničeni, neizvjesnost nas tjera na izbor između statistike ili analitike. objašnjenje здесь.

Bez statistike ćete zapeti i nećete moći razumjeti je li prosudba koju ste upravo formulirali izdržala kritiku, a bez analize krećete se naslijepo, s malim izgledima da ukrotite nepoznato. Ovo je težak izbor.

Izlaz šarlatana iz ove zbrke je da je ignorira i onda se pretvara da je iznenađen onim što iznenada otkriva. Logika iza testiranja statističkih hipoteza svodi se na pitanje iznenađuju li nas podaci dovoljno da se predomislimo. Kako možemo biti iznenađeni podacima ako smo ih već vidjeli?

Kad god šarlatani pronađu obrazac, oni inspiriraju, a zatim testiraju iste podatke za isti obrazacobjaviti rezultat, s legitimnom p-vrijednošću ili dvije, uz svoju teoriju. Čineći to, lažu vas (a možda i sebe). Ova p-vrijednost nije važna ako se ne držite svoje hipoteze. na kako gledate svoje podatke. Šarlatani oponašaju postupke analitičara i statističara ne shvaćajući razloge. Kao rezultat toga, cijelo područje znanosti o podacima dobiva loš glas.

Pravi statističari uvijek sami izvlače zaključke

Zahvaljujući gotovo mističnoj reputaciji statističara zbog rigoroznog zaključivanja, količina lažnih informacija u znanosti o podacima na vrhuncu je svih vremena. Lako je varati i ne biti uhvaćen, pogotovo ako nesuđena žrtva misli da se radi o jednadžbama i podacima. Skup podataka je skup podataka, zar ne? Ne. Važno je kako ga koristite.

Srećom, potreban vam je samo jedan trag da uhvatite šarlatane: oni "ponovno otkrivaju Ameriku nakon činjenice". Ponovno otkrivanje fenomena za koje već znaju da su prisutni u podacima.

Za razliku od šarlatana, dobri analitičari su otvorenog uma i razumiju da inspirativne ideje mogu imati mnogo različitih objašnjenja. U isto vrijeme, dobri statističari pažljivo definiraju svoje zaključke prije nego što ih izvedu.

Analitičari su izuzeti od odgovornosti... sve dok ne odu dalje od svojih podataka. Ako su u iskušenju tvrditi nešto što nisu vidjeli, to je drugi posao. Trebali bi se “izuti” kao analitičar i “presvući” cipele statističara. Uostalom, bez obzira na službeni naziv posla, ne postoji pravilo koje kaže da ne možete studirati oba zanata ako to želite. Samo ih nemojte zbuniti.

Samo zato što ste dobri u statistici ne znači da ste dobri u analitici, i obrnuto. Ako vam netko pokušava reći suprotno, trebali biste biti na oprezu. Ako vam ta osoba kaže da vam je dopušteno donositi statističke zaključke na temelju podataka koje ste već proučavali, to je razlog da budete dvostruko oprezni.

Bizarna objašnjenja

Kada promatrate podatkovne šarlatane u divljini, primijetit ćete da vole izmišljati fantastične priče kako bi "objasnili" promatrane podatke. Što akademskiji, to bolje. Nema veze što se te priče vode retroaktivno.

Kad šarlatani to rade - dopustite mi da budem velikodušan s riječima - oni lažu. Nikakve jednadžbe ili lijepi koncepti ne nadoknađuju činjenicu da nisu ponudili nikakav dokaz za svoje verzije. Nemojte se iznenaditi koliko su njihova objašnjenja neobična.

To je isto kao da demonstrirate svoje "psihičke" sposobnosti tako da prvo pogledate karte u rukama, a zatim predvidite što držite... što držite. To je naknadna pristranost, a profesija podatkovnih znanstvenika je puna toga.

Kako prepoznati šarlatana iz Data Science?

Analitičari kažu: "Upravo ste krenuli s kraljicom karo." Statističari kažu: “Zapisao sam svoje hipoteze na ovaj komad papira prije nego što smo počeli. Igrajmo se, pogledajmo neke podatke i vidimo jesam li u pravu." Šarlatani kažu: "Znao sam da ćeš biti ta kraljica dijamanata jer..."

Particioniranje podataka brzo je rješenje koje je svima potrebno.

Kada nema puno podataka, morate birati između statistike i analitike, ali kada ima više nego dovoljno podataka, postoji velika prilika da koristite analitiku bez varanja и statistika. Imate savršenu zaštitu od šarlatana - ovo je razdvajanje podataka i, po mom mišljenju, to je najmoćnija ideja u znanosti o podacima.

Kako biste se zaštitili od šarlatana, sve što morate učiniti je osigurati da neke testne podatke držite podalje od njihovih znatiželjnih očiju, a zatim sve ostalo tretirati kao analitiku. Kada naiđete na teoriju koju riskirate prihvatiti, upotrijebite je za procjenu situacije, a zatim otkrijte svoje tajne testne podatke kako biste potvrdili da teorija nije besmislica. Tako je jednostavno!

Kako prepoznati šarlatana iz Data Science?
Pobrinite se da nitko ne smije vidjeti testne podatke tijekom faze istraživanja. Da biste to učinili, držite se podataka istraživanja. Podaci ispitivanja ne bi se trebali koristiti za analizu.

Ovo je veliki iskorak u odnosu na ono na što su ljudi navikli u eri "small data", gdje morate objasniti kako znate što znate da biste konačno uvjerili ljude da nešto stvarno znate.

Primjena istih pravila na ML/AI

Neke šarlatane koji se predstavljaju kao stručnjaci za ML/AI također je lako uočiti. Uhvatit ćete ih na isti način na koji biste uhvatili bilo kojeg drugog lošeg inženjera: "rješenja" koja pokušavaju izgraditi neprestano propadaju. Znak ranog upozorenja je nedostatak iskustva s industrijskim standardnim jezicima i programskim bibliotekama.

Ali što je s ljudima koji grade sustave za koje se čini da rade? Kako znati događa li se nešto sumnjivo? Vrijedi isto pravilo! Šarlatan je zlokobni lik koji vam pokazuje koliko je model dobro funkcionirao... na istim podacima koje su koristili za izradu modela.

Ako ste izgradili ludo složen sustav strojnog učenja, kako znate koliko je dobar? Nećete znati dok joj ne pokažete da radi s novim podacima koje prije nije vidjela.

Kad ste vidjeli podatke prije predviđanja, to je malo vjerojatno prijeizreka.

Kada imate dovoljno podataka za razdvajanje, ne morate se pozivati ​​na ljepotu svojih formula da biste opravdali projekt (stara pomodna navika koju vidim posvuda, ne samo u znanosti). Možeš reći: “Znam da radi jer mogu uzeti skup podataka koji prije nisam vidio i točno predvidjeti što će se tamo dogoditi... i bit ću u pravu. Opet i opet".

Testiranje vašeg modela/teorije u odnosu na nove podatke najbolja je osnova za povjerenje.

Ne podnosim šarlatane podataka. Nije me briga ako se vaše mišljenje temelji na različitim čipovima. Nisam impresioniran ljepotom objašnjenja. Pokaži mi da tvoja teorija/model radi (i nastavlja raditi) na nizu novih podataka koje nikad prije nisi vidio. Ovo je pravi test snage vašeg mišljenja.

Kontaktiranje Data Scientists

Ako želite da vas svatko tko razumije ovaj humor shvati ozbiljno, prestanite se skrivati ​​iza otmjenih jednadžbi kako biste održali svoju osobnu predrasudu. Pokaži što imaš. Ako želite da oni koji "shvate" vašu teoriju/model vide kao nešto više od puke inspirativne poezije, imajte hrabrosti prirediti veliki prikaz koliko dobro funkcionira na potpuno novom skupu podataka... pred svjedocima!

Apel vođama

Odbijte ozbiljno shvatiti bilo kakve "ideje" o podacima dok se ne ispitaju новых podaci. Ne želite se truditi? Držite se analitike, ali nemojte se oslanjati na ove ideje - one su nepouzdane i pouzdanost nije testirana. Također, kada organizacija ima podatke u izobilju, nema loše strane u tome da odvajanje bude temelj znanosti i njegovo održavanje na razini infrastrukture kontroliranjem pristupa testnim podacima za statistiku. Ovo je sjajan način da zaustavite pokušaje da vas prevare!

Ako želite vidjeti više primjera šarlatana koji kuju nešto loše - ovo je sjajna twitter nit.

Rezultati

Kad su podaci premali za razdvajanje, samo šarlatan pokušava strogo slijediti nadahnuće, otkrivajući Ameriku retrospektivno, matematički ponovno otkrivajući fenomene za koje se već zna da postoje u podacima, i nazivajući iznenađenje statistički značajnim. To ih razlikuje od otvorenog analitičara koji se bavi nadahnućem i pedantnog statističara koji nudi dokaze prilikom predviđanja.

Kada ima puno podataka, steknite naviku dijeljenja podataka kako biste imali najbolje od oba svijeta! Obavezno napravite analitiku i statistiku odvojeno za zasebne podskupove izvorne hrpe podataka.

  • Analitičari ponuditi vam inspiraciju i perspektivu.
  • Statistika ponuditi vam rigorozno testiranje.
  • šarlatani nudimo vam uvrnutu retrospektivu koja se pretvara da je analitika plus statistika.

Možda ćete nakon čitanja članka imati misao "jesam li ja šarlatan"? Ovo je u redu. Postoje dva načina da se riješite ove misli: prvo, osvrnite se unatrag, vidite što ste učinili, je li vaš rad s podacima donio praktične koristi. I drugo, još uvijek možete raditi na svojim kvalifikacijama (što sigurno neće biti suvišno), pogotovo jer našim studentima dajemo praktične vještine i znanja koja im omogućuju da postanu pravi podatkovni znanstvenici.

Kako prepoznati šarlatana iz Data Science?

Više tečajeva

Čitaj više

Izvor: www.habr.com

Dodajte komentar