Hogyan lehet felismerni egy sarlatánt a Data Science-ből?

Hogyan lehet felismerni egy sarlatánt a Data Science-ből?
Lehet, hogy hallott már elemzőkről, gépi tanulásról és mesterséges intelligencia specialistákról, de hallott már olyanokról, akiket méltatlanul túlfizetnek? Találkozik adatsarlatán! Ezek a trükközők, akiket jövedelmező munkák csábítanak, rossz hírnevet keltenek a valódi adatokkal foglalkozó tudósoknak. Az anyagból megértjük, hogyan lehet ilyen embereket tiszta vízhez vinni.

Adatsarlatánok mindenhol ott vannak

Az adatsarlatánok olyan jól elrejtőznek, hogy te is tudod legyen az egyikükanélkül, hogy észrevenné. Valószínű, hogy az Ön szervezete évek óta őrzi ezeket az alattomos srácokat, de a jó hír az, hogy könnyen azonosíthatók, ha tudod, mit kell keresned.
Az első figyelmeztető jel, hogy nem érted, mit az analitika és a statisztika nagyon különböző tudományágak. Ezt kifejtem bővebben.

Vegyes tudományágak

A statisztikusokat arra képezik, hogy következtetéseket vonjanak le az adataikon kívülről, az elemzőket pedig arra, hogy tanulmányozzák egy adathalmaz tartalmát. Más szóval, az elemzők következtetéseket vonnak le arra vonatkozóan, hogy mi van az adataikban, a statisztikusok pedig arra, hogy mi nem. Az elemzők segítenek jó kérdéseket feltenni (találgatások), a statisztikák pedig jó válaszokat (teszhipotézisek).

Vannak olyan bizarr hibrid szerepek is, amikor az ember megpróbál két székre ülni... Miért ne? Az adattudomány alaptétele: ha bizonytalansággal küzd, ne használja ugyanaz adatpont hipotézisekhez és teszteléshez. Ha az adatok korlátozottak, a bizonytalanság arra kényszeríti az embert, hogy válasszon a statisztikák vagy az elemzések között. Magyarázat itt.

Statisztikák nélkül elakadsz, és képtelen leszel megérteni, hogy az imént megfogalmazott ítélet állja-e a kritikát, elemzés nélkül pedig vakon mozogsz, kevés esélyed van megszelídíteni az ismeretlent. Ez egy nehéz választás.

A sarlatán úgy tud kijutni ebből a zűrzavarból, hogy figyelmen kívül hagyja, majd úgy tesz, mintha meglepné, ami hirtelen kiderül. A statisztikai hipotézisek tesztelésének logikája arra a kérdésre vezethető vissza, hogy vajon az adatok eléggé meglepnek-e minket ahhoz, hogy meggondoljuk magunkat. Hogyan lephetnénk meg az adatokon, ha már láttuk?

Amikor a sarlatánok találnak egy mintát, amit inspirálnak, akkor teszteljék ugyanazok az adatok a ugyanaz a mintahogy az eredményt, egy-két legitim p-értékkel, az elméletük mellé. Ezzel hazudnak neked (és esetleg maguknak is). Ez a p-érték nem számít, ha nem tartja magát a hipotéziséhez. a hogyan tekinti meg adatait. A sarlatánok elemzők és statisztikusok cselekedeteit utánozzák anélkül, hogy megértenék az okokat. Ennek eredményeként az adattudomány egész területe rosszul repül.

Az igazi statisztikusok mindig levonják a saját következtetéseiket

A statisztikusok szinte misztikus hírnevének köszönhetően a szigorú érvelés miatt a hamis információk mennyisége a Data Science-ben történelmi csúcson van. Könnyű csalni és nem kapni, főleg, ha a gyanútlan áldozat azt hiszi, hogy minden egyenletekről és adatokról szól. Az adatkészlet egy adathalmaz, igaz? Nem. Az számít, hogyan használod.

Szerencsére csak egy nyomra van szükség a sarlatánok elkapásához: "utólag újra felfedezik Amerikát". Olyan jelenségek újrafelfedezése, amelyekről már tudnak, jelen vannak az adatokban.

A sarlatánokkal ellentétben a jó elemzők nyitottak, és megértik, hogy az inspiráló ötleteknek sokféle magyarázata lehet. Ugyanakkor a jó statisztikusok óvatosan határozzák meg következtetéseiket, mielőtt levonják azokat.

Az elemzők mentesülnek a felelősség alól... mindaddig, amíg adataik körén belül maradnak. Ha olyan kísértésbe esnek, hogy olyasmit állítsanak, amit még nem láttak, az egy másik munka. Le kellene venniük a cipőjüket elemzőként, és statisztikus cipőbe kellene „váltani”. Végül is, bármilyen legyen is a hivatalos beosztás, nincs olyan szabály, amely szerint ne tanulhatna mindkét szakmát, ha akarja. Csak ne keverje össze őket.

Csak azért, mert jó a statisztikában, nem jelenti azt, hogy jó az elemzésben, és fordítva. Ha valaki ennek ellenkezőjét próbálja mondani, akkor legyen résen. Ha ez a személy azt mondja Önnek, hogy statisztikai következtetéseket vonhat le az Ön által már tanulmányozott adatokból, akkor ez kétszeresen is óvatosságra ad okot.

Bizarr magyarázatok

Amikor a vadon élő sarlatánokat megfigyeli, észre fogja venni, hogy szeretnek fantasztikus történeteket kitalálni, hogy „megmagyarázzák” a megfigyelt adatokat. Minél akadémikusabb, annál jobb. Nem számít, hogy ezeket a történeteket visszamenőlegesen hajtják végre.

Amikor a sarlatánok ezt teszik – hadd legyek nagylelkű szavakkal –, hazudnak. Semmiféle egyenlet vagy gyönyörű fogalom nem pótolja azt a tényt, hogy nulla bizonyítékot kínáltak a verzióikra. Ne lepődj meg azon, hogy milyen szokatlanok a magyarázataik.

Ez ugyanaz, mint "pszichikai" képességeid bemutatása úgy, hogy először megnézed a kezedben lévő kártyákat, majd megjósolod, mit tartasz... mit tartasz. Ez utólagos elfogultság, és az adattudományi szakma zsúfolásig megtelt vele.

Hogyan lehet felismerni egy sarlatánt a Data Science-ből?

Az elemzők azt mondják: "Ön csak a gyémántok királynőjével ment." A statisztikusok azt mondják: „A hipotéziseimet felírtam erre a papírra, mielőtt elkezdtük. Játsszunk, nézzünk meg néhány adatot, és nézzük meg, igazam van-e." A sarlatánok azt mondják: "Tudtam, hogy te leszel a gyémántok királynője, mert..."

Az adatparticionálás a gyors megoldás, amelyre mindenkinek szüksége van.

Ha kevés az adat, választani kell a statisztika és az analitika között, de ha több mint elegendő adat van, akkor remek lehetőség van csalás nélkül használni az elemzést и statisztika. Megvan a tökéletes védelem a sarlatánok ellen – ez az adatok szétválasztása, és véleményem szerint ez a legerősebb ötlet az adattudományban.

Ahhoz, hogy megvédje magát a sarlatánoktól, mindössze annyit kell tennie, hogy bizonyos tesztadatokat távol tart a kíváncsi szemek elől, majd a többit analitikaként kezeli. Ha olyan elmélettel találkozik, amelynek elfogadásának kockázata, használja azt a helyzet értékelésére, majd fedje fel titkos tesztadatait, hogy ellenőrizze, hogy az elmélet nem hülyeség. Ez olyan egyszerű!

Hogyan lehet felismerni egy sarlatánt a Data Science-ből?
Győződjön meg arról, hogy senki sem tekintheti meg a tesztadatokat a feltárási szakaszban. Ehhez ragaszkodjon a kutatási adatokhoz. A tesztadatokat nem szabad elemzéshez felhasználni.

Ez nagy lépés ahhoz képest, amit az emberek megszoktak a "kis adatok" korszakában, ahol meg kell magyarázni, honnan tudod, hogy mit tudsz, hogy végre meggyőzd az embereket arról, hogy valóban tudsz valamit.

Ugyanezen szabályok alkalmazása az ML/AI-ra

Néhány sarlatán, aki ML/AI-szakértőnek adja ki magát, szintén könnyen észrevehető. Ugyanúgy fogod elkapni őket, mint bármely más rossz mérnököt: a "megoldások", amelyeket megpróbálnak építeni, folyamatosan kudarcot vallanak. Korai figyelmeztető jel az ipari szabványos nyelvekkel és programozási könyvtárakkal kapcsolatos tapasztalatok hiánya.

De mi a helyzet azokkal, akik működőnek látszó rendszereket építenek? Honnan tudod, ha valami gyanús történik? Ugyanez a szabály érvényes! A Charlatan egy baljós karakter, aki megmutatja, milyen jól működött a modell... ugyanazon az adatokon, amelyeket a modell létrehozásához használtak.

Ha egy őrülten bonyolult gépi tanulási rendszert épített fel, honnan tudja, milyen jó? Nem fogod tudni, amíg meg nem mutatod neki, hogy olyan új adatokkal dolgozik, amelyeket korábban nem látott.

Ha látta az adatokat az előrejelzés előtt, ez nem valószínű előttsokatmondó

Ha elegendő adat áll rendelkezésére a szétválasztáshoz, nem kell a képletek szépségét idéznie a projekt igazolására (régi divatos szokás mindenhol, nem csak a tudományban). Mondhatod: „Tudom, hogy működik, mert tudok venni egy adathalmazt, amelyet még nem láttam, és megjósolhatom, hogy pontosan mi fog történni… és igazam lesz. Újra és újra".

A bizalom legjobb alapja a modell/elmélet tesztelése új adatokkal.

Nem tűröm az adatsarlatánokat. Nem érdekel, ha a véleményed különböző chipeken alapul. Nem nyűgöz le a magyarázatok szépsége. Mutassa meg, hogy elmélete/modellje olyan új adatokon működik (és továbbra is működik), amelyeket még soha nem látott. Ez az Ön véleménye erejének igazi próbája.

Kapcsolatfelvétel az adattudósokkal

Ha azt szeretné, hogy bárki komolyan vegyen, aki érti ezt a humort, ne bújjon tovább a divatos egyenletek mögé, hogy életben tartsa személyes elfogultságát. Mutasd meg, amid van. Ha azt szeretné, hogy azok, akik „megérzik”, többnek tekintsék elméletét/modelljét, mint pusztán inspiráló költészetet, legyen bátorságuk bemutatni, milyen jól teljesít egy vadonatúj adathalmazon... a tanúk előtt!

Fellebbezés a vezetőkhöz

Ne vegyen komolyan bármilyen "ötletet" az adatokkal kapcsolatban mindaddig, amíg le nem tesztelték őket új adat. Nem akar belefektetni az erőfeszítésbe? Ragaszkodjon az elemzéshez, de ne hagyatkozzon ezekre az ötletekre – megbízhatatlanok, és nem tesztelték megbízhatóságukat. Továbbá, ha egy szervezet bőségesen rendelkezik adatokkal, akkor nincs hátránya annak, ha a szétválasztást a tudomány alapjává tesszük, és infrastruktúra szinten fenntartjuk a statisztikai adatokhoz való hozzáférés szabályozásával. Ez egy nagyszerű módja annak, hogy megállítsa a megtévesztési kísérleteket!

Ha több példát szeretne látni arra, hogy a sarlatánok valami rosszat terveznek - ez egy remek twitter szál.

Eredményei

Ha túl kevés az adat az elkülönítéshez, csak egy sarlatán próbál szigorúan követni az ihletet azzal, hogy utólag felfedezi Amerikát, matematikailag újra felfedezi az adatokban már ismert jelenségeket, és statisztikailag szignifikánsnak nevezi a meglepetést. Ez különbözteti meg őket a nyitott gondolkodású elemzőtől, aki inspirációval foglalkozik, és az aprólékos statisztikustól, aki bizonyítékot kínál az előrejelzések készítésekor.

Ha sok az adat, szokja meg az adatok megosztását, hogy mindkét világból a legjobbat élvezhesse! Ügyeljen arra, hogy az elemzést és a statisztikát külön végezze el az eredeti adathalom különálló részhalmazaihoz.

  • Elemzők ihletet és perspektívát kínál.
  • Statisztika szigorú tesztelést kínálunk Önnek.
  • sarlatánok csavaros utólagos visszatekintést kínálunk, amely úgy tesz, mintha elemzés és statisztika lenne.

Talán a cikk elolvasása után az a gondolat fog felmerülni, hogy „sarlatán vagyok”? Ez jó. Kétféleképpen lehet megszabadulni ettől a gondolattól: először nézzen vissza, nézze meg, mit tett, hogy az adatokkal végzett munka hozott-e gyakorlati hasznot. Másodszor, továbbra is dolgozhat a képesítésén (ami biztosan nem lesz felesleges), különösen azért, mert olyan gyakorlati készségeket és ismereteket adunk hallgatóinknak, amelyek lehetővé teszik számukra, hogy valódi adattudósokká váljanak.

Hogyan lehet felismerni egy sarlatánt a Data Science-ből?

További tanfolyamok

Olvass tovább

Forrás: will.com

Hozzászólás