Ako spoznať šarlatána z Data Science?

Ako spoznať šarlatána z Data Science?
Možno ste už počuli o analytikoch, špecialistoch na strojové učenie a umelú inteligenciu, ale počuli ste už o tých, ktorí sú nespravodlivo preplácaní? Zoznámte sa dátový šarlatán! Tieto hacky, lákané lukratívnymi prácami, robia skutočným dátovým vedcom zlé meno. V materiáli rozumieme, ako takýchto ľudí priviesť k čistej vode.

Dátoví šarlatáni sú všade

Dátoví šarlatáni sa vedia tak dobre skryť pred očami ľudí, že to dokážete byť jedným z nichani si to neuvedomujúc. Je pravdepodobné, že vaša organizácia ukrýva týchto záludných ľudí už roky, ale dobrou správou je, že sa dajú ľahko identifikovať, ak viete, čo hľadať.
Prvým varovným signálom je nepochopenie analytika a štatistika sú veľmi odlišné disciplíny. Vysvetlím to ďalej.

Rôzne disciplíny

Štatistici sú školení, aby vyvodili závery o tom, čo presahuje ich údaje, analytici sú školení, aby preskúmali obsah súboru údajov. Inými slovami, analytici vyvodzujú závery o tom, čo je v ich údajoch, a štatistici vyvodzujú závery o tom, čo v údajoch nie je. Analytici vám pomôžu klásť dobré otázky (tvoriť hypotézy) a štatistici vám pomôžu získať dobré odpovede (testovať vaše hypotézy).

Existujú aj zvláštne hybridné roly, kde sa človek snaží sedieť na dvoch stoličkách... Prečo nie? Základný princíp vedy o údajoch: ak máte čo do činenia s neistotou, nemôžete ju použiť rovnaký dátový bod pre hypotézy a testovanie. Keď sú údaje obmedzené, neistota si vynucuje výber medzi štatistikou alebo analytikou. vysvetlenie tu.

Bez štatistík sa zaseknete a nebudete schopní pochopiť, či úsudok, ktorý ste práve sformulovali, obstojí a bez analýzy sa pohybujete slepo, s malou šancou skrotiť neznáme. To je ťažký výber.

Šarlatánovo východisko z tejto šlamastiky je ignorovať to a potom predstierať, že je prekvapený tým, čo sa zrazu objaví. Logika testovania štatistických hypotéz vychádza z otázky, či nás údaje prekvapia natoľko, aby sme zmenili názor. Ako nás môžu prekvapiť údaje, ak sme ich už videli?

Vždy, keď šarlatáni nájdu vzor, ​​nechajú sa inšpirovať a potom skontrolujú rovnaké údaje pre rovnaký vzor, zverejniť výsledok s legitímnou p-hodnotou alebo dvoma vedľa ich teórie. Preto vám klamú (a možno aj sami sebe). Na tejto p-hodnote nezáleží, ak sa nebudete držať svojej hypotézy na ako ste si prezerali svoje údaje. Šarlatáni napodobňujú činy analytikov a štatistikov bez toho, aby rozumeli dôvodom. Výsledkom je, že celá oblasť vedy o údajoch má zlú povesť.

Skutoční štatistici si vždy robia závery sami

Vďaka takmer mystickej povesti štatistikov pre ich rigorózne uvažovanie je množstvo falošných informácií v Data Science na historickom maxime. Je ľahké oklamať a nenechať sa chytiť, najmä ak si nič netušiaca obeť myslí, že je to všetko o rovniciach a údajoch. Súbor údajov je súbor údajov, však? Nie Dôležité je, ako ho používate.

Na dolapenie šarlatánov vám k šťastiu stačí jedna stopa: „spätne objavujú Ameriku“. Znovuobjavením javov, o ktorých už vedia, že sú v dátach prítomné.

Na rozdiel od šarlatánov sú dobrí analytici otvorení a chápu, že inšpiratívne nápady môžu mať mnoho rôznych vysvetlení. Dobrí štatistici zároveň dôkladne definujú svoje závery skôr, ako ich urobia.

Analytici sú oslobodení od zodpovednosti... pokiaľ zostanú v rozsahu ich údajov. Ak sú v pokušení tvrdiť niečo, čo nevideli, je to úplne iná práca. Mali by si vyzuť topánky analytika a obuť si topánky štatistika. Koniec koncov, bez ohľadu na to, aký je oficiálny názov pracovnej pozície, neexistuje žiadne pravidlo, ktoré by hovorilo, že ak chcete, nemôžete študovať obe profesie. Len si ich nepomýľte.

To, že ste dobrí v štatistike, neznamená, že ste dobrí v analytike a naopak. Ak sa vám niekto snaží povedať niečo iné, mali by ste sa mať na pozore. Ak vám táto osoba povie, že je dovolené vyvodzovať štatistické závery z údajov, ktoré ste už študovali, je to dôvod na dvojnásobnú opatrnosť.

Bizarné vysvetlenia

Pri pozorovaní dátových šarlatánov vo voľnej prírode si všimnete, že radi vymýšľajú fantastické príbehy, aby „vysvetlili“ dáta, ktoré pozorujú. Čím akademickejšie, tým lepšie. Nezáleží na tom, že tieto príbehy sú upravené v spätnom pohľade.

Keď to robia šarlatáni – nech je to jasné – klamú. Žiadne množstvo rovníc alebo nápaditých konceptov nemôže nahradiť skutočnosť, že neponúkali žiadny dôkaz o svojich teóriách. Nebuďte prekvapení, aké nezvyčajné sú ich vysvetlenia.

Je to rovnaké, ako demonštrovať svoje „psychické“ schopnosti tak, že sa najprv pozriete na karty vo svojich rukách a potom predpovedáte, čo držíte...čo držíte. Toto je zaujatosť spätného pohľadu a profesia vedy o údajoch je ňou naplnená až po okraj.

Ako spoznať šarlatána z Data Science?

Analytici hovoria: "Práve ste išli s kráľovnou diamantov." Štatistici hovoria: „Napísal som svoje hypotézy na tento kus papiera predtým, ako sme začali. Poďme sa pohrať a pozrieť sa na nejaké údaje a uvidíme, či mám pravdu." Šarlatáni hovoria: „Vedel som, že sa stanete kráľovnou diamantov, pretože...“

Zdieľanie údajov je rýchla oprava, ktorú potrebuje každý.

Keď nie je veľa údajov, musíte si vybrať medzi štatistikou a analytikou, ale keď je údajov viac než dosť, je tu skvelá príležitosť využiť analytiku bez podvodu. и štatistiky. Máte dokonalú obranu proti šarlatánom - oddelenie dát a podľa mňa je to najsilnejšia myšlienka v Data Science.

Aby ste sa ochránili pred šarlatánmi, všetko, čo musíte urobiť, je uistiť sa, že niektoré testovacie údaje uchovávate mimo dosahu ich zvedavých očí a zvyšok potom považujete za analytiku. Keď narazíte na teóriu, ktorej prijatie hrozí, použite ju na vyhodnotenie situácie a potom odhaľte svoje tajné testovacie údaje, aby ste si overili, že teória nie je nezmysel. Je to také jednoduché!

Ako spoznať šarlatána z Data Science?
Uistite sa, že počas fázy prieskumu nikto nemôže prezerať údaje testu. Ak to chcete urobiť, držte sa údajov z výskumu. Testovacie údaje by sa nemali používať na analýzu.

To je veľký krok vpred oproti tomu, na čo sú ľudia zvyknutí v dobe „small data“, kde musíte vysvetľovať, ako viete, čo viete, aby ste napokon ľudí presvedčili, že niečo skutočne viete.

Aplikujte rovnaké pravidlá na ML/AI

Niektorí šarlatáni vystupujúci ako experti na ML/AI sú tiež ľahko rozpoznateľní. Chytíte ich rovnakým spôsobom, ako by ste chytili akéhokoľvek iného zlého inžiniera: „riešenia“, ktoré sa snažia neustále budovať, zlyhávajú. Včasným varovným signálom je nedostatok skúseností so štandardnými programovacími jazykmi a knižnicami.

Ale čo ľudia, ktorí vytvárajú systémy, ktoré zdanlivo fungujú? Ako zistíte, že sa deje niečo podozrivé? Platí rovnaké pravidlo! Šarlatán je zlovestná postava, ktorá vám ukáže, ako dobre model fungoval... na rovnakých údajoch, ktoré použili na vytvorenie modelu.

Ak ste vytvorili šialene zložitý systém strojového učenia, ako viete, aký je dobrý? Nebudete to vedieť, kým jej neukážete prácu s novými údajmi, ktoré ešte nevidela.

Keď ste videli údaje pred prognózou - je to nepravdepodobné predrozprávanie

Keď máte dostatok údajov na oddelenie, nemusíte citovať krásu svojich vzorcov na ospravedlnenie projektu (starý módny zvyk, ktorý vidím všade, nielen vo vede). Môžeš povedať: „Viem, že to funguje, pretože môžem vziať súbor údajov, ktorý som predtým nevidel, a presne predpovedať, čo sa tam stane... a budem mať pravdu. Znova a znova".

Testovanie vášho modelu/teórie oproti novým údajom je najlepším základom dôvery.

Netolerujem dátových šarlatánov. Je mi jedno, či je tvoj názor založený na rôznych trikoch. Nie som ohromený krásou vysvetlení. Ukážte mi, že vaša teória/model funguje (a naďalej funguje) na množstve nových údajov, ktoré ste nikdy predtým nevideli. Toto je skutočný test sily vášho názoru.

Kontaktovanie odborníkov na dátovú vedu

Ak chcete, aby vás každý, kto rozumie tomuto humoru, bral vážne, prestaňte sa skrývať za ozdobné rovnice na podporu osobných predsudkov. Ukáž mi, čo máš. Ak chcete, aby tí, ktorí to „dostanú“, považovali vašu teóriu/model za viac než len inšpiratívnu poéziu, majte odvahu predviesť veľkolepú ukážku toho, ako dobre to funguje na úplne novom súbore údajov... pred svedkami !

Apelujte na lídrov

Odmietnite brať vážne akékoľvek „nápady“ o údajoch, kým nebudú otestované Nový údajov. Nemáte chuť vynaložiť námahu? Držte sa analýzy, ale nespoliehajte sa na tieto nápady – sú nespoľahlivé a neboli testované na spoľahlivosť. Navyše, keď má organizácia veľké množstvo údajov, nie je nevýhodou, ak sa oddelenie stane základom vedy a udržiava sa na úrovni infraštruktúry riadením prístupu k testovacím údajom pre štatistiky. Toto je skvelý spôsob, ako zastaviť ľudí, ktorí sa vás snažia oklamať!

Ak chcete vidieť viac príkladov šarlatánov až k ničomu - tu je úžasné vlákno na Twitteri.

Výsledky

Keď je údajov príliš málo na oddelenie, iba šarlatán sa snaží striktne nasledovať inšpiráciu tým, že retrospektívne objavuje Ameriku, matematicky znovu objavuje javy, o ktorých je už známe, že sú v dátach, a označí prekvapenie za štatisticky významné. To ich odlišuje od analytika s otvorenou mysľou, ktorý sa zaoberá inšpiráciou, a starostlivého štatistika, ktorý ponúka dôkazy pri vytváraní predpovedí.

Keď je údajov veľa, zvyknite si oddeľovať údaje, aby ste mali to najlepšie z oboch svetov! Nezabudnite robiť analýzy a štatistiky oddelene pre jednotlivé podmnožiny pôvodnej hromady údajov.

  • Analytici ponúknuť vám inšpiráciu a otvorenú myseľ.
  • Štatistiky vám ponúka prísne testovanie.
  • šarlatáni vám ponúka skrútený pohľad späť, ktorý sa tvári ako analytika a štatistiky.

Možno vás po prečítaní článku napadne myšlienka „som šarlatán“? Toto je fajn. Existujú dva spôsoby, ako sa zbaviť tejto myšlienky: najprv sa obzrite späť, zistite, čo ste urobili, či vaša práca s údajmi priniesla praktické výhody. A po druhé, stále môžete pracovať na svojej kvalifikácii (ktorá určite nebude zbytočná), najmä preto, že našim študentom poskytujeme praktické zručnosti a znalosti, ktoré im umožňujú stať sa skutočnými vedcami v oblasti údajov.

Ako spoznať šarlatána z Data Science?

Viac kurzov

Čítaj viac

Zdroj: hab.com

Pridať komentár