Jak poznat šarlatána z Data Science?

Jak poznat šarlatána z Data Science?
Možná jste slyšeli o analyticích, strojovém učení a specialistech na umělou inteligenci, ale slyšeli jste o těch, kteří jsou nezaslouženě přepláceni? Setkat datový šarlatán! Tito podvodníci, lákáni lukrativními zaměstnáními, dělají skutečným datovým vědcům špatné jméno. V materiálu rozumíme tomu, jak takové lidi přivést k čisté vodě.

Datoví šarlatáni jsou všude

Datoví šarlatáni se dokážou tak dobře schovat na očích, že můžete být jedním z nichaniž by si to uvědomovali. Je pravděpodobné, že vaše organizace tyto podvodníky ukrývá roky, ale dobrou zprávou je, že je snadné je identifikovat, pokud víte, co hledat.
Prvním varovným signálem je nepochopení čeho analytika a statistika jsou velmi odlišné disciplíny. Vysvětlím to dále.

Různé disciplíny

Statistikové jsou vyškoleni k tomu, aby vyvozovali závěry o tom, co je mimo jejich data, analytici jsou vyškoleni ke studiu obsahu datové sady. Jinými slovy, analytici vyvozují závěry o tom, co je v jejich datech, a statistici vyvozují závěry o tom, co v datech není. Analytici vám pomohou klást dobré otázky (odhady) a statistiky vám pomohou získat dobré odpovědi (testovat hypotézy).

Existují i ​​bizarní hybridní role, kdy se člověk snaží sedět na dvou židlích... Proč ne? Základní princip datové vědy: pokud máte co do činění s nejistotou, nepoužívejte stejný datový bod pro hypotézy a testování. Když jsou data omezená, nejistota nutí člověka vybrat si mezi statistikou nebo analýzou. Vysvětlení zde.

Bez statistik se zaseknete a nebudete schopni pochopit, zda úsudek, který jste právě formulovali, obstojí v kritice, a bez analýzy se pohybujete slepě a máte malou šanci zkrotit neznámé. To je těžká volba.

Šarlatánovo východisko z této šlamastyky je ignorovat to a pak předstírat, že je překvapený tím, co najednou odhalí. Logika testování statistických hypotéz se scvrkává na otázku, zda nás data překvapí natolik, že změníme názor. Jak nás mohou překvapit data, když jsme je již viděli?

Kdykoli šarlatáni najdou vzor, ​​který inspirují, pak testují stejná data pro stejný vzorzveřejnit výsledek s legitimní p-hodnotou nebo dvěma vedle jejich teorie. Tím vám (a možná i sobě) lžou. Tato p-hodnota nevadí, pokud se nebudete držet své hypotézy. na jak svá data prohlížíte. Šarlatáni napodobují jednání analytiků a statistiků, aniž by chápali důvody. Výsledkem je, že celá oblast datové vědy dostává špatný rap.

Skuteční statistici si vždy dělají vlastní závěry

Díky téměř mystické pověsti statistiků pro rigorózní úvahy je množství falešných informací v Data Science na historickém maximu. Je snadné podvádět a nenechat se chytit, zvláště pokud si nic netušící oběť myslí, že je to všechno o rovnicích a datech. Datová sada je datová sada, že? Ne. Záleží, jak to použiješ.

Ke štěstí šarlatánů vám stačí jediné vodítko: „znovuobjevují Ameriku po faktu“. Znovuobjevování jevů, o kterých už vědí, že jsou v datech přítomny.

Na rozdíl od šarlatánů jsou dobří analytici otevření a chápou, že inspirativní nápady mohou mít mnoho různých vysvětlení. Dobří statistici přitom své závěry pečlivě definují, než je vyvodí.

Analytici jsou zproštěni odpovědnosti... pokud nepřekročí jejich data. Pokud jsou v pokušení tvrdit něco, co neviděli, je to jiná práce. Měli by si „zout boty“ jako analytik a „převléknout se“ do bot statistika. Koneckonců, bez ohledu na oficiální pracovní název, neexistuje žádné pravidlo, které by říkalo, že nemůžete studovat obě řemesla, pokud chcete. Jen si je nepleťte.

To, že jste dobří ve statistikách, ještě neznamená, že jste dobří v analytice a naopak. Pokud se vám někdo snaží namluvit opak, měli byste být ve střehu. Pokud vám tato osoba řekne, že máte dovoleno vyvodit statistický závěr z údajů, které jste již studovali, je to důvod k dvojnásobné opatrnosti.

Bizarní vysvětlení

Když pozorujete datové šarlatány ve volné přírodě, všimnete si, že si rádi vymýšlejí fantasy příběhy, aby „vysvětlili“ pozorovaná data. Čím akademičtější, tím lepší. Nezáleží na tom, že tyto příběhy jsou vedeny zpětně.

Když to dělají šarlatáni - dovolte mi být velkorysý se slovy - lžou. Žádné množství rovnic nebo krásných konceptů nenahradí skutečnost, že nenabízely žádný důkaz o svých verzích. Nebuďte překvapeni, jak neobvyklá jsou jejich vysvětlení.

To je stejné jako demonstrovat své "psychické" schopnosti tím, že se nejprve podíváte na karty ve svých rukou a pak předpovíte, co držíte... co držíte. Je to zaujatost zpětného pohledu a profese datového vědce je tím nacpaná.

Jak poznat šarlatána z Data Science?

Analytici říkají: "Právě jsi šel s královnou diamantů." Statistici říkají: „Napsal jsem své hypotézy na tento kus papíru, než jsme začali. Pojďme si hrát, podívat se na nějaká data a zjistit, jestli mám pravdu.“ Šarlatáni říkají: "Věděl jsem, že budeš tou královnou diamantů, protože..."

Rozdělení dat je rychlé řešení, které potřebuje každý.

Když není mnoho dat, musíte si vybrat mezi statistikou a analytikou, ale když je dat více než dost, existuje skvělá příležitost využít analytiku bez podvádění. и statistika. Máte dokonalou ochranu proti šarlatánům – to je oddělení dat a podle mě je to nejsilnější myšlenka v Data Science.

Abyste se ochránili před šarlatány, vše, co musíte udělat, je ujistit se, že uchováte některá testovací data před jejich zvědavýma očima a pak budete vše ostatní považovat za analytiku. Když narazíte na teorii, kterou riskujete přijmout, použijte ji k posouzení situace a poté odhalte svá tajná testovací data, abyste si ověřili, že teorie není nesmysl. Je to tak jednoduché!

Jak poznat šarlatána z Data Science?
Ujistěte se, že během fáze průzkumu nikdo nemůže prohlížet data testu. Chcete-li to provést, držte se údajů z výzkumu. Testovací data by se neměla používat pro analýzu.

To je velký krok nahoru oproti tomu, na co jsou lidé zvyklí v éře „small data“, kdy musíte vysvětlovat, jak víte, co víte, abyste nakonec lidi přesvědčili, že opravdu něco umíte.

Použití stejných pravidel na ML/AI

Některé šarlatány vydávající se za experty na ML/AI lze také snadno odhalit. Chytíte je stejným způsobem, jako byste chytili kteréhokoli jiného špatného inženýra: „řešení“, která se snaží vytvořit, neustále selhávají. Včasným varovným signálem je nedostatek zkušeností s průmyslovými standardními jazyky a programovacími knihovnami.

Ale co lidé vytvářející systémy, které vypadají, že fungují? Jak poznáte, že se děje něco podezřelého? Platí stejné pravidlo! Šarlatán je zlověstná postava, která vám ukáže, jak dobře si model vedl... na stejných datech, která použili k vytvoření modelu.

Pokud jste postavili šíleně složitý systém strojového učení, jak víte, jak dobrý je? Nebudete to vědět, dokud jí neukážete, že pracuje s novými daty, která ještě neviděla.

Když jste viděli data před prognózou, je to nepravděpodobné dříverčení.

Když máte dostatek dat k rozdělení, nemusíte se dovolávat krásy svých vzorců, abyste ospravedlnili projekt (starý módní zvyk, který vidím všude, nejen ve vědě). Můžeš říct: „Vím, že to funguje, protože mohu vzít soubor dat, který jsem ještě neviděl, a přesně předpovědět, co se tam stane... a budu mít pravdu. Znovu a znovu".

Testování vašeho modelu/teorie s novými daty je nejlepším základem důvěry.

Netoleruji datové šarlatány. Je mi jedno, jestli je tvůj názor založen na různých čipech. Nejsem ohromen krásou vysvětlení. Ukažte mi, že vaše teorie/model funguje (a nadále funguje) na řadě nových dat, která jste nikdy předtím neviděli. Toto je skutečný test síly vašeho názoru.

Kontaktování datových vědců

Pokud chcete, aby vás někdo, kdo tomuto humoru rozumí, bral vážně, přestaňte se schovávat za luxusní rovnice, abyste udrželi svou osobní zaujatost naživu. Ukaž, co máš. Pokud chcete, aby ti, kteří to „dostanou“, viděli vaši teorii/model jako víc než jen inspirativní poezii, mějte odvahu předvést velkolepou ukázku toho, jak dobře si vede na zcela novém souboru dat... před svědky!

Apelujte na vedoucí

Odmítněte brát jakékoli „nápady“ o datech vážně, dokud nebudou otestovány новых data. Nechcete se snažit? Držte se analýzy, ale nespoléhejte na tyto nápady – jsou nespolehlivé a nebyly testovány na spolehlivost. Také, když má organizace nadbytek dat, neexistuje žádná nevýhoda, když se oddělení stane základem vědy a udrží se na úrovni infrastruktury řízením přístupu k testovacím datům pro statistiky. Je to skvělý způsob, jak zastavit pokusy vás oklamat!

Pokud chcete vidět další příklady šarlatánů, kteří plánují něco špatného - toto je skvělé vlákno na Twitteru.

Výsledky

Když jsou data příliš malá na to, aby je bylo možné oddělit, pouze šarlatán se snaží striktně následovat inspiraci, objevovat Ameriku retrospektivně, matematicky znovu objevovat jevy, o kterých je již známo, že v datech jsou, a označovat překvapení za statisticky významné. To je odlišuje od otevřeného analytika zabývajícího se inspirací a pečlivého statistika nabízejícího důkazy při předpovědích.

Když je dat hodně, zvykněte si je sdílet, abyste měli to nejlepší z obou světů! Nezapomeňte provádět analýzy a statistiky samostatně pro samostatné podmnožiny původní datové hromady.

  • Analytici nabídnout vám inspiraci a perspektivu.
  • Statistici nabídnout vám přísné testování.
  • šarlatáni nabídnout vám zvrácený pohled zpět, který se tváří jako analytika a statistiky.

Možná vás po přečtení článku napadne: „Jsem šarlatán“? Tohle je fajn. Existují dva způsoby, jak se této myšlenky zbavit: nejprve se ohlédněte zpět, podívejte se, co jste udělali, zda vaše práce s daty přinesla praktické výhody. A za druhé, stále můžete pracovat na své kvalifikaci (která jistě nebude zbytečná), zvláště když našim studentům dáváme praktické dovednosti a znalosti, které jim umožňují stát se skutečnými datovými vědci.

Jak poznat šarlatána z Data Science?

Více kurzů

Přečtěte si více

Zdroj: www.habr.com

Přidat komentář