Kaip atpažinti šarlataną iš duomenų mokslo?

Kaip atpažinti šarlataną iš duomenų mokslo?
Galbūt girdėjote apie analitikus, mašininio mokymosi ir dirbtinio intelekto specialistus, bet ar girdėjote apie tuos, kuriems nepelnytai permoka? Susitikti duomenų šarlatanas! Šie gudručiai, viliojami pelningų darbų, tikriems duomenų mokslininkams kelia blogą vardą. Medžiagoje suprantame, kaip tokius žmones atvesti prie švaraus vandens.

Duomenų šarlatanai yra visur

Duomenų šarlatanai taip gerai moka pasislėpti matomoje vietoje, kad jūs galite būti vienu iš jųto net nesuvokdamas. Tikėtina, kad jūsų organizacija šiuos sukčius globoja jau daugelį metų, tačiau gera žinia ta, kad juos lengva atpažinti, jei žinote, ko ieškoti.
Pirmas įspėjamasis ženklas – nesupratimas, kas analitika ir statistika yra labai skirtingos disciplinos. Aš tai paaiškinsiu toliau.

Įvairios disciplinos

Statistikai mokomi daryti išvadas apie tai, kas nepatenka į jų duomenis, analitikai mokomi tirti duomenų rinkinio turinį. Kitaip tariant, analitikai daro išvadas apie tai, kas yra jų duomenyse, o statistika – apie tai, ko nėra. Analitikai padeda užduoti gerus klausimus (spėjimus), o statistika – gauti gerus atsakymus (tikrinti hipotezes).

Būna ir keistų hibridinių vaidmenų, kai žmogus bando atsisėsti ant dviejų kėdžių... Kodėl gi ne? Pagrindinis duomenų mokslo principas: jei susiduriate su netikrumu, nenaudokite tas pats duomenų taškas hipotezėms ir tikrinimui. Kai duomenys yra riboti, neapibrėžtumas verčia rinktis statistiką arba analizę. Paaiškinimas čia.

Be statistikos būsite įstrigę ir nesuprasite, ar ką tik suformuluotas sprendimas atlaiko kritiką, o be analizės judate aklai, mažai šansų prisijaukinti nežinomybę. Tai sunkus pasirinkimas.

Šarlatano išeitis iš šios netvarkos yra į tai nekreipti dėmesio ir apsimesti nustebusiu tuo, ką ji staiga atskleidžia. Statistinių hipotezių tikrinimo logika susiveda į klausimą, ar duomenys mus pakankamai nustebina, kad pakeistume savo nuomonę. Kaip galime nustebinti duomenimis, jei juos jau matėme?

Kai šarlatanai randa modelį, kurį įkvepia, tada išbandykite tie patys duomenystas pats modelispaskelbti rezultatą su teisėta p reikšme ar dviem kartu su savo teorija. Taip elgdamiesi jie meluoja jums (ir galbūt ir sau). Ši p reikšmė neturi reikšmės, jei nesilaikysite savo hipotezės. į kaip žiūrite savo duomenis. Šarlatanai mėgdžioja analitikų ir statistikų veiksmus, nesuprasdami priežasčių. Dėl to visa duomenų mokslo sritis sulaukia blogo repo.

Tikri statistikai visada daro savo išvadas

Dėl beveik mistinės statistikų reputacijos dėl griežtų samprotavimų, suklastotos informacijos kiekis duomenų moksle yra aukščiausias visų laikų skaičius. Lengva apgauti ir neįkliūti, ypač jei nieko neįtarianti auka mano, kad viskas priklauso nuo lygčių ir duomenų. Duomenų rinkinys yra duomenų rinkinys, tiesa? Nr. Svarbu, kaip jį naudosi.

Laimei, norint sugauti šarlatanus, reikia tik vieno patarimo: jie „po fakto iš naujo atranda Ameriką“. Iš naujo atrandami reiškiniai, kuriuos jie jau žino, yra duomenyse.

Skirtingai nei šarlatanai, geri analitikai yra atviri ir supranta, kad įkvepiančios idėjos gali turėti daug skirtingų paaiškinimų. Tuo pačiu metu geri statistikai kruopščiai apibrėžia savo išvadas prieš jas darydami.

Analitikai yra atleisti nuo atsakomybės... tol, kol jie neviršija savo duomenų. Jei jiems kyla pagunda pareikšti ką nors, ko nematė, tai yra kitas darbas. Jie turėtų „nusiauti batus“ kaip analitikas ir „persikeisti“ į statistiko batus. Galų gale, kad ir koks būtų oficialus pareigų pavadinimas, nėra taisyklės, kuri sako, kad jei nori, negali mokytis abiejų profesijų. Tik nesupainiokite jų.

Tai, kad jums sekasi statistikoje, dar nereiškia, kad jums sekasi analitika, ir atvirkščiai. Jei kas nors bando jums pasakyti kitaip, turėtumėte būti atsargūs. Jei šis asmuo jums sako, kad jums leidžiama daryti statistines išvadas iš duomenų, kuriuos jau ištyrėte, tai yra priežastis būti dvigubai atsargiems.

Keistai paaiškinimai

Stebėdami duomenų šarlatanus laukinėje gamtoje pastebėsite, kad jie mėgsta kurti fantastines istorijas, kad „paaiškintų“ pastebėtus duomenis. Kuo akademiškesnis, tuo geriau. Nesvarbu, kad šios istorijos yra sukurtos atgaline data.

Kai šarlatanai tai daro – pasakysiu tiesiai šviesiai – jie meluoja. Jokios lygtys ar išgalvotos sąvokos negali kompensuoti to, kad jie nepateikė nulinių savo teorijų įrodymų. Nenustebkite, kokie neįprasti yra jų paaiškinimai.

Tai tas pats, kas demonstruoti savo „psichinius“ sugebėjimus iš pradžių pažvelgus į kortas rankose, o paskui nuspėjant, ką laikote... ką laikote. Tai yra šališkumas, o duomenų mokslininko profesija yra prikimšta.

Kaip atpažinti šarlataną iš duomenų mokslo?

Analitikai sako: „Jūs ką tik ėjote su deimantų karaliene“. Statistikai sako: „Savo hipotezes užsirašiau ant šio popieriaus lapo prieš pradedant. Žaiskime, pažiūrėkime į kai kuriuos duomenis ir pažiūrėkime, ar aš teisus“. Šarlatanai sako: „Aš žinojau, kad būsi ta deimantų karalienė, nes...“

Duomenų skaidymas yra greitas sprendimas, kurio reikia visiems.

Kai duomenų nedaug, tenka rinktis tarp statistikos ir analitikos, tačiau kai duomenų yra daugiau nei pakankamai, yra puiki galimybė naudoti analitiką be apgaulės. и statistika. Jūs turite puikią apsaugą nuo šarlatanų – tai yra duomenų atskyrimas ir, mano nuomone, tai yra pati galingiausia duomenų mokslo idėja.

Kad apsisaugotumėte nuo šarlatanų, tereikia pasirūpinti, kad kai kurie bandymų duomenys nepatektų į jų smalsių akių akis, o visa kita traktuokite kaip analitiką. Susidūrę su teorija, kurią rizikuojate priimti, naudokite ją situacijai įvertinti ir atskleiskite savo slaptus testo duomenis, kad patikrintumėte, ar teorija nėra nesąmonė. Tai taip paprasta!

Kaip atpažinti šarlataną iš duomenų mokslo?
Įsitikinkite, kad niekam neleidžiama peržiūrėti bandymo duomenų per tyrinėjimo etapą. Norėdami tai padaryti, laikykitės tyrimų duomenų. Bandymų duomenys neturėtų būti naudojami analizei.

Tai didelis žingsnis aukštyn nuo to, prie ko žmonės yra įpratę „smulkių duomenų“ eroje, kai jūs turite paaiškinti, kaip jūs žinote tai, ką žinote, kad pagaliau įtikintumėte žmones, kad jūs tikrai kažką žinote.

Tų pačių taisyklių taikymas ML/AI

Kai kuriuos šarlatanus, apsimetančius ML/AI ekspertais, taip pat nesunku pastebėti. Sugausi juos taip pat, kaip gaudytum bet kurį kitą blogą inžinierių: „sprendimai“, kuriuos jie bando sukurti, nuolat žlunga. Ankstyvas įspėjamasis ženklas yra patirties su pramonės standartinėmis kalbomis ir programavimo bibliotekomis trūkumas.

Bet ką daryti su žmonėmis, kurie kuria sistemas, kurios, atrodo, veikia? Kaip sužinoti, ar vyksta kažkas įtartino? Galioja ta pati taisyklė! Šarlatanas yra grėsmingas personažas, parodantis, kaip gerai modelis veikė... remiantis tais pačiais duomenimis, kuriuos naudojo kurdamas modelį.

Jei sukūrėte beprotiškai sudėtingą mašininio mokymosi sistemą, kaip žinoti, kokia ji gera? Kol neparodysite jai, kad ji dirba su naujais duomenimis, kurių anksčiau nematė, nesužinosite.

Kai matėte duomenis prieš prognozuodami, tai mažai tikėtina prieš taisakydamas.

Kai turite pakankamai duomenų, kad galėtumėte padalyti, jums nereikia remtis savo formulių grožiu, kad pateisintumėte projektą (seną madingą įprotį matau visur, ne tik moksle). Galite pasakyti: „Žinau, kad tai veikia, nes galiu paimti duomenų rinkinį, kurio dar nemačiau, ir tiksliai numatyti, kas ten atsitiks... ir būsiu teisus. Vėl ir vėl".

Modelio/teorijos patikrinimas pagal naujus duomenis yra geriausias pasitikėjimo pagrindas.

Aš netoleruoju duomenų šarlatanų. Man nesvarbu, ar tavo nuomonė paremta įvairiais triukais. Manęs nežavi paaiškinimų grožis. Parodykite man, kad jūsų teorija / modelis veikia (ir toliau veikia) su daugybe naujų duomenų, kurių niekada anksčiau nematėte. Tai tikras jūsų nuomonės stiprumo išbandymas.

Susisiekimas su duomenų mokslininkais

Jei norite, kad visi, kurie supranta šį humorą, į jus rimtai žiūrėtų, nustokite slėptis už įmantrių lygčių, kad išliktų jūsų asmeninis šališkumas. Parodyk ką turi. Jei norite, kad tie, kurie tai supranta, jūsų teoriją/modelį pamatytų ne tik įkvepiančia poezija, išdrįskite parodyti, kaip puikiai jis veikia visiškai naujame duomenų rinkinyje... liudininkų akivaizdoje!

Kreipimasis į lyderius

Atsisakykite rimtai vertinti bet kokias „idėjas“ apie duomenis, kol jie nebus patikrinti naujas duomenis. Nenorite dėti pastangų? Laikykitės analitikos, bet nepasikliaukite šiomis idėjomis – jos nepatikimos ir jų patikimumas nebuvo patikrintas. Be to, kai organizacija turi daug duomenų, nėra jokios neigiamos pusės, kad atskyrimas taptų mokslo pagrindu ir būtų palaikomas infrastruktūros lygmeniu, kontroliuojant prieigą prie statistinių bandymų duomenų. Tai puikus būdas sustabdyti bandymus jus apgauti!

Jei norite pamatyti daugiau pavyzdžių, kai šarlatanai planuoja kažką blogo - tai puiki Twitter tema.

rezultatai

Kai duomenų atskirti per maža, tik šarlatanas stengiasi griežtai vadovautis įkvėpimu, atrasdamas Ameriką retrospektyviai, matematiškai iš naujo atrasdamas jau žinomus duomenis reiškinius ir staigmeną pavadindamas statistiškai reikšmingu. Tai juos išskiria nuo atviro pažiūrų analitiko, besidominčio įkvėpimu, ir kruopštaus statistiko, pateikiančio įrodymus, kai daro prognozes.

Kai yra daug duomenų, įpraskite dalytis duomenimis, kad galėtumėte turėti geriausią iš abiejų pasaulių! Būtinai atlikite analizę ir statistiką atskirai atskiriems pradinės duomenų krūvos pogrupiams.

  • Analitikai pasiūlyti įkvėpimo ir perspektyvos.
  • Statistika pasiūlyti jums griežtą testavimą.
  • Šarlatanai siūlome jums iškreiptą pažiūrą, kuri apsimeta analitika ir statistika.

Galbūt perskaičius straipsnį kils mintis „ar aš šarlatanas“? Tai yra gerai. Atsikratyti šios minties galima dviem būdais: pirmiausia atsigręžti atgal, pažiūrėti, ką nuveikei, ar tavo darbas su duomenimis atnešė praktinės naudos. Antra, jūs vis tiek galite dirbti su savo kvalifikacija (kuri tikrai nebus nereikalinga), juolab kad savo studentams suteikiame praktinių įgūdžių ir žinių, leidžiančių jiems tapti tikrais duomenų mokslininkais.

Kaip atpažinti šarlataną iš duomenų mokslo?

Daugiau kursų

Skaityti daugiau

Šaltinis: www.habr.com

Добавить комментарий