Si të njohim një sharlatan të shkencës së të dhënave?

Si të njohim një sharlatan të shkencës së të dhënave?
Ju mund të keni dëgjuar për analistë, specialistë të mësimit të makinerive dhe inteligjencës artificiale, por a keni dëgjuar për ata që paguhen padrejtësisht? Takohen të dhëna sharlatan! Këto hakime, të joshur nga punë fitimprurëse, u japin shkencëtarëve të të dhënave reale një emër të keq. Në material kuptojmë se si t'i sjellim njerëz të tillë në ujë të pastër.

Sharlatanët e të dhënave janë kudo

Sharlatanët e të dhënave janë aq të mirë për t'u fshehur në pamje të qartë, saqë mundeni të jetë një prej tyreedhe pa e kuptuar. Shanset janë që organizata juaj i ka strehuar këta djem të poshtër për vite, por lajmi i mirë është se ata janë të lehtë për t'u identifikuar nëse dini se çfarë të kërkoni.
Shenja e parë paralajmëruese është mungesa e të kuptuarit të kësaj analitika dhe statistika janë disiplina shumë të ndryshme. Këtë do ta shpjegoj më tej.

Disiplina të ndryshme

Statisticienët janë të trajnuar për të nxjerrë përfundime për atë që shkon përtej të dhënave të tyre, analistët janë trajnuar për të ekzaminuar përmbajtjen e një grupi të dhënash. Me fjalë të tjera, analistët nxjerrin përfundime për atë që është në të dhënat e tyre, dhe statisticienët nxjerrin përfundime për atë që nuk është në të dhëna. Analistët ju ndihmojnë të bëni pyetje të mira (të bëni hipoteza), dhe statisticienët ju ndihmojnë të merrni përgjigje të mira (testoni hipotezat tuaja).

Ka edhe role të çuditshme hibride ku një person përpiqet të ulet në dy karrige... Pse jo? Parimi bazë i shkencës së të dhënave: nëse keni të bëni me pasiguri, nuk mund ta përdorni e njëjta pika e të dhënave për hipoteza dhe testime. Kur të dhënat janë të kufizuara, pasiguria detyron një zgjedhje midis statistikave ose analitikës. Shpjegim këtu.

Pa statistika, do të mbeteni të mbërthyer dhe të paaftë për të kuptuar nëse gjykimi që sapo formuluat qëndron, dhe pa analiza, ju po lëvizni verbërisht, me pak mundësi për të zbutur të panjohurën. Kjo është një zgjedhje e vështirë.

Mënyra e sharlatanit për të dalë nga kjo rrëmujë është ta injorojë atë dhe më pas të pretendojë se është i befasuar nga ajo që shfaqet papritur. Logjika pas testimit të hipotezave statistikore zbret në pyetjen nëse të dhënat na befasojnë aq sa të ndryshojmë mendjen. Si mund të habitemi nga të dhënat nëse i kemi parë tashmë?

Sa herë që sharlatanët gjejnë një model, ata frymëzohen, pastaj kontrollojnë të njëjtat të dhëna për i njëjti model, për të publikuar rezultatin me një vlerë p-legjitime ose dy, pranë teorisë së tyre. Kështu, ata po të gënjejnë ty (dhe, ndoshta, edhe veten e tyre). Kjo vlerë p nuk ka rëndësi nëse nuk i përmbaheni hipotezës suaj tek si i keni parë të dhënat tuaja. Sharlatanët imitojnë veprimet e analistëve dhe statisticienëve pa i kuptuar arsyet. Si rezultat, e gjithë fusha e shkencës së të dhënave merr një reputacion të keq.

Statisticienët e vërtetë gjithmonë nxjerrin përfundimet e tyre

Falë reputacionit pothuajse mistik të statisticienëve për arsyetimin e tyre rigoroz, sasia e informacionit të rremë në Shkencën e të Dhënave është në nivelin më të lartë të të gjitha kohërave. Është e lehtë të mashtrosh dhe të mos kapesh, veçanërisht nëse viktima që nuk dyshon mendon se gjithçka ka të bëjë me ekuacione dhe të dhëna. Një grup të dhënash është një grup të dhënash, apo jo? Nr. Ka rëndësi se si e përdorni.

Për fat të mirë, ju duhet vetëm një e dhënë për të kapur sharlatanët: ata "po zbulojnë Amerikën në mënyrë retroaktive". Duke rizbuluar fenomene që ata tashmë e dinë se janë të pranishme në të dhëna.

Ndryshe nga sharlatanët, analistët e mirë janë mendjehapur dhe e kuptojnë se idetë frymëzuese mund të kenë shumë shpjegime të ndryshme. Në të njëjtën kohë, statisticienët e mirë përcaktojnë me kujdes përfundimet e tyre përpara se t'i bëjnë ato.

Analistët janë të përjashtuar nga përgjegjësia... për sa kohë që qëndrojnë brenda fushës së të dhënave të tyre. Nëse tundohen të pretendojnë diçka që nuk e kanë parë, kjo është një punë krejt tjetër. Ata duhet të heqin këpucët e analistit dhe të veshin këpucët e statisticienit. Në fund të fundit, pavarësisht se cili është titulli zyrtar i punës, nuk ka asnjë rregull që thotë se nuk mund të studioni të dyja profesionet nëse dëshironi. Thjesht mos i ngatërroni.

Vetëm për shkak se ju jeni të mirë në statistika nuk do të thotë që ju jeni të mirë në analitikë, dhe anasjelltas. Nëse dikush përpiqet t'ju thotë të kundërtën, duhet të jeni të kujdesshëm. Nëse ky person ju thotë se është e lejueshme të nxirren përfundime statistikore nga të dhënat që keni studiuar tashmë, kjo është një arsye për të qenë dyfish të kujdesshëm.

Shpjegime të çuditshme

Kur vëzhgoni sharlatanët e të dhënave në natyrë, do të vini re se atyre u pëlqen të krijojnë histori fantastike për të "shpjeguar" të dhënat që vëzhgojnë. Sa më akademik, aq më mirë. Nuk ka rëndësi që këto histori janë përshtatur në prapavijë.

Kur sharlatanët e bëjnë këtë - më lejoni të jem i qartë - ata gënjejnë. Asnjë sasi ekuacionesh apo konceptesh fantastike nuk mund të kompensojë faktin se ato ofruan zero prova të teorive të tyre. Mos u habitni se sa të pazakonta janë shpjegimet e tyre.

Kjo është njësoj si të demonstroni aftësitë tuaja "psikike" duke parë në fillim kartat në duar dhe më pas duke parashikuar se çfarë mbani ... atë që mbani. Ky është një paragjykim i pashmangshëm dhe profesioni i shkencës së të dhënave është i mbushur deri në buzë me të.

Si të njohim një sharlatan të shkencës së të dhënave?

Analistët thonë: “Sapo shkuat me Mbretëreshën e Diamanteve”. Statisticienët thonë: “I shkrova hipotezat e mia në këtë copë letre përpara se të fillonim. Le të luajmë përreth dhe të shohim disa të dhëna dhe të shohim nëse kam të drejtë." Sharlatanët thonë: "E dija që do të bëheshe kjo Mbretëresha e Diamanteve sepse..."

Ndarja e të dhënave është zgjidhja e shpejtë që i nevojitet të gjithëve.

Kur nuk ka shumë të dhëna, ju duhet të zgjidhni midis statistikave dhe analitikës, por kur ka më shumë se të dhëna të mjaftueshme, ekziston një mundësi e shkëlqyeshme për të përdorur analitikën pa mashtrim и statistikat. Ju keni mbrojtjen e përsosur kundër sharlatanëve - ndarjen e të dhënave dhe, për mendimin tim, kjo është ideja më e fuqishme në shkencën e të dhënave.

Për t'u mbrojtur nga sharlatanët, gjithçka që duhet të bëni është të siguroheni që t'i mbani disa të dhëna testimi jashtë mundësive të syve të tyre kureshtarë dhe më pas t'i trajtoni pjesën tjetër si analitike. Kur hasni në një teori që jeni në rrezik ta pranoni, përdorni atë për të vlerësuar situatën dhe më pas zbuloni të dhënat tuaja sekrete të testit për të kontrolluar që teoria nuk është e pakuptimtë. Është kaq e thjeshtë!

Si të njohim një sharlatan të shkencës së të dhënave?
Sigurohuni që askush të mos lejohet të shikojë të dhënat e provës gjatë fazës së eksplorimit. Për ta bërë këtë, përmbajuni të dhënave të kërkimit. Të dhënat e testit nuk duhet të përdoren për analizë.

Ky është një hap i madh përpara nga ajo me të cilën njerëzit janë mësuar në epokën e "të dhënave të vogla", ku ju duhet të shpjegoni se si e dini atë që dini, në mënyrë që të bindni më në fund njerëzit se në të vërtetë dini diçka.

Zbatoni të njëjtat rregulla për ML/AI

Disa sharlatanë që paraqiten si ekspertë të ML/AI janë gjithashtu të lehta për t'u dalluar. Ju do t'i kapni ato në të njëjtën mënyrë që do të kapnit çdo inxhinier tjetër të keq: "zgjidhjet" që ata përpiqen të ndërtojnë vazhdimisht dështojnë. Një shenjë paralajmëruese e hershme është mungesa e përvojës me gjuhët dhe bibliotekat standarde të programimit të industrisë.

Por çfarë ndodh me njerëzit që krijojnë sisteme që duket se funksionojnë? Si e dini nëse diçka e dyshimtë po ndodh? I njëjti rregull vlen! Sharlatani është një personazh i keq që ju tregon se sa mirë ka punuar modeli...në të njëjtat të dhëna që përdorën për të krijuar modelin.

Nëse keni ndërtuar një sistem jashtëzakonisht kompleks të mësimit të makinerive, si e dini se sa i mirë është? Ju nuk do ta dini derisa t'i tregoni asaj duke punuar me të dhëna të reja që nuk i ka parë më parë.

Kur i keni parë të dhënat para parashikimit - nuk ka gjasa paraduke treguar

Kur keni të dhëna të mjaftueshme për t'u ndarë, nuk keni nevojë të citoni bukurinë e formulave tuaja për të justifikuar projektin (një zakon i modës së vjetër që e shoh kudo, jo vetëm në shkencë). Mund të thuash: “E di që funksionon sepse mund të marr një grup të dhënash që nuk e kam parë më parë dhe të parashikoj saktësisht se çfarë do të ndodhë atje… dhe do të kem të drejtë. Përsëri dhe përsëri".

Testimi i modelit/teorisë suaj kundrejt të dhënave të reja është baza më e mirë për besim.

Unë nuk i toleroj sharlatanët e të dhënave. Nuk më intereson nëse mendimi juaj bazohet në truke të ndryshme. Nuk më bën përshtypje bukuria e shpjegimeve. Më tregoni se teoria/modeli juaj funksionon (dhe vazhdon të funksionojë) në një mori të dhënash të reja që nuk i keni parë kurrë më parë. Ky është testi i vërtetë i forcës së mendimit tuaj.

Kontaktimi i ekspertëve të shkencës së të dhënave

Nëse dëshironi të merreni seriozisht nga të gjithë ata që e kuptojnë këtë humor, ndaloni të fshiheni pas ekuacioneve të zbukuruara për të mbështetur paragjykimet personale. Më trego çfarë ke. Nëse dëshironi që ata që "e kuptojnë" ta shohin teorinë/modelin tuaj si më shumë se thjesht poezi frymëzuese, kini guximin të bëni një shfaqje madhështore se sa mirë funksionon në një grup krejtësisht të ri të dhënash... përpara dëshmitarëve !

Apel për drejtuesit

Refuzoni të merrni seriozisht çdo "ide" në lidhje me të dhënat derisa ato të jenë testuar i ri të dhëna. Nuk ju pëlqen të bëni përpjekje? Qëndroni me analitikën, por mos u mbështetni në këto ide - ato nuk janë të besueshme dhe nuk janë testuar për besueshmëri. Për më tepër, kur një organizatë ka të dhëna me bollëk, nuk ka asnjë pengesë për ta bërë ndarjen themelore në shkencë dhe për ta mbajtur atë në nivelin e infrastrukturës duke kontrolluar aksesin në të dhënat e testimit për statistikat. Kjo është një mënyrë e shkëlqyer për të ndaluar njerëzit që përpiqen t'ju mashtrojnë!

Nëse doni të shihni më shumë shembuj sharlatanësh deri në asnjë të mirë - këtu është një temë e mrekullueshme në Twitter.

Rezultatet e

Kur ka shumë pak të dhëna për t'u ndarë, vetëm një sharlatan përpiqet të ndjekë rreptësisht frymëzimin duke zbuluar Amerikën në mënyrë retrospektive, duke rizbuluar matematikisht fenomene tashmë të njohura se janë në të dhëna dhe duke e quajtur surprizën statistikisht të rëndësishme. Kjo i dallon ata nga analisti mendjehapur, i cili merret me frymëzimin dhe statisticieni i përpiktë, i cili ofron prova kur bën parashikime.

Kur ka shumë të dhëna, merrni zakonin e ndarjes së të dhënave në mënyrë që të keni më të mirën nga të dy botët! Sigurohuni që të bëni analitikë dhe statistika veçmas për nëngrupet individuale të grumbullit origjinal të të dhënave.

  • Analistët ju ofron frymëzim dhe mendje të hapur.
  • Statistikat ju ofrojnë testime rigoroze.
  • sharlatanët ju ofron një pasqyrë të shtrembëruar që pretendon të jetë analitike plus statistika.

Ndoshta, pasi të lexoni artikullin, do të keni mendimin "a jam unë një sharlatan"? Kjo është mirë. Ka dy mënyra për të hequr qafe këtë mendim: së pari, shikoni prapa, shikoni se çfarë keni bërë, nëse puna juaj me të dhënat ka sjellë përfitime praktike. Dhe së dyti, ju mund të punoni ende në kualifikimet tuaja (që sigurisht nuk do të jenë të tepërta), veçanërisht pasi ne u japim studentëve tanë aftësi dhe njohuri praktike që i lejojnë ata të bëhen shkencëtarë të vërtetë të të dhënave.

Si të njohim një sharlatan të shkencës së të dhënave?

Më shumë kurse

Lexo më shumë

Burimi: www.habr.com

Shto një koment