Paano makilala ang isang charlatan mula sa Data Science?

Paano makilala ang isang charlatan mula sa Data Science?
Maaaring narinig mo na ang tungkol sa mga analyst, machine learning at mga espesyalista sa artificial intelligence, ngunit narinig mo ba ang tungkol sa mga hindi patas na binabayaran? Magkita data charlatan! Ang mga hack na ito, na naakit ng mga mapagkakakitaang trabaho, ay nagbibigay ng masamang pangalan sa mga totoong data scientist. Sa materyal na naiintindihan namin kung paano dalhin ang gayong mga tao sa malinis na tubig.

Ang mga data charlatan ay nasa lahat ng dako

Ang mga data charlatan ay napakahusay na magtago sa simpleng paningin na kaya mo maging isa sa kanilahindi man lang namamalayan. Malamang, ang iyong organisasyon ay nagtatago sa mga palihim na taong ito sa loob ng maraming taon, ngunit ang magandang balita ay madali silang matukoy kung alam mo kung ano ang hahanapin.
Ang unang tanda ng babala ay isang kakulangan ng pag-unawa na ang analytics at istatistika ay ibang-iba na mga disiplina. Ipapaliwanag ko pa ito.

Iba't ibang disiplina

Ang mga istatistika ay sinanay na gumawa ng mga konklusyon tungkol sa kung ano ang higit sa kanilang data, ang mga analyst ay sinanay upang suriin ang nilalaman ng isang set ng data. Sa madaling salita, ang mga analyst ay gumagawa ng mga konklusyon tungkol sa kung ano ang nasa kanilang data, at ang mga istatistika ay gumagawa ng mga konklusyon tungkol sa kung ano ang wala sa data. Tinutulungan ka ng mga analyst na magtanong ng magagandang tanong (gumawa ng mga hypotheses), at tinutulungan ka ng mga istatistika na makakuha ng magagandang sagot (subukan ang iyong mga hypotheses).

Mayroon ding mga kakaibang hybrid na tungkulin kung saan sinusubukan ng isang tao na umupo sa dalawang upuan... Bakit hindi? Pangunahing prinsipyo ng data science: kung ikaw ay humaharap sa kawalan ng katiyakan, hindi mo magagamit pareho data point para sa mga hypotheses at pagsubok. Kapag limitado ang data, pinipilit ng kawalan ng katiyakan ang pagpili sa pagitan ng mga istatistika o analytics. Paliwanag dito.

Kung walang mga istatistika, ikaw ay maiipit at hindi mauunawaan kung ang paghatol na iyong binabalangkas ay nananatili, at nang walang pagsusuri, ikaw ay gumagalaw nang walang taros, na may maliit na pagkakataong mapaamo ang hindi alam. Ito ay isang mahirap na pagpipilian.

Ang paraan ng charlatan sa gulo na ito ay huwag pansinin ito at pagkatapos ay magkunwaring nagulat sa biglaang lumilitaw. Ang lohika sa likod ng pagsubok sa mga istatistikal na hypotheses ay bumababa sa tanong kung ang data ay nakakagulat sa amin ng sapat upang baguhin ang aming mga isip. Paano tayo magugulat sa data kung nakita na natin ito?

Sa tuwing makakahanap ng pattern ang mga charlatan, nagkakaroon sila ng inspirasyon, pagkatapos ay suriin parehong data para sa ang parehong pattern, upang i-publish ang resulta na may isang lehitimong p-value o dalawa, sa tabi ng kanilang teorya. Kaya, nagsisinungaling sila sa iyo (at, marahil, sa kanilang sarili din). Ang p-value na ito ay hindi mahalaga kung hindi ka mananatili sa iyong hypothesis sa kung paano mo tiningnan ang iyong data. Ginagaya ng mga Charlatan ang mga aksyon ng mga analyst at statistician nang hindi nauunawaan ang mga dahilan. Bilang resulta, ang buong larangan ng data science ay nakakakuha ng masamang reputasyon.

Ang mga tunay na istatistika ay palaging gumagawa ng kanilang sariling mga konklusyon

Salamat sa halos misteryosong reputasyon ng mga istatistika para sa kanilang mahigpit na pangangatwiran, ang dami ng pekeng impormasyon sa Data Science ay nasa pinakamataas na lahat. Madaling linlangin at hindi mahuli, lalo na kung iniisip ng walang pag-aalinlangan na biktima na ito ay tungkol sa mga equation at data. Ang isang dataset ay isang dataset, tama ba? Hindi. Mahalaga kung paano mo ito ginagamit.

Sa kabutihang-palad, kailangan mo lamang ng isang palatandaan upang mahuli ang mga charlatan: sila ay "retroactively discovering America." Sa pamamagitan ng muling pagtuklas ng mga phenomena na alam na nilang naroroon sa data.

Hindi tulad ng mga charlatan, ang mga mahuhusay na analyst ay bukas-isip at nauunawaan na ang mga inspirational na ideya ay maaaring magkaroon ng maraming iba't ibang paliwanag. Kasabay nito, maingat na tinukoy ng mga mahuhusay na istatistika ang kanilang mga konklusyon bago nila gawin ang mga ito.

Ang mga analyst ay walang pananagutan... hangga't nananatili sila sa saklaw ng kanilang data. Kung natutukso silang i-claim ang isang bagay na hindi nila nakita, ibang trabaho iyon. Dapat nilang tanggalin ang sapatos ng analyst at isuot ang sapatos ng statistician. Pagkatapos ng lahat, kahit na ano ang opisyal na titulo ng trabaho, walang panuntunan na nagsasabing hindi mo maaaring pag-aralan ang parehong mga propesyon kung gusto mo. Huwag mo lang silang guluhin.

Hindi ibig sabihin na magaling ka sa statistics ay magaling ka sa analytics, at vice versa. Kung may sumubok na sabihin sa iyo kung hindi man, dapat kang maging maingat. Kung sasabihin sa iyo ng taong ito na pinahihintulutan na gumawa ng mga istatistikal na konklusyon mula sa data na napag-aralan mo na, ito ay isang dahilan upang maging dobleng maingat.

Mga kakaibang paliwanag

Kapag nagmamasid sa mga data charlatan sa ligaw, mapapansin mong mahilig silang gumawa ng mga hindi kapani-paniwalang kwento upang "ipaliwanag" ang data na kanilang naobserbahan. Ang mas akademiko, mas mabuti. Bale ang mga kwentong ito ay adjusted in hindsight.

Kapag ginawa ito ng mga charlatan - hayaan mo akong malinawan - nagsisinungaling sila. Walang halaga ng mga equation o magarbong konsepto ang makakabawi sa katotohanang nag-alok sila ng zero proof ng kanilang mga teorya. Huwag magtaka kung gaano kakaiba ang kanilang mga paliwanag.

Ito ay katulad ng pagpapakita ng iyong "psychic" na mga kakayahan sa pamamagitan ng unang pagtingin sa mga card sa iyong mga kamay at pagkatapos ay hulaan kung ano ang iyong hawak...kung ano ang iyong hawak. Ito ay hindsight bias, at ang propesyon ng agham ng data ay punong-puno nito.

Paano makilala ang isang charlatan mula sa Data Science?

Sabi ng mga analyst: "Kakasama mo lang sa Queen of Diamonds." Sabi ng mga statistician, β€œIsinulat ko ang aking mga hypotheses sa piraso ng papel na ito bago tayo magsimula. Maglaro tayo at tingnan ang ilang data at tingnan kung tama ako." Sabi ng mga Charlatans: "Alam kong magiging Queen of Diamonds ka dahil..."

Ang pagbabahagi ng data ay ang mabilisang pag-aayos na kailangan ng lahat.

Kapag walang gaanong data, kailangan mong pumili sa pagitan ng mga istatistika at analytics, ngunit kapag mayroong higit sa sapat na data, mayroong isang magandang pagkakataon na gumamit ng analytics nang walang panlilinlang ΠΈ mga istatistika. Mayroon kang perpektong depensa laban sa mga charlatan - paghihiwalay ng data at, sa palagay ko, ito ang pinakamakapangyarihang ideya sa Data Science.

Upang maprotektahan ang iyong sarili mula sa mga manloloko, ang kailangan mo lang gawin ay tiyaking itago mo ang ilang data ng pagsubok na hindi maaabot ng kanilang mga mata, at pagkatapos ay ituring ang iba bilang analytics. Kapag nakatagpo ka ng isang teorya na nasa panganib kang tanggapin, gamitin ito upang suriin ang sitwasyon, at pagkatapos ay ibunyag ang iyong lihim na data ng pagsubok upang matiyak na ang teorya ay hindi walang kapararakan. Napakasimple nito!

Paano makilala ang isang charlatan mula sa Data Science?
Tiyaking walang sinuman ang pinapayagang tingnan ang data ng pagsubok sa yugto ng paggalugad. Upang gawin ito, manatili sa data ng pananaliksik. Ang data ng pagsubok ay hindi dapat gamitin para sa pagsusuri.

Ito ay isang malaking hakbang mula sa kung ano ang nakasanayan ng mga tao sa panahon ng "maliit na data", kung saan kailangan mong ipaliwanag kung paano mo malalaman ang iyong nalalaman upang sa wakas ay makumbinsi ang mga tao na talagang may alam ka.

Ilapat ang parehong mga panuntunan sa ML/AI

Madaling makita ang ilang charlatan na nagpapanggap bilang mga eksperto sa ML/AI. Mahuhuli mo sila sa parehong paraan na mahuhuli mo ang sinumang masamang inhinyero: ang "mga solusyon" na sinusubukan nilang gawin ay patuloy na nabigo. Ang isang tanda ng maagang babala ay ang kakulangan ng karanasan sa mga karaniwang wika at library ng programming sa industriya.

Ngunit ano ang tungkol sa mga taong gumagawa ng mga sistema na tila gumagana? Paano mo malalaman kung may kahina-hinalang nangyayari? Nalalapat ang parehong panuntunan! Ang Charlatan ay isang masasamang karakter na nagpapakita sa iyo kung gaano kahusay gumana ang modelo...sa parehong data na ginamit nila sa paggawa ng modelo.

Kung nakagawa ka ng isang nakakabaliw na kumplikadong machine learning system, paano mo malalaman kung gaano ito kahusay? Hindi mo malalaman hanggang sa ipakita mo sa kanya na nagtatrabaho siya gamit ang bagong data na hindi pa niya nakikita.

Kapag nakita mo ang data bago maghula - malabong mangyari bagonagsasabi

Kapag mayroon kang sapat na data upang paghiwalayin, hindi mo na kailangang banggitin ang kagandahan ng iyong mga formula upang bigyang-katwiran ang proyekto (isang lumang ugali sa fashion na nakikita ko sa lahat ng dako, hindi lamang sa agham). Maaari mong sabihin: β€œAlam kong gumagana ito dahil nakakakuha ako ng data set na hindi ko pa nakikita at mahulaan kung ano mismo ang mangyayari doon... at tama ako. Paulit ulit".

Ang pagsubok sa iyong modelo/teorya laban sa bagong data ay ang pinakamahusay na batayan para sa kumpiyansa.

Hindi ko pinahihintulutan ang data charlatans. Wala akong pakialam kung ang iyong opinyon ay batay sa iba't ibang mga trick. Hindi ako humanga sa ganda ng mga paliwanag. Ipakita sa akin na ang iyong teorya/modelo ay gumagana (at patuloy na gumagana) sa isang buong bungkos ng mga bagong data na hindi mo pa nakikita. Ito ang tunay na pagsubok ng lakas ng iyong opinyon.

Pakikipag-ugnayan sa Data Science Experts

Kung gusto mong seryosohin ng lahat na nakakaunawa sa katatawanang ito, itigil ang pagtatago sa likod ng mga magarbong equation upang suportahan ang mga personal na bias. Ipakita sa akin kung ano ang mayroon ka. Kung gusto mong tingnan ng mga "nakakakuha" ang iyong teorya/modelo bilang higit pa sa inspirasyong tula, magkaroon ng lakas ng loob na ipakita kung gaano ito gumagana sa isang ganap na bagong set ng data... sa harap ng mga saksi. !

Apela sa mga pinuno

Tumangging seryosohin ang anumang "ideya" tungkol sa data hanggang sa masuri ang mga ito bago datos. Ayaw mo bang mag-effort? Manatili sa analytics, ngunit huwag umasa sa mga ideyang itoβ€”hindi sila maaasahan at hindi pa nasubok para sa pagiging maaasahan. Higit pa rito, kapag ang isang organisasyon ay may napakaraming data, walang downside sa paggawa ng paghihiwalay na pangunahing sa agham at pagpapanatili nito sa antas ng imprastraktura sa pamamagitan ng pagkontrol ng access sa pagsubok ng data para sa mga istatistika. Ito ay isang mahusay na paraan upang pigilan ang mga taong sinusubukang lokohin ka!

Kung gusto mong makakita ng higit pang mga halimbawa ng mga charlatan hanggang sa hindi maganda - narito ang isang magandang thread sa Twitter.

Mga resulta ng

Kapag may masyadong maliit na data upang paghiwalayin, isang charlatan lamang ang sumusubok na mahigpit na sundin ang inspirasyon sa pamamagitan ng pagtuklas sa America nang retrospektibo, sa matematika na muling pagtuklas ng mga phenomena na alam nang nasa data, at pagtawag sa sorpresa bilang makabuluhang istatistika. Ito ay naiiba sa kanila mula sa bukas na pag-iisip na analyst, na tumatalakay sa inspirasyon, at ang maselang estadistika, na nag-aalok ng ebidensya kapag gumagawa ng mga hula.

Kapag maraming data, ugaliing paghiwalayin ang data para makuha mo ang pinakamahusay sa parehong mundo! Tiyaking hiwalay na gumawa ng analytics at istatistika para sa mga indibidwal na subset ng orihinal na pile ng data.

  • Analyst nag-aalok sa iyo ng inspirasyon at bukas na pag-iisip.
  • Mga istatistika nag-aalok sa iyo ng mahigpit na pagsubok.
  • Charlatans nag-aalok sa iyo ng isang baluktot na pagbabalik-tanaw na nagpapanggap na analytics kasama ang mga istatistika.

Marahil, pagkatapos basahin ang artikulo, magkakaroon ka ng pag-iisip na "ako ba ay isang charlatan"? Ito ay mabuti. Mayroong dalawang paraan upang maalis ang kaisipang ito: una, tumingin sa likod, tingnan kung ano ang iyong ginawa, kung ang iyong trabaho sa data ay nagdala ng praktikal na benepisyo. At pangalawa, maaari mo pa ring gawin ang iyong mga kwalipikasyon (na tiyak na hindi magiging kalabisan), lalo na't binibigyan namin ang aming mga mag-aaral ng mga praktikal na kasanayan at kaalaman na nagpapahintulot sa kanila na maging tunay na data scientist.

Paano makilala ang isang charlatan mula sa Data Science?

Higit pang mga kurso

Magbasa pa

Pinagmulan: www.habr.com

Magdagdag ng komento