Giunsa pag-ila ang usa ka charlatan sa Data Science?

Giunsa pag-ila ang usa ka charlatan sa Data Science?
Tingali nakadungog ka bahin sa mga analista, pagkat-on sa makina ug mga espesyalista sa artipisyal nga paniktik, apan nakadungog ka ba bahin sa mga dili patas nga sobra nga bayad? Magkita data charlatan! Kini nga mga hack, nga nadani sa mga dakog kita nga trabaho, naghatag sa tinuod nga datos nga mga siyentipiko sa usa ka dili maayo nga ngalan. Sa materyal atong nasabtan kon unsaon pagdala sa maong mga tawo ngadto sa limpyo nga tubig.

Ang mga data charlatans bisan asa

Ang mga data charlatan maayo kaayo sa pagtago sa yano nga pagtan-aw nga mahimo nimo mahimong usa kanilanga wala gani makaamgo niini. Ang mga posibilidad mao, ang imong organisasyon nagtago niining mga malimbungon nga mga lalaki sa daghang mga tuig, apan ang maayong balita mao nga dali silang mailhan kung nahibal-an nimo kung unsa ang pangitaon.
Ang una nga timaan sa pasidaan mao ang dili pagsabut kung unsa analytics ug statistics lahi kaayo nga mga disiplina. Ipasabot ko pa kini.

Nagkalainlain nga mga disiplina

Ang mga estadistika gibansay sa paghimog mga konklusyon bahin sa naa sa gawas sa ilang datos, ang mga analista gibansay aron tun-an ang sulud sa usa ka dataset. Sa laing pagkasulti, ang mga analista naghimog mga konklusyon bahin sa kung unsa ang naa sa ilang datos, ug ang mga estadistika naghimo mga konklusyon bahin sa kung unsa ang wala sa datos. Ang mga analista nagtabang kanimo sa pagpangutana og maayong mga pangutana (tag-an), ug ang mga estadistika makatabang kanimo nga makakuha og maayong mga tubag (test hypotheses).

Adunay usab mga katingad-an nga hybrid nga mga tahas diin ang usa ka tawo mosulay sa paglingkod sa duha ka lingkuranan ... Ngano nga dili? Batakang prinsipyo sa siyensya sa datos: kung nag-atubang ka sa kawalay kasiguruhan, dili nimo magamit parehas punto sa datos alang sa mga pangagpas ug pagsulay. Kung limitado ang datos, ang kawalay kasiguruhan nagpugos sa pagpili tali sa estadistika o analytics. Pagpatin-aw dinhi.

Kung wala’y estadistika, ma-stuck ka ug dili masabtan kung ang hukom nga bag-o pa nimo gihulma nagbarug ba sa pagsaway, ug kung wala’y pag-analisar, naglihok ka nga buta, nga adunay gamay nga higayon nga makontrol ang wala mahibal-an. Kini usa ka lisud nga pagpili.

Ang paagi nga makalingkawas sa maong kagubot mao ang pagbaliwala niini ug dayon magpakaaron-ingnon nga natingala sa kalit nga gipadayag niini. Ang lohika sa luyo sa pagsulay sa mga istatistikal nga pangagpas nagsukad sa pagpangutana kung ang datos nakapatingala ba kanamo nga igo aron mabag-o ang among mga hunahuna. Sa unsang paagi kita matingala sa datos kung nakita na nato kini?

Sa matag higayon nga makit-an sa mga charlatan ang usa ka sumbanan nga ilang gidasig dayon pagsulay parehas nga datos alang sa parehas nga pattern, aron imantala ang resulta nga adunay usa ka lehitimong p-value o duha, sunod sa ilang teorya. Busa, namakak sila kanimo (ug, tingali, sa ilang kaugalingon usab). Kini nga p-value dili igsapayan kung dili ka magpabilin sa imong hypothesis sa giunsa nimo pagtan-aw ang imong datos. Gisundog sa mga Charlatan ang mga aksyon sa mga analista ug estadistika nga wala makasabut sa mga hinungdan. Ingon usa ka sangputanan, ang tibuuk nga natad sa siyensya sa datos nakakuha usa ka dili maayo nga rap.

Ang tinuod nga mga estadistika kanunay nga naghimo sa ilang kaugalingon nga mga konklusyon

Salamat sa halos misteryosong reputasyon sa mga estadistika tungod sa ilang hugot nga pangatarungan, ang gidaghanon sa peke nga impormasyon sa Data Science anaa sa taas nga panahon. Sayon ra ang paglimbong ug dili madakpan, labi na kung ang wala’y pagduda nga biktima naghunahuna nga kini tanan bahin sa mga equation ug datos. Ang usa ka dataset usa ka dataset, di ba? Dili. Importante kung giunsa nimo kini paggamit.

Sa swerte, kinahanglan nimo ang usa ka timaan aron madakpan ang mga charlatan: "Nadiskubre nila pag-usab ang America pagkahuman sa kamatuoran." Pagdiskubre pag-usab sa mga panghitabo nga nahibal-an na nila nga anaa sa datos.

Dili sama sa mga charlatan, ang maayo nga mga analista bukas ang hunahuna ug nakasabut nga ang makapadasig nga mga ideya mahimong adunay daghang lainlaing mga pagpasabut. Sa samang higayon, ang maayong mga estadistika mainampingong naghubit sa ilang mga konklusyon sa dili pa nila kini himoon.

Ang mga analista gawasnon sa tulubagon ... basta dili sila molapas sa ilang datos. Kung matintal sila sa pag-angkon sa usa ka butang nga wala nila makita, kana usa ka lahi nga trabaho. Kinahanglang "tangtangon nila ang ilang mga sapatos" isip usa ka analista ug "ilisan ngadto" ang sapatos sa usa ka statistician. Sa tinuud, bisan unsa ang opisyal nga titulo sa trabaho, wala’y lagda nga nag-ingon nga dili nimo tun-an ang duha nga mga patigayon kung gusto nimo. Ayaw lang sila libug.

Tungod lang kay maayo ka sa statistics wala magpasabot nga maayo ka sa analytics, ug vice versa. Kung adunay mosulay sa pagsulti kanimo kung dili, kinahanglan ka magbantay. Kung gisultihan ka sa kini nga tawo nga gitugotan ka nga maghimo mga konklusyon sa istatistika gikan sa mga datos nga imong natun-an, kini usa ka hinungdan nga doble nga mabinantayon.

Katingad-an nga mga Pagpatin-aw

Kung nag-obserbar sa mga data charlatans sa ihalas nga mga butang, imong mamatikdan nga gusto nila nga maghimo mga hinanduraw nga istorya aron "ipasabut" ang datos nga ilang naobserbahan. Ang mas akademiko, mas maayo. Dili igsapayan nga kini nga mga istorya gipahiangay sa ulahi.

Kung buhaton kini sa mga charlatan - pahibaloa ako - namakak sila. Walay gidaghanon sa mga equation o nindot nga mga konsepto ang makahimo sa kamatuoran nga ilang gitanyag ang zero nga pruweba sa ilang mga teorya. Ayaw katingala kung unsa ka talagsaon ang ilang mga pagpasabut.

Parehas kini sa pagpakita sa imong "psychic" nga mga abilidad pinaagi sa pagtan-aw una sa mga kard sa imong mga kamot, ug dayon pagtagna kung unsa ang imong gikuptan ... kung unsa ang imong gikuptan. Kini usa ka hindsight bias, ug ang propesyon sa data scientist napuno niini.

Giunsa pag-ila ang usa ka charlatan sa Data Science?

Ang mga analista nag-ingon: "Bag-o ka lang miuban sa Queen of Diamonds." Ang mga estadistika nag-ingon, "Gisulat nako ang akong mga pangagpas niini nga piraso sa papel sa wala pa kami magsugod. Magdula kita ug tan-awon ang pipila ka mga datos ug tan-awon kung husto ba ako." Ang mga Charlatans nag-ingon: "Nahibal-an ko nga mahimo kang Reyna sa mga diamante tungod kay ..."

Ang pagbahin sa datos mao ang dali nga pag-ayo nga gikinahanglan sa tanan.

Kung wala’y daghang datos, kinahanglan ka nga mopili tali sa mga estadistika ug analytics, apan kung adunay labi pa sa igo nga datos, adunay usa ka maayong oportunidad nga magamit ang analytics nga wala’y limbong. и estadistika. Ikaw adunay hingpit nga depensa batok sa mga charlatans - data separation ug, sa akong opinyon, kini ang labing gamhanan nga ideya sa Data Science.

Aron mapanalipdan ang imong kaugalingon gikan sa mga charlatans, ang kinahanglan nimo nga buhaton mao ang pagsiguro nga imong gitipigan ang pipila ka mga datos sa pagsulay nga dili maabut sa ilang mga mata, ug dayon tagda ang uban ingon analytics. Kung makit-an nimo ang usa ka teorya nga nameligro nimo nga dawaton, gamita kini aron mahibal-an ang kahimtang, ug dayon ipadayag ang imong sekreto nga datos sa pagsulay aron masusi nga ang teorya dili binuang. Yano ra kaayo!

Giunsa pag-ila ang usa ka charlatan sa Data Science?
Siguruha nga wala’y gitugotan nga motan-aw sa datos sa pagsulay sa panahon sa eksplorasyon. Aron mahimo kini, sunda ang datos sa panukiduki. Ang datos sa pagsulay dili kinahanglan gamiton alang sa pagtuki.

Kini usa ka dako nga lakang gikan sa kung unsa ang naandan sa mga tawo sa panahon sa "gamay nga datos", diin kinahanglan nimo ipasabut kung giunsa nimo nahibal-an ang imong nahibal-an aron sa katapusan makombinsir ang mga tawo nga nahibal-an gyud nimo ang usa ka butang.

Ibutang ang parehas nga mga lagda sa ML/AI

Ang ubang mga charlatans nga nagpanggap nga mga eksperto sa ML/AI dali ra usab makit-an. Madakpan nimo sila sa parehas nga paagi nga imong madakpan ang bisan kinsa nga dili maayo nga inhenyero: ang "mga solusyon" nga ilang gisulayan paghimo kanunay nga napakyas. Ang usa ka sayo nga timaan sa pasidaan mao ang kakulang sa kasinatian sa mga sinultian ug mga librarya sa standard programming sa industriya.

Apan komosta ang mga tawo nga nagmugna og mga sistema nga daw nagtrabaho? Giunsa nimo pagkahibalo kung adunay kadudahan nga nahitabo? Ang sama nga lagda magamit! Ang Charlatan usa ka daotan nga kinaiya nga nagpakita kanimo kung unsa ka maayo ang pagtrabaho sa modelo ... sa parehas nga datos nga ilang gigamit sa paghimo sa modelo.

Kung nakatukod ka usa ka komplikado nga sistema sa pagkat-on sa makina, giunsa nimo pagkahibalo kung unsa kini ka maayo? Dili nimo mahibal-an hangtod nga ipakita nimo siya nga nagtrabaho gamit ang bag-ong datos nga wala pa niya makita kaniadto.

Kung nakita nimo ang datos sa wala pa magtagna - dili kini mahimo sa wala panagsulti

Kung aduna kay igong datos nga ibulag, dili na nimo kinahanglan nga hisgotan ang katahum sa imong mga pormula aron mahatagan og katarungan ang proyekto (usa ka karaan nga batasan sa uso nga akong nakita bisan diin, dili lang sa siyensya). Makaingon ka: "Nahibal-an ko nga kini molihok tungod kay makakuha ako usa ka set sa datos nga wala pa nako makita kaniadto ug matagna kung unsa gyud ang mahitabo didto ... ug husto ako. Pag-usab ug pag-usab".

Ang pagsulay sa imong modelo/teorya batok sa bag-ong datos mao ang labing maayong sukaranan sa pagsalig.

Dili ko motugot sa data charlatans. Dili ko igsapayan kung ang imong opinyon gibase sa lainlaing mga limbong. Wala ko nakadayeg sa kaanindot sa mga pagpasabot. Ipakita kanako nga ang imong teorya / modelo nagtrabaho (ug nagpadayon sa pagtrabaho) sa usa ka tibuuk nga hugpong sa mga bag-ong datos nga wala pa nimo makita kaniadto. Kini ang tinuod nga pagsulay sa kalig-on sa imong opinyon.

Pagkontak sa Data Science Experts

Kung gusto nimo nga seryosohon sa tanan nga nakasabut niini nga humor, hunong sa pagtago sa luyo sa nindot nga mga equation aron suportahan ang mga personal nga bias. Ipakita kanako kung unsa ang naa nimo. Kung gusto nimo nga ang mga "nakakuha niini" magtan-aw sa imong teorya / modelo nga labaw pa sa makapadasig nga balak, pagbaton og kaisug sa pagbutang sa usa ka dako nga pagpakita kung unsa kini ka maayo sa usa ka hingpit nga bag-ong set sa datos ... atubangan sa mga saksi !

Pag-apelar sa mga lider

Pagdumili sa pagseryoso sa bisan unsang "ideya" bahin sa datos hangtod nga kini masulayan bag-o nga datos. Dili ganahan mag effort? Magpabilin sa analytics, apan ayaw pagsalig sa kini nga mga ideya-dili kini kasaligan ug wala pa gisulayan alang sa kasaligan. Dugang pa, kung ang usa ka organisasyon adunay daghang datos, wala’y kapakyasan sa paghimo sa panagbulag nga sukaranan sa syensya ug pagpadayon niini sa lebel sa imprastraktura pinaagi sa pagkontrol sa pag-access sa pagsulay sa datos alang sa mga estadistika. Kini usa ka maayo nga paagi aron mapugngan ang mga tawo nga nagsulay sa paglimbong kanimo!

Kung gusto nimo makita ang daghang mga pananglitan sa mga charlatans hangtod sa dili maayo - nindot ni nga twitter thread.

Mga resulta

Kung adunay gamay ra kaayo nga datos nga ibulag, usa lamang ka charlatan ang mosulay sa hugot nga pagsunod sa inspirasyon pinaagi sa pagdiskubre sa America sa retrospectively, mathematically pagdiskubre pag-usab sa mga panghitabo nga nahibal-an na nga naa sa datos, ug pagtawag sa katingala nga hinungdanon sa istatistika. Kini nagpalahi kanila gikan sa bukas nga hunahuna nga analista, nga naghisgot sa inspirasyon, ug ang makuti nga estadistika, nga nagtanyag og ebidensya sa paghimo sa mga panagna.

Kung adunay daghang datos, batasana ang pagbulag sa datos aron makuha nimo ang labing kaayo sa duha nga kalibutan! Siguruha nga buhaton ang mga analytics ug estadistika nga gilain alang sa indibidwal nga mga subset sa orihinal nga pundok sa datos.

  • Mga analista nagtanyag kanimo inspirasyon ug bukas nga panghunahuna.
  • Estadistika nagtanyag kanimo higpit nga pagsulay.
  • Charlatans nagtanyag kanimo usa ka baliko nga pagtan-aw nga nagpakaaron-ingnon nga analytics plus statistics.

Tingali, pagkahuman sa pagbasa sa artikulo, makahunahuna ka nga "usa ba ako ka charlatan"? Maayo kini. Adunay duha ka paagi sa pagtangtang niini nga hunahuna: una, tan-aw balik, tan-awa kung unsa ang imong nahimo, kung ang imong trabaho sa datos nagdala ug praktikal nga kaayohan. Ug ikaduha, mahimo ka pa nga magtrabaho sa imong mga kwalipikasyon (nga siguradong dili sobra), labi na kay gihatagan namon ang among mga estudyante og praktikal nga kahanas ug kahibalo nga nagtugot kanila nga mahimong tinuod nga data scientist.

Giunsa pag-ila ang usa ka charlatan sa Data Science?

Dugang nga mga kurso

Basaha ang dugang pa

Source: www.habr.com

Idugang sa usa ka comment