Hoe kinne jo in Data Science-charlatan werkenne?

Hoe kinne jo in Data Science-charlatan werkenne?
Jo hawwe miskien heard fan analisten, masinelearen en spesjalisten foar keunstmjittige yntelliginsje, mar hawwe jo heard fan dyjingen dy't ûnrjochtfeardich tefolle betelle wurde? Moetsje gegevens charlatan! Dizze hacks, lokke troch lukrative banen, jouwe echte gegevenswittenskippers in minne namme. Yn it materiaal begripe wy hoe't sokke minsken nei skjin wetter bringe kinne.

Data charlatans binne oeral

Data charlatans binne sa goed yn it ferbergjen yn it sicht dat jo kinne wês ien fan harrensûnder it sels te realisearjen. De kâns is grut dat jo organisaasje al jierren dizze sneaky jonges hat, mar it goede nijs is dat se maklik te identifisearjen binne as jo witte wêr't jo nei moatte sykje.
It earste warskôgingsteken is in gebrek oan begryp dat analytics en statistiken binne hiel ferskillende dissiplines. Ik sil dit fierder útlizze.

Ferskillende dissiplines

Statistiken wurde oplaat om konklúzjes te lûken oer wat boppe har gegevens giet, analysten wurde oplaat om de ynhâld fan in dataset te ûndersiikjen. Mei oare wurden, analysten lûke konklúzjes oer wat der yn har gegevens is, en statistici lûke konklúzjes oer wat net yn 'e gegevens is. Analysten helpe jo goede fragen te stellen (hypotezen meitsje), en statistici helpe jo goede antwurden te krijen (test jo hypotezen).

Der binne ek nuvere hybride rollen dêr't in persoan besiket te sitten op twa stuollen ... Wêrom net? Basisprinsipe fan gegevenswittenskip: as jo te krijen hawwe mei ûnwissichheid, kinne jo net brûke itselde gegevenspunt foar hypotezen en testen. As gegevens beheind binne, twingt ûnwissichheid in kar tusken statistyk of analytyk. Taljochting hjir.

Sûnder statistiken sille jo fêst sitte en net yn steat wêze om te begripen oft it oardiel dat jo krekt formulearre hawwe ophâldt, en sûnder analyze bewege jo blyn, mei in bytsje kâns om it ûnbekende te temmen. Dit is in drege kar.

De charlatan syn wei út dizze puinhoop is om it te negearjen en dan pretend te wêzen ferrast troch wat ynienen opdûkt. De logika efter it testen fan statistyske hypotezen komt del op de fraach oft de gegevens ús genôch ferrast om ús gedachten te feroarjen. Hoe kinne wy ​​​​ferrast wurde troch gegevens as wy it al sjoen hawwe?

Wannear't charlatans in patroan fine, wurde se ynspireare, kontrolearje dan deselde gegevens foar itselde patroan, om it resultaat te publisearjen mei in legitime p-wearde of twa, neist har teory. Sa lizze se foar jo (en miskien ek foar harsels). Dizze p-wearde makket neat út as jo net oan jo hypoteze hâlde до hoe't jo jo gegevens seagen. Charlatans imitearje de aksjes fan analisten en statistiken sûnder de redenen te begripen. Dêrtroch krijt it hiele fjild fan datawittenskip in minne reputaasje.

Wiere statistiken lûke altyd har eigen konklúzjes

Mei tank oan de hast mystike reputaasje fan statisticians foar harren strange redenearring, de hoemannichte falske ynformaasje yn Data Science is op in all-time high. It is maklik om te ferrifeljen en net te fongen, foaral as it net fermoedende slachtoffer tinkt dat it allegear oer fergelikingen en gegevens giet. In dataset is in dataset, toch? Nee. It makket út hoe't jo it brûke.

Gelokkich hawwe jo mar ien oanwizing nedich om de sjarlatanen te fangen: se ûntdekke Amearika mei retroaktyf. Troch ferskynsels op 'e nij te ûntdekken dy't se al witte dat se yn 'e gegevens oanwêzich binne.

Oars as charlatans, binne goede analisten iepen en begripe dat ynspirearjende ideeën in protte ferskillende ferklearrings kinne hawwe. Tagelyk definiearje goede statistiken har konklúzjes sekuer foardat se se meitsje.

Analysten binne frijsteld fan oanspraaklikens ... salang't se binnen it berik fan har gegevens bliuwe. As se oanstriid wurde om wat te claimen dat se net sjoen hawwe, is dat in hiele oare baan. Se moatte de skuon fan 'e analist útdwaan en de skuon fan 'e statistikus oandwaan. Ommers, wat de offisjele beropstitel is, der is gjin regel dy't seit dat jo beide beroppen net studearje kinne as jo wolle. Ferwarje se gewoan net.

Krekt om't jo goed binne yn statistyk betsjut net dat jo goed binne yn analytyk, en oarsom. As immen besiket jo oars te fertellen, moatte jo foarsichtich wêze. As dizze persoan jo fertelt dat it tastien is om statistyske konklúzjes te lûken út gegevens dy't jo al studearre hawwe, is dit in reden om dûbeld foarsichtich te wêzen.

Bizarre útlis

By it observearjen fan gegevenscharlatans yn it wyld, sille jo merke dat se fantastyske ferhalen graach meitsje om de gegevens dy't se observearje "ferklearje". Hoe akademysk, hoe better. It makket neat út dat dizze ferhalen efterôf oanpast wurde.

As sjarlatans dit dogge - lit my dúdlik wêze - lizze se. Gjin bedrach fan fergelikingen of fancy konsepten kin it feit goedmeitsje dat se nul bewiis foar har teoryen oanbean. Wês net ferrast troch hoe ûngewoan har ferklearrings binne.

Dit is itselde as it demonstrearjen fan jo "psychyske" kapasiteiten troch earst nei de kaarten yn jo hannen te sjen en dan te foarsizzen wat jo hâlde ... wat jo hawwe. Dit is foaroardielen fan efterút, en it berop fan gegevenswittenskip is der oant de râne fol mei.

Hoe kinne jo in Data Science-charlatan werkenne?

Analysten sizze: "Jo gongen krekt mei de Queen of Diamonds." De statistiken sizze: "Ik haw myn hypotezen op dit stikje papier opskreaun foardat wy begûnen. Litte wy omgean en wat gegevens besjen en sjen oft ik gelyk haw." Charlatans sizze: "Ik wist dat jo dizze keninginne fan diamanten soene wurde, om't ..."

Diele fan gegevens is de snelle oplossing dy't elkenien nedich is.

As d'r net folle gegevens binne, moatte jo kieze tusken statistiken en analytiken, mar as d'r mear dan genôch gegevens binne, is d'r in geweldige kâns om analytyk te brûken sûnder mislieding и statistyk. Jo hawwe de perfekte ferdigening tsjin charlatans - gegevensskieding en, nei myn miening, is dit it machtichste idee yn Data Science.

Om josels te beskermjen tsjin charlatans, alles wat jo hoege te dwaan is derfoar soargje dat jo wat testgegevens bûten it berik fan har nijsgjirrige eagen hâlde, en dan de rest as analytyk behannelje. As jo ​​​​in teory tsjinkomme dy't jo it risiko hawwe om te akseptearjen, brûk it dan om de situaasje te evaluearjen, en iepenbierje dan jo geheime testgegevens om te kontrolearjen dat de teory gjin ûnsin is. It is sa ienfâldich!

Hoe kinne jo in Data Science-charlatan werkenne?
Soargje derfoar dat gjinien de testgegevens yn 'e ferkenningsfaze kin besjen. Om dit te dwaan, bliuw by ûndersyksgegevens. Testgegevens moatte net brûkt wurde foar analyse.

Dit is in grutte stap omheech fan wat minsken wend binne yn it tiidrek fan 'lytse gegevens', wêr't jo moatte útlizze hoe't jo witte wat jo witte om minsken úteinlik te oertsjûgjen dat jo echt wat witte.

Tapasse deselde regels op ML / AI

Guon charlatans dy't har foardogge as ML / AI-eksperts binne ek maklik te spotten. Jo sille se fange op deselde manier as jo in oare minne yngenieur soene fange: de "oplossingen" dy't se besykje te bouwen, mislearje kontinu. In betide warskôgingsteken is in gebrek oan ûnderfining mei yndustrystandert programmeartalen en bibleteken.

Mar hoe sit it mei de minsken dy't systemen meitsje dy't lykje te wurkjen? Hoe wite jo as der wat fertochts bart? Deselde regel jildt! De Charlatan is in sinistere karakter dy't jo sjen lit hoe goed it model wurke ... op deselde gegevens dy't se brûkten om it model te meitsjen.

As jo ​​in waanzinnig kompleks masine-learsysteem hawwe boud, hoe wite jo dan hoe goed it is? Jo sille it net witte oant jo har sjen litte wurkje mei nije gegevens dy't se noch net earder sjoen hat.

As jo ​​​​de gegevens seagen foardat jo foarsizze - it is net wierskynlik foar'tfertellen

As jo ​​genôch gegevens hawwe om te skieden, hoege jo de skientme fan jo formules net te neamen om it projekt te rjochtfeardigjen (in âlderwetske gewoante dy't ik oeral sjoch, net allinich yn 'e wittenskip). Do kinst sizze: "Ik wit dat it wurket, om't ik in gegevensset kin nimme dy't ik noch net earder sjoen haw en presys foarsizze wat d'r sil barre ... en ik sil gelyk hawwe. Hieltyd wer".

It testen fan jo model / teory tsjin nije gegevens is de bêste basis foar fertrouwen.

Ik tolerearje gjin gegevens charlatans. It kin my net skele as jo miening basearre is op ferskate trúkjes. Ik bin net ûnder de yndruk fan de skientme fan de ferklearrings. Lit my sjen dat jo teory / model wurket (en bliuwt te wurkjen) op in hiele boskje nije gegevens dy't jo noch noait earder sjoen hawwe. Dit is de echte test fan 'e sterkte fan jo miening.

Kontakt opnimme mei Data Science Experts

As jo ​​​​serieus wolle wurde nommen troch elkenien dy't dizze humor begrypt, stopje dan mei ferbergjen efter fancy fergelikingen om persoanlike foaroardielen te stypjen. Lit my sjen wat jo hawwe. As jo ​​​​wolle dat dejingen dy't it "krije" jo teory/model sjogge as mear dan allinich ynspirearjende poëzij, ha de moed om in grutte show te setten fan hoe goed it wurket op in folslein nije set gegevens ... foar tsjûgen !

Berop op lieders

Wegerje alle "ideeën" oer de gegevens serieus te nimmen oant se binne hifke nij data. Hawwe jo gjin sin om de muoite yn te setten? Bliuw by de analytiken, mar fertrouwe net op dizze ideeën - se binne ûnbetrouber en binne net hifke op betrouberens. Boppedat, as in organisaasje gegevens yn oerfloed hat, is d'r gjin nadeel om skieding fûneminteel te meitsjen yn 'e wittenskip en it te behâlden op it ynfrastruktuernivo troch tagong te kontrolearjen ta testgegevens foar statistiken. Dit is in geweldige manier om minsken te stopjen dy't jo besykje te gek!

As jo ​​​​mear foarbylden fan charlatans wolle sjen oant gjin goede - hjir is in prachtige thread op Twitter.

Resultaten

As d'r te min gegevens binne om te skieden, besiket allinich in sjarlatan ynspiraasje strikt te folgjen troch Amearika retrospektyf te ûntdekken, ferskynsels wiskundich opnij te ûntdekken dy't al bekend binne yn 'e gegevens, en de ferrassing statistysk signifikant te neamen. Dat ûnderskiedt har fan de iepensinnige analist, dy't him mei ynspiraasje dwaande hâldt, en de sekuere statistikus, dy't bewiis jout by it meitsjen fan foarsizzings.

As d'r in protte gegevens binne, krije dan de gewoante om de gegevens te skieden, sadat jo it bêste fan beide wrâlden kinne hawwe! Soargje derfoar dat jo analytiken en statistiken apart dwaan foar yndividuele subsets fan 'e orizjinele stapel gegevens.

  • Analysten biede jo ynspiraasje en iepen-mindedness.
  • Statistyken biede jo strange testen.
  • Charlatans biede jo in ferdraaide efterútsjoch dy't pretendeart te wêzen analytics plus statistiken.

Miskien, nei it lêzen fan it artikel, sille jo de gedachte hawwe "bin ik in charlatan"? Dit is goed. D'r binne twa manieren om dizze gedachte kwyt te reitsjen: sjoch earst werom, sjoch wat jo dien hawwe, oft jo wurk mei gegevens praktysk foardiel brocht hat. En as twadde kinne jo noch wurkje oan jo kwalifikaasjes (wat wis net oerstallich wêze sil), foaral om't wy ús studinten praktyske feardichheden en kennis jouwe dy't har mooglik meitsje om echte datawittenskippers te wurden.

Hoe kinne jo in Data Science-charlatan werkenne?

Mear kursussen

Lês mear

Boarne: www.habr.com

Add a comment