Kako prepoznati šarlatana iz Data Science?

Kako prepoznati šarlatana iz Data Science?
Možda ste čuli za analitičare, stručnjake za strojno učenje i umjetnu inteligenciju, ali jeste li čuli za one koji su nepravedno preplaćeni? Upoznajte data charlatan! Ovi hakovi, namamljeni unosnim poslovima, daju lošu reputaciju pravim naučnicima za podatke. U materijalu razumijemo kako takve ljude dovesti u čistu vodu.

Šarlatani podataka su posvuda

Šarlatani podataka su toliko dobri u skrivanju na vidnom mjestu da možete budi jedan od njiha da toga nije ni svestan. Šanse su da je vaša organizacija godinama skrivala ove podmukle tipove, ali dobra vijest je da ih je lako prepoznati ako znate šta tražiti.
Prvi znak upozorenja je nedostatak razumijevanja toga analitika i statistika su veoma različite discipline. Objasniću ovo dalje.

Različite discipline

Statističari su obučeni da donose zaključke o onome što prevazilazi njihove podatke, analitičari su obučeni da ispituju sadržaj skupa podataka. Drugim riječima, analitičari izvode zaključke o tome šta se nalazi u njihovim podacima, a statističari o onome što nije u podacima. Analitičari vam pomažu da postavite dobra pitanja (postavite hipoteze), a statističari vam pomažu da dobijete dobre odgovore (testirajte svoje hipoteze).

Postoje i čudne hibridne uloge u kojima osoba pokušava da sedi na dve stolice... Zašto ne? Osnovni princip nauke o podacima: ako imate posla sa nesigurnošću, ne možete koristiti isto podataka za hipoteze i testiranje. Kada su podaci ograničeni, neizvjesnost tjera na izbor između statistike ili analitike. Objašnjenje ovdje.

Bez statistike ćete biti zaglavljeni i nesposobni da shvatite da li je presuda koju ste upravo formulisali opravdana, a bez analize se krećete slijepo, sa malim šansama da ukrotite nepoznato. Ovo je težak izbor.

Šarlatanov izlaz iz ove zbrke je da to ignoriše, a zatim se pretvara da je iznenađen onim što se iznenada pojavi. Logika koja stoji iza testiranja statističkih hipoteza svodi se na pitanje da li nas podaci dovoljno iznenađuju da promijenimo mišljenje. Kako možemo biti iznenađeni podacima ako smo ih već vidjeli?

Kad god šarlatani pronađu obrazac, dobiju inspiraciju, a zatim provjere isti podaci do isti obrazac, da objavi rezultat sa legitimnom p-vrijednošću ili dva, pored njihove teorije. Dakle, lažu vas (a možda i sebe). Ova p-vrijednost nije bitna ako se ne držite svoje hipoteze do kako ste pregledali svoje podatke. Šarlatani oponašaju postupke analitičara i statističara bez razumijevanja razloga. Kao rezultat toga, čitavo polje nauke o podacima dobija lošu reputaciju.

Pravi statističari uvijek donose svoje zaključke

Zahvaljujući gotovo mističnoj reputaciji statističara zbog njihovog rigoroznog rasuđivanja, količina lažnih informacija u Data Science je na vrhuncu svih vremena. Lako je prevariti se i ne biti uhvaćen, pogotovo ako nesuđena žrtva misli da je sve u jednadžbama i podacima. Skup podataka je skup podataka, zar ne? br. Važno je kako ga koristite.

Srećom, potreban vam je samo jedan trag da uhvatite šarlatane: oni "retroaktivno otkrivaju Ameriku". Ponovnim otkrivanjem fenomena za koje već znaju da su prisutni u podacima.

Za razliku od šarlatana, dobri analitičari su otvorenog uma i razumiju da inspirativne ideje mogu imati mnogo različitih objašnjenja. Istovremeno, dobri statističari pažljivo definišu svoje zaključke prije nego što ih donesu.

Analitičari su oslobođeni odgovornosti... sve dok su u okviru svojih podataka. Ako su u iskušenju da tvrde nešto što nisu vidjeli, to je sasvim drugi posao. Trebali bi izuti cipele analitičara i obući cipele statističara. Na kraju krajeva, bez obzira na službeni naziv radnog mjesta, ne postoji pravilo koje kaže da ne možete studirati oba zanimanja ako želite. Samo ih nemojte zbuniti.

Samo zato što ste dobri u statistici ne znači da ste dobri u analitici, i obrnuto. Ako neko pokuša da vam kaže drugačije, budite oprezni. Ako vam ova osoba kaže da je dozvoljeno izvoditi statističke zaključke iz podataka koje ste već proučavali, to je razlog da budete dvostruko oprezni.

Bizarna objašnjenja

Kada promatrate šarlatane podataka u divljini, primijetit ćete da vole izmišljati fantastične priče kako bi „objasne“ podatke koje promatraju. Što akademskije, to bolje. Nema veze što se ove priče prilagođavaju unazad.

Kada šarlatani to rade - da budem jasan - lažu. Nikakve jednačine ili fensi koncepti ne mogu nadoknaditi činjenicu da su ponudili nula dokaza za svoje teorije. Nemojte se iznenaditi koliko su njihova objašnjenja neobična.

Ovo je isto kao da demonstrirate svoje "psihičke" sposobnosti tako što prvo pogledate karte u rukama, a zatim predvidite šta držite...šta držite. Ovo je retrospektivna pristrasnost i profesija nauke o podacima je ispunjena do vrha.

Kako prepoznati šarlatana iz Data Science?

Analitičari kažu: "Upravo ste otišli sa Kraljicom dijamanata." Statističari kažu: „Zapisao sam svoje hipoteze na ovom komadu papira prije nego što smo počeli. Hajde da se poigramo i pogledamo neke podatke i vidimo da li sam u pravu." Šarlatani kažu: “Znao sam da ćeš postati ova kraljica dijamanata jer...”

Dijeljenje podataka je brzo rješenje koje je svima potrebno.

Kada nema puno podataka, morate birati između statistike i analitike, ali kada podataka ima više nego dovoljno, postoji odlična prilika da koristite analitiku bez obmane и statistika. Imate savršenu odbranu od šarlatana - razdvajanje podataka i, po mom mišljenju, ovo je najmoćnija ideja u Data Science.

Da biste se zaštitili od šarlatana, sve što trebate učiniti je osigurati da neke podatke s testa držite van dohvata njihovih znatiželjnih očiju, a zatim da ostale tretirate kao analitiku. Kada naiđete na teoriju koju rizikujete da prihvatite, iskoristite je za procjenu situacije, a zatim otkrijte svoje tajne podatke testa kako biste provjerili da teorija nije besmislica. Tako je jednostavno!

Kako prepoznati šarlatana iz Data Science?
Uvjerite se da nikome nije dozvoljeno da vidi podatke testa tokom faze istraživanja. Da biste to učinili, držite se podataka istraživanja. Podaci testa ne bi se trebali koristiti za analizu.

Ovo je veliki korak u odnosu na ono na šta su ljudi navikli u eri „malih podataka“, kada morate objasniti kako znate šta znate kako biste konačno uvjerili ljude da nešto zaista znate.

Primijenite ista pravila na ML/AI

Lako je uočiti i neke šarlatane koji se predstavljaju kao stručnjaci za ML/AI. Uhvatićete ih na isti način na koji biste uhvatili bilo kog drugog lošeg inženjera: „rešenja“ koja pokušavaju da izgrade neprestano propadaju. Rani znak upozorenja je nedostatak iskustva sa industrijskim standardnim programskim jezicima i bibliotekama.

Ali šta je sa ljudima koji kreiraju sisteme koji izgleda da rade? Kako znate da li se dešava nešto sumnjivo? Vrijedi isto pravilo! Šarlatan je zlokobni lik koji vam pokazuje koliko je model dobro funkcionisao...na istim podacima koje su koristili za kreiranje modela.

Ako ste izgradili suludo složen sistem mašinskog učenja, kako znate koliko je dobar? Nećete znati dok joj ne pokažete da radi s novim podacima koje nije vidjela prije.

Kada ste vidjeli podatke prije predviđanja - to je malo vjerovatno prijegovoreći

Kada imate dovoljno podataka za razdvajanje, ne morate navoditi ljepotu svojih formula da biste opravdali projekat (stara modna navika koju vidim posvuda, ne samo u nauci). Ti možeš reći: „Znam da radi jer mogu uzeti skup podataka koji nisam ranije vidio i tačno predvidjeti šta će se tamo dogoditi... i bit ću u pravu. Opet i opet".

Testiranje vašeg modela/teorije u odnosu na nove podatke je najbolja osnova za povjerenje.

Ne tolerišem šarlatane podataka. Nije me briga da li je tvoje mišljenje zasnovano na različitim trikovima. Nisam impresioniran ljepotom objašnjenja. Pokažite mi da vaša teorija/model funkcionira (i nastavlja raditi) na cijeloj gomili novih podataka koje nikada prije niste vidjeli. Ovo je pravi test snage vašeg mišljenja.

Kontaktirajte stručnjake za nauku o podacima

Ako želite da vas svi koji razumiju ovaj humor shvate ozbiljno, prestanite se skrivati ​​iza fensi jednačina kako biste podržali lične predrasude. Pokaži mi šta imaš. Ako želite da oni koji "shvate" vašu teoriju/model vide kao više od inspirativne poezije, imajte hrabrosti da priredite veliku predstavu o tome kako dobro funkcionira na potpuno novom skupu podataka... pred svjedocima !

Apel liderima

Odbijte ozbiljno shvatiti bilo kakve "ideje" o podacima dok se ne testiraju novo podaci. Ne želite da se trudite? Držite se analitike, ali nemojte se oslanjati na ove ideje – one su nepouzdane i nisu testirane na pouzdanost. Štaviše, kada organizacija ima podatke u izobilju, nema loše strane u tome da razdvajanje bude fundamentalno u nauci i da se održava na nivou infrastrukture kontrolisanjem pristupa test podacima za statistiku. Ovo je odličan način da zaustavite ljude koji vas pokušavaju prevariti!

Ako želite vidjeti još primjera šarlatana koji nisu dobri - evo divne teme na Twitteru.

Ishodi

Kada je premalo podataka za odvajanje, samo šarlatan pokušava striktno slijediti inspiraciju otkrivajući Ameriku retrospektivno, matematički ponovo otkrivajući fenomene za koje se već zna da su u podacima, i nazivajući iznenađenje statistički značajnim. To ih razlikuje od analitičara otvorenog uma, koji se bavi inspiracijom, i pedantnog statističara, koji nudi dokaze prilikom predviđanja.

Kada ima puno podataka, steknite naviku razdvajanja podataka kako biste imali najbolje od oba svijeta! Obavezno uradite analitiku i statistiku odvojeno za pojedinačne podskupove originalne gomile podataka.

  • Analitičari ponuditi vam inspiraciju i otvorenost.
  • Statističari ponuditi vam rigorozno testiranje.
  • Šarlatani ponuditi vam izokrenutu retrospektivu koja se pretvara da je analitika plus statistika.

Možda ćete, nakon čitanja članka, imati misao "jesam li ja šarlatan"? Ovo je u redu. Postoje dva načina da se riješite ove misli: prvo, osvrnite se unazad, vidite šta ste uradili, da li je vaš rad sa podacima doneo praktičnu korist. I drugo, još uvijek možete raditi na svojim kvalifikacijama (što sigurno neće biti suvišno), pogotovo jer našim studentima dajemo praktične vještine i znanja koja im omogućavaju da postanu pravi naučnici podataka.

Kako prepoznati šarlatana iz Data Science?

Više kurseva

Čitaj više

izvor: www.habr.com

Dodajte komentar