Cum să recunoști un șarlatan din Data Science?

Cum să recunoști un șarlatan din Data Science?
Poate ați auzit de analiști, de specialiști în învățarea automată și de inteligență artificială, dar ați auzit de cei care sunt plătiți excesiv în mod nedrept? Întâlni șarlatan de date! Aceste hack-uri, ademenite de locuri de muncă profitabile, le oferă oamenilor de știință de date reale un nume prost. În material înțelegem cum să aducem astfel de oameni la apă curată.

Șarlatanii de date sunt peste tot

Șarlatanii de date sunt atât de buni să se ascundă la vedere încât poți fii unul dintre eifără să-și dea seama măcar. Sunt șanse ca organizația dvs. să adăpostească acești băieți ascunși de ani de zile, dar vestea bună este că sunt ușor de identificat dacă știți ce să căutați.
Primul semn de avertizare este lipsa de înțelegere analitica și statistica sunt discipline foarte diferite. Voi explica acest lucru în continuare.

Diferite discipline

Statisticienii sunt instruiți să tragă concluzii despre ceea ce depășește datele lor, analiștii sunt instruiți să examineze conținutul unui set de date. Cu alte cuvinte, analiștii trag concluzii despre ceea ce se află în datele lor, iar statisticienii trag concluzii despre ceea ce nu este în date. Analiștii vă ajută să puneți întrebări bune (faceți ipoteze), iar statisticienii vă ajută să obțineți răspunsuri bune (testați-vă ipotezele).

Există și roluri hibride ciudate în care o persoană încearcă să stea pe două scaune... De ce nu? Principiul de bază al științei datelor: dacă aveți de-a face cu incertitudine, nu puteți utiliza la fel punct de date pentru ipoteze și testare. Când datele sunt limitate, incertitudinea forțează alegerea între statistici sau analize. explicație aici.

Fără statistici, vei rămâne blocat și nu vei putea înțelege dacă judecata pe care tocmai ai formulat-o rezistă și, fără analiză, te miști orbește, cu șanse mici de a îmblânzi necunoscutul. Aceasta este o alegere dificilă.

Calea șarlatanului din această mizerie este să o ignore și apoi să se prefacă surprins de ceea ce apare brusc. Logica din spatele testării ipotezelor statistice se rezumă la întrebarea dacă datele ne surprind suficient pentru a ne răzgândi. Cum putem fi surprinși de date dacă le-am văzut deja?

Ori de câte ori șarlatanii găsesc un model, se inspiră, apoi verifică aceleasi date pentru acelasi tipar, pentru a publica rezultatul cu o valoare p legitimă sau două, lângă teoria lor. Astfel, ei te mint pe tine (și, poate, și pe ei înșiși). Această valoare p nu contează dacă nu vă respectați ipoteza la cum ați vizualizat datele dvs. Șarlatanii imită acțiunile analiștilor și statisticienilor fără a înțelege motivele. Drept urmare, întregul domeniu al științei datelor capătă o reputație proastă.

Adevărații statisticieni trag întotdeauna propriile concluzii

Datorită reputației aproape mistice a statisticienilor pentru raționamentul lor riguros, cantitatea de informații false din Data Science este la cote maxime. Este ușor să înșeli și să nu fii prins, mai ales dacă victima nebănuitoare crede că totul este vorba de ecuații și date. Un set de date este un set de date, nu? Nu. Contează cum îl folosești.

Din fericire, ai nevoie doar de un singur indiciu pentru a-i prinde pe șarlatani: ei „descoperă retroactiv America”. Prin redescoperirea unor fenomene despre care ei deja știu că sunt prezente în date.

Spre deosebire de șarlatani, analiștii buni sunt deschiși la minte și înțeleg că ideile inspiraționale pot avea multe explicații diferite. În același timp, statisticienii buni își definesc cu atenție concluziile înainte de a le face.

Analiștii sunt scutiți de răspundere... atâta timp cât rămân în sfera datelor lor. Dacă sunt tentați să pretindă ceva ce nu au văzut, asta e cu totul altă treabă. Ar trebui să-i scoată pantofii analistului și să-și pună pantofii statisticianului. La urma urmei, indiferent care este titlul oficial al postului, nu există nicio regulă care să spună că nu poți studia ambele profesii dacă vrei. Doar nu-i confunda.

Doar pentru că ești bun la statistici nu înseamnă că ești bun la analiză și invers. Dacă cineva încearcă să-ți spună contrariul, ar trebui să fii precaut. Dacă această persoană vă spune că este permis să trageți concluzii statistice din datele pe care le-ați studiat deja, acesta este un motiv pentru a fi de două ori precaut.

Explicații bizare

Când observați șarlatanii de date în sălbăticie, veți observa că le place să inventeze povești fantastice pentru a „explica” datele pe care le observă. Cu cât este mai academic, cu atât mai bine. Nu contează că aceste povești sunt ajustate în retrospectivă.

Când șarlatanii fac asta - să fiu clar - mint. Nicio cantitate de ecuații sau concepte fanteziste nu poate compensa faptul că au oferit zero dovezi ale teoriilor lor. Nu fi surprins de cât de neobișnuite sunt explicațiile lor.

Acest lucru este același lucru cu demonstrarea abilităților tale „psihice”, uitându-te mai întâi la cărțile din mâinile tale și apoi prezicând ce ții în mână... ce ții. Aceasta este o părtinire retrospectivă, iar profesia de știință a datelor este plină de ea până la refuz.

Cum să recunoști un șarlatan din Data Science?

Analiștii spun: „Tocmai ai fost cu Regina Diamantelor”. Statisticienii spun: „Mi-am notat ipotezele pe această bucată de hârtie înainte de a începe. Să ne jucăm și să ne uităm la câteva date și să vedem dacă am dreptate.” Șarlatanii spun: „Știam că vei deveni această regina a diamantelor pentru că...”

Partajarea datelor este soluția rapidă de care toată lumea are nevoie.

Când nu există multe date, trebuie să alegeți între statistici și analize, dar când există date mai mult decât suficiente, există o mare oportunitate de a utiliza analitice fără înșelăciune и statistici. Aveți apărarea perfectă împotriva șarlatanilor - separarea datelor și, în opinia mea, aceasta este cea mai puternică idee din Data Science.

Pentru a vă proteja de șarlatani, tot ce trebuie să faceți este să vă asigurați că nu lăsați niște date de testare la îndemâna ochilor lor indiscreți și apoi să le tratați pe celelalte ca pe niște analize. Când întâlniți o teorie pe care riscați să o acceptați, folosiți-o pentru a evalua situația și apoi dezvăluie datele secrete ale testului pentru a verifica dacă teoria nu este o prostie. Este atât de simplu!

Cum să recunoști un șarlatan din Data Science?
Asigurați-vă că nimeni nu are voie să vizualizeze datele de testare în timpul fazei de explorare. Pentru a face acest lucru, rămâneți la datele de cercetare. Datele de testare nu trebuie utilizate pentru analiză.

Acesta este un pas mare față de ceea ce oamenii sunt obișnuiți în era „datelor mici”, în care trebuie să explici cum știi ceea ce știi pentru a-i convinge în sfârșit pe oameni că știi de fapt ceva.

Aplicați aceleași reguli pentru ML/AI

Unii șarlatani care se prezintă drept experți ML/AI sunt, de asemenea, ușor de observat. Îi vei prinde la fel cum ai prinde orice alt inginer rău: „soluțiile” pe care încearcă să le construiască eșuează continuu. Un semn de avertizare timpurie este lipsa de experiență cu limbaje și biblioteci de programare standard din industrie.

Dar cum rămâne cu oamenii care creează sisteme care par să funcționeze? De unde știi dacă se întâmplă ceva suspect? Se aplică aceeași regulă! Șarlatanul este un personaj sinistru care îți arată cât de bine a funcționat modelul... pe aceleași date pe care le-au folosit pentru a crea modelul.

Dacă ai construit un sistem de învățare automată nebun de complex, de unde știi cât de bun este? Nu vei ști până nu-i arăți că lucrează cu date noi pe care nu le-a văzut până acum.

Când ați văzut datele înainte de a estima - este puțin probabil înaintespune

Când ai suficiente date de separat, nu trebuie să citezi frumusețea formulelor tale pentru a justifica proiectul (un obicei de modă veche pe care îl văd peste tot, nu doar în știință). Poti spune: „Știu că funcționează pentru că pot lua un set de date pe care nu l-am văzut până acum și pot prezice exact ce se va întâmpla acolo... și voi avea dreptate. Iar si iar".

Testarea modelului/teoriei cu date noi este cea mai bună bază pentru încredere.

Nu tolerez șarlatanii de date. Nu-mi pasă dacă părerea ta se bazează pe diferite trucuri. Nu sunt impresionat de frumusețea explicațiilor. Arată-mi că teoria/modelul tău funcționează (și continuă să funcționeze) pe o mulțime de date noi pe care nu le-ai mai văzut până acum. Acesta este adevăratul test al puterii părerii tale.

Contactarea experților în știința datelor

Dacă vrei să fii luat în serios de toți cei care înțeleg acest umor, nu te mai ascunde în spatele ecuațiilor fanteziste pentru a susține prejudecățile personale. Arată-mi ce ai. Dacă doriți ca cei care „înțeleg” să vă vadă teoria/modelul ca mai mult decât o poezie inspirațională, aveți curajul să faceți un spectacol grandios al cât de bine funcționează pe un set complet nou de date... în fața martorilor !

Apel la lideri

Refuzați să luați în serios orice „idei” despre date până când acestea nu sunt testate nou date. Nu ai chef să depui efort? Rămâneți cu analizele, dar nu vă bazați pe aceste idei - nu sunt de încredere și nu au fost testate pentru fiabilitate. În plus, atunci când o organizație are date din abundență, nu există niciun dezavantaj în a face separarea fundamentală în știință și a menține-o la nivel de infrastructură prin controlul accesului la datele de testare pentru statistici. Aceasta este o modalitate grozavă de a opri oamenii să încerce să te păcălească!

Dacă vrei să vezi mai multe exemple de șarlatani până la nimic bun - iată un thread minunat pe Twitter.

Rezultatele

Când există prea puține date pentru a fi separate, doar un șarlatan încearcă să urmeze cu strictețe inspirația descoperind America retrospectiv, redescoperind matematic fenomene despre care se știe deja a fi în date și numind surpriza semnificativă statistic. Acest lucru îi deosebește de analistul cu mintea deschisă, care se ocupă de inspirație, și de statisticianul meticulos, care oferă dovezi atunci când face predicții.

Când există o mulțime de date, obișnuiește-te să le separi, astfel încât să poți avea ce este mai bun din ambele lumi! Asigurați-vă că faceți analize și statistici separat pentru subseturile individuale ale teancului original de date.

  • Analiștii vă oferă inspirație și deschidere la minte.
  • Statistici să vă ofere teste riguroase.
  • șarlatani vă oferă o imagine retrospectivă întortocheată care se pretinde a fi analitică plus statistici.

Poate că, după ce ai citit articolul, vei avea gândul „sunt un șarlatan”? Este în regulă. Există două moduri de a scăpa de acest gând: mai întâi, priviți înapoi, vedeți ce ați făcut, dacă munca dvs. cu date a adus beneficii practice. Și în al doilea rând, puteți încă să vă lucrați la calificările (care cu siguranță nu vor fi de prisos), mai ales că oferim studenților noștri abilități practice și cunoștințe care le permit să devină adevărați oameni de știință ai datelor.

Cum să recunoști un șarlatan din Data Science?

Mai multe cursuri

Citeste mai mult

Sursa: www.habr.com

Adauga un comentariu