Come riconoscere un ciarlatano di Data Science?

Come riconoscere un ciarlatano di Data Science?
Potresti aver sentito parlare di analisti, specialisti di machine learning e intelligenza artificiale, ma hai mai sentito parlare di coloro che sono immeritatamente sovrapagati? Incontrare ciarlatano dei dati! Questi imbroglioni, attratti da lavori redditizi, danno ai veri data scientist una cattiva reputazione. Nel materiale capiamo come portare queste persone all'acqua pulita.

I ciarlatani dei dati sono ovunque

I ciarlatani dei dati sono così bravi a nascondersi in bella vista che tu puoi farlo essere uno di lorosenza nemmeno rendersene conto. È probabile che la tua organizzazione dia rifugio a questi subdoli individui da anni, ma la buona notizia è che sono facili da identificare se sai cosa cercare.
Il primo segnale d’allarme è non capire cosa l’analisi e la statistica sono discipline molto diverse. Lo spiegherò ulteriormente.

Discipline varie

Gli statistici sono addestrati a trarre conclusioni su ciò che va oltre i loro dati, gli analisti sono addestrati a esaminare il contenuto di un set di dati. In altre parole, gli analisti traggono conclusioni su cosa c’è nei loro dati e gli statistici traggono conclusioni su cosa non c’è nei dati. Gli analisti ti aiutano a porre buone domande (fare ipotesi) e gli statistici ti aiutano a ottenere buone risposte (testare le tue ipotesi).

Esistono anche bizzarri ruoli ibridi in cui una persona cerca di sedersi su due sedie... Perché no? Un principio fondamentale della scienza dei dati: se hai a che fare con l'incertezza, non utilizzare lo stesso punto dati per ipotesi e test. Quando i dati sono limitati, l’incertezza costringe a scegliere tra statistica o analisi. spiegazione qui.

Senza statistiche rimarrai bloccato e non riuscirai a capire se il giudizio che hai appena formulato resiste alle critiche, e senza analisi ti muovi alla cieca, avendo poche possibilità di domare l'ignoto. Questa è una scelta difficile.

La via d'uscita del ciarlatano da questo pasticcio è ignorarlo e poi fingere di essere sorpreso da ciò che accade all'improvviso. La logica alla base della verifica delle ipotesi statistiche si riduce alla questione se i dati ci sorprendono abbastanza da farci cambiare idea. Come possiamo stupirci dei dati se li abbiamo già visti?

Ogni volta che i ciarlatani trovano uno schema, lo ispirano e lo mettono alla prova gli stessi dati per lo stesso modellopubblicare il risultato, con uno o due valori p legittimi, insieme alla loro teoria. In questo modo, ti stanno mentendo (e forse anche a se stessi). Questo valore p non ha importanza se non ti attieni alla tua ipotesi. a come visualizzi i tuoi dati. I ciarlatani imitano le azioni di analisti e statistici senza comprenderne le ragioni. Di conseguenza, l’intero campo della scienza dei dati sta subendo una cattiva reputazione.

I veri statistici traggono sempre le proprie conclusioni

Grazie alla reputazione quasi mistica degli statistici per il ragionamento rigoroso, la quantità di informazioni false nella scienza dei dati è ai massimi storici. È facile imbrogliare e non farsi scoprire, soprattutto se la vittima ignara pensa che sia tutta una questione di equazioni e dati. Un set di dati è un set di dati, giusto? NO. Importa come lo usi.

Fortunatamente, basta un solo indizio per catturare i ciarlatani: stanno "scoprendo retroattivamente l'America". Riscoprendo fenomeni che già sanno essere presenti nei dati.

A differenza dei ciarlatani, i buoni analisti hanno una mentalità aperta e comprendono che le idee ispiratrici possono avere molte spiegazioni diverse. Allo stesso tempo, i buoni statistici definiscono attentamente le loro conclusioni prima di trarle.

Gli analisti sono esenti da responsabilità... purché non vadano oltre i propri dati. Se sono tentati di rivendicare qualcosa che non hanno visto, è un lavoro diverso. Dovrebbero “togliersi le scarpe” da analista e “mettersi” nei panni di uno statistico. Dopotutto, qualunque sia il titolo professionale ufficiale, non esiste una regola che dice che non puoi studiare entrambi i mestieri se lo desideri. Basta non confonderli.

Solo perché sei bravo in statistica non significa che sei bravo in analisi e viceversa. Se qualcuno cerca di dirti il ​​contrario, dovresti stare attento. Se questa persona ti dice che è consentito trarre conclusioni statistiche dai dati che hai già studiato, questo è un motivo per essere doppiamente diffidenti.

Spiegazioni bizzarre

Quando osservi i ciarlatani dei dati in natura, noterai che amano inventare storie di fantasia per "spiegare" i dati osservati. Più è accademico, meglio è. Non importa che queste storie siano guidate retroattivamente.

Quando i ciarlatani fanno questo – sia chiaro – mentono. Nessuna quantità di equazioni o concetti fantasiosi può compensare il fatto che non abbiano offerto alcuna prova delle loro teorie. Non sorprenderti di quanto siano insolite le loro spiegazioni.

È come dimostrare le tue abilità "psichiche" guardando prima le carte che hai in mano e poi prevedendo cosa hai in mano... cosa hai in mano. È un pregiudizio del senno di poi e la professione del data scientist ne è piena.

Come riconoscere un ciarlatano di Data Science?

Gli analisti dicono: "Sei appena andato con la regina di quadri". Gli statistici dicono: “Ho scritto le mie ipotesi su questo pezzo di carta prima di iniziare. Giochiamo, guardiamo qualche dato e vediamo se ho ragione." I ciarlatani dicono: "Sapevo che saresti diventata la regina di quadri perché..."

Il partizionamento dei dati è la soluzione rapida di cui tutti hanno bisogno.

Quando non ci sono molti dati, devi scegliere tra statistica e analisi, ma quando i dati sono più che sufficienti, c'è una grande opportunità di utilizzare l'analisi senza imbrogliare и statistiche. Hai la protezione perfetta contro i ciarlatani: questa è la separazione dei dati e, secondo me, questa è l'idea più potente nella scienza dei dati.

Per proteggerti dai ciarlatani, tutto ciò che devi fare è assicurarti di tenere alcuni dati dei test lontani dai loro occhi indiscreti e quindi trattare tutto il resto come analisi. Quando ti imbatti in una teoria che rischi di accettare, usala per valutare la situazione e poi rivela i dati segreti del tuo test per verificare che la teoria non sia insensata. È così semplice!

Come riconoscere un ciarlatano di Data Science?
Assicurati che a nessuno sia consentito visualizzare i dati del test durante la fase di esplorazione. Per fare ciò, attenersi ai dati della ricerca. I dati dei test non devono essere utilizzati per l'analisi.

Questo è un grande passo avanti rispetto a ciò a cui le persone sono abituate nell'era degli "small data", dove devi spiegare come fai a sapere quello che sai per convincere finalmente le persone che sai davvero qualcosa.

Applicare le stesse regole al ML/AI

Anche alcuni ciarlatani che si spacciano per esperti di ML/AI sono facili da individuare. Li catturerai nello stesso modo in cui cattureresti qualsiasi altro cattivo ingegnere: le "soluzioni" che cercano di costruire falliscono costantemente. Un primo segnale di allarme è la mancanza di esperienza con i linguaggi standard del settore e le librerie di programmazione.

Ma che dire delle persone che costruiscono sistemi che sembrano funzionare? Come fai a sapere se sta succedendo qualcosa di sospetto? Vale la stessa regola! Il Ciarlatano è un personaggio sinistro che ti mostra le prestazioni del modello... con gli stessi dati utilizzati per creare il modello.

Se hai creato un sistema di apprendimento automatico follemente complesso, come fai a sapere quanto è valido? Non lo saprai finché non le mostrerai che sta lavorando con nuovi dati che non ha mai visto prima.

Quando hai visto i dati prima della previsione, è improbabile primadetto.

Quando hai abbastanza dati da dividere, non hai bisogno di invocare la bellezza delle tue formule per giustificare un progetto (una vecchia abitudine alla moda che vedo ovunque, non solo nella scienza). Si può dire: “So che funziona perché posso prendere un set di dati che non ho mai visto prima e prevedere esattamente cosa accadrà lì… e avrò ragione. Ancora e ancora".

Testare il tuo modello/teoria rispetto a nuovi dati è la migliore base per la fiducia.

Non tollero i ciarlatani dei dati. Non mi interessa se la tua opinione si basa su chip diversi. Non sono impressionato dalla bellezza delle spiegazioni. Dimostrami che la tua teoria/modello funziona (e continua a funzionare) su una serie di nuovi dati che non hai mai visto prima. Questa è la vera prova della forza della tua opinione.

Contattare i data scientist

Se vuoi essere preso sul serio da chiunque capisca questo umorismo, smetti di nasconderti dietro equazioni fantasiose per mantenere vivi i tuoi pregiudizi personali. Mostra quello che hai. Se vuoi che coloro che "capiscono" vedano la tua teoria/modello come qualcosa di più di una semplice poesia ispiratrice, abbi il coraggio di mettere in mostra le sue prestazioni su un set di dati nuovo di zecca... davanti a testimoni!

Appello ai leader

Rifiutatevi di prendere sul serio qualsiasi "idea" sui dati finché non viene testata nuovo dati. Non hai voglia di impegnarti? Attieniti all'analisi, ma non fare affidamento su queste idee: sono inaffidabili e non è stata testata l'affidabilità. Inoltre, quando un’organizzazione dispone di dati in abbondanza, non vi è alcun svantaggio nel rendere fondamentale la separazione nella scienza e nel mantenerla a livello di infrastruttura controllando l’accesso ai dati dei test per le statistiche. Questo è un ottimo modo per impedire alle persone di cercare di ingannarti!

Se vuoi vedere altri esempi di ciarlatani che tramano qualcosa di brutto... questo è un ottimo thread su Twitter.

Risultati di

Quando i dati sono troppo piccoli per essere separati, solo il ciarlatano cerca di seguire rigorosamente l'ispirazione, scoprendo l'America retrospettivamente, riscoprendo matematicamente fenomeni già noti nei dati e definendo la sorpresa statisticamente significativa. Ciò li distingue dall’analista dalla mentalità aperta che si occupa di ispirazione e dallo statistico meticoloso che offre prove durante le previsioni.

Quando i dati sono molti, prendi l'abitudine di separarli in modo da poter avere il meglio di entrambi i mondi! Assicurati di eseguire analisi e statistiche separatamente per i singoli sottoinsiemi della pila di dati originale.

  • Analisti offrirti ispirazione e apertura mentale.
  • Statistiche offrirvi test rigorosi.
  • Ciarlatani offrirti un senno di poi contorto che finge di essere analisi più statistiche.

Forse, dopo aver letto l'articolo, avrai il pensiero "sono un ciarlatano"? Questo va bene. Esistono due modi per sbarazzarsi di questo pensiero: in primo luogo, guardare indietro, vedere cosa hai fatto, se il tuo lavoro con i dati ha portato benefici pratici. E in secondo luogo, potrai continuare a lavorare sulle tue qualifiche (che sicuramente non saranno superflue), soprattutto perché diamo ai nostri studenti competenze e conoscenze pratiche che permettono loro di diventare dei veri data scientist.

Come riconoscere un ciarlatano di Data Science?

Più corsi

Leggi di più

Fonte: habr.com

Aggiungi un commento