Quando dovremmo testare l’ipotesi di non inferiorità?

Quando dovremmo testare l’ipotesi di non inferiorità?
Un articolo del team Stitch Fix suggerisce di utilizzare l'approccio delle prove di non inferiorità nei test A/B di marketing e di prodotto. Questo approccio si applica realmente quando testiamo una nuova soluzione che presenta vantaggi non misurati dai test.

L’esempio più semplice è la riduzione dei costi. Ad esempio, automatizziamo il processo di assegnazione della prima lezione, ma non vogliamo ridurre in modo significativo la conversione end-to-end. Oppure testiamo le modifiche rivolte a un segmento di utenti, assicurandoci che le conversioni per gli altri segmenti non scendano molto (quando si testano diverse ipotesi, non dimenticare le modifiche).

La selezione del margine di non inferiorità corretto aggiunge ulteriori sfide durante la fase di progettazione del test. La questione su come scegliere Δ non è trattata molto bene nell'articolo. Sembra che questa scelta non sia del tutto trasparente nemmeno negli studi clinici. panoramica le pubblicazioni mediche sulla non inferiorità riportano che solo la metà delle pubblicazioni giustifica la scelta del confine, e spesso queste giustificazioni sono ambigue o non dettagliate.

In ogni caso, questo approccio sembra interessante perché... riducendo la dimensione del campione richiesta, è possibile aumentare la velocità dei test e, quindi, la velocità del processo decisionale. — Daria Mukhina, analista di prodotto per l'applicazione mobile Skyeng.

Il team di Stitch Fix ama testare cose diverse. In linea di principio, l'intera comunità tecnologica ama eseguire test. Quale versione del sito attira più utenti: A o B? La versione A del modello di raccomandazione rende più soldi della versione B? Per testare le ipotesi, utilizziamo quasi sempre l’approccio più semplice del corso di statistica di base:

Quando dovremmo testare l’ipotesi di non inferiorità?

Anche se usiamo raramente il termine, questa forma di test è chiamata “test dell’ipotesi di superiorità”. Con questo approccio si presuppone che non vi sia alcuna differenza tra le due opzioni. Rimaniamo fedeli a questa idea e la abbandoniamo solo se i dati sono sufficientemente convincenti per farlo, ovvero dimostrano che una delle opzioni (A o B) è migliore dell’altra.

Testare l’ipotesi di superiorità è adatto a una varietà di problemi. Rilasciamo la versione B di un modello di raccomandazione solo se è chiaramente migliore della versione A già in uso, ma in alcuni casi questo approccio non funziona così bene. Diamo un'occhiata ad alcuni esempi.

1) Utilizziamo un servizio di terze parti, che aiuta a identificare le carte bancarie contraffatte. Abbiamo trovato un altro servizio che costa decisamente meno. Se un servizio più economico funziona bene come quello che utilizziamo attualmente, lo sceglieremo. Non deve essere migliore del servizio che stai utilizzando.

2) Vogliamo abbandonare la fonte dei dati A e sostituirla con l'origine dati B. Potremmo ritardare l'abbandono di A se B produce risultati pessimi, ma non è possibile continuare a utilizzare A.

3) Vorremmo passare da un approccio modellisticoL'approccio da A a B non perché ci aspettiamo risultati migliori da B, ma perché ci offre una maggiore flessibilità operativa. Non abbiamo motivo di credere che B sarà peggiore, ma se così fosse non effettueremo la transizione.

4) Abbiamo apportato diversi cambiamenti qualitativi nella progettazione del sito web (versione B) e crediamo che questa versione sia superiore alla versione A. Non ci aspettiamo cambiamenti nella conversione o in nessuno degli indicatori chiave di prestazione in base ai quali generalmente valutiamo un sito web. Ma crediamo che ci siano vantaggi in parametri che non sono misurabili o che la nostra tecnologia non è in grado di misurare.

In tutti questi casi, la ricerca della superiorità non è la soluzione più appropriata. Ma la maggior parte degli specialisti in tali situazioni lo utilizza per impostazione predefinita. Conduciamo attentamente l'esperimento per determinare correttamente la dimensione dell'effetto. Se fosse vero che le versioni A e B funzionano in modo molto simile, c’è la possibilità che non riusciremmo a rifiutare l’ipotesi nulla. Concludiamo che A e B si comportano sostanzialmente allo stesso modo? NO! Il mancato rifiuto dell’ipotesi nulla e l’accettazione dell’ipotesi nulla non sono la stessa cosa.

I calcoli sulla dimensione del campione (che, ovviamente, hai fatto tu) vengono generalmente eseguiti con limiti più rigidi per l'errore di tipo I (la probabilità di non riuscire a rifiutare l'ipotesi nulla, spesso chiamata alfa) rispetto all'errore di tipo II (la probabilità di non riuscire a rifiutare l'ipotesi nulla, spesso chiamata alfa) l'ipotesi nulla, data la condizione che l'ipotesi nulla sia falsa, spesso chiamata beta). Il valore tipico per alfa è 0,05, mentre il valore tipico per beta è 0,20, corrispondente a una potenza statistica di 0,80. Ciò significa che esiste una probabilità del 20% di non cogliere il vero effetto della quantità che abbiamo specificato nei nostri calcoli di potenza, e questa è una lacuna abbastanza grave nelle informazioni. A titolo di esempio, consideriamo le seguenti ipotesi:

Quando dovremmo testare l’ipotesi di non inferiorità?

H0: il mio zaino NON è nella mia stanza (3)
H1: il mio zaino è nella mia stanza (4)

Se perquisissi la mia stanza e trovassi il mio zaino, bene, potrei scartare l'ipotesi nulla. Ma se mi guardassi intorno nella stanza e non riuscissi a trovare il mio zaino (Figura 1), quale conclusione dovrei trarre? Sono sicuro che non sia lì? Ho guardato abbastanza attentamente? Cosa succede se ho cercato solo nell'80% della stanza? Concludere che lo zaino non sia sicuramente nella stanza sarebbe una decisione avventata. Non c'è da stupirsi che non possiamo "accettare l'ipotesi nulla".
Quando dovremmo testare l’ipotesi di non inferiorità?
L'area che abbiamo perquisito
Non abbiamo trovato lo zaino, dobbiamo accettare l'ipotesi nulla?

Figura 1: Effettuare una ricerca nell'80% di una stanza equivale più o meno a effettuare una ricerca con una potenza dell'80%. Se non trovi lo zaino dopo aver guardato l'80% della stanza, puoi concludere che non sia lì?

Quindi cosa dovrebbe fare un data scientist in questa situazione? È possibile aumentare notevolmente la potenza dello studio, ma in tal caso sarà necessaria una dimensione del campione molto più ampia e il risultato sarà comunque insoddisfacente.

Fortunatamente, tali problemi sono stati a lungo studiati nel mondo della ricerca clinica. Il farmaco B è più economico del farmaco A; Si prevede che il farmaco B causi meno effetti collaterali rispetto al farmaco A; il farmaco B è più facile da trasportare perché non necessita di essere refrigerato, a differenza del farmaco A. Testiamo l'ipotesi di non inferiorità. Questo per dimostrare che la versione B è valida quanto la versione A, almeno entro un margine di non inferiorità predefinito, Δ. Parleremo più approfonditamente di come impostare questo limite un po' più tardi. Ma per ora supponiamo che questa sia la più piccola differenza praticamente significativa (nel contesto degli studi clinici, questa è solitamente chiamata significatività clinica).

Le ipotesi di non inferiorità ribaltano tutto:

Quando dovremmo testare l’ipotesi di non inferiorità?

Ora, invece di assumere che non vi sia alcuna differenza, assumeremo che la versione B sia peggiore della versione A, e manterremo questa ipotesi finché non dimostreremo che non è così. Questo è esattamente il momento in cui ha senso utilizzare il test di ipotesi unilaterale! In pratica, ciò può essere fatto costruendo un intervallo di confidenza e determinando se l’intervallo è effettivamente maggiore di Δ (Figura 2).
Quando dovremmo testare l’ipotesi di non inferiorità?

Selezionare Δ

Come scegliere il Δ giusto? Il processo di selezione Δ comprende la giustificazione statistica e la valutazione sostanziale. Nel mondo della ricerca clinica, esistono linee guida normative che stabiliscono che il delta dovrebbe rappresentare la più piccola differenza clinicamente significativa, una differenza che farà la differenza nella pratica. Ecco una citazione dalle linee guida europee con cui mettervi alla prova: “Se la differenza è stata scelta correttamente, un intervallo di confidenza che si trova interamente tra –∆ e 0… è ancora sufficiente per dimostrare la non inferiorità. Se questo risultato non sembra accettabile, significa che ∆ non è stato selezionato in modo appropriato.”

Il delta non dovrebbe assolutamente superare l’effect size della versione A rispetto al vero controllo (placebo/nessun trattamento), poiché questo ci porta a dire che la versione B è peggiore del vero controllo, dimostrando allo stesso tempo “non inferiorità” .” Supponiamo che quando è stata introdotta la versione A, sia stata sostituita dalla versione 0 o che la funzionalità non esistesse affatto (vedere Figura 3).

Sulla base dei risultati del test dell’ipotesi di superiorità, è stata rivelata la dimensione dell’effetto E (ovvero, presumibilmente μ^A−μ^0=E). Ora A è il nostro nuovo standard e vogliamo essere sicuri che B sia valido quanto A. Un altro modo di scrivere μB−μA≤−Δ (ipotesi nulla) è μB−μA−Δ. Se assumiamo che do sia uguale o maggiore di E, allora μB ≤ μA−E ≤ placebo. Ora vediamo che la nostra stima per μB supera completamente μA−E, il che rifiuta completamente l’ipotesi nulla e ci permette di concludere che B è buono quanto A, ma allo stesso tempo μB può essere ≤ μ placebo, che non è il caso. di cosa abbiamo bisogno. (Figura 3).

Quando dovremmo testare l’ipotesi di non inferiorità?
Figura 3. Dimostrazione dei rischi legati alla scelta di un margine di non inferiorità. Se il limite è troppo alto, si può concludere che B non è inferiore ad A, ma allo stesso tempo indistinguibile dal placebo. Non scambieremo un farmaco che è chiaramente più efficace del placebo (A) con un farmaco che è efficace quanto il placebo.

Scelta di α

Passiamo alla scelta di α. Puoi usare il valore standard α = 0,05, ma questo non è del tutto giusto. Ad esempio, quando acquisti qualcosa online e utilizzi più codici sconto contemporaneamente, anche se non dovrebbero essere combinati, lo sviluppatore ha semplicemente commesso un errore e tu l'hai fatta franca. Secondo le regole, il valore di α dovrebbe essere uguale alla metà del valore di α utilizzato per verificare l'ipotesi di superiorità, ovvero 0,05 / 2 = 0,025.

Misura di prova

Come stimare la dimensione del campione? Se si ritiene che la vera differenza media tra A e B sia 0, allora il calcolo della dimensione del campione è lo stesso di quando si verifica l'ipotesi di superiorità, tranne per il fatto che si sostituisce la dimensione dell'effetto con il margine di non inferiorità, a condizione che si utilizzi αefficienza non inferiore = 1/2αsuperiorità (αnon inferiorità=1/2αsuperiorità). Se hai motivo di credere che l'opzione B potrebbe essere leggermente peggiore dell'opzione A, ma vuoi dimostrare che è peggiore di non più di Δ, allora sei fortunato! Ciò riduce effettivamente la dimensione del campione perché è più facile dimostrare che B è peggiore di A se pensi effettivamente che sia leggermente peggiore anziché uguale.

Esempio con soluzione

Supponiamo che tu voglia passare alla versione B, a condizione che non sia peggiore di più di 0,1 punti rispetto alla versione A su una scala di soddisfazione del cliente a 5 punti... Affrontiamo questo problema utilizzando l'ipotesi di superiorità.

Per verificare l’ipotesi di superiorità, calcoleremo la dimensione del campione come segue:

Quando dovremmo testare l’ipotesi di non inferiorità?

Cioè, se hai 2103 osservazioni nel tuo gruppo, puoi essere sicuro al 90% di trovare una dimensione dell'effetto pari a 0,10 o maggiore. Ma se 0,10 è troppo alto per te, potrebbe non valere la pena testare l’ipotesi di superiorità. Per sicurezza, potresti decidere di eseguire lo studio per una dimensione dell'effetto inferiore, ad esempio 0,05. In questo caso, avrai bisogno di 8407 osservazioni, ovvero il campione aumenterà di quasi 4 volte. Ma cosa succederebbe se rimanessimo fedeli alla dimensione del campione originale, ma aumentassimo la potenza a 0,99 in modo da essere sicuri se ottenessimo un risultato positivo? In questo caso, n per un gruppo sarà 3676, che è già migliore, ma aumenta la dimensione del campione di oltre il 50%. E di conseguenza, semplicemente non saremo ancora in grado di confutare l'ipotesi nulla e non riceveremo una risposta alla nostra domanda.

E se invece testassimo l’ipotesi di non inferiorità?

Quando dovremmo testare l’ipotesi di non inferiorità?

La dimensione del campione verrà calcolata utilizzando la stessa formula ad eccezione del denominatore.
Le differenze rispetto alla formula utilizzata per verificare l'ipotesi di superiorità sono le seguenti:

— Z1−α/2 si sostituisce con Z1−α, ma se fai tutto secondo le regole, sostituisci α = 0,05 con α = 0,025, cioè è lo stesso numero (1,96)

— (μB−μA) appare al denominatore

— θ (dimensione dell'effetto) è sostituito da Δ (margine di non inferiorità)

Se assumiamo che µB = µA, allora (μB − µA) = 0 e il calcolo della dimensione del campione per il margine di non inferiorità è esattamente quello che otterremmo se calcolassimo la superiorità per una dimensione dell'effetto di 0,1, fantastico! Possiamo fare uno studio della stessa dimensione con ipotesi diverse e un approccio diverso alle conclusioni, e otterremo la risposta alla domanda a cui vogliamo veramente rispondere.

Supponiamo ora di non pensare effettivamente che µB = µA e
Pensiamo che µB sia leggermente peggiore, forse di 0,01 unità. Ciò aumenta il nostro denominatore, riducendo la dimensione del campione per gruppo a 1737.

Cosa succede se la versione B è effettivamente migliore della versione A? Rifiutiamo l'ipotesi nulla che B sia peggiore di A di più di Δ e accettiamo l'ipotesi alternativa che B, se peggiore, non sia peggiore di A di Δ e possa essere migliore. Prova a inserire questa conclusione in una presentazione interfunzionale e guarda cosa succede (sul serio, provalo). In una situazione lungimirante, nessuno vuole accontentarsi di “nient’altro che Δ peggio e forse meglio”.

In questo caso possiamo condurre uno studio, che si chiama molto brevemente “verificare l’ipotesi che una delle opzioni sia superiore o inferiore all’altra”. Utilizza due serie di ipotesi:

Primo set (equivalente al test dell'ipotesi di non inferiorità):

Quando dovremmo testare l’ipotesi di non inferiorità?

Secondo set (come quando si verifica l'ipotesi di superiorità):

Quando dovremmo testare l’ipotesi di non inferiorità?

Verifichiamo la seconda ipotesi solo se la prima viene rifiutata. Durante i test in sequenza, manteniamo il tasso di errore complessivo di tipo I (α). In pratica, ciò può essere ottenuto creando un intervallo di confidenza del 95% per la differenza tra le medie e testando per determinare se l'intero intervallo è maggiore di -Δ. Se l'intervallo non supera -Δ, non possiamo rifiutare il valore nullo e fermarci. Se l'intero intervallo è effettivamente maggiore di −Δ, continueremo e vedremo se l'intervallo contiene 0.

Esiste un altro tipo di ricerca di cui non abbiamo parlato: gli studi di equivalenza.

Questi tipi di studi possono essere sostituiti da studi di non inferiorità e viceversa, ma in realtà presentano un’importante differenza. Una prova di non inferiorità mira a dimostrare che l'opzione B è buona almeno quanto A. Una prova di equivalenza mira a dimostrare che l'opzione B è buona almeno quanto A. L'opzione A è buona quanto B, il che è più difficile. In sostanza, stiamo cercando di determinare se l'intero intervallo di confidenza per la differenza nelle medie si trova tra −Δ e Δ. Tali studi richiedono una dimensione del campione più ampia e vengono condotti meno frequentemente. Pertanto, la prossima volta che condurrete uno studio in cui il vostro obiettivo principale è garantire che la nuova versione non sia peggiore, non accontentatevi del "mancato rifiuto dell'ipotesi nulla". Se vuoi testare un'ipotesi davvero importante, considera diverse opzioni.

Fonte: habr.com

Aggiungi un commento