Quan hem de provar la hipòtesi de no inferioritat?

Quan hem de provar la hipòtesi de no inferioritat?
Un article de l'equip de Stitch Fix suggereix utilitzar l'enfocament dels assaigs de no inferioritat a les proves A/B de màrqueting i de producte. Aquest enfocament s'aplica realment quan estem provant una solució nova que té avantatges que no es mesuren mitjançant proves.

L'exemple més senzill és la reducció de costos. Per exemple, automatitzem el procés d'assignació de la primera lliçó, però no volem reduir significativament la conversió d'extrem a extrem. O posem a prova els canvis dirigits a un segment d'usuaris, mentre ens assegurem que les conversions d'altres segments no baixin gaire (en provar diverses hipòtesis, no us oblideu de les esmenes).

La selecció del marge de no inferioritat correcte afegeix reptes addicionals durant la fase de disseny de la prova. La qüestió de com triar Δ no es tracta molt bé a l'article. Sembla que aquesta elecció tampoc és del tot transparent en els assaigs clínics. visió de conjunt les publicacions mèdiques sobre la no inferioritat informen que només la meitat de les publicacions justifiquen l'elecció del límit, i sovint aquestes justificacions són ambigües o no detallades.

En qualsevol cas, aquest enfocament sembla interessant perquè... reduint la mida de mostra necessària, pot augmentar la velocitat de la prova i, per tant, la velocitat de presa de decisions. — Daria Mukhina, analista de producte de l'aplicació mòbil Skyeng.

A l'equip de Stitch Fix li encanta provar coses diferents. A tota la comunitat tecnològica li encanta fer proves en principi. Quina versió del lloc atrau més usuaris: A o B? La versió A del model de recomanació guanya més diners que la versió B? Per provar hipòtesis, gairebé sempre utilitzem l'enfocament més senzill del curs d'estadística bàsica:

Quan hem de provar la hipòtesi de no inferioritat?

Encara que poques vegades fem servir el terme, aquesta forma de prova s'anomena "prova d'hipòtesi de superioritat". Amb aquest enfocament, suposem que no hi ha diferència entre les dues opcions. Ens quedem amb aquesta idea i només l'abandonem si les dades són prou convincents per fer-ho, és a dir, demostra que una de les opcions (A o B) és millor que l'altra.

La prova de la hipòtesi de superioritat és adequada per a una varietat de problemes. Només publiquem la versió B d'un model de recomanació si és clarament millor que la versió A que ja està en ús, però en alguns casos, aquest enfocament no funciona tan bé. Vegem-ne uns quants exemples.

1) Utilitzem un servei de tercers, que ajuda a identificar les targetes bancàries falsificades. Hem trobat un altre servei que costa molt menys. Si un servei més barat funciona igual que el que fem servir actualment, el triarem. No ha de ser millor que el servei que utilitzeu.

2) Volem abandonar la font de dades A i substituïu-lo per la font de dades B. Podríem retardar l'abandonament de A si B produeix molt mals resultats, però no és possible continuar utilitzant A.

3) Ens agradaria passar d'un enfocament de modelitzacióL'enfocament d'A a B no perquè esperem millors resultats de B, sinó perquè ens ofereix una major flexibilitat operativa. No tenim cap motiu per creure que B serà pitjor, però no farem la transició si aquest és el cas.

4) Hem fet diversos canvis qualitatius en el disseny del lloc web (versió B) i creiem que aquesta versió és superior a la versió A. No esperem canvis en la conversió ni cap dels indicadors clau de rendiment pels quals avaluem normalment un lloc web. Però creiem que hi ha avantatges en paràmetres que no són mesurables o que la nostra tecnologia no és suficient per mesurar.

En tots aquests casos, la recerca de superioritat no és la solució més adequada. Però la majoria dels especialistes en aquestes situacions l'utilitzen per defecte. Realitzem l'experiment amb cura per determinar correctament la mida de l'efecte. Si fos cert que les versions A i B funcionen de manera molt semblant, hi ha la possibilitat que no rebutgem la hipòtesi nul·la. Concloem que A i B funcionen bàsicament igual? No! No rebutjar la hipòtesi nul·la i acceptar la hipòtesi nul·la no són el mateix.

Els càlculs de la mida de la mostra (que, per descomptat, heu fet) es fan normalment amb límits més estrictes per a l'error de tipus I (la probabilitat de no rebutjar la hipòtesi nul·la, sovint anomenada alfa) que per a l'error de tipus II (la probabilitat de no rebutjar la hipòtesi nul·la, donada la condició que la hipòtesi nul·la sigui falsa, sovint anomenada beta). El valor típic per alfa és 0,05, mentre que el valor típic per a beta és 0,20, que correspon a una potència estadística de 0,80. Això vol dir que hi ha un 20% de possibilitats que ens perdem l'efecte real de la quantitat que hem especificat en els nostres càlculs de potència, i això és un buit d'informació força greu. Com a exemple, considerem les hipòtesis següents:

Quan hem de provar la hipòtesi de no inferioritat?

H0: la meva motxilla NO és a la meva habitació (3)
H1: la meva motxilla és a la meva habitació (4)

Si he buscat la meva habitació i he trobat la meva motxilla, genial, puc rebutjar la hipòtesi nul·la. Però si he mirat per l'habitació i no he trobat la meva motxilla (figura 1), quina conclusió hauria de treure? Estic segur que no hi és? He mirat prou bé? Què passa si només busqués el 80% de l'habitació? Concloure que definitivament la motxilla no és a l'habitació seria una decisió precipitada. No és estrany que no puguem "acceptar la hipòtesi nul·la".
Quan hem de provar la hipòtesi de no inferioritat?
La zona que hem buscat
No hem trobat la motxilla, hem d'acceptar la hipòtesi nul·la?

Figura 1: cercar el 80% d'una habitació és aproximadament el mateix que cercar al 80% de potència. Si no trobeu la motxilla després de mirar el 80% de l'habitació, podeu concloure que no hi és?

Aleshores, què hauria de fer un científic de dades en aquesta situació? Podeu augmentar molt el poder de l'estudi, però llavors necessitareu una mida de mostra molt més gran i el resultat encara no serà satisfactori.

Afortunadament, aquests problemes s'han estudiat durant molt de temps en el món de la investigació clínica. El fàrmac B és més barat que el fàrmac A; S'espera que el fàrmac B provoqui menys efectes secundaris que el fàrmac A; el fàrmac B és més fàcil de transportar perquè no cal refrigerar-lo, però el fàrmac A sí. Comprovem la hipòtesi de no inferioritat. Això vol mostrar que la versió B és tan bona com la versió A, almenys dins d'un marge de no inferioritat predefinit, Δ. Parlarem més sobre com establir aquest límit una mica més endavant. Però, de moment, suposem que aquesta és la diferència més petita que és pràcticament significativa (en el context dels assaigs clínics, això se sol anomenar importància clínica).

Les hipòtesis de no inferioritat fan girar tot el cap:

Quan hem de provar la hipòtesi de no inferioritat?

Ara, en lloc d'assumir que no hi ha cap diferència, assumirem que la versió B és pitjor que la versió A, i ens mantindrem amb aquesta hipòtesi fins que demostrem que no és així. Aquest és exactament el moment en què té sentit utilitzar la prova d'hipòtesis unilateral! A la pràctica, això es pot fer construint un interval de confiança i determinant si l'interval és realment major que Δ (figura 2).
Quan hem de provar la hipòtesi de no inferioritat?

Seleccioneu Δ

Com triar el Δ correcte? El procés de selecció Δ inclou la justificació estadística i l'avaluació substantiva. Al món de la investigació clínica, hi ha directrius reguladores que dicten que delta hauria de representar la diferència clínicament significativa més petita, una que marcarà la diferència a la pràctica. Aquí teniu una cita de les directrius europees per posar-vos a prova: “Si la diferència s'ha escollit correctament, un interval de confiança que es troba completament entre –∆ i 0... encara és suficient per demostrar la no inferioritat. Si aquest resultat no sembla acceptable, vol dir que ∆ no s'ha seleccionat adequadament".

Definitivament, el delta no hauria de superar la mida de l'efecte de la versió A en relació amb el veritable control (placebo/sense tractament), ja que això ens porta a dir que la versió B és pitjor que el veritable control, alhora que demostra "no inferioritat". .” Suposem que quan es va introduir la versió A, es va substituir per la versió 0 o la característica no existia en absolut (vegeu la figura 3).

A partir dels resultats de la prova de la hipòtesi de superioritat, es va revelar la mida de l'efecte E (és a dir, presumiblement μ^A−μ^0=E). Ara A és el nostre nou estàndard, i volem assegurar-nos que B és tan bo com A. Una altra manera d'escriure μB−μA≤−Δ (hipòtesi nul·la) és μB≤μA−Δ. Si suposem que do és igual o superior a E, aleshores μB ≤ μA−E ≤ placebo. Ara veiem que la nostra estimació de μB supera completament μA−E, la qual cosa rebutja completament la hipòtesi nul·la i ens permet concloure que B és tan bo com A, però al mateix temps μB pot ser ≤ μ placebo, que no és el cas, què necessitem. (Figura 3).

Quan hem de provar la hipòtesi de no inferioritat?
Figura 3. Demostració dels riscos de triar un marge de no inferioritat. Si el tall és massa alt, es pot concloure que B no és inferior a A, però al mateix temps no es pot distingir del placebo. No canviarem un medicament que sigui clarament més eficaç que el placebo (A) per un medicament que sigui tan eficaç com el placebo.

Elecció de α

Passem a escollir α. Podeu utilitzar el valor estàndard α = 0,05, però això no és del tot just. Com, per exemple, quan compreu alguna cosa en línia i utilitzeu diversos codis de descompte alhora, encara que no s'haurien de combinar, el desenvolupador s'ha equivocat i us n'heu sortit. Segons les regles, el valor d'α hauria de ser igual a la meitat del valor d'α que s'utilitza quan es prova la hipòtesi de superioritat, és a dir, 0,05 / 2 = 0,025.

Grandària de la mostra

Com estimar la mida de la mostra? Si creieu que la veritable diferència mitjana entre A i B és 0, el càlcul de la mida de la mostra és el mateix que quan es prova la hipòtesi de superioritat, excepte que substituïu la mida de l'efecte pel marge de no inferioritat, sempre que utilitzeu αeficiència no inferior = 1/2αsuperioritat (αno-inferioritat=1/2αsuperioritat). Si teniu raons per creure que l'opció B pot ser una mica pitjor que l'opció A, però voleu demostrar que no és pitjor que Δ, aleshores esteu de sort! En realitat, això redueix la mida de la mostra perquè és més fàcil demostrar que B és pitjor que A si realment penseu que és una mica pitjor que no pas igual.

Exemple amb solució

Suposem que voleu actualitzar a la versió B, sempre que no sigui més de 0,1 punts pitjor que la versió A en una escala de satisfacció del client de 5 punts... Abordem aquest problema utilitzant la hipòtesi de superioritat.

Per comprovar la hipòtesi de superioritat, calcularíem la mida de la mostra de la següent manera:

Quan hem de provar la hipòtesi de no inferioritat?

És a dir, si tens 2103 observacions al teu grup, pots estar un 90% segur que trobaràs una mida de l'efecte de 0,10 o més. Però si 0,10 és massa alt per a tu, potser no val la pena provar la hipòtesi de superioritat. Per estar segur, podeu decidir executar l'estudi per a una mida d'efecte més petita, com ara 0,05. En aquest cas, necessitareu 8407 observacions, és a dir, la mostra augmentarà gairebé 4 vegades. Però, què passaria si ens atenguéssim a la nostra mida de mostra original, però augmentem la potència a 0,99 de manera que estaríem segurs si aconseguim un resultat positiu? En aquest cas, n per a un grup serà 3676, que ja és millor, però augmenta la mida de la mostra en més d'un 50%. I com a resultat, encara no podrem refutar la hipòtesi nul·la i no rebrem resposta a la nostra pregunta.

Què passaria si, en canvi, poguéssim provar la hipòtesi de no inferioritat?

Quan hem de provar la hipòtesi de no inferioritat?

La mida de la mostra es calcularà amb la mateixa fórmula excepte pel denominador.
Les diferències amb la fórmula utilitzada per provar la hipòtesi de superioritat són les següents:

— Z1−α/2 es substitueix per Z1−α, però si ho feu tot segons les regles, substituïu α = 0,05 per α = 0,025, és a dir, és el mateix nombre (1,96)

— (μB−μA) apareix al denominador

— θ (mida de l'efecte) es substitueix per Δ (marge de no inferioritat)

Si suposem que µB = µA, aleshores (µB − µA) = 0 i el càlcul de la mida de la mostra per al marge de no inferioritat és exactament el que obtindríem si calculéssim la superioritat per a una mida d'efecte de 0,1, genial! Podem fer un estudi de la mateixa mida amb diferents hipòtesis i un enfocament diferent de les conclusions, i obtindrem la resposta a la pregunta que realment volem respondre.

Ara suposem que en realitat no pensem que µB = µA i
Creiem que µB és una mica pitjor, potser en 0,01 unitats. Això augmenta el nostre denominador, reduint la mida de la mostra per grup a 1737.

Què passa si la versió B és realment millor que la versió A? Rebutgem la hipòtesi nul·la que B és pitjor que A per més de Δ i acceptem la hipòtesi alternativa que B, si és pitjor, no és pitjor que A per Δ i pot ser millor. Intenta posar aquesta conclusió en una presentació multifuncional i mira què passa (de debò, prova-ho). En una situació de futur, ningú vol conformar-se amb "no més que Δ pitjor i potser millor".

En aquest cas, podem fer un estudi, que s'anomena molt breument “provar la hipòtesi que una de les opcions és superior o inferior a l'altra”. Utilitza dos conjunts d'hipòtesis:

Primer conjunt (igual que provar la hipòtesi de no inferioritat):

Quan hem de provar la hipòtesi de no inferioritat?

Segon conjunt (igual que quan es prova la hipòtesi de superioritat):

Quan hem de provar la hipòtesi de no inferioritat?

Comprovem la segona hipòtesi només si es rebutja la primera. Quan fem proves de manera seqüencial, mantenim la taxa d'error general de tipus I (α). A la pràctica, això es pot aconseguir creant un interval de confiança del 95% per a la diferència entre les mitjanes i provant per determinar si tot l'interval és més gran que -Δ. Si l'interval no supera -Δ, no podem rebutjar el valor nul i aturar-nos. Si tot l'interval és realment més gran que −Δ, continuarem i veurem si l'interval conté 0.

Hi ha un altre tipus d'investigació que no hem comentat: els estudis d'equivalència.

Aquest tipus d'estudis es poden substituir per estudis de no inferioritat i viceversa, però en realitat tenen una diferència important. Un assaig de no inferioritat té com a objectiu demostrar que l'opció B és almenys tan bona com A. Una prova d'equivalència pretén demostrar que l'opció B és almenys tan bona com A. L'opció A és tan bona com B, que és més difícil. Essencialment, estem intentant determinar si tot l'interval de confiança per a la diferència de mitjanes es troba entre −Δ i Δ. Aquests estudis requereixen una mida de mostra més gran i es realitzen amb menys freqüència. Així que la propera vegada que realitzeu un estudi en què el vostre objectiu principal sigui assegurar-vos que la nova versió no sigui pitjor, no us conformeu amb el "no rebutjar la hipòtesi nul·la". Si voleu provar una hipòtesi realment important, considereu diferents opcions.

Font: www.habr.com

Afegeix comentari