¿Cuándo deberíamos probar la hipótesis de no inferioridad?

¿Cuándo deberíamos probar la hipótesis de no inferioridad?
Un artículo del equipo de Stitch Fix sugiere utilizar el enfoque de pruebas de no inferioridad en las pruebas A/B de productos y marketing. Este enfoque realmente se aplica cuando probamos una nueva solución que tiene beneficios que no se miden mediante pruebas.

El ejemplo más simple es la reducción de costos. Por ejemplo, automatizamos el proceso de asignación de la primera lección, pero no queremos reducir significativamente la conversión de un extremo a otro. O probamos cambios que están dirigidos a un segmento de usuarios, mientras nos aseguramos de que las conversiones para otros segmentos no caigan mucho (al probar varias hipótesis, no se olvide de las modificaciones).

Seleccionar el margen de no inferioridad correcto agrega desafíos adicionales durante la fase de diseño de la prueba. La cuestión de cómo elegir Δ no se trata muy bien en el artículo. Parece que esta elección tampoco es del todo transparente en los ensayos clínicos. Descripción Las publicaciones médicas sobre la no inferioridad informan que sólo la mitad de las publicaciones justifican la elección del límite y, a menudo, estas justificaciones son ambiguas o no detalladas.

En cualquier caso, este enfoque parece interesante porque... al reducir el tamaño de muestra requerido, se puede aumentar la velocidad de las pruebas y, por lo tanto, la velocidad de la toma de decisiones. — Daria Mukhina, analista de producto de la aplicación móvil Skyeng.

Al equipo de Stitch Fix le encanta probar cosas diferentes. En principio, a toda la comunidad tecnológica le encanta realizar pruebas. ¿Qué versión del sitio atrae a más usuarios: la A o la B? ¿La versión A del modelo de recomendación genera más dinero que la versión B? Para probar hipótesis, casi siempre utilizamos el enfoque más simple del curso de estadística básica:

¿Cuándo deberíamos probar la hipótesis de no inferioridad?

Aunque rara vez usamos el término, esta forma de prueba se llama "prueba de hipótesis de superioridad". Con este enfoque, asumimos que no hay diferencia entre las dos opciones. Nos atenemos a esta idea y sólo la abandonamos si los datos son lo suficientemente convincentes para hacerlo, es decir, demuestran que una de las opciones (A o B) es mejor que la otra.

Probar la hipótesis de superioridad es adecuado para una variedad de problemas. Sólo publicamos la versión B de un modelo de recomendación si es claramente mejor que la versión A que ya está en uso, pero en algunos casos este enfoque no funciona tan bien. Veamos algunos ejemplos.

1) Utilizamos un servicio de terceros, que ayuda a identificar tarjetas bancarias falsificadas. Encontramos otro servicio que cuesta significativamente menos. Si un servicio más barato funciona tan bien como el que utilizamos actualmente, lo elegiremos. No tiene por qué ser mejor que el servicio que estás utilizando.

2) Queremos abandonar la fuente de datos. A y reemplazarlo con la fuente de datos B. Podríamos retrasar el abandono de A si B produce muy malos resultados, pero no es posible continuar usando A.

3) Nos gustaría pasar de un enfoque de modelizaciónEl enfoque de A hacia B no porque esperemos mejores resultados de B, sino porque nos da una mayor flexibilidad operativa. No tenemos motivos para creer que B será peor, pero no haremos la transición si ese es el caso.

4) Hemos realizado varios cambios cualitativos. en el diseño del sitio web (versión B) y creemos que esta versión es superior a la versión A. No esperamos cambios en la conversión ni en ninguno de los indicadores clave de rendimiento mediante los cuales normalmente evaluamos un sitio web. Pero creemos que hay beneficios en parámetros que o no son mensurables o nuestra tecnología no es suficiente para medir.

En todos estos casos, la investigación de superioridad no es la solución más adecuada. Pero la mayoría de los especialistas en tales situaciones lo utilizan de forma predeterminada. Realizamos el experimento con cuidado para determinar correctamente el tamaño del efecto. Si fuera cierto que las versiones A y B funcionan de manera muy similar, existe la posibilidad de que no rechacemos la hipótesis nula. ¿Concluimos que A y B funcionan básicamente igual? ¡No! No rechazar la hipótesis nula y aceptarla no son lo mismo.

Los cálculos del tamaño de la muestra (que, por supuesto, usted ya ha hecho) generalmente se realizan con límites más estrictos para el error de Tipo I (la probabilidad de no rechazar la hipótesis nula, a menudo llamada alfa) que para el error de Tipo II (la probabilidad de no rechazar la hipótesis nula, a menudo llamada alfa). la hipótesis nula, dada la condición de que la hipótesis nula sea falsa, a menudo llamada beta). El valor típico de alfa es 0,05, mientras que el valor típico de beta es 0,20, lo que corresponde a una potencia estadística de 0,80. Esto significa que hay un 20% de posibilidades de que pasemos por alto el verdadero efecto de la cantidad que hemos especificado en nuestros cálculos de potencia, y esa es una brecha de información bastante grave. Como ejemplo, consideremos las siguientes hipótesis:

¿Cuándo deberíamos probar la hipótesis de no inferioridad?

H0: mi mochila NO está en mi habitación (3)
H1: mi mochila está en mi habitación (4)

Si busqué en mi habitación y encontré mi mochila, genial, puedo rechazar la hipótesis nula. Pero si miré alrededor de la habitación y no pude encontrar mi mochila (Figura 1), ¿a qué conclusión debería llegar? ¿Estoy seguro de que no está allí? ¿Miré lo suficiente? ¿Qué pasa si solo busqué en el 80% de la habitación? Concluir que la mochila definitivamente no está en la habitación sería una decisión precipitada. No es de extrañar que no podamos "aceptar la hipótesis nula".
¿Cuándo deberíamos probar la hipótesis de no inferioridad?
La zona que buscamos.
No encontramos la mochila. ¿Deberíamos aceptar la hipótesis nula?

Figura 1: Buscar en el 80 % de una habitación es aproximadamente lo mismo que buscar al 80 % de potencia. Si no encuentras la mochila después de revisar el 80% de la habitación, ¿puedes concluir que no está allí?

Entonces, ¿qué debería hacer un científico de datos en esta situación? Puede aumentar considerablemente el poder del estudio, pero entonces necesitará un tamaño de muestra mucho mayor y el resultado seguirá siendo insatisfactorio.

Afortunadamente, estos problemas se han estudiado desde hace mucho tiempo en el mundo de la investigación clínica. El fármaco B es más barato que el fármaco A; Se espera que el fármaco B cause menos efectos secundarios que el fármaco A; El fármaco B es más fácil de transportar porque no necesita refrigeración, pero el fármaco A sí. Probemos la hipótesis de no inferioridad. Esto es para demostrar que la versión B es tan buena como la versión A, al menos dentro de un margen de no inferioridad predefinido, Δ. Hablaremos más sobre cómo establecer este límite un poco más adelante. Pero por ahora supongamos que esta es la diferencia más pequeña que es prácticamente significativa (en el contexto de los ensayos clínicos, esto generalmente se llama importancia clínica).

Las hipótesis de no inferioridad ponen todo patas arriba:

¿Cuándo deberíamos probar la hipótesis de no inferioridad?

Ahora, en lugar de suponer que no hay diferencia, asumiremos que la versión B es peor que la versión A, y mantendremos esta suposición hasta que demostremos que no es así. ¡Este es exactamente el momento en el que tiene sentido utilizar pruebas de hipótesis unilaterales! En la práctica, esto se puede hacer construyendo un intervalo de confianza y determinando si el intervalo es realmente mayor que Δ (Figura 2).
¿Cuándo deberíamos probar la hipótesis de no inferioridad?

Seleccione Δ

¿Cómo elegir el Δ correcto? El proceso de selección Δ incluye justificación estadística y evaluación sustantiva. En el mundo de la investigación clínica, existen pautas regulatorias que dictan que delta debe representar la diferencia clínicamente significativa más pequeña, una que marcará una diferencia en la práctica. He aquí una cita de las directrices europeas para ponerse a prueba: “Si la diferencia se ha elegido correctamente, un intervalo de confianza que se encuentre completamente entre –∆ y 0… sigue siendo suficiente para demostrar la no inferioridad. Si este resultado no parece aceptable, significa que ∆ no se seleccionó adecuadamente”.

El delta definitivamente no debe exceder el tamaño del efecto de la versión A en relación con el control verdadero (placebo/sin tratamiento), ya que esto nos lleva a decir que la versión B es peor que el control verdadero, mientras que al mismo tiempo demuestra “no inferioridad”. .” Supongamos que cuando se introdujo la versión A, fue reemplazada por la versión 0 o la característica no existía en absoluto (consulte la Figura 3).

Según los resultados de probar la hipótesis de superioridad, se reveló el tamaño del efecto E (es decir, presumiblemente μ^A−μ^0=E). Ahora A es nuestro nuevo estándar y queremos asegurarnos de que B sea tan bueno como A. Otra forma de escribir μB−μA≤−Δ (hipótesis nula) es μB≤μA−Δ. Si suponemos que do es igual o mayor que E, entonces μB ≤ μA−E ≤ placebo. Ahora vemos que nuestra estimación de μB excede completamente a μA-E, lo que rechaza por completo la hipótesis nula y nos permite concluir que B es tan bueno como A, pero al mismo tiempo μB puede ser ≤ μ placebo, que no es el caso ¿Qué necesitamos? (Figura 3).

¿Cuándo deberíamos probar la hipótesis de no inferioridad?
Figura 3. Demostración de los riesgos de elegir un margen de no inferioridad. Si el punto de corte es demasiado alto, se puede concluir que B no es inferior a A, pero al mismo tiempo es indistinguible del placebo. No cambiaremos un fármaco que es claramente más eficaz que el placebo (A) por un fármaco que sea tan eficaz como el placebo.

Elección de α

Pasemos a elegir α. Puede utilizar el valor estándar α = 0,05, pero esto no es del todo justo. Como, por ejemplo, cuando compras algo en línea y usas varios códigos de descuento a la vez, aunque no deben combinarse: el desarrollador simplemente cometió un error y te saliste con la tuya. Según las reglas, el valor de α debe ser igual a la mitad del valor de α que se utiliza al probar la hipótesis de superioridad, es decir, 0,05/2 = 0,025.

Tamaño de la muestra

¿Cómo estimar el tamaño de la muestra? Si cree que la verdadera diferencia de medias entre A y B es 0, entonces el cálculo del tamaño de la muestra es el mismo que cuando se prueba la hipótesis de superioridad, excepto que reemplaza el tamaño del efecto con el margen de no inferioridad, siempre que use αeficiencia no inferior = 1/2αsuperioridad (αno inferioridad=1/2αsuperioridad). Si tienes motivos para creer que la opción B podría ser ligeramente peor que la opción A, pero quieres demostrar que es peor en no más de Δ, ¡estás de suerte! En realidad, esto reduce el tamaño de su muestra porque es más fácil demostrar que B es peor que A si realmente piensa que es ligeramente peor en lugar de igual.

Ejemplo con solución

Digamos que desea actualizar a la versión B, siempre que no sea más de 0,1 puntos peor que la versión A en una escala de satisfacción del cliente de 5 puntos... Abordemos este problema utilizando la hipótesis de superioridad.

Para probar la hipótesis de superioridad, calcularíamos el tamaño de la muestra de la siguiente manera:

¿Cuándo deberíamos probar la hipótesis de no inferioridad?

Es decir, si tiene 2103 observaciones en su grupo, puede tener un 90% de confianza en que encontrará un tamaño del efecto de 0,10 o mayor. Pero si 0,10 es demasiado alto para usted, puede que no valga la pena probar la hipótesis de superioridad. Para estar seguro, puede decidir realizar el estudio con un tamaño de efecto más pequeño, como 0,05. En este caso, necesitarás 8407 observaciones, es decir, la muestra aumentará casi 4 veces. Pero, ¿qué pasaría si nos atenemos a nuestro tamaño de muestra original, pero aumentamos la potencia a 0,99 para estar seguros si obtenemos un resultado positivo? En este caso, n para un grupo será 3676, lo que ya es mejor, pero aumenta el tamaño de la muestra en más del 50%. Y como resultado, simplemente no podremos refutar la hipótesis nula y no recibiremos una respuesta a nuestra pregunta.

¿Qué pasaría si en lugar de eso probáramos la hipótesis de no inferioridad?

¿Cuándo deberíamos probar la hipótesis de no inferioridad?

El tamaño de la muestra se calculará utilizando la misma fórmula excepto el denominador.
Las diferencias con la fórmula utilizada para probar la hipótesis de superioridad son las siguientes:

— Z1−α/2 se reemplaza por Z1−α, pero si haces todo según las reglas, reemplazas α = 0,05 por α = 0,025, es decir, es el mismo número (1,96)

— (μB−μA) aparece en el denominador

— θ (tamaño del efecto) se sustituye por Δ (margen de no inferioridad)

Si asumimos que µB = µA, entonces (µB − µA) = 0 y el cálculo del tamaño de la muestra para el margen de no inferioridad es exactamente lo que obtendríamos si calculáramos la superioridad para un tamaño del efecto de 0,1, ¡genial! Podemos hacer un estudio del mismo tamaño con diferentes hipótesis y un enfoque diferente a las conclusiones, y obtendremos la respuesta a la pregunta que realmente queremos responder.

Ahora supongamos que en realidad no pensamos que µB = µA y
Creemos que µB es un poco peor, tal vez en 0,01 unidades. Esto aumenta nuestro denominador, reduciendo el tamaño de la muestra por grupo a 1737.

¿Qué sucede si la versión B es realmente mejor que la versión A? Rechazamos la hipótesis nula de que B es peor que A en más de Δ y aceptamos la hipótesis alternativa de que B, si es peor, no es peor que A en Δ y puede ser mejor. Intente poner esta conclusión en una presentación multifuncional y vea qué sucede (en serio, pruébelo). En una situación de futuro, nadie quiere conformarse con “no más que Δ peor y tal vez mejor”.

En este caso, podemos realizar un estudio, que se llama muy brevemente "probar la hipótesis de que una de las opciones es superior o inferior a la otra". Utiliza dos conjuntos de hipótesis:

Primer conjunto (igual que probar la hipótesis de no inferioridad):

¿Cuándo deberíamos probar la hipótesis de no inferioridad?

Segundo conjunto (igual que cuando se prueba la hipótesis de superioridad):

¿Cuándo deberíamos probar la hipótesis de no inferioridad?

Probamos la segunda hipótesis sólo si se rechaza la primera. Al realizar pruebas secuenciales, mantenemos la tasa de error general de Tipo I (α). En la práctica, esto se puede lograr creando un intervalo de confianza del 95% para la diferencia entre las medias y probando para determinar si todo el intervalo es mayor que -Δ. Si el intervalo no excede -Δ, no podemos rechazar el valor nulo y detenernos. Si todo el intervalo es realmente mayor que −Δ, continuaremos y veremos si el intervalo contiene 0.

Hay otro tipo de investigación del que no hemos hablado: los estudios de equivalencia.

Este tipo de estudios pueden ser sustituidos por estudios de no inferioridad y viceversa, pero en realidad tienen una diferencia importante. Un ensayo de no inferioridad pretende demostrar que la opción B es al menos tan buena como la A. Un ensayo de equivalencia pretende demostrar que la opción B es al menos tan buena como la A. La opción A es tan buena como la B, lo cual es más difícil. Básicamente, estamos tratando de determinar si todo el intervalo de confianza para la diferencia de medias se encuentra entre −Δ y Δ. Estos estudios requieren un tamaño de muestra mayor y se realizan con menos frecuencia. Así que la próxima vez que realice un estudio cuyo objetivo principal sea garantizar que la nueva versión no sea peor, no se conforme con "no rechazar la hipótesis nula". Si desea probar una hipótesis realmente importante, considere diferentes opciones.

Fuente: habr.com

Añadir un comentario