Cando debemos probar a hipótese de non inferioridade?

Cando debemos probar a hipótese de non inferioridade?
Un artigo do equipo de Stitch Fix suxire usar o enfoque de probas de non inferioridade nas probas A/B de mercadotecnia e produtos. Este enfoque realmente aplícase cando estamos probando unha solución nova que ten beneficios que non se miden mediante probas.

O exemplo máis sinxelo é a redución de custos. Por exemplo, automatizamos o proceso de asignación da primeira lección, pero non queremos reducir significativamente a conversión de extremo a extremo. Ou probamos os cambios dirixidos a un segmento de usuarios, ao tempo que nos aseguramos de que as conversións doutros segmentos non baixen moito (ao probar varias hipóteses, non se esqueza das modificacións).

A selección da marxe de non inferioridade correcta engade retos adicionais durante a fase de deseño da proba. A cuestión de como escoller Δ non está moi ben tratada no artigo. Parece que esta elección tampouco é totalmente transparente nos ensaios clínicos. Comentar as publicacións médicas sobre a non inferioridade indican que só a metade das publicacións xustifican a elección do límite, e moitas veces estas xustificacións son ambiguas ou non se detallan.

En calquera caso, este enfoque parece interesante porque... reducindo o tamaño da mostra necesario, pode aumentar a velocidade das probas e, polo tanto, a velocidade da toma de decisións. — Daria Mukhina, analista de produtos para a aplicación móbil Skyeng.

O equipo de Stitch Fix encántalle probar cousas diferentes. A toda a comunidade tecnolóxica encántalle realizar probas en principio. Que versión do sitio atrae máis usuarios: A ou B? A versión A do modelo de recomendación gaña máis diñeiro que a versión B? Para probar hipóteses, case sempre usamos o enfoque máis sinxelo do curso de estatística básica:

Cando debemos probar a hipótese de non inferioridade?

Aínda que raramente usamos o termo, esta forma de proba chámase "proba de hipótese de superioridade". Con este enfoque, asumimos que non hai diferenza entre as dúas opcións. Quedamos con esta idea e só abandonala se os datos son o suficientemente convincentes para facelo, é dicir, demostra que unha das opcións (A ou B) é mellor que a outra.

A proba da hipótese de superioridade é adecuada para unha variedade de problemas. Só publicamos a versión B dun modelo de recomendación se é claramente mellor que a versión A que xa está en uso. Pero nalgúns casos, este enfoque non funciona tan ben. Vexamos algúns exemplos.

1) Utilizamos un servizo de terceiros, que axuda a identificar tarxetas bancarias falsificadas. Atopamos outro servizo que custa moito menos. Se un servizo máis barato funciona ben como o que utilizamos actualmente, escollerémolo. Non ten que ser mellor que o servizo que estás a usar.

2) Queremos abandonar a fonte de datos A e substituílo pola fonte de datos B. Poderíamos atrasar o abandono de A se B produce moi malos resultados, pero non é posible seguir usando A.

3) Gustaríanos pasar dun enfoque de modelizaciónO enfoque de A a B non porque esperemos mellores resultados de B, senón porque nos proporciona unha maior flexibilidade operativa. Non temos motivos para crer que B vai ser peor, pero non faremos a transición se é así.

4) Fixemos varios cambios cualitativos no deseño do sitio web (versión B) e cremos que esta versión é superior á versión A. Non esperamos cambios na conversión nin ningún dos indicadores clave de rendemento polos que adoitamos avaliar un sitio web. Pero cremos que hai beneficios en parámetros que non son medibles ou que a nosa tecnoloxía non é suficiente para medir.

En todos estes casos, a investigación da superioridade non é a solución máis axeitada. Pero a maioría dos especialistas en tales situacións úsano por defecto. Realizamos coidadosamente o experimento para determinar correctamente o tamaño do efecto. Se fose certo que as versións A e B funcionan de xeito moi semellante, existe a posibilidade de que non rexeitemos a hipótese nula. Concluímos que A e B funcionan basicamente o mesmo? Non! Non rexeitar a hipótese nula e aceptar a hipótese nula non son o mesmo.

Os cálculos do tamaño da mostra (que, por suposto, fixeches) adoitan facerse con límites máis estritos para o erro de tipo I (a probabilidade de non rexeitar a hipótese nula, a miúdo chamada alfa) que para o erro de tipo II (a probabilidade de non rexeitar a hipótese nula). a hipótese nula, dada a condición de que a hipótese nula é falsa, a miúdo chamada beta). O valor típico para alfa é 0,05, mentres que o valor típico para beta é 0,20, o que corresponde a unha potencia estatística de 0,80. Isto significa que hai un 20 % de posibilidades de que perdamos o verdadeiro efecto da cantidade que especificamos nos nosos cálculos de potencia, e iso é unha brecha bastante grave na información. Como exemplo, consideremos as seguintes hipóteses:

Cando debemos probar a hipótese de non inferioridade?

H0: a miña mochila NON está no meu cuarto (3)
H1: a miña mochila está no meu cuarto (4)

Se busquei o meu cuarto e atopei a miña mochila, xenial, podo rexeitar a hipótese nula. Pero se mirei pola sala e non atopei a miña mochila (Figura 1), que conclusión debería sacar? Estou seguro de que non está alí? Mirei o suficiente? E se só buscase no 80 % da sala? Concluír que a mochila definitivamente non está na sala sería unha decisión precipitada. Non é de estrañar que non poidamos "aceptar a hipótese nula".
Cando debemos probar a hipótese de non inferioridade?
A zona que buscamos
Non atopamos a mochila, debemos aceptar a hipótese nula?

Figura 1: buscar o 80 % dunha sala é aproximadamente o mesmo que buscar ao 80 % de potencia. Se non atopas a mochila despois de mirar o 80% da habitación, podes concluír que non está?

Entón, que debería facer un científico de datos nesta situación? Pode aumentar moito o poder do estudo, pero entón necesitará un tamaño de mostra moito maior e o resultado aínda non será satisfactorio.

Afortunadamente, este tipo de problemas foron estudados durante moito tempo no mundo da investigación clínica. A droga B é máis barata que a droga A; Espérase que o fármaco B cause menos efectos secundarios que o fármaco A; o fármaco B é máis fácil de transportar porque non necesita ser refrixerado, pero o fármaco A si. Probamos a hipótese da non inferioridade. Isto é para mostrar que a versión B é tan boa como a versión A, polo menos dentro dunha marxe de non inferioridade predefinida, Δ. Falaremos máis sobre como establecer este límite un pouco máis tarde. Pero, polo de agora, supoñamos que esta é a menor diferenza que é practicamente significativa (no contexto dos ensaios clínicos, isto adoita chamarse importancia clínica).

As hipóteses de non inferioridade danlle todo á cabeza:

Cando debemos probar a hipótese de non inferioridade?

Agora, en lugar de asumir que non hai diferenza, asumiremos que a versión B é peor que a versión A, e seguiremos con esta suposición ata que demostremos que non é así. Este é exactamente o momento no que ten sentido usar probas de hipótese unilateral! Na práctica, isto pódese facer construíndo un intervalo de confianza e determinando se o intervalo é realmente maior que Δ (Figura 2).
Cando debemos probar a hipótese de non inferioridade?

Seleccione Δ

Como elixir o Δ correcto? O proceso de selección Δ inclúe a xustificación estatística e a avaliación substantiva. No mundo da investigación clínica, hai directrices reguladoras que ditan que o delta debe representar a menor diferenza clínicamente significativa, a que marcará a diferenza na práctica. Aquí tes unha cita das directrices europeas para probarte: “Se a diferenza foi escollida correctamente, un intervalo de confianza que se sitúa enteiramente entre –∆ e 0… aínda é suficiente para demostrar a non inferioridade. Se este resultado non parece aceptable, significa que ∆ non se seleccionou adecuadamente".

O delta definitivamente non debería exceder o tamaño do efecto da versión A en relación ao verdadeiro control (placebo/sen tratamento), xa que isto lévanos a dicir que a versión B é peor que o verdadeiro control, mentres que ao mesmo tempo demostra a "non inferioridade". ”. Supoñamos que cando se introduciu a versión A, foi substituída pola versión 0 ou a función non existía en absoluto (consulte a Figura 3).

En base aos resultados da proba da hipótese de superioridade, revelouse o tamaño do efecto E (é dicir, presuntamente μ^A−μ^0=E). Agora A é o noso novo estándar, e queremos asegurarnos de que B é tan bo como A. Outra forma de escribir μB−μA≤−Δ (hipótese nula) é μB≤μA−Δ. Se asumimos que do é igual ou maior que E, entón μB ≤ μA−E ≤ placebo. Agora vemos que a nosa estimación para μB supera completamente μA−E, o que rexeita completamente a hipótese nula e permítenos concluír que B é tan bo como A, pero ao mesmo tempo μB pode ser ≤ μ placebo, que non é o caso.que necesitamos. (Figura 3).

Cando debemos probar a hipótese de non inferioridade?
Figura 3. Demostración dos riscos da elección dunha marxe de non inferioridade. Se o límite é demasiado alto, pódese concluír que B non é inferior a A, pero ao mesmo tempo non se distingue do placebo. Non cambiaremos un fármaco que sexa claramente máis eficaz que o placebo (A) por un fármaco que sexa tan eficaz como o placebo.

Elección de α

Pasemos a elixir α. Podes usar o valor estándar α = 0,05, pero isto non é totalmente xusto. Como, por exemplo, cando compras algo en liña e usas varios códigos de desconto á vez, aínda que non deberían combinarse: o desenvolvedor cometeu un erro e saíches con el. Segundo as regras, o valor de α debe ser igual á metade do valor de α que se usa ao probar a hipótese de superioridade, é dicir, 0,05 / 2 = 0,025.

Tamaño da mostra

Como estimar o tamaño da mostra? Se cres que a verdadeira diferenza de media entre A e B é 0, entón o cálculo do tamaño da mostra é o mesmo que cando se proba a hipótese de superioridade, excepto que substitúe o tamaño do efecto pola marxe de non inferioridade, sempre que use αeficiencia non inferior = 1/2αsuperioridade (αnon inferioridade=1/2αsuperioridade). Se tes razóns para crer que a opción B pode ser lixeiramente peor que a opción A, pero queres demostrar que é peor en non máis de Δ, entón estás de sorte! Isto realmente reduce o tamaño da mostra porque é máis fácil demostrar que B é peor que A se realmente pensas que é un pouco peor en lugar de igual.

Exemplo con solución

Digamos que quere actualizar á versión B, sempre que non sexa máis de 0,1 puntos peor que a versión A nunha escala de satisfacción do cliente de 5 puntos... Abordemos este problema utilizando a hipótese da superioridade.

Para probar a hipótese de superioridade, calcularíamos o tamaño da mostra do seguinte xeito:

Cando debemos probar a hipótese de non inferioridade?

É dicir, se tes 2103 observacións no teu grupo, podes estar seguro nun 90% de que atoparás un tamaño do efecto de 0,10 ou máis. Pero se 0,10 é demasiado alto para ti, quizais non valga a pena probar a hipótese de superioridade. Para estar seguro, podes decidir realizar o estudo para un tamaño de efecto menor, como 0,05. Neste caso, necesitarás 8407 observacións, é dicir, a mostra aumentará case 4 veces. Pero e se nos atemos ao noso tamaño de mostra orixinal, pero aumentamos a potencia a 0,99 para estar seguros se obtivemos un resultado positivo? Neste caso, n para un grupo será 3676, o que xa é mellor, pero aumenta o tamaño da mostra en máis dun 50%. E, como resultado, aínda simplemente non poderemos refutar a hipótese nula e non recibiremos resposta á nosa pregunta.

E se probamos a hipótese de non inferioridade?

Cando debemos probar a hipótese de non inferioridade?

O tamaño da mostra calcularase mediante a mesma fórmula excepto o denominador.
As diferenzas coa fórmula utilizada para probar a hipótese de superioridade son as seguintes:

— Z1−α/2 substitúese por Z1−α, pero se fai todo segundo as regras, substitúese α = 0,05 por α = 0,025, é dicir, é o mesmo número (1,96)

— (μB−μA) aparece no denominador

— θ (tamaño do efecto) substitúese por Δ (marxe de non inferioridade)

Se asumimos que µB = µA, entón (µB − µA) = 0 e o cálculo do tamaño da mostra para a marxe de non inferioridade é exactamente o que obteriamos se calculamos a superioridade para un tamaño de efecto de 0,1, xenial! Podemos facer un estudo do mesmo tamaño con hipóteses diferentes e un enfoque diferente das conclusións, e obteremos a resposta á pregunta que realmente queremos responder.

Supoñamos que realmente non pensamos que µB = µA e
Pensamos que µB é un pouco peor, quizais en 0,01 unidades. Isto aumenta o noso denominador, reducindo o tamaño da mostra por grupo a 1737.

Que pasa se a versión B é realmente mellor que a versión A? Rexeitamos a hipótese nula de que B é peor que A en máis de Δ e aceptamos a hipótese alternativa de que B, se é peor, non é peor que A por Δ e pode ser mellor. Proba a poñer esta conclusión nunha presentación multifuncional e mira que pasa (en serio, proba). Nunha situación de futuro, ninguén quere conformarse con "non máis que Δ peor e quizais mellor".

Neste caso, podemos realizar un estudo, que se denomina moi brevemente "probar a hipótese de que unha das opcións é superior ou inferior á outra". Utiliza dous conxuntos de hipóteses:

Primeiro conxunto (o mesmo que probar a hipótese de non inferioridade):

Cando debemos probar a hipótese de non inferioridade?

Segundo conxunto (igual que cando se proba a hipótese de superioridade):

Cando debemos probar a hipótese de non inferioridade?

Comprobamos a segunda hipótese só se a primeira é rexeitada. Ao realizar probas secuencialmente, mantemos a taxa de erro de tipo I global (α). Na práctica, isto pódese conseguir creando un intervalo de confianza do 95% para a diferenza entre as medias e probando para determinar se todo o intervalo é maior que -Δ. Se o intervalo non supera -Δ, non podemos rexeitar o valor nulo e parar. Se todo o intervalo é realmente maior que −Δ, continuaremos e veremos se o intervalo contén 0.

Hai outro tipo de investigación que non comentamos: os estudos de equivalencia.

Estes tipos de estudos pódense substituír por estudos de non inferioridade e viceversa, pero en realidade teñen unha diferenza importante. Un ensaio de non inferioridade ten como obxectivo demostrar que a opción B é polo menos tan boa como A. Un ensaio de equivalencia pretende demostrar que a opción B é polo menos tan boa como A. A opción A é tan boa como B, que é máis difícil. Esencialmente, estamos tentando determinar se todo o intervalo de confianza para a diferenza de medias está entre −Δ e Δ. Estes estudos requiren un tamaño de mostra maior e realízanse con menos frecuencia. Así que a próxima vez que realice un estudo no que o seu principal obxectivo sexa asegurarse de que a nova versión non sexa peor, non se conforme con "non rexeitar a hipótese nula". Se queres probar unha hipótese realmente importante, considera diferentes opcións.

Fonte: www.habr.com

Engadir un comentario