Quand faut-il tester l’hypothèse de non-infériorité ?

Quand faut-il tester l’hypothèse de non-infériorité ?
Un article de l'équipe Stitch Fix suggère d'utiliser l'approche des essais de non-infériorité dans les tests marketing et A/B de produits. Cette approche s'applique réellement lorsque nous testons une nouvelle solution présentant des avantages qui ne sont pas mesurés par des tests.

L’exemple le plus simple est la réduction des coûts. Par exemple, nous automatisons le processus d’attribution de la première leçon, mais nous ne voulons pas réduire considérablement la conversion de bout en bout. Soit nous testons les modifications qui s'adressent à un segment d'utilisateurs, tout en veillant à ce que les conversions pour les autres segments ne baissent pas beaucoup (lorsque vous testez plusieurs hypothèses, n'oubliez pas les modifications).

La sélection de la marge de non-infériorité correcte ajoute des défis supplémentaires lors de la phase de conception des tests. La question de savoir comment choisir Δ n’est pas très bien abordée dans l’article. Il semble que ce choix ne soit pas non plus totalement transparent dans les essais cliniques. vue d'ensemble les publications médicales sur la non-infériorité rapportent que seulement la moitié des publications justifient le choix de la limite, et souvent ces justifications sont ambiguës ou peu détaillées.

En tout cas, cette approche semble intéressante car... en réduisant la taille de l’échantillon requise, cela peut augmenter la vitesse des tests et, par conséquent, la vitesse de la prise de décision. — Daria Mukhina, analyste produit pour l'application mobile Skyeng.

L'équipe Stitch Fix adore tester différentes choses. En principe, l’ensemble de la communauté technologique aime exécuter des tests. Quelle version du site attire le plus d’utilisateurs – A ou B ? La version A du modèle de recommandation rapporte-t-elle plus d’argent que la version B ? Pour tester des hypothèses, nous utilisons presque toujours l’approche la plus simple du cours de statistiques de base :

Quand faut-il tester l’hypothèse de non-infériorité ?

Bien que nous utilisions rarement ce terme, cette forme de test est appelée « test d’hypothèse de supériorité ». Avec cette approche, nous supposons qu’il n’y a aucune différence entre les deux options. Nous nous en tenons à cette idée et ne l’abandonnons que si les données sont suffisamment convaincantes pour le faire, c’est-à-dire qu’elles démontrent que l’une des options (A ou B) est meilleure que l’autre.

Tester l’hypothèse de supériorité convient à une variété de problèmes. Nous ne publions la version B d’un modèle de recommandation que si elle est nettement meilleure que la version A déjà utilisée. Mais dans certains cas, cette approche ne fonctionne pas aussi bien. Regardons quelques exemples.

1) Nous utilisons un service tiers, qui permet d'identifier les cartes bancaires contrefaites. Nous avons trouvé un autre service qui coûte beaucoup moins cher. Si un service moins cher fonctionne aussi bien que celui que nous utilisons actuellement, nous le choisirons. Il n'est pas nécessaire qu'il soit meilleur que le service que vous utilisez.

2) Nous voulons abandonner la source de données A et remplacez-le par la source de données B. Nous pourrions retarder l'abandon de A si B produit de très mauvais résultats, mais il n'est pas possible de continuer à utiliser A.

3) Nous aimerions passer d’une approche de modélisationL'approche de A vers B n'est pas parce que nous attendons de meilleurs résultats de B, mais parce qu'elle nous donne une plus grande flexibilité opérationnelle. Nous n’avons aucune raison de croire que B sera pire, mais nous ne ferons pas la transition si tel est le cas.

4) Nous avons apporté plusieurs changements qualitatifs dans la conception du site Web (version B) et pensons que cette version est supérieure à la version A. Nous ne nous attendons pas à des changements dans la conversion ou dans l'un des indicateurs de performance clés par lesquels nous évaluons généralement un site Web. Mais nous pensons qu’il existe des avantages dans des paramètres qui sont soit non mesurables, soit que notre technologie ne suffit pas à mesurer.

Dans tous ces cas, la recherche de supériorité n’est pas la solution la plus adaptée. Mais la plupart des spécialistes de telles situations l'utilisent par défaut. Nous menons soigneusement l'expérience pour déterminer correctement l'ampleur de l'effet. S’il était vrai que les versions A et B fonctionnent de manière très similaire, il est possible que nous ne parvenions pas à rejeter l’hypothèse nulle. Devons-nous conclure que A et B fonctionnent fondamentalement de la même manière ? Non! Ne pas rejeter l’hypothèse nulle et accepter l’hypothèse nulle ne sont pas la même chose.

Les calculs de taille d'échantillon (que vous avez bien sûr effectués) sont généralement effectués avec des limites plus strictes pour l'erreur de type I (la probabilité de ne pas rejeter l'hypothèse nulle, souvent appelée alpha) que pour l'erreur de type II (la probabilité de ne pas rejeter l'hypothèse nulle). l'hypothèse nulle, étant donné que l'hypothèse nulle est fausse, souvent appelée bêta). La valeur typique de l'alpha est de 0,05, tandis que la valeur typique du bêta est de 0,20, ce qui correspond à une puissance statistique de 0,80. Cela signifie qu'il y a 20 % de chances que nous manquions le véritable effet de la quantité que nous avons spécifiée dans nos calculs de puissance, ce qui représente une lacune d'information assez importante. A titre d'exemple, considérons les hypothèses suivantes :

Quand faut-il tester l’hypothèse de non-infériorité ?

H0 : mon sac à dos n'est PAS dans ma chambre (3)
H1 : mon sac à dos est dans ma chambre (4)

Si je fouille ma chambre et trouve mon sac à dos, tant mieux, je peux rejeter l’hypothèse nulle. Mais si je regardais autour de moi et que je ne trouvais pas mon sac à dos (Figure 1), quelle conclusion dois-je tirer ? Suis-je sûr que ce n'est pas là ? Ai-je assez cherché ? Et si je n'avais fouillé que 80 % de la pièce ? Conclure que le sac à dos n’est définitivement pas dans la pièce serait une décision irréfléchie. Il n’est pas étonnant que nous ne puissions pas « accepter l’hypothèse nulle ».
Quand faut-il tester l’hypothèse de non-infériorité ?
La zone que nous avons recherchée
Nous n’avons pas trouvé le sac à dos – devons-nous accepter l’hypothèse nulle ?

Figure 1 : La recherche dans 80 % d'une pièce équivaut à peu près à la recherche à une puissance de 80 %. Si vous ne trouvez pas le sac à dos après avoir parcouru 80 % de la pièce, pouvez-vous en conclure qu'il n'est pas là ?

Alors, que doit faire un data scientist dans cette situation ? Vous pouvez augmenter considérablement la puissance de l’étude, mais vous aurez alors besoin d’un échantillon beaucoup plus grand et le résultat sera toujours insatisfaisant.

Heureusement, ces problèmes sont étudiés depuis longtemps dans le monde de la recherche clinique. Le médicament B est moins cher que le médicament A ; Le médicament B devrait provoquer moins d’effets secondaires que le médicament A ; le médicament B est plus facile à transporter car il n’a pas besoin d’être réfrigéré, contrairement au médicament A. Testons l'hypothèse de non-infériorité. Il s'agit de montrer que la version B est tout aussi bonne que la version A, au moins dans une certaine marge de non-infériorité prédéfinie, Δ. Nous parlerons davantage de la manière de fixer cette limite un peu plus tard. Mais pour l'instant, supposons qu'il s'agisse de la plus petite différence significative en pratique (dans le contexte des essais cliniques, cela est généralement appelé signification clinique).

Les hypothèses de non-infériorité bouleversent tout :

Quand faut-il tester l’hypothèse de non-infériorité ?

Maintenant, au lieu de supposer qu’il n’y a pas de différence, nous supposerons que la version B est pire que la version A, et nous nous en tiendrons à cette hypothèse jusqu’à ce que nous démontrions que ce n’est pas le cas. C’est exactement le moment où il est logique d’utiliser des tests d’hypothèses unilatéraux ! En pratique, cela peut être réalisé en construisant un intervalle de confiance et en déterminant si l’intervalle est réellement supérieur à Δ (Figure 2).
Quand faut-il tester l’hypothèse de non-infériorité ?

Sélectionnez Δ

Comment choisir le bon Δ ? Le processus de sélection Δ comprend une justification statistique et une évaluation approfondie. Dans le monde de la recherche clinique, il existe des directives réglementaires qui stipulent que le delta doit représenter la plus petite différence cliniquement significative, une différence qui fera une différence dans la pratique. Voici une citation des lignes directrices européennes pour vous tester : « Si la différence a été choisie correctement, un intervalle de confiance entièrement compris entre –∆ et 0… est encore suffisant pour démontrer la non-infériorité. Si ce résultat ne semble pas acceptable, cela signifie que ∆ n’a pas été sélectionné de manière appropriée.

Le delta ne doit en aucun cas dépasser la taille d’effet de la version A par rapport au vrai contrôle (placebo/pas de traitement), car cela amène à dire que la version B est pire que le vrai contrôle, tout en démontrant une « non-infériorité ». .» Supposons que lorsque la version A a été introduite, elle a été remplacée par la version 0 ou que la fonctionnalité n'existait pas du tout (voir Figure 3).

Sur la base des résultats du test de l'hypothèse de supériorité, la taille de l'effet E a été révélée (c'est-à-dire vraisemblablement μ^A−μ^0=E). Maintenant A est notre nouveau standard, et nous voulons nous assurer que B est aussi bon que A. Une autre façon d'écrire μB−μA≤−Δ (hypothèse nulle) est μB≤μA−Δ. Si nous supposons que do est égal ou supérieur à E, alors μB ≤ μA−E ≤ placebo. Nous voyons maintenant que notre estimation pour μB dépasse complètement μA−E, ce qui rejette ainsi complètement l'hypothèse nulle et nous permet de conclure que B est aussi bon que A, mais en même temps μB peut être ≤ μ placebo, ce qui n'est pas le cas, de quoi avons-nous besoin. (Figure 3).

Quand faut-il tester l’hypothèse de non-infériorité ?
Figure 3. Démonstration des risques liés au choix d'une marge de non-infériorité. Si le seuil est trop élevé, on peut conclure que B n'est pas inférieur à A, mais en même temps impossible à distinguer du placebo. Nous n’échangerons pas un médicament nettement plus efficace qu’un placebo (A) contre un médicament aussi efficace qu’un placebo.

Choix de α

Passons au choix de α. Vous pouvez utiliser la valeur standard α = 0,05, mais ce n'est pas tout à fait juste. Comme, par exemple, lorsque vous achetez quelque chose en ligne et utilisez plusieurs codes de réduction à la fois, même s'ils ne doivent pas être combinés, le développeur vient de faire une erreur et vous vous en êtes sorti. Selon les règles, la valeur de α doit être égale à la moitié de la valeur de α utilisée lors du test de l'hypothèse de supériorité, c'est-à-dire 0,05 / 2 = 0,025.

Taille de l'échantillon

Comment estimer la taille de l’échantillon ? Si vous pensez que la véritable différence moyenne entre A et B est 0, alors le calcul de la taille de l'échantillon est le même que lors du test de l'hypothèse de supériorité, sauf que vous remplacez la taille de l'effet par la marge de non-infériorité, à condition d'utiliser αefficacité non inférieure = 1/2αsupériorité (αnon-infériorité=1/2αsupériorité). Si vous avez des raisons de croire que l’option B pourrait être légèrement pire que l’option A, mais que vous voulez prouver qu’elle est pire que Δ, alors vous avez de la chance ! Cela réduit en fait la taille de votre échantillon car il est plus facile de démontrer que B est pire que A si vous pensez réellement qu'il est légèrement pire plutôt qu'égal.

Exemple avec solution

Disons que vous souhaitez passer à la version B, à condition qu'elle ne soit pas inférieure de plus de 0,1 point à la version A sur une échelle de satisfaction client de 5 points... Abordons ce problème en utilisant l'hypothèse de supériorité.

Pour tester l’hypothèse de supériorité, nous calculerions la taille de l’échantillon comme suit :

Quand faut-il tester l’hypothèse de non-infériorité ?

Autrement dit, si vous avez 2103 90 observations dans votre groupe, vous pouvez être sûr à 0,10 % que vous trouverez une taille d'effet de 0,10 ou plus. Mais si 0,05 est trop élevé pour vous, cela ne vaut peut-être pas la peine de tester l’hypothèse de supériorité. Par mesure de sécurité, vous pouvez décider de réaliser l’étude avec une taille d’effet plus petite, par exemple 8407. Dans ce cas, vous aurez besoin de 4 0,99 observations, c'est-à-dire que l'échantillon augmentera presque 3676 fois. Mais que se passerait-il si nous nous en tenions à la taille de notre échantillon d’origine, mais augmentions la puissance à 50 afin d’être en sécurité si nous obtenions un résultat positif ? Dans ce cas, n pour un groupe sera de XNUMX XNUMX, ce qui est déjà mieux, mais augmente la taille de l'échantillon de plus de XNUMX %. Et par conséquent, nous ne pourrons tout simplement pas réfuter l’hypothèse nulle et nous ne recevrons pas de réponse à notre question.

Et si nous testions plutôt l’hypothèse de non-infériorité ?

Quand faut-il tester l’hypothèse de non-infériorité ?

La taille de l'échantillon sera calculée en utilisant la même formule à l'exception du dénominateur.
Les différences par rapport à la formule utilisée pour tester l’hypothèse de supériorité sont les suivantes :

— Z1−α/2 est remplacé par Z1−α, mais si vous faites tout selon les règles, vous remplacez α = 0,05 par α = 0,025, c'est-à-dire que c'est le même nombre (1,96)

— (μB−μA) apparaît au dénominateur

— θ (taille de l'effet) est remplacé par Δ (marge de non-infériorité)

Si nous supposons que µB = µA, alors (µB − µA) = 0 et que le calcul de la taille de l'échantillon pour la marge de non-infériorité est exactement ce que nous obtiendrions si nous calculions la supériorité pour une taille d'effet de 0,1, parfait ! Nous pouvons réaliser une étude de même envergure avec des hypothèses différentes et une approche différente des conclusions, et nous obtiendrons la réponse à la question à laquelle nous voulons vraiment répondre.

Supposons maintenant que nous ne pensons pas réellement que µB = µA et
Nous pensons que µB est un peu pire, peut-être de 0,01 unité. Cela augmente notre dénominateur, réduisant la taille de l'échantillon par groupe à 1737 XNUMX.

Que se passe-t-il si la version B est réellement meilleure que la version A ? Nous rejetons l’hypothèse nulle selon laquelle B est pire que A de plus de Δ et acceptons l’hypothèse alternative selon laquelle B, s’il est pire, n’est pas pire que A de Δ et peut être meilleur. Essayez de mettre cette conclusion dans une présentation interfonctionnelle et voyez ce qui se passe (sérieusement, essayez-le). Dans une situation prospective, personne ne veut se contenter de « pas plus que Δ pire et peut-être meilleur ».

Dans ce cas, nous pouvons mener une étude, appelée très brièvement « tester l’hypothèse selon laquelle l’une des options est supérieure ou inférieure à l’autre ». Il utilise deux séries d’hypothèses :

Premier ensemble (identique au test de l'hypothèse de non-infériorité) :

Quand faut-il tester l’hypothèse de non-infériorité ?

Deuxième ensemble (identique à celui utilisé pour tester l'hypothèse de supériorité) :

Quand faut-il tester l’hypothèse de non-infériorité ?

Nous testons la deuxième hypothèse seulement si la première est rejetée. Lors des tests séquentiels, nous maintenons le taux d’erreur global de type I (α). En pratique, cela peut être réalisé en créant un intervalle de confiance de 95 % pour la différence entre les moyennes et les tests afin de déterminer si l'intervalle entier est supérieur à -Δ. Si l'intervalle ne dépasse pas -Δ, nous ne pouvons pas rejeter la valeur nulle et arrêter. Si l’intervalle entier est effectivement supérieur à −Δ, nous continuerons et verrons si l’intervalle contient 0.

Il existe un autre type de recherche dont nous n'avons pas discuté : les études d'équivalence.

Ces types d’études peuvent être remplacés par des études de non-infériorité et vice versa, mais ils présentent en réalité une différence importante. Un essai de non-infériorité vise à montrer que l’option B est au moins aussi bonne que A. Un essai d’équivalence vise à montrer que l’option B est au moins aussi bonne que A. L’option A est aussi bonne que B, ce qui est plus difficile. Essentiellement, nous essayons de déterminer si l’ensemble de l’intervalle de confiance pour la différence de moyennes se situe entre −Δ et Δ. De telles études nécessitent un échantillon plus grand et sont menées moins fréquemment. Ainsi, la prochaine fois que vous mènerez une étude dans laquelle votre objectif principal est de vous assurer que la nouvelle version n’est pas pire, ne vous contentez pas de « ne pas rejeter l’hypothèse nulle ». Si vous souhaitez tester une hypothèse vraiment importante, envisagez différentes options.

Source: habr.com

Ajouter un commentaire