Wanneer moeten we de non-inferioriteitshypothese testen?

Wanneer moeten we de non-inferioriteitshypothese testen?
Een artikel van het Stitch Fix-team suggereert het gebruik van de non-inferioriteitsproefbenadering in marketing- en product-A/B-tests. Deze aanpak is echt van toepassing wanneer we een nieuwe oplossing testen die voordelen heeft die niet door tests worden gemeten.

Het eenvoudigste voorbeeld is kostenreductie. We automatiseren bijvoorbeeld het proces van het toewijzen van de eerste les, maar we willen de end-to-end-conversie niet significant verminderen. Of we testen wijzigingen die op één gebruikerssegment zijn gericht, terwijl we ervoor zorgen dat de conversies voor andere segmenten niet veel dalen (vergeet de wijzigingen niet als u meerdere hypothesen test).

Het selecteren van de juiste non-inferioriteitsmarge zorgt voor extra uitdagingen tijdens de testontwerpfase. De vraag hoe je Δ moet kiezen, wordt in het artikel niet erg goed behandeld. Het lijkt erop dat deze keuze ook in klinische onderzoeken niet geheel transparant is. Recensie medische publicaties over non-inferioriteit melden dat slechts de helft van de publicaties de keuze van de grens rechtvaardigt, en vaak zijn deze rechtvaardigingen dubbelzinnig of niet gedetailleerd.

Deze aanpak lijkt in ieder geval interessant omdat... door de vereiste steekproefomvang te verkleinen, kan de snelheid van het testen worden verhoogd, en dus ook de snelheid van de besluitvorming. — Daria Mukhina, productanalist voor de mobiele applicatie Skyeng.

Het team van Stitch Fix houdt ervan om verschillende dingen te testen. De hele technologiegemeenschap houdt er in principe van om tests uit te voeren. Welke versie van de site trekt meer gebruikers: A of B? Verdient versie A van het aanbevelingsmodel meer geld dan versie B? Om hypothesen te testen gebruiken we vrijwel altijd de eenvoudigste aanpak uit de basiscursus statistiek:

Wanneer moeten we de non-inferioriteitshypothese testen?

Hoewel we de term zelden gebruiken, wordt deze vorm van testen ‘testen van superioriteitshypothesen’ genoemd. Bij deze aanpak gaan we ervan uit dat er geen verschil is tussen de twee opties. We blijven bij dit idee en laten het alleen varen als de gegevens daartoe overtuigend genoeg zijn – dat wil zeggen als ze aantonen dat een van de opties (A of B) beter is dan de andere.

Het testen van de superioriteitshypothese is geschikt voor een verscheidenheid aan problemen. Wij brengen versie B van een aanbevelingsmodel alleen uit als deze duidelijk beter is dan de reeds in gebruik zijnde versie A. Maar in sommige gevallen werkt deze aanpak niet zo goed. Laten we een paar voorbeelden bekijken.

1) Wij maken gebruik van een dienst van derden, waarmee valse bankkaarten kunnen worden geïdentificeerd. We hebben een andere dienst gevonden die aanzienlijk minder kost. Als een goedkopere dienst net zo goed werkt als degene die we momenteel gebruiken, zullen we daarvoor kiezen. Het hoeft niet beter te zijn dan de service die u gebruikt.

2) We willen de gegevensbron verlaten A en deze vervangen door gegevensbron B. We kunnen het verlaten van A uitstellen als B zeer slechte resultaten oplevert, maar het is niet mogelijk om A te blijven gebruiken.

3) We willen graag overstappen van een modelbenaderingDe aanpak van A naar B is niet omdat we betere resultaten van B verwachten, maar omdat het ons een grotere operationele flexibiliteit geeft. We hebben geen reden om aan te nemen dat B slechter zal zijn, maar we zullen de transitie niet maken als dit het geval is.

4) We hebben verschillende kwalitatieve wijzigingen aangebracht in het website-ontwerp (versie B) en zijn van mening dat deze versie superieur is aan versie A. We verwachten geen veranderingen in de conversie of in een van de belangrijkste prestatie-indicatoren waarmee we een website doorgaans evalueren. Maar wij zijn van mening dat er voordelen zitten in parameters die óf onmeetbaar zijn, óf onze technologie is niet voldoende om te meten.

In al deze gevallen is superioriteitsonderzoek niet de meest geschikte oplossing. Maar de meeste specialisten in dergelijke situaties gebruiken het standaard. We voeren het experiment zorgvuldig uit om de grootte van het effect correct te bepalen. Als het waar zou zijn dat versies A en B op zeer vergelijkbare manieren werken, bestaat de kans dat we de nulhypothese niet kunnen verwerpen. Concluderen we dat A en B in principe hetzelfde presteren? Nee! Het niet verwerpen van de nulhypothese en het aanvaarden van de nulhypothese zijn niet hetzelfde.

Berekeningen van de steekproefomvang (wat u uiteraard heeft gedaan) worden doorgaans uitgevoerd met striktere grenzen voor type I-fouten (de waarschijnlijkheid dat u de nulhypothese niet verwerpt, vaak alfa genoemd) dan voor type II-fouten (de waarschijnlijkheid dat u de nulhypothese niet verwerpt). de nulhypothese, op voorwaarde dat de nulhypothese onwaar is, vaak bèta genoemd). De typische waarde voor alfa is 0,05, terwijl de typische waarde voor bèta 0,20 is, wat overeenkomt met een statistische kracht van 0,80. Dit betekent dat er een kans van 20% is dat we het werkelijke effect zullen missen van de grootheid die we hebben gespecificeerd in onze machtsberekeningen, en dat is een vrij ernstige leemte in de informatie. Laten we als voorbeeld de volgende hypothesen bekijken:

Wanneer moeten we de non-inferioriteitshypothese testen?

H0: mijn rugzak staat NIET in mijn kamer (3)
H1: mijn rugzak staat in mijn kamer (4)

Als ik mijn kamer doorzocht en mijn rugzak vond, geweldig, dan kan ik de nulhypothese verwerpen. Maar als ik de kamer rondkeek en mijn rugzak niet kon vinden (Figuur 1), welke conclusie zou ik dan moeten trekken? Weet ik zeker dat het er niet is? Heb ik goed genoeg gekeken? Wat moet ik doen als ik slechts 80% van de kamer doorzoek? Concluderen dat de rugzak absoluut niet in de kamer staat, zou een overhaaste beslissing zijn. Geen wonder dat we ‘de nulhypothese’ niet kunnen aanvaarden.
Wanneer moeten we de non-inferioriteitshypothese testen?
Het gebied waar we hebben gezocht
We hebben de rugzak niet gevonden. Moeten we de nulhypothese accepteren?

Figuur 1: 80% van een kamer doorzoeken is ongeveer hetzelfde als zoeken op 80% vermogen. Als je de rugzak na 80% van de kamer niet hebt gevonden, kun je dan concluderen dat hij er niet is?

Dus wat moet een datawetenschapper in deze situatie doen? Je kunt de power van het onderzoek enorm vergroten, maar dan heb je een veel grotere steekproefomvang nodig en is het resultaat nog steeds onbevredigend.

Gelukkig worden dergelijke problemen al lang bestudeerd in de wereld van klinisch onderzoek. Geneesmiddel B is goedkoper dan medicijn A; Er wordt verwacht dat geneesmiddel B minder bijwerkingen veroorzaakt dan geneesmiddel A; Geneesmiddel B is gemakkelijker te vervoeren omdat het niet gekoeld hoeft te worden, maar geneesmiddel A wel. Laten we de hypothese van non-inferioriteit testen. Dit is om aan te tonen dat versie B net zo goed is als versie A – tenminste binnen een vooraf gedefinieerde non-inferioriteitsmarge, Δ. We zullen later meer vertellen over hoe u deze limiet kunt instellen. Maar laten we voorlopig aannemen dat dit het kleinste verschil is dat praktisch betekenisvol is (in de context van klinische onderzoeken wordt dit gewoonlijk klinische significantie genoemd).

Niet-inferioriteitshypotheses zetten alles op zijn kop:

Wanneer moeten we de non-inferioriteitshypothese testen?

In plaats van aan te nemen dat er geen verschil is, gaan we ervan uit dat versie B slechter is dan versie A, en we zullen bij deze veronderstelling blijven totdat we aantonen dat dit niet het geval is. Dit is precies het moment waarop het zinvol is om eenzijdige hypothesetoetsen toe te passen! In de praktijk kan dit worden gedaan door een betrouwbaarheidsinterval te construeren en te bepalen of het interval daadwerkelijk groter is dan Δ (Figuur 2).
Wanneer moeten we de non-inferioriteitshypothese testen?

Selecteer Δ

Hoe kies je de juiste Δ? Het Δ-selectieproces omvat statistische verantwoording en inhoudelijke evaluatie. In de wereld van het klinisch onderzoek zijn er regelgevende richtlijnen die voorschrijven dat delta het kleinste klinisch significante verschil moet vertegenwoordigen – een verschil dat in de praktijk een verschil zal maken. Hier is een citaat uit de Europese richtlijnen om jezelf mee te testen: “Als het verschil correct is gekozen, is een betrouwbaarheidsinterval dat geheel tussen –∆ en 0… ligt nog steeds voldoende om non-inferioriteit aan te tonen. Als dit resultaat niet acceptabel lijkt, betekent dit dat ∆ niet goed is geselecteerd.”

De delta mag zeker niet groter zijn dan de effectgrootte van versie A ten opzichte van de echte controle (placebo/geen behandeling), aangezien dit ons ertoe brengt te zeggen dat versie B slechter is dan de echte controle, terwijl ze tegelijkertijd “non-inferioriteit” aantoont. .” Laten we aannemen dat toen versie A werd geïntroduceerd, deze werd vervangen door versie 0 of dat de functie helemaal niet bestond (zie figuur 3).

Op basis van de resultaten van het testen van de superioriteitshypothese werd de effectgrootte E onthuld (dat wil zeggen vermoedelijk μ^A−μ^0=E). Nu is A onze nieuwe standaard, en we willen er zeker van zijn dat B net zo goed is als A. Een andere manier om μB−μA≤−Δ (nulhypothese) te schrijven is μB≤μA−Δ. Als we aannemen dat do gelijk is aan of groter is dan E, dan is μB ≤ μA−E ≤ placebo. Nu zien we dat onze schatting voor μB volledig groter is dan μA−E, wat daarmee de nulhypothese volledig verwerpt en ons in staat stelt te concluderen dat B net zo goed is als A, maar tegelijkertijd kan μB ≤ μ placebo zijn, wat niet de geval, wat hebben we nodig? (Figuur 3).

Wanneer moeten we de non-inferioriteitshypothese testen?
Figuur 3. Demonstratie van de risico's van het kiezen van een non-inferioriteitsmarge. Als de grenswaarde te hoog is, kan worden geconcludeerd dat B niet-inferieur is aan A, maar tegelijkertijd niet te onderscheiden is van placebo. Een medicijn dat duidelijk effectiever is dan placebo (A) ruilen we niet in voor een medicijn dat even effectief is als placebo.

Keuze uit α

Laten we verder gaan met het kiezen van α. Je kunt de standaardwaarde α = 0,05 gebruiken, maar dit is niet helemaal eerlijk. Bijvoorbeeld wanneer je iets op internet koopt en meerdere kortingscodes tegelijk gebruikt, hoewel ze niet mogen worden gecombineerd: de ontwikkelaar heeft gewoon een fout gemaakt en jij bent ermee weggekomen. Volgens de regels moet de waarde van α gelijk zijn aan de helft van de waarde van α die wordt gebruikt bij het testen van de superioriteitshypothese, dat wil zeggen 0,05 / 2 = 0,025.

Steekproefgrootte

Hoe de steekproefomvang schatten? Als u denkt dat het werkelijke gemiddelde verschil tussen A en B 0 is, dan is de berekening van de steekproefomvang hetzelfde als bij het testen van de superioriteitshypothese, behalve dat u de effectgrootte vervangt door de non-inferioriteitsmarge, op voorwaarde dat u gebruik maakt van αniet-inferieure efficiëntie = 1/2αsuperioriteit (αnon-inferioriteit=1/2αsuperioriteit). Als je reden hebt om aan te nemen dat optie B misschien iets slechter is dan optie A, maar je wilt bewijzen dat het slechter is met niet meer dan Δ, dan heb je geluk! Dit verkleint feitelijk uw steekproefomvang, omdat het gemakkelijker is om aan te tonen dat B slechter is dan A als u daadwerkelijk denkt dat het iets slechter is in plaats van gelijk.

Voorbeeld met oplossing

Stel dat u wilt upgraden naar versie B, op voorwaarde dat deze niet meer dan 0,1 punt slechter is dan versie A op een klanttevredenheidsschaal van 5 punten... Laten we dit probleem benaderen met behulp van de superioriteitshypothese.

Om de superioriteitshypothese te testen, zouden we de steekproefomvang als volgt berekenen:

Wanneer moeten we de non-inferioriteitshypothese testen?

Dat wil zeggen: als u 2103 waarnemingen in uw groep heeft, kunt u er 90% zeker van zijn dat u een effectgrootte van 0,10 of groter zult vinden. Maar als 0,10 te hoog voor u is, is het misschien niet de moeite waard om de superioriteitshypothese te testen. Voor de zekerheid kunt u besluiten het onderzoek uit te voeren op een kleinere effectgrootte, bijvoorbeeld 0,05. In dit geval heeft u 8407 waarnemingen nodig, dat wil zeggen dat de steekproef bijna vier keer zal toenemen. Maar wat als we vasthielden aan onze oorspronkelijke steekproefomvang, maar de power zouden vergroten tot 4, zodat we veilig zouden zijn als we een positief resultaat zouden krijgen? In dit geval zal n voor één groep 0,99 zijn, wat al beter is, maar de steekproefomvang met meer dan 3676% vergroot. En als gevolg daarvan zullen we de nulhypothese nog steeds eenvoudigweg niet kunnen weerleggen en zullen we geen antwoord op onze vraag krijgen.

Wat als we in plaats daarvan de non-inferioriteitshypothese zouden testen?

Wanneer moeten we de non-inferioriteitshypothese testen?

De steekproefomvang wordt berekend met dezelfde formule, behalve de noemer.
De verschillen met de formule die wordt gebruikt om de superioriteitshypothese te testen zijn als volgt:

— Z1−α/2 wordt vervangen door Z1−α, maar als je alles volgens de regels doet, vervang je α = 0,05 door α = 0,025, dat wil zeggen: het is hetzelfde getal (1,96)

— (μB−μA) verschijnt in de noemer

— θ (effectgrootte) wordt vervangen door Δ (marge van niet-inferioriteit)

Als we aannemen dat µB = µA, dan is (µB − µA) = 0 en is de berekening van de steekproefomvang voor de non-inferioriteitsmarge precies wat we zouden krijgen als we de superioriteit zouden berekenen voor een effectgrootte van 0,1, geweldig! We kunnen een onderzoek van dezelfde omvang doen met verschillende hypothesen en een andere benadering van conclusies, en we zullen het antwoord krijgen op de vraag die we echt willen beantwoorden.

Stel nu dat we eigenlijk niet denken dat µB = µA en
Wij denken dat µB iets slechter is, misschien met 0,01 eenheden. Dit vergroot onze noemer, waardoor de steekproefomvang per groep afneemt tot 1737.

Wat gebeurt er als versie B daadwerkelijk beter is dan versie A? We verwerpen de nulhypothese dat B meer dan Δ slechter is dan A en aanvaarden de alternatieve hypothese dat B, indien slechter, niet slechter is dan A met Δ en mogelijk beter is. Probeer deze conclusie in een cross-functionele presentatie te verwerken en kijk wat er gebeurt (serieus, probeer het eens). In een toekomstgerichte situatie wil niemand genoegen nemen met ‘niet meer dan Δ slechter en misschien beter’.

In dit geval kunnen we een onderzoek uitvoeren, dat heel kortweg ‘het testen van de hypothese dat een van de opties superieur of inferieur is aan de andere’ uitvoert. Het maakt gebruik van twee sets hypothesen:

Eerste set (hetzelfde als het testen van de niet-inferioriteitshypothese):

Wanneer moeten we de non-inferioriteitshypothese testen?

Tweede set (hetzelfde als bij het testen van de superioriteitshypothese):

Wanneer moeten we de non-inferioriteitshypothese testen?

We testen de tweede hypothese alleen als de eerste wordt verworpen. Bij sequentieel testen handhaven we het algemene Type I-foutenpercentage (α). In de praktijk kan dit worden bereikt door een betrouwbaarheidsinterval van 95% te creëren voor het verschil tussen de gemiddelden en door te testen of het gehele interval groter is dan -Δ. Als het interval -Δ niet overschrijdt, kunnen we de nulwaarde niet verwerpen en stoppen. Als het hele interval inderdaad groter is dan −Δ, gaan we verder en kijken of het interval 0 bevat.

Er is nog een ander type onderzoek dat we niet hebben besproken: equivalentiestudies.

Dit soort onderzoeken kunnen worden vervangen door non-inferioriteitsonderzoeken en omgekeerd, maar ze hebben feitelijk een belangrijk verschil. Een non-inferioriteitsonderzoek heeft tot doel aan te tonen dat optie B minstens zo goed is als A. Een gelijkwaardigheidsonderzoek heeft tot doel aan te tonen dat optie B minstens zo goed is als A. Optie A is net zo goed als B, wat moeilijker is. In wezen proberen we vast te stellen of het gehele betrouwbaarheidsinterval voor het verschil in gemiddelden tussen −Δ en Δ ligt. Dergelijke onderzoeken vereisen een grotere steekproefomvang en worden minder vaak uitgevoerd. Dus de volgende keer dat u een onderzoek uitvoert waarbij uw hoofddoel is ervoor te zorgen dat de nieuwe versie niet slechter is, neem dan geen genoegen met 'het niet verwerpen van de nulhypothese'. Als je een heel belangrijke hypothese wilt testen, overweeg dan verschillende opties.

Bron: www.habr.com

Voeg een reactie