När ska vi testa non-inferiority-hypotesen?

När ska vi testa non-inferiority-hypotesen?
En artikel från Stitch Fix-teamet föreslår att man använder en metod för icke-underlägsenhetsförsök i marknadsföring och produkt A/B-tester. Detta tillvägagångssätt gäller verkligen när vi testar en ny lösning som har fördelar som inte är mätbara med tester.

Det enklaste exemplet är benförlust. Låt oss till exempel automatisera processen för att tilldela den första lektionen, men vi vill inte tappa konverteringen från början till slut för mycket. Eller så testar vi förändringar som är fokuserade på ett segment av användare, samtidigt som vi ser till att konverteringar för andra segment inte sjunker mycket (när du testar flera hypoteser, glöm inte bort korrigeringarna).

Att välja rätt icke-underlägsenhetsgräns ger ytterligare utmaningar i testdesignstadiet. Frågan om hur man väljer Δ behandlas inte väl i artikeln. Det verkar som att detta val inte heller är helt transparent i kliniska prövningar. Обзор medicinska publikationer om non-inferiority-rapporter att endast hälften av publikationerna motiverar valet av gräns och ofta är dessa motiveringar tvetydiga eller inte detaljerade.

I alla fall verkar detta tillvägagångssätt intressant, som Genom att minska den erforderliga urvalsstorleken kan det öka testningshastigheten och därmed hastigheten på beslutsfattandet. — Daria Mukhina, produktanalytiker för Skyengs mobilapp.

Stitch Fix-teamet älskar att testa olika saker. Hela teknikgemenskapen gillar i princip att köra tester. Vilken version av sajten lockar fler användare - A eller B? Gör version A av rekommendationsmodellen mer pengar än version B? Nästan alltid, för att testa hypoteser, använder vi den enklaste metoden från den grundläggande statistikkursen:

När ska vi testa non-inferiority-hypotesen?

Även om vi sällan använder termen, kallas denna form av testning för att "testa hypotesen om överlägsenhet". Med detta tillvägagångssätt antar vi att det inte finns någon skillnad mellan de två alternativen. Vi håller fast vid denna idé och överger den bara om resultaten är tillräckligt övertygande för att motivera det - det vill säga det visar att det ena alternativet (A eller B) är bättre än det andra.

Överlägsenhetshypotestestning är lämplig för att lösa en mängd olika problem. Vi släpper B-versionen av Rekommenderarmodellen endast om den är klart bättre än A-versionen som redan används. Men i vissa fall fungerar detta tillvägagångssätt inte så bra. Låt oss titta på några exempel.

1) Vi använder en tredjepartstjänst, vilket hjälper till att identifiera falska bankkort. Vi hittade en annan tjänst som kostar betydligt mindre. Om en billigare tjänst fungerar lika bra som den vi använder för närvarande väljer vi den. Det behöver inte vara bättre än tjänsten du använder.

2) Vi vill ta bort datakällan A och ersätt den med datakälla B. Vi skulle kunna fördröja att överge A om B ger mycket dåliga resultat, men det är inte möjligt att fortsätta använda A.

3) Vi skulle vilja gå från ett modelleringssättA till B:s tillvägagångssätt, inte för att vi förväntar oss bättre resultat från B, utan för att det ger oss mer operativ flexibilitet. Vi har ingen anledning att tro att B kommer att bli sämre, men vi kommer inte övergå om det är det.

4) Vi har gjort några kvalitetsförändringar webbdesign (version B) och anser att denna version är överlägsen version A. Vi förväntar oss inga förändringar i omvandlingar eller någon av de nyckeltal som vi normalt mäter en webbplats mot. Men vi tror att det finns fördelar med parametrar som antingen är omätliga, eller så räcker inte våra tekniker för att mäta.

I alla dessa fall är spetsforskning inte den bästa lösningen. Men de flesta specialister i sådana situationer använder det som standard. Vi utför noggrant experimentet för att korrekt bestämma effektens storlek. Om det vore sant att version A och B fungerar på mycket liknande sätt, är chansen stor att vi inte kommer att kunna förkasta nollhypotesen. Dra vi slutsatsen att A och B i allmänhet fungerar på samma sätt? Nej! Att misslyckas med att förkasta nollhypotesen och acceptera nollhypotesen är inte samma sak.

Provstorleksberäkningar (som du naturligtvis har gjort) tenderar att ha snävare gränser för typ I-fel (sannolikheten att felaktigt förkasta nollhypotesen, ofta kallad alfa) än typ II-fel (sannolikheten att misslyckas med att förkasta noll hypotes, givet villkor att nollhypotesen är falsk, ofta kallad beta). Ett typiskt värde för alfa är 0,05 medan ett typiskt värde för beta är 0,20, vilket motsvarar en statistisk potens på 0,80. Detta innebär att vi kanske inte upptäcker den sanna effekten av värdet som vi angav i våra effektberäkningar med en sannolikhet på 20 % och detta är en ganska allvarlig informationslucka. Som ett exempel, låt oss överväga följande hypoteser:

När ska vi testa non-inferiority-hypotesen?

H0: min ryggsäck finns INTE i mitt rum (3)
H1: min ryggsäck är i mitt rum (4)

Om jag sökte igenom mitt rum och hittade min ryggsäck, bra, jag kan släppa nollhypotesen. Men om jag tittade runt i rummet och inte kunde hitta min ryggsäck (Figur 1), vilken slutsats ska jag dra? Är jag säker på att den inte finns där? Har jag letat tillräckligt noga? Tänk om jag bara sökte i 80 % av rummet? Att dra slutsatsen att det definitivt inte finns någon ryggsäck i rummet vore ett förhastat beslut. Inte konstigt att vi inte kan "acceptera nollhypotesen".
När ska vi testa non-inferiority-hypotesen?
Området vi sökte
Vi hittade inte ryggsäcken – ska vi acceptera nollhypotesen?

Figur 1. Att söka i 80 % av ett rum är ungefär detsamma som att göra en sökning med 80 % kraft. Om du inte hittade en ryggsäck efter att ha tittat runt 80 % av rummet, kan du dra slutsatsen att den inte finns där?

Så vad ska en dataforskare göra i den här situationen? Du kan öka kraften i studien avsevärt, men då kommer du att behöva en mycket större urvalsstorlek, och resultatet kommer fortfarande att vara otillfredsställande.

Lyckligtvis har sådana problem länge studerats i den kliniska forskningsvärlden. Läkemedel B är billigare än läkemedel A; läkemedel B förväntas orsaka färre biverkningar än läkemedel A; läkemedel B är lättare att transportera eftersom det inte behöver kylas, men läkemedel A gör det. Låt oss testa hypotesen om icke-underlägsenhet. Detta för att visa att version B är lika bra som version A - åtminstone inom någon förutbestämd "inte mindre effektiv" gräns, Δ. Vi kommer att prata mer om hur man ställer in denna gräns lite senare. Men för nu, låt oss anta att detta är den minsta skillnaden som är praktiskt taget signifikant (i samband med kliniska prövningar brukar detta kallas klinisk signifikans).

Hypoteser om inte mindre effektivitet vänder upp och ner på allt:

När ska vi testa non-inferiority-hypotesen?

Nu, istället för att anta att det inte finns någon skillnad, antar vi att version B är sämre än version A, och vi kommer att hålla fast vid detta antagande tills vi visar att så inte är fallet. Det är just detta när det är vettigt att använda ensidig hypotestestning! I praktiken kan detta göras genom att konstruera ett konfidensintervall och bestämma om intervallet verkligen är större än Δ (Figur 2).
När ska vi testa non-inferiority-hypotesen?

Val Δ

Hur väljer man rätt Δ? Δ-urvalsprocessen inkluderar statistisk motivering och saklig utvärdering. I den kliniska forskningsvärlden finns det normativa riktlinjer som tyder på att deltat ska vara den minsta kliniskt signifikanta skillnaden - en som kommer att ha betydelse i praktiken. Här är ett citat från den europeiska handboken att testa dig själv med: ”Om skillnaden har valts korrekt är ett konfidensintervall som ligger helt och hållet mellan –∆ och 0... fortfarande tillräckligt för att visa inte mindre effektivitet. Om detta resultat inte verkar acceptabelt betyder det att ∆ inte valdes på lämpligt sätt."

Deltat bör definitivt inte överstiga effektstorleken för version A i förhållande till den sanna kontrollen (placebo/ingen behandling), eftersom detta leder oss till slutsatsen att version B är sämre än den sanna kontrollen, samtidigt som den visar "inte mindre effekt ". Antag att när version A introducerades var version 0 på sin plats, eller så fanns funktionen inte alls (se figur 3).

Baserat på resultaten av att testa hypotesen om överlägsenhet avslöjades effektstorleken E (det vill säga förmodligen μ^A−μ^0=E). Nu är A vår nya standard, och vi vill se till att B är lika bra som A. Ett annat sätt att skriva μB−μA≤−Δ (nollhypotesen) är μB≤μA−Δ. Om vi ​​antar att göra är lika med eller större än E, så är μB ≤ μA−E ≤ placebo. Nu ser vi att vår uppskattning för μB är helt större än μA−E, vilket alltså helt motbevisar nollhypotesen och låter oss dra slutsatsen att B inte är sämre än A, men samtidigt kan μB vara ≤ μ placebo, vilket är inte vad vi behöver. (Figur 3).

När ska vi testa non-inferiority-hypotesen?
Figur 3. Demonstration av riskerna med att välja en gräns med inte mindre effektivitet. Om gränsen är för hög kan man dra slutsatsen att B inte är sämre än A, men samtidigt inte går att skilja från placebo. Vi kommer inte att ändra ett läkemedel som är klart effektivare än placebo (A) mot ett läkemedel som är lika effektivt som placebo.

Val α

Låt oss gå över till valet av α. Du kan använda standardvärdet α = 0,05, men det är inte helt rättvist. Som till exempel när du köper något på internet och använder flera rabattkoder på en gång, även om de inte ska läggas ihop - utvecklaren gjorde bara ett misstag, och du kom undan med det. Enligt reglerna måste värdet av α vara lika med halva värdet av α, vilket används för att testa hypotesen om överlägsenhet, dvs 0,05 / 2 = 0,025.

Provstorlek

Hur uppskattar man provstorleken? Om du antar att den sanna medelskillnaden mellan A och B är 0, så är beräkningen av urvalsstorleken densamma som i överlägsenhetshypotestestet, förutom att du ersätter effektstorleken med en gräns på inte mindre effektivitet, förutsatt att du använda sig av α inte mindre effektiv = 1/2 α överlägsenhet (αnon-underlägsenhet=1/2αöverlägsenhet). Om du har anledning att tro att alternativ B kan vara något sämre än alternativ A, men du vill bevisa att det inte är mer än Δ sämre, så har du tur! I själva verket minskar detta ditt urvalsstorlek eftersom det är lättare att visa att B är sämre än A om du faktiskt tycker att det är något sämre, inte lika.

Lösningsexempel

Låt oss säga att du vill uppgradera till version B, förutsatt att den inte är mer än 0,1 poäng sämre än version A på en 5-gradig kundnöjdhetsskala ... Låt oss närma oss detta problem med hjälp av överlägsenhetshypotesen.

För att testa överlägsenhetshypotesen skulle vi beräkna urvalsstorleken enligt följande:

När ska vi testa non-inferiority-hypotesen?

Det vill säga om du har 2103 observationer i en grupp kan du vara 90% säker på att du hittar en effekt på 0,10 eller mer. Men om 0,10 är för högt för dig kanske det inte är värt att testa överlägsenhetshypotesen för det. Du kanske vill vara säker på att köra studien för en mindre effektstorlek, till exempel 0,05. I det här fallet behöver du 8407 observationer, det vill säga provet kommer att öka med nästan 4 gånger. Men vad händer om vi håller oss till vår ursprungliga provstorlek men ökar styrkan till 0,99 så att vi inte tvivlar på om vi får ett positivt resultat? I det här fallet kommer n för en grupp att vara 3676, vilket redan är bättre, men ökar urvalsstorleken med mer än 50 %. Och som ett resultat kommer vi fortfarande helt enkelt inte att kunna motbevisa nollhypotesen, och vi kommer inte att få svar på vår fråga.

Tänk om vi istället testar hypotesen om inte mindre effektivitet?

När ska vi testa non-inferiority-hypotesen?

Urvalsstorleken kommer att beräknas med samma formel förutom nämnaren.
Skillnaderna från formeln som används för att testa överlägsenhetshypotesen är följande:

- Z1−α/2 ersätts av Z1−α, men om man gör allt enligt reglerna ersätter man α = 0,05 med α = 0,025, det vill säga det är samma tal (1,96)

- visas i nämnaren (μB−μA)

- θ (effektstorlek) ersätts med Δ (gräns för inte mindre effektivitet)

Om vi ​​antar att µB = µA, då (µB − µA) = 0 och att beräkna urvalsstorleken för icke-underlägsenhetsmarginalen är exakt vad vi skulle få när vi beräknar överlägsenhet för en effektstorlek på 0,1, bra! Vi kan göra en studie i samma skala med olika hypoteser och ett annat förhållningssätt till slutsatser och vi får svaret på den fråga vi verkligen vill svara på.

Anta nu att vi inte riktigt tror att µB = µA och
vi tror att µB är lite sämre, kanske med 0,01 enheter. Detta ökar vår nämnare, vilket minskar urvalsstorleken per grupp till 1737.

Vad händer om version B faktiskt är bättre än version A? Vi förkastar nollhypotesen att B är sämre än A med mer än ∆ och accepterar alternativhypotesen att B, om sämre, inte är sämre än ∆ och kan vara bättre. Försök att sätta den slutsatsen i en tvärfunktionell presentation och se vad som händer (allvarligt, prova det). I en situation där du behöver vara orienterad mot framtiden vill ingen nöja sig med "värre än Δ och möjligen bättre."

I det här fallet kan vi genomföra en studie som kallas mycket kort "att testa hypotesen att ett av alternativen är överlägset eller sämre än det andra." Den använder två uppsättningar hypoteser:

Den första uppsättningen (samma som när man testar hypotesen om inte mindre effektivitet):

När ska vi testa non-inferiority-hypotesen?

Den andra uppsättningen (samma som när man testar överlägsenhetshypotesen):

När ska vi testa non-inferiority-hypotesen?

Vi testar den andra hypotesen endast om den första förkastas. Vid sekventiell testning behåller vi den övergripande nivån av typ I-fel (α). I praktiken kan detta uppnås genom att skapa ett 95 % konfidensintervall för skillnaden mellan medelvärdena och kontrollera om hela intervallet är större än -Δ. Om intervallet inte överstiger -Δ kan vi inte förkasta nollvärdet och stoppa. Om hela intervallet verkligen är större än −Δ, kommer vi att gå vidare och se om intervallet innehåller 0.

Det finns en annan typ av forskning som vi inte har diskuterat – ekvivalensstudier.

Studier av denna typ kan ersättas av studier för att testa hypotesen om inte mindre effektivitet och vice versa, men de har själva en viktig skillnad. Ett non-inferiority-test syftar till att visa att alternativ B är minst lika bra som A. Och en likvärdighetsstudie syftar till att visa att alternativ B är minst lika bra som A, och alternativ A är lika bra som B, vilket är svårare . I huvudsak försöker vi avgöra om hela konfidensintervallet för skillnaden mellan medelvärdena ligger mellan −∆ och ∆. Sådana studier kräver större urvalsstorlekar och utförs mer sällan. Så nästa gång du gör en studie där ditt främsta bekymmer är att se till att den nya versionen är lika bra, nöj dig inte med att "misslyckas med att motbevisa nollhypotesen." Om du vill testa en riktigt viktig hypotes, överväg olika alternativ.

Källa: will.com

Lägg en kommentar