Hvornår skal vi teste noninferiority-hypotesen?

Hvornår skal vi teste noninferiority-hypotesen?
En artikel fra Stitch Fix-teamet foreslår, at man bruger metoden med non-inferiority-tests i marketing og produkt A/B-tests. Denne tilgang gælder virkelig, når vi tester en ny løsning, der har fordele, som ikke måles ved test.

Det enkleste eksempel er omkostningsreduktion. For eksempel automatiserer vi processen med at tildele den første lektion, men vi ønsker ikke at reducere ende-til-ende konvertering markant. Eller vi tester ændringer, der er rettet mod ét segment af brugere, samtidig med at vi sikrer, at konverteringer for andre segmenter ikke falder meget (når du tester flere hypoteser, så glem ikke ændringerne).

Valg af den korrekte non-inferiority margin tilføjer yderligere udfordringer under testdesignfasen. Spørgsmålet om, hvordan man vælger Δ, er ikke særlig godt dækket i artiklen. Det lader til, at dette valg heller ikke er helt gennemsigtigt i kliniske forsøg. Anmeldelse medicinske publikationer om ikke-mindreværd rapporterer, at kun halvdelen af ​​publikationerne begrunder valget af grænse, og ofte er disse begrundelser tvetydige eller ikke detaljerede.

Under alle omstændigheder virker denne tilgang interessant, fordi... ved at reducere den nødvendige stikprøvestørrelse kan det øge testhastigheden og dermed hastigheden for beslutningstagning. — Daria Mukhina, produktanalytiker for Skyeng-mobilapplikationen.

Stitch Fix-teamet elsker at teste forskellige ting. Hele teknologisamfundet elsker at køre test i princippet. Hvilken version af siden tiltrækker flere brugere - A eller B? Giver version A af anbefalingsmodellen flere penge end version B? For at teste hypoteser bruger vi næsten altid den enkleste tilgang fra det grundlæggende statistikkursus:

Hvornår skal vi teste noninferiority-hypotesen?

Selvom vi sjældent bruger udtrykket, kaldes denne form for test for "overlegenhedshypotesetestning". Med denne tilgang antager vi, at der ikke er nogen forskel mellem de to muligheder. Vi holder fast i denne idé og opgiver den kun, hvis dataene er overbevisende nok til at gøre det – det vil sige, det viser, at den ene af mulighederne (A eller B) er bedre end den anden.

Afprøvning af overlegenhedshypotesen er velegnet til en række forskellige problemer. Vi udgiver kun version B af en anbefalingsmodel, hvis den er klart bedre end version A, der allerede er i brug. Men i nogle tilfælde fungerer denne tilgang ikke så godt. Lad os se på et par eksempler.

1) Vi bruger en tredjepartstjeneste, som hjælper med at identificere falske bankkort. Vi fandt en anden service, der koster væsentligt mindre. Hvis en billigere service fungerer lige så godt som den, vi bruger i øjeblikket, vælger vi den. Det behøver ikke at være bedre end den service, du bruger.

2) Vi ønsker at opgive datakilden A og udskift den med datakilde B. Vi kan forsinke at opgive A, hvis B giver meget dårlige resultater, men det er ikke muligt at fortsætte med at bruge A.

3) Vi vil gerne gå fra en modelleringstilgangA til B's tilgang, ikke fordi vi forventer bedre resultater fra B, men fordi det giver os større operationel fleksibilitet. Vi har ingen grund til at tro, at B bliver dårligere, men vi vil ikke lave overgangen, hvis det er tilfældet.

4) Vi har lavet flere kvalitative ændringer ind i webstedsdesignet (version B) og mener, at denne version er overlegen i forhold til version A. Vi forventer ikke ændringer i konverteringen eller nogen af ​​de centrale præstationsindikatorer, som vi typisk evaluerer et websted efter. Men vi mener, at der er fordele ved parametre, som enten er umålelige, eller også er vores teknologi ikke tilstrækkelig til at måle.

I alle disse tilfælde er overlegenhedsforskning ikke den mest passende løsning. Men de fleste specialister i sådanne situationer bruger det som standard. Vi udfører omhyggeligt eksperimentet for korrekt at bestemme størrelsen af ​​effekten. Hvis det var sandt, at version A og B fungerer på meget lignende måder, er der en chance for, at vi ikke ville forkaste nulhypotesen. Konkluderer vi, at A og B stort set præsterer det samme? Ingen! Undladelse af at forkaste nulhypotesen og accept af nulhypotesen er ikke det samme.

Prøvestørrelsesberegninger (som du selvfølgelig har gjort) udføres typisk med strengere grænser for Type I-fejl (sandsynligheden for ikke at forkaste nulhypotesen, ofte kaldet alfa) end for Type II-fejl (sandsynligheden for ikke at afvise nulhypotesen, givet betingelse om, at nulhypotesen er falsk, ofte kaldet beta). Den typiske værdi for alfa er 0,05, mens den typiske værdi for beta er 0,20, svarende til en statistisk potens på 0,80. Det betyder, at der er 20 % chance for, at vi går glip af den sande effekt af den mængde, vi har angivet i vores effektberegninger, og det er et ret alvorligt informationsgab. Lad os som et eksempel overveje følgende hypoteser:

Hvornår skal vi teste noninferiority-hypotesen?

H0: min rygsæk er IKKE på mit værelse (3)
H1: min rygsæk er på mit værelse (4)

Hvis jeg gennemsøgte mit værelse og fandt min rygsæk, fantastisk, jeg kan afvise nulhypotesen. Men hvis jeg kiggede rundt i rummet og ikke kunne finde min rygsæk (Figur 1), hvilken konklusion skulle jeg så drage? Er jeg sikker på, at den ikke er der? Så jeg godt nok efter? Hvad hvis jeg kun søgte 80 % af rummet? At konkludere, at rygsækken bestemt ikke er i rummet, ville være en overilet beslutning. Ikke underligt, at vi ikke kan "acceptere nulhypotesen."
Hvornår skal vi teste noninferiority-hypotesen?
Området vi søgte
Vi fandt ikke rygsækken – skal vi acceptere nulhypotesen?

Figur 1: At søge i 80 % af et rum er nogenlunde det samme som at søge ved 80 % effekt. Hvis du ikke finder rygsækken efter at have kigget 80 % af rummet, kan du så konkludere, at den ikke er der?

Så hvad skal en dataforsker gøre i denne situation? Du kan i høj grad øge undersøgelsens kraft, men så har du brug for en meget større stikprøvestørrelse, og resultatet vil stadig være utilfredsstillende.

Heldigvis er sådanne problemer længe blevet undersøgt i verden af ​​klinisk forskning. Lægemiddel B er billigere end lægemiddel A; Lægemiddel B forventes at forårsage færre bivirkninger end lægemiddel A; lægemiddel B er lettere at transportere, fordi det ikke skal nedkøles, men lægemiddel A gør det. Lad os teste hypotesen om ikke-mindreværd. Dette er for at vise, at version B er lige så god som version A - i det mindste inden for en foruddefineret non-inferiority margin, Δ. Vi vil tale mere om, hvordan man sætter denne grænse lidt senere. Men lad os nu antage, at dette er den mindste forskel, der er praktisk meningsfuld (i forbindelse med kliniske forsøg kaldes dette normalt for klinisk betydning).

Ikke-mindreværdshypoteser sætter alt på hovedet:

Hvornår skal vi teste noninferiority-hypotesen?

Nu, i stedet for at antage, at der ikke er nogen forskel, vil vi antage, at version B er værre end version A, og vi vil holde fast i denne antagelse, indtil vi viser, at dette ikke er tilfældet. Dette er netop det øjeblik, hvor det giver mening at bruge ensidig hypotesetestning! I praksis kan dette gøres ved at konstruere et konfidensinterval og bestemme, om intervallet faktisk er større end Δ (figur 2).
Hvornår skal vi teste noninferiority-hypotesen?

Vælg Δ

Hvordan vælger man den rigtige Δ? Δ-udvælgelsesprocessen omfatter statistisk begrundelse og indholdsmæssig evaluering. I verden af ​​klinisk forskning er der regulatoriske retningslinjer, der dikterer, at delta skal repræsentere den mindste klinisk signifikante forskel - en, der vil gøre en forskel i praksis. Her er et citat fra de europæiske retningslinjer, du kan teste dig selv med: "Hvis forskellen er valgt korrekt, er et konfidensinterval, der ligger helt mellem –∆ og 0... stadig tilstrækkeligt til at demonstrere ikke-mindreværd. Hvis dette resultat ikke virker acceptabelt, betyder det, at ∆ ikke blev valgt korrekt."

Delta'et bør absolut ikke overstige effektstørrelsen af ​​version A i forhold til den sande kontrol (placebo/ingen behandling), da dette får os til at sige, at version B er værre end den sande kontrol, samtidig med at den viser "ikke-mindreværd" ." Lad os antage, at da version A blev introduceret, blev den erstattet af version 0, eller også eksisterede funktionen slet ikke (se figur 3).

Baseret på resultaterne af testning af overlegenhedshypotesen blev effektstørrelsen E afsløret (det vil sige formentlig μ^A−μ^0=E). Nu er A vores nye standard, og vi vil sikre os, at B er lige så god som A. En anden måde at skrive μB−μA≤−Δ (nulhypotese) er μB≤μA−Δ. Hvis vi antager, at do er lig med eller større end E, så er μB ≤ μA−E ≤ placebo. Nu ser vi, at vores estimat for μB fuldstændig overstiger μA−E, hvilket derved fuldstændig forkaster nulhypotesen og giver os mulighed for at konkludere, at B er lige så god som A, men samtidig kan μB være ≤ μ placebo, hvilket ikke er sag, hvad har vi brug for. (Figur 3).

Hvornår skal vi teste noninferiority-hypotesen?
Figur 3. Demonstration af risiciene ved at vælge en noninferiority margin. Hvis cutoff er for højt, kan det konkluderes, at B er noninferior til A, men samtidig ikke kan skelnes fra placebo. Vi vil ikke bytte et lægemiddel, der er klart mere effektivt end placebo (A), med et lægemiddel, der er lige så effektivt som placebo.

Valg af α

Lad os gå videre til at vælge α. Du kan bruge standardværdien α = 0,05, men det er ikke helt fair. Som for eksempel når du køber noget online og bruger flere rabatkoder på én gang, selvom de ikke skal kombineres – udvikleren lavede bare en fejl, og du slap af sted med det. Ifølge reglerne skal værdien af ​​α være lig med halvdelen af ​​værdien af ​​α, der bruges ved test af overlegenhedshypotesen, det vil sige 0,05 / 2 = 0,025.

Prøvestørrelse

Hvordan estimerer man prøvestørrelsen? Hvis du mener, at den sande middelforskel mellem A og B er 0, så er stikprøvestørrelsesberegningen den samme som ved testning af overlegenhedshypotesen, bortset fra at du erstatter effektstørrelsen med noninferioritetsmargenen, forudsat at du bruger αnon-inferior effektivitet = 1/2αoverlegenhed (αnon-mindreværd=1/2αoverlegenhed). Hvis du har grund til at tro, at mulighed B kan være lidt værre end mulighed A, men du vil bevise, at den ikke er værre med mere end Δ, så er du heldig! Dette reducerer faktisk din stikprøvestørrelse, fordi det er nemmere at påvise, at B er værre end A, hvis du faktisk synes, det er lidt værre i stedet for lig.

Eksempel med løsning

Lad os sige, at du vil opgradere til version B, forudsat at den ikke er mere end 0,1 point dårligere end version A på en 5-punkts kundetilfredshedsskala... Lad os nærme os dette problem ved hjælp af overlegenhedshypotesen.

For at teste overlegenhedshypotesen ville vi beregne stikprøvestørrelsen som følger:

Hvornår skal vi teste noninferiority-hypotesen?

Det vil sige, at hvis du har 2103 observationer i din gruppe, kan du være 90 % sikker på, at du finder en effektstørrelse på 0,10 eller større. Men hvis 0,10 er for højt for dig, er det måske ikke værd at teste overlegenhedshypotesen for. For at være på den sikre side kan du vælge at køre undersøgelsen for en mindre effektstørrelse, såsom 0,05. I dette tilfælde skal du bruge 8407 observationer, det vil sige, at prøven vil stige næsten 4 gange. Men hvad hvis vi holdt fast i vores oprindelige stikprøvestørrelse, men øgede kraften til 0,99, så vi ville være sikre, hvis vi fik et positivt resultat? I dette tilfælde vil n for én gruppe være 3676, hvilket allerede er bedre, men øger stikprøvestørrelsen med mere end 50 %. Og som et resultat vil vi stadig simpelthen ikke være i stand til at tilbagevise nulhypotesen, og vi vil ikke modtage et svar på vores spørgsmål.

Hvad hvis vi testede noninferiority-hypotesen i stedet for?

Hvornår skal vi teste noninferiority-hypotesen?

Stikprøvestørrelsen vil blive beregnet ved hjælp af den samme formel bortset fra nævneren.
Forskellene fra formlen brugt til at teste overlegenhedshypotesen er som følger:

— Z1−α/2 erstattes af Z1−α, men hvis du gør alt efter reglerne, erstatter du α = 0,05 med α = 0,025, det vil sige, at det er det samme tal (1,96)

— (μB−μA) vises i nævneren

— θ (effektstørrelse) erstattes af Δ (margin of non-inferiority)

Hvis vi antager, at µB = µA, så er (µB − µA) = 0 og stikprøvestørrelsesberegningen for noninferiority-margenen er præcis, hvad vi ville få, hvis vi beregnede overlegenhed for en effektstørrelse på 0,1, fantastisk! Vi kan lave en undersøgelse af samme størrelse med forskellige hypoteser og en anden tilgang til konklusioner, og vi får svaret på det spørgsmål, vi egentlig gerne vil besvare.

Antag nu, at vi faktisk ikke tror, ​​at µB = µA og
Vi tror, ​​at µB er lidt værre, måske med 0,01 enheder. Dette øger vores nævner og reducerer stikprøvestørrelsen pr. gruppe til 1737.

Hvad sker der, hvis version B faktisk er bedre end version A? Vi afviser nulhypotesen om, at B er værre end A med mere end Δ og accepterer den alternative hypotese, at B, hvis det er værre, ikke er værre end A med Δ og kan være bedre. Prøv at sætte denne konklusion ind i en tværfunktionel præsentation og se, hvad der sker (seriøst, prøv det). I en fremadskuende situation er der ingen, der ønsker at nøjes med "ikke mere end Δ værre og måske bedre."

I dette tilfælde kan vi udføre en undersøgelse, som meget kort kaldes "at teste hypotesen om, at en af ​​mulighederne er overlegen eller ringere end den anden." Den bruger to sæt hypoteser:

Første sæt (samme som at teste non-inferiority-hypotesen):

Hvornår skal vi teste noninferiority-hypotesen?

Andet sæt (samme som når man tester overlegenhedshypotesen):

Hvornår skal vi teste noninferiority-hypotesen?

Vi tester kun den anden hypotese, hvis den første forkastes. Når vi tester sekventielt, fastholder vi den overordnede type I fejlrate (α). I praksis kan dette opnås ved at skabe et 95 % konfidensinterval for forskellen mellem middelværdien og testning for at bestemme, om hele intervallet er større end -Δ. Hvis intervallet ikke overstiger -Δ, kan vi ikke afvise nulværdien og stoppe. Hvis hele intervallet faktisk er større end −Δ, vil vi fortsætte og se, om intervallet indeholder 0.

Der er en anden type forskning, som vi ikke har diskuteret – ækvivalensstudier.

Disse typer undersøgelser kan erstattes af noninferiority-studier og omvendt, men de har faktisk en vigtig forskel. Et noninferiority-forsøg har til formål at vise, at mulighed B er mindst lige så god som A. Et ækvivalensforsøg har til formål at vise, at mulighed B er mindst lige så god som A. Mulighed A er lige så god som B, hvilket er sværere. I det væsentlige forsøger vi at bestemme, om hele konfidensintervallet for forskellen i middelværdier ligger mellem −Δ og Δ. Sådanne undersøgelser kræver en større stikprøvestørrelse og udføres sjældnere. Så næste gang du udfører en undersøgelse, hvor dit hovedmål er at sikre, at den nye version ikke er værre, skal du ikke nøjes med "manglende afvisning af nulhypotesen." Hvis du vil teste en virkelig vigtig hypotese, så overvej forskellige muligheder.

Kilde: www.habr.com

Tilføj en kommentar