Når skal vi teste non-inferiority-hypotesen?

Når skal vi teste non-inferiority-hypotesen?
En artikkel fra Stitch Fix-teamet foreslår å bruke tilnærmingen til ikke-mindreverdighetsprøver i markedsføring og produkt A/B-tester. Denne tilnærmingen gjelder virkelig når vi tester en ny løsning som har fordeler som ikke måles av tester.

Det enkleste eksemplet er kostnadsreduksjon. For eksempel automatiserer vi prosessen med å tildele den første leksjonen, men vi ønsker ikke å redusere ende-til-ende-konvertering betydelig. Eller vi tester endringer som er rettet mot ett segment av brukere, samtidig som vi sørger for at konverteringer for andre segmenter ikke faller mye (når du tester flere hypoteser, ikke glem endringene).

Å velge riktig ikke-mindreverdighetsmargin gir ytterligere utfordringer under testdesignfasen. Spørsmålet om hvordan du velger Δ er ikke særlig godt dekket i artikkelen. Det ser ut til at dette valget heller ikke er helt gjennomsiktig i kliniske studier. Gjennomgå medisinske publikasjoner om mindreverdighet rapporterer at bare halvparten av publikasjonene rettferdiggjør valg av grense, og ofte er disse begrunnelsene tvetydige eller ikke detaljerte.

I alle fall virker denne tilnærmingen interessant fordi... ved å redusere den nødvendige prøvestørrelsen, kan det øke hastigheten på testingen, og dermed hastigheten på beslutningsprosessen. — Daria Mukhina, produktanalytiker for Skyeng-mobilapplikasjonen.

Stitch Fix-teamet elsker å teste forskjellige ting. Hele teknologimiljøet elsker å kjøre tester i prinsippet. Hvilken versjon av nettstedet tiltrekker seg flere brukere - A eller B? Gir versjon A av anbefalingsmodellen mer penger enn versjon B? For å teste hypoteser bruker vi nesten alltid den enkleste tilnærmingen fra det grunnleggende statistikkkurset:

Når skal vi teste non-inferiority-hypotesen?

Selv om vi sjelden bruker begrepet, kalles denne formen for testing «overlegenhetshypotesetesting». Med denne tilnærmingen antar vi at det ikke er noen forskjell mellom de to alternativene. Vi holder fast ved denne ideen og forlater den bare hvis dataene er overbevisende nok til å gjøre det – det vil si at det viser at ett av alternativene (A eller B) er bedre enn det andre.

Å teste overlegenhetshypotesen er egnet for en rekke problemer. Vi slipper kun versjon B av en anbefalingsmodell hvis den er klart bedre enn versjon A som allerede er i bruk. Men i noen tilfeller fungerer ikke denne tilnærmingen så bra. La oss se på noen få eksempler.

1) Vi bruker en tredjepartstjeneste, som hjelper til med å identifisere falske bankkort. Vi fant en annen tjeneste som koster betydelig mindre. Hvis en billigere tjeneste fungerer like bra som den vi bruker i dag, velger vi den. Det trenger ikke å være bedre enn tjenesten du bruker.

2) Vi ønsker å forlate datakilden A og erstatte den med datakilde B. Vi kan forsinke å forlate A hvis B gir svært dårlige resultater, men det er ikke mulig å fortsette å bruke A.

3) Vi ønsker å gå fra en modelleringstilnærmingA til Bs tilnærming ikke fordi vi forventer bedre resultater fra B, men fordi det gir oss større operasjonell fleksibilitet. Vi har ingen grunn til å tro at B blir dårligere, men vi vil ikke gjøre overgangen dersom dette er tilfelle.

4) Vi har gjort flere kvalitative endringer inn i nettstedsdesignet (versjon B) og mener at denne versjonen er overlegen versjon A. Vi forventer ikke endringer i konvertering eller noen av de viktigste ytelsesindikatorene som vi vanligvis evaluerer et nettsted etter. Men vi tror at det er fordeler med parametere som enten ikke er målbare eller at teknologien vår ikke er tilstrekkelig til å måle.

I alle disse tilfellene er ikke overlegenhetsforskning den mest hensiktsmessige løsningen. Men de fleste spesialister i slike situasjoner bruker det som standard. Vi utfører eksperimentet nøye for å bestemme størrelsen på effekten korrekt. Hvis det var sant at versjon A og B fungerer på veldig liknende måter, er det en sjanse for at vi ikke klarer å forkaste nullhypotesen. Konkluderer vi med at A og B yter stort sett det samme? Nei! Unnlatelse av å forkaste nullhypotesen og aksept av nullhypotesen er ikke det samme.

Prøvestørrelsesberegninger (som du selvfølgelig har gjort) gjøres vanligvis med strengere grenser for type I-feil (sannsynligheten for å ikke forkaste nullhypotesen, ofte kalt alfa) enn for type II-feil (sannsynligheten for å ikke forkaste nullhypotesen, gitt betingelse om at nullhypotesen er usann, ofte kalt beta). Den typiske verdien for alfa er 0,05, mens den typiske verdien for beta er 0,20, tilsvarende en statistisk potens på 0,80. Dette betyr at det er 20 % sjanse for at vi går glipp av den sanne effekten av mengden vi har spesifisert i kraftberegningene våre, og det er et ganske alvorlig informasjonsgap. Som et eksempel, la oss vurdere følgende hypoteser:

Når skal vi teste non-inferiority-hypotesen?

H0: ryggsekken min er IKKE på rommet mitt (3)
H1: sekken min er på rommet mitt (4)

Hvis jeg søkte på rommet mitt og fant ryggsekken min, flott, jeg kan avvise nullhypotesen. Men hvis jeg så meg rundt i rommet og ikke fant sekken min (Figur 1), hvilken konklusjon skal jeg trekke? Er jeg sikker på at den ikke er der? Så jeg godt nok? Hva om jeg bare søkte i 80 % av rommet? Å konkludere med at ryggsekken definitivt ikke er på rommet ville vært en overilet avgjørelse. Ikke rart vi ikke kan «akseptere nullhypotesen».
Når skal vi teste non-inferiority-hypotesen?
Området vi søkte
Vi fant ikke sekken – skal vi akseptere nullhypotesen?

Figur 1: Å søke i 80 % av et rom er omtrent det samme som å søke med 80 % effekt. Hvis du ikke finner sekken etter å ha sett 80 % av rommet, kan du konkludere med at den ikke er der?

Så hva bør en dataforsker gjøre i denne situasjonen? Du kan øke kraften i studien betraktelig, men da vil du trenge en mye større prøvestørrelse og resultatet vil fortsatt være utilfredsstillende.

Heldigvis har slike problemer lenge blitt studert i verden av klinisk forskning. Legemiddel B er billigere enn legemiddel A; Legemiddel B forventes å forårsake færre bivirkninger enn legemiddel A; medikament B er lettere å transportere fordi det ikke trenger å være nedkjølt, men legemiddel A gjør det. La oss teste hypotesen om ikke-underlegenhet. Dette er for å vise at versjon B er like god som versjon A - i det minste innenfor en forhåndsdefinert non-inferiority margin, Δ. Vi vil snakke mer om hvordan du setter denne grensen litt senere. Men la oss foreløpig anta at dette er den minste forskjellen som er praktisk talt meningsfull (i sammenheng med kliniske studier kalles dette vanligvis klinisk betydning).

Ikke-mindreverdighetshypoteser snur alt på hodet:

Når skal vi teste non-inferiority-hypotesen?

Nå, i stedet for å anta at det ikke er noen forskjell, vil vi anta at versjon B er dårligere enn versjon A, og vi vil holde fast ved denne antakelsen til vi viser at dette ikke er tilfelle. Dette er akkurat det øyeblikket det er fornuftig å bruke ensidig hypotesetesting! I praksis kan dette gjøres ved å konstruere et konfidensintervall og bestemme om intervallet faktisk er større enn Δ (Figur 2).
Når skal vi teste non-inferiority-hypotesen?

Velg Δ

Hvordan velge riktig Δ? Δ-utvelgelsesprosessen inkluderer statistisk begrunnelse og materiell vurdering. I verden av klinisk forskning er det regulatoriske retningslinjer som tilsier at delta skal representere den minste klinisk signifikante forskjellen – en som vil utgjøre en forskjell i praksis. Her er et sitat fra de europeiske retningslinjene for å teste deg selv med: «Hvis forskjellen er valgt riktig, er et konfidensintervall som ligger helt mellom –∆ og 0... fortsatt tilstrekkelig til å demonstrere ikke-mindreverdighet. Hvis dette resultatet ikke virker akseptabelt, betyr det at ∆ ikke ble valgt riktig."

Deltaet bør definitivt ikke overskride effektstørrelsen til versjon A i forhold til den sanne kontrollen (placebo/ingen behandling), siden dette får oss til å si at versjon B er dårligere enn den sanne kontrollen, samtidig som det viser «ikke-underlegenhet». ." La oss anta at når versjon A ble introdusert, ble den erstattet av versjon 0 eller funksjonen eksisterte ikke i det hele tatt (se figur 3).

Basert på resultatene fra testing av overlegenhetshypotesen ble effektstørrelsen E avslørt (det vil si antagelig μ^A−μ^0=E). Nå er A vår nye standard, og vi vil forsikre oss om at B er like god som A. En annen måte å skrive μB−μA≤−Δ (nullhypotese) er μB≤μA−Δ. Hvis vi antar at do er lik eller større enn E, så er μB ≤ μA−E ≤ placebo. Nå ser vi at vårt estimat for μB fullstendig overskrider μA−E, noe som dermed fullstendig forkaster nullhypotesen og lar oss konkludere med at B er like god som A, men samtidig kan μB være ≤ μ placebo, som ikke er case. hva trenger vi. (Figur 3).

Når skal vi teste non-inferiority-hypotesen?
Figur 3. Demonstrasjon av risikoen ved å velge en non-inferiority margin. Hvis cutoff er for høyt, kan det konkluderes med at B er noninferior til A, men samtidig ikke kan skilles fra placebo. Vi vil ikke bytte ut et legemiddel som er klart mer effektivt enn placebo (A) med et legemiddel som er like effektivt som placebo.

Valg av α

La oss gå videre til å velge α. Du kan bruke standardverdien α = 0,05, men dette er ikke helt rettferdig. Som for eksempel når du kjøper noe på nett og bruker flere rabattkoder på en gang, selv om de ikke bør kombineres – utvikleren gjorde bare en feil, og du slapp unna med det. I følge reglene skal verdien av α være lik halvparten av verdien av α som brukes ved testing av overlegenhetshypotesen, det vil si 0,05 / 2 = 0,025.

Prøvestørrelse

Hvordan estimere prøvestørrelsen? Hvis du tror at den sanne gjennomsnittlige forskjellen mellom A og B er 0, er prøvestørrelsesberegningen den samme som når du tester overlegenhetshypotesen, bortsett fra at du erstatter effektstørrelsen med ikke-underordnet margin, forutsatt at du bruker αnon-inferior effektivitet = 1/2αoverlegenhet (αnon-inferiority=1/2αoverioritet). Hvis du har grunn til å tro at alternativ B kan være litt verre enn alternativ A, men du vil bevise at det er dårligere med ikke mer enn Δ, så er du heldig! Dette reduserer faktisk prøvestørrelsen din fordi det er lettere å demonstrere at B er dårligere enn A hvis du faktisk tror den er litt dårligere enn lik.

Eksempel med løsning

La oss si at du vil oppgradere til versjon B, forutsatt at den ikke er mer enn 0,1 poeng dårligere enn versjon A på en 5-punkts kundetilfredshetsskala... La oss nærme oss dette problemet ved å bruke overlegenhetshypotesen.

For å teste overlegenhetshypotesen vil vi beregne prøvestørrelsen som følger:

Når skal vi teste non-inferiority-hypotesen?

Det vil si at hvis du har 2103 observasjoner i gruppen din, kan du være 90 % sikker på at du finner en effektstørrelse på 0,10 eller større. Men hvis 0,10 er for høyt for deg, er det kanskje ikke verdt å teste overlegenhetshypotesen for. For å være på den sikre siden kan du bestemme deg for å kjøre studien for en mindre effektstørrelse, for eksempel 0,05. I dette tilfellet trenger du 8407 observasjoner, det vil si at prøven vil øke nesten 4 ganger. Men hva om vi holdt oss til vår opprinnelige prøvestørrelse, men økte kraften til 0,99 slik at vi ville være trygge hvis vi fikk et positivt resultat? I dette tilfellet vil n for én gruppe være 3676, som allerede er bedre, men øker utvalgsstørrelsen med mer enn 50 %. Og som et resultat vil vi fortsatt ganske enkelt ikke være i stand til å tilbakevise nullhypotesen, og vi vil ikke få svar på spørsmålet vårt.

Hva om vi testet noninferiority-hypotesen i stedet?

Når skal vi teste non-inferiority-hypotesen?

Prøvestørrelsen vil bli beregnet med samme formel bortsett fra nevneren.
Forskjellene fra formelen som ble brukt for å teste overlegenhetshypotesen er som følger:

— Z1−α/2 erstattes av Z1−α, men hvis du gjør alt etter reglene, erstatter du α = 0,05 med α = 0,025, det vil si at det er samme tall (1,96)

— (μB−μA) vises i nevneren

— θ (effektstørrelse) erstattes med Δ (margin of non-inferiority)

Hvis vi antar at µB = µA, så er (µB − µA) = 0 og prøvestørrelsesberegningen for non-inferiority-marginen nøyaktig hva vi ville fått hvis vi beregnet overlegenhet for en effektstørrelse på 0,1, flott! Vi kan gjøre en studie av samme størrelse med ulike hypoteser og en annen tilnærming til konklusjoner, og vi vil få svaret på spørsmålet vi egentlig ønsker å svare på.

Anta nå at vi faktisk ikke tror at µB = µA og
Vi tror at µB er litt dårligere, kanskje med 0,01 enheter. Dette øker nevneren vår, og reduserer utvalgsstørrelsen per gruppe til 1737.

Hva skjer hvis versjon B faktisk er bedre enn versjon A? Vi avviser nullhypotesen om at B er dårligere enn A med mer enn Δ og aksepterer den alternative hypotesen at B, hvis dårligere, ikke er dårligere enn A med Δ og kan være bedre. Prøv å sette denne konklusjonen inn i en tverrfunksjonell presentasjon og se hva som skjer (seriøst, prøv det). I en fremtidsrettet situasjon ønsker ingen å nøye seg med «ikke mer enn Δ verre og kanskje bedre».

I dette tilfellet kan vi gjennomføre en studie, som kalles veldig kort "å teste hypotesen om at ett av alternativene er overlegent eller dårligere enn det andre." Den bruker to sett med hypoteser:

Første sett (samme som å teste non-inferiority-hypotesen):

Når skal vi teste non-inferiority-hypotesen?

Andre sett (samme som når man tester overlegenhetshypotesen):

Når skal vi teste non-inferiority-hypotesen?

Vi tester den andre hypotesen bare hvis den første blir forkastet. Når vi tester sekvensielt, opprettholder vi den generelle type I feilraten (α). I praksis kan dette oppnås ved å lage et 95 % konfidensintervall for forskjellen mellom gjennomsnittet og testing for å avgjøre om hele intervallet er større enn -Δ. Hvis intervallet ikke overskrider -Δ, kan vi ikke avvise nullverdien og stoppe. Hvis hele intervallet faktisk er større enn −Δ, vil vi fortsette og se om intervallet inneholder 0.

Det er en annen type forskning som vi ikke har diskutert – ekvivalensstudier.

Disse typer studier kan erstattes av noninferiority-studier og omvendt, men de har faktisk en viktig forskjell. En noninferiority-prøve har som mål å vise at alternativ B er minst like god som A. En ekvivalensprøve har som mål å vise at alternativ B er minst like god som A. Alternativ A er like god som B, noe som er vanskeligere. I hovedsak prøver vi å bestemme om hele konfidensintervallet for forskjellen i gjennomsnitt ligger mellom −Δ og Δ. Slike studier krever større utvalg og utføres sjeldnere. Så neste gang du gjennomfører en studie der hovedmålet ditt er å sikre at den nye versjonen ikke er verre, ikke nøy deg med «unnlatelse av å forkaste nullhypotesen». Hvis du vil teste en veldig viktig hypotese, bør du vurdere forskjellige alternativer.

Kilde: www.habr.com

Legg til en kommentar