
En artikkel fra Stitch Fix-teamet foreslår å bruke ikke-inferioritetstester i markedsføring og produkt-A/B-tester. Denne tilnærmingen er faktisk anvendelig når man tester en ny løsning med fordeler som ikke er målbare i kliniske studier.
Det enkleste eksemplet er å redusere kostnader. For eksempel kan vi automatisere prosessen med å planlegge den første timen, men vi ønsker ikke å redusere konverteringen betydelig. Eller vi kan teste endringer som er rettet mot ett brukersegment, samtidig som vi sørger for at konverteringene for andre segmenter ikke faller betydelig (når vi tester flere hypoteser, glemmer vi ikke å gjøre justeringer).
Å velge riktig ikke-inferioritetsmargin gjør testdesignfasen enda mer kompleks. Spørsmålet om hvordan man skal velge Δ er ikke godt nok behandlet i artikkelen. Det ser ut til at dette valget heller ikke er helt transparent i kliniske studier. En gjennomgang av medisinske publikasjoner om ikke-inferioritet rapporterer at bare halvparten av publikasjonene gir begrunnelse for valg av grense, og disse begrunnelsene er ofte tvetydige eller ikke detaljerte.
Uansett virker denne tilnærmingen interessant, siden den kan øke testhastigheten og dermed beslutningshastigheten ved å redusere den nødvendige utvalgsstørrelsen. Daria Mukhina, produktanalytiker for Skyeng-mobilappen.
Stitch Fix-teamet elsker å teste ting. Hele teknologimiljøet elsker å teste. Hvilken versjon av nettstedet tiltrekker seg flere brukere – A eller B? Genererer versjon A av anbefalingsmodellen mer inntekter enn versjon B? Vi bruker nesten alltid den enkleste tilnærmingen fra et grunnleggende statistikkkurs for å teste hypotesene våre:

Selv om vi sjelden bruker begrepet, kalles denne formen for testing «testing av overlegenhetshypotese». I denne tilnærmingen antar vi at det ikke er noen forskjell mellom de to alternativene. Vi holder oss til denne antagelsen og forlater den bare hvis dataene viser seg å være overbevisende nok til å rettferdiggjøre den – det vil si hvis de viser at ett alternativ (A eller B) er overlegent det andre.
Testing av overlegenhetshypotese er egnet for å løse en rekke problemer. Vi lanserer kun versjon B av en anbefalingsmodell hvis den er klart bedre enn versjon A som allerede er i bruk. I noen tilfeller fungerer imidlertid ikke denne tilnærmingen så bra. La oss se på noen eksempler.
1) Vi bruker en tredjepartstjeneste, som hjelper med å identifisere falske bankkort. Vi fant en annen tjeneste som koster betydelig mindre. Hvis en billigere tjeneste fungerer like bra som den vi bruker for øyeblikket, velger vi den. Den trenger ikke nødvendigvis å være bedre enn den vi bruker for øyeblikket.
2) Vi ønsker å velge bort datakilden A og erstatte den med datakilde B. Vi kan utsette å forlate A hvis B gir svært dårlige resultater, men å fortsette å bruke A er ikke mulig.
3) Vi ønsker å gå bort fra en modelleringstilnærmingVi bytter til tilnærming B ikke fordi vi forventer bedre resultater fra B, men fordi det gir oss større operasjonell fleksibilitet. Vi har ingen grunn til å tro at B vil være dårligere, men vi ville ikke gjort byttet hvis det var tilfelle.
4) Vi har gjort flere kvalitetsendringer Vi har gjort noen endringer i nettsidens design (versjon B) og mener at denne versjonen er bedre enn versjon A. Vi forventer ingen endringer i konvertering eller noen av de viktigste ytelsesindikatorene vi vanligvis bruker for å evaluere et nettsted. Vi mener imidlertid at det finnes forbedringer i beregninger som enten er umålbare eller utenfor vår teknologis kapasitet.
I alle disse tilfellene er ikke en overlegenhetstest den mest passende løsningen. Men de fleste eksperter bruker den som standard i slike situasjoner. Vi utfører eksperimentet nøye for å bestemme effektstørrelsen nøyaktig. Hvis det var sant at versjon A og B presterer veldig likt, er det en sjanse for at vi ikke ville forkaste nullhypotesen. Konkluderer vi med at A og B i hovedsak presterer det samme? Nei! Å ikke forkaste nullhypotesen og aksept av nullhypotesen er ikke det samme.
Beregninger av utvalgsstørrelse (som du utvilsomt har utført) utføres vanligvis med strengere grenser for type I-feil (sannsynligheten for å feilaktig forkaste nullhypotesen, ofte kalt alfa) enn for type II-feil (sannsynligheten for å ikke forkaste nullhypotesen gitt at nullhypotesen er falsk, ofte kalt beta). En typisk verdi for alfa er 0,05, mens en typisk verdi for beta er 0,20, som tilsvarer en statistisk styrke på 0,80. Dette betyr at med har vi 20 % sjanse for ikke å oppdage den sanne effekten av størrelsesordenen vi spesifiserte i styrkeberegningene våre, et ganske alvorlig informasjonsgap. La oss som et eksempel vurdere følgende hypoteser:

H0: Sekken min er IKKE på rommet mitt (3)
H1: Sekken min er på rommet mitt (4)
Hvis jeg lette på rommet mitt og fant sekken min, flott, jeg kan forkaste nullhypotesen. Men hvis jeg lette på rommet og ikke kunne finne sekken min (figur 1), hvilken konklusjon bør jeg trekke? Er jeg sikker på at den ikke er der? Var søket mitt grundig nok? Hva om jeg bare lette i 80 % av rommet? Å konkludere med at sekken definitivt ikke er der ville være en forhastet avgjørelse. Det er ikke rart at vi ikke kan «akseptere nullhypotesen».

Området vi søkte etter
Vi fant ikke ryggsekken – bør vi godta nullhypotesen?
Figur 1. Å søke i 80 % av et rom tilsvarer omtrent å gjennomføre en undersøkelse med 80 % kapasitet. Hvis du ikke finner sekken etter å ha gjennomsøkt 80 % av rommet, kan du konkludere med at den ikke er der?
Så hva bør en dataforsker gjøre i denne situasjonen? Du kan øke studiens styrke betraktelig, men da trenger du et mye større utvalg, og resultatene vil fortsatt være utilfredsstillende.
Heldigvis har denne typen problemer lenge blitt studert i kliniske studier. Legemiddel B er billigere enn legemiddel A; legemiddel B forventes å forårsake færre bivirkninger enn legemiddel A; legemiddel B er lettere å transportere fordi det ikke trenger å kjøles ned, mens legemiddel A gjør det. La oss teste ikke-inferioritetshypotesen. Dette er for å vise at versjon B er like god som versjon A – i det minste innenfor en forhåndsbestemt "ikke-inferioritets"-margin, Δ. Vi vil diskutere hvordan man setter denne marginen mer detaljert senere. Men foreløpig, la oss anta at dette er den minimale forskjellen som er praktisk meningsfull (i sammenheng med kliniske studier kalles dette vanligvis klinisk signifikans).
Hypoteser om ikke mindre effektivitet snur alt på hodet:

I stedet for å anta at det ikke er noen forskjell, antar vi at versjon B er dårligere enn versjon A, og vi holder oss til denne antagelsen inntil vi viser noe annet. Det er nettopp her ensidig hypotesetesting gir mening! I praksis kan dette gjøres ved å konstruere et konfidensintervall og avgjøre om intervallet faktisk er større enn Δ (figur 2).

Valg Δ
Hvordan velge riktig Δ? Prosessen med å velge Δ innebærer statistisk begrunnelse og vurdering av emnet. I kliniske studier finnes det regulatoriske retningslinjer som sier at deltaet skal representere den minste klinisk signifikante forskjellen – en som vil være meningsfull i praksis. Her er et sitat fra de europeiske retningslinjene for å sjekke: «Hvis forskjellen er valgt riktig, er et konfidensintervall som ligger helt mellom –Δ og 0… fortsatt tilstrekkelig til å demonstrere ikke-inferioritet. Hvis dette resultatet ikke virker akseptabelt, betyr det at Δ ikke er valgt riktig.»
Deltaen bør definitivt ikke overstige effektstørrelsen til versjon A i forhold til den virkelige kontrollen (placebo/ingen behandling), da dette ville føre til at vi tror at versjon B er dårligere enn den virkelige kontrollen, samtidig som den demonstrerer "ikke-inferioritet". Anta at da versjon A ble introdusert, var versjon 0 på plass, eller at funksjonen ikke eksisterte i det hele tatt (se figur 3).
Overlegenhetshypotesetesten ga en effektstørrelse på E (det vil si antagelig μ^A−μ^0=E). Nå er A vår nye standard, og vi ønsker å forsikre oss om at B ikke er dårligere enn A. En annen måte å skrive μB−μA≤−Δ (nullhypotesen) på er μB≤μA−Δ. Hvis vi antar at do er lik eller større enn E, så er μB ≤ μA−E ≤ placebo. Vi ser nå at estimatet vårt for μB fullstendig overstiger μA−E, og dermed forkaster vi nullhypotesen fullstendig og lar oss konkludere med at B ikke er dårligere enn A, men samtidig kan μB være ≤ μ placebo, noe vi ikke ønsker. (Figur 3).

Figur 3. Demonstrasjon av risikoene ved å velge en ikke-inferioritetsmargin. Hvis marginen er for stor, kan vi konkludere med at B ikke er dårligere enn A, men samtidig er den umulig å skille fra placebo. Vi ville ikke bytte ut et legemiddel som er klart mer effektivt enn placebo (A) med et legemiddel som er like effektivt.
Valg av α
La oss gå videre til å velge α. Standardverdien α = 0,05 kan brukes, men det er ikke helt rettferdig. Det er som når du kjøper noe på nett og bruker flere rabattkoder samtidig, selv om de ikke skal være kumulative – utvikleren gjorde rett og slett en feil, og du slapp unna med det. I følge reglene skal α være lik halvparten av verdien av α som brukes i overlegenhetshypotesetesten, dvs. 0,05 / 2 = 0,025.
Utvalgsstørrelse
Hvordan estimerer du utvalgsstørrelsen? Hvis du antar at den sanne gjennomsnittsforskjellen mellom A og B er 0, er beregningen av utvalgsstørrelsen den samme som for en overlegenhetshypotesetest, bortsett fra at du erstatter effektstørrelsen med ikke-inferioritetsmarginen, forutsatt at du bruker αikke-inferioritet = 1/2αoverlegenhet (αikke-inferioritet=1/2αoverlegenhet). Hvis du har grunn til å tro at alternativ B kan være litt dårligere enn alternativ A, men du vil bevise at det er dårligere med ikke mer enn Δ, har du flaks! Dette reduserer effektivt utvalgsstørrelsen din, fordi det er lettere å demonstrere at B er dårligere enn A hvis du faktisk tror at det er litt dårligere, snarere enn like bra.
Eksempel med løsning
La oss si at du vil oppgradere til versjon B, forutsatt at den ikke er mer enn 0,1 poeng dårligere enn versjon A på en 5-punkts kundetilfredshetsskala ... La oss tilnærme oss dette problemet ved hjelp av overlegenhetshypotesen.
For å teste overlegenhetshypotesen, ville vi beregne utvalgsstørrelsen som følger:

Så hvis du har 2103 observasjoner i gruppen din, kan du være 90 % sikker på at du finner en effektstørrelse på 0,10 eller større. Men hvis 0,10 er for stor for deg, er det kanskje ikke verdt å teste overlegenhetshypotesen. For å være på den sikre siden ville du kanskje bestemt deg for å gjennomføre studien med en mindre effektstørrelse, for eksempel 0,05. I så fall ville du trenge 8407 observasjoner, noe som nesten firedobler utvalgsstørrelsen. Men hva om vi holder oss til vår opprinnelige utvalgsstørrelse, men øker styrken til 0,99, slik at vi kan være sikre på funnene våre? I så fall ville n for én gruppe være 3676, noe som er bedre, men øker utvalgsstørrelsen med mer enn 50 %. Som et resultat ville vi fortsatt ikke klart å forkaste nullhypotesen, i stedet for å svare på spørsmålet vårt.
Hva om vi i stedet tester ikke-inferioritetshypotesen?

Utvalgsstørrelsen vil bli beregnet ved hjelp av samme formel, bortsett fra nevneren.
Forskjellene fra formelen som brukes til å teste overlegenhetshypotesen er som følger:
— Z1−α/2 erstattes av Z1−α, men hvis du gjør alt i henhold til reglene, erstatter du α = 0,05 med α = 0,025, det vil si at det er det samme tallet (1,96)
— (μB−μA) vises i nevneren
— θ (effektstørrelse) erstattes med Δ (margin for ikke-inferioritet)
Hvis vi antar at µB = µA, så er (µB − µA) = 0, og beregningen av utvalgsstørrelsen for ikke-inferioritetsmarginen er nøyaktig det vi ville fått hvis vi beregnet overlegenhet for en effektstørrelse på 0,1. Flott! Vi kan gjennomføre en studie av samme størrelse med forskjellige hypoteser og en annen tilnærming til inferens, og vi vil få svaret på spørsmålet vi egentlig ønsker å svare på.
Anta nå at vi faktisk ikke tror at µB = µA og
Vi tror µB er litt dårligere, kanskje med 0,01 enheter. Dette øker nevneren vår, og reduserer utvalgsstørrelsen per gruppe til 1737.
Hva skjer hvis versjon B faktisk er bedre enn versjon A? Vi forkaster nullhypotesen om at B er verre enn A med mer enn Δ og aksepterer den alternative hypotesen om at B, hvis den er verre, ikke er verre med Δ og kanskje er bedre. Prøv å sette denne konklusjonen inn i en tverrfaglig presentasjon og se hva som skjer (seriøst, prøv det). I et langsiktig perspektiv ønsker ingen å nøye seg med "verre med ikke mer enn Δ og kanskje bedre".
I dette tilfellet kan vi gjennomføre en studie som, veldig kort, kalles «å teste hypotesen om at ett alternativ er bedre eller dårligere enn et annet». Den bruker to sett med hypoteser:
Første sett (samme som for hypotesetesting av ikke-inferioritet):

Andre sett (samme som for testing av overlegenhetshypotesen):

Vi tester den andre hypotesen bare hvis den første blir forkastet. Når vi tester sekvensielt, opprettholder vi den generelle type I-feilraten (α). I praksis kan dette oppnås ved å opprette et 95 % konfidensintervall for differansen mellom gjennomsnittene og teste om hele intervallet overstiger -Δ. Hvis intervallet ikke overstiger -Δ, kan vi ikke forkaste nullverdien og stoppe. Hvis hele intervallet overstiger -Δ, fortsetter vi og ser om intervallet inneholder 0.
Det finnes en annen type studie som vi ikke har diskutert – ekvivalensstudier.
Studier av denne typen kan erstatte ikke-inferioritetsstudier og omvendt, men de har en viktig forskjell. En ikke-inferioritetsstudie tar sikte på å vise at variant B er minst like god som A. En ekvivalensstudie tar sikte på å vise at variant B er minst like god som A, og at variant A er minst like god som B, noe som er vanskeligere. I hovedsak prøver vi å avgjøre om hele konfidensintervallet for forskjellen i gjennomsnitt ligger mellom -Δ og Δ. Slike studier krever større utvalgsstørrelser og utføres sjeldnere. Så neste gang du gjennomfører en studie der hovedmålet ditt er å bevise at en ny versjon er ikke-inferior, ikke nøy deg med å "ikke forkaste nullhypotesen". Hvis du vil teste en virkelig viktig hypotese, bør du vurdere forskjellige alternativer.
Kilde: www.habr.com
