Wannear moatte wy de noninferiority hypoteze hifkje?

Wannear moatte wy de noninferiority hypoteze hifkje?
In artikel fan it Stitch Fix-team suggerearret it brûken fan de oanpak fan net-minderweardichheidsproeven yn marketing en produkt A/B-tests. Dizze oanpak jildt wirklik as wy in nije oplossing testen dy't foardielen hat dy't net wurde mjitten troch tests.

It ienfâldichste foarbyld is kostenreduksje. Wy automatisearje bygelyks it proses fan it tawizen fan de earste les, mar wy wolle de konverzje fan ein-oan-ein net signifikant ferminderje. Of wy testen wizigingen dy't rjochte binne op ien segmint fan brûkers, wylst wy derfoar soargje dat konversaasjes foar oare segminten net folle falle (by it testen fan ferskate hypotezen, ferjit de amendeminten net).

Selektearje de juste marzje foar net-minderweardigens foeget ekstra útdagings ta tidens de testûntwerpfaze. De fraach fan hoe te kiezen Δ is net hiel goed behannele yn it artikel. It liket derop dat dizze kar ek net folslein transparant is yn klinyske proeven. oersjoch medyske publikaasjes oer net-minderweardichheid rapportearje dat mar de helte fan 'e publikaasjes de kar fan' e grins rjochtfeardigje, en faaks binne dizze rjochtfeardigingen dûbelsinnich of net detaillearre.

Yn alle gefallen liket dizze oanpak nijsgjirrich om't ... troch it ferminderjen fan de fereaske stekproefgrutte, kin it de snelheid fan testen ferheegje, en dus de snelheid fan beslútfoarming. - Daria Mukhina, produkt analyst foar de Skyeng mobile applikaasje.

It Stitch Fix-team hâldt fan ferskate dingen te testen. De hiele technologymienskip hâldt yn prinsipe tests út. Hokker ferzje fan 'e side lûkt mear brûkers - A of B? Makket ferzje A fan it oanbefellingsmodel mear jild as ferzje B? Om hypotezen te testen, brûke wy hast altyd de ienfâldichste oanpak fan 'e basiskursus statistyk:

Wannear moatte wy de noninferiority hypoteze hifkje?

Hoewol't wy de term komselden brûke, wurdt dizze foarm fan testen "supioriteitshypothesetesten" neamd. Mei dizze oanpak geane wy ​​der fan út dat der gjin ferskil is tusken de twa opsjes. Wy bliuwe by dit idee en ferlitte it allinich as de gegevens twingend genôch binne om dat te dwaan - dat wol sizze, it toant dat ien fan 'e opsjes (A of B) better is as de oare.

It testen fan 'e superioriteitshypoteze is geskikt foar in ferskaat oan problemen. Wy jouwe allinich ferzje B fan in oanbefellingsmodel út as it dúdlik better is as ferzje A dy't al yn gebrûk is. Mar yn guon gefallen wurket dizze oanpak net sa goed. Litte wy nei in pear foarbylden sjen.

1) Wy brûke in tsjinst fan tredden, wat helpt om falske bankkaarten te identifisearjen. Wy fûnen in oare tsjinst dy't folle minder kostet. As in goedkeapere tsjinst likegoed wurket as dejinge dy't wy op it stuit brûke, sille wy it kieze. It hoecht net better te wêzen dan de tsjinst dy't jo brûke.

2) Wy wolle de gegevensboarne ferlitte A en ferfange it mei gegevensboarne B. Wy kinne it ferlitten fan A fertrage as B tige minne resultaten produsearret, mar it is net mooglik om troch te gean mei A.

3) Wy wolle oergean fan in modelearjende oanpakDe oanpak fan A nei B net om't wy bettere resultaten fan B ferwachtsje, mar om't it ús gruttere operasjonele fleksibiliteit jout. Wy hawwe gjin reden om te leauwen dat B slimmer wurde sil, mar wy meitsje de oergong net as dit it gefal is.

4) Wy hawwe makke ferskate kwalitative feroarings yn 'e webside-ûntwerp (ferzje B) en leau dat dizze ferzje superieur is oan ferzje A. Wy ferwachtsje gjin feroaringen yn bekearing of ien fan 'e wichtige prestaasje-yndikatoaren wêrmei't wy typysk in webside evaluearje. Mar wy leauwe dat d'r foardielen binne yn parameters dy't net te mjitten binne of ús technology is net genôch om te mjitten.

Yn al dizze gefallen is ûndersyk nei superioriteit net de meast passende oplossing. Mar de measte spesjalisten yn sokke situaasjes brûke it standert. Wy fiere it eksperimint foarsichtich út om de grutte fan it effekt korrekt te bepalen. As it wier wie dat ferzjes A en B op hiel ferlykbere manieren wurkje, is der in kâns dat wy de nulhypoteze net fersmite. Konkludearje wy dat A en B yn prinsipe itselde prestearje? Nee! It net ôfwizen fan de nulhypoteze en akseptearjen fan de nulhypoteze binne net itselde ding.

Sample grutte berekkeningen (dy't, fansels, jo hawwe dien) wurde typysk dien mei strangere grinzen foar Type I flater (de kâns dat de nulhypoteze net fersmite, faaks alfa neamd) dan foar Type II flater (de kâns op it net fersmite de nulhypoteze, jûn betingst dat de nulhypoteze falsk is, faaks beta neamd). De typyske wearde foar alfa is 0,05, wylst de typyske wearde foar beta 0,20 is, wat oerienkomt mei in statistyske krêft fan 0,80. Dit betsjut dat d'r in kâns is fan 20% dat wy it wiere effekt fan 'e kwantiteit dy't wy hawwe oantsjutte yn ús krêftberekkeningen sille misse, en dat is in frij serieus gat yn ynformaasje. Litte wy as foarbyld de folgjende hypotezen beskôgje:

Wannear moatte wy de noninferiority hypoteze hifkje?

H0: myn rêchsek is NET yn myn keamer (3)
H1: myn rêchsek is yn myn keamer (4)

As ik myn keamer socht en myn rêchsek fûn, geweldich, ik kin de nulhypoteze ôfwize. Mar as ik om 'e keamer seach en myn rêchsek net koe fine (figuer 1), hokker konklúzje moat ik lûke? Bin ik der wis fan dat it der net is? Haw ik hurd genôch sjoen? Wat as ik mar 80% fan 'e keamer socht? Konklúzje dat de rêchsek perfoarst net yn 'e keamer is soe in oerfallend beslút wêze. Gjin wûnder dat wy de nulhypoteze net kinne "akseptearje."
Wannear moatte wy de noninferiority hypoteze hifkje?
It gebiet dat wy sochten
Wy hawwe de rêchsek net fûn - moatte wy de nulhypoteze akseptearje?

Ofbylding 1: Sykje nei 80% fan in keamer is sawat itselde as sykjen op 80% macht. As jo ​​​​de rêchsek net fine nei't jo 80% fan 'e keamer hawwe sjoen, kinne jo konkludearje dat it d'r net is?

Dus wat moat in gegevenswittenskipper dwaan yn dizze situaasje? Jo kinne de krêft fan 'e stúdzje sterk ferheegje, mar dan sille jo in folle gruttere stekproefgrutte nedich wêze en it resultaat sil noch altyd ûnfoldwaande wêze.

Gelokkich binne sokke problemen al lang studearre yn 'e wrâld fan klinysk ûndersyk. Drug B is goedkeaper as drug A; Drug B wurdt ferwachte dat se minder side-effekten feroarsaakje as Drug A; drug B is makliker te ferfieren, om't it net yn 'e kuolkast hoecht te wêzen, mar drug A wol. Litte wy de hypoteze fan net-ynferioriteit testen. Dit is om sjen te litten dat ferzje B krekt sa goed is as ferzje A - op syn minst binnen guon foarôf definieare net-minderweardichheidsmarge, Δ. Wy sille in bytsje letter mear prate oer hoe't jo dizze limyt ynstelle. Mar lit ús foarearst oannimme dat dit it lytste ferskil is dat praktysk sinfol is (yn 'e kontekst fan klinyske proeven wurdt dit normaal klinyske betsjutting neamd).

Non-minderweardichheidshypotesen sette alles op 'e kop:

Wannear moatte wy de noninferiority hypoteze hifkje?

No, ynstee fan oan te nimmen dat d'r gjin ferskil is, sille wy oannimme dat ferzje B slimmer is as ferzje A, en wy sille bliuwe mei dizze oanname oant wy bewize dat dit net it gefal is. Dit is krekt it momint dat it sin makket om iensidige hypotezetesten te brûken! Yn 'e praktyk kin dit dien wurde troch it konstruearjen fan in fertrouwen ynterval en bepale oft it ynterval eins grutter is as Δ (figuer 2).
Wannear moatte wy de noninferiority hypoteze hifkje?

Selektearje Δ

Hoe kinne jo de juste Δ kieze? It Δ-seleksjeproses omfettet statistyske rjochtfeardiging en ynhâldlike evaluaasje. Yn 'e wrâld fan klinysk ûndersyk binne d'r regeljouwingsrjochtlinen dy't diktearje dat delta it lytste klinysk signifikante ferskil moat fertsjintwurdigje - ien dy't in ferskil sil meitsje yn 'e praktyk. Hjir is in sitaat út 'e Jeropeeske rjochtlinen om josels mei te testen: "As it ferskil goed keazen is, is in betrouwensinterval dat folslein tusken -∆ en 0 ... leit noch genôch om net-minderweardichheid oan te jaan. As dit resultaat net akseptabel liket, betsjut it dat ∆ net goed selektearre is.

De delta moat perfoarst de effektgrutte fan ferzje A relatyf oan 'e wirklike kontrôle (placebo / gjin behanneling) perfoarst net mear wêze, om't dit ús liedt om te sizzen dat ferzje B slimmer is as de wirklike kontrôle, wylst tagelyk "net-minderweardichheid" oantoand. .” Lit ús oannimme dat doe't ferzje A waard yntrodusearre, it waard ferfongen troch ferzje 0 of de funksje bestie hielendal net (sjoch figuer 3).

Op grûn fan 'e resultaten fan it testen fan' e superioriteitshypoteze waard de effektgrutte E iepenbiere (dat is nei alle gedachten μ^A−μ^0=E). No is A ús nije standert, en wy wolle der wis fan wêze dat B like goed is as A. In oare manier om μB−μA≤−Δ (nulhypoteze) te skriuwen is μB≤μA−Δ. As wy oannimme dat do is gelyk oan of grutter as E, dan μB ≤ μA−E ≤ placebo. No sjogge wy dat ús skatting foar μB folslein grutter is as μA−E, wat dêrmei de nulhypoteze folslein ôfwiist en ús kin konkludearje dat B sa goed is as A, mar tagelyk kin μB ≤ μ placebo wêze, wat net de gefal. wat hawwe wy nedich. (ôfbylding 3).

Wannear moatte wy de noninferiority hypoteze hifkje?
figuer 3. Demonstraasje fan 'e risiko's fan it kiezen fan in noninferiority marzje. As de besuniging te heech is, kin konkludearre wurde dat B noninferior is foar A, mar tagelyk net te ûnderskieden fan placebo. Wy sille gjin medisyn wikselje dat dúdlik effektiver is as placebo (A) foar in medisyn dat like effektyf is as placebo.

Keuze fan α

Litte wy trochgean mei it kiezen fan α. Jo kinne de standertwearde α = 0,05 brûke, mar dit is net hielendal earlik. Lykas bygelyks as jo wat online keapje en ferskate koartingskoades tagelyk brûke, hoewol se net moatte wurde kombineare - de ûntwikkelder hat gewoan in flater makke, en jo binne dermei fuortgien. Neffens de regels moat de wearde fan α gelyk wêze oan de helte fan de wearde fan α dy't brûkt wurdt by it testen fan de superioriteitshypoteze, dat is 0,05 / 2 = 0,025.

Sample grutte

Hoe te skatten sample grutte? As jo ​​​​leauwe dat it wiere gemiddelde ferskil tusken A en B 0 is, dan is de berekkening fan 'e stekproefgrutte itselde as by it testen fan' e superioriteitshypoteze, útsein dat jo de effektgrutte ferfange troch de noninferiority marzje, op betingst dat jo brûke αnon-inferior effisjinsje = 1/2α superiority (αnon-inferiority=1/2α superiority). As jo ​​​​reden hawwe om te leauwen dat opsje B wat slimmer kin wêze as opsje A, mar jo wolle bewize dat it minder is as Δ, dan hawwe jo gelok! Dit ferminderet eins jo stekproefgrutte, om't it makliker is om te demonstrearjen dat B slimmer is dan A as jo eins tinke dat it wat slimmer is as gelyk.

Foarbyld mei oplossing

Litte wy sizze dat jo opwurdearje wolle nei ferzje B, op betingst dat it net mear as 0,1 punt minder is as ferzje A op in 5-punt klanttefredenheidsskaal ... Litte wy dit probleem benaderje mei de superioriteitshypoteze.

Om de superioriteitshypoteze te testen, soene wy ​​de stekproefgrutte as folgjend berekkenje:

Wannear moatte wy de noninferiority hypoteze hifkje?

Dat is, as jo 2103 observaasjes yn jo groep hawwe, kinne jo 90% wis wêze dat jo in effektgrutte fan 0,10 of grutter fine. Mar as 0,10 te heech is foar jo, kin it net wurdich wêze om de superioriteitshypoteze foar te testen. Om op 'e feilige kant te wêzen, kinne jo beslute om de stúdzje út te fieren foar in lytsere effektgrutte, lykas 0,05. Yn dit gefal sille jo 8407 observaasjes nedich wêze, dat is, de stekproef sil hast 4 kear ferheegje. Mar wat as wy fêsthâlde oan ús orizjinele stekproefgrutte, mar de krêft ferhege nei 0,99, sadat wy feilich soene wêze as wy in posityf resultaat krigen? Yn dit gefal sil n foar ien groep wêze 3676, dat is al better, mar fergruttet de stekproef grutte mei mear as 50%. En as gefolch, wy noch gewoan net by steat wêze om te wjerlizzen fan de nulhypoteze, en wy sille net krije in antwurd op ús fraach.

Wat as wy ynstee de noninferiority-hypoteze testen?

Wannear moatte wy de noninferiority hypoteze hifkje?

De stekproefgrutte wurdt berekkene mei deselde formule útsein de neamer.
De ferskillen fan 'e formule dy't brûkt wurdt om de superioriteitshypoteze te testen binne as folget:

- Z1−α/2 wurdt ferfongen troch Z1−α, mar as jo alles neffens de regels dogge, ferfange jo α = 0,05 mei α = 0,025, dat is, it is itselde getal (1,96)

- (μB−μA) ferskynt yn 'e neamer

- θ (effektgrutte) wurdt ferfongen troch Δ (marzje fan net-ynferioriteit)

As wy oannimme dat µB = µA, dan (µB − µA) = 0 en de berekkening fan de stekproefgrutte foar de marzje fan net-ynferioriteit is krekt wat wy soene krije as wy de superioriteit berekkene foar in effektgrutte fan 0,1, geweldich! Wy kinne dwaan in stúdzje fan deselde grutte mei ferskillende hypotezen en in oare oanpak fan konklúzjes, en wy sille krije it antwurd op de fraach wy echt wolle beäntwurdzje.

Stel no dat wy eins net tinke dat µB = µA en
Wy tinke dat µB in bytsje slimmer is, miskien mei 0,01 ienheden. Dit fergruttet ús neamer, en ferminderet de stekproefgrutte per groep nei 1737.

Wat bart der as ferzje B eins better is as ferzje A? Wy fersmite de nulhypoteze dat B slimmer is as A mei mear as Δ en akseptearje de alternative hypoteze dat B, as slimmer, net slimmer is as A troch Δ en better kin wêze. Besykje dizze konklúzje yn in cross-funksjonele presintaasje te setten en sjoch wat der bart (serieus, besykje it). Yn in foarútstribjende situaasje wol gjinien regelje mei "net mear dan Δ slimmer en miskien better."

Yn dit gefal kinne wy ​​​​in stúdzje útfiere, dy't heul koart hjit "testen fan 'e hypoteze dat ien fan' e opsjes superieur of inferior is oan 'e oare." It brûkt twa sets fan hypotezen:

Earste set (itselde as it testen fan de non-minderweardichheidshypoteze):

Wannear moatte wy de noninferiority hypoteze hifkje?

Twadde set (itselde as by it testen fan de superioriteitshypoteze):

Wannear moatte wy de noninferiority hypoteze hifkje?

Wy testje de twadde hypoteze allinich as de earste ôfwiisd wurdt. As se opfolgjend testen, behâlde wy de algemiene Type I-flaterrate (α). Yn 'e praktyk kin dit berikt wurde troch it meitsjen fan in 95% fertrouwen ynterval foar it ferskil tusken de middels en testen om te bepalen oft it hiele ynterval grutter is as -Δ. As it ynterval net grutter is as -Δ, kinne wy ​​​​de nulwearde net ôfwize en stopje. As it hiele ynterval yndie grutter is as -Δ, sille wy trochgean en sjen oft it ynterval 0 befettet.

D'r is in oar type ûndersyk dat wy net hawwe besprutsen - lykweardigensstúdzjes.

Dizze soarten stúdzjes kinne wurde ferfongen troch noninferiority stúdzjes en oarsom, mar se hawwe eins in wichtich ferskil. In net-minderweardichheidsproef hat as doel om sjen te litten dat opsje B op syn minst like goed is as A. In lykweardigensproef hat as doel om sjen te litten dat opsje B op syn minst sa goed is as A. Opsje A is sa goed as B, wat dreger is. Yn essinsje besykje wy te bepalen oft it folsleine betrouwensynterval foar it ferskil yn middels leit tusken −Δ en Δ. Sokke stúdzjes fereaskje in gruttere stekproef en wurde minder faak útfierd. Dus de folgjende kear as jo in stúdzje útfiere wêryn jo haaddoel is om te soargjen dat de nije ferzje net slimmer is, nim dan net foar "mislearjen fan 'e nulhypoteze." As jo ​​​​in echt wichtige hypoteze wolle testen, beskôgje dan ferskate opsjes.

Boarne: www.habr.com

Add a comment