Kedy by sme mali testovať hypotézu noninferiority?

Kedy by sme mali testovať hypotézu noninferiority?
Článok od tímu Stitch Fix navrhuje použitie prístupu non-inferiority trials v marketingových a produktových A/B testoch. Tento prístup skutočne platí, keď testujeme nové riešenie, ktoré má výhody, ktoré nie sú merané testami.

Najjednoduchším príkladom je zníženie nákladov. Napríklad automatizujeme proces priraďovania prvej lekcie, ale nechceme výrazne obmedziť konverziu medzi koncovými bodmi. Alebo testujeme zmeny, ktoré sú zamerané na jeden segment používateľov, pričom dbáme na to, aby konverzie pre ostatné segmenty veľmi neklesali (pri testovaní viacerých hypotéz nezabúdajte na úpravy).

Výber správneho non-inferiority margin pridáva ďalšie výzvy počas fázy návrhu testu. Otázka, ako si vybrať Δ, nie je v článku veľmi dobre spracovaná. Zdá sa, že tento výber nie je úplne transparentný ani v klinických štúdiách. Recenzia lekárske publikácie o nie menejcennosti uvádzajú, že iba polovica publikácií odôvodňuje výber hranice a tieto odôvodnenia sú často nejednoznačné alebo nie sú podrobné.

V každom prípade sa tento prístup zdá zaujímavý, pretože... zmenšením požadovanej veľkosti vzorky môže zvýšiť rýchlosť testovania, a teda aj rýchlosť rozhodovania. — Daria Mukhina, produktová analytička mobilnej aplikácie Skyeng.

Tím Stitch Fix rád testuje rôzne veci. Celá technologická komunita v zásade rada spúšťa testy. Ktorá verzia stránky priťahuje viac používateľov – A alebo B? Zarába verzia A modelu odporúčania viac peňazí ako verzia B? Na testovanie hypotéz takmer vždy používame najjednoduchší prístup zo základného kurzu štatistiky:

Kedy by sme mali testovať hypotézu noninferiority?

Hoci tento termín používame len zriedka, táto forma testovania sa nazýva „testovanie hypotézy nadradenosti“. Pri tomto prístupe predpokladáme, že medzi týmito dvoma možnosťami nie je žiadny rozdiel. Tejto myšlienky sa držíme a opúšťame ju len vtedy, ak sú údaje dostatočne presvedčivé, aby tak urobili – to znamená, že dokazujú, že jedna z možností (A alebo B) je lepšia ako druhá.

Testovanie hypotézy nadradenosti je vhodné pri rôznych problémoch. Verziu B modelu odporúčania vydávame len vtedy, ak je jednoznačne lepšia ako verzia A, ktorá sa už používa. V niektorých prípadoch však tento prístup nefunguje tak dobre. Pozrime sa na pár príkladov.

1) Používame službu tretej strany, ktorý pomáha identifikovať falošné bankové karty. Našli sme ďalšiu službu, ktorá stojí podstatne menej. Ak bude fungovať lacnejšia služba ako tá, ktorú momentálne využívame, vyberieme si ju. Nemusí to byť lepšie ako služba, ktorú používate.

2) Chceme opustiť zdroj údajov A a nahradiť ho zdrojom údajov B. Mohli by sme odložiť opustenie A, ak B produkuje veľmi zlé výsledky, ale nie je možné pokračovať v používaní A.

3) Chceli by sme prejsť od modelovaniaPrístup A až B nie preto, že by sme očakávali lepšie výsledky od B, ale preto, že nám poskytuje väčšiu prevádzkovú flexibilitu. Nemáme dôvod veriť, že B bude horšie, ale ak je to tak, prechod neuskutočníme.

4) Urobili sme niekoľko kvalitatívnych zmien do dizajnu webu (verzia B) a domnievame sa, že táto verzia je nadradená verzii A. Neočakávame zmeny v konverzii ani v žiadnom z kľúčových ukazovateľov výkonnosti, podľa ktorých web obvykle hodnotíme. Ale veríme, že existujú výhody v parametroch, ktoré sú buď nemerateľné, alebo naša technológia na meranie nestačí.

Vo všetkých týchto prípadoch nie je výskum nadradenosti tým najvhodnejším riešením. Väčšina špecialistov v takýchto situáciách ho však štandardne používa. Pozorne vykonávame experiment, aby sme správne určili veľkosť účinku. Ak by bola pravda, že verzie A a B fungujú veľmi podobným spôsobom, existuje šanca, že sa nám nepodarí zamietnuť nulovú hypotézu. Dospeli sme k záveru, že A a B fungujú v podstate rovnako? Nie! Neodmietnutie nulovej hypotézy a prijatie nulovej hypotézy nie sú to isté.

Výpočty veľkosti vzorky (ktoré ste, samozrejme, urobili vy) sa zvyčajne vykonávajú s prísnejšími hranicami pre chybu typu I (pravdepodobnosť, že sa nepodarí zamietnuť nulovú hypotézu, často nazývanú alfa), ako pre chybu typu II (pravdepodobnosť zlyhania pri zamietnutí nulová hypotéza za predpokladu, že nulová hypotéza je nepravdivá, často nazývaná beta). Typická hodnota pre alfa je 0,05, zatiaľ čo typická hodnota pre beta je 0,20, čo zodpovedá štatistickej sile 0,80. To znamená, že existuje 20% šanca, že nám unikne skutočný účinok množstva, ktoré sme uviedli vo výpočtoch výkonu, a to je dosť vážna medzera v informáciách. Ako príklad uveďme nasledujúce hypotézy:

Kedy by sme mali testovať hypotézu noninferiority?

H0: môj batoh NIE JE v mojej izbe (3)
H1: Môj batoh je v mojej izbe (4)

Ak som prehľadal svoju izbu a našiel som svoj batoh, skvelé, môžem zamietnuť nulovú hypotézu. Ale ak som sa poobzeral po miestnosti a nemohol som nájsť svoj batoh (obrázok 1), aký záver by som mal vyvodiť? Som si istý, že tam nie je? Pozeral som dosť tvrdo? Čo keby som prehľadal len 80 % miestnosti? Usúdiť, že batoh určite nie je v izbe, by bolo unáhlené rozhodnutie. Niet divu, že nemôžeme „prijať nulovú hypotézu“.
Kedy by sme mali testovať hypotézu noninferiority?
Oblasť, ktorú sme hľadali
Batoh sme nenašli – máme prijať nulovú hypotézu?

Obrázok 1: Prehľadávanie 80 % miestnosti je približne rovnaké ako vyhľadávanie pri 80 % výkonu. Ak batoh nenájdete ani po prezretí 80 % miestnosti, môžete usúdiť, že tam nie je?

Čo by teda mal dátový vedec v tejto situácii robiť? Môžete výrazne zvýšiť silu štúdie, ale potom budete potrebovať oveľa väčšiu veľkosť vzorky a výsledok bude stále neuspokojivý.

Našťastie sa takéto problémy už dlho skúmajú vo svete klinického výskumu. Liek B je lacnejší ako liek A; Očakáva sa, že liek B spôsobí menej vedľajších účinkov ako liek A; liek B sa ľahšie prepravuje, pretože ho netreba chladiť, ale liek A áno. Otestujme hypotézu o non-menejcennosti. Toto má ukázať, že verzia B je rovnako dobrá ako verzia A – aspoň v rámci určitej vopred definovanej hranice neinferiority, Δ. O tom, ako nastaviť tento limit, si povieme o niečo neskôr. Zatiaľ však predpokladajme, že ide o najmenší rozdiel, ktorý má praktický význam (v kontexte klinických štúdií sa to zvyčajne nazýva klinická významnosť).

Hypotézy nie menejcennosti stavajú všetko na hlavu:

Kedy by sme mali testovať hypotézu noninferiority?

Teraz, namiesto toho, aby sme predpokladali, že neexistuje žiadny rozdiel, budeme predpokladať, že verzia B je horšia ako verzia A, a budeme sa držať tohto predpokladu, kým nepreukážeme, že to tak nie je. To je presne ten moment, kedy má zmysel využívať jednostranné testovanie hypotéz! V praxi sa to dá urobiť zostrojením intervalu spoľahlivosti a určením, či je interval skutočne väčší ako Δ (obrázok 2).
Kedy by sme mali testovať hypotézu noninferiority?

Vyberte Δ

Ako si vybrať správne Δ? Proces výberu Δ zahŕňa štatistické zdôvodnenie a vecné hodnotenie. Vo svete klinického výskumu existujú regulačné smernice, ktoré diktujú, že delta by mala predstavovať najmenší klinicky významný rozdiel – rozdiel, ktorý bude znamenať rozdiel v praxi. Tu je citát z európskych smerníc, pomocou ktorého sa môžete otestovať: „Ak bol rozdiel vybratý správne, interval spoľahlivosti, ktorý leží úplne medzi –∆ a 0... je stále dostatočný na preukázanie, že nie je menejcenný. Ak sa tento výsledok nezdá byť prijateľný, znamená to, že hodnota ∆ nebola zvolená správne.

Delta by rozhodne nemala presiahnuť veľkosť účinku verzie A v porovnaní so skutočnou kontrolou (placebo/žiadna liečba), pretože nás to vedie k tvrdeniu, že verzia B je horšia ako skutočná kontrola, pričom zároveň preukazuje „nepodradnosť“. .“ Predpokladajme, že keď bola predstavená verzia A, bola nahradená verziou 0 alebo táto funkcia vôbec neexistovala (pozri obrázok 3).

Na základe výsledkov testovania hypotézy nadradenosti bola odhalená veľkosť účinku E (teda pravdepodobne μ^A−μ^0=E). Teraz je A náš nový štandard a chceme sa uistiť, že B je rovnako dobrý ako A. Ďalší spôsob, ako zapísať μB−μA≤−Δ (nulová hypotéza) je μB≤μA−Δ. Ak predpokladáme, že do je rovnaké alebo väčšie ako E, potom μB ≤ μA−E ≤ placebo. Teraz vidíme, že náš odhad pre μB úplne prevyšuje μA-E, čo úplne odmieta nulovú hypotézu a umožňuje nám dospieť k záveru, že B je rovnako dobrý ako A, ale zároveň μB môže byť ≤ μ placebo, čo nie je prípad.čo potrebujeme. (Obrázok 3).

Kedy by sme mali testovať hypotézu noninferiority?
Obrázok 3. Ukážka rizík výberu neinferioritnej marže. Ak je hranica príliš vysoká, možno dospieť k záveru, že B nie je horší ako A, ale zároveň je nerozoznateľný od placeba. Nevymeníme liek, ktorý je jednoznačne účinnejší ako placebo (A) za liek, ktorý je rovnako účinný ako placebo.

Voľba α

Prejdime k výberu α. Môžete použiť štandardnú hodnotu α = 0,05, ale to nie je úplne fér. Napríklad, keď si niečo kúpite online a použijete niekoľko zľavových kódov naraz, hoci by sa nemali kombinovať – vývojár sa jednoducho pomýlil a vy ste z toho ušli. Podľa pravidiel by sa hodnota α mala rovnať polovici hodnoty α, ktorá sa používa pri testovaní hypotézy nadradenosti, teda 0,05 / 2 = 0,025.

Veľkosť vzorky

Ako odhadnúť veľkosť vzorky? Ak sa domnievate, že skutočný priemerný rozdiel medzi A a B je 0, potom je výpočet veľkosti vzorky rovnaký ako pri testovaní hypotézy nadradenosti, s výnimkou toho, že veľkosť účinku nahradíte okrajom noninferiority za predpokladu, že použijete αnepodradná účinnosť = 1/2αnadradenosť (αnepodradnosť=1/2αnadradenosť). Ak máte dôvod domnievať sa, že možnosť B môže byť o niečo horšia ako možnosť A, ale chcete dokázať, že nie je horšia o viac ako Δ, máte šťastie! To v skutočnosti znižuje veľkosť vzorky, pretože je jednoduchšie preukázať, že B je horšie ako A, ak si v skutočnosti myslíte, že je skôr o niečo horšie ako rovnaké.

Príklad s riešením

Povedzme, že chcete prejsť na verziu B za predpokladu, že nie je o viac ako 0,1 bodu horšia ako verzia A na 5-bodovej škále spokojnosti zákazníkov... Pristúpme k tomuto problému pomocou hypotézy nadradenosti.

Na testovanie hypotézy nadradenosti by sme veľkosť vzorky vypočítali takto:

Kedy by sme mali testovať hypotézu noninferiority?

To znamená, že ak máte vo svojej skupine 2103 pozorovaní, môžete si byť na 90 % istí, že nájdete veľkosť efektu 0,10 alebo väčšiu. Ak je však pre vás 0,10 príliš vysoká hodnota, nemusí byť vhodné testovať hypotézu nadradenosti. Pre istotu sa môžete rozhodnúť spustiť štúdiu pre menšiu veľkosť účinku, napríklad 0,05. V tomto prípade budete potrebovať 8407 pozorovaní, to znamená, že vzorka sa zväčší takmer 4-krát. Ale čo keby sme sa držali našej pôvodnej veľkosti vzorky, ale zvýšili by sme silu na 0,99, aby sme boli v bezpečí, keby sme dostali pozitívny výsledok? V tomto prípade bude n pre jednu skupinu 3676, čo je už lepšie, ale zväčšuje veľkosť vzorky o viac ako 50 %. A v dôsledku toho stále jednoducho nebudeme môcť vyvrátiť nulovú hypotézu a nedostaneme odpoveď na našu otázku.

Čo keby sme namiesto toho otestovali hypotézu noninferiority?

Kedy by sme mali testovať hypotézu noninferiority?

Veľkosť vzorky sa vypočíta pomocou rovnakého vzorca okrem menovateľa.
Rozdiely od vzorca použitého na testovanie hypotézy nadradenosti sú nasledovné:

— Z1−α/2 sa nahradí Z1−α, ale ak urobíte všetko podľa pravidiel, nahradíte α = 0,05 α = 0,025, to znamená, že je to rovnaké číslo (1,96)

— (μB−μA) sa objaví v menovateli

— θ (veľkosť efektu) sa nahrádza Δ (rozpätie non-inferiority)

Ak predpokladáme, že µB = µA, potom (µB − µA) = 0 a výpočet veľkosti vzorky pre okraj noninferiority je presne to, čo by sme dostali, keby sme vypočítali nadradenosť pre veľkosť účinku 0,1, skvelé! Môžeme urobiť štúdiu rovnakej veľkosti s rôznymi hypotézami a odlišným prístupom k záverom a dostaneme odpoveď na otázku, na ktorú skutočne chceme odpovedať.

Teraz predpokladajme, že si v skutočnosti nemyslíme, že µB = µA a
Myslíme si, že µB je trochu horšie, možno o 0,01 jednotky. To zvyšuje náš menovateľ, čím sa veľkosť vzorky na skupinu znižuje na 1737 XNUMX.

Čo sa stane, ak je verzia B skutočne lepšia ako verzia A? Odmietame nulovú hypotézu, že B je horšia ako A o viac ako Δ a prijímame alternatívnu hypotézu, že B, ak je horšia, nie je o nič horšia ako A o Δ a môže byť lepšia. Skúste tento záver vložiť do medzifunkčnej prezentácie a uvidíte, čo sa stane (vážne, skúste to). V situácii orientovanej na budúcnosť sa nikto nechce uspokojiť s „nie viac ako Δ horšie a možno lepšie“.

V tomto prípade môžeme vykonať štúdiu, ktorá sa veľmi stručne nazýva „testovanie hypotézy, že jedna z možností je lepšia alebo nižšia ako druhá“. Používa dve sady hypotéz:

Prvý súbor (rovnako ako testovanie hypotézy nie menejcennosti):

Kedy by sme mali testovať hypotézu noninferiority?

Druhý súbor (rovnako ako pri testovaní hypotézy nadradenosti):

Kedy by sme mali testovať hypotézu noninferiority?

Druhú hypotézu testujeme iba v prípade, že prvú zamietneme. Pri sekvenčnom testovaní zachovávame celkovú chybovosť typu I (α). V praxi sa to dá dosiahnuť vytvorením 95 % intervalu spoľahlivosti pre rozdiel medzi priemerom a testovaním, aby sa určilo, či je celý interval väčší ako -Δ. Ak interval nepresiahne -Δ, nemôžeme odmietnuť nulovú hodnotu a zastaviť. Ak je celý interval skutočne väčší ako −Δ, budeme pokračovať a uvidíme, či interval obsahuje 0.

Existuje ďalší typ výskumu, o ktorom sme nehovorili – štúdie ekvivalencie.

Tieto typy štúdií môžu byť nahradené štúdiami noninferiority a naopak, ale v skutočnosti majú dôležitý rozdiel. Cieľom pokusu o neinferiorite je ukázať, že možnosť B je aspoň taká dobrá ako možnosť A. Cieľom pokusu o rovnocennosti je ukázať, že možnosť B je aspoň taká dobrá ako možnosť A. Možnosť A je taká dobrá ako možnosť B, čo je ťažšie. V podstate sa snažíme určiť, či celý interval spoľahlivosti pre rozdiel v priemeroch leží medzi −Δ a Δ. Takéto štúdie si vyžadujú väčšiu veľkosť vzorky a vykonávajú sa menej často. Takže nabudúce, keď budete vykonávať štúdiu, v ktorej je vaším hlavným cieľom zabezpečiť, aby nová verzia nebola horšia, neuspokojte sa s „neodmietnutím nulovej hypotézy“. Ak chcete otestovať skutočne dôležitú hypotézu, zvážte rôzne možnosti.

Zdroj: hab.com

Pridať komentár