Kdaj naj preizkusimo hipotezo o neinferiornosti?

Kdaj naj preizkusimo hipotezo o neinferiornosti?
Članek ekipe Stitch Fix predlaga uporabo pristopa preskusov neinferiornosti pri trženju in A/B testiranju izdelkov. Ta pristop resnično velja, ko preizkušamo novo rešitev, ki ima prednosti, ki jih s testi ni mogoče izmeriti.

Najenostavnejši primer je izguba kostne mase. Na primer, avtomatizirajmo postopek dodeljevanja prve lekcije, vendar ne želimo preveč opustiti pretvorbe od konca do konca. Ali pa testiramo spremembe, ki so osredotočene na en segment uporabnikov, pri tem pa pazimo, da konverzije za druge segmente ne upadejo preveč (pri testiranju več hipotez ne pozabite na popravke).

Izbira prave meje neinferiornosti dodaja dodatne izzive v fazi načrtovanja testa. Vprašanje, kako izbrati Δ, v članku ni dobro obravnavano. Zdi se, da ta izbira tudi v kliničnih preskušanjih ni povsem transparentna. Pregled medicinske publikacije o neinferiornosti poročajo, da le polovica objav utemeljuje izbiro meje in pogosto so te utemeljitve dvoumne ali niso podrobne.

V vsakem primeru se ta pristop zdi zanimiv, saj Z zmanjšanjem zahtevane velikosti vzorca lahko poveča hitrost testiranja in s tem hitrost odločanja. — Daria Mukhina, produktni analitik za mobilno aplikacijo Skyeng.

Ekipa Stitch Fix rada testira različne stvari. Celotna tehnološka skupnost v bistvu rada izvaja teste. Katera različica spletnega mesta pritegne več uporabnikov - A ali B? Ali različica A priporočljivega modela zasluži več kot različica B? Skoraj vedno za preverjanje hipotez uporabimo najpreprostejši pristop iz tečaja osnovne statistike:

Kdaj naj preizkusimo hipotezo o neinferiornosti?

Čeprav redko uporabljamo izraz, to obliko testiranja imenujemo »testiranje hipoteze o superiornosti«. Pri tem pristopu predpostavljamo, da med obema možnostma ni razlike. Ostajamo pri tej ideji in jo opustimo le, če so ugotovitve dovolj prepričljive, da to upravičujejo – to pomeni, da kaže, da je ena možnost (A ali B) boljša od druge.

Testiranje hipotez o superiornosti je primerno za reševanje različnih problemov. Različico B priporočljivega modela izdamo le, če je očitno boljša od različice A, ki je že v uporabi. Toda v nekaterih primerih ta pristop ne deluje tako dobro. Poglejmo si nekaj primerov.

1) Uporabljamo storitev tretje osebe, ki pomaga prepoznati lažne bančne kartice. Našli smo še eno storitev, ki stane bistveno manj. Če bo cenejša storitev delovala tako dobro kot tista, ki jo trenutno uporabljamo, jo bomo izbrali. Ni nujno, da je boljša od storitve, ki jo uporabljate.

2) Želimo opustiti vir podatkov A in ga nadomestite z virom podatkov B. Lahko bi odložili opustitev A, če B daje zelo slabe rezultate, vendar ni mogoče nadaljevati z uporabo A.

3) Radi bi se premaknili z modeliranjaPristop A do B, ne zato, ker pričakujemo boljše rezultate od B, ampak zato, ker nam daje več operativne prožnosti. Nimamo razloga, da bi verjeli, da bo B slabši, vendar ne bomo prestopili, če bo.

4) Naredili smo nekaj kakovostnih sprememb oblikovanje spletnega mesta (različica B) in verjamemo, da je ta različica boljša od različice A. Ne pričakujemo sprememb v konverzijah ali katerem koli KPI-ju, po katerem običajno merimo spletno mesto. Vendar verjamemo, da obstajajo prednosti v parametrih, ki so neizmerljivi ali pa naše tehnologije niso dovolj za merjenje.

V vseh teh primerih raziskovanje odličnosti ni najboljša rešitev. Toda večina strokovnjakov v takšnih situacijah ga uporablja privzeto. Previdno izvedemo poskus, da pravilno določimo velikost učinka. Če bi bilo res, da različici A in B delujeta na zelo podoben način, je verjetno, da ne bomo mogli zavrniti ničelne hipoteze. Ali sklepamo, da A in B na splošno delujeta na enak način? ne! Nezavrnitev ničelne hipoteze in sprejetje ničelne hipoteze nista ista stvar.

Izračuni velikosti vzorca (ki ste jih seveda izvedli) imajo običajno strožje omejitve glede napake tipa I (verjetnost napačne zavrnitve ničelne hipoteze, pogosto imenovane alfa) kot napake tipa II (verjetnost neuspešne zavrnitve ničelne hipoteze hipoteza, pod pogojem, da je ničelna hipoteza napačna, pogosto imenovana beta). Tipična vrednost za alfa je 0,05, medtem ko je tipična vrednost za beta 0,20, kar ustreza statistični moči 0,80. To pomeni, da morda ne bomo zaznali pravega učinka vrednosti, ki smo jo navedli v naših izračunih moči z verjetnostjo 20 %, kar je precej resna vrzel v informacijah. Za primer razmislimo o naslednjih hipotezah:

Kdaj naj preizkusimo hipotezo o neinferiornosti?

H0: moj nahrbtnik NI v moji sobi (3)
H1: moj nahrbtnik je v moji sobi (4)

Če bi preiskal svojo sobo in našel svoj nahrbtnik, super, lahko opustim ničelno hipotezo. Če pa pogledam po sobi in ne najdem svojega nahrbtnika (slika 1), kakšen sklep naj naredim? Sem prepričan, da ga ni? Sem dovolj natančno iskal? Kaj če bi preiskal samo 80% sobe? Sklep, da v sobi zagotovo ni nahrbtnika, bi bila nepremišljena odločitev. Ni čudno, da ne moremo "sprejeti ničelne hipoteze".
Kdaj naj preizkusimo hipotezo o neinferiornosti?
Območje, ki smo ga preiskali
Nahrbtnika nismo našli – naj sprejmemo ničelno hipotezo?

Slika 1. Preiskati 80 % prostora je približno enako, kot če bi iskali z 80 % moči. Če po ogledu 80% prostora niste našli nahrbtnika, lahko sklepate, da ga ni?

Kaj naj torej stori podatkovni znanstvenik v tej situaciji? Lahko močno povečate moč študije, vendar boste potem potrebovali veliko večji vzorec, rezultat pa bo še vedno nezadovoljiv.

Na srečo se tovrstne težave v svetu kliničnih raziskav že dolgo preučujejo. Zdravilo B je cenejše od zdravila A; zdravilo B naj bi povzročilo manj stranskih učinkov kot zdravilo A; zdravilo B je lažje transportirati, ker ga ni treba hladiti, zdravilo A pa. Preverimo hipotezo o neinferiornosti. To naj bi pokazalo, da je različica B prav tako dobra kot različica A – vsaj znotraj neke vnaprej določene »ne manj učinkovite« meje, Δ. O tem, kako nastaviti to mejo, bomo več govorili kasneje. Toda za zdaj predpostavimo, da je to minimalna razlika, ki je praktično pomembna (v kontekstu kliničnih preskušanj se temu običajno reče klinični pomen).

Hipoteze o nič manjši učinkovitosti postavljajo vse na glavo:

Kdaj naj preizkusimo hipotezo o neinferiornosti?

Namesto predpostavke, da ni razlike, predpostavljamo, da je različica B slabša od različice A, in te predpostavke se bomo držali, dokler ne dokažemo, da temu ni tako. To je ravno tista točka, ko je smiselno uporabiti enostransko preverjanje hipotez! V praksi je to mogoče storiti s konstruiranjem intervala zaupanja in ugotavljanjem, ali je interval res večji od Δ (slika 2).
Kdaj naj preizkusimo hipotezo o neinferiornosti?

Izbira Δ

Kako izbrati pravi Δ? Izbirni postopek Δ vključuje statistično utemeljitev in vsebinsko oceno. V svetu kliničnih raziskav obstajajo normativne smernice, ki kažejo, da bi morala biti delta najmanjša klinično pomembna razlika – tista, ki bo pomembna v praksi. Tu je citat iz evropskega priročnika, s katerim se lahko preizkusite: »Če je bila razlika pravilno izbrana, je interval zaupanja, ki v celoti leži med –∆ in 0 … še vedno zadosten, da pokaže nič manjšo učinkovitost. Če se ta rezultat ne zdi sprejemljiv, to pomeni, da ∆ ni bil izbran ustrezno.”

Delta vsekakor ne sme preseči velikosti učinka različice A glede na pravo kontrolo (placebo/brez zdravljenja), saj nas to vodi k sklepu, da je različica B slabša od prave kontrole, hkrati pa kaže "nič manjšo učinkovitost ". Recimo, da je bila ob uvedbi različice A na njenem mestu različica 0 ali pa funkcija sploh ni obstajala (glejte sliko 3).

Na podlagi rezultatov testiranja hipoteze o superiornosti je bila razkrita velikost učinka E (torej domnevno μ^A−μ^0=E). Zdaj je A naš novi standard in želimo se prepričati, da je B tako dober kot A. Drug način za zapis μB−μA≤−Δ (ničelna hipoteza) je μB≤μA−Δ. Če predpostavimo, da je početje enako ali večje od E, potem je μB ≤ μA−E ≤ placebo. Zdaj vidimo, da je naša ocena za μB popolnoma večja od μA−E, kar tako popolnoma ovrže ničelno hipotezo in nam omogoča sklep, da B ni slabši od A, hkrati pa je lahko μB ≤ μ placebo, kar ni tisto, kar potrebujemo. (Slika 3).

Kdaj naj preizkusimo hipotezo o neinferiornosti?
Slika 3. Prikaz tveganja izbire nič manj učinkovite meje. Če je meja previsoka, lahko sklepamo, da B ni slabši od A, vendar se hkrati ne razlikuje od placeba. Ne bomo zamenjali zdravila, ki je očitno učinkovitejše od placeba (A), za zdravilo, ki je enako učinkovito kot placebo.

Izbira α

Preidimo k izbiri α. Uporabite lahko standardno vrednost α = 0,05, vendar to ni povsem pošteno. Kot na primer, ko kupite nekaj na internetu in uporabite več kod za popust hkrati, čeprav jih ne bi smeli seštevati - razvijalec je naredil napako in vi ste se izognili. Po pravilih mora biti vrednost α enaka polovici vrednosti α, ki se uporablja pri preverjanju hipoteze o superiornosti, to je 0,05 / 2 = 0,025.

Velikost vzorca

Kako oceniti velikost vzorca? Če predpostavite, da je prava povprečna razlika med A in B enaka 0, potem je izračun velikosti vzorca enak kot pri preizkusu hipoteze o superiornosti, le da velikost učinka nadomestite z mejo nič manjše učinkovitosti, pod pogojem, da uporaba α nič manj učinkovit = 1/2 α superiornost (αneinferiornost=1/2αsuperiornost). Če imate razlog za domnevo, da je možnost B morda nekoliko slabša od možnosti A, vendar želite dokazati, da ni več kot Δ slabša, potem imate srečo! To dejansko zmanjša velikost vzorca, ker je lažje dokazati, da je B slabši od A, če dejansko mislite, da je nekoliko slabši, ne enak.

Primer rešitve

Recimo, da želite nadgraditi na različico B, pod pogojem, da ni več kot 0,1 točke slabša od različice A na 5-stopenjski lestvici zadovoljstva strank ... K temu problemu pristopimo s hipotezo o superiornosti.

Za preizkus hipoteze o superiornosti bi velikost vzorca izračunali na naslednji način:

Kdaj naj preizkusimo hipotezo o neinferiornosti?

To pomeni, da če imate 2103 opazovanj v skupini, ste lahko 90 % prepričani, da boste našli učinek 0,10 ali več. Toda če je 0,10 za vas previsoko, morda ne bi bilo vredno testirati hipoteze o superiornosti zanj. Morda boste želeli zagotoviti, da boste študijo izvedli za manjšo velikost učinka, na primer 0,05. V tem primeru boste potrebovali 8407 opazovanj, kar pomeni, da se bo vzorec povečal za skoraj 4-krat. Kaj pa, če ostanemo pri prvotni velikosti vzorca, vendar povečamo moč na 0,99, da ne dvomimo, ali bomo dobili pozitiven rezultat? V tem primeru bo n za eno skupino 3676, kar je že bolje, vendar poveča velikost vzorca za več kot 50 %. In posledično še vedno preprosto ne bomo mogli ovreči ničelne hipoteze in ne bomo dobili odgovora na naše vprašanje.

Kaj pa, če namesto tega preizkusimo hipotezo o nič manjši učinkovitosti?

Kdaj naj preizkusimo hipotezo o neinferiornosti?

Velikost vzorca bo izračunana z isto formulo, razen za imenovalec.
Razlike od formule, uporabljene pri testiranju hipoteze o superiornosti, so naslednje:

- Z1−α/2 zamenjamo z Z1−α, če pa delamo vse po pravilih, zamenjamo α = 0,05 z α = 0,025, to je enako število (1,96)

- pojavi se v imenovalcu (μB−μA)

- θ (velikost učinka) se nadomesti z Δ (meja nič manjše učinkovitosti)

Če predpostavimo, da je µB = µA, potem je (µB − µA) = 0 in je izračun velikosti vzorca za mejo neinferiornosti točno to, kar bi dobili pri izračunu superiornosti za velikost učinka 0,1, super! Lahko naredimo študijo istega obsega z različnimi hipotezami in drugačnim pristopom k zaključkom in dobili bomo odgovor na vprašanje, na katerega resnično želimo odgovoriti.

Zdaj pa predpostavimo, da res ne verjamemo, da je µB = µA in
menimo, da je µB nekoliko slabši, morda za 0,01 enote. To poveča naš imenovalec in zmanjša velikost vzorca na skupino na 1737.

Kaj se zgodi, če je različica B dejansko boljša od različice A? Zavrnemo ničelno hipotezo, da je B slabši od A za več kot ∆, in sprejmemo alternativno hipotezo, da B, če je slabši, ni slabši od ∆ in je lahko boljši. Poskusite ta sklep umestiti v medfunkcionalno predstavitev in poglejte, kaj se bo zgodilo (resno, poskusite). V situaciji, ko morate biti usmerjeni v prihodnost, se nihče ne želi zadovoljiti s "slabšim kot Δ in morda boljšim."

V tem primeru lahko izvedemo študijo, ki se zelo na kratko imenuje "testiranje hipoteze, da je ena od možnosti boljša ali slabša od druge." Uporablja dva niza hipotez:

Prvi niz (enako kot pri testiranju hipoteze nič manjše učinkovitosti):

Kdaj naj preizkusimo hipotezo o neinferiornosti?

Drugi niz (enako kot pri testiranju hipoteze o superiornosti):

Kdaj naj preizkusimo hipotezo o neinferiornosti?

Drugo hipotezo preizkusimo le, če prvo zavrnemo. Pri zaporednem testiranju ohranjamo skupno raven napak tipa I (α). V praksi je to mogoče doseči z ustvarjanjem 95-odstotnega intervala zaupanja za razliko med srednjimi vrednostmi in preverjanjem, ali je celoten interval večji od -Δ. Če interval ne presega -Δ, ne moremo zavrniti ničelne vrednosti in se ustaviti. Če je celoten interval res večji od −Δ, bomo videli, ali interval vsebuje 0.

Obstaja še ena vrsta raziskav, o kateri nismo razpravljali – študije enakovrednosti.

Tovrstne študije je mogoče nadomestiti s študijami za preverjanje hipoteze o nič manjši učinkovitosti in obratno, vendar imajo same po sebi pomembno razliko. Namen testa neinferiornosti je pokazati, da je možnost B vsaj tako dobra kot A. Študija enakovrednosti pa želi pokazati, da je možnost B vsaj tako dobra kot A, možnost A pa enako dobra kot B, ki je težja. . V bistvu poskušamo ugotoviti, ali je celoten interval zaupanja za razliko med srednjimi vrednostmi med −∆ in ∆. Takšne študije zahtevajo večje velikosti vzorcev in se izvajajo manj pogosto. Torej, ko boste naslednjič izvajali študijo, kjer je vaša glavna skrb zagotoviti, da je nova različica tako dobra, se ne zadovoljite s tem, da "ničelne hipoteze ne boste ovrgli." Če želite preizkusiti res pomembno hipotezo, razmislite o različnih možnostih.

Vir: www.habr.com

Dodaj komentar