Meta għandna nittestjaw l-ipoteżi tan-non-inferjorità?

Meta għandna nittestjaw l-ipoteżi tan-non-inferjorità?
Artiklu mit-tim Stitch Fix jissuġġerixxi l-użu ta 'approċċ ta' provi mhux inferjuri fil-marketing u l-ittestjar tal-prodott A/B. Dan l-approċċ verament japplika meta nkunu qed nittestjaw soluzzjoni ġdida li għandha benefiċċji li ma jistgħux jitkejlu bit-testijiet.

L-iktar eżempju sempliċi huwa t-telf tal-għadam. Pereżempju, ejja awtomatizzaw il-proċess tal-assenjazzjoni tal-ewwel lezzjoni, iżda ma rridux inħallu wisq il-konverżjoni tarf sa tarf. Jew nittestjaw il-bidliet li huma ffukati fuq segment wieħed ta 'utenti, filwaqt li niżguraw li l-konverżjonijiet għal segmenti oħra ma jbatux ħafna (meta tittestja diversi ipoteżi, tinsiex dwar il-korrezzjonijiet).

L-għażla tal-irbit ta' non-inferjorità t-tajba żżid sfidi addizzjonali fl-istadju tad-disinn tat-test. Il-kwistjoni ta 'kif tagħżel Δ mhix koperta sew fl-artikolu. Jidher li din l-għażla mhix kompletament trasparenti lanqas fil-provi kliniċi. Reviżjoni pubblikazzjonijiet mediċi dwar rapporti ta’ non-inferjorità li nofs il-pubblikazzjonijiet biss jiġġustifikaw l-għażla tal-konfini u ħafna drabi dawn il-ġustifikazzjonijiet huma ambigwi jew mhux dettaljati.

Fi kwalunkwe każ, dan l-approċċ jidher interessanti, kif Billi tnaqqas id-daqs tal-kampjun meħtieġ, tista 'żżid il-veloċità tal-ittestjar, u, għalhekk, il-veloċità tat-teħid tad-deċiżjonijiet. — Daria Mukhina, analista tal-prodott għall-app mobbli Skyeng.

It-tim Stitch Fix iħobb jittestja affarijiet differenti. Il-komunità tat-teknoloġija kollha bażikament tħobb tmexxi testijiet. Liema verżjoni tas-sit tattira aktar utenti - A jew B? Il-verżjoni A tal-mudell ta' rakkomandant tagħmel aktar flus mill-verżjoni B? Kważi dejjem, biex nittestjaw l-ipoteżi, nużaw l-aktar approċċ sempliċi mill-kors bażiku tal-istatistika:

Meta għandna nittestjaw l-ipoteżi tan-non-inferjorità?

Għalkemm rari nużaw it-terminu, din il-forma ta 'ttestjar tissejjaħ "ttestjar tal-ipoteżi tas-superjorità". B'dan l-approċċ, nassumu li m'hemm l-ebda differenza bejn iż-żewġ għażliet. Aħna nżommu ma 'din l-idea u nabbandunawha biss jekk is-sejbiet ikunu konvinċenti biżżejjed biex jiġġustifikawha—jiġifieri, turi li għażla waħda (A jew B) hija aħjar mill-oħra.

L-ittestjar tal-ipoteżi tas-superjorità huwa adattat biex isolvi varjetà ta 'problemi. Nirrilaxxaw il-verżjoni B tal-mudell ta 'rakkomandant biss jekk hija b'mod ċar aħjar mill-verżjoni A li diġà qed tintuża. Iżda f'xi każijiet, dan l-approċċ ma jaħdimx daqshekk tajjeb. Ejja nħarsu lejn ftit eżempji.

1) Aħna nużaw servizz ta 'parti terza, li jgħin biex jiġu identifikati karti tal-bank foloz. Sibna servizz ieħor li jiswa ferm inqas. Jekk servizz irħas jaħdem kif ukoll dak li nużaw bħalissa, nagħżluh. M'għandux għalfejn ikun aħjar mis-servizz li qed tuża.

2) Irridu niżżel is-sors tad-dejta A u tibdilha b'sors tad-dejta B. Nistgħu idewwem l-abbandun ta' A jekk B jipproduċi riżultati ħżiena ħafna, iżda mhux possibbli li tkompli tuża A.

3) Nixtiequ nimxu minn approċċ ta 'mudellarL-approċċ minn A għal B, mhux għax nistennew riżultati aħjar minn B, iżda għax jagħtina aktar flessibilità operattiva. M'għandna l-ebda raġuni biex nemmnu li B se tkun agħar, iżda mhux se ngħaddu jekk hux.

4) Għamilna xi bidliet fil-kwalità disinn tal-websajt (Verżjoni B) u nemmnu li din il-verżjoni hija superjuri għall-Verżjoni A. Ma nistennewx bidliet fil-konverżjonijiet jew xi wieħed mill-KPIs li normalment inkejlu websajt kontra. Imma nemmnu li hemm vantaġġi f'parametri li jew ma jitkejlux, jew it-teknoloġiji tagħna mhumiex biżżejjed biex jitkejlu.

F'dawn il-każijiet kollha, ir-riċerka ta 'eċċellenza mhix l-aħjar soluzzjoni. Iżda ħafna mill-ispeċjalisti f'sitwazzjonijiet bħal dawn jużawha awtomatikament. Aħna nwettqu l-esperiment bir-reqqa biex niddeterminaw b'mod korrett il-kobor tal-effett. Kieku kien veru li l-verżjonijiet A u B jaħdmu b'modi simili ħafna, hemm ċans li ma nkunux nistgħu nirrifjutaw l-ipoteżi nulla. Aħna nikkonkludu li A u B ġeneralment jaħdmu bl-istess mod? Le! Li tonqos milli tirrifjuta l-ipoteżi nulla u taċċetta l-ipoteżi nulla mhumiex l-istess ħaġa.

Il-kalkoli tad-daqs tal-kampjun (li għamilt, ovvjament) għandhom it-tendenza li jkollhom limiti aktar stretti fuq l-iżball tat-Tip I (il-probabbiltà li tiċħad ħażin l-ipoteżi nulla, spiss imsejħa alfa) minn żball tat-Tip II (Probabbiltà li tonqos milli tirrifjuta n-null). ipoteżi, minħabba l-kundizzjoni li l-ipoteżi nulla hija falza, spiss imsejħa beta). Valur tipiku għal alpha huwa 0,05 filwaqt li valur tipiku għal beta huwa 0,20, li jikkorrispondi għal qawwa statistika ta '0,80. Dan ifisser li nistgħu ma niskoprux l-effett veru tal-valur li indikajna fil-kalkoli tal-qawwa tagħna bi probabbiltà ta '20% u dan huwa vojt pjuttost serju fl-informazzjoni. Bħala eżempju, ejja nikkunsidraw l-ipoteżijiet li ġejjin:

Meta għandna nittestjaw l-ipoteżi tan-non-inferjorità?

H0: il-backpack tiegħi MHIX fil-kamra tiegħi (3)
H1: il-backpack tiegħi jinsab fil-kamra tiegħi (4)

Jekk fittixt il-kamra tiegħi u sibt il-backpack tiegħi, kbir, nista' niżel l-ipoteżi nulla. Imma jekk ħarist madwar il-kamra u ma stajtx insib il-backpack tiegħi (Figura 1), liema konklużjoni għandi nagħmel? Jien ċert li mhux hemm? Fittixt bir-reqqa biżżejjed? X'jiġri jekk fittxet biss 80% tal-kamra? Li tikkonkludi li żgur m'hemm l-ebda backpack fil-kamra tkun deċiżjoni raxx. Mhux ta’ b’xejn li ma nistgħux “naċċettaw l-ipoteżi nulla”.
Meta għandna nittestjaw l-ipoteżi tan-non-inferjorità?
Iż-żona li fittxejna
Il-backpack ma sibniex – għandna naċċettaw l-ipoteżi nulla?

Figura 1. It-tfittxija ta '80% ta' kamra hija madwar l-istess bħal tagħmel tfittxija b'qawwa ta '80%. Jekk ma sibtx backpack wara li ħarist madwar 80% tal-kamra, tista’ tikkonkludi li mhix hemm?

Allura x'għandu jagħmel xjenzat tad-dejta f'din is-sitwazzjoni? Tista 'żżid ħafna l-qawwa tal-istudju, iżda mbagħad ikollok bżonn daqs ta' kampjun ferm akbar, u r-riżultat xorta jkun mhux sodisfaċenti.

Fortunatament, problemi bħal dawn ilhom jiġu studjati fid-dinja tar-riċerka klinika. Id-droga B hija irħas mid-droga A; il-mediċina B hija mistennija li tikkawża inqas effetti sekondarji mid-droga A; id-droga B hija aktar faċli biex tittrasporta minħabba li m'għandhiex għalfejn tiġi mkessħa, iżda d-droga A għandha. Ejja nittestjaw l-ipoteżi tan-non-inferjorità. Dan biex juri li l-verżjoni B hija tajba daqs il-verżjoni A - għall-inqas f'xi limitu predeterminat "mhux inqas effiċjenti", Δ. Aħna ser nitkellmu aktar dwar kif nissettjaw dan il-limitu ftit aktar tard. Imma għalissa, ejja nassumu li din hija d-differenza minima li hija prattikament sinifikanti (fil-kuntest ta 'provi kliniċi, din is-soltu tissejjaħ sinifikat kliniku).

Ipoteżi dwar mhux inqas effiċjenza jdawwru kollox ta’ taħt fuq:

Meta għandna nittestjaw l-ipoteżi tan-non-inferjorità?

Issa, minflok nassumu li m'hemm l-ebda differenza, nassumu li l-verżjoni B hija agħar mill-verżjoni A, u se nżommu ma 'din is-suppożizzjoni sakemm nuru li dan mhux il-każ. Dan huwa eżattament il-punt meta jagħmel sens li tuża l-ittestjar tal-ipoteżi fuq naħa waħda! Fil-prattika, dan jista 'jsir billi jinbena intervall ta' kunfidenza u jiġi ddeterminat jekk l-intervall huwiex tabilħaqq akbar minn Δ (Figura 2).
Meta għandna nittestjaw l-ipoteżi tan-non-inferjorità?

Għażla Δ

Kif tagħżel id-dritt Δ? Il-proċess tal-għażla Δ jinkludi ġustifikazzjoni statistika u evalwazzjoni sostantiva. Fid-dinja tar-riċerka klinika, hemm linji gwida normattivi li jissuġġerixxu li d-delta għandha tkun l-iżgħar differenza klinikament sinifikanti - waħda li tkun importanti fil-prattika. Hawnhekk hawn kwotazzjoni mill-manwal Ewropew biex tittestja lilek innifsek: “Jekk id-differenza ntgħażlet b’mod korrett, intervall ta’ kunfidenza li jkun kompletament bejn –∆ u 0… għadu biżżejjed biex juri mhux inqas effiċjenza. Jekk dan ir-riżultat ma jidhirx aċċettabbli, ifisser li ∆ ma ntgħażlitx kif xieraq.”

Id-delta żgur m'għandhiex taqbeż id-daqs tal-effett tal-Verżjoni A relattiv għall-kontroll veru (plaċebo/ebda trattament), peress li dan iwassalna biex nikkonkludu li l-Verżjoni B hija agħar mill-kontroll veru, filwaqt li fl-istess ħin turi "mhux inqas effikaċja ". Ejja ngħidu li meta ġiet introdotta l-verżjoni A, il-verżjoni 0 kienet fil-post tagħha, jew il-karatteristika ma kienet teżisti xejn (ara Figura 3).

Ibbażat fuq ir-riżultati tal-ittestjar tal-ipoteżi tas-superjorità, id-daqs tal-effett E ġie żvelat (jiġifieri, preżumibbilment μ^A−μ^0=E). Issa A huwa l-istandard il-ġdid tagħna, u rridu niżguraw li B huwa tajjeb daqs A. Mod ieħor biex tikteb μB−μA≤−Δ (l-ipoteżi nulla) hija μB≤μA−Δ. Jekk nassumu li tagħmel huwa ugwali għal jew akbar minn E, allura μB ≤ μA−E ≤ plaċebo. Issa naraw li l-istima tagħna għal μB hija kompletament akbar minn μA−E, li għalhekk tiċħad kompletament l-ipoteżi nulla u tippermettilna nikkonkludu li B mhuwiex inferjuri għal A, iżda fl-istess ħin, μB jista' jkun ≤ μ plaċebo, li mhuwiex dak li għandna bżonn. (Figura 3).

Meta għandna nittestjaw l-ipoteżi tan-non-inferjorità?
Figura 3. Dimostrazzjoni tar-riskji tal-għażla ta' fruntiera ta' mhux inqas effiċjenza. Jekk il-limitu huwa kbir wisq, jista 'jiġi konkluż li B mhuwiex inferjuri għal A, iżda fl-istess ħin ma jintgħarafx mill-plaċebo. Mhux se nbiddlu mediċina li hija ċarament aktar effettiva mill-plaċebo (A) għal mediċina li hija effettiva daqs il-plaċebo.

Għażla α

Ejja ngħaddu għall-għażla ta' α. Tista 'tuża l-valur standard α = 0,05, iżda dan mhux għal kollox ġust. Bħal, pereżempju, meta tixtri xi ħaġa fuq l-Internet u tuża diversi kodiċijiet ta 'skont f'daqqa, għalkemm m'għandhomx jiġu miżjuda - l-iżviluppatur biss għamel żball, u int tlaqt magħha. Skont ir-regoli, il-valur ta 'α għandu jkun ugwali għal nofs il-valur ta' α, li jintuża fl-ittestjar tal-ipoteżi tas-superjorità, jiġifieri 0,05 / 2 = 0,025.

Daqs tal-kampjun

Kif tistma d-daqs tal-kampjun? Jekk tassumi li d-differenza medja vera bejn A u B hija 0, allura l-kalkolu tad-daqs tal-kampjun huwa l-istess bħal fit-test tal-ipoteżi tas-superjorità, ħlief li tissostitwixxi d-daqs tal-effett b’limitu ta’ mhux inqas effiċjenza, sakemm inti użu α mhux inqas effiċjenti = 1/2 α superjorità (αnon-inferjorità=1/2αsuperjorità). Jekk għandek raġuni biex temmen li l-għażla B tista 'tkun xi ftit agħar mill-għażla A, imma trid tipprova li mhix aktar minn Δ agħar, allura inti xortih! Fil-fatt, dan inaqqas id-daqs tal-kampjun tiegħek għaliex huwa aktar faċli li turi li B huwa agħar minn A jekk fil-fatt taħseb li huwa kemmxejn agħar, mhux ugwali.

Soluzzjoni Eżempju

Ejja ngħidu li trid taġġorna għall-verżjoni B, sakemm ma tkunx aktar minn 0,1 punti agħar mill-verżjoni A fuq skala ta 'sodisfazzjon tal-klijent ta' 5 punti ... Ejja navviċinaw din il-problema billi tuża l-ipoteżi tas-superjorità.

Biex tittestja l-ipoteżi tas-superjorità, aħna nikkalkulaw id-daqs tal-kampjun kif ġej:

Meta għandna nittestjaw l-ipoteżi tan-non-inferjorità?

Jiġifieri, jekk għandek 2103 osservazzjoni fi grupp, tista 'tkun ċert 90% li ssib effett ta' 0,10 jew aktar. Imma jekk 0,10 huwa għoli wisq għalik, jista 'ma jkunx ta' min jittestja l-ipoteżi tas-superjorità għaliha. Tista 'tkun żgur li tmexxi l-istudju għal daqs ta' effett iżgħar, bħal 0,05. F'dan il-każ, ser ikollok bżonn 8407 osservazzjonijiet, jiġifieri, il-kampjun se jiżdied bi kważi 4 darbiet. Imma x'jiġri jekk inżommu mad-daqs oriġinali tal-kampjun tagħna iżda nżidu l-qawwa għal 0,99 sabiex ma niddubitawx jekk iġibux riżultat pożittiv? F'dan il-każ, n għal grupp wieħed se jkun 3676, li diġà huwa aħjar, iżda jżid id-daqs tal-kampjun b'aktar minn 50%. U bħala riżultat, għadna sempliċement mhux se nkunu nistgħu nirrifutaw l-ipoteżi nulla, u mhux se nġibu tweġiba għall-mistoqsija tagħna.

X'jiġri jekk minflok nittestjaw l-ipoteżi ta 'mhux inqas effiċjenza?

Meta għandna nittestjaw l-ipoteżi tan-non-inferjorità?

Id-daqs tal-kampjun jiġi kkalkulat bl-użu tal-istess formula ħlief għad-denominatur.
Id-differenzi mill-formula użata fl-ittestjar tal-ipoteżi tas-superjorità huma kif ġej:

- Z1−α/2 jinbidel b'Z1−α, imma jekk tagħmel kollox skont ir-regoli, tissostitwixxi α = 0,05 b'α = 0,025, jiġifieri, dan huwa l-istess numru (1,96)

- jidher fid-denominatur (μB−μA)

- θ (daqs tal-effett) huwa sostitwit b'Δ (limitu ta 'mhux inqas effiċjenza)

Jekk nassumu li µB = µA, allura (µB − µA) = 0 u l-kalkolu tad-daqs tal-kampjun għall-marġini ta 'non-inferjorità huwa eżattament dak li nġibu meta nikkalkulaw is-superjorità għal daqs tal-effett ta' 0,1, kbir! Nistgħu nagħmlu studju tal-istess skala b'ipoteżi differenti u approċċ differenti għall-konklużjonijiet u se nġibu t-tweġiba għall-mistoqsija li verament irridu nwieġbu.

Issa ejja ngħidu li ma nemmnux verament li µB = µA u
naħsbu li µB huwa daqsxejn agħar, forsi b'0,01 unitajiet. Dan iżid id-denominatur tagħna, u jnaqqas id-daqs tal-kampjun għal kull grupp għal 1737.

X'jiġri jekk il-verżjoni B hija fil-fatt aħjar mill-verżjoni A? Aħna nirrifjutaw l-ipoteżi nulla li B hija agħar minn A b'aktar minn ∆ u naċċettaw l-ipoteżi alternattiva li B, jekk agħar, mhix agħar minn ∆ u tista' tkun aħjar. Ipprova poġġi dik il-konklużjoni fi preżentazzjoni trans-funzjonali u ara x'jiġri (serjament, ipprova). F'sitwazzjoni fejn trid tkun orjentat lejn il-futur, ħadd ma jrid joqgħod għal "agħar minn Δ u possibilment aħjar."

F'dan il-każ, nistgħu nagħmlu studju li jissejjaħ fil-qosor ħafna "jittestja l-ipoteżi li waħda mill-għażliet hija superjuri jew inferjuri għall-oħra." Juża żewġ settijiet ta’ ipoteżijiet:

L-ewwel sett (l-istess bħal meta tiġi ttestjata l-ipoteżi ta 'mhux inqas effiċjenza):

Meta għandna nittestjaw l-ipoteżi tan-non-inferjorità?

It-tieni sett (l-istess bħal meta tiġi ttestjata l-ipoteżi tas-superjorità):

Meta għandna nittestjaw l-ipoteżi tan-non-inferjorità?

Nittestjaw it-tieni ipoteżi biss jekk l-ewwel waħda tiġi miċħuda. Fl-ittestjar sekwenzjali, inżommu l-livell ġenerali ta 'żbalji tat-Tip I (α). Fil-prattika, dan jista 'jinkiseb billi jinħoloq intervall ta' kunfidenza ta '95% għad-differenza bejn il-mezzi u verifika biex tara jekk l-intervall kollu huwiex akbar minn -Δ. Jekk l-intervall ma jaqbiżx -Δ, ma nistgħux niċħdu l-valur żero u nieqfu. Jekk l-intervall kollu huwa tabilħaqq akbar minn -Δ, se nkomplu u naraw jekk l-intervall fihx 0.

Hemm tip ieħor ta’ riċerka li ma ddiskutiex – studji ta’ ekwivalenza.

Studji ta 'dan it-tip jistgħu jiġu sostitwiti bi studji biex tittestja l-ipoteżi ta' mhux inqas effettività u viċi versa, iżda huma stess għandhom differenza importanti. Test ta’ non-inferjorità għandu l-għan li juri li l-għażla B hija mill-inqas tajba daqs A. U studju ta’ ekwivalenza għandu l-għan li juri li l-għażla B hija mill-inqas tajba daqs A, u l-għażla A hija tajba daqs B, li hija aktar diffiċli . Essenzjalment, qed nippruvaw niddeterminaw jekk l-intervall ta' kunfidenza kollu għad-differenza bejn il-mezzi huwiex bejn −∆ u ∆. Studji bħal dawn jeħtieġu daqsijiet ta' kampjuni akbar u jsiru inqas ta' spiss. Allura l-ħin li jmiss li tagħmel studju fejn it-tħassib ewlieni tiegħek huwa li tiżgura li l-verżjoni l-ġdida hija tajba, toqgħodx li "li ma tikkontestax l-ipoteżi nulla." Jekk trid tittestja ipoteżi tassew importanti, ikkunsidra għażliet differenti.

Sors: www.habr.com

Żid kumment