🥇Kailan sulit na subukan ang hypothesis ng non-inferiority?

Iminumungkahi ng isang artikulo mula sa koponan ng Stitch Fix ang paggamit ng diskarte sa mga pagsubok na hindi kababaan sa marketing at mga pagsubok sa A/B ng produkto. Nalalapat talaga ang diskarteng ito kapag sumusubok tayo ng bagong solusyon na may mga benepisyong hindi nasusukat ng mga pagsubok.

Ang pinakasimpleng halimbawa ay ang pagbabawas ng gastos. Halimbawa, awtomatiko namin ang proseso ng pagtatalaga ng unang aralin, ngunit ayaw naming makabuluhang bawasan ang end-to-end na conversion. O sinusubukan namin ang mga pagbabago na naglalayong sa isang segment ng mga user, habang tinitiyak na hindi gaanong bumababa ang mga conversion para sa iba pang mga segment (kapag sinusubukan ang ilang hypotheses, huwag kalimutan ang tungkol sa mga pagbabago).

Ang pagpili sa tamang margin na hindi mababa ay nagdaragdag ng mga karagdagang hamon sa yugto ng disenyo ng pagsubok. Ang tanong kung paano pumili ng Δ ay hindi masyadong sakop sa artikulo. Tila ang pagpipiliang ito ay hindi ganap na malinaw sa mga klinikal na pagsubok. Repasuhin Ang mga medikal na publikasyon sa hindi kababaan ay nag-uulat na kalahati lamang ng mga publikasyon ang nagbibigay-katwiran sa pagpili ng hangganan, at kadalasan ang mga katwiran na ito ay malabo o hindi detalyado.

Sa anumang kaso, ang diskarte na ito ay tila kawili-wili dahil... sa pamamagitan ng pagbabawas ng kinakailangang laki ng sample, maaari nitong palakihin ang bilis ng pagsubok, at, samakatuwid, ang bilis ng paggawa ng desisyon. — Daria Mukhina, analyst ng produkto para sa Skyeng mobile application.

Gustung-gusto ng koponan ng Stitch Fix na subukan ang iba't ibang bagay. Gustung-gusto ng buong komunidad ng teknolohiya na magpatakbo ng mga pagsubok sa prinsipyo. Aling bersyon ng site ang nakakaakit ng mas maraming user - A o B? Mas kumikita ba ang bersyon A ng modelo ng rekomendasyon kaysa sa bersyon B? Upang subukan ang mga hypotheses, halos palaging ginagamit namin ang pinakasimpleng diskarte mula sa pangunahing kurso sa istatistika:

Bagama't bihira naming gamitin ang termino, ang paraan ng pagsubok na ito ay tinatawag na "superiority hypothesis testing." Sa diskarteng ito, ipinapalagay namin na walang pagkakaiba sa pagitan ng dalawang pagpipilian. Nananatili kami sa ideyang ito at abandunahin lamang ito kung sapat na ang pag-uudyok ng data na gawin ito—iyon ay, ipinapakita nito na ang isa sa mga opsyon (A o B) ay mas mahusay kaysa sa isa.

Ang pagsubok sa superiority hypothesis ay angkop para sa iba't ibang problema. Inilalabas lang namin ang bersyon B ng isang modelo ng rekomendasyon kung ito ay malinaw na mas mahusay kaysa sa bersyon A na ginagamit na. Ngunit sa ilang mga kaso, ang diskarteng ito ay hindi gumagana nang maayos. Tingnan natin ang ilang halimbawa.

1) Gumagamit kami ng serbisyo ng third party, na tumutulong sa pagtukoy ng mga pekeng bank card. Nakakita kami ng isa pang serbisyo na mas mura. Kung gumagana ang isang mas murang serbisyo tulad ng kasalukuyang ginagamit namin, pipiliin namin ito. Hindi ito kailangang maging mas mahusay kaysa sa serbisyong iyong ginagamit.

2) Gusto naming iwanan ang data source A at palitan ito ng data source B. Maaari naming maantala ang pag-abandona sa A kung ang B ay magbubunga ng napakasamang resulta, ngunit hindi posibleng ipagpatuloy ang paggamit ng A.

3) Nais naming lumipat mula sa isang diskarte sa pagmomodeloAng diskarte ng A hanggang B ay hindi dahil inaasahan namin ang mas mahusay na mga resulta mula sa B, ngunit dahil nagbibigay ito sa amin ng higit na kakayahang umangkop sa pagpapatakbo. Wala kaming dahilan upang maniwala na mas malala ang B, ngunit hindi kami gagawa ng paglipat kung ito ang kaso.

4) Gumawa kami ng ilang mga pagbabago sa kalidad sa disenyo ng website (bersyon B) at naniniwala na ang bersyong ito ay mas mataas sa bersyon A. Hindi namin inaasahan ang mga pagbabago sa conversion o alinman sa mga pangunahing tagapagpahiwatig ng pagganap kung saan karaniwang sinusuri namin ang isang website. Ngunit naniniwala kami na may mga benepisyo sa mga parameter na alinman sa hindi nasusukat o ang aming teknolohiya ay hindi sapat upang sukatin.

Sa lahat ng mga kasong ito, hindi ang superyoridad na pananaliksik ang pinakaangkop na solusyon. Ngunit karamihan sa mga espesyalista sa ganitong mga sitwasyon ay gumagamit nito bilang default. Maingat naming isinasagawa ang eksperimento upang matukoy nang tama ang laki ng epekto. Kung totoo na gumagana ang bersyon A at B sa halos magkatulad na paraan, may pagkakataon na mabibigo tayong tanggihan ang null hypothesis. Napagpasyahan ba natin na ang A at B ay gumaganap ng pareho? Hindi! Ang pagkabigong tanggihan ang null hypothesis at pagtanggap ng null hypothesis ay hindi pareho.

Ang mga kalkulasyon sa laki ng sample (na, siyempre, nagawa mo na) ay karaniwang ginagawa nang may mas mahigpit na mga hangganan para sa Type I error (ang posibilidad ng hindi pagtanggi sa null hypothesis, madalas na tinatawag na alpha) kaysa sa Type II error (ang posibilidad ng hindi pagtanggi ang null hypothesis, ibinigay na kundisyon na ang null hypothesis ay mali, kadalasang tinatawag na beta). Ang karaniwang halaga para sa alpha ay 0,05, habang ang karaniwang halaga para sa beta ay 0,20, na tumutugma sa isang istatistikal na kapangyarihan na 0,80. Nangangahulugan ito na mayroong 20% na pagkakataon na makaligtaan namin ang tunay na epekto ng dami na aming tinukoy sa aming mga kalkulasyon ng kapangyarihan, at iyon ay isang medyo seryosong agwat sa impormasyon. Bilang halimbawa, isaalang-alang natin ang mga sumusunod na hypotheses:

H0: WALA sa kwarto ko ang backpack ko (3)
H1: nasa kwarto ko ang backpack ko (4)

Kung hinanap ko ang aking silid at nakita ko ang aking backpack, mahusay, maaari kong tanggihan ang null hypothesis. Ngunit kung tumingin ako sa paligid ng silid at hindi ko mahanap ang aking backpack (Figure 1), anong konklusyon ang dapat kong iguhit? Sigurado ba akong wala yun? Nagmukha ba akong matigas? Paano kung 80% lang ng kwarto ang hinanap ko? Ang konklusyon na ang backpack ay tiyak na wala sa silid ay isang padalus-dalos na desisyon. Hindi nakakagulat na hindi natin maaaring "tanggapin ang null hypothesis."

Ang lugar na hinanap namin
Hindi namin nahanap ang backpack - dapat ba naming tanggapin ang null hypothesis?

Figure 1: Ang paghahanap sa 80% ng isang kwarto ay halos kapareho ng paghahanap sa 80% na kapangyarihan. Kung hindi mo mahanap ang backpack pagkatapos hanapin ang 80% ng silid, maaari mong tapusin na wala ito doon?

Kaya ano ang dapat gawin ng isang data scientist sa sitwasyong ito? Maaari mong lubos na mapataas ang kapangyarihan ng pag-aaral, ngunit pagkatapos ay kakailanganin mo ng mas malaking sukat ng sample at ang resulta ay hindi pa rin kasiya-siya.

Sa kabutihang palad, ang mga naturang problema ay matagal nang pinag-aralan sa mundo ng klinikal na pananaliksik. Ang gamot B ay mas mura kaysa sa gamot A; Ang Drug B ay inaasahang magdulot ng mas kaunting side effect kaysa sa Drug A; ang gamot B ay mas madaling dalhin dahil hindi ito kailangang palamigin, ngunit ang gamot A ay kailangan. Subukan natin ang hypothesis ng non-inferiority. Ito ay upang ipakita na ang bersyon B ay kasing ganda ng bersyon A—kahit man lang sa loob ng ilang paunang natukoy na noninferiority margin, Δ. Pag-uusapan natin ang higit pa tungkol sa kung paano itakda ang limitasyong ito sa ibang pagkakataon. Ngunit sa ngayon, ipagpalagay natin na ito ang pinakamaliit na pagkakaiba na praktikal na makabuluhan (sa konteksto ng mga klinikal na pagsubok, ito ay karaniwang tinatawag na klinikal na kahalagahan).

Ang mga hypotheses na hindi kababaan ay ibinabalik ang lahat sa ulo nito:

Ngayon, sa halip na ipagpalagay na walang pagkakaiba, ipagpalagay namin na ang bersyon B ay mas masahol kaysa sa bersyon A, at mananatili kami sa pagpapalagay na ito hanggang sa ipakita namin na hindi ito ang kaso. Ito ang eksaktong sandali kung kailan makatuwirang gumamit ng one-sided hypothesis testing! Sa pagsasagawa, ito ay maaaring gawin sa pamamagitan ng pagbuo ng isang agwat ng kumpiyansa at pagtukoy kung ang agwat ay talagang mas malaki kaysa sa Δ (Larawan 2).

Piliin ang Δ

Paano pumili ng tamang Δ? Kasama sa proseso ng pagpili ng Δ ang istatistikal na pagbibigay-katwiran at substantive na pagsusuri. Sa mundo ng klinikal na pananaliksik, may mga regulasyong alituntunin na nagdidikta na ang delta ay dapat kumatawan sa pinakamaliit na klinikal na makabuluhang pagkakaiba—isa na makakagawa ng pagkakaiba sa pagsasanay. Narito ang isang quote mula sa European guidelines para subukan ang iyong sarili sa: “Kung ang pagkakaiba ay napili nang tama, ang isang confidence interval na ganap na nasa pagitan ng –∆ at 0… ay sapat pa rin upang ipakita ang hindi pagiging mababa. Kung ang resultang ito ay mukhang hindi katanggap-tanggap, nangangahulugan ito na ang ∆ ay hindi napili nang naaangkop.”

Ang delta ay tiyak na hindi dapat lumampas sa laki ng epekto ng bersyon A na may kaugnayan sa tunay na kontrol (placebo/walang paggamot), dahil ito ay humahantong sa amin na sabihin na ang bersyon B ay mas masama kaysa sa tunay na kontrol, habang sa parehong oras ay nagpapakita ng "hindi kababaan. .” Ipagpalagay natin na kapag ang bersyon A ay ipinakilala, ito ay pinalitan ng bersyon 0 o ang tampok ay hindi umiiral (tingnan ang Larawan 3).

Batay sa mga resulta ng pagsubok sa superiority hypothesis, ang laki ng epekto E ay ipinahayag (iyon ay, siguro μ^A−μ^0=E). Ngayon ang A ay ang aming bagong pamantayan, at gusto naming tiyakin na ang B ay kasinghusay ng A. Ang isa pang paraan ng pagsulat ng μB−μA≤−Δ (null hypothesis) ay μB≤μA−Δ. Kung ipagpalagay namin na ang gawin ay katumbas o mas malaki kaysa sa E, pagkatapos ay μB ≤ μA−E ≤ placebo. Ngayon nakita namin na ang aming pagtatantya para sa μB ay ganap na lumampas sa μA−E, na sa gayon ay ganap na tinatanggihan ang null hypothesis at nagpapahintulot sa amin na tapusin na ang B ay kasing ganda ng A, ngunit sa parehong oras ang μB ay maaaring ≤ μ placebo, na hindi ang kaso.anong kailangan natin. (Larawan 3).

Figure 3. Pagpapakita ng mga panganib ng pagpili ng isang noninferiority margin. Kung ang cutoff ay masyadong mataas, maaari itong tapusin na ang B ay hindi mas mababa sa A, ngunit sa parehong oras ay hindi makilala mula sa placebo. Hindi namin ipagpapalit ang isang gamot na malinaw na mas epektibo kaysa sa placebo (A) para sa isang gamot na kasing epektibo ng placebo.

Pagpili ng α

Lumipat tayo sa pagpili ng α. Maaari mong gamitin ang karaniwang halaga α = 0,05, ngunit hindi ito ganap na patas. Tulad ng, halimbawa, kapag bumili ka ng isang bagay online at gumamit ng ilang mga code ng diskwento nang sabay-sabay, bagama't hindi sila dapat pagsamahin - nagkamali lang ang developer, at nakaligtas ka dito. Ayon sa mga patakaran, ang halaga ng α ay dapat na katumbas ng kalahati ng halaga ng α na ginagamit kapag sinusubukan ang superiority hypothesis, iyon ay, 0,05 / 2 = 0,025.

Laki ng sample

Paano tantiyahin ang laki ng sample? Kung naniniwala ka na ang tunay na pagkakaiba sa pagitan ng A at B ay 0, kung gayon ang pagkalkula ng laki ng sample ay kapareho ng kapag sinusuri ang hypothesis ng superiority, maliban na palitan mo ang laki ng epekto ng noninferiority margin, sa kondisyon na gagamit ka αhindi mababang kahusayan = 1/2αsuperyoridad (αnon-inferiority=1/2αsuperiority). Kung mayroon kang dahilan upang maniwala na ang opsyon B ay maaaring bahagyang mas masahol kaysa sa opsyon A, ngunit gusto mong patunayan na ito ay mas malala ng hindi hihigit sa Δ, kung gayon ikaw ay maswerte! Talagang binabawasan nito ang laki ng iyong sample dahil mas madaling ipakita na mas masahol pa ang B kaysa sa A kung sa tingin mo ay mas malala ito nang bahagya kaysa katumbas.

Halimbawa na may solusyon

Sabihin nating gusto mong mag-upgrade sa bersyon B, sa kondisyon na ito ay hindi hihigit sa 0,1 point na mas masahol kaysa sa bersyon A sa isang 5-point na sukatan ng kasiyahan ng customer... Ating lapitan ang problemang ito gamit ang superiority hypothesis.

Upang subukan ang superiority hypothesis, kakalkulahin namin ang sample size bilang mga sumusunod:

Iyon ay, kung mayroon kang 2103 na obserbasyon sa iyong grupo, maaari kang maging 90% kumpiyansa na makakahanap ka ng laki ng epekto na 0,10 o mas malaki. Ngunit kung ang 0,10 ay masyadong mataas para sa iyo, maaaring hindi sulit na subukan ang superiority hypothesis para sa. Upang maging ligtas, maaari kang magpasya na patakbuhin ang pag-aaral para sa mas maliit na laki ng epekto, gaya ng 0,05. Sa kasong ito, kakailanganin mo ng 8407 na mga obserbasyon, iyon ay, ang sample ay tataas ng halos 4 na beses. Ngunit paano kung manatili kami sa aming orihinal na laki ng sample, ngunit tumaas ang kapangyarihan sa 0,99 para maging ligtas kami kung nakakuha kami ng positibong resulta? Sa kasong ito, ang n para sa isang pangkat ay magiging 3676, na mas mahusay na, ngunit pinapataas ang laki ng sample ng higit sa 50%. At bilang isang resulta, hindi pa rin namin magagawang pabulaanan ang null hypothesis, at hindi kami makakatanggap ng sagot sa aming tanong.

Paano kung sa halip ay sinubukan natin ang noninferiority hypothesis?

Ang laki ng sample ay kakalkulahin gamit ang parehong formula maliban sa denominator.
Ang mga pagkakaiba mula sa formula na ginamit upang subukan ang superiority hypothesis ay ang mga sumusunod:

— Ang Z1−α/2 ay pinalitan ng Z1−α, ngunit kung gagawin mo ang lahat ayon sa mga patakaran, papalitan mo ang α = 0,05 ng α = 0,025, iyon ay, ito ay ang parehong numero (1,96)

— (μB−μA) ay lilitaw sa denominator

— Ang θ (laki ng epekto) ay pinalitan ng Δ (margin of non-inferiority)

Kung ipagpalagay natin na µB = µA, kung gayon (µB − µA) = 0 at ang pagkalkula ng laki ng sample para sa noninferiority margin ay eksakto kung ano ang makukuha natin kung kalkulahin natin ang superiority para sa laki ng epekto na 0,1, mahusay! Maaari tayong gumawa ng isang pag-aaral ng parehong laki na may iba't ibang mga hypotheses at ibang diskarte sa mga konklusyon, at makukuha natin ang sagot sa tanong na talagang gusto nating sagutin.

Ngayon ipagpalagay na hindi talaga natin iniisip na µB = µA at
Sa tingin namin, ang µB ay medyo lumala, marahil sa pamamagitan ng 0,01 na mga yunit. Pinapataas nito ang aming denominator, na binabawasan ang laki ng sample bawat pangkat sa 1737.

Ano ang mangyayari kung ang bersyon B ay talagang mas mahusay kaysa sa bersyon A? Tinatanggihan namin ang null hypothesis na ang B ay mas masahol kaysa sa A nang higit sa Δ at tinatanggap ang alternatibong hypothesis na ang B, kung mas masahol pa, ay hindi mas masahol kaysa sa A ng Δ at maaaring mas mahusay. Subukang ilagay ang konklusyong ito sa isang cross-functional na presentasyon at tingnan kung ano ang mangyayari (seryoso, subukan ito). Sa isang forward-looking na sitwasyon, walang gustong manirahan sa "hindi hihigit sa Δ na mas masahol pa at maaaring mas mabuti."

Sa kasong ito, maaari tayong magsagawa ng isang pag-aaral, na tinatawag na napakaikling "pagsubok sa hypothesis na ang isa sa mga opsyon ay mas mataas o mas mababa kaysa sa isa." Gumagamit ito ng dalawang set ng hypotheses:

Unang set (katulad ng pagsubok sa non-inferiority hypothesis):

Pangalawang set (katulad ng kapag sinusubukan ang superiority hypothesis):

Sinusubukan lamang namin ang pangalawang hypothesis kung ang una ay tinanggihan. Kapag sunud-sunod ang pagsubok, pinapanatili namin ang pangkalahatang rate ng error sa Type I (α). Sa pagsasagawa, ito ay maaaring makamit sa pamamagitan ng paglikha ng 95% na agwat ng kumpiyansa para sa pagkakaiba sa pagitan ng mga paraan at pagsubok upang matukoy kung ang buong agwat ay mas malaki sa -Δ. Kung ang pagitan ay hindi lalampas sa -Δ, hindi namin maaaring tanggihan ang null na halaga at huminto. Kung ang buong pagitan ay talagang mas malaki kaysa sa −Δ, magpapatuloy tayo at titingnan kung ang pagitan ay naglalaman ng 0.

May isa pang uri ng pananaliksik na hindi natin napag-usapan - ang mga pag-aaral ng equivalence.

Ang mga uri ng pag-aaral na ito ay maaaring palitan ng mga pag-aaral na hindi kababaan at kabaligtaran, ngunit mayroon silang mahalagang pagkakaiba. Nilalayon ng isang noninferiority trial na ipakita na ang opsyon B ay kasinghusay ng A. Ang isang equivalence trial ay naglalayong ipakita na ang opsyon B ay kasinghusay ng A. Ang Opsyon A ay kasinghusay ng B, na mas mahirap. Sa esensya, sinusubukan naming matukoy kung ang buong agwat ng kumpiyansa para sa pagkakaiba sa ibig sabihin ay nasa pagitan ng −Δ at Δ. Ang ganitong mga pag-aaral ay nangangailangan ng mas malaking sukat ng sample at hindi gaanong madalas na isinasagawa. Kaya sa susunod na magsagawa ka ng isang pag-aaral kung saan ang iyong pangunahing layunin ay upang matiyak na ang bagong bersyon ay hindi mas masahol pa, huwag tumira sa "pagkabigong tanggihan ang null hypothesis." Kung gusto mong subukan ang isang talagang mahalagang hypothesis, isaalang-alang ang iba't ibang mga opsyon.

Pinagmulan: www.habr.com

Kailan natin dapat subukan ang noninferiority hypothesis?

Piliin ang Δ

Pagpili ng α

Laki ng sample

Halimbawa na may solusyon

Magdagdag ng komento Kanselahin ang sumagot