Nalika kita kudu nguji hipotesis noninferioritas?

Nalika kita kudu nguji hipotesis noninferioritas?
Artikel saka tim Stitch Fix nyaranake nggunakake pendekatan uji coba non-inferioritas ing marketing lan tes A / B produk. Pendekatan iki pancen ditrapake nalika kita nyoba solusi anyar sing nduweni keuntungan sing ora diukur kanthi tes.

Conto sing paling gampang yaiku nyuda biaya. Contone, kita ngotomatisasi proses nemtokake pawulangan pisanan, nanging kita ora pengin nyuda konversi end-to-end kanthi signifikan. Utawa kita nguji owah-owahan sing dituju ing siji segmen pangguna, nalika nggawe manawa konversi kanggo segmen liyane ora mudhun akeh (nalika nyoba sawetara hipotesis, aja lali babagan amandemen).

Milih margin non-inferioritas sing bener nambah tantangan tambahan sajrone tahap desain tes. Pitakonan babagan carane milih Δ ora banget dibahas ing artikel kasebut. Katon yen pilihan iki uga ora transparan ing uji klinis. Ringkesan publikasi medical ing laporan non-inferiority sing mung setengah saka publikasi mbecikake pilihan saka wates, lan asring sabdhoning iki ambigu utawa ora rinci.

Ing kasus apa wae, pendekatan iki katon menarik amarga ... kanthi nyuda ukuran sampel sing dibutuhake, bisa nambah kacepetan tes, lan, mula, kacepetan nggawe keputusan. — Daria Mukhina, analis produk kanggo aplikasi seluler Skyeng.

Tim Stitch Fix seneng nyoba macem-macem perkara. Kabeh komunitas teknologi seneng nglakokake tes kanthi prinsip. Versi situs endi sing narik luwih akeh pangguna - A utawa B? Apa versi A saka model rekomendasi nggawe dhuwit luwih akeh tinimbang versi B? Kanggo nguji hipotesis, kita meh tansah nggunakake pendekatan sing paling gampang saka kursus statistik dhasar:

Nalika kita kudu nguji hipotesis noninferioritas?

Senajan kita arang nggunakake istilah, wangun testing iki disebut "superiority hypothesis testing." Kanthi pendekatan iki, kita nganggep manawa ora ana bedane antarane rong pilihan kasebut. We tetep karo idea iki lan mung nilar yen data cukup milutaken kanggo nindakaken-yaiku, iku nduduhake sing siji opsi (A utawa B) luwih apik tinimbang liyane.

Nguji hipotesis superioritas cocok kanggo macem-macem masalah. Kita mung ngeculake versi B saka model rekomendasi yen jelas luwih apik tinimbang versi A sing wis digunakake. Nanging ing sawetara kasus, pendekatan iki ora bisa digunakake kanthi apik. Ayo katon ing sawetara conto.

1) Kita nggunakake layanan pihak katelu, sing mbantu ngenali kertu bank palsu. We ketemu layanan liyane sing biaya Ngartekno kurang. Yen layanan sing luwih murah bisa digunakake kaya sing saiki digunakake, kita bakal milih. Ora kudu luwih apik tinimbang layanan sing sampeyan gunakake.

2) Kita pengin ninggalake sumber data A lan ngganti karo sumber data B. Kita bisa tundha ninggalake A yen B ngasilake asil ala banget, nanging ora bisa kanggo terus nggunakake A.

3) Kita pengin pindhah saka pendekatan modelingPendekatan A nganti B ora amarga kita ngarepake asil sing luwih apik saka B, nanging amarga menehi keluwesan operasional sing luwih gedhe. Kita ora duwe alesan kanggo pracaya sing B bakal Samsaya Awon, nanging kita ora bakal nggawe transisi yen iki cilik.

4) Kita wis nggawe sawetara owah-owahan kualitatif menyang desain situs web (versi B) lan percaya yen versi iki luwih unggul tinimbang versi A. Kita ora ngarep-arep owah-owahan ing konversi utawa indikator kinerja utama sing biasane ngevaluasi situs web. Nanging kita yakin manawa ana keuntungan ing paramèter sing ora bisa diukur utawa teknologi kita ora cukup kanggo ngukur.

Ing kabeh kasus kasebut, riset superioritas dudu solusi sing paling cocog. Nanging umume spesialis ing kahanan kasebut nggunakake standar kasebut. Kita kanthi ati-ati nindakake eksperimen kanggo nemtokake ukuran efek kanthi bener. Yen bener versi A lan B bisa digunakake kanthi cara sing padha, ana kemungkinan kita bakal gagal nolak hipotesis nol. Apa kita nganakke sing A lan B nindakake Sejatine padha? Ora! Gagal nolak hipotesis nol lan ditampa saka hipotesis nol ora padha.

Pitungan ukuran sampel (sing mesthi wis rampung) biasane ditindakake kanthi wates sing luwih ketat kanggo kesalahan Tipe I (kemungkinan gagal nolak hipotesis nol, asring diarani alpha) tinimbang kesalahan Tipe II (kemungkinan gagal nolak. hipotesis nol, diwenehi syarat yen hipotesis nol iku salah, asring disebut beta). Nilai khas kanggo alpha yaiku 0,05, dene nilai khas kanggo beta yaiku 0,20, cocog karo daya statistik 0,80. Iki tegese ana 20% kasempatan kita bakal kantun efek bener saka jumlah kita wis kasebut ing petungan daya kita, lan sing longkangan cukup serius ing informasi. Minangka conto, ayo nimbang hipotesis ing ngisor iki:

Nalika kita kudu nguji hipotesis noninferioritas?

H0: tas ranselku ora ana ing kamarku (3)
H1: tas ranselku nang kamarku (4)

Yen aku nggolèki kamar lan ketemu sandi tas ransel, gedhe, Aku bisa nolak hipotesis null. Nanging yen aku nyawang sak kamar lan ora bisa nemokake tas ransel (Gambar 1), apa kesimpulan sing kudu dakgambar? Apa aku yakin ora ana? Apa aku katon cukup angel? Apa yen aku mung nggoleki 80% saka kamar? Nyimpulake yen tas ransel mesthi ora ana ing kamar bakal dadi keputusan sing cepet. Ora wonder kita ora bisa "nampa hipotesis null."
Nalika kita kudu nguji hipotesis noninferioritas?
Wilayah sing digoleki
Kita ora nemokake tas ransel - apa kita kudu nampa hipotesis nol?

Gambar 1: Nggoleki 80% kamar kira-kira padha karo nggoleki kanthi daya 80%. Yen sampeyan ora nemokake tas ransel sawise nggoleki 80% saka kamar, sampeyan bisa nyimpulake yen ora ana?

Dadi apa sing kudu ditindakake ilmuwan data ing kahanan iki? Sampeyan bisa nemen nambah daya sinau, nanging banjur sampeyan bakal mbutuhake ukuran sampel luwih gedhe lan asil bakal tetep ora marem.

Untunge, masalah kasebut wis suwe diteliti ing jagad riset klinis. Obat B luwih murah tinimbang obat A; Obat B wis samesthine nyebabake efek samping sing luwih sithik tinimbang Obat A; tamba B luwih gampang kanggo transportasi amarga ora perlu kanggo refrigerasi, nanging tamba A. Ayo nyoba hipotesis non-inferioritas. Iki kanggo nuduhake yen versi B padha karo versi A-paling ora ing sawetara wates noninferioritas sing wis ditemtokake, Δ. Kita bakal pirembagan liyane babagan carane nyetel watesan iki mengko. Nanging saiki ayo nganggep manawa iki minangka prabédan paling cilik sing praktis migunani (ing konteks uji klinis, iki biasane diarani signifikansi klinis).

Hipotesis non-inferioritas nguripake kabeh ing sirahe:

Nalika kita kudu nguji hipotesis noninferioritas?

Saiki, tinimbang nganggep yen ora ana bedane, kita bakal nganggep yen versi B luwih elek tinimbang versi A, lan kita bakal tetep nganggo asumsi iki nganti kita nduduhake yen iki ora kedadeyan. Iki minangka wayahe nalika nggunakake tes hipotesis siji-sisi! Ing praktik, iki bisa ditindakake kanthi mbangun interval kapercayan lan nemtokake manawa interval kasebut luwih gedhe tinimbang Δ (Gambar 2).
Nalika kita kudu nguji hipotesis noninferioritas?

Pilih Δ

Kepiye carane milih Δ sing bener? Proses pemilihan Δ kalebu kabeneran statistik lan evaluasi substantif. Ing jagad riset klinis, ana pedoman regulasi sing ndhikte yen delta kudu makili prabédan klinis sing paling cilik-sing bakal nggawe prabédan ing praktik. Mangkene kutipan saka pedoman Eropa kanggo nyoba dhewe: "Yen prabédan wis dipilih kanthi bener, interval kapercayan sing ana ing antarane -∆ lan 0… isih cukup kanggo nuduhake non-inferiority. Yen asil iki katon ora bisa ditampa, tegese ∆ ora dipilih kanthi tepat.

Delta ngirim ora ngluwihi ukuran efek versi A relatif kanggo kontrol bener (placebo / ora perawatan), awit iki ndadékaké kita ngomong sing versi B luwih elek saka kontrol bener, lan ing wektu sing padha nuduhake "non-inferiority. .” Ayo dadi nganggep yen versi A iki ngenalaken, iku diganti dening versi 0 utawa fitur ora ana ing kabeh (ndeleng Figure 3).

Adhedhasar asil nguji hipotesis superioritas, ukuran efek E dicethakaké (yaiku, bisa uga μ^A−μ^0=E). Saiki A minangka standar anyar kita, lan kita pengin nggawe manawa B apik kaya A. Cara liya kanggo nulis μB−μA≤−Δ (hipotesis nol) yaiku μB≤μA−Δ. Yen kita nganggep yen do padha karo utawa luwih gedhe tinimbang E, banjur μB ≤ μA−E ≤ plasebo. Saiki kita weruh yen perkiraan kita kanggo μB rampung ngluwihi μA−E, sing kanthi mangkono nolak hipotesis nol lan ngidini kita nyimpulake yen B apik kaya A, nanging ing wektu sing padha μB bisa uga ≤ μ plasebo, sing dudu plasebo. kasus, apa kita kudu. (Gambar 3).

Nalika kita kudu nguji hipotesis noninferioritas?
Gambar 3. Demonstrasi risiko milih margin noninferiority. Yen cutoff dhuwur banget, bisa disimpulake yen B ora kalah karo A, nanging ing wektu sing padha ora bisa dibedakake saka plasebo. Kita ora bakal ngganti obat sing jelas luwih efektif tinimbang plasebo (A) kanggo obat sing efektif kaya plasebo.

Pilihan α

Ayo pindhah menyang milih α. Sampeyan bisa nggunakake nilai standar α = 0,05, nanging iki ora sakabehe adil. Kaya, contone, nalika sampeyan tuku soko online lan nggunakake sawetara kode diskon bebarengan, sanajan padha ora kudu digabungake - pangembang mung nggawe kesalahan, lan sampeyan bisa lolos. Miturut aturan, nilai α kudu padha karo setengah saka nilai α sing digunakake nalika nguji hipotesis superioritas, yaiku 0,05/2 = 0,025.

Ukuran sampel

Carane ngira ukuran sampel? Yen sampeyan yakin manawa beda rata-rata antarane A lan B yaiku 0, mula pitungan ukuran sampel padha karo nalika nyoba hipotesis keunggulan, kajaba sampeyan ngganti ukuran efek karo wates noninferioritas, yen sampeyan nggunakake efisiensi αnon-inferior = 1/2αsuperioritas (αnon-inferioritas=1/2αsuperioritas). Yen sampeyan duwe alesan kanggo pracaya yen opsi B bisa uga rada ala tinimbang pilihan A, nanging sampeyan pengin mbuktekake manawa luwih elek ora luwih saka Δ, mula sampeyan pancen beruntung! Iki bener-bener nyuda ukuran sampel amarga luwih gampang nduduhake manawa B luwih elek tinimbang A yen sampeyan mikir yen luwih elek tinimbang padha.

Tuladha karo solusi

Ayo dadi ngomong sampeyan pengin nganyarke kanggo versi B, kasedhiya yen iku ora luwih saka 0,1 TCTerms Samsaya Awon saka versi A ing 5-titik ukuran kepuasan pelanggan ... Ayo nyedhaki masalah iki nggunakake hipotesis kaunggulan.

Kanggo nguji hipotesis superioritas, kita bakal ngetung ukuran sampel kaya ing ngisor iki:

Nalika kita kudu nguji hipotesis noninferioritas?

Yaiku, yen sampeyan duwe 2103 pengamatan ing grup sampeyan, sampeyan bisa yakin 90% yen sampeyan bakal nemokake ukuran efek 0,10 utawa luwih gedhe. Nanging yen 0,10 dhuwur banget kanggo sampeyan, bisa uga ora worth nguji hipotesis keunggulan. Supaya ing sisih aman, sampeyan bisa mutusaké kanggo mbukak sinau kanggo ukuran efek cilik, kayata 0,05. Ing kasus iki, sampeyan kudu 8407 pengamatan, sing, sampel bakal nambah meh 4 kaping. Nanging apa yen kita macet ing ukuran sampel asli, nanging nambah daya kanggo 0,99 supaya kita bakal aman yen entuk asil positif? Ing kasus iki, n kanggo siji klompok bakal 3676, kang wis luwih apik, nanging nambah ukuran sampel luwih saka 50%. Lan minangka asil, kita isih mung ora bakal bisa mbantah hipotesis nol, lan kita ora bakal nampa jawaban kanggo pitakonan kita.

Apa yen kita nguji hipotesis noninferioritas tinimbang?

Nalika kita kudu nguji hipotesis noninferioritas?

Ukuran sampel bakal diwilang nggunakake rumus sing padha kajaba denominator.
Bedane rumus sing digunakake kanggo nguji hipotesis superioritas yaiku:

— Z1−α/2 diganti karo Z1−α, nanging yen sampeyan nindakake kabeh miturut aturan, sampeyan ngganti α = 0,05 karo α = 0,025, yaiku nomer sing padha (1,96)

— (μB−μA) katon ing denominator

— θ (ukuran efek) diganti karo Δ (margin non-inferioritas)

Yen kita nganggep yen µB = µA, banjur (µB − µA) = 0 lan pitungan ukuran sampel kanggo wates noninferioritas persis apa sing bakal kita entuk yen kita ngitung kaunggulan kanggo ukuran efek 0,1, apik banget! Kita bisa nindakake panaliten kanthi ukuran sing padha karo hipotesis sing beda lan pendekatan sing beda kanggo kesimpulan, lan kita bakal entuk jawaban kanggo pitakonan sing pengin dijawab.

Saiki umpamane kita ora mikir yen µB = µA lan
Kita mikir yen µB luwih elek, bisa uga 0,01 unit. Iki nambah denominator kita, nyuda ukuran sampel saben klompok dadi 1737.

Apa sing kedadeyan yen versi B luwih apik tinimbang versi A? Kita nolak hipotesis nol yen B luwih elek tinimbang A luwih saka Δ lan nampa hipotesis alternatif yen B, yen luwih elek, ora luwih elek tinimbang A dening Δ lan bisa uga luwih apik. Coba lebokake kesimpulan iki dadi presentasi lintas fungsi lan deleng apa sing kedadeyan (serius, coba). Ing kahanan sing ngarep-arep, ora ana sing pengin "ora luwih saka Δ luwih elek lan bisa uga luwih apik."

Ing kasus iki, kita bisa nganakake panaliten, sing diarani kanthi cepet "nguji hipotesis manawa salah sawijining pilihan luwih unggul utawa luwih murah tinimbang liyane." Iki nggunakake rong set hipotesis:

Set pisanan (padha nguji hipotesis non-inferioritas):

Nalika kita kudu nguji hipotesis noninferioritas?

Set kapindho (padha nalika nguji hipotesis superioritas):

Nalika kita kudu nguji hipotesis noninferioritas?

Kita nguji hipotesis kapindho mung yen sing pisanan ditolak. Nalika nguji kanthi urutan, kita njaga tingkat kesalahan Tipe I sakabèhé (α). Ing laku, iki bisa digayuh kanthi nggawe interval kapercayan 95% kanggo prabédan antarane sarana lan tes kanggo nemtokake manawa interval kabeh luwih gedhe tinimbang -Δ. Yen interval ora ngluwihi -Δ, kita ora bisa nolak nilai null lan mungkasi. Yen interval kabeh pancen luwih gedhe tinimbang −Δ, kita bakal nerusake lan ndeleng manawa interval kasebut ngemot 0.

Ana jinis riset liyane sing durung dibahas - studi kesetaraan.

Jinis-jinis pasinaon iki bisa diganti dening pasinaon noninferiority lan kosok balene, nanging padha bener duwe prabédan penting. Uji coba non-inferioritas nduweni tujuan kanggo nuduhake yen opsi B paling sethithik sae karo A. Uji coba kesetaraan nduweni tujuan kanggo nuduhake yen opsi B paling ora apik karo A. Opsi A apik kaya B, sing luwih angel. Ateges, kita nyoba nemtokake manawa kabeh interval kapercayan kanggo bedane tegese dumunung ing antarane -Δ lan Δ. Panaliten kasebut mbutuhake ukuran sampel sing luwih gedhe lan ditindakake kanthi luwih jarang. Dadi, ing wektu sabanjure sampeyan nganakake sinau sing tujuan utama sampeyan yaiku kanggo mesthekake yen versi anyar ora luwih elek, aja nganti "gagal nolak hipotesis nol." Yen sampeyan pengin nyoba hipotesis sing penting banget, nimbang opsi sing beda.

Source: www.habr.com

Add a comment