Bilakah kita harus menguji hipotesis bukan rendah diri?

Bilakah kita harus menguji hipotesis bukan rendah diri?
Satu artikel daripada pasukan Stitch Fix mencadangkan menggunakan pendekatan percubaan bukan rendah diri dalam pemasaran dan ujian A/B produk. Pendekatan ini benar-benar terpakai apabila kami menguji penyelesaian baharu yang mempunyai faedah yang tidak diukur dengan ujian.

Contoh paling mudah ialah pengurangan kos. Contohnya, kami mengautomasikan proses memberikan pelajaran pertama, tetapi kami tidak mahu mengurangkan penukaran hujung ke hujung dengan ketara. Atau kami menguji perubahan yang ditujukan kepada satu segmen pengguna, sambil memastikan penukaran untuk segmen lain tidak banyak menurun (apabila menguji beberapa hipotesis, jangan lupa tentang pindaan).

Memilih margin bukan rendah diri yang betul menambah cabaran tambahan semasa fasa reka bentuk ujian. Persoalan bagaimana memilih Δ tidak dibincangkan dengan baik dalam artikel. Nampaknya pilihan ini tidak sepenuhnya telus dalam ujian klinikal sama ada. Mengkaji penerbitan perubatan mengenai laporan bukan rendah diri bahawa hanya separuh daripada penerbitan mewajarkan pilihan sempadan, dan selalunya justifikasi ini samar-samar atau tidak terperinci.

Walau apa pun, pendekatan ini nampak menarik kerana... dengan mengurangkan saiz sampel yang diperlukan, ia boleh meningkatkan kelajuan ujian, dan, oleh itu, kelajuan membuat keputusan. — Daria Mukhina, penganalisis produk untuk aplikasi mudah alih Skyeng.

Pasukan Stitch Fix suka menguji perkara yang berbeza. Seluruh komuniti teknologi suka menjalankan ujian pada dasarnya. Versi tapak yang manakah menarik lebih ramai pengguna - A atau B? Adakah versi A model pengesyoran menghasilkan lebih banyak wang daripada versi B? Untuk menguji hipotesis, kami hampir selalu menggunakan pendekatan paling mudah dari kursus statistik asas:

Bilakah kita harus menguji hipotesis bukan rendah diri?

Walaupun kami jarang menggunakan istilah ini, bentuk ujian ini dipanggil "ujian hipotesis keunggulan." Dengan pendekatan ini, kami menganggap bahawa tidak ada perbezaan antara kedua-dua pilihan. Kami tetap dengan idea ini dan hanya meninggalkannya jika data cukup menarik untuk berbuat demikian—iaitu, ia menunjukkan bahawa salah satu pilihan (A atau B) adalah lebih baik daripada yang lain.

Menguji hipotesis keunggulan sesuai untuk pelbagai masalah. Kami hanya mengeluarkan versi B model pengesyoran jika ia jelas lebih baik daripada versi A yang sudah digunakan. Tetapi dalam beberapa kes, pendekatan ini tidak berfungsi dengan baik. Mari lihat beberapa contoh.

1) Kami menggunakan perkhidmatan pihak ketiga, yang membantu mengenal pasti kad bank palsu. Kami menemui perkhidmatan lain yang kosnya jauh lebih rendah. Jika perkhidmatan yang lebih murah berfungsi seperti yang kami gunakan pada masa ini, kami akan memilihnya. Ia tidak semestinya lebih baik daripada perkhidmatan yang anda gunakan.

2) Kami mahu meninggalkan sumber data A dan gantikannya dengan sumber data B. Kita boleh menangguhkan meninggalkan A jika B menghasilkan keputusan yang sangat buruk, tetapi tidak mungkin untuk terus menggunakan A.

3) Kami ingin beralih daripada pendekatan pemodelanPendekatan A kepada B bukan kerana kami menjangkakan hasil yang lebih baik daripada B, tetapi kerana ia memberi kami fleksibiliti operasi yang lebih besar. Kami tidak mempunyai sebab untuk mempercayai bahawa B akan menjadi lebih teruk, tetapi kami tidak akan membuat peralihan jika ini berlaku.

4) Kami telah membuat beberapa perubahan kualitatif ke dalam reka bentuk tapak web (versi B) dan percaya bahawa versi ini lebih baik daripada versi A. Kami tidak menjangkakan perubahan dalam penukaran atau mana-mana penunjuk prestasi utama yang biasanya kami menilai tapak web. Tetapi kami percaya bahawa terdapat faedah dalam parameter yang sama ada tidak boleh diukur atau teknologi kami tidak mencukupi untuk diukur.

Dalam semua kes ini, penyelidikan keunggulan bukanlah penyelesaian yang paling sesuai. Tetapi kebanyakan pakar dalam situasi sedemikian menggunakannya secara lalai. Kami menjalankan eksperimen dengan teliti untuk menentukan saiz kesan dengan betul. Jika benar versi A dan B berfungsi dengan cara yang hampir sama, ada kemungkinan kita akan gagal untuk menolak hipotesis nol. Adakah kita membuat kesimpulan bahawa A dan B melakukan pada asasnya sama? Tidak! Kegagalan untuk menolak hipotesis nol dan penerimaan hipotesis nol bukanlah perkara yang sama.

Pengiraan saiz sampel (yang, sudah tentu, anda telah lakukan) biasanya dilakukan dengan had yang lebih ketat untuk ralat Jenis I (kebarangkalian gagal untuk menolak hipotesis nol, sering dipanggil alfa) daripada untuk ralat Jenis II (kebarangkalian gagal untuk menolak. hipotesis nol, dengan syarat bahawa hipotesis nol adalah palsu, selalunya dipanggil beta). Nilai biasa untuk alfa ialah 0,05, manakala nilai biasa untuk beta ialah 0,20, sepadan dengan kuasa statistik 0,80. Ini bermakna terdapat kemungkinan 20% bahawa kami akan terlepas kesan sebenar kuantiti yang telah kami nyatakan dalam pengiraan kuasa kami, dan itu adalah jurang maklumat yang agak serius. Sebagai contoh, mari kita pertimbangkan hipotesis berikut:

Bilakah kita harus menguji hipotesis bukan rendah diri?

H0: beg galas saya TIADA di dalam bilik saya (3)
H1: beg galas saya ada di dalam bilik saya (4)

Jika saya mencari bilik saya dan mendapati beg galas saya, bagus, saya boleh menolak hipotesis nol. Tetapi jika saya melihat sekeliling bilik dan tidak menemui beg galas saya (Rajah 1), apakah kesimpulan yang perlu saya buat? Adakah saya pasti ia tiada? Adakah saya kelihatan cukup keras? Bagaimana jika saya hanya mencari 80% bilik? Menyimpulkan bahawa beg galas itu pasti tiada di dalam bilik akan menjadi keputusan yang terburu-buru. Tidak hairanlah kita tidak boleh "menerima hipotesis nol."
Bilakah kita harus menguji hipotesis bukan rendah diri?
Kawasan yang kami cari
Kami tidak menjumpai beg galas - patutkah kami menerima hipotesis nol?

Rajah 1: Mencari 80% bilik adalah lebih kurang sama seperti mencari pada kuasa 80%. Jika anda tidak menemui beg galas selepas melihat 80% bilik, bolehkah anda membuat kesimpulan bahawa ia tidak ada di sana?

Jadi apakah yang perlu dilakukan oleh saintis data dalam situasi ini? Anda boleh meningkatkan kuasa kajian dengan banyak, tetapi kemudian anda memerlukan saiz sampel yang lebih besar dan hasilnya masih tidak memuaskan.

Nasib baik, masalah sedemikian telah lama dikaji dalam dunia penyelidikan klinikal. Ubat B lebih murah daripada ubat A; Ubat B dijangka menyebabkan kesan sampingan yang lebih sedikit daripada Ubat A; ubat B lebih mudah diangkut kerana ia tidak perlu disejukkan, tetapi ubat A melakukannya. Mari kita uji hipotesis bukan rendah diri. Ini adalah untuk menunjukkan bahawa versi B adalah sama baiknya dengan versi A—sekurang-kurangnya dalam beberapa margin bukan rendah diri yang dipratentukan, Δ. Kita akan bercakap lebih lanjut tentang cara menetapkan had ini sedikit kemudian. Tetapi buat masa ini mari kita anggap bahawa ini adalah perbezaan terkecil yang boleh dikatakan bermakna (dalam konteks ujian klinikal, ini biasanya dipanggil kepentingan klinikal).

Hipotesis bukan rendah diri mengubah segala-galanya:

Bilakah kita harus menguji hipotesis bukan rendah diri?

Sekarang, daripada menganggap bahawa tiada perbezaan, kami akan menganggap bahawa versi B lebih teruk daripada versi A, dan kami akan berpegang pada andaian ini sehingga kami menunjukkan bahawa ini tidak berlaku. Inilah saat yang tepat untuk menggunakan ujian hipotesis sebelah pihak! Dalam amalan, ini boleh dilakukan dengan membina selang keyakinan dan menentukan sama ada selang itu sebenarnya lebih besar daripada Δ (Rajah 2).
Bilakah kita harus menguji hipotesis bukan rendah diri?

Pilih Δ

Bagaimana untuk memilih Δ yang betul? Proses pemilihan Δ termasuk justifikasi statistik dan penilaian substantif. Dalam dunia penyelidikan klinikal, terdapat garis panduan kawal selia yang menentukan bahawa delta harus mewakili perbezaan terkecil secara klinikal—perbezaan yang akan membuat perbezaan dalam amalan. Berikut ialah petikan daripada garis panduan Eropah untuk menguji diri anda dengan: “Jika perbezaan telah dipilih dengan betul, selang keyakinan yang terletak sepenuhnya antara –∆ dan 0… masih mencukupi untuk menunjukkan tidak rendah diri. Jika keputusan ini nampaknya tidak boleh diterima, ini bermakna ∆ tidak dipilih dengan sewajarnya.”

Delta semestinya tidak melebihi saiz kesan versi A berbanding kawalan sebenar (plasebo/tiada rawatan), kerana ini membawa kita untuk mengatakan bahawa versi B lebih teruk daripada kawalan sebenar, sementara pada masa yang sama menunjukkan "tidak rendah diri .” Mari kita anggap bahawa apabila versi A diperkenalkan, ia telah digantikan dengan versi 0 atau ciri itu tidak wujud sama sekali (lihat Rajah 3).

Berdasarkan keputusan ujian hipotesis keunggulan, saiz kesan E telah didedahkan (iaitu, mungkin μ^A−μ^0=E). Kini A ialah piawaian baharu kami, dan kami ingin memastikan bahawa B adalah sebaik A. Satu lagi cara untuk menulis μB−μA≤−Δ (hipotesis nol) ialah μB≤μA−Δ. Jika kita menganggap bahawa do adalah sama dengan atau lebih besar daripada E, maka μB ≤ μA−E ≤ plasebo. Sekarang kita melihat bahawa anggaran kami untuk μB sepenuhnya melebihi μA−E, yang dengan itu menolak sepenuhnya hipotesis nol dan membolehkan kita membuat kesimpulan bahawa B adalah sebaik A, tetapi pada masa yang sama μB mungkin ≤ μ plasebo, yang bukan kes.apa yang kita perlukan. (Rajah 3).

Bilakah kita harus menguji hipotesis bukan rendah diri?
Rajah 3. Demonstrasi risiko memilih margin bukan rendah diri. Jika cutoff terlalu tinggi, boleh disimpulkan bahawa B tidak lebih rendah daripada A, tetapi pada masa yang sama tidak dapat dibezakan daripada plasebo. Kami tidak akan menukar ubat yang jelas lebih berkesan daripada plasebo (A) dengan ubat yang berkesan seperti plasebo.

Pilihan α

Mari kita beralih kepada memilih α. Anda boleh menggunakan nilai standard α = 0,05, tetapi ini tidak adil sepenuhnya. Seperti, sebagai contoh, apabila anda membeli sesuatu dalam talian dan menggunakan beberapa kod diskaun sekaligus, walaupun ia tidak sepatutnya digabungkan - pembangun hanya membuat kesilapan, dan anda terlepas daripadanya. Mengikut peraturan, nilai α hendaklah sama dengan separuh nilai α yang digunakan semasa menguji hipotesis keunggulan, iaitu 0,05 / 2 = 0,025.

Saiz sampel

Bagaimana untuk menganggarkan saiz sampel? Jika anda percaya bahawa perbezaan min sebenar antara A dan B ialah 0, maka pengiraan saiz sampel adalah sama seperti semasa menguji hipotesis keunggulan, kecuali anda menggantikan saiz kesan dengan margin bukan rendah diri, dengan syarat anda menggunakan αkecekapan bukan inferior = 1/2αkeunggulan (αbukan rendah diri=1/2αkeunggulan). Jika anda mempunyai sebab untuk mempercayai bahawa pilihan B mungkin lebih buruk sedikit daripada pilihan A, tetapi anda ingin membuktikan bahawa ia lebih buruk dengan tidak lebih daripada Δ, maka anda bertuah! Ini sebenarnya mengurangkan saiz sampel anda kerana lebih mudah untuk menunjukkan bahawa B lebih teruk daripada A jika anda benar-benar berpendapat ia lebih teruk sedikit daripada sama.

Contoh dengan penyelesaian

Katakan anda ingin menaik taraf kepada versi B, dengan syarat ia tidak lebih daripada 0,1 mata lebih teruk daripada versi A pada skala kepuasan pelanggan 5 mata... Mari kita mendekati masalah ini menggunakan hipotesis keunggulan.

Untuk menguji hipotesis keunggulan, kami akan mengira saiz sampel seperti berikut:

Bilakah kita harus menguji hipotesis bukan rendah diri?

Iaitu, jika anda mempunyai 2103 pemerhatian dalam kumpulan anda, anda boleh 90% yakin bahawa anda akan menemui saiz kesan 0,10 atau lebih besar. Tetapi jika 0,10 terlalu tinggi untuk anda, ia mungkin tidak berbaloi untuk menguji hipotesis keunggulan. Untuk berada di bahagian yang selamat, anda mungkin memutuskan untuk menjalankan kajian untuk saiz kesan yang lebih kecil, seperti 0,05. Dalam kes ini, anda memerlukan 8407 pemerhatian, iaitu sampel akan meningkat hampir 4 kali ganda. Tetapi bagaimana jika kita berpegang pada saiz sampel asal kita, tetapi meningkatkan kuasa kepada 0,99 supaya kita akan selamat jika kita mendapat keputusan yang positif? Dalam kes ini, n untuk satu kumpulan ialah 3676, yang sudah lebih baik, tetapi meningkatkan saiz sampel lebih daripada 50%. Dan akibatnya, kami masih tidak akan dapat menyangkal hipotesis nol, dan kami tidak akan menerima jawapan kepada soalan kami.

Bagaimana jika kita menguji hipotesis bukan rendah diri?

Bilakah kita harus menguji hipotesis bukan rendah diri?

Saiz sampel akan dikira menggunakan formula yang sama kecuali penyebut.
Perbezaan daripada formula yang digunakan untuk menguji hipotesis keunggulan adalah seperti berikut:

— Z1−α/2 digantikan dengan Z1−α, tetapi jika anda melakukan segala-galanya mengikut peraturan, anda menggantikan α = 0,05 dengan α = 0,025, iaitu nombor yang sama (1,96)

— (μB−μA) muncul dalam penyebut

— θ (saiz kesan) digantikan dengan Δ (margin tidak rendah diri)

Jika kita menganggap bahawa µB = µA, maka (µB − µA) = 0 dan pengiraan saiz sampel untuk margin bukan rendah diri adalah apa yang akan kita perolehi jika kita mengira keunggulan untuk saiz kesan 0,1, bagus! Kita boleh melakukan kajian dengan saiz yang sama dengan hipotesis yang berbeza dan pendekatan yang berbeza untuk membuat kesimpulan, dan kita akan mendapat jawapan kepada soalan yang benar-benar ingin kita jawab.

Sekarang andaikan kita sebenarnya tidak berfikir bahawa µB = µA dan
Kami berpendapat bahawa µB lebih teruk sedikit, mungkin sebanyak 0,01 unit. Ini meningkatkan penyebut kami, mengurangkan saiz sampel setiap kumpulan kepada 1737.

Apakah yang berlaku jika versi B sebenarnya lebih baik daripada versi A? Kami menolak hipotesis nol bahawa B lebih buruk daripada A dengan lebih daripada Δ dan menerima hipotesis alternatif bahawa B, jika lebih teruk, tidak lebih buruk daripada A dengan Δ dan mungkin lebih baik. Cuba letakkan kesimpulan ini ke dalam pembentangan silang fungsi dan lihat apa yang berlaku (serius, cuba). Dalam situasi yang berpandangan ke hadapan, tiada siapa yang mahu berpuas hati dengan "tidak lebih daripada Δ lebih buruk dan mungkin lebih baik."

Dalam kes ini, kita boleh menjalankan kajian, yang dipanggil secara ringkas "menguji hipotesis bahawa salah satu daripada pilihan adalah lebih baik atau lebih rendah daripada yang lain." Ia menggunakan dua set hipotesis:

Set pertama (sama seperti menguji hipotesis bukan rendah diri):

Bilakah kita harus menguji hipotesis bukan rendah diri?

Set kedua (sama seperti semasa menguji hipotesis keunggulan):

Bilakah kita harus menguji hipotesis bukan rendah diri?

Kami menguji hipotesis kedua hanya jika yang pertama ditolak. Apabila menguji secara berurutan, kami mengekalkan keseluruhan kadar ralat Jenis I (α). Dalam amalan, ini boleh dicapai dengan mencipta selang keyakinan 95% untuk perbezaan antara min dan ujian untuk menentukan sama ada keseluruhan selang lebih besar daripada -Δ. Jika selang tidak melebihi -Δ, kita tidak boleh menolak nilai nol dan berhenti. Jika keseluruhan selang memang lebih besar daripada −Δ, kita akan meneruskan dan melihat jika selang itu mengandungi 0.

Terdapat satu lagi jenis penyelidikan yang belum kita bincangkan - kajian kesetaraan.

Jenis kajian ini boleh digantikan dengan kajian bukan rendah diri dan sebaliknya, tetapi mereka sebenarnya mempunyai perbezaan yang penting. Percubaan bukan rendah diri bertujuan untuk menunjukkan bahawa pilihan B adalah sekurang-kurangnya sebaik A. Percubaan kesetaraan bertujuan untuk menunjukkan bahawa pilihan B adalah sekurang-kurangnya sebaik A. Pilihan A adalah sebaik B, yang lebih sukar. Pada asasnya, kami cuba menentukan sama ada keseluruhan selang keyakinan untuk perbezaan min terletak di antara −Δ dan Δ. Kajian sedemikian memerlukan saiz sampel yang lebih besar dan kurang kerap dijalankan. Oleh itu, pada kali seterusnya anda menjalankan kajian di mana matlamat utama anda adalah untuk memastikan versi baharu tidak lebih teruk, jangan berpuas hati dengan "kegagalan menolak hipotesis nol." Jika anda ingin menguji hipotesis yang sangat penting, pertimbangkan pilihan yang berbeza.

Sumber: www.habr.com

Tambah komen