Kamchiliksiz gipotezani qachon sinab ko'rishimiz kerak?

Kamchiliksiz gipotezani qachon sinab ko'rishimiz kerak?
Stitch Fix jamoasining maqolasi marketing va mahsulot A/B testlarida kamchiliksiz sinovlar yondashuvidan foydalanishni taklif qiladi. Ushbu yondashuv haqiqatan ham sinovlar bilan o'lchanmaydigan afzalliklarga ega bo'lgan yangi yechimni sinab ko'rayotganimizda amal qiladi.

Eng oddiy misol - xarajatlarni kamaytirish. Misol uchun, biz birinchi darsni tayinlash jarayonini avtomatlashtiramiz, lekin biz oxirigacha konvertatsiya qilishni sezilarli darajada kamaytirmoqchi emasmiz. Yoki biz foydalanuvchilarning bir segmentiga qaratilgan o'zgarishlarni sinovdan o'tkazamiz, shu bilan birga boshqa segmentlar uchun konvertatsiyalar unchalik kamaymasligiga ishonch hosil qilamiz (bir nechta farazlarni sinab ko'rganda, tuzatishlar haqida unutmang).

To'g'ri pastlik chegarasini tanlash testni loyihalash bosqichida qo'shimcha qiyinchiliklarni keltirib chiqaradi. D ni qanday tanlash kerakligi haqidagi savol maqolada juda yaxshi yoritilgan emas. Ko'rinishidan, bu tanlov klinik sinovlarda ham to'liq shaffof emas. haqida umumiy ma'lumot noaniqlik bo'yicha tibbiy nashrlar nashrlarning faqat yarmi chegara tanlashni oqlaydi va ko'pincha bu asoslar noaniq yoki batafsil ko'rsatilmagan.

Har holda, bu yondashuv qiziqarli ko'rinadi, chunki ... kerakli namuna hajmini kamaytirish orqali u sinov tezligini va shuning uchun qaror qabul qilish tezligini oshirishi mumkin. — Daria Muxina, Skyeng mobil ilovasi mahsulot tahlilchisi.

Stitch Fix jamoasi turli narsalarni sinab ko'rishni yaxshi ko'radi. Butun texnologiya hamjamiyati printsipial ravishda sinovlarni o'tkazishni yaxshi ko'radi. Saytning qaysi versiyasi ko'proq foydalanuvchilarni jalb qiladi - A yoki B? Tavsiya etilgan modelning A versiyasi B versiyasiga qaraganda ko'proq pul topadimi? Gipotezalarni sinab ko'rish uchun biz deyarli har doim asosiy statistika kursidan eng oddiy yondashuvdan foydalanamiz:

Kamchiliksiz gipotezani qachon sinab ko'rishimiz kerak?

Garchi biz bu atamani kamdan-kam ishlatsak ham, testning bu shakli "ustunlik gipotezasi testi" deb ataladi. Ushbu yondashuv bilan biz ikkala variant o'rtasida hech qanday farq yo'q deb taxmin qilamiz. Biz bu g'oyaga sodiq qolamiz va agar ma'lumotlar buni amalga oshirish uchun yetarli bo'lsa, undan voz kechamiz, ya'ni bu variantlardan biri (A yoki B) boshqasidan yaxshiroq ekanligini ko'rsatadi.

Ustunlik gipotezasini sinab ko'rish turli muammolar uchun javob beradi. Tavsiya etilgan modelning B versiyasini, agar u allaqachon ishlatilayotgan A versiyasidan yaxshiroq bo'lsagina chiqaramiz, lekin ba'zi hollarda bu yondashuv unchalik yaxshi ishlamaydi. Keling, bir nechta misollarni ko'rib chiqaylik.

1) Biz uchinchi tomon xizmatidan foydalanamiz, bu soxta bank kartalarini aniqlashga yordam beradi. Biz narxi ancha past bo'lgan boshqa xizmatni topdik. Agar arzonroq xizmat hozir ishlatayotganimizdek ishlasa, biz uni tanlaymiz. Bu siz foydalanayotgan xizmatdan yaxshiroq bo'lishi shart emas.

2) Biz ma'lumotlar manbasidan voz kechmoqchimiz A va uni maʼlumot manbasi B bilan almashtiring. Agar B juda yomon natijalar bersa, biz Adan voz kechishni kechiktirishimiz mumkin, lekin A dan foydalanishni davom ettirish mumkin emas.

3) Biz modellashtirish yondashuvidan o'tmoqchimizA dan B ga yondashuv biz B dan yaxshiroq natijalarni kutganimiz uchun emas, balki bu bizga ko'proq operatsion moslashuvchanlikni bergani uchun. Bizda B yomonroq bo'lishiga ishonish uchun hech qanday sabab yo'q, lekin agar shunday bo'lsa, biz o'tishni amalga oshirmaymiz.

4) Biz bir nechta sifat o'zgarishlarini amalga oshirdik veb-sayt dizayniga (versiya B) kiriting va bu versiya A versiyasidan ustun ekanligiga ishoning. Biz konversiyada yoki odatda veb-saytni baholaydigan asosiy ishlash ko'rsatkichlarida o'zgarishlarni kutmaymiz. Ammo biz o'lchab bo'lmaydigan yoki bizning texnologiyamiz o'lchash uchun etarli bo'lmagan parametrlarda foyda borligiga ishonamiz.

Bu barcha holatlarda ustunlik tadqiqoti eng to'g'ri echim emas. Ammo bunday vaziyatlarda ko'pchilik mutaxassislar uni sukut bo'yicha ishlatishadi. Effekt hajmini to'g'ri aniqlash uchun tajribani diqqat bilan o'tkazamiz. Agar A va B versiyalari juda o'xshash ishlayotganligi rost bo'lsa, biz nol gipotezani rad eta olmasligimiz mumkin edi. A va B asosan bir xil ishlaydi degan xulosaga kelamizmi? Yo'q! Nol gipotezani rad etmaslik va nol gipotezani qabul qilish bir xil narsa emas.

Namuna hajmini hisoblash (albatta, siz bajargansiz) odatda II turdagi xatoga qaraganda (ko'pincha alfa deb ataladigan nol gipotezani rad eta olmaslik ehtimoli) I toifa xatolik uchun qattiqroq chegaralar bilan amalga oshiriladi (muvaffaqiyatsizlik ehtimoli). nol gipoteza noto'g'ri bo'lishi sharti bilan, ko'pincha beta deb ataladigan nol gipotezani rad eting). Alfa uchun odatiy qiymat 0,05, beta uchun odatiy qiymat esa 0,20 statistik quvvatga mos keladigan 0,80. Bu shuni anglatadiki, biz quvvat hisob-kitoblarimizda ko'rsatgan miqdorning haqiqiy ta'sirini o'tkazib yuborishning 20% ​​ehtimoli bor va bu ma'lumotdagi juda jiddiy bo'shliqdir. Misol tariqasida quyidagi gipotezalarni ko'rib chiqamiz:

Kamchiliksiz gipotezani qachon sinab ko'rishimiz kerak?

H0: xaltam mening xonamda YO'Q (3)
H1: xaltam mening xonamda (4)

Agar xonamni qidirib, ryukzakimni topsam, ajoyib, nol gipotezani rad eta olaman. Ammo xonani ko'zdan kechirib, ryukzakimni topa olmasam (1-rasm), qanday xulosa chiqarishim kerak? U erda yo'qligiga ishonchim komilmi? Men etarlicha qattiq qaradimmi? Xonaning atigi 80 foizini qidirsam nima bo'ladi? Ryukzak xonada aniq yo'q degan xulosaga kelish shoshilinch qaror bo'ladi. “Nol gipotezani qabul qila olmasligimiz” ajablanarli emas.
Kamchiliksiz gipotezani qachon sinab ko'rishimiz kerak?
Biz qidirgan hudud
Biz xaltani topmadik - nol gipotezani qabul qilishimiz kerakmi?

1-rasm: Xonaning 80% ni qidirish taxminan 80% quvvatda qidirish bilan bir xil. Xonaning 80 foizini qidirib, ryukzakni topmasangiz, u erda yo'q degan xulosaga kela olasizmi?

Xo'sh, bu vaziyatda ma'lumot olimi nima qilishi kerak? Siz tadqiqotning kuchini sezilarli darajada oshirishingiz mumkin, ammo keyin sizga kattaroq namuna hajmi kerak bo'ladi va natija hali ham qoniqarsiz bo'ladi.

Yaxshiyamki, bunday muammolar klinik tadqiqotlar dunyosida uzoq vaqtdan beri o'rganilgan. B preparati A preparatidan arzonroq; B preparati A preparatiga qaraganda kamroq yon ta'sirga olib kelishi kutilmoqda; B preparatini tashish osonroq, chunki uni muzlatgichda saqlash kerak emas, lekin A dori. Keling, pastlik gipotezasini sinab ko'raylik. Bu B versiyasi A versiyasi kabi yaxshi ekanligini ko'rsatish uchun - hech bo'lmaganda oldindan belgilangan pastlik chegarasida, D. Ushbu chegarani qanday o'rnatish haqida biroz keyinroq gaplashamiz. Ammo hozircha, bu amaliy jihatdan ahamiyatli bo'lgan eng kichik farq deb faraz qilaylik (klinik sinovlar kontekstida bu odatda klinik ahamiyatga ega deb ataladi).

Kamchiliksiz gipotezalar hamma narsani o'zgartiradi:

Kamchiliksiz gipotezani qachon sinab ko'rishimiz kerak?

Endi, hech qanday farq yo'q deb o'ylash o'rniga, biz B versiyasini A versiyasidan yomonroq deb hisoblaymiz va biz bunday emasligini ko'rsatmagunimizcha, bu taxminga amal qilamiz. Aynan shu daqiqada bir tomonlama gipoteza testidan foydalanish mantiqiy bo'ladi! Amalda buni ishonch oralig'ini qurish va intervalning D dan katta ekanligini aniqlash orqali amalga oshirish mumkin (2-rasm).
Kamchiliksiz gipotezani qachon sinab ko'rishimiz kerak?

D ni tanlang

To'g'ri D ni qanday tanlash mumkin? D tanlash jarayoni statistik asoslash va mazmunli baholashni o'z ichiga oladi. Klinik tadqiqotlar dunyosida delta eng kichik klinik ahamiyatga ega bo'lgan farqni ko'rsatishi kerakligini ko'rsatadigan tartibga soluvchi ko'rsatmalar mavjud - bu amaliyotda o'zgarishlarga olib keladi. O'zingizni sinab ko'rish uchun Evropa ko'rsatmalaridan iqtibos keltiramiz: “Agar farq to'g'ri tanlangan bo'lsa, past emasligini ko'rsatish uchun butunlay –∆ va 0… orasida bo'lgan ishonch oralig'i etarli. Agar bu natija maqbul bo'lmasa, demak, ∆ to'g'ri tanlanmagan.

Delta, albatta, haqiqiy nazoratga nisbatan A versiyasining ta'sir hajmidan oshmasligi kerak (platsebo/davolash yo'q), chunki bu bizni B versiyasi haqiqiy nazoratdan yomonroq deyishimizga olib keladi va shu bilan birga "kam emasligini" namoyish etadi. ”. Faraz qilaylik, A versiyasi kiritilganda u 0-versiyaga almashtirilgan yoki funksiya umuman mavjud emas edi (3-rasmga qarang).

Ustunlik gipotezasini sinovdan o'tkazish natijalariga ko'ra E ta'sir kattaligi aniqlandi (ya'ni, m^A−m^0=E). Endi A bizning yangi standartimiz va biz B ning A kabi yaxshi ekanligiga ishonch hosil qilishni xohlaymiz. mB−mA≤−D (nol gipoteza) yozishning yana bir usuli mB≤mA−D. Agar do ni E ga teng yoki undan katta deb hisoblasak, u holda mB ≤ mA−E ≤ platsebo. Endi biz mB uchun taxminimiz mA-E dan to'liq oshib ketishini ko'rmoqdamiz, bu esa nol gipotezani butunlay rad etadi va B ning A kabi yaxshi ekanligi haqidagi xulosaga kelishimizga imkon beradi, lekin ayni paytda mB ≤ m platsebo bo'lishi mumkin, bu emas. Bizga nima kerak. (3-rasm).

Kamchiliksiz gipotezani qachon sinab ko'rishimiz kerak?
Shakl 3. Kamchiliksiz marjani tanlash xavfini ko'rsatish. Agar chegara juda yuqori bo'lsa, B A dan kam emas degan xulosaga kelish mumkin, lekin ayni paytda platsebodan farq qilmaydi. Biz platsebo (A) dan aniqroq samaraliroq dorini platsebo kabi samarali dori bilan almashtirmaymiz.

a ni tanlash

Keling, a ni tanlashga o'tamiz. Siz a = 0,05 standart qiymatidan foydalanishingiz mumkin, ammo bu mutlaqo adolatli emas. Masalan, siz Internetda biror narsa sotib olganingizda va bir vaqtning o'zida bir nechta chegirma kodlaridan foydalansangiz, ularni birlashtirmaslik kerak - ishlab chiquvchi shunchaki xatoga yo'l qo'ydi va siz undan qutuldingiz. Qoidalarga ko'ra, a qiymati ustunlik gipotezasini tekshirishda ishlatiladigan a qiymatining yarmiga teng bo'lishi kerak, ya'ni 0,05 / 2 = 0,025.

Namuna hajmi

Namuna hajmini qanday hisoblash mumkin? Agar siz A va B o'rtasidagi haqiqiy o'rtacha farq 0 ga teng deb hisoblasangiz, namunaviy o'lchamni hisoblash ustunlik gipotezasini sinab ko'rish bilan bir xil bo'ladi, faqat siz ta'sir hajmini past bo'lmagan chegara bilan almashtirasiz, agar siz foydalansangiz. anon-past samaradorlik = 1/2a ustunlik (anon-pastlik=1/2a ustunlik). Agar sizda B varianti A variantidan biroz yomonroq bo'lishi mumkinligiga ishonish uchun asosingiz bo'lsa, lekin u D dan ko'p bo'lmagan holda yomonroq ekanligini isbotlamoqchi bo'lsangiz, unda omadingiz bor! Bu sizning namunangiz hajmini kamaytiradi, chunki agar siz uni teng emas, balki biroz yomonroq deb hisoblasangiz, B ning A dan yomonroq ekanligini ko'rsatish osonroq.

Yechim bilan misol

Aytaylik, siz B versiyasiga yangilashni xohlaysiz, agar u 0,1 balllik mijozlar ehtiyojini qondirish shkalasi bo'yicha A versiyasidan 5 balldan yomonroq bo'lmasa... Keling, bu muammoga ustunlik gipotezasidan foydalanib yondashaylik.

Ustunlik gipotezasini tekshirish uchun biz namuna hajmini quyidagicha hisoblaymiz:

Kamchiliksiz gipotezani qachon sinab ko'rishimiz kerak?

Ya'ni, agar sizning guruhingizda 2103 ta kuzatuv mavjud bo'lsa, siz 90 yoki undan kattaroq effekt hajmini topishingizga 0,10% ishonchingiz komil bo'lishi mumkin. Ammo 0,10 siz uchun juda yuqori bo'lsa, bu ustunlik gipotezasini sinab ko'rishga arzimasligi mumkin. Xavfsiz tomonda bo'lish uchun siz tadqiqotni 0,05 kabi kichikroq ta'sir o'lchami uchun o'tkazishga qaror qilishingiz mumkin. Bunday holda, sizga 8407 ta kuzatuv kerak bo'ladi, ya'ni namuna deyarli 4 barobar ortadi. Agar biz asl namuna o'lchamimizga yopishib olsak-chi, lekin ijobiy natijaga erishganimizda xavfsiz bo'lishimiz uchun quvvatni 0,99 ga oshirsak nima bo'ladi? Bunday holda, bitta guruh uchun n 3676 bo'ladi, bu allaqachon yaxshiroq, lekin namuna hajmini 50% dan ortiq oshiradi. Natijada, biz hali ham nol gipotezani rad eta olmaymiz va savolimizga javob olmaymiz.

Buning o'rniga biz pastlik gipotezasini sinab ko'rsak nima bo'ladi?

Kamchiliksiz gipotezani qachon sinab ko'rishimiz kerak?

Namuna hajmi maxrajdan tashqari bir xil formuladan foydalanib hisoblanadi.
Ustunlik gipotezasini tekshirish uchun ishlatiladigan formuladan farqlar quyidagilardan iborat:

— Z1−a/2 Z1−a bilan almashtiriladi, lekin agar siz hamma narsani qoidalarga muvofiq qilsangiz, a = 0,05 ni a = 0,025 bilan almashtirasiz, yaʼni bir xil raqam (1,96)

— (mB−mA) maxrajda ko‘rinadi

— th (taʼsir hajmi) oʻrniga D (pastlik chegarasi)

Agar biz µB = µA deb faraz qilsak, u holda (µB - µA) = 0 va past bo'lmagan chegara uchun namuna hajmini hisoblash, agar biz 0,1 ta'sir kattaligi uchun ustunlikni hisoblasak, aynan shunday bo'ladi, ajoyib! Biz turli xil farazlar va xulosalarga boshqacha yondashuv bilan bir xil o'lchamdagi tadqiqotni amalga oshirishimiz mumkin va biz haqiqatan ham javob bermoqchi bo'lgan savolga javob olamiz.

Aytaylik, biz aslida µB = µA va deb o‘ylamaymiz
Bizning fikrimizcha, mB biroz yomonroq, ehtimol 0,01 birlik. Bu bizning maxrajimizni oshiradi va har bir guruh uchun namuna hajmini 1737 gacha kamaytiradi.

Agar B versiyasi A versiyasidan yaxshiroq bo'lsa nima bo'ladi? Biz B dan A dan D dan yomonroq degan nol gipotezani rad etamiz va B dan yomonroq bo'lsa, A dan D dan yomon emas va yaxshiroq bo'lishi mumkin degan muqobil gipotezani qabul qilamiz. Ushbu xulosani o'zaro funktsional taqdimotga qo'yishga harakat qiling va nima sodir bo'lishini ko'ring (jiddiy ravishda sinab ko'ring). Oldinga qarab turgan vaziyatda hech kim “Yomonroq va ehtimol yaxshiroq” bilan kifoyalanishni xohlamaydi.

Bunday holda, biz qisqacha "variantlardan biri boshqasidan ustun yoki pastroq degan gipotezani sinab ko'rish" deb ataladigan tadqiqotni o'tkazishimiz mumkin. U ikkita gipoteza to'plamidan foydalanadi:

Birinchi to'plam (past bo'lmagan gipotezani sinab ko'rish bilan bir xil):

Kamchiliksiz gipotezani qachon sinab ko'rishimiz kerak?

Ikkinchi to'plam (xuddi ustunlik gipotezasini sinab ko'rishda bo'lgani kabi):

Kamchiliksiz gipotezani qachon sinab ko'rishimiz kerak?

Biz ikkinchi gipotezani faqat birinchisi rad etilgan taqdirdagina tekshiramiz. Ketma-ket sinovdan o'tkazilayotganda, biz umumiy I turdagi xatolik darajasini (a) saqlaymiz. Amalda, bunga vositalar orasidagi farq uchun 95% ishonch oralig'ini yaratish va butun intervalning -D dan kattaligini aniqlash uchun test orqali erishish mumkin. Agar interval -D dan oshmasa, biz null qiymatni rad eta olmaymiz va to'xtata olmaymiz. Agar butun interval haqiqatan ham -D dan katta bo'lsa, biz davom etamiz va oraliqda 0 bor yoki yo'qligini tekshiramiz.

Biz muhokama qilmagan yana bir tadqiqot turi mavjud - ekvivalentlik tadqiqotlari.

Ushbu turdagi tadqiqotlar kamchiliksiz tadqiqotlar bilan almashtirilishi mumkin va aksincha, lekin ular aslida muhim farqga ega. Kamchiliksizlik sinovi B varianti hech bo'lmaganda A kabi yaxshi ekanligini ko'rsatishga qaratilgan. Ekvivalentlik sinovi B varianti hech bo'lmaganda A kabi yaxshi ekanligini ko'rsatishga qaratilgan. A varianti B kabi yaxshi, bu qiyinroq. Asosan, biz o'rtacha farq uchun butun ishonch oralig'i -D va D o'rtasida joylashganligini aniqlashga harakat qilmoqdamiz. Bunday tadqiqotlar kattaroq namunani talab qiladi va kamroq o'tkaziladi. Shunday qilib, keyingi safar tadqiqot o'tkazganingizda, asosiy maqsadingiz yangi versiyaning bundan ham yomoni bo'lmasligini ta'minlash bo'lsa, "nol gipotezani rad etmaslik" bilan kifoyalanmang. Agar siz haqiqatan ham muhim gipotezani sinab ko'rmoqchi bo'lsangiz, turli xil variantlarni ko'rib chiqing.

Manba: www.habr.com

a Izoh qo'shish