Aşağılıq fərziyyəsini nə vaxt sınaqdan keçirməliyik?

Aşağılıq fərziyyəsini nə vaxt sınaqdan keçirməliyik?
Stitch Fix komandasının məqaləsi marketinq və məhsul A/B testlərində aşağı olmayan sınaqlar yanaşmasından istifadə etməyi təklif edir. Bu yanaşma həqiqətən sınaqlarla ölçülməyən faydaları olan yeni həlli sınaqdan keçirərkən tətbiq edilir.

Ən sadə nümunə xərclərin azaldılmasıdır. Məsələn, biz ilk dərsin təyin edilməsi prosesini avtomatlaşdırırıq, lakin başdan sona çevrilməni əhəmiyyətli dərəcədə azaltmaq istəmirik. Yaxud biz istifadəçilərin bir seqmentinə yönəlmiş dəyişiklikləri sınaqdan keçiririk, digər seqmentlər üçün dönüşümlərin çox aşağı düşməməsinə əmin oluruq (bir neçə fərziyyəni sınaqdan keçirərkən düzəlişləri unutma).

Düzgün aşağı olmayan marjanın seçilməsi sınaq dizayn mərhələsində əlavə çətinliklər yaradır. Δ-ni necə seçmək məsələsi məqalədə çox yaxşı işıqlandırılmır. Görünür, bu seçim klinik sınaqlarda da tam şəffaf deyil. Review Qeyri-alçaqlıq haqqında tibbi nəşrlər bildirir ki, nəşrlərin yalnız yarısı sərhəd seçiminə haqq qazandırır və çox vaxt bu əsaslandırmalar birmənalı deyil və ya təfərrüatlı deyil.

Hər halda bu yanaşma maraqlı görünür, çünki... tələb olunan nümunə ölçüsünü azaltmaqla, sınaq sürətini və deməli, qərar qəbul etmə sürətini artıra bilər. — Daria Mukhina, Skyeng mobil tətbiqi üçün məhsul analitiki.

Stitch Fix komandası müxtəlif şeyləri sınamağı sevir. Bütün texnologiya ictimaiyyəti prinsipcə testlər keçirməyi sevir. Saytın hansı versiyası daha çox istifadəçi cəlb edir - A yoxsa B? Tövsiyə modelinin A versiyası B versiyasından daha çox pul qazanırmı? Fərziyyələri yoxlamaq üçün biz demək olar ki, həmişə əsas statistika kursundan ən sadə yanaşmadan istifadə edirik:

Aşağılıq fərziyyəsini nə vaxt sınaqdan keçirməliyik?

Termini nadir hallarda istifadə etsək də, bu test formasına “üstünlük hipotezinin testi” deyilir. Bu yanaşma ilə iki variant arasında heç bir fərq olmadığını güman edirik. Biz bu fikrə sadiq qalırıq və yalnız məlumat bunu etmək üçün kifayət qədər məcburedicidirsə, ondan imtina edirik, yəni bu, variantlardan birinin (A və ya B) digərindən daha yaxşı olduğunu nümayiş etdirir.

Üstünlük fərziyyəsinin sınaqdan keçirilməsi müxtəlif problemlər üçün uyğundur. Tövsiyə modelinin B versiyasını o halda buraxırıq ki, o, artıq istifadədə olan A versiyasından daha yaxşıdır.Lakin bəzi hallarda bu yanaşma o qədər də yaxşı işləmir. Gəlin bir neçə nümunəyə baxaq.

1) Biz üçüncü tərəf xidmətindən istifadə edirik, bu, saxta bank kartlarını aşkar etməyə kömək edir. Biz xeyli az xərclənən başqa bir xidmət tapdıq. Əgər hazırda istifadə etdiyimiz xidmət kimi daha ucuz xidmət də işləyirsə, biz onu seçəcəyik. İstifadə etdiyiniz xidmətdən daha yaxşı olması lazım deyil.

2) Biz məlumat mənbəyindən imtina etmək istəyirik A və onu B məlumat mənbəyi ilə əvəz edin. Əgər B çox pis nəticələr verirsə, A-dan imtina etməyi gecikdirə bilərik, lakin A-dan istifadə etməyə davam etmək mümkün deyil.

3) Biz modelləşdirmə yanaşmasından keçmək istərdikA-dan B-yə yanaşma B-dən daha yaxşı nəticələr gözlədiyimiz üçün deyil, bizə daha çox əməliyyat çevikliyi verdiyi üçün. B-nin daha pis olacağına inanmaq üçün heç bir əsasımız yoxdur, lakin belə olarsa, keçid etməyəcəyik.

4) Biz bir neçə keyfiyyət dəyişikliyi etdik veb-sayt dizaynına (versiya B) daxil olun və bu versiyanın A versiyasından üstün olduğuna inanırıq. Biz konversiyada və ya adətən veb-saytı qiymətləndirdiyimiz hər hansı əsas performans göstəricilərində dəyişiklik gözləmirik. Lakin biz hesab edirik ki, parametrlərdə ya ölçülə bilməyən faydalar var, ya da texnologiyamız ölçmək üçün kifayət deyil.

Bütün bu hallarda üstünlük araşdırması ən uyğun həll yolu deyil. Ancaq bu cür vəziyyətlərdə mütəxəssislərin əksəriyyəti standart olaraq istifadə edirlər. Effektin ölçüsünü düzgün müəyyən etmək üçün təcrübəni diqqətlə aparırıq. A və B versiyalarının çox oxşar şəkildə işlədiyi doğru olsaydı, sıfır fərziyyəni rədd etmə şansımız var idi. A və B-nin əsasən eyni performans göstərdiyi qənaətinə gəlirikmi? Yox! Sıfır fərziyyəni rədd etməmək və sıfır hipotezini qəbul etmək eyni şey deyil.

Nümunə ölçüsü hesablamaları (əlbəttə ki, siz bunu etmisiniz) adətən Tip II xəta (rədd etməmək ehtimalı) ilə müqayisədə Tip I xəta (çox vaxt alfa adlanan sıfır fərziyyəni rədd etmə ehtimalı) üçün daha sərt sərhədlərlə aparılır. null hipotezi, sıfır hipotezinin yalan olması şərti ilə, çox vaxt beta adlanır). Alfa üçün tipik dəyər 0,05, beta üçün tipik dəyər isə 0,20 statistik gücə uyğun olaraq 0,80-dir. Bu o deməkdir ki, güc hesablamalarımızda qeyd etdiyimiz kəmiyyətin həqiqi təsirini əldən vermə şansımız 20% -dir və bu, məlumatda kifayət qədər ciddi bir boşluqdur. Nümunə olaraq aşağıdakı fərziyyələri nəzərdən keçirək:

Aşağılıq fərziyyəsini nə vaxt sınaqdan keçirməliyik?

H0: Sırt çantam otağımda DEYİL (3)
H1: Sırt çantam otağımdadır (4)

Otağımı axtarıb kürək çantamı tapsam, əla, sıfır fərziyyəni rədd edə bilərəm. Amma otaqda ətrafa baxdımsa və bel çantamı tapa bilmədimsə (Şəkil 1), hansı nəticəyə gəlməliyəm? Orada olmadığına əminəm? Mən kifayət qədər ciddi baxdım? Mən otağın yalnız 80%-ni axtarsam nə olar? Sırt çantasının mütləq otaqda olmadığı qənaətinə gəlmək tələsik qərar olardı. Təəccüblü deyil ki, biz “sıfır fərziyyəni” qəbul edə bilmərik.
Aşağılıq fərziyyəsini nə vaxt sınaqdan keçirməliyik?
Axtardığımız ərazi
Sırt çantasını tapmadıq - sıfır fərziyyəni qəbul etməliyik?

Şəkil 1: Otağın 80%-nin axtarışı təxminən 80% gücdə axtarışla eynidir. Otağın 80%-nə baxdıqdan sonra bel çantasını tapmasanız, onun orada olmadığı qənaətinə gələ bilərsinizmi?

Bəs məlumat alimi bu vəziyyətdə nə etməlidir? Tədqiqatın gücünü çox artıra bilərsiniz, lakin sonra daha böyük bir nümunə ölçüsünə ehtiyacınız olacaq və nəticə hələ də qənaətbəxş olmayacaqdır.

Xoşbəxtlikdən, bu cür problemlər klinik tədqiqatlar dünyasında çoxdan öyrənilmişdir. B dərmanı A dərmanından daha ucuzdur; B dərmanının A dərmanından daha az yan təsirlərə səbəb olacağı gözlənilir; B dərmanının daşınması daha asandır, çünki onun soyuducuda saxlanmasına ehtiyac yoxdur, lakin A dərmanı bunu edir. Gəlin aşağı olmamaq fərziyyəsini yoxlayaq. Bu, B versiyasının A versiyası qədər yaxşı olduğunu göstərməkdir - ən azı əvvəlcədən müəyyən edilmiş aşağı olmayan məhdudiyyətlər daxilində, Δ. Bu limiti necə təyin etmək barədə bir az sonra daha ətraflı danışacağıq. Amma hələlik tutaq ki, bu, praktiki olaraq mənalı olan ən kiçik fərqdir (klinik sınaqlar kontekstində buna adətən klinik əhəmiyyət deyilir).

Qeyri-aşağılıq fərziyyələri hər şeyi öz başına çevirir:

Aşağılıq fərziyyəsini nə vaxt sınaqdan keçirməliyik?

İndi heç bir fərq olmadığını güman etmək əvəzinə, B versiyasının A versiyasından daha pis olduğunu fərz edəcəyik və bunun belə olmadığını nümayiş etdirənə qədər bu fərziyyəyə sadiq qalacağıq. Bu, birtərəfli fərziyyə testindən istifadə etməyin məntiqli olduğu andır! Təcrübədə bu, etimad intervalı qurmaq və intervalın həqiqətən Δ-dən böyük olub olmadığını müəyyən etməklə həyata keçirilə bilər (Şəkil 2).
Aşağılıq fərziyyəsini nə vaxt sınaqdan keçirməliyik?

Δ seçin

Doğru Δ-ni necə seçmək olar? Δ seçim prosesinə statistik əsaslandırma və mahiyyəti üzrə qiymətləndirmə daxildir. Klinik tədqiqatlar dünyasında deltanın ən kiçik klinik əhəmiyyətli fərqi - praktikada fərq yaradacaq fərqi təmsil etməsini diktə edən tənzimləyici təlimatlar mövcuddur. Özünüzü sınamaq üçün Avropa təlimatlarından bir sitat təqdim edirik: “Əgər fərq düzgün seçilibsə, tamamilə –∆ və 0… arasında olan inam intervalı yenə də aşağı olmadığınızı nümayiş etdirmək üçün kifayətdir. Əgər bu nəticə məqbul görünmürsə, deməli ∆ düzgün seçilməyib”.

Delta, əsl nəzarətə (plasebo/müalicə yoxdur) nisbətən A versiyasının təsir ölçüsünü mütləq aşmamalıdır, çünki bu, B versiyasının həqiqi nəzarətdən daha pis olduğunu söyləməyə vadar edir, eyni zamanda “qeyri-aşağılıq” nümayiş etdirir. .” Fərz edək ki, A versiyası təqdim edildikdə, o, 0 versiyası ilə əvəz olundu və ya xüsusiyyət ümumiyyətlə mövcud deyildi (Şəkil 3-ə baxın).

Üstünlük fərziyyəsinin sınaqdan keçirilməsinin nəticələrinə əsasən təsir ölçüsü E aşkar edilmişdir (yəni, ehtimal ki, μ^A−μ^0=E). İndi A bizim yeni standartımızdır və biz əmin olmaq istəyirik ki, B A qədər yaxşıdır. μB−μA≤−Δ (boş hipotez) yazmağın başqa bir yolu μB≤μA−Δ-dır. Əgər fərz etsək ki, do E-yə bərabər və ya ondan böyükdür, onda μB ≤ μA−E ≤ plasebo. İndi görürük ki, μB üçün təxminimiz μA−E-ni tamamilə üstələyir, bu da sıfır fərziyyəni tamamilə rədd edir və bizə B-nin A kimi yaxşı olduğu qənaətinə gəlməyə imkan verir, lakin eyni zamanda μB ≤ μ plasebo ola bilər, bu, heç də əsas deyil. hal.bizə nə lazımdır. (Şəkil 3).

Aşağılıq fərziyyəsini nə vaxt sınaqdan keçirməliyik?
Şəkil 3. Qeyri-aşağılıq marjasının seçilməsi risklərinin nümayişi. Əgər kəsilmə çox yüksəkdirsə, belə nəticəyə gəlmək olar ki, B A-dan aşağı deyil, lakin eyni zamanda plasebodan fərqlənmir. Plasebodan (A) daha təsirli olan bir dərmanı plasebo qədər təsirli bir dərmanla dəyişdirməyəcəyik.

α seçimi

Gəlin α-nın seçiminə keçək. Siz α = 0,05 standart dəyərindən istifadə edə bilərsiniz, lakin bu tamamilə ədalətli deyil. Məsələn, onlayn bir şey satın aldığınızda və bir anda bir neçə endirim kodundan istifadə etdiyiniz zaman, baxmayaraq ki, onlar birləşdirilməməlidir - tərtibatçı sadəcə səhv etdi və siz bundan xilas oldunuz. Qaydalara görə, α dəyəri üstünlük fərziyyəsinin sınaqdan keçirilməsi zamanı istifadə olunan α dəyərinin yarısına bərabər olmalıdır, yəni 0,05 / 2 = 0,025.

Nümunə ölçüsü

Nümunə ölçüsünü necə qiymətləndirmək olar? Əgər A və B arasındakı həqiqi orta fərqin 0 olduğuna inanırsınızsa, onda nümunə ölçüsünün hesablanması üstünlük fərziyyəsini sınaqdan keçirərkən olduğu kimidir, istisna olmaqla, təsir ölçüsünü aşağı olmayan marja ilə əvəz edirsiniz. αqeyri-aşağı səmərəlilik = 1/2αüstünlük (αqeyri-aşağılıq=1/2αüstünlük). Əgər B variantının A variantından bir qədər pis ola biləcəyinə inanmaq üçün səbəbiniz varsa, lakin onun Δ-dan çox olmamaqla daha pis olduğunu sübut etmək istəyirsinizsə, bəxtiniz gətirdi! Bu, faktiki olaraq nümunə ölçüsünü azaldır, çünki B-nin A-dan daha pis olduğunu sübut etmək daha asandır, əgər siz onun bərabər deyil, bir qədər pis olduğunu düşünürsünüzsə.

Həll ilə nümunə

Tutaq ki, 0,1 ballıq müştəri məmnuniyyəti şkalası üzrə A versiyasından 5 baldan pis olmamaq şərti ilə B versiyasına yüksəltmək istəyirsiniz... Gəlin bu problemə üstünlük fərziyyəsindən istifadə edək.

Üstünlük fərziyyəsini yoxlamaq üçün nümunə ölçüsünü aşağıdakı kimi hesablayacağıq:

Aşağılıq fərziyyəsini nə vaxt sınaqdan keçirməliyik?

Yəni qrupunuzda 2103 müşahidəniz varsa, 90 və ya daha böyük effekt ölçüsü tapacağınıza 0,10% əmin ola bilərsiniz. Ancaq 0,10 sizin üçün çox yüksəkdirsə, üstünlük fərziyyəsini sınaqdan keçirməyə dəyməz. Təhlükəsiz tərəfdə olmaq üçün tədqiqatı 0,05 kimi daha kiçik bir təsir ölçüsü üçün aparmağa qərar verə bilərsiniz. Bu vəziyyətdə 8407 müşahidəyə ehtiyacınız olacaq, yəni nümunə demək olar ki, 4 dəfə artacaq. Bəs biz orijinal nümunə ölçüsünə sadiq qalsaq, amma müsbət nəticə əldə etsək təhlükəsiz ola bilməyimiz üçün gücü 0,99-a artırsaq nə edək? Bu halda, bir qrup üçün n 3676 olacaq, bu artıq daha yaxşıdır, lakin nümunə ölçüsünü 50% -dən çox artırır. Və nəticədə biz hələ də sıfır fərziyyəni sadəcə olaraq təkzib edə bilməyəcəyik və sualımıza cavab ala bilməyəcəyik.

Əvəzində aşağılıq fərziyyəsini sınaqdan keçirsək necə olar?

Aşağılıq fərziyyəsini nə vaxt sınaqdan keçirməliyik?

Nümunə ölçüsü məxrəc istisna olmaqla eyni düsturla hesablanacaq.
Üstünlük fərziyyəsini yoxlamaq üçün istifadə edilən düsturdan fərqlər aşağıdakılardır:

— Z1−α/2 Z1−α ilə əvəz olunur, lakin hər şeyi qaydalara uyğun edirsinizsə, α = 0,05-i α = 0,025 ilə əvəz edirsiniz, yəni eyni ədəddir (1,96)

— (μB−μA) məxrəcdə görünür

— θ (təsir ölçüsü) Δ (qeyri-aşağılıq marjası) ilə əvəz olunur.

Əgər fərz etsək ki, µB = µA, onda (µB − µA) = 0 və aşağı olmayan marja üçün nümunə ölçüsünün hesablanması, 0,1 effekt ölçüsü üçün üstünlüyü hesablasaq, əldə edəcəyimiz şeydir, əla! Fərqli fərziyyələr və nəticələrə fərqli yanaşma ilə eyni ölçüdə bir araşdırma apara bilərik və həqiqətən cavab vermək istədiyimiz sualın cavabını alacağıq.

İndi fərz edək ki, biz əslində µB = µA və olduğunu düşünmürük
Düşünürük ki, µB bir az daha pisdir, bəlkə də 0,01 vahiddir. Bu, məxrəcimizi artırır, qrup üzrə nümunə ölçüsünü 1737-yə endirir.

B versiyası həqiqətən A versiyasından daha yaxşı olarsa nə olar? Biz B-nin A-dan Δ-dən çox pis olması ilə bağlı sıfır fərziyyəni rədd edirik və alternativ fərziyyəni qəbul edirik ki, B, əgər daha pisdirsə, A-dan Δ ilə pis deyil və daha yaxşı ola bilər. Bu nəticəni çarpaz funksional təqdimata qoymağa çalışın və nə baş verdiyini görün (ciddi olaraq, cəhd edin). Gələcəyə baxan bir vəziyyətdə, heç kim “Δ daha pis və bəlkə də daha yaxşı” ilə kifayətlənmək istəmir.

Bu vəziyyətdə, çox qısaca "variantlardan birinin digərindən üstün və ya aşağı olması fərziyyəsini sınaqdan keçirmək" adlanan bir araşdırma apara bilərik. İki fərziyyə dəstindən istifadə edir:

Birinci dəst (qeyri-aşağılıq fərziyyəsini sınaqdan keçirməklə eyni):

Aşağılıq fərziyyəsini nə vaxt sınaqdan keçirməliyik?

İkinci dəst (üstünlük fərziyyəsini sınaqdan keçirərkən olduğu kimi):

Aşağılıq fərziyyəsini nə vaxt sınaqdan keçirməliyik?

İkinci fərziyyəni yalnız birincisi rədd edildikdə yoxlayırıq. Ardıcıl sınaqdan keçirərkən biz ümumi I Tip səhv dərəcəsini (α) saxlayırıq. Təcrübədə buna vasitələr arasındakı fərq üçün 95% inam intervalı yaratmaqla və bütün intervalın -Δ-dan böyük olub-olmadığını müəyyən etmək üçün sınaqdan keçirməklə nail olmaq olar. Əgər interval -Δ-dan çox deyilsə, null dəyərini rədd edib dayana bilmərik. Əgər bütün interval həqiqətən −Δ-dan böyükdürsə, biz davam edəcəyik və intervalda 0 olub-olmadığını görəcəyik.

Müzakirə etmədiyimiz başqa bir araşdırma növü var - ekvivalentlik tədqiqatları.

Bu tip tədqiqatlar qeyri-adilik tədqiqatları ilə və əksinə əvəz edilə bilər, lakin əslində onların əhəmiyyətli bir fərqi var. Aşağı olmayan sınaq B variantının ən azı A qədər yaxşı olduğunu göstərmək məqsədi daşıyır. Ekvivalent sınaq B variantının ən azı A qədər yaxşı olduğunu göstərmək məqsədi daşıyır. A variantının B qədər yaxşı olduğunu, bu isə daha çətindir. Əslində, biz vasitələr fərqi üçün bütün inam intervalının −Δ və Δ arasında olub olmadığını müəyyən etməyə çalışırıq. Bu cür tədqiqatlar daha böyük nümunə ölçüsü tələb edir və daha az tez-tez aparılır. Beləliklə, növbəti dəfə əsas məqsədinizin yeni versiyanın daha pis olmadığını təmin etmək olan bir araşdırma apardığınız zaman "sıfır fərziyyəni rədd etməmək" ilə kifayətlənməyin. Həqiqətən vacib bir fərziyyəni yoxlamaq istəyirsinizsə, müxtəlif variantları nəzərdən keçirin.

Mənbə: www.habr.com

Добавить комментарий