Kada turėtume patikrinti neprastumo hipotezę?

Kada turėtume patikrinti neprastumo hipotezę?
Stitch Fix komandos straipsnyje siūloma naudoti ne prastesnės kokybės bandymų metodą rinkodaros ir produkto A/B testuose. Šis metodas tikrai taikomas, kai bandome naują sprendimą, kuris turi pranašumų, kurie nėra vertinami testais.

Paprasčiausias pavyzdys – išlaidų mažinimas. Pavyzdžiui, automatizuojame pirmosios pamokos priskyrimo procesą, bet nenorime žymiai sumažinti galutinio konversijos. Arba testuojame pakeitimus, skirtus vienam vartotojų segmentui, tuo pačiu įsitikindami, kad kitų segmentų konversijos labai nesumažėtų (tikrindami kelias hipotezes nepamirškite ir pataisų).

Tinkamos ne prastesnės ribos parinkimas sukuria papildomų iššūkių bandymo projektavimo etape. Klausimas, kaip pasirinkti Δ, straipsnyje nėra labai gerai aptartas. Atrodo, kad šis pasirinkimas nėra visiškai skaidrus ir atliekant klinikinius tyrimus. Peržiūrėti medicinos publikacijose apie neprastumą rašoma, kad tik pusė publikacijų pagrindžia ribos pasirinkimą, o dažnai šie pagrindimai yra dviprasmiški arba nedetalūs.

Bet kokiu atveju toks požiūris atrodo įdomus, nes... sumažinus reikiamą imties dydį, jis gali padidinti testavimo greitį, taigi ir sprendimų priėmimo greitį. — Daria Mukhina, „Skyeng“ mobiliosios programos produktų analitikė.

„Stitch Fix“ komanda mėgsta išbandyti įvairius dalykus. Visa technologijų bendruomenė iš esmės mėgsta vykdyti bandymus. Kuri svetainės versija pritraukia daugiau vartotojų – A ar B? Ar rekomendacinio modelio versija A uždirba daugiau pinigų nei versija B? Norėdami patikrinti hipotezes, beveik visada naudojame paprasčiausią metodą iš pagrindinės statistikos kurso:

Kada turėtume patikrinti neprastumo hipotezę?

Nors šį terminą vartojame retai, ši testavimo forma vadinama „viršenybės hipotezės testavimu“. Taikydami šį metodą darome prielaidą, kad tarp šių dviejų variantų nėra skirtumo. Mes laikomės šios idėjos ir jos atsisakome tik tuo atveju, jei duomenys yra pakankamai įtikinami tai padaryti, tai yra, jie parodo, kad viena iš parinkčių (A arba B) yra geresnė už kitą.

Pranašumo hipotezės tikrinimas tinka įvairioms problemoms spręsti. Išleidžiame tik rekomenduojamo modelio versiją B, jei ji yra aiškiai geresnė nei jau naudojama versija A. Tačiau kai kuriais atvejais šis metodas neveikia taip gerai. Pažvelkime į kelis pavyzdžius.

1) Mes naudojame trečiosios šalies paslaugą, kuri padeda atpažinti padirbtas banko korteles. Radome kitą paslaugą, kuri kainuoja žymiai pigiau. Jei pigesnė paslauga veiks taip gerai, kaip šiuo metu naudojame, rinksimės ją. Tai nebūtinai turi būti geresnė už jūsų naudojamą paslaugą.

2) Norime atsisakyti duomenų šaltinio A ir pakeiskite jį duomenų šaltiniu B. Galime atidėti A atsisakymą, jei B duoda labai blogus rezultatus, bet toliau naudoti A nebeįmanoma.

3) Norėtume pereiti nuo modeliavimo metodoA į B požiūris ne todėl, kad tikimės geresnių rezultatų iš B, o todėl, kad tai suteikia mums didesnį veiklos lankstumą. Neturime pagrindo manyti, kad B bus blogesnis, bet tokiu atveju mes neperžengsime.

4) Atlikome keletą kokybinių pakeitimų į svetainės dizainą (versija B) ir mano, kad ši versija yra pranašesnė už versiją A. Mes nesitikime, kad pasikeis konversija ar bet kokie pagrindiniai veiklos rodikliai, pagal kuriuos paprastai vertiname svetainę. Tačiau manome, kad yra pranašumų, kai parametrai yra neišmatuojami arba mūsų technologijos nepakanka išmatuoti.

Visais šiais atvejais pranašumo tyrimas nėra pats tinkamiausias sprendimas. Tačiau dauguma specialistų tokiose situacijose jį naudoja pagal nutylėjimą. Mes kruopščiai atliekame eksperimentą, kad teisingai nustatytų efekto dydį. Jei būtų tiesa, kad A ir B versijos veikia labai panašiai, yra tikimybė, kad mums nepavyks atmesti nulinės hipotezės. Ar darome išvadą, kad A ir B veikia iš esmės vienodai? Ne! Nulinės hipotezės atmetimas ir nulinės hipotezės priėmimas nėra tas pats.

Imties dydžio skaičiavimai (kurį, žinoma, jūs atlikote) paprastai atliekami taikant griežtesnes I tipo klaidos ribas (tikimybę, kad nepavyks atmesti nulinės hipotezės, dažnai vadinamos alfa), nei II tipo klaidos (tikimybei, kad jos nepavyks). atmesti nulinę hipotezę su sąlyga, kad nulinė hipotezė yra klaidinga, dažnai vadinama beta). Tipinė alfa vertė yra 0,05, o tipinė beta vertė yra 0,20, o tai atitinka 0,80 statistinę galią. Tai reiškia, kad yra 20% tikimybė, kad mes praleisime tikrąjį kiekio, kurį nurodėme savo galios skaičiavimuose, poveikį, ir tai yra gana rimta informacijos spraga. Kaip pavyzdį panagrinėkime šias hipotezes:

Kada turėtume patikrinti neprastumo hipotezę?

H0: mano kuprinės NĖRA mano kambaryje (3)
H1: mano kuprinė yra mano kambaryje (4)

Jei apieškojau savo kambarį ir radau savo kuprinę, puiku, galiu atmesti nulinę hipotezę. Bet jei apsidairiau po kambarį ir neradau savo kuprinės (1 pav.), kokią išvadą turėčiau padaryti? Ar aš tikras, kad jo nėra? Ar aš pakankamai griežtai žiūrėjau? Ką daryti, jei apieškočiau tik 80 % kambario? Daryti išvadą, kad kuprinės kambaryje tikrai nėra, būtų neapgalvotas sprendimas. Nenuostabu, kad negalime „priimti nulinės hipotezės“.
Kada turėtume patikrinti neprastumo hipotezę?
Vietovė, kurios ieškojome
Neradome kuprinės – ar turėtume priimti nulinę hipotezę?

1 pav. Ieškoti 80 % kambario yra maždaug tas pats, kas paieška 80 % galios. Jei apžiūrėję 80% kambario nerandate kuprinės, ar galite padaryti išvadą, kad jos ten nėra?

Taigi ką šioje situacijoje turėtų daryti duomenų mokslininkas? Galite labai padidinti tyrimo galią, tačiau tuomet jums reikės daug didesnės imties ir rezultatas vis tiek bus nepatenkinamas.

Laimei, tokios problemos jau seniai tiriamos klinikinių tyrimų pasaulyje. Vaistas B yra pigesnis nei vaistas A; Manoma, kad vaistas B sukels mažiau šalutinių poveikių nei vaistas A; vaistą B lengviau transportuoti, nes jo nereikia šaldyti, bet vaistą A reikia. Išbandykime neprastumo hipotezę. Tai parodo, kad B versija yra tokia pat gera, kaip ir A versija – bent jau tam tikroje iš anksto nustatytoje neprastumo riboje Δ. Apie tai, kaip nustatyti šią ribą, pakalbėsime šiek tiek vėliau. Tačiau kol kas darykime prielaidą, kad tai yra mažiausias skirtumas, kuris praktiškai turi prasmę (klinikinių tyrimų kontekste tai paprastai vadinama klinikine reikšme).

Hipotezės dėl nepilnavertiškumo viską apverčia ant galvos:

Kada turėtume patikrinti neprastumo hipotezę?

Dabar, užuot darę prielaidą, kad nėra jokio skirtumo, manysime, kad B versija yra blogesnė už A versiją, ir laikysimės šios prielaidos tol, kol neįrodysime, kad taip nėra. Būtent šiuo momentu prasminga naudoti vienpusį hipotezių tikrinimą! Praktiškai tai galima padaryti sudarant pasikliautinąjį intervalą ir nustačius, ar intervalas iš tikrųjų yra didesnis nei Δ (2 pav.).
Kada turėtume patikrinti neprastumo hipotezę?

Pasirinkite Δ

Kaip išsirinkti tinkamą Δ? Δ atrankos procesas apima statistinį pagrindimą ir esminį vertinimą. Klinikinių tyrimų pasaulyje yra reglamentavimo gairių, kuriose nurodoma, kad delta turėtų reikšti mažiausią kliniškai reikšmingą skirtumą, kuris turės įtakos praktikoje. Čia yra citata iš Europos gairių, kuriomis galite išbandyti save: „Jei skirtumas buvo pasirinktas teisingai, pasikliautinojo intervalo, kuris yra tik tarp –∆ ir 0…, vis tiek pakanka, kad būtų parodytas neprastumas. Jei šis rezultatas neatrodo priimtinas, tai reiškia, kad ∆ nebuvo tinkamai parinktas.

Delta tikrai neturėtų viršyti A versijos poveikio dydžio, palyginti su tikrosios kontrolės (placebas / negydymas), nes tai leidžia teigti, kad B versija yra blogesnė už tikrąją kontrolę, tuo pat metu įrodant „neprastumą“. . Tarkime, kai buvo pristatyta A versija, ji buvo pakeista 0 versija arba funkcija išvis neegzistavo (žr. 3 pav.).

Remiantis pranašumo hipotezės testavimo rezultatais, buvo atskleistas efekto dydis E (tai yra, tikėtina, μ^A−μ^0=E). Dabar A yra mūsų naujas standartas, ir mes norime įsitikinti, kad B yra toks pat geras kaip A. Kitas būdas parašyti μB−μA≤−Δ (nulinė hipotezė) yra μB≤μA−Δ. Jei darysime prielaidą, kad do yra lygi arba didesnė už E, tada μB ≤ μA−E ≤ placebas. Dabar matome, kad mūsų įvertis μB visiškai viršija μA−E, o tai visiškai atmeta nulinę hipotezę ir leidžia daryti išvadą, kad B yra toks pat geras kaip A, tačiau tuo pat metu μB gali būti ≤ μ placebo, o tai nėra atvejis.ko mums reikia. (3 pav.).

Kada turėtume patikrinti neprastumo hipotezę?
3 pav. Rizikos, susijusios su nenuovertumo maržos pasirinkimo, demonstravimas. Jei riba yra per didelė, galima daryti išvadą, kad B yra ne prastesnis už A, bet tuo pačiu nesiskiria nuo placebo. Mes nekeisime vaisto, kuris yra aiškiai veiksmingesnis už placebą (A), į vaistą, kuris yra toks pat veiksmingas kaip placebas.

α pasirinkimas

Pereikime prie α pasirinkimo. Galite naudoti standartinę reikšmę α = 0,05, tačiau tai nėra visiškai teisinga. Kaip, pavyzdžiui, kai perkate ką nors internetu ir naudojate kelis nuolaidų kodus vienu metu, nors jų derinti nereikėtų – kūrėjas tiesiog suklydo, ir jūs išsisukote. Pagal taisykles α reikšmė turi būti lygi pusei α reikšmės, kuri naudojama tikrinant pranašumo hipotezę, tai yra, 0,05 / 2 = 0,025.

Mėginio dydis

Kaip apskaičiuoti imties dydį? Jei manote, kad tikrasis vidutinis skirtumas tarp A ir B yra 0, tada imties dydžio apskaičiavimas yra toks pat kaip ir tikrinant pranašumo hipotezę, išskyrus tai, kad efekto dydį pakeisite ne prastesnio skirtumo riba, jei naudosite α ne prastesnis efektyvumas = 1/2α pranašumas (αnon-menuority=1/2αsuperiority). Jei turite pagrindo manyti, kad B variantas gali būti šiek tiek prastesnis nei A variantas, bet norite įrodyti, kad jis blogesnis ne daugiau nei Δ, vadinasi, jums pasisekė! Tai iš tikrųjų sumažina imties dydį, nes lengviau parodyti, kad B yra blogesnis už A, jei iš tikrųjų manote, kad jis yra šiek tiek blogesnis, o ne lygus.

Pavyzdys su sprendimu

Tarkime, kad norite atnaujinti į B versiją, su sąlyga, kad ji yra ne daugiau kaip 0,1 balo prastesnė už versiją A pagal 5 balų klientų pasitenkinimo skalę... Prie šios problemos priimkime pranašumo hipotezę.

Norėdami patikrinti pranašumo hipotezę, imties dydį apskaičiuotume taip:

Kada turėtume patikrinti neprastumo hipotezę?

Tai yra, jei jūsų grupėje yra 2103 stebėjimai, galite būti 90% tikri, kad rasite 0,10 ar didesnį efekto dydį. Bet jei 0,10 jums yra per didelis, galbūt neverta tikrinti pranašumo hipotezės. Saugumo sumetimais galite nuspręsti atlikti tyrimą dėl mažesnio efekto dydžio, pvz., 0,05. Tokiu atveju jums reikės 8407 stebėjimų, tai yra, imtis padidės beveik 4 kartus. O kas, jei laikytumėmės pradinio imties dydžio, bet padidintume galią iki 0,99, kad būtume saugūs, jei gautume teigiamą rezultatą? Šiuo atveju vienos grupės n bus 3676, o tai jau geriau, bet padidina imties dydį daugiau nei 50%. Ir dėl to mes vis tiek tiesiog negalėsime paneigti nulinės hipotezės ir negausime atsakymo į savo klausimą.

O kas, jei vietoj to patikrintume nepilnavertiškumo hipotezę?

Kada turėtume patikrinti neprastumo hipotezę?

Imties dydis bus apskaičiuojamas naudojant tą pačią formulę, išskyrus vardiklį.
Skirtumai nuo formulės, naudotos pranašumo hipotezei patikrinti, yra šie:

— Z1−α/2 pakeičiamas Z1−α, bet jei viską darote pagal taisykles, α = 0,05 pakeisite α = 0,025, tai yra, tai yra tas pats skaičius (1,96)

— (μB−μA) atsiranda vardiklyje

— θ (efekto dydis) pakeičiamas Δ (neprastumo riba)

Jei darysime prielaidą, kad µB = µA, tada (µB − µA) = 0, o imties dydžio apskaičiavimas neprastumo ribos atveju yra būtent tai, ką gautume, jei apskaičiuotume pranašumą esant 0,1 efekto dydžiui, puiku! Galime atlikti vienodo dydžio tyrimą su skirtingomis hipotezėmis ir kitokiu požiūriu į išvadas ir gausime atsakymą į klausimą, į kurį tikrai norime atsakyti.

Dabar tarkime, kad mes iš tikrųjų nemanome, kad µB = µA ir
Manome, kad µB yra šiek tiek blogesnis, galbūt 0,01 vieneto. Tai padidina mūsų vardiklį ir sumažina imties dydį vienoje grupėje iki 1737 XNUMX.

Kas atsitiks, jei B versija iš tikrųjų yra geresnė nei A versija? Mes atmetame nulinę hipotezę, kad B yra blogesnė už A daugiau nei Δ, ir priimame alternatyvią hipotezę, kad B, jei blogesnė, nėra blogesnė už A Δ ir gali būti geresnė. Pabandykite įtraukti šią išvadą į daugiafunkcinį pristatymą ir pažiūrėkite, kas atsitiks (rimtai, pabandykite). Į ateitį nukreiptoje situacijoje niekas nenori tenkintis „ne daugiau nei Δ blogiau ir galbūt geriau“.

Šiuo atveju galime atlikti tyrimą, kuris labai trumpai vadinamas „hipotezės, kad vienas iš variantų yra pranašesnis arba prastesnis už kitą, tikrinimu“. Jame naudojami du hipotezių rinkiniai:

Pirmasis rinkinys (tas pats, kaip tikrinant ne prastesnės padėties hipotezę):

Kada turėtume patikrinti neprastumo hipotezę?

Antrasis rinkinys (tas pats, kaip ir tikrinant pranašumo hipotezę):

Kada turėtume patikrinti neprastumo hipotezę?

Antrąją hipotezę tikriname tik tada, kai pirmoji atmetama. Bandydami nuosekliai, išlaikome bendrą I tipo klaidų lygį (α). Praktiškai tai galima pasiekti sukuriant 95 % pasikliovimo intervalą skirtumui tarp vidurkių ir testuojant, kad būtų nustatyta, ar visas intervalas yra didesnis nei -Δ. Jei intervalas neviršija -Δ, negalime atmesti nulinės reikšmės ir sustoti. Jei visas intervalas iš tikrųjų yra didesnis nei −Δ, tęsime ir žiūrėsime, ar intervale yra 0.

Yra dar vienas tyrimų tipas, kurio neaptarėme – lygiavertiškumo tyrimai.

Šių tipų tyrimus galima pakeisti nepilnavertiškumo tyrimais ir atvirkščiai, tačiau jie iš tikrųjų turi svarbų skirtumą. Neprastumo bandymu siekiama parodyti, kad B variantas yra bent toks pat geras kaip A. Lygiavertiškumo bandymu siekiama parodyti, kad B variantas yra bent toks pat geras kaip A. A variantas yra toks pat geras kaip B, o tai yra sunkesnė. Iš esmės mes bandome nustatyti, ar visas vidurkių skirtumo pasikliautinasis intervalas yra tarp –Δ ir Δ. Tokiems tyrimams reikalingas didesnis imties dydis ir jie atliekami rečiau. Taigi, kai kitą kartą atliksite tyrimą, kurio pagrindinis tikslas yra užtikrinti, kad naujoji versija būtų ne prastesnė, nesitenkinkite „nepavykus atmesti nulinės hipotezės“. Jei norite patikrinti tikrai svarbią hipotezę, apsvarstykite įvairias galimybes.

Šaltinis: www.habr.com

Добавить комментарий