Millal peaksime mittealaväärsushüpoteesi testima?

Millal peaksime mittealaväärsushüpoteesi testima?
Stitch Fixi meeskonna artikkel soovitab kasutada turundus- ja toote A/B-testides mitte-alaväärtuse katsete lähenemisviisi. See lähenemine kehtib tõesti siis, kui testime uut lahendust, mille eelised ei ole testidega mõõdetavad.

Lihtsaim näide on kulude vähendamine. Näiteks automatiseerime esimese õppetunni määramise protsessi, kuid me ei taha märkimisväärselt vähendada täielikku konversiooni. Või testime muudatusi, mis on suunatud ühele kasutajasegmendile, tagades samal ajal, et teiste segmentide konversioonid ei langeks palju (mitme hüpoteesi testimisel ärge unustage muudatusi).

Õige mitte-alaväärtuse marginaali valimine lisab katse kavandamise etapis täiendavaid väljakutseid. Küsimust, kuidas Δ valida, ei käsitleta artiklis kuigi hästi. Tundub, et see valik pole ka kliinilistes uuringutes täiesti läbipaistev. Vaadata mittealaväärsust käsitlevates meditsiiniväljaannetes on kirjas, et vaid pooled väljaannetest õigustavad piiri valikut ning sageli on need põhjendused mitmetähenduslikud või ebatäpsed.

Igal juhul tundub see lähenemine huvitav, sest... vähendades nõutavat valimi suurust, võib see suurendada testimise kiirust ja seega ka otsuste tegemise kiirust. — Daria Mukhina, Skyeng mobiilirakenduse tooteanalüütik.

Stitch Fixi meeskonnale meeldib erinevaid asju katsetada. Kogu tehnoloogiakogukond armastab põhimõtteliselt teste läbi viia. Milline saidi versioon meelitab rohkem kasutajaid – A või B? Kas soovitusmudeli versioon A teenib rohkem raha kui versioon B? Hüpoteeside kontrollimiseks kasutame peaaegu alati kõige lihtsamat lähenemisviisi põhistatistika kursusest:

Millal peaksime mittealaväärsushüpoteesi testima?

Kuigi me kasutame seda terminit harva, nimetatakse seda testimisvormi "ülemhüpoteesi testimiseks". Selle lähenemisviisi puhul eeldame, et kahe variandi vahel pole vahet. Jääme selle idee juurde ja loobume sellest ainult siis, kui andmed on selleks piisavalt veenvad – see tähendab, et see näitab, et üks valikutest (A või B) on parem kui teine.

Paremushüpoteesi testimine sobib erinevate probleemide lahendamiseks. Avaldame soovitusliku mudeli versiooni B ainult siis, kui see on selgelt parem kui juba kasutusel olev versioon A. Kuid mõnel juhul ei tööta see lähenemisviis nii hästi. Vaatame mõnda näidet.

1) Kasutame kolmanda osapoole teenust, mis aitab tuvastada võltsitud pangakaarte. Leidsime veel ühe teenuse, mis maksab oluliselt vähem. Kui mõni soodsam teenus töötab sama hästi kui praegu kasutatav, siis valime selle. See ei pea olema parem kui teie kasutatav teenus.

2) Soovime andmeallikast loobuda A ja asendada see andmeallikaga B. Kui B annab väga halbu tulemusi, võime A-st loobumist edasi lükata, kuid A kasutamist ei ole võimalik jätkata.

3) Soovime liikuda modelleerimisestA–B lähenemine mitte sellepärast, et me ootaksime B-lt paremaid tulemusi, vaid seepärast, et see annab meile suurema operatiivpaindlikkuse. Meil pole põhjust arvata, et B on halvem, kuid me ei tee üleminekut, kui see nii on.

4) Oleme teinud mitmeid kvalitatiivseid muudatusi veebisaidi kujundusse (versioon B) ja usume, et see versioon on parem kui versioon A. Me ei oota muutusi konversioonides ega peamistes toimivusnäitajates, mille alusel me veebisaiti tavaliselt hindame. Kuid me usume, et kasu on parameetritest, mida ei saa mõõta või pole meie tehnoloogia mõõtmiseks piisav.

Kõigil neil juhtudel ei ole paremuse uuring kõige sobivam lahendus. Kuid enamik spetsialiste sellistes olukordades kasutab seda vaikimisi. Teeme katse hoolikalt läbi, et efekti suurus õigesti määrata. Kui oleks tõsi, et versioonid A ja B töötavad väga sarnaselt, on tõenäoline, et me ei suuda nullhüpoteesi tagasi lükata. Kas järeldame, et A ja B toimivad põhimõtteliselt samamoodi? Ei! Nullhüpoteesi tagasilükkamine ja nullhüpoteesi aktsepteerimine ei ole sama asi.

Valimi suuruse arvutused (mida olete muidugi teinud) tehakse tavaliselt rangemate piiridega I tüüpi vea puhul (tõenäosus, et nullhüpoteesi, mida sageli nimetatakse alfaks) eirata, kui II tüüpi vea puhul (tõenäosus, et tagasilükkamine ebaõnnestub). nullhüpotees tingimusel, et nullhüpotees on vale, mida sageli nimetatakse beeta). Alfa tüüpiline väärtus on 0,05, samas kui beeta tüüpiline väärtus on 0,20, mis vastab statistilisele võimsusele 0,80. See tähendab, et on 20% tõenäosus, et me jätame oma võimsusarvutustes määratud koguse tegeliku mõju märkamata ja see on üsna tõsine infolünk. Vaatleme näiteks järgmisi hüpoteese:

Millal peaksime mittealaväärsushüpoteesi testima?

H0: mu seljakott EI OLE mu toas (3)
H1: mu seljakott on mu toas (4)

Kui ma otsisin oma toa läbi ja leidsin oma seljakoti, suurepärane, võin nullhüpoteesi tagasi lükata. Aga kui ma vaatasin toas ringi ja ei leidnud oma seljakotti (joonis 1), siis millise järelduse peaksin tegema? Kas ma olen kindel, et seda seal pole? Kas ma vaatasin piisavalt kõvasti? Mis siis, kui otsiksin ainult 80% ruumist? Järeldada, et seljakott kindlasti toas pole, oleks tormakas otsus. Pole ime, et me ei saa "nullhüpoteesiga nõustuda".
Millal peaksime mittealaväärsushüpoteesi testima?
Piirkond, mida otsisime
Me ei leidnud seljakotti – kas peaksime nullhüpoteesiga nõustuma?

Joonis 1: 80% ruumist otsimine on ligikaudu sama, mis 80% võimsusega otsimine. Kui te ei leia seljakotti pärast 80% ruumi läbivaatamist, kas saate järeldada, et seda seal pole?

Mida peaks andmeteadlane sellises olukorras tegema? Saate oluliselt suurendada uuringu võimsust, kuid siis on vaja palju suuremat valimit ja tulemus on ikkagi ebarahuldav.

Õnneks on selliseid probleeme kliiniliste uuringute maailmas juba ammu uuritud. Ravim B on odavam kui ravim A; Ravim B põhjustab eeldatavasti vähem kõrvaltoimeid kui ravim A; ravimit B on lihtsam transportida, sest seda ei ole vaja külmkapis hoida, küll aga ravimit A. Testime hüpoteesi mittealaväärsusest. Selle eesmärk on näidata, et versioon B on sama hea kui versioon A – vähemalt teatud eelmääratletud mittealaväärsusmarginaali Δ piires. Sellest, kuidas seda limiiti määrata, räägime veidi hiljem. Kuid praegu oletame, et see on väikseim praktiliselt tähenduslik erinevus (kliiniliste uuringute kontekstis nimetatakse seda tavaliselt kliiniliseks olulisuseks).

Mitte-alaväärsushüpoteesid pööravad kõik pea peale:

Millal peaksime mittealaväärsushüpoteesi testima?

Nüüd, selle asemel, et eeldada, et erinevust pole, eeldame, et versioon B on halvem kui versioon A, ja jääme selle eelduse juurde, kuni näitame, et see pole nii. Just sel hetkel on mõttekas kasutada ühekülgset hüpoteeside testimist! Praktikas saab seda teha usaldusintervalli konstrueerimisega ja määrates, kas intervall on tegelikult suurem kui Δ (joonis 2).
Millal peaksime mittealaväärsushüpoteesi testima?

Valige Δ

Kuidas valida õiget Δ? Δ valikuprotsess hõlmab statistilist põhjendust ja sisulist hindamist. Kliiniliste uuringute maailmas kehtivad regulatiivsed juhised, mis näevad ette, et delta peaks esindama väikseimat kliiniliselt olulist erinevust - see, mis praktikas muudab. Siin on tsitaat Euroopa juhistest, millega end proovile panna: „Kui erinevus on õigesti valitud, piisab usaldusvahemikust, mis jääb täielikult –∆ ja 0… vahele, et näidata mittealaväärsust. Kui see tulemus ei tundu vastuvõetav, tähendab see, et ∆ ei valitud õigesti.

Delta ei tohiks kindlasti ületada versiooni A mõju suurust võrreldes tõelise kontrolliga (platseebo/ravita), kuna see paneb meid väitma, et versioon B on tegelikust kontrollist halvem, näidates samal ajal "mitte-alaväärtust". .” Oletame, et kui versioon A tutvustati, asendati see versiooniga 0 või seda funktsiooni ei eksisteerinud üldse (vt joonis 3).

Paremushüpoteesi testimise tulemuste põhjal selgus efekti suurus E (st arvatavasti μ^A−μ^0=E). Nüüd on A meie uus standard ja me tahame olla kindlad, et B on sama hea kui A. Teine viis μB−μA≤−Δ (nullhüpotees) kirjutamiseks on μB≤μA−Δ. Kui eeldame, et do on võrdne või suurem kui E, siis μB ≤ μA−E ≤ platseebo. Nüüd näeme, et meie hinnang μB kohta ületab täielikult μA−E, mis lükkab seega täielikult tagasi nullhüpoteesi ja võimaldab meil järeldada, et B on sama hea kui A, kuid samal ajal võib μB olla ≤ μ platseebo, mis ei ole juhtum.mida me vajame. (Joonis 3).

Millal peaksime mittealaväärsushüpoteesi testima?
Joonis 3. Mittealaväärsusmarginaali valiku riskide demonstreerimine. Kui piirväärtus on liiga kõrge, võib järeldada, et B ei ole A-st madalam, kuid samas platseebost eristamatu. Me ei vaheta platseebost (A) selgelt tõhusamat ravimit platseeboga sama tõhusa ravimi vastu.

α valik

Liigume edasi α valimise juurde. Võite kasutada standardväärtust α = 0,05, kuid see pole täiesti õiglane. Nagu näiteks siis, kui ostate midagi veebist ja kasutate korraga mitut sooduskoodi, kuigi neid ei tohiks kombineerida – arendaja tegi lihtsalt vea ja te pääsesite sellest. Reeglite kohaselt peaks α väärtus olema võrdne poolega α väärtusest, mida kasutatakse paremuse hüpoteesi testimisel, see tähendab 0,05 / 2 = 0,025.

Näidissuurus

Kuidas hinnata valimi suurust? Kui arvate, et tegelik keskmine erinevus A ja B vahel on 0, on valimi suuruse arvutamine sama, mis paremuse hüpoteesi testimisel, välja arvatud see, et asendate efekti suuruse mittealaväärsusmarginaaliga eeldusel, et kasutate αmitte-halvem efektiivsus = 1/2αparemus (αnon-alaväärsus=1/2αülemus). Kui teil on põhjust arvata, et valik B võib olla veidi halvem kui valik A, kuid soovite tõestada, et see on mitte rohkem kui Δ võrra halvem, siis on teil õnne! See vähendab tegelikult teie valimi suurust, sest lihtsam on näidata, et B on halvem kui A, kui arvate, et see on pigem veidi halvem kui võrdne.

Näide lahendusega

Oletame, et soovite minna üle versioonile B, eeldusel, et see ei ole 0,1-punktilisel kliendirahulolu skaalal rohkem kui 5 punkti halvem kui versioon A... Läheneme sellele probleemile paremuse hüpoteesi abil.

Paremuse hüpoteesi testimiseks arvutaksime valimi suuruse järgmiselt:

Millal peaksime mittealaväärsushüpoteesi testima?

See tähendab, et kui teie rühmas on 2103 vaatlust, võite olla 90% kindel, et leiate efekti suuruse 0,10 või suurema. Kuid kui 0,10 on teie jaoks liiga kõrge, ei pruugi paremuse hüpoteesi testida. Ohutuse huvides võite otsustada läbi viia uuringu väiksema efektiga, näiteks 0,05. Sel juhul vajate 8407 vaatlust, see tähendab, et valim suureneb peaaegu 4 korda. Aga mis siis, kui jääksime oma esialgse valimi suuruse juurde, kuid suurendaksime võimsust 0,99-ni, et oleksime positiivse tulemuse korral ohutud? Sel juhul on ühe rühma n 3676, mis on juba parem, kuid suurendab valimi suurust rohkem kui 50%. Ja selle tulemusena ei saa me ikkagi lihtsalt nullhüpoteesi ümber lükata ja me ei saa oma küsimusele vastust.

Mis siis, kui testiksime selle asemel mittealaväärsushüpoteesi?

Millal peaksime mittealaväärsushüpoteesi testima?

Valimi suurus arvutatakse sama valemi abil, välja arvatud nimetaja.
Erinevused paremuse hüpoteesi testimiseks kasutatud valemist on järgmised:

— Z1−α/2 asendatakse Z1−α-ga, aga kui teete kõike reeglite järgi, asendate α = 0,05 väärtusega α = 0,025, see tähendab, et see on sama arv (1,96)

— (μB−μA) ilmub nimetajasse

— θ (efekti suurus) asendatakse Δ-ga (mitte-alaväärtuse marginaal)

Kui eeldame, et µB = µA, siis (µB − µA) = 0 ja valimi suuruse arvutamine mittealaväärsusmarginaali jaoks on täpselt see, mille saaksime, kui arvutaksime paremuse efekti suurusele 0,1, suurepärane! Saame teha ühesuuruse uuringu erinevate hüpoteeside ja erineva lähenemisega järeldustele ning saame vastuse küsimusele, millele tegelikult vastata tahame.

Oletame nüüd, et me tegelikult ei arva, et µB = µA ja
Arvame, et µB on veidi halvem, võib-olla 0,01 ühiku võrra. See suurendab meie nimetajat, vähendades valimi suurust rühma kohta 1737-ni.

Mis juhtub, kui versioon B on tegelikult parem kui versioon A? Lükkame ümber nullhüpoteesi, et B on A-st rohkem kui Δ võrra halvem, ja aktsepteerime alternatiivset hüpoteesi, et B, kui see on halvem, ei ole halvem kui A Δ võrra ja võib olla parem. Proovige panna see järeldus ristfunktsionaalsesse esitlusse ja vaadake, mis juhtub (tõsiselt, proovige seda). Tulevikku vaatavas olukorras ei taha keegi leppida „mitte rohkem kui Δ halvema ja võib-olla paremaga”.

Sel juhul saame läbi viia uuringu, mida väga lühidalt nimetatakse "hüpoteesi kontrollimiseks, et üks võimalustest on teisest parem või halvem". See kasutab kahte hüpoteeside komplekti:

Esimene komplekt (sama, mis mitte-alaväärtuse hüpoteesi testimisel):

Millal peaksime mittealaväärsushüpoteesi testima?

Teine komplekt (sama, mis paremuse hüpoteesi testimisel):

Millal peaksime mittealaväärsushüpoteesi testima?

Teist hüpoteesi testime ainult siis, kui esimene lükatakse tagasi. Järjestikuse testimise korral säilitame üldise I tüüpi veamäära (α). Praktikas saab seda saavutada, luues keskmiste erinevuse jaoks 95% usaldusvahemiku ja testides, kas kogu intervall on suurem kui -Δ. Kui intervall ei ületa -Δ, ei saa me nullväärtust tagasi lükata ja peatuda. Kui kogu intervall on tõepoolest suurem kui −Δ, jätkame ja vaatame, kas intervall sisaldab 0.

On ka teist tüüpi uuringuid, mida me pole arutanud – samaväärsusuuringud.

Seda tüüpi uuringuid saab asendada mittealaväärsusuuringutega ja vastupidi, kuid tegelikult on neil oluline erinevus. Mittealaväärsuskatse eesmärk on näidata, et valik B on vähemalt sama hea kui A. Samaväärsuse katse eesmärk on näidata, et valik B on vähemalt sama hea kui A. Variant A on sama hea kui B, mis on keerulisem. Sisuliselt püüame kindlaks teha, kas kogu keskmiste erinevuste usaldusvahemik jääb -Δ ja Δ vahele. Sellised uuringud nõuavad suuremat valimit ja neid viiakse läbi harvemini. Nii et järgmine kord, kui viite läbi uuringu, mille peamine eesmärk on tagada, et uus versioon poleks halvem, ärge leppige "nullhüpoteesi tagasilükkamise ebaõnnestumisega". Kui soovite testida mõnda tõeliselt olulist hüpoteesi, kaaluge erinevaid võimalusi.

Allikas: www.habr.com

Lisa kommentaar