Kada bismo trebali testirati hipotezu o neinferiornosti?

Kada bismo trebali testirati hipotezu o neinferiornosti?
Članak tima Stitch Fix predlaže korištenje pristupa ispitivanja neinferiornosti u marketingu i A/B testovima proizvoda. Ovaj pristup se stvarno primjenjuje kada testiramo novo rješenje koje ima prednosti koje se ne mjere testovima.

Najjednostavniji primjer je smanjenje troškova. Na primjer, automatiziramo proces dodjele prve lekcije, ali ne želimo značajno smanjiti konverziju s kraja na kraj. Ili testiramo promjene koje su usmjerene na jedan segment korisnika, a pritom pazimo da konverzije za druge segmente ne padnu puno (kada testirate nekoliko hipoteza, ne zaboravite na izmjene).

Odabir točne margine neinferiornosti dodaje dodatne izazove tijekom faze dizajna testa. Pitanje kako odabrati Δ nije dobro obrađeno u članku. Čini se da taj izbor nije posve transparentan ni u kliničkim ispitivanjima. Pregled medicinske publikacije o neinferiornosti izvješćuju da samo polovica publikacija opravdava izbor granice, a često su ta opravdanja dvosmislena ili nisu detaljna.

U svakom slučaju, ovaj pristup se čini zanimljiv jer... smanjenjem potrebne veličine uzorka može povećati brzinu testiranja, a time i brzinu donošenja odluka. — Daria Mukhina, analitičar proizvoda za mobilnu aplikaciju Skyeng.

Stitch Fix tim voli testirati različite stvari. Cijela tehnološka zajednica u principu voli izvoditi testove. Koja verzija stranice privlači više korisnika - A ili B? Zarađuje li verzija A modela preporuke više novca od verzije B? Za testiranje hipoteza gotovo uvijek koristimo najjednostavniji pristup iz tečaja osnovne statistike:

Kada bismo trebali testirati hipotezu o neinferiornosti?

Iako rijetko koristimo taj izraz, ovaj oblik testiranja naziva se "testiranje hipoteze superiornosti". Uz ovaj pristup, pretpostavljamo da nema razlike između dvije opcije. Držimo se ove ideje i odustajemo od nje samo ako su podaci dovoljno uvjerljivi da to učinimo - to jest, pokazuju da je jedna od opcija (A ili B) bolja od druge.

Testiranje hipoteze o superiornosti prikladno je za različite probleme. Verziju B modela preporuke objavljujemo samo ako je očito bolja od verzije A koja se već koristi. No u nekim slučajevima ovaj pristup ne funkcionira tako dobro. Pogledajmo nekoliko primjera.

1) Koristimo uslugu treće strane, koji pomaže u prepoznavanju krivotvorenih bankovnih kartica. Pronašli smo još jednu uslugu koja košta znatno manje. Ako jeftinija usluga radi tako dobro kao ona koju trenutno koristimo, odabrat ćemo je. Ne mora biti bolja od usluge koju koristite.

2) Želimo napustiti izvor podataka A i zamijenite ga izvorom podataka B. Mogli bismo odgoditi napuštanje A ako B daje vrlo loše rezultate, ali nije moguće nastaviti koristiti A.

3) Željeli bismo prijeći s pristupa modeliranjaPristup A prema B ne zato što očekujemo bolje rezultate od B, već zato što nam daje veću operativnu fleksibilnost. Nemamo razloga vjerovati da će B biti lošiji, ali nećemo izvršiti prijelaz ako bude tako.

4) Napravili smo nekoliko kvalitativnih promjena u dizajn web stranice (verzija B) i vjerujemo da je ova verzija bolja od verzije A. Ne očekujemo promjene u pretvorbi ili bilo kojem od ključnih pokazatelja izvedbe prema kojima obično ocjenjujemo web stranicu. Ali vjerujemo da postoje prednosti u parametrima koji su ili nemjerljivi ili naša tehnologija nije dostatna za mjerenje.

U svim tim slučajevima istraživanje superiornosti nije najprikladnije rješenje. Ali većina stručnjaka u takvim situacijama koristi ga prema zadanim postavkama. Pažljivo provodimo eksperiment kako bismo točno odredili veličinu učinka. Da je istina da verzije A i B rade na vrlo sličan način, postoji mogućnost da ne bismo uspjeli odbaciti nultu hipotezu. Zaključujemo li da A i B rade u osnovi isto? Ne! Neodbacivanje nulte hipoteze i prihvaćanje nulte hipoteze nije ista stvar.

Izračuni veličine uzorka (koje ste, naravno, učinili) obično se rade sa strožim granicama za pogrešku tipa I (vjerojatnost neuspjeha odbacivanja nulte hipoteze, često se naziva alfa) nego za pogrešku tipa II (vjerojatnost neuspjeha odbacivanja nulta hipoteza, uz uvjet da je nulta hipoteza lažna, često se naziva beta). Tipična vrijednost za alfa je 0,05, dok je tipična vrijednost za beta 0,20, što odgovara statističkoj snazi ​​od 0,80. To znači da postoji 20% šanse da ćemo propustiti pravi učinak količine koju smo naveli u našim izračunima snage, a to je prilično ozbiljan nedostatak informacija. Kao primjer, razmotrimo sljedeće hipoteze:

Kada bismo trebali testirati hipotezu o neinferiornosti?

H0: moj ruksak NIJE u mojoj sobi (3)
H1: moj ruksak je u mojoj sobi (4)

Ako sam pretražio svoju sobu i našao svoj ruksak, super, mogu odbaciti nultu hipotezu. Ali ako sam pogledao po sobi i nisam mogao pronaći svoj ruksak (Slika 1), kakav zaključak trebam izvući? Jesam li siguran da nije tamo? Jesam li dovoljno gledao? Što ako sam pretražio samo 80% sobe? Zaključiti da ruksak definitivno nije u sobi bila bi nepromišljena odluka. Nije ni čudo što ne možemo "prihvatiti nultu hipotezu".
Kada bismo trebali testirati hipotezu o neinferiornosti?
Područje koje smo pretraživali
Nismo pronašli ruksak - trebamo li prihvatiti nultu hipotezu?

Slika 1: Pretraživanje 80% sobe otprilike je isto kao pretraživanje s 80% snage. Ako ne nađete ruksak nakon pregledavanja 80% sobe, možete li zaključiti da ga nema?

Dakle, što bi podatkovni znanstvenik trebao učiniti u ovoj situaciji? Možete znatno povećati snagu studije, ali tada će vam trebati puno veći uzorak, a rezultat će i dalje biti nezadovoljavajući.

Srećom, takvi se problemi već dugo proučavaju u svijetu kliničkih istraživanja. Lijek B je jeftiniji od lijeka A; Očekuje se da će lijek B izazvati manje nuspojava nego lijek A; lijek B je lakše transportirati jer ne mora biti u hladnjaku, ali lijek A treba. Testirajmo hipotezu o neinferiornosti. Ovime se želi pokazati da je verzija B jednako dobra kao i verzija A—bar unutar neke unaprijed definirane margine neinferiornosti, Δ. Razgovarat ćemo više o tome kako postaviti ovo ograničenje malo kasnije. Ali za sada pretpostavimo da je to najmanja razlika koja ima praktično značenje (u kontekstu kliničkih ispitivanja to se obično naziva klinički značaj).

Hipoteze o neinferiornosti okreću sve naglavačke:

Kada bismo trebali testirati hipotezu o neinferiornosti?

Sada, umjesto da pretpostavimo da nema razlike, pretpostavit ćemo da je verzija B gora od verzije A, i držat ćemo se te pretpostavke dok ne pokažemo da to nije slučaj. Upravo je to trenutak kada ima smisla koristiti jednostrano testiranje hipoteza! U praksi se to može učiniti konstruiranjem intervala pouzdanosti i određivanjem je li interval stvarno veći od Δ (slika 2).
Kada bismo trebali testirati hipotezu o neinferiornosti?

Odaberite Δ

Kako odabrati pravi Δ? Proces odabira Δ uključuje statističko opravdanje i suštinsku procjenu. U svijetu kliničkih istraživanja postoje regulatorne smjernice koje nalažu da delta treba predstavljati najmanju klinički značajnu razliku — onu koja će napraviti razliku u praksi. Evo citata iz europskih smjernica s kojima se možete testirati: „Ako je razlika ispravno odabrana, interval pouzdanosti koji se u potpunosti nalazi između –∆ i 0… još uvijek je dovoljan da pokaže neinferiornost. Ako se ovaj rezultat ne čini prihvatljivim, to znači da ∆ nije odabrano na odgovarajući način.”

Delta definitivno ne bi trebala premašiti veličinu učinka verzije A u odnosu na pravu kontrolu (placebo/bez liječenja), jer nas to navodi da kažemo da je verzija B gora od prave kontrole, dok u isto vrijeme pokazuje "neinferiornost .” Pretpostavimo da je verzija A, kada je predstavljena, zamijenjena verzijom 0 ili značajka uopće nije postojala (vidi sliku 3).

Na temelju rezultata testiranja hipoteze o superiornosti otkrivena je veličina učinka E (odnosno, vjerojatno μ^A−μ^0=E). Sada je A naš novi standard i želimo biti sigurni da je B jednako dobar kao i A. Drugi način za pisanje μB−μA≤−Δ (nulta hipoteza) je μB≤μA−Δ. Ako pretpostavimo da je do jednako ili veće od E, tada je μB ≤ μA−E ≤ placebo. Sada vidimo da naša procjena za μB potpuno premašuje μA−E, što time potpuno odbacuje nultu hipotezu i omogućuje nam da zaključimo da je B jednako dobar kao A, ali u isto vrijeme μB može biti ≤ μ placebo, što nije slučaj.što nam treba. (Slika 3).

Kada bismo trebali testirati hipotezu o neinferiornosti?
Slika 3. Demonstracija rizika odabira margine neinferiornosti. Ako je granična vrijednost previsoka, može se zaključiti da B nije inferioran u odnosu na A, ali se u isto vrijeme ne razlikuje od placeba. Nećemo zamijeniti lijek koji je očito učinkovitiji od placeba (A) za lijek koji je jednako učinkovit kao placebo.

Izbor α

Prijeđimo na odabir α. Možete koristiti standardnu ​​vrijednost α = 0,05, ali to nije sasvim pošteno. Kao, na primjer, kada kupite nešto online i koristite nekoliko kodova za popust odjednom, iako ih ne treba kombinirati - programer je jednostavno pogriješio, a vi ste se izvukli. Prema pravilima, vrijednost α treba biti jednaka polovici vrijednosti α koja se koristi pri testiranju hipoteze o superiornosti, odnosno 0,05 / 2 = 0,025.

Veličina uzorka

Kako procijeniti veličinu uzorka? Ako vjerujete da je prava srednja razlika između A i B 0, tada je izračun veličine uzorka isti kao kod testiranja hipoteze o superiornosti, osim što veličinu učinka zamijenite marginom neinferiornosti, pod uvjetom da koristite αneinferiorna učinkovitost = 1/2αsuperiornost (αneinferiornost=1/2αsuperiornost). Ako imate razloga vjerovati da bi opcija B mogla biti nešto lošija od opcije A, ali želite dokazati da je lošija za ne više od Δ, onda imate sreće! Ovo zapravo smanjuje veličinu uzorka jer je lakše pokazati da je B lošiji od A ako stvarno mislite da je malo lošiji nego jednak.

Primjer s rješenjem

Recimo da želite nadograditi na verziju B, pod uvjetom da nije više od 0,1 bod lošija od verzije A na ljestvici zadovoljstva kupaca od 5 stupnjeva... Priđimo ovom problemu pomoću hipoteze o superiornosti.

Kako bismo testirali hipotezu o superiornosti, izračunali bismo veličinu uzorka na sljedeći način:

Kada bismo trebali testirati hipotezu o neinferiornosti?

To jest, ako imate 2103 opažanja u svojoj skupini, možete biti 90% sigurni da ćete pronaći veličinu učinka od 0,10 ili veću. Ali ako je 0,10 previsoko za vas, možda se ne isplati testirati hipotezu o superiornosti. Radi sigurnosti, možete odlučiti provesti studiju za manju veličinu učinka, kao što je 0,05. U ovom slučaju trebat će vam 8407 promatranja, odnosno uzorak će se povećati gotovo 4 puta. Ali što ako ostanemo pri izvornoj veličini uzorka, ali povećamo snagu na 0,99 kako bismo bili sigurni ako dobijemo pozitivan rezultat? U ovom će slučaju n za jednu skupinu biti 3676, što je već bolje, ali povećava veličinu uzorka za više od 50%. I kao rezultat toga, još uvijek jednostavno nećemo moći opovrgnuti nultu hipotezu, i nećemo dobiti odgovor na naše pitanje.

Što ako bismo umjesto toga testirali hipotezu o neinferiornosti?

Kada bismo trebali testirati hipotezu o neinferiornosti?

Veličina uzorka izračunat će se istom formulom osim za nazivnik.
Razlike u odnosu na formulu korištenu za testiranje hipoteze o superiornosti su sljedeće:

— Z1−α/2 zamjenjuje se sa Z1−α, ali ako sve radite po pravilima, zamjenjujete α = 0,05 sa α = 0,025, odnosno radi se o istom broju (1,96)

— (μB−μA) pojavljuje se u nazivniku

— θ (veličina učinka) zamjenjuje se s Δ (granica neinferiornosti)

Ako pretpostavimo da je µB = µA, tada je (µB − µA) = 0 i izračun veličine uzorka za marginu neinferiornosti točno je ono što bismo dobili da smo izračunali superiornost za veličinu učinka od 0,1, odlično! Možemo napraviti studiju iste veličine s različitim hipotezama i drugačijim pristupom zaključcima, i dobit ćemo odgovor na pitanje na koje stvarno želimo odgovoriti.

Sada pretpostavimo da zapravo ne mislimo da je µB = µA i
Mislimo da je µB malo lošiji, možda za 0,01 jedinicu. Ovo povećava naš nazivnik, smanjujući veličinu uzorka po skupini na 1737.

Što se događa ako je verzija B zapravo bolja od verzije A? Odbacujemo nultu hipotezu da je B lošiji od A za više od Δ i prihvaćamo alternativnu hipotezu da B, ako je lošiji, nije lošiji od A za Δ i može biti bolji. Pokušajte staviti ovaj zaključak u višefunkcionalnu prezentaciju i vidite što će se dogoditi (ozbiljno, pokušajte). U situaciji koja gleda u budućnost, nitko se ne želi zadovoljiti s "ne više od Δ gore i možda bolje."

U ovom slučaju, možemo provesti studiju, koja se vrlo kratko naziva "testiranje hipoteze da je jedna od opcija superiorna ili inferiorna drugoj." Koristi dva skupa hipoteza:

Prvi skup (isto kao testiranje hipoteze o neinferiornosti):

Kada bismo trebali testirati hipotezu o neinferiornosti?

Drugi set (isto kao kod testiranja hipoteze o superiornosti):

Kada bismo trebali testirati hipotezu o neinferiornosti?

Drugu hipotezu testiramo samo ako je prva odbačena. Kod sekvencijalnog testiranja održavamo ukupnu stopu pogreške tipa I (α). U praksi se to može postići stvaranjem 95%-tnog intervala pouzdanosti za razliku između srednjih vrijednosti i testiranjem kako bi se utvrdilo je li cijeli interval veći od -Δ. Ako interval ne prelazi -Δ, ne možemo odbaciti nultu vrijednost i zaustaviti se. Ako je cijeli interval doista veći od −Δ, nastavit ćemo i vidjeti sadrži li interval 0.

Postoji još jedna vrsta istraživanja o kojoj nismo raspravljali – studije ekvivalencije.

Ove vrste studija mogu se zamijeniti studijama neinferiornosti i obrnuto, ali zapravo imaju važnu razliku. Pokus neinferiornosti ima za cilj pokazati da je opcija B barem jednako dobra kao A. Pokus ekvivalencije ima za cilj pokazati da je opcija B barem jednako dobra kao A. Opcija A je dobra kao B, što je teže. U biti, pokušavamo odrediti leži li cijeli interval pouzdanosti za razliku u srednjim vrijednostima između −Δ i Δ. Takve studije zahtijevaju veći uzorak i provode se rjeđe. Dakle, sljedeći put kada budete provodili studiju u kojoj vam je glavni cilj osigurati da nova verzija nije lošija, nemojte se zadovoljiti s "neuspjehom u odbacivanju nulte hipoteze". Ako želite testirati stvarno važnu hipotezu, razmotrite različite mogućnosti.

Izvor: www.habr.com

Dodajte komentar