Kad mums vajadzētu pārbaudīt nepilnvērtības hipotēzi?

Kad mums vajadzētu pārbaudīt nepilnvērtības hipotēzi?
Stitch Fix komandas rakstā ir ieteikts mārketinga un produktu A/B testos izmantot ne-zemākas kvalitātes izmēģinājumu pieeju. Å Ä« pieeja patieŔām ir piemērojama, ja mēs testējam jaunu risinājumu, kam ir priekÅ”rocÄ«bas, kuras netiek novērtētas ar testiem.

VienkārŔākais piemērs ir izmaksu samazināŔana. Piemēram, mēs automatizējam pirmās nodarbÄ«bas pieŔķirÅ”anas procesu, taču nevēlamies bÅ«tiski samazināt pilnÄ«gu reklāmguvumu skaitu. Vai arÄ« mēs pārbaudām izmaiņas, kas ir vērstas uz vienu lietotāju segmentu, vienlaikus pārliecinoties, ka reklāmguvumi citiem segmentiem daudz nesamazinās (pārbaudot vairākas hipotēzes, neaizmirstiet par grozÄ«jumiem).

Pareizas ne-zemākas robežas izvēle rada papildu problēmas testa izstrādes posmā. Jautājums par to, kā izvēlēties Ī”, rakstā nav Ä«paÅ”i labi apskatÄ«ts. Å Ä·iet, ka arÄ« klÄ«niskajos pētÄ«jumos Ŕī izvēle nav pilnÄ«bā pārredzama. Pārskatiet medicÄ«niskajās publikācijās par ne-mazvērtÄ«bu ziņots, ka tikai puse publikāciju attaisno robežas izvēli, un bieži vien Å”ie pamatojumi ir neskaidri vai nav detalizēti.

Jebkurā gadÄ«jumā Ŕī pieeja Ŕķiet interesanta, jo... samazinot nepiecieÅ”amo izlases lielumu, tas var palielināt testÄ“Å”anas ātrumu un lÄ«dz ar to arÄ« lēmumu pieņemÅ”anas ātrumu. ā€” Daria Muhina, mobilās lietojumprogrammas Skyeng produktu analÄ«tiÄ·e.

Stitch Fix komandai patÄ«k pārbaudÄ«t dažādas lietas. Visai tehnoloÄ£iju kopienai principā patÄ«k veikt testus. Kura vietnes versija piesaista vairāk lietotāju ā€” A vai B? Vai ieteikuma modeļa A versija pelna vairāk nekā B versija? Lai pārbaudÄ«tu hipotēzes, mēs gandrÄ«z vienmēr izmantojam visvienkārŔāko pieeju no statistikas pamatkursa:

Kad mums vajadzētu pārbaudīt nepilnvērtības hipotēzi?

Lai gan mēs reti lietojam Å”o terminu, Å”o pārbaudes veidu sauc par "pārspējas hipotēzes pārbaudi". Izmantojot Å”o pieeju, mēs pieņemam, ka starp abām iespējām nav atŔķirÄ«bas. Mēs paliekam pie Ŕīs idejas un atsakāmies no tās tikai tad, ja dati ir pietiekami pārliecinoÅ”i, lai to izdarÄ«tu, tas ir, tas parāda, ka viena no iespējām (A vai B) ir labāka par otru.

Pārākumu hipotēzes pārbaude ir piemērota dažādām problēmām. Mēs izlaižam tikai ieteikuma modeļa versiju B, ja tā ir nepārprotami labāka par versiju A, kas jau tiek izmantota. Taču dažos gadÄ«jumos Ŕī pieeja nedarbojas tik labi. ApskatÄ«sim dažus piemērus.

1) Mēs izmantojam treŔās puses pakalpojumu, kas palÄ«dz identificēt viltotas bankas kartes. Mēs atradām citu pakalpojumu, kas maksā ievērojami mazāk. Ja kāds lētāks serviss strādās tikpat labi, kā Å”obrÄ«d lietojam, mēs to izvēlēsimies. Tam nav jābÅ«t labākam par jÅ«su izmantoto pakalpojumu.

2) Mēs vēlamies atteikties no datu avota A un aizstājiet to ar datu avotu B. Mēs varētu aizkavēt atteikÅ”anos no A, ja B rezultāti ir ļoti slikti, taču nav iespējams turpināt izmantot A.

3) Mēs vēlētos pāriet no modelÄ“Å”anas pieejasA lÄ«dz B pieeja nevis tāpēc, ka mēs no B sagaidām labākus rezultātus, bet gan tāpēc, ka tā sniedz mums lielāku darbÄ«bas elastÄ«bu. Mums nav iemesla uzskatÄ«t, ka B bÅ«s sliktāks, taču mēs nepārkāpsim, ja tas tā bÅ«s.

4) Esam veikuÅ”i vairākas kvalitatÄ«vas izmaiņas vietnes dizainā (versija B) un uzskatām, ka Ŕī versija ir pārāka par versiju A. Mēs negaidām izmaiņas reklāmguvumos vai kādos galvenajos veiktspējas rādÄ«tājos, pēc kuriem mēs parasti novērtējam vietni. Taču mēs uzskatām, ka priekÅ”rocÄ«bas ir parametriem, kas ir vai nu neizmērāmi, vai arÄ« mÅ«su tehnoloÄ£ija nav pietiekama, lai izmērÄ«tu.

Visos Å”ajos gadÄ«jumos pārākuma izpēte nav piemērotākais risinājums. Bet lielākā daļa speciālistu Ŕādās situācijās to izmanto pēc noklusējuma. Mēs rÅ«pÄ«gi veicam eksperimentu, lai pareizi noteiktu efekta lielumu. Ja tā bÅ«tu taisnÄ«ba, ka versijas A un B darbojas ļoti lÄ«dzÄ«gi, pastāv iespēja, ka mums neizdosies noraidÄ«t nulles hipotēzi. Vai mēs secinām, ka A un B bÅ«tÄ«bā darbojas vienādi? Nē! Nulles hipotēzes noraidÄ«Å”ana un nulles hipotēzes pieņemÅ”ana nav viens un tas pats.

Izlases lieluma aprēķini (ko, protams, jÅ«s esat darÄ«juÅ”i) parasti tiek veikti ar stingrākām robežām I tipa kļūdai (varbÅ«tÄ«ba, ka neizdosies noraidÄ«t nulles hipotēzi, ko bieži sauc par alfa), nekā II tipa kļūdai (varbÅ«tÄ«ba, ka neizdosies noraidÄ«t). nulles hipotēze ar nosacÄ«jumu, ka nulles hipotēze ir nepatiesa, ko bieži sauc par beta). Tipiskā alfa vērtÄ«ba ir 0,05, bet tipiskā beta vērtÄ«ba ir 0,20, kas atbilst statistiskajai pakāpei 0,80. Tas nozÄ«mē, ka pastāv 20% iespēja, ka mēs palaidÄ«sim garām mÅ«su jaudas aprēķinos norādÄ«tā daudzuma patieso efektu, un tas ir diezgan nopietns informācijas trÅ«kums. Kā piemēru aplÅ«kosim Ŕādas hipotēzes:

Kad mums vajadzētu pārbaudīt nepilnvērtības hipotēzi?

H0: mana mugursoma NAV manā istabā (3)
H1: mana mugursoma atrodas manā istabā (4)

Ja es pārmeklēju savu istabu un atradu savu mugursomu, lieliski, es varu noraidīt nulles hipotēzi. Bet, ja es paskatījos pa istabu un nevarēju atrast savu mugursomu (1. attēls), kāds secinājums man būtu jāizdara? Vai esmu pārliecināts, ka tā tur nav? Vai es paskatījos pietiekami rūpīgi? Ko darīt, ja es pārmeklētu tikai 80% telpas? Secināt, ka mugursoma noteikti nav istabā, būtu nepārdomāts lēmums. Nav brīnums, ka mēs nevaram "pieņemt nulles hipotēzi".
Kad mums vajadzētu pārbaudīt nepilnvērtības hipotēzi?
Apgabals, kuru pārmeklējām
Mēs neatradām mugursomu ā€” vai mums vajadzētu pieņemt nulles hipotēzi?

1. attēls. 80% telpas meklÄ“Å”ana ir aptuveni tas pats, kas meklÄ“Å”ana ar 80% jaudu. Ja pēc 80% telpas apskatÄ«Å”anas neatrodat mugursomu, vai varat secināt, ka tās tur nav?

Tātad, kas datu zinātniekam bÅ«tu jādara Å”ajā situācijā? JÅ«s varat ievērojami palielināt pētÄ«juma jaudu, taču tad jums bÅ«s nepiecieÅ”ams daudz lielāks izlases lielums, un rezultāts joprojām bÅ«s neapmierinoÅ”s.

Par laimi, Ŕādas problēmas jau sen ir pētÄ«tas klÄ«nisko pētÄ«jumu pasaulē. Zāles B ir lētākas nekā zāles A; Paredzams, ka zāles B izraisÄ«s mazāk blakusparādÄ«bu nekā zāles A; zāles B ir vieglāk transportējamas, jo tās nav jāatdzesē, bet zāles A gan. PārbaudÄ«sim hipotēzi par ne-mazvērtÄ«bu. Tas parāda, ka versija B ir tikpat laba kā versija A ā€” vismaz kaut kādā iepriekÅ” noteiktās zemākas vērtÄ«bas robežās Ī”. Par to, kā iestatÄ«t Å”o ierobežojumu, mēs runāsim nedaudz vēlāk. Bet pagaidām pieņemsim, ka Ŕī ir mazākā atŔķirÄ«ba, kas ir praktiski nozÄ«mÄ«ga (klÄ«nisko pētÄ«jumu kontekstā to parasti sauc par klÄ«nisko nozÄ«mi).

Nemazvērtības hipotēzes visu sagriež uz galvas:

Kad mums vajadzētu pārbaudīt nepilnvērtības hipotēzi?

Tagad tā vietā, lai pieņemtu, ka nav atŔķirÄ«bas, mēs pieņemsim, ka versija B ir sliktāka par versiju A, un mēs paliksim pie Ŕī pieņēmuma, lÄ«dz parādÄ«sim, ka tas tā nav. Tas ir tieÅ”i tas brÄ«dis, kad ir jēga izmantot vienpusēju hipotēžu pārbaudi! Praksē to var izdarÄ«t, konstruējot ticamÄ«bas intervālu un nosakot, vai intervāls patieŔām ir lielāks par Ī” (2. attēls).
Kad mums vajadzētu pārbaudīt nepilnvērtības hipotēzi?

Izvēlieties Ī”

Kā izvēlēties pareizo Ī”? Ī” atlases process ietver statistisko pamatojumu un satura izvērtÄ“Å”anu. KlÄ«nisko pētÄ«jumu pasaulē pastāv normatÄ«vās vadlÄ«nijas, kas nosaka, ka deltai ir jāatspoguļo mazākā klÄ«niski nozÄ«mÄ«ga atŔķirÄ«ba ā€” tāda, kas praksē mainÄ«s. Å eit ir citāts no Eiropas vadlÄ«nijām, lai pārbaudÄ«tu sevi: ā€œJa atŔķirÄ«ba ir izvēlēta pareizi, ticamÄ«bas intervāls, kas pilnÄ«bā atrodas starp ā€“āˆ† un 0ā€¦, joprojām ir pietiekams, lai pierādÄ«tu, ka atŔķirÄ«ba nav zemāka. Ja Å”is rezultāts neŔķiet pieņemams, tas nozÄ«mē, ka āˆ† nav izvēlēts pareizi.

Delta noteikti nedrÄ«kst pārsniegt A versijas ietekmes lielumu attiecÄ«bā pret patieso kontroli (placebo/bez ārstÄ“Å”anas), jo tas liek mums teikt, ka B versija ir sliktāka par Ä«sto kontroli, tajā paŔā laikā demonstrējot "nemazvērtÄ«bu". ā€. Pieņemsim, ka tad, kad tika ieviesta A versija, tā tika aizstāta ar versiju 0 vai arÄ« lÄ«dzeklis nemaz nepastāvēja (skat. 3. attēlu).

Pamatojoties uz pārākuma hipotēzes pārbaudes rezultātiem, tika atklāts efekta lielums E (tas ir, iespējams, Ī¼^Aāˆ’Ī¼^0=E). Tagad A ir mÅ«su jaunais standarts, un mēs vēlamies pārliecināties, ka B ir tikpat labs kā A. Vēl viens veids, kā ierakstÄ«t Ī¼Bāˆ’Ī¼Aā‰¤āˆ’Ī” (nulles hipotēze), ir Ī¼Bā‰¤Ī¼Aāˆ’Ī”. Ja pieņemam, ka do ir vienāds vai lielāks par E, tad Ī¼B ā‰¤ Ī¼Aāˆ’E ā‰¤ placebo. Tagad mēs redzam, ka mÅ«su aprēķins par Ī¼B pilnÄ«bā pārsniedz Ī¼Aāˆ’E, kas tādējādi pilnÄ«bā noraida nulles hipotēzi un ļauj secināt, ka B ir tikpat labs kā A, bet tajā paŔā laikā Ī¼B var bÅ«t ā‰¤ Ī¼ placebo, kas nav lieta.kas mums vajadzÄ«gs. (3. attēls).

Kad mums vajadzētu pārbaudīt nepilnvērtības hipotēzi?
3.attēls. Risku demonstrÄ“Å”ana, izvēloties mazākuma rezervi. Ja robežvērtÄ«ba ir pārāk augsta, var secināt, ka B nav zemāks par A, bet tajā paŔā laikā neatŔķiras no placebo. Mēs neapmainÄ«sim zāles, kas ir acÄ«mredzami efektÄ«vākas par placebo (A), pret zālēm, kas ir tikpat efektÄ«vas kā placebo.

Ī± izvēle

Pāriesim pie Ī± izvēles. Varat izmantot standarta vērtÄ«bu Ī± = 0,05, taču tas nav pilnÄ«gi godÄ«gi. Tāpat kā, piemēram, pērkot kaut ko tieÅ”saistē un vienlaikus izmantojot vairākus atlaižu kodus, lai gan tos nevajadzētu apvienot - izstrādātājs vienkārÅ”i kļūdÄ«jās, un jÅ«s ar to iztikāt. Saskaņā ar noteikumiem Ī± vērtÄ«bai jābÅ«t vienādai ar pusi no Ī± vērtÄ«bas, kas tiek izmantota, pārbaudot pārākuma hipotēzi, tas ir, 0,05 / 2 = 0,025.

Parauga lielums

Kā noteikt izlases lielumu? Ja uzskatāt, ka patiesā vidējā atŔķirÄ«ba starp A un B ir 0, tad izlases lieluma aprēķins ir tāds pats kā pārākuma hipotēzes pārbaudē, izņemot to, ka jÅ«s aizstājat efekta lielumu ar mazākuma robežu, ja izmantojat Ī±ne-zemāka efektivitāte = 1/2Ī±pārākums (Ī±nemazvērtÄ«ba=1/2Ī±pārākums). Ja jums ir iemesls uzskatÄ«t, ka variants B varētu bÅ«t nedaudz sliktāks par A variantu, bet vēlaties pierādÄ«t, ka tas ir sliktāks par ne vairāk kā Ī”, tad jums ir paveicies! Tas faktiski samazina jÅ«su izlases lielumu, jo ir vieglāk pierādÄ«t, ka B ir sliktāks par A, ja jÅ«s patiesÄ«bā domājat, ka tas ir nedaudz sliktāks, nevis vienāds.

Piemērs ar risinājumu

Pieņemsim, ka vēlaties jaunināt uz B versiju ar nosacÄ«jumu, ka tā ir ne vairāk kā par 0,1 punktu sliktāka par versiju A 5 ballu klientu apmierinātÄ«bas skalā... PievērsÄ«simies Å”ai problēmai, izmantojot pārākuma hipotēzi.

Lai pārbaudÄ«tu pārākuma hipotēzi, mēs aprēķinātu izlases lielumu Ŕādi:

Kad mums vajadzētu pārbaudīt nepilnvērtības hipotēzi?

Tas ir, ja jÅ«su grupā ir 2103 novērojumi, varat bÅ«t par 90% pārliecināti, ka jÅ«s atradÄ«siet efektu 0,10 vai lielāku. Bet, ja 0,10 jums ir pārāk augsts, iespējams, nav vērts pārbaudÄ«t pārākuma hipotēzi. Lai bÅ«tu droŔībā, varat izlemt veikt pētÄ«jumu, lai iegÅ«tu mazāku efektu, piemēram, 0,05. Å ajā gadÄ«jumā jums bÅ«s nepiecieÅ”ami 8407 novērojumi, tas ir, izlase palielināsies gandrÄ«z 4 reizes. Bet ko darÄ«t, ja mēs paliktu pie sava sākotnējā izlases lieluma, bet palielinātu jaudu lÄ«dz 0,99, lai mēs bÅ«tu droÅ”i, ja mēs iegÅ«tu pozitÄ«vu rezultātu? Å ajā gadÄ«jumā n vienai grupai bÅ«s 3676, kas jau ir labāk, bet palielina izlases lielumu par vairāk nekā 50%. Un rezultātā mēs joprojām vienkārÅ”i nevarēsim atspēkot nulles hipotēzi, un mēs nesaņemsim atbildi uz savu jautājumu.

Ko darīt, ja mēs tā vietā pārbaudītu hipotēzi par zemāku līmeni?

Kad mums vajadzētu pārbaudīt nepilnvērtības hipotēzi?

Izlases lielums tiks aprēķināts, izmantojot to paÅ”u formulu, izņemot saucēju.
AtŔķirÄ«bas no formulas, ko izmanto, lai pārbaudÄ«tu pārākuma hipotēzi, ir Ŕādas:

ā€” Z1āˆ’Ī±/2 aizstāj ar Z1āˆ’Ī±, bet, ja visu darāt saskaņā ar noteikumiem, Ī± = 0,05 aizstājat ar Ī± = 0,025, tas ir, tas ir tāds pats skaitlis (1,96)

ā€” (Ī¼Bāˆ’Ī¼A) parādās saucējā

ā€” Īø (efekta lielums) aizstāj ar Ī” (nemazvērtÄ«bas robeža)

Ja mēs pieņemam, ka ĀµB = ĀµA, tad (ĀµB āˆ’ ĀµA) = 0 un izlases lieluma aprēķins nenovērtējamai robežai ir tieÅ”i tas, ko mēs iegÅ«tu, ja mēs aprēķinātu pārākumu efekta lielumam 0,1, lieliski! Mēs varam veikt vienāda izmēra pētÄ«jumu ar dažādām hipotēzēm un atŔķirÄ«gu pieeju secinājumiem, un mēs iegÅ«sim atbildi uz jautājumu, uz kuru mēs patieŔām vēlamies atbildēt.

Tagad pieņemsim, ka mēs patiesÄ«bā nedomājam, ka ĀµB = ĀµA un
Mēs domājam, ka ĀµB ir nedaudz sliktāks, varbÅ«t par 0,01 vienÄ«bu. Tas palielina mÅ«su saucēju, samazinot izlases lielumu katrā grupā lÄ«dz 1737.

Kas notiek, ja B versija patieŔām ir labāka par A versiju? Mēs noraidām nulles hipotēzi, ka B ir sliktāks par A par vairāk nekā Ī”, un pieņemam alternatÄ«vo hipotēzi, ka B, ja tas ir sliktāks, nav sliktāks par A ar Ī” un var bÅ«t labāks. Mēģiniet ievietot Å”o secinājumu starpfunkcionālā prezentācijā un redzēt, kas notiek (nopietni, izmēģiniet to). Uz nākotni vērstā situācijā neviens nevēlas samierināties ar ā€œne vairāk kā Ī” sliktāku un varbÅ«t labākuā€.

Å ajā gadÄ«jumā mēs varam veikt pētÄ«jumu, ko ļoti Ä«si sauc par ā€œhipotēzes pārbaudÄ«Å”anu, ka viena no iespējām ir pārāka vai zemāka par otruā€. Tas izmanto divas hipotēžu kopas:

Pirmā kopa (tā pati kā ne-mazvērtības hipotēzes pārbaude):

Kad mums vajadzētu pārbaudīt nepilnvērtības hipotēzi?

Otrais komplekts (tāpat kā pārbaudot pārākuma hipotēzi):

Kad mums vajadzētu pārbaudīt nepilnvērtības hipotēzi?

Mēs pārbaudām otro hipotēzi tikai tad, ja pirmā tiek noraidÄ«ta. Pārbaudot secÄ«gi, mēs saglabājam kopējo I tipa kļūdu lÄ«meni (Ī±). Praksē to var panākt, izveidojot 95% ticamÄ«bas intervālu starpÄ«bai starp vidējo un testÄ“Å”anu, lai noteiktu, vai viss intervāls ir lielāks par -Ī”. Ja intervāls nepārsniedz -Ī”, mēs nevaram noraidÄ«t nulles vērtÄ«bu un apstāties. Ja viss intervāls patieŔām ir lielāks par āˆ’Ī”, mēs turpināsim un pārbaudÄ«sim, vai intervāls satur 0.

Ir vēl viens pētÄ«jumu veids, par kuru mēs neesam runājuÅ”i - ekvivalences pētÄ«jumi.

Å os pētÄ«jumu veidus var aizstāt ar nepilnvērtÄ«bas pētÄ«jumiem un otrādi, taču tiem faktiski ir bÅ«tiska atŔķirÄ«ba. NemazvērtÄ«bas izmēģinājuma mērÄ·is ir parādÄ«t, ka iespēja B ir vismaz tikpat laba kā A. Ekvivalences izmēģinājuma mērÄ·is ir parādÄ«t, ka B iespēja ir vismaz tikpat laba kā A. Variants A ir tikpat labs kā B, kas ir grÅ«tāk. BÅ«tÄ«bā mēs cenÅ”amies noteikt, vai viss vidējo atŔķirÄ«bas ticamÄ«bas intervāls ir starp āˆ’Ī” un Ī”. Šādiem pētÄ«jumiem nepiecieÅ”ams lielāks izlases lielums, un tos veic retāk. Tāpēc nākamreiz, kad veiksiet pētÄ«jumu, kura galvenais mērÄ·is ir nodroÅ”ināt, lai jaunā versija nebÅ«tu sliktāka, nesamierinieties ar "nulles hipotēzes noraidÄ«Å”anu". Ja vēlaties pārbaudÄ«t patieŔām svarÄ«gu hipotēzi, apsveriet dažādas iespējas.

Avots: www.habr.com

Pievieno komentāru