Stitch Fix komandas rakstÄ ir ieteikts mÄrketinga un produktu A/B testos izmantot ne-zemÄkas kvalitÄtes izmÄÄ£inÄjumu pieeju. Å Ä« pieeja patieÅ”Äm ir piemÄrojama, ja mÄs testÄjam jaunu risinÄjumu, kam ir priekÅ”rocÄ«bas, kuras netiek novÄrtÄtas ar testiem.
VienkÄrÅ”Äkais piemÄrs ir izmaksu samazinÄÅ”ana. PiemÄram, mÄs automatizÄjam pirmÄs nodarbÄ«bas pieŔķirÅ”anas procesu, taÄu nevÄlamies bÅ«tiski samazinÄt pilnÄ«gu reklÄmguvumu skaitu. Vai arÄ« mÄs pÄrbaudÄm izmaiÅas, kas ir vÄrstas uz vienu lietotÄju segmentu, vienlaikus pÄrliecinoties, ka reklÄmguvumi citiem segmentiem daudz nesamazinÄs (pÄrbaudot vairÄkas hipotÄzes, neaizmirstiet par grozÄ«jumiem).
Pareizas ne-zemÄkas robežas izvÄle rada papildu problÄmas testa izstrÄdes posmÄ. JautÄjums par to, kÄ izvÄlÄties Ī, rakstÄ nav Ä«paÅ”i labi apskatÄ«ts. Å Ä·iet, ka arÄ« klÄ«niskajos pÄtÄ«jumos Ŕī izvÄle nav pilnÄ«bÄ pÄrredzama.
JebkurÄ gadÄ«jumÄ Å”Ä« pieeja Ŕķiet interesanta, jo... samazinot nepiecieÅ”amo izlases lielumu, tas var palielinÄt testÄÅ”anas Ätrumu un lÄ«dz ar to arÄ« lÄmumu pieÅemÅ”anas Ätrumu. ā Daria Muhina, mobilÄs lietojumprogrammas Skyeng produktu analÄ«tiÄ·e.
Stitch Fix komandai patÄ«k pÄrbaudÄ«t dažÄdas lietas. Visai tehnoloÄ£iju kopienai principÄ patÄ«k veikt testus. Kura vietnes versija piesaista vairÄk lietotÄju ā A vai B? Vai ieteikuma modeļa A versija pelna vairÄk nekÄ B versija? Lai pÄrbaudÄ«tu hipotÄzes, mÄs gandrÄ«z vienmÄr izmantojam visvienkÄrÅ”Äko pieeju no statistikas pamatkursa:
Lai gan mÄs reti lietojam Å”o terminu, Å”o pÄrbaudes veidu sauc par "pÄrspÄjas hipotÄzes pÄrbaudi". Izmantojot Å”o pieeju, mÄs pieÅemam, ka starp abÄm iespÄjÄm nav atŔķirÄ«bas. MÄs paliekam pie Ŕīs idejas un atsakÄmies no tÄs tikai tad, ja dati ir pietiekami pÄrliecinoÅ”i, lai to izdarÄ«tu, tas ir, tas parÄda, ka viena no iespÄjÄm (A vai B) ir labÄka par otru.
PÄrÄkumu hipotÄzes pÄrbaude ir piemÄrota dažÄdÄm problÄmÄm. MÄs izlaižam tikai ieteikuma modeļa versiju B, ja tÄ ir nepÄrprotami labÄka par versiju A, kas jau tiek izmantota. TaÄu dažos gadÄ«jumos Ŕī pieeja nedarbojas tik labi. ApskatÄ«sim dažus piemÄrus.
1) MÄs izmantojam treÅ”Äs puses pakalpojumu, kas palÄ«dz identificÄt viltotas bankas kartes. MÄs atradÄm citu pakalpojumu, kas maksÄ ievÄrojami mazÄk. Ja kÄds lÄtÄks serviss strÄdÄs tikpat labi, kÄ Å”obrÄ«d lietojam, mÄs to izvÄlÄsimies. Tam nav jÄbÅ«t labÄkam par jÅ«su izmantoto pakalpojumu.
2) MÄs vÄlamies atteikties no datu avota A un aizstÄjiet to ar datu avotu B. MÄs varÄtu aizkavÄt atteikÅ”anos no A, ja B rezultÄti ir ļoti slikti, taÄu nav iespÄjams turpinÄt izmantot A.
3) MÄs vÄlÄtos pÄriet no modelÄÅ”anas pieejasA lÄ«dz B pieeja nevis tÄpÄc, ka mÄs no B sagaidÄm labÄkus rezultÄtus, bet gan tÄpÄc, ka tÄ sniedz mums lielÄku darbÄ«bas elastÄ«bu. Mums nav iemesla uzskatÄ«t, ka B bÅ«s sliktÄks, taÄu mÄs nepÄrkÄpsim, ja tas tÄ bÅ«s.
4) Esam veikuÅ”i vairÄkas kvalitatÄ«vas izmaiÅas vietnes dizainÄ (versija B) un uzskatÄm, ka Ŕī versija ir pÄrÄka par versiju A. MÄs negaidÄm izmaiÅas reklÄmguvumos vai kÄdos galvenajos veiktspÄjas rÄdÄ«tÄjos, pÄc kuriem mÄs parasti novÄrtÄjam vietni. TaÄu mÄs uzskatÄm, ka priekÅ”rocÄ«bas ir parametriem, kas ir vai nu neizmÄrÄmi, vai arÄ« mÅ«su tehnoloÄ£ija nav pietiekama, lai izmÄrÄ«tu.
Visos Å”ajos gadÄ«jumos pÄrÄkuma izpÄte nav piemÄrotÄkais risinÄjums. Bet lielÄkÄ daļa speciÄlistu Å”ÄdÄs situÄcijÄs to izmanto pÄc noklusÄjuma. MÄs rÅ«pÄ«gi veicam eksperimentu, lai pareizi noteiktu efekta lielumu. Ja tÄ bÅ«tu taisnÄ«ba, ka versijas A un B darbojas ļoti lÄ«dzÄ«gi, pastÄv iespÄja, ka mums neizdosies noraidÄ«t nulles hipotÄzi. Vai mÄs secinÄm, ka A un B bÅ«tÄ«bÄ darbojas vienÄdi? NÄ! Nulles hipotÄzes noraidÄ«Å”ana un nulles hipotÄzes pieÅemÅ”ana nav viens un tas pats.
Izlases lieluma aprÄÄ·ini (ko, protams, jÅ«s esat darÄ«juÅ”i) parasti tiek veikti ar stingrÄkÄm robežÄm I tipa kļūdai (varbÅ«tÄ«ba, ka neizdosies noraidÄ«t nulles hipotÄzi, ko bieži sauc par alfa), nekÄ II tipa kļūdai (varbÅ«tÄ«ba, ka neizdosies noraidÄ«t). nulles hipotÄze ar nosacÄ«jumu, ka nulles hipotÄze ir nepatiesa, ko bieži sauc par beta). TipiskÄ alfa vÄrtÄ«ba ir 0,05, bet tipiskÄ beta vÄrtÄ«ba ir 0,20, kas atbilst statistiskajai pakÄpei 0,80. Tas nozÄ«mÄ, ka pastÄv 20% iespÄja, ka mÄs palaidÄ«sim garÄm mÅ«su jaudas aprÄÄ·inos norÄdÄ«tÄ daudzuma patieso efektu, un tas ir diezgan nopietns informÄcijas trÅ«kums. KÄ piemÄru aplÅ«kosim Å”Ädas hipotÄzes:
H0: mana mugursoma NAV manÄ istabÄ (3)
H1: mana mugursoma atrodas manÄ istabÄ (4)
Ja es pÄrmeklÄju savu istabu un atradu savu mugursomu, lieliski, es varu noraidÄ«t nulles hipotÄzi. Bet, ja es paskatÄ«jos pa istabu un nevarÄju atrast savu mugursomu (1. attÄls), kÄds secinÄjums man bÅ«tu jÄizdara? Vai esmu pÄrliecinÄts, ka tÄ tur nav? Vai es paskatÄ«jos pietiekami rÅ«pÄ«gi? Ko darÄ«t, ja es pÄrmeklÄtu tikai 80% telpas? SecinÄt, ka mugursoma noteikti nav istabÄ, bÅ«tu nepÄrdomÄts lÄmums. Nav brÄ«nums, ka mÄs nevaram "pieÅemt nulles hipotÄzi".
Apgabals, kuru pÄrmeklÄjÄm
MÄs neatradÄm mugursomu ā vai mums vajadzÄtu pieÅemt nulles hipotÄzi?
1. attÄls. 80% telpas meklÄÅ”ana ir aptuveni tas pats, kas meklÄÅ”ana ar 80% jaudu. Ja pÄc 80% telpas apskatÄ«Å”anas neatrodat mugursomu, vai varat secinÄt, ka tÄs tur nav?
TÄtad, kas datu zinÄtniekam bÅ«tu jÄdara Å”ajÄ situÄcijÄ? JÅ«s varat ievÄrojami palielinÄt pÄtÄ«juma jaudu, taÄu tad jums bÅ«s nepiecieÅ”ams daudz lielÄks izlases lielums, un rezultÄts joprojÄm bÅ«s neapmierinoÅ”s.
Par laimi, Å”Ädas problÄmas jau sen ir pÄtÄ«tas klÄ«nisko pÄtÄ«jumu pasaulÄ. ZÄles B ir lÄtÄkas nekÄ zÄles A; Paredzams, ka zÄles B izraisÄ«s mazÄk blakusparÄdÄ«bu nekÄ zÄles A; zÄles B ir vieglÄk transportÄjamas, jo tÄs nav jÄatdzesÄ, bet zÄles A gan. PÄrbaudÄ«sim hipotÄzi par ne-mazvÄrtÄ«bu. Tas parÄda, ka versija B ir tikpat laba kÄ versija A ā vismaz kaut kÄdÄ iepriekÅ” noteiktÄs zemÄkas vÄrtÄ«bas robežÄs Ī. Par to, kÄ iestatÄ«t Å”o ierobežojumu, mÄs runÄsim nedaudz vÄlÄk. Bet pagaidÄm pieÅemsim, ka Ŕī ir mazÄkÄ atŔķirÄ«ba, kas ir praktiski nozÄ«mÄ«ga (klÄ«nisko pÄtÄ«jumu kontekstÄ to parasti sauc par klÄ«nisko nozÄ«mi).
NemazvÄrtÄ«bas hipotÄzes visu sagriež uz galvas:
Tagad tÄ vietÄ, lai pieÅemtu, ka nav atŔķirÄ«bas, mÄs pieÅemsim, ka versija B ir sliktÄka par versiju A, un mÄs paliksim pie Ŕī pieÅÄmuma, lÄ«dz parÄdÄ«sim, ka tas tÄ nav. Tas ir tieÅ”i tas brÄ«dis, kad ir jÄga izmantot vienpusÄju hipotÄžu pÄrbaudi! PraksÄ to var izdarÄ«t, konstruÄjot ticamÄ«bas intervÄlu un nosakot, vai intervÄls patieÅ”Äm ir lielÄks par Ī (2. attÄls).
IzvÄlieties Ī
KÄ izvÄlÄties pareizo Ī? Ī atlases process ietver statistisko pamatojumu un satura izvÄrtÄÅ”anu. KlÄ«nisko pÄtÄ«jumu pasaulÄ pastÄv normatÄ«vÄs vadlÄ«nijas, kas nosaka, ka deltai ir jÄatspoguļo mazÄkÄ klÄ«niski nozÄ«mÄ«ga atŔķirÄ«ba ā tÄda, kas praksÄ mainÄ«s. Å eit ir citÄts no Eiropas vadlÄ«nijÄm, lai pÄrbaudÄ«tu sevi: āJa atŔķirÄ«ba ir izvÄlÄta pareizi, ticamÄ«bas intervÄls, kas pilnÄ«bÄ atrodas starp āā un 0ā¦, joprojÄm ir pietiekams, lai pierÄdÄ«tu, ka atŔķirÄ«ba nav zemÄka. Ja Å”is rezultÄts neŔķiet pieÅemams, tas nozÄ«mÄ, ka ā nav izvÄlÄts pareizi.
Delta noteikti nedrÄ«kst pÄrsniegt A versijas ietekmes lielumu attiecÄ«bÄ pret patieso kontroli (placebo/bez ÄrstÄÅ”anas), jo tas liek mums teikt, ka B versija ir sliktÄka par Ä«sto kontroli, tajÄ paÅ”Ä laikÄ demonstrÄjot "nemazvÄrtÄ«bu". ā. PieÅemsim, ka tad, kad tika ieviesta A versija, tÄ tika aizstÄta ar versiju 0 vai arÄ« lÄ«dzeklis nemaz nepastÄvÄja (skat. 3. attÄlu).
Pamatojoties uz pÄrÄkuma hipotÄzes pÄrbaudes rezultÄtiem, tika atklÄts efekta lielums E (tas ir, iespÄjams, Ī¼^AāĪ¼^0=E). Tagad A ir mÅ«su jaunais standarts, un mÄs vÄlamies pÄrliecinÄties, ka B ir tikpat labs kÄ A. VÄl viens veids, kÄ ierakstÄ«t Ī¼BāĪ¼Aā¤āĪ (nulles hipotÄze), ir Ī¼Bā¤Ī¼AāĪ. Ja pieÅemam, ka do ir vienÄds vai lielÄks par E, tad Ī¼B ā¤ Ī¼AāE ā¤ placebo. Tagad mÄs redzam, ka mÅ«su aprÄÄ·ins par Ī¼B pilnÄ«bÄ pÄrsniedz Ī¼AāE, kas tÄdÄjÄdi pilnÄ«bÄ noraida nulles hipotÄzi un ļauj secinÄt, ka B ir tikpat labs kÄ A, bet tajÄ paÅ”Ä laikÄ Ī¼B var bÅ«t ā¤ Ī¼ placebo, kas nav lieta.kas mums vajadzÄ«gs. (3. attÄls).
3.attÄls. Risku demonstrÄÅ”ana, izvÄloties mazÄkuma rezervi. Ja robežvÄrtÄ«ba ir pÄrÄk augsta, var secinÄt, ka B nav zemÄks par A, bet tajÄ paÅ”Ä laikÄ neatŔķiras no placebo. MÄs neapmainÄ«sim zÄles, kas ir acÄ«mredzami efektÄ«vÄkas par placebo (A), pret zÄlÄm, kas ir tikpat efektÄ«vas kÄ placebo.
Ī± izvÄle
PÄriesim pie Ī± izvÄles. Varat izmantot standarta vÄrtÄ«bu Ī± = 0,05, taÄu tas nav pilnÄ«gi godÄ«gi. TÄpat kÄ, piemÄram, pÄrkot kaut ko tieÅ”saistÄ un vienlaikus izmantojot vairÄkus atlaižu kodus, lai gan tos nevajadzÄtu apvienot - izstrÄdÄtÄjs vienkÄrÅ”i kļūdÄ«jÄs, un jÅ«s ar to iztikÄt. SaskaÅÄ ar noteikumiem Ī± vÄrtÄ«bai jÄbÅ«t vienÄdai ar pusi no Ī± vÄrtÄ«bas, kas tiek izmantota, pÄrbaudot pÄrÄkuma hipotÄzi, tas ir, 0,05 / 2 = 0,025.
Parauga lielums
KÄ noteikt izlases lielumu? Ja uzskatÄt, ka patiesÄ vidÄjÄ atŔķirÄ«ba starp A un B ir 0, tad izlases lieluma aprÄÄ·ins ir tÄds pats kÄ pÄrÄkuma hipotÄzes pÄrbaudÄ, izÅemot to, ka jÅ«s aizstÄjat efekta lielumu ar mazÄkuma robežu, ja izmantojat Ī±ne-zemÄka efektivitÄte = 1/2Ī±pÄrÄkums (Ī±nemazvÄrtÄ«ba=1/2Ī±pÄrÄkums). Ja jums ir iemesls uzskatÄ«t, ka variants B varÄtu bÅ«t nedaudz sliktÄks par A variantu, bet vÄlaties pierÄdÄ«t, ka tas ir sliktÄks par ne vairÄk kÄ Ī, tad jums ir paveicies! Tas faktiski samazina jÅ«su izlases lielumu, jo ir vieglÄk pierÄdÄ«t, ka B ir sliktÄks par A, ja jÅ«s patiesÄ«bÄ domÄjat, ka tas ir nedaudz sliktÄks, nevis vienÄds.
PiemÄrs ar risinÄjumu
PieÅemsim, ka vÄlaties jauninÄt uz B versiju ar nosacÄ«jumu, ka tÄ ir ne vairÄk kÄ par 0,1 punktu sliktÄka par versiju A 5 ballu klientu apmierinÄtÄ«bas skalÄ... PievÄrsÄ«simies Å”ai problÄmai, izmantojot pÄrÄkuma hipotÄzi.
Lai pÄrbaudÄ«tu pÄrÄkuma hipotÄzi, mÄs aprÄÄ·inÄtu izlases lielumu Å”Ädi:
Tas ir, ja jÅ«su grupÄ ir 2103 novÄrojumi, varat bÅ«t par 90% pÄrliecinÄti, ka jÅ«s atradÄ«siet efektu 0,10 vai lielÄku. Bet, ja 0,10 jums ir pÄrÄk augsts, iespÄjams, nav vÄrts pÄrbaudÄ«t pÄrÄkuma hipotÄzi. Lai bÅ«tu droŔībÄ, varat izlemt veikt pÄtÄ«jumu, lai iegÅ«tu mazÄku efektu, piemÄram, 0,05. Å ajÄ gadÄ«jumÄ jums bÅ«s nepiecieÅ”ami 8407 novÄrojumi, tas ir, izlase palielinÄsies gandrÄ«z 4 reizes. Bet ko darÄ«t, ja mÄs paliktu pie sava sÄkotnÄjÄ izlases lieluma, bet palielinÄtu jaudu lÄ«dz 0,99, lai mÄs bÅ«tu droÅ”i, ja mÄs iegÅ«tu pozitÄ«vu rezultÄtu? Å ajÄ gadÄ«jumÄ n vienai grupai bÅ«s 3676, kas jau ir labÄk, bet palielina izlases lielumu par vairÄk nekÄ 50%. Un rezultÄtÄ mÄs joprojÄm vienkÄrÅ”i nevarÄsim atspÄkot nulles hipotÄzi, un mÄs nesaÅemsim atbildi uz savu jautÄjumu.
Ko darÄ«t, ja mÄs tÄ vietÄ pÄrbaudÄ«tu hipotÄzi par zemÄku lÄ«meni?
Izlases lielums tiks aprÄÄ·inÄts, izmantojot to paÅ”u formulu, izÅemot saucÄju.
AtŔķirÄ«bas no formulas, ko izmanto, lai pÄrbaudÄ«tu pÄrÄkuma hipotÄzi, ir Å”Ädas:
ā Z1āĪ±/2 aizstÄj ar Z1āĪ±, bet, ja visu darÄt saskaÅÄ ar noteikumiem, Ī± = 0,05 aizstÄjat ar Ī± = 0,025, tas ir, tas ir tÄds pats skaitlis (1,96)
ā (Ī¼BāĪ¼A) parÄdÄs saucÄjÄ
ā Īø (efekta lielums) aizstÄj ar Ī (nemazvÄrtÄ«bas robeža)
Ja mÄs pieÅemam, ka ĀµB = ĀµA, tad (ĀµB ā ĀµA) = 0 un izlases lieluma aprÄÄ·ins nenovÄrtÄjamai robežai ir tieÅ”i tas, ko mÄs iegÅ«tu, ja mÄs aprÄÄ·inÄtu pÄrÄkumu efekta lielumam 0,1, lieliski! MÄs varam veikt vienÄda izmÄra pÄtÄ«jumu ar dažÄdÄm hipotÄzÄm un atŔķirÄ«gu pieeju secinÄjumiem, un mÄs iegÅ«sim atbildi uz jautÄjumu, uz kuru mÄs patieÅ”Äm vÄlamies atbildÄt.
Tagad pieÅemsim, ka mÄs patiesÄ«bÄ nedomÄjam, ka ĀµB = ĀµA un
MÄs domÄjam, ka ĀµB ir nedaudz sliktÄks, varbÅ«t par 0,01 vienÄ«bu. Tas palielina mÅ«su saucÄju, samazinot izlases lielumu katrÄ grupÄ lÄ«dz 1737.
Kas notiek, ja B versija patieÅ”Äm ir labÄka par A versiju? MÄs noraidÄm nulles hipotÄzi, ka B ir sliktÄks par A par vairÄk nekÄ Ī, un pieÅemam alternatÄ«vo hipotÄzi, ka B, ja tas ir sliktÄks, nav sliktÄks par A ar Ī un var bÅ«t labÄks. MÄÄ£iniet ievietot Å”o secinÄjumu starpfunkcionÄlÄ prezentÄcijÄ un redzÄt, kas notiek (nopietni, izmÄÄ£iniet to). Uz nÄkotni vÄrstÄ situÄcijÄ neviens nevÄlas samierinÄties ar āne vairÄk kÄ Ī sliktÄku un varbÅ«t labÄkuā.
Å ajÄ gadÄ«jumÄ mÄs varam veikt pÄtÄ«jumu, ko ļoti Ä«si sauc par āhipotÄzes pÄrbaudÄ«Å”anu, ka viena no iespÄjÄm ir pÄrÄka vai zemÄka par otruā. Tas izmanto divas hipotÄžu kopas:
PirmÄ kopa (tÄ pati kÄ ne-mazvÄrtÄ«bas hipotÄzes pÄrbaude):
Otrais komplekts (tÄpat kÄ pÄrbaudot pÄrÄkuma hipotÄzi):
MÄs pÄrbaudÄm otro hipotÄzi tikai tad, ja pirmÄ tiek noraidÄ«ta. PÄrbaudot secÄ«gi, mÄs saglabÄjam kopÄjo I tipa kļūdu lÄ«meni (Ī±). PraksÄ to var panÄkt, izveidojot 95% ticamÄ«bas intervÄlu starpÄ«bai starp vidÄjo un testÄÅ”anu, lai noteiktu, vai viss intervÄls ir lielÄks par -Ī. Ja intervÄls nepÄrsniedz -Ī, mÄs nevaram noraidÄ«t nulles vÄrtÄ«bu un apstÄties. Ja viss intervÄls patieÅ”Äm ir lielÄks par āĪ, mÄs turpinÄsim un pÄrbaudÄ«sim, vai intervÄls satur 0.
Ir vÄl viens pÄtÄ«jumu veids, par kuru mÄs neesam runÄjuÅ”i - ekvivalences pÄtÄ«jumi.
Å os pÄtÄ«jumu veidus var aizstÄt ar nepilnvÄrtÄ«bas pÄtÄ«jumiem un otrÄdi, taÄu tiem faktiski ir bÅ«tiska atŔķirÄ«ba. NemazvÄrtÄ«bas izmÄÄ£inÄjuma mÄrÄ·is ir parÄdÄ«t, ka iespÄja B ir vismaz tikpat laba kÄ A. Ekvivalences izmÄÄ£inÄjuma mÄrÄ·is ir parÄdÄ«t, ka B iespÄja ir vismaz tikpat laba kÄ A. Variants A ir tikpat labs kÄ B, kas ir grÅ«tÄk. BÅ«tÄ«bÄ mÄs cenÅ”amies noteikt, vai viss vidÄjo atŔķirÄ«bas ticamÄ«bas intervÄls ir starp āĪ un Ī. Å Ädiem pÄtÄ«jumiem nepiecieÅ”ams lielÄks izlases lielums, un tos veic retÄk. TÄpÄc nÄkamreiz, kad veiksiet pÄtÄ«jumu, kura galvenais mÄrÄ·is ir nodroÅ”inÄt, lai jaunÄ versija nebÅ«tu sliktÄka, nesamierinieties ar "nulles hipotÄzes noraidÄ«Å”anu". Ja vÄlaties pÄrbaudÄ«t patieÅ”Äm svarÄ«gu hipotÄzi, apsveriet dažÄdas iespÄjas.
Avots: www.habr.com