
Stitch Fix taldeko artikulu batek iradokitzen du gutxiagotasunik gabeko entseguen ikuspegia marketin eta produktu A/B probetan erabiltzea. Ikuspegi hau benetan aplikatzen da proben bidez neurtzen ez diren onurak dituen irtenbide berri bat probatzen ari garenean.
Adibiderik errazena kostuen murrizketa da. Esaterako, lehen ikasgaia esleitzeko prozesua automatizatzen dugu, baina ez dugu amaierako bihurketa nabarmen murriztu nahi. Edo erabiltzaileen segmentu bati zuzendutako aldaketak probatzen ditugu, beste segmentuetarako bihurketak asko jaisten ez direla ziurtatuz (hainbat hipotesi probatzean, ez ahaztu zuzenketak).
Gutxiagotasun-marjina zuzena hautatzeak erronka gehigarriak gehitzen ditu probaren diseinu-fasean. Δ nola aukeratu galdera ez da oso ondo azaltzen artikuluan. Badirudi aukera hori ez dela guztiz gardena saiakuntza klinikoetan ere. ez-gutxiagotasunari buruzko argitalpen medikoek argitalpenen erdiek soilik justifikatzen dutela muga aukeratzea, eta askotan justifikazio horiek anbiguoak edo zehatzak ez dira.
Nolanahi ere, planteamendu honek interesgarria dirudi, zeren... behar den laginaren tamaina murriztuz, probak egiteko abiadura handitu daiteke, eta, beraz, erabakiak hartzeko abiadura. — Daria Mukhina, Skyeng aplikazio mugikorrentzako produktu-analista.
Stitch Fix taldeari gauza desberdinak probatzea gustatzen zaio. Komunitate teknologiko osoak maite du printzipioz probak egitea. Gunearen zein bertsio erakartzen ditu erabiltzaile gehiago - A edo B? Gomendio ereduaren A bertsioak B bertsioak baino diru gehiago irabazten al du? Hipotesiak probatzeko, ia beti oinarrizko estatistika ikastaroko ikuspegirik errazena erabiltzen dugu:

Terminoa oso gutxitan erabiltzen badugu ere, proba-modu honi "gehientasun-hipotesiaren azterketa" deitzen zaio. Planteamendu honekin, bi aukeren artean ez dagoela alderik suposatzen dugu. Ideia horri eusten diogu eta bertan behera uzten dugu datuak horretarako nahikoa sinesgarriak badira, hau da, aukeretako bat (A edo B) bestea baino hobea dela erakusten du.
Nagusitasunaren hipotesia probatzea egokia da hainbat arazotarako. Gomendio-eredu baten B bertsioa bakarrik kaleratzen dugu jada erabiltzen ari den A bertsioa baino hobea bada. Baina kasu batzuetan, ikuspegi honek ez du hain ondo funtzionatzen. Ikus ditzagun adibide batzuk.
1) Hirugarrenen zerbitzu bat erabiltzen dugu, banku-txartel faltsuak identifikatzen laguntzen duena. Nabarmen gutxiago kostatzen den beste zerbitzu bat aurkitu dugu. Zerbitzu merkeago batek gaur egun erabiltzen duguna bezain ondo funtzionatzen badu, guk aukeratuko dugu. Ez du zertan erabiltzen ari zaren zerbitzua baino hobea izan behar.
2) Datu iturria alde batera utzi nahi dugu A eta ordeztu B datu-iturburuarekin. A uztea atzeratu genezake B-k emaitza oso txarrak ematen baditu, baina ezin da A erabiltzen jarraitu.
3) Modelatze ikuspegitik pasatu nahiko genukeA-ren ikuspegia ez B-rengandik emaitza hobeak espero ditugulako, malgutasun operatibo handiagoa ematen digulako baizik. Ez dugu B okerragoa izango denik sinesteko arrazoirik, baina ez dugu trantsizioa egingo hori horrela bada.
4) Hainbat aldaketa kualitatibo egin ditugu webgunearen diseinuan sartu (B bertsioa) eta bertsio hau A bertsioaren gainetik dagoela uste dugu. Ez dugu espero aldaketarik aldaketarik edo webgune bat ebaluatzen dugun errendimendu-adierazle nagusietako bat. Baina uste dugu neurtu ezin diren edo gure teknologia neurtzeko nahikoa ez den parametroetan onurak daudela.
Kasu hauetan guztietan, nagusitasunaren ikerketa ez da irtenbide egokiena. Baina horrelako egoeretan espezialista gehienek lehenespenez erabiltzen dute. Kontu handiz egiten dugu esperimentua efektuaren tamaina behar bezala zehazteko. Egia balitz A eta B bertsioek oso modu antzera funtzionatzen dutela, badago hipotesi nulua ez ukatzeko aukera. A eta Bk funtsean berdin jokatzen dutela ondorioztatzen al dugu? Ez! Hipotesi nulua ez baztertzea eta hipotesi nulua onartzea ez dira gauza bera.
Laginaren tamainaren kalkuluak (zuk, noski, egin dituzunak) I. motako errorerako (hipotesi nulua ez ukatzeko probabilitatea, maiz alfa deitzen dena) muga zorrotzagoekin egiten dira normalean II motako errorearekin (errefusatzeko probabilitatea) baino. hipotesi nulua, hipotesi nulua faltsua izateko baldintza emanda, sarritan beta deitua). Alfa-ren balio tipikoa 0,05 da, eta beta-ren balio tipikoa, berriz, 0,20, 0,80-ko potentzia estatistikoari dagokiona. Horrek esan nahi du % 20ko aukera dagoela gure potentzia kalkuluetan zehaztu dugun kantitatearen benetako eragina galduko dugula, eta hori informazioaren hutsune nahiko larria da. Adibide gisa, har ditzagun hipotesi hauek:

H0: nire motxila EZ dago nire gelan (3)
H1: nire motxila nire gelan dago (4)
Nire gela miatu eta motxila aurkitu badut, bikaina, hipotesi nulua baztertu dezaket. Baina gela ingurura begiratu eta nire motxila aurkitzen ez badut (1. irudia), zein ondorio atera behar dut? Ziur nago ez dagoela? Nahikoa begiratu nuen? Zer gertatzen da gelako %80a bakarrik bilatuko banu? Motxila behin betiko gelan ez dagoela ondorioztatzea erabaki larri bat izango litzateke. Ez da harritzekoa ezin dugula "hipotesi nulua onartu".

Bilatu dugun eremua
Ez dugu motxila aurkitu - hipotesi nulua onartu behar al dugu?
1. irudia: gela baten %80a bilatzea, gutxi gorabehera, %80ko potentziarekin bilatzea bezalakoa da. Gelaren %80 begiratu ondoren motxila aurkitzen ez baduzu, ondoriozta dezakezu ez dagoela?
Beraz, zer egin beharko luke datu-zientzialari batek egoera honetan? Azterketaren ahalmena asko handitu dezakezu, baina gero lagin-tamaina askoz handiagoa beharko duzu eta emaitza ez da nahikoa izango.
Zorionez, ikerketa klinikoaren munduan aspalditik ikertu dira horrelako arazoak. B droga A droga baino merkeagoa da; B sendagaiak A sendagaiak baino bigarren mailako efektu gutxiago eragingo dituela espero da; B droga errazago garraiatzen da, ez baitu hoztu behar, baina A droga bai. Proba dezagun ez-gutxiagotasunaren hipotesia. Honek B bertsioa A bertsioa bezain ona dela erakusteko da, gutxienez aurrez zehaztutako ez-baliotasun-marjina baten barruan, Δ. Muga hori nola ezartzeari buruz gehiago hitz egingo dugu geroago. Baina, oraingoz, demagun hori dela ia esanguratsua den alderik txikiena (saiakuntza klinikoen testuinguruan esangura klinikoa deitzen zaio normalean).
Gutxiagotasunik gabeko hipotesiek dena buruan jartzen dute:

Orain, alderik ez dagoela suposatu beharrean, B bertsioa A bertsioa baino okerragoa dela suposatuko dugu, eta suposizio horri eutsiko diogu hori ez dela frogatu arte. Hauxe da alde bakarreko hipotesien probak erabiltzea zentzuzkoa den unea! Praktikan, konfiantza-tarte bat eraikiz eta tartea Δ baino handiagoa den zehaztuz egin daiteke (2. irudia).

Hautatu Δ
Nola aukeratu Δ egokia? Δ hautaketa prozesuak justifikazio estatistikoa eta ebaluazio substantiboa barne hartzen ditu. Ikerketa klinikoaren munduan, deltak klinikoki esanguratsu den diferentzia txikiena ordezkatu behar duela agintzen duten arau-gidalerroak daude, praktikan aldea eragingo duena. Hona hemen zure burua probatzeko Europako jarraibideetako aipamen bat: “Desberdintasuna behar bezala aukeratu bada, –∆ eta 0 artean erabat dagoen konfiantza-tarte bat nahikoa da oraindik ez-gutxiagotasuna frogatzeko. Emaitza hori ez bada onargarria iruditzen, ∆ ez dela behar bezala hautatu esan nahi du.
Deltak, zalantzarik gabe, ez luke A bertsioaren efektu-tamaina benetako kontrolarekiko (plazeboa/tratamendurik gabe) gainditu behar, honek B bertsioa benetako kontrola baino okerragoa dela esatera eramaten gaituelako, eta, aldi berean, "ez-gutxiagotasuna" frogatzen du. ”. Demagun A bertsioa sartu zenean 0 bertsioarekin ordeztu zela edo funtzioa ez zela batere existitzen (ikus 3. irudia).
Nagusitasunaren hipotesia probatzearen emaitzetan oinarrituta, E efektuaren tamaina agerian geratu zen (hau da, ustez μ^A−μ^0=E). Orain A da gure estandar berria, eta B A bezain ona dela ziurtatu nahi dugu. μB−μA≤−Δ (hipotesi nulua) idazteko beste modu bat μB≤μA−Δ da. Do E-ren berdina edo handiagoa dela suposatzen badugu, orduan μB ≤ μA−E ≤ plazeboa. Orain ikusten dugu μB-ren estimazioak μA−E guztiz gainditzen duela, eta, ondorioz, hipotesi nulua erabat baztertzen du eta B A bezain ona dela ondorioztatuko dugu, baina, aldi berean, μB ≤ μ plazeboa izan daitekeela, eta hori ez da. kasua.zer behar dugu. (3. irudia).

3. irudia. Gutxiagotasunik gabeko marjina aukeratzearen arriskuen erakustaldia. Ebakidura altuegia bada, B A baino txikiagoa ez dela ondoriozta daiteke, baina, aldi berean, plazebotik bereizten ez dela. Plazeboa (A) baino eraginkorragoa den sendagai bat ez dugu ordezkatuko plazeboa bezain eraginkorra den sendagai batekin.
α aukera
Goazen α aukeratzera. α = 0,05 balio estandarra erabil dezakezu, baina hori ez da guztiz bidezkoa. Esaterako, Interneten zerbait erosten duzunean eta hainbat deskontu kode aldi berean erabiltzen dituzunean, konbinatu behar ez diren arren, garatzaileak akats bat egin zuen eta ihes egin zenuen. Arauen arabera, α-ren balioa nagusitasunaren hipotesia probatzean erabiltzen den α-ren balioaren erdiaren berdina izan behar du, hau da, 0,05 / 2 = 0,025.
Laginaren tamaina
Nola kalkulatu laginaren tamaina? A eta B-ren arteko benetako batez besteko aldea 0 dela uste baduzu, orduan laginaren tamainaren kalkulua nagusitasun-hipotesia probatzean bezalaxe da, izan ezik, efektuaren tamaina ez-beheragotasun-marjinarekin ordezkatzen baduzu, baldin eta erabiltzen baduzu. αefizientzia ez-behekoa = 1/2αsuperiortasuna (αez-gutxiagotasuna=1/2αlehentasuna). B aukera A aukera baino apur bat okerragoa izan daitekeela uste baduzu, baina Δ baino okerragoa dela frogatu nahi baduzu, zorte ona duzu! Horrek zure laginaren tamaina murrizten du, errazagoa delako frogatzea B A baino okerragoa dela uste baduzu berdina baino apur bat okerragoa dela.
Adibidea soluzioarekin
Demagun B bertsiora berritu nahi duzula, beti ere A bertsioa baino 0,1 puntu okerragoa ez bada 5 puntuko bezeroen asebetetze eskalan... Ikus diezaiogun arazo honi nagusitasun hipotesia erabiliz.
Nagusitasunaren hipotesia probatzeko, laginaren tamaina honela kalkulatuko genuke:

Hau da, zure taldean 2103 behaketa badituzu, % 90ean ziur egon zaitezke 0,10 edo handiagoa den efektuaren tamaina aurkituko duzula. Baina zuretzat 0,10 altuegia bada, agian ez du merezi nagusitasunaren hipotesia probatzea. Segurtasunez egoteko, baliteke azterketa efektu-tamaina txikiagoan egitea erabakitzea, adibidez, 0,05. Kasu honetan, 8407 behaketa beharko dituzu, hau da, lagina ia 4 aldiz handituko da. Baina zer gertatzen da gure jatorrizko laginaren tamainari eutsiko bagenio, baina potentzia 0,99ra igoko bagenu, emaitza positiboa lortuz gero seguru egongo ginateke? Kasu honetan, talde baterako n 3676 izango da, jada hobea da, baina laginaren tamaina % 50 baino gehiago handitzen du. Eta, ondorioz, oraindik ezin izango dugu hipotesi nulua gezurtatu, eta ez dugu gure galderaren erantzunik jasoko.
Zer gertatzen da horren ordez ez-baliotasunaren hipotesia probatuko bagenu?

Laginaren tamaina formula bera erabiliz kalkulatuko da izendatzailea izan ezik.
Nagusitasun-hipotesia egiaztatzeko erabilitako formularekiko desberdintasunak honako hauek dira:
— Z1−α/2 ordezkatzen da Z1−α, baina dena arauen arabera egiten baduzu, α = 0,05 ordezkatzen duzu α = 0,025, hau da, zenbaki bera da (1,96)
— (μB−μA) izendatzailean agertzen da
— θ (efektuaren tamaina) Δ-rekin ordezkatzen da (ez-gutxiagotasun-marjina)
µB = µA dela suposatzen badugu, (µB − µA) = 0 eta ez-baliotasun-marjinarako laginaren tamainaren kalkulua 0,1eko efektu-tamainarako nagusitasuna kalkulatuko bagenu lortuko genukeena da, bikaina! Tamaina bereko ikerketa bat egin dezakegu hipotesi ezberdinekin eta ondorioetarako beste ikuspegi batekin, eta benetan erantzun nahi dugun galderari erantzuna emango diogu.
Orain demagun ez dugula uste µB = µA eta
Uste dugu µB apur bat okerragoa dela, agian 0,01 unitatekoa. Horrek gure izendatzailea handitzen du, talde bakoitzeko laginaren tamaina 1737ra murriztuz.
Zer gertatzen da B bertsioa benetan A bertsioa baino hobea bada? B Δ baino gehiago A baino okerragoa den hipotesi nulua baztertzen dugu eta B, okerragoa bada, Δ baino A baino okerragoa ez dela eta hobea izan daitekeen hipotesi alternatiboa onartzen dugu. Saiatu ondorio hau zeharkako aurkezpen batean jartzen eta ikusi zer gertatzen den (serio, probatu). Aurrera begirako egoera batean, inork ez du konformatu nahi "Δ okerragoa eta agian hobeagoarekin".
Kasu honetan, azterketa bat egin dezakegu, laburki deitzen dena "aukeretako bat bestea baino handiagoa edo txikiagoa den hipotesia probatzea". Bi hipotesi multzo erabiltzen ditu:
Lehen multzoa (gutxiagotasun ezaren hipotesia probatzeko berdina):

Bigarren multzoa (nagusitasunaren hipotesia probatzean bezala):

Bigarren hipotesia probatzen dugu lehenengoa baztertzen bada soilik. Sekuentzialki probatzean, I motako errore-tasa orokorra (α) mantentzen dugu. Praktikan, % 95eko konfiantza-tarte bat sortuz lor daiteke batez bestekoen eta proben arteko diferentziarako, tarte osoa -Δ baino handiagoa den zehazteko. Tarteak -Δ gainditzen ez badu, ezin dugu balio nulua baztertu eta gelditu. Tarte osoa −Δ baino handiagoa bada, jarraituko dugu eta ikusiko dugu tarteak 0 duen.
Eztabaidatu ez dugun beste ikerketa mota bat dago: baliokidetasun-azterketak.
Ikasketa mota hauek ez-beherentziazko ikasketekin ordezka daitezke eta alderantziz, baina benetan alde garrantzitsu bat dute. Gutxiagotasunik gabeko saiakuntza batek B aukera A bezain ona dela frogatu nahi du. Baliokidetza proba batek B aukera gutxienez A bezain ona dela erakutsi nahi du. A aukera B bezain ona da, eta hori zailagoa da. Funtsean, batez bestekoen diferentziaren konfiantza-tarte osoa −Δ eta Δ artean dagoen zehazten saiatzen ari gara. Horrelako azterketek lagin-tamaina handiagoa behar dute eta gutxiagotan egiten dira. Beraz, zure helburu nagusia bertsio berria okerragoa ez dela ziurtatzea den ikerketa bat egiten duzun hurrengoan, ez zaitez konformatu "hipotesi nulua ez baztertzearekin". Benetan garrantzitsua den hipotesi bat probatu nahi baduzu, kontuan hartu aukera desberdinak.
Iturria: www.habr.com
