Kengî divê em hîpoteza ne-kêmbûnê biceribînin?

Kengî divê em hîpoteza ne-kêmbûnê biceribînin?
Gotarek ji tîmê Stitch Fix pêşniyar dike ku di kirrûbirra û ceribandina hilberê A/B de nêzîkatiyek ceribandinên ne-kêmtir bikar bînin. Dema ku em çareseriyek nû ya ku xwedan feydeyên ku bi ceribandinan nayên pîvandin hene, bi rastî ev nêzîkatî derbas dibe.

Mînaka herî hêsan windabûna hestî ye. Mînakî, werin em pêvajoya danasîna dersa yekem otomatîk bikin, lê em naxwazin guheztina dawî-bi-dawî pir zêde bavêjin. An jî em guheztinên ku li ser yek beşê bikarhêneran disekinin ceribandin, di heman demê de em pê ewle ne ku veguheztinên ji bo beşên din pir zêde naçin (dema ku çend hîpotezan ceribandin, serrastkirinê ji bîr nekin).

Hilbijartina girêdana ne-kêmbûna rast di qonaxa sêwirana ceribandinê de dijwariyên din zêde dike. Pirsgirêka ku meriv çawa Δ hilbijêre di gotarê de ne baş e. Wusa dixuye ku ev hilbijartin di ceribandinên klînîkî de jî bi tevahî ne zelal e. gistî weşanên bijîjkî yên li ser ne-kêmbûnê radigihînin ku tenê nîvê weşanan bijartina sînoran rewa dikin û bi gelemperî ev hincet nezelal in an ne berfireh in.

Di her rewşê de, ev nêzîkatî balkêş xuya dike, wekî Bi kêmkirina pîvana nimûneya pêwîst, ew dikare leza ceribandinê, û ji ber vê yekê, leza biryardanê zêde bike. - Daria Mukhina, analîstê hilberê ji bo sepana mobîl Skyeng.

Tîma Stitch Fix ji ceribandina tiştên cûda hez dike. Tevahiya civaka teknolojiyê bi bingehîn hez dike ku ceribandinan bimeşîne. Kîjan guhertoya malperê bêtir bikarhêneran dikişîne - A an B? Ma guhertoya A ya modela pêşniyarker ji guhertoya B bêtir drav dide? Hema hema her gav, ji bo ceribandina hîpotezan, em ji qursa statîstîkî ya bingehîn nêzîkatiya herî hêsan bikar tînin:

Kengî divê em hîpoteza ne-kêmbûnê biceribînin?

Her çend em kêm têgînê bikar tînin jî, ji vê awayê ceribandinê re "ceribandina hîpoteza bilindbûnê" tê gotin. Bi vê nêzîkatiyê, em texmîn dikin ku di navbera her du vebijarkan de cûdahî tune. Em bi vê ramanê re disekinin û tenê wê dev jê berdidin ger ku vedîtin têra xwe qanih bikin ku wê garantî bikin - ango, ew destnîşan dike ku vebijarkek (A an B) ji ya din çêtir e.

Testkirina hîpoteza serdestiyê ji bo çareserkirina cûrbecûr pirsgirêkan maqûl e. Em guhertoya B ya modela pêşniyarker tenê heke ew eşkere ji guhertoya A ya ku berê tê bikar anîn çêtir e. Lê di hin rewşan de, ev nêzîkatî ew qas baş naxebite. Ka em li çend mînakan binêrin.

1) Em karûbarek partiya sêyemîn bikar tînin, ku ji bo naskirina kartên bankê yên sexte dibe alîkar. Me karûbarek din dît ku mesrefa wê pir kêmtir e. Ger karûbarek erzantir wekî ya ku em niha bikar tînin kar bike, em ê wê hilbijêrin. Ne hewce ye ku ew ji karûbarê ku hûn bikar tînin çêtir be.

2) Em dixwazin çavkaniya daneyê bavêjin A û wê bi çavkaniya daneyê B biguhezînin. Ger B encamên pir xirab derxe em dikarin dev ji A dereng bixin, lê ne mimkun e ku em A-yê bidomînin.

3) Em dixwazin ji nêzîkatiya modelkirinê derbikevinNêzîkatiya A-B-yê, ne ji ber ku em ji B-yê encamên çêtir hêvî dikin, lê ji ber ku ew nermbûna xebitandinê bêtir dide me. Sedema me tune ku em bawer bikin ku B dê xirabtir be, lê heke wusa be em ê veguherînin.

4) Me hin guhertinên kalîteyê çêkirine sêwirana malperê (Guhertoya B) û bawer dikin ku ev guherto ji guhertoya A bilindtir e. Em li bendê ne ku di veguheztinan de an yek ji KPI-yên ku em bi gelemperî malperek li hember wan dipîvin guhertinan bikin. Lê em bawer dikin ku di pîvanan de avantaj hene ku an bêpîvan in, an jî teknolojiyên me têra pîvandinê nakin.

Di van hemî rewşan de, lêkolîna hêja ne çareseriya çêtirîn e. Lê pir pispor di rewşên weha de wê bi xwerû bikar tînin. Em bi baldarî ceribandinê dikin da ku mezinahiya bandorê rast diyar bikin. Ger rast bûya ku guhertoyên A û B bi awayên pir dişibin hev dixebitin, şans hene ku em ê nikaribin hîpoteza betal red bikin. Ma em encam didin ku A û B bi gelemperî bi heman rengî dixebitin? Na! Nepejirandina hîpoteza pûç û qebûlkirina hîpoteza betal ne heman tişt in.

Hesabên pîvana nimûneyê (ya ku we kiriye, bê guman) li ser xeletiya Tîpa I (îhtîmala redkirina xeletî ya hîpoteza betal, ku pir caran wekî alfa tê binav kirin) ji xeletiya Tîpa II (Îhtîmala redkirina nullê) mêldarê sînorên hişktir in. hîpotez, şertê ku hîpoteza betal derew e, bi gelemperî jê re beta tê gotin). Nirxek tîpîk ji bo alpha 0,05 e dema ku nirxek tîpîk ji bo beta 0,20 e, ku bi hêzek statîstîkî ya 0,80 re têkildar e. Ev tê vê wateyê ku dibe ku em bandora rastîn a nirxa ku me di hesabên hêza xwe de destnîşan kiriye bi îhtimalek 20% nebîne û ev di agahiyê de valahiyek cidî ye. Weke nimûne, em hîpotezên jêrîn bifikirin:

Kengî divê em hîpoteza ne-kêmbûnê biceribînin?

H0: çentê min NE li odeya min e (3)
H1: çenteya min li odeya min e (4)

Ger min li jûreya xwe geriya û çenteya xwe ya paşîn dît, pir xweş, ez dikarim hîpoteza betal bavêjim. Lê heke min li odê mêze kir û nekarim çenteya xweya piştê bibînim (Wêne 1), divê ez çi encamê derxim? Ma ez bawer im ku ew ne li wir e? Ma min têra xwe bi baldarî geriyam? Ger ez tenê li 80% ji odeyê geriyam? Vê encamê ku bê guman di jûreyê de çenteyek paşde tune ye, dê biryarek bêserûber be. Ne ecêb e ku em nikanin "hîpoteza betal qebûl bikin".
Kengî divê em hîpoteza ne-kêmbûnê biceribînin?
Herêma ku em lê geriyan
Me çenteyê piştê nedît - gelo divê em hîpoteza betal qebûl bikin?

Wêne 1. Lêgerîna 80% ji jûreyek bi qasî lêgerînek bi hêza 80% e. Ger we piştî ku li dora 80% jûreyê mêze kir çenteyek piştê nedît, hûn dikarin encam bidin ku ew ne li wir e?

Ji ber vê yekê divê zanyarek daneyê di vê rewşê de çi bike? Hûn dikarin hêza lêkolînê pir zêde bikin, lê wê hingê hûn ê hewceyê mezinahiyek nimûneyek pir mezintir bikin, û encam dê hîn jî nerazî be.

Xweşbextane, pirsgirêkên weha ji mêj ve di cîhana lêkolîna klînîkî de hatine lêkolîn kirin. Dermanê B ji dermanê A erzantir e; Tê payîn ku dermanê B ji dermanê A kêmtir bandorên alî bike; narkotîka B veguhestina wê hêsantir e ji ber ku ne hewce ye ku were sarinckirin, lê dermanê A hewce dike. Werin em hîpoteza nebinbilindiyê biceribînin. Ev tê vê wateyê ku guhertoya B bi qasî guhertoya A-yê baş e - bi kêmanî di nav hin sînorê "ne kêmtir bikêr" de, Δ. Em ê hinekî paşê li ser çawaniya danîna vî sînorî bêtir biaxivin. Lê ji bo naha, em bifikirin ku ev cûdahiya herî kêm e ku bi pratîkî girîng e (di çarçoveya ceribandinên klînîkî de, ev bi gelemperî girîngiya klînîkî tê gotin).

Hîpotezên di derbarê ne kêm karîgeriyê de her tiştî berovajî dike:

Kengî divê em hîpoteza ne-kêmbûnê biceribînin?

Naha, li şûna ku em texmîn bikin ku cûdahî tune, em texmîn dikin ku guhertoya B ji guhertoya A xirabtir e, û em ê li ser vê texmînê bisekinin heya ku em nîşan bidin ku ne wusa ye. Ev tam xala dema ku têgihîştî ye ku meriv ceribandina hîpoteza yekalî bikar bîne! Di pratîkê de, ev dikare bi avakirina navberek pêbaweriyê ve were kirin û destnîşankirin ka navber bi rastî ji Δ mezintir e (Wêne 2).
Kengî divê em hîpoteza ne-kêmbûnê biceribînin?

Hilbijartina Δ

Meriv çawa Δ-ya rast hilbijêrin? Pêvajoya hilbijartinê ya Δ rastdariya statîstîkî û nirxandina bingehîn pêk tîne. Di cîhana lêkolîna klînîkî de, rêwerzên normatîf hene ku pêşniyar dikin ku delta divê cûdahiya klînîkî ya herî piçûk be - ya ku dê di pratîkê de girîng be. Li vir gotinek ji manuala Ewropî heye ku hûn pê xwe biceribînin: "Heke ferq rast hatibe hilbijartin, navberek pêbaweriyê ya ku bi tevahî di navbera –∆ û 0 de ye… hîn jî têra xwe dike ku ne kêm karîgerî nîşan bide. Ger ev encam neyê qebûlkirin, ev tê wê wateyê ku ∆ bi guncan nehatiye hilbijartin.”

Pêdivî ye ku delta bê guman ji mezinahiya bandora guhertoya A-yê li gorî kontrola rastîn (placebo / bê dermankirin) derbas neke, ji ber ku ev yek me dihêle ku em bigihîjin wê encamê ku Versiyon B ji kontrola rastîn xirabtir e, di heman demê de "ne kêmtir bandorek" nîşan dide. ". Bifikirin ku dema ku guhertoya A hate destnîşan kirin, guhertoya 0 li şûna xwe bû, an jî taybetmendî qet tune bû (binihêre Figure 3).

Li ser bingeha encamên ceribandina hîpoteza bilindbûnê, mezinahiya bandora E hate eşkere kirin (ango, bi guman μ^A−μ^0=E). Niha A standarda meya nû ye, û em dixwazin piştrast bikin ku B bi qasî A-yê baş e. Rêyek din a nivîsandina μB−μA≤−Δ (hîpoteza betal) μB≤μA−Δ e. Ger em texmîn bikin ku kirin ji E-yê wekhev an mezintir e, wê hingê μB ≤ μA−E ≤ placebo. Naha em dibînin ku texmîna me ji bo μB bi tevahî ji μA−E mezintir e, ku bi vî rengî hîpoteza betal bi tevahî red dike û dihêle ku em bigihîjin encamê ku B ji A ne kêmtir e, lê di heman demê de, μB dikare bibe ≤ μ placebo, ku ne ew e ku em hewce ne. (Şikil 3).

Kengî divê em hîpoteza ne-kêmbûnê biceribînin?
Xiflteya 3. Nîşandana metirsiyên hilbijartina tixûbek ne kêm bi bandor. Ger sînor pir mezin be, meriv dikare were encamdan ku B ji A ne kêmtir e, lê di heman demê de ji cîhêboyê nayê cûda kirin. Em ê dermanek ku bi zelalî ji cîhêbo (A) bi bandortir e ji bo dermanek ku bi qasî placebo-yê bi bandor e neguhezînin.

Hilbijartina α

Ka em derbasî hilbijartina α-yê bibin. Hûn dikarin nirxa standard α = 0,05 bikar bînin, lê ev bi tevahî ne adil e. Mînakî, gava ku hûn li ser Înternetê tiştek bikirin û yekcar çend kodên dakêşanê bikar bînin, her çend divê ew neyên zêdekirin - pêşdebir tenê xeletiyek kir, û hûn jê xilas bûn. Li gorî qaîdeyan, nirxa α divê bi nîvê nirxa α be, ku di ceribandina hîpoteza serdestiyê de tê bikar anîn, ango 0,05 / 2 = 0,025.

Mezinahiya nimûneyê

Meriv çawa mezinahiya nimûneyê texmîn dike? Ger hûn texmîn bikin ku ferqa navînî ya rastîn di navbera A û B de 0 e, wê hingê hesabkirina mezinahiya nimûneyê wekî ceribandina hîpoteza serdestiyê ye, ji bilî ku hûn mezinahiya bandorê bi sînorek ne kêm karîgeriyê veguherînin, bi şertê ku hûn bikaranîn α ne kêmtir bikêrhatî = 1/2 α serdestî (αnon-binferiority=1/2αberbilind). Ger sedemek we hebe ku hûn bawer bikin ku vebijarka B dibe ku hinekî ji vebijarka A xirabtir be, lê hûn dixwazin îspat bikin ku ew ji Δ-yê ne xirabtir e, wê hingê hûn bi şens in! Bi rastî, ev pîvana nimûneya we kêm dike ji ber ku hêsantir e ku meriv nîşan bide ku B ji A xirabtir e heke hûn bi rastî difikirin ku ew hinekî xirabtir e, ne wekhev e.

Mînak Çareseriyê

Ka em bibêjin ku hûn dixwazin nûve bikin guhertoya B, bi şertê ku ew ji guhertoya A-yê 0,1 pûan bêtir xirabtir nebe li ser pîvanek dilxweşiya xerîdar a 5-xalî... Werin em bi karanîna hîpoteza serdestiyê nêzikî vê pirsgirêkê bibin.

Ji bo ceribandina hîpoteza serdestiyê, em ê mezinahiya nimûneyê wekî jêrîn hesab bikin:

Kengî divê em hîpoteza ne-kêmbûnê biceribînin?

Ango heke di komekê de 2103 çavdêriyên we hebin, hûn dikarin ji% 90 piştrast bin ku hûn ê bandorek 0,10 an jî zêdetir bibînin. Lê heke 0,10 ji we re pir zêde ye, dibe ku ne hêja be ku hîpoteza serweriyê ji bo wê ceribandine. Dibe ku hûn bixwazin ku pê ewle bin ku lêkolînê ji bo mezinahiya bandorek piçûktir, wekî 0,05, bimeşînin. Di vê rewşê de, hûn ê hewceyê 8407 çavdêriyan bikin, ango, nimûne dê hema hema 4 carî zêde bibe. Lê heke em li gorî pîvana nimûneya xweya orjînal bisekinin lê hêza xwe bi 0,99 zêde bikin da ku em guman nekin ka em encamek erênî bistînin? Di vê rewşê de, n ji bo yek komê dê bibe 3676, ku jixwe çêtir e, lê pîvana nimûneyê ji% 50 zêdetir zêde dike. Û di encamê de, em ê hîn jî bi hêsanî nikaribin hîpoteza betal red bikin, û em ê bersiva pirsa xwe negirin.

Ger li şûna wê em hîpoteza ne kêm karîgeriyê biceribînin?

Kengî divê em hîpoteza ne-kêmbûnê biceribînin?

Mezinahiya nimûneyê dê bi karanîna heman formulê ji xeynî danûstendinê were hesibandin.
Cûdahiyên ji formula ku di ceribandina hîpoteza serdestiyê de hatî bikar anîn wiha ne:

- Z1−α/2 bi Z1−α tê guheztin, lê ger hûn her tiştî li gorî qaîdeyan bikin, hûn a = 0,05 bi α = 0,025 veguherînin, ango ev heman hejmar e (1,96)

- di navdêrê de xuya dibe (μB−μA)

- θ (mezinahiya bandorê) bi Δ tê guheztin (sînorê ne kêm karîgeriyê)

Ger em bihesibînin ku μB = μA, wê demê (μB − μA) = 0 û hesabkirina mezinahiya nimûneyê ji bo marjîna ne-kêmtiriyê tam ya ku em ê werbigirin dema ku serweriyê ji bo mezinahiya bandorek 0,1 hesab bikin, pir baş e! Em dikarin bi hîpotezên cihêreng û bi nêzîkatiyek cuda ji encaman re lêkolînek heman pîvanê bikin û em ê bersiva pirsa ku em bi rastî dixwazin bersivê bidin bistînin.

Naha bifikirin ku em bi rastî bawer nakin ku μB = μA û
em difikirin ku μB hinekî xerabtir e, dibe ku bi 0,01 yekîneyên. Ev navdêra me zêde dike, mezinahiya nimûneya her komê digihîje 1737.

Ger guhertoya B bi rastî ji guhertoya A çêtir be, çi dibe? Em hîpoteza betal a ku B ji A-yê ji ∆-yê bêtir xerabtir e red dikin û hîpoteza alternatîf qebûl dikin ku B, heke xirabtir be, ji Δ ne xirabtir e û dikare çêtir be. Biceribînin ku wê encamê bixin nav pêşandanek cross-fonksiyonel û bibînin ka çi diqewime (bi ciddî, ​​wê biceribîne). Di rewşek ku hûn hewce ne ku berê xwe bidin pêşerojê, kes naxwaze ku "ji Δ- xirabtir û dibe ku çêtir be."

Di vê rewşê de, em dikarin lêkolînek ku bi kurtasî jê re tê gotin "ceribandina hîpoteza ku yek ji vebijarkan ji ya din bilindtir an kêmtir e." Ew du komên hîpotezan bikar tîne:

Koma yekem (eynî wekî dema ceribandina hîpoteza ne kêm karîgeriyê):

Kengî divê em hîpoteza ne-kêmbûnê biceribînin?

Koma duyemîn (eynî wekî dema ceribandina hîpoteza serweriyê):

Kengî divê em hîpoteza ne-kêmbûnê biceribînin?

Em hîpoteza duyemîn tenê heke ya yekem were red kirin ceribandin. Di ceribandina rêzdar de, em asta giştî ya xeletiyên Tîpa I (α) diparêzin. Di pratîkê de, ev dikare bi afirandina navberek pêbaweriya 95% ji bo cûdahiya navgînan û kontrolkirina ku bibînin ka tevahiya navber ji -Δ mezintir e. Ger navber ji -Δ derbas nebe, em nikarin nirxa sifir red bikin û rawestin. Ger bi rastî navber ji −Δ mezintir be, em ê pêş de biçin û bibînin ka navber 0-yê dihewîne.

Cûreyek din a lêkolînê heye ku me nîqaş nekiriye - lêkolînên wekheviyê.

Lêkolînên bi vî rengî dikarin ji hêla lêkolînan ve werin veguheztin da ku hîpoteza ne kêm bandorker û berevajî ceribandin, lê ew bixwe cûdahiyek girîng heye. Îmtîhanek ne-kêmbûnê armanc dike ku nîşan bide ku vebijarka B bi kêmanî wekî A-yê baş e. Û lêkolînek wekheviyê armanc dike ku nîşan bide ku vebijarka B bi kêmanî wekî A baş e, û vebijarka A bi qasî B-yê baş e, ku dijwartir e. . Di eslê xwe de, em hewl didin ku diyar bikin ka tevahiya navbera pêbaweriyê ji bo cûdahiya navgînan di navbera -∆ û Δ de ye. Lêkolînên weha pîvanên nimûneyên mezintir hewce dike û kêm caran têne kirin. Ji ber vê yekê gava din ku hûn lêkolînek bikin ku derdê weya sereke ew e ku hûn pê ewle bibin ku guhertoya nû ew qas baş e, bi "nekarnekirina hîpoteza betal" razî nebin. Heke hûn dixwazin hîpotezek bi rastî girîng biceribînin, vebijarkên cihêreng bifikirin.

Source: www.habr.com

Add a comment