Pryd dylen ni roi prawf ar y rhagdybiaeth anraddoldeb?

Pryd dylen ni roi prawf ar y rhagdybiaeth anraddoldeb?
Mae erthygl gan dîm Stitch Fix yn awgrymu defnyddio dull treialon anraddoldeb mewn marchnata a phrofion cynnyrch A/B. Mae'r dull hwn yn wir yn berthnasol pan fyddwn yn profi datrysiad newydd sydd â buddion nad ydynt yn cael eu mesur gan brofion.

Yr enghraifft symlaf yw lleihau costau. Er enghraifft, rydym yn awtomeiddio'r broses o aseinio'r wers gyntaf, ond nid ydym am leihau trosi o un pen i'r llall yn sylweddol. Neu rydym yn profi newidiadau sydd wedi'u hanelu at un segment o ddefnyddwyr, tra'n sicrhau nad yw trawsnewidiadau ar gyfer segmentau eraill yn gostwng llawer (wrth brofi nifer o ddamcaniaethau, peidiwch ag anghofio am y diwygiadau).

Mae dewis yr ymyl anraddoldeb cywir yn ychwanegu heriau ychwanegol yn ystod y cyfnod dylunio prawf. Nid yw'r cwestiwn o sut i ddewis Δ yn cael ei drafod yn dda iawn yn yr erthygl. Mae'n ymddangos nad yw'r dewis hwn yn gwbl dryloyw mewn treialon clinigol ychwaith. Adolygu mae cyhoeddiadau meddygol ar anraddoldeb yn adrodd mai dim ond hanner y cyhoeddiadau sy'n cyfiawnhau'r dewis o ffin, ac yn aml mae'r cyfiawnhad hwn yn amwys neu heb fod yn fanwl.

Beth bynnag, mae'r dull hwn yn ymddangos yn ddiddorol oherwydd ... trwy leihau'r maint sampl gofynnol, gall gynyddu cyflymder y profi, ac, felly, cyflymder gwneud penderfyniadau. - Daria Mukhina, dadansoddwr cynnyrch ar gyfer cymhwysiad symudol Skyeng.

Mae tîm Stitch Fix wrth eu bodd yn profi gwahanol bethau. Mae'r gymuned dechnoleg gyfan wrth ei bodd yn cynnal profion mewn egwyddor. Pa fersiwn o'r wefan sy'n denu mwy o ddefnyddwyr - A neu B? A yw fersiwn A o'r model argymell yn gwneud mwy o arian na fersiwn B? I brofi damcaniaethau, rydym bron bob amser yn defnyddio'r dull symlaf o'r cwrs ystadegau sylfaenol:

Pryd dylen ni roi prawf ar y rhagdybiaeth anraddoldeb?

Er mai anaml y byddwn yn defnyddio'r term, gelwir y math hwn o brofion yn "brofion rhagdybiaeth rhagoriaeth." Gyda'r dull hwn, tybiwn nad oes gwahaniaeth rhwng y ddau opsiwn. Rydym yn cadw at y syniad hwn a dim ond yn cefnu arno os yw'r data'n ddigon cymhellol i wneud hynny - hynny yw, mae'n dangos bod un o'r opsiynau (A neu B) yn well na'r llall.

Mae profi'r rhagdybiaeth rhagoriaeth yn addas ar gyfer amrywiaeth o broblemau. Dim ond os yw'n amlwg yn well na fersiwn A sydd eisoes yn cael ei ddefnyddio y byddwn yn rhyddhau fersiwn B o fodel argymhelliad. Ond mewn rhai achosion, nid yw'r dull hwn yn gweithio cystal. Gadewch i ni edrych ar ychydig o enghreifftiau.

1) Rydym yn defnyddio gwasanaeth trydydd parti, sy'n helpu i adnabod cardiau banc ffug. Gwelsom wasanaeth arall sy'n costio llawer llai. Os yw gwasanaeth rhatach yn gweithio cystal â'r un a ddefnyddiwn ar hyn o bryd, byddwn yn ei ddewis. Nid oes rhaid iddo fod yn well na'r gwasanaeth yr ydych yn ei ddefnyddio.

2) Rydym am roi'r gorau i'r ffynhonnell ddata A a rhoi ffynhonnell ddata B yn ei le. Gallem oedi cyn rhoi’r gorau i A os bydd B yn cynhyrchu canlyniadau gwael iawn, ond nid yw’n bosibl parhau i ddefnyddio A.

3) Hoffem symud o ddull modeluYmagwedd A i B nid oherwydd ein bod yn disgwyl canlyniadau gwell gan B, ond oherwydd ei fod yn rhoi mwy o hyblygrwydd gweithredol inni. Nid oes gennym unrhyw reswm i gredu y bydd B yn waeth, ond ni fyddwn yn gwneud y trawsnewid os yw hyn yn wir.

4) Rydym wedi gwneud nifer o newidiadau ansoddol i mewn i gynllun y wefan (fersiwn B) a chredwn fod y fersiwn hon yn well na fersiwn A. Nid ydym yn disgwyl newidiadau mewn trosi nac unrhyw un o'r dangosyddion perfformiad allweddol a ddefnyddiwn fel arfer i werthuso gwefan. Ond credwn fod manteision mewn paramedrau sydd naill ai'n anfesuradwy neu nad yw ein technoleg yn ddigon i'w mesur.

Yn yr holl achosion hyn, nid ymchwil rhagoriaeth yw'r ateb mwyaf priodol. Ond mae'r rhan fwyaf o arbenigwyr mewn sefyllfaoedd o'r fath yn ei ddefnyddio yn ddiofyn. Rydym yn cynnal yr arbrawf yn ofalus i bennu maint yr effaith yn gywir. Pe bai'n wir bod fersiynau A a B yn gweithio mewn ffyrdd tebyg iawn, mae siawns y byddem yn methu â gwrthod y rhagdybiaeth nwl. Ydym ni'n dod i'r casgliad bod A a B yn perfformio yr un peth yn y bôn? Nac ydw! Nid yw methu â gwrthod y rhagdybiaeth nwl a derbyn y rhagdybiaeth nwl yr un peth.

Fel arfer mae cyfrifiadau maint sampl (yr ydych, wrth gwrs, wedi'u gwneud) yn cael eu gwneud gyda therfynau llymach ar gyfer gwall Math I (y tebygolrwydd o fethu â gwrthod y rhagdybiaeth nwl, a elwir yn aml yn alffa) nag ar gyfer gwall Math II (y tebygolrwydd o fethu â gwrthod y rhagdybiaeth nwl, o ystyried yr amod bod y rhagdybiaeth nwl yn ffug, a elwir yn aml yn beta). Y gwerth nodweddiadol ar gyfer alffa yw 0,05, a'r gwerth nodweddiadol ar gyfer beta yw 0,20, sy'n cyfateb i bŵer ystadegol o 0,80. Mae hyn yn golygu bod siawns o 20% y byddwn yn methu gwir effaith y swm yr ydym wedi'i nodi yn ein cyfrifiadau pŵer, ac mae hwnnw'n fwlch eithaf difrifol mewn gwybodaeth. Fel enghraifft, gadewch i ni ystyried y rhagdybiaethau canlynol:

Pryd dylen ni roi prawf ar y rhagdybiaeth anraddoldeb?

H0: NID yw fy sach gefn yn fy ystafell (3)
H1: mae fy sach gefn yn fy ystafell (4)

Pe bawn i'n chwilio fy ystafell ac yn dod o hyd i'm sach gefn, yn wych, gallaf wrthod y rhagdybiaeth nwl. Ond pe bawn i'n edrych o gwmpas yr ystafell ac yn methu dod o hyd i'm sach gefn (Ffigur 1), pa gasgliad ddylwn i ddod iddo? Ydw i'n siŵr nad yw yno? Wnes i edrych yn ddigon caled? Beth pe bawn i'n chwilio dim ond 80% o'r ystafell? Byddai dod i'r casgliad nad yw'r sach gefn yn bendant yn yr ystafell yn benderfyniad brech. Does ryfedd na allwn "dderbyn y rhagdybiaeth nwl."
Pryd dylen ni roi prawf ar y rhagdybiaeth anraddoldeb?
Yr ardal a chwiliwyd gennym
Wnaethon ni ddim dod o hyd i'r sach gefn - a ddylem ni dderbyn y rhagdybiaeth nwl?

Ffigur 1: Mae chwilio 80% o ystafell fwy neu lai yr un fath â chwilio ar bŵer 80%. Os na fyddwch chi'n dod o hyd i'r sach gefn ar ôl edrych 80% o'r ystafell, a allwch chi ddod i'r casgliad nad yw yno?

Felly beth ddylai gwyddonydd data ei wneud yn y sefyllfa hon? Gallwch gynyddu pŵer yr astudiaeth yn fawr, ond yna bydd angen maint sampl llawer mwy arnoch a bydd y canlyniad yn dal i fod yn anfoddhaol.

Yn ffodus, mae problemau o'r fath wedi'u hastudio ers amser maith ym myd ymchwil glinigol. Mae Cyffur B yn rhatach na chyffur A; Disgwylir i Gyffur B achosi llai o sgîl-effeithiau na Chyffur A; mae cyffur B yn haws i'w gludo oherwydd nid oes angen ei oeri, ond mae cyffur A yn gwneud hynny. Gadewch i ni brofi'r rhagdybiaeth o anraddoldeb. Mae hyn i ddangos bod fersiwn B yr un mor dda â fersiwn A - o leiaf o fewn rhywfaint o ymyl anisraddoldeb rhagddiffiniedig, Δ. Byddwn yn siarad mwy am sut i osod y terfyn hwn ychydig yn ddiweddarach. Ond am y tro gadewch i ni dybio mai dyma'r gwahaniaeth lleiaf sy'n ymarferol ystyrlon (yng nghyd-destun treialon clinigol, gelwir hyn fel arfer yn arwyddocâd clinigol).

Mae rhagdybiaethau nad ydynt yn israddoldeb yn troi popeth ar ei ben:

Pryd dylen ni roi prawf ar y rhagdybiaeth anraddoldeb?

Nawr, yn hytrach na thybio nad oes gwahaniaeth, byddwn yn cymryd yn ganiataol bod fersiwn B yn waeth na fersiwn A, a byddwn yn cadw at y dybiaeth hon nes i ni ddangos nad yw hyn yn wir. Dyma'r union foment pan mae'n gwneud synnwyr i ddefnyddio profion rhagdybiaeth unochrog! Yn ymarferol, gellir gwneud hyn trwy lunio cyfwng hyder a phenderfynu a yw'r cyfwng mewn gwirionedd yn fwy nag Δ (Ffigur 2).
Pryd dylen ni roi prawf ar y rhagdybiaeth anraddoldeb?

Dewiswch Δ

Sut i ddewis yr iawn Δ? Δ Mae'r broses ddethol yn cynnwys cyfiawnhad ystadegol a gwerthusiad sylweddol. Ym myd ymchwil glinigol, mae yna ganllawiau rheoleiddio sy'n mynnu mai delta ddylai gynrychioli'r gwahaniaeth clinigol arwyddocaol lleiaf—un a fydd yn gwneud gwahaniaeth yn ymarferol. Dyma ddyfyniad o’r canllawiau Ewropeaidd i roi prawf ar eich hun: “Os yw’r gwahaniaeth wedi’i ddewis yn gywir, mae cyfwng hyder sy’n gorwedd yn gyfan gwbl rhwng –∆ a 0… yn dal i fod yn ddigon i ddangos nad yw’n israddoldeb. Os nad yw’r canlyniad hwn yn ymddangos yn dderbyniol, mae’n golygu na chafodd ∆ ei ddewis yn briodol.”

Yn bendant ni ddylai'r delta fod yn fwy na maint effaith fersiwn A o'i gymharu â'r gwir reolaeth (plasebo / dim triniaeth), gan fod hyn yn ein harwain i ddweud bod fersiwn B yn waeth na'r gwir reolaeth, ac ar yr un pryd yn dangos “anisraddoldeb .” Gadewch i ni dybio, pan gyflwynwyd fersiwn A, y cafodd ei disodli gan fersiwn 0 neu nad oedd y nodwedd yn bodoli o gwbl (gweler Ffigur 3).

Yn seiliedig ar ganlyniadau profi'r rhagdybiaeth rhagoriaeth, datgelwyd maint yr effaith E (hynny yw, yn ôl pob tebyg μ^A−μ^0=E). Nawr A yw ein safon newydd, ac rydym am wneud yn siŵr bod B cystal ag A. Ffordd arall o ysgrifennu μB−μA≤−Δ (rhagdybiaeth nwl) yw μB≤μA−Δ. Os tybiwn fod do yn hafal i neu'n fwy nag E, yna μB ≤ μA−E ≤ plasebo. Nawr rydym yn gweld bod ein hamcangyfrif ar gyfer μB yn fwy na μA−E yn gyfan gwbl, sydd felly'n gwrthod yn llwyr y rhagdybiaeth nwl ac yn caniatáu inni ddod i'r casgliad bod B cystal ag A, ond ar yr un pryd gall μB fod yn ≤ μ plasebo, nad yw'r beth sydd ei angen arnom. (Ffigur 3).

Pryd dylen ni roi prawf ar y rhagdybiaeth anraddoldeb?
Ffigur 3. Arddangosiad o'r risgiau o ddewis ymyl noninferiority. Os yw'r toriad yn rhy uchel, gellir dod i'r casgliad nad yw B yn israddol i A, ond ar yr un pryd yn anwahanadwy o blasebo. Ni fyddwn yn cyfnewid cyffur sy'n amlwg yn fwy effeithiol na phlasebo (A) am gyffur sydd mor effeithiol â phlasebo.

Dewis o α

Gadewch i ni symud ymlaen i ddewis α. Gallwch ddefnyddio'r gwerth safonol α = 0,05, ond nid yw hyn yn gwbl deg. Fel, er enghraifft, pan fyddwch chi'n prynu rhywbeth ar-lein ac yn defnyddio sawl cod disgownt ar unwaith, er na ddylid eu cyfuno - mae'r datblygwr newydd wneud camgymeriad, a gwnaethoch chi ddianc ag ef. Yn ôl y rheolau, dylai gwerth α fod yn hafal i hanner gwerth α a ddefnyddir wrth brofi'r rhagdybiaeth rhagoriaeth, hynny yw, 0,05 / 2 = 0,025.

Maint y sampl

Sut i amcangyfrif maint y sampl? Os ydych chi'n credu mai'r gwir wahaniaeth cymedrig rhwng A a B yw 0, yna mae cyfrifiad maint y sampl yr un peth ag wrth brofi'r rhagdybiaeth rhagoriaeth, ac eithrio eich bod yn disodli maint yr effaith gyda'r ymyl anisraddol, ar yr amod eich bod yn defnyddio Effeithlonrwydd αnon-israddol = 1/2αsuperiority (αan-israddoldeb=1/2αuwchraddoldeb). Os oes gennych reswm i gredu y gallai opsiwn B fod ychydig yn waeth nag opsiwn A, ond eich bod am brofi ei fod yn waeth o ddim mwy nag Δ, yna rydych mewn lwc! Mae hyn mewn gwirionedd yn lleihau maint eich sampl oherwydd mae'n haws dangos bod B yn waeth nag A os ydych chi'n meddwl ei fod ychydig yn waeth yn hytrach nag yn gyfartal.

Enghraifft gyda datrysiad

Gadewch i ni ddweud eich bod am uwchraddio i fersiwn B, ar yr amod nad yw'n fwy na 0,1 pwynt yn waeth na fersiwn A ar raddfa boddhad cwsmeriaid 5-pwynt... Gadewch i ni fynd at y broblem hon gan ddefnyddio'r ddamcaniaeth rhagoriaeth.

I brofi'r rhagdybiaeth rhagoriaeth, byddem yn cyfrifo maint y sampl fel a ganlyn:

Pryd dylen ni roi prawf ar y rhagdybiaeth anraddoldeb?

Hynny yw, os oes gennych 2103 o arsylwadau yn eich grŵp, gallwch fod 90% yn hyderus y byddwch yn dod o hyd i faint effaith o 0,10 neu fwy. Ond os yw 0,10 yn rhy uchel i chi, efallai na fydd yn werth rhoi prawf ar y ddamcaniaeth rhagoriaeth. I fod ar yr ochr ddiogel, efallai y byddwch yn penderfynu rhedeg yr astudiaeth ar gyfer maint effaith llai, fel 0,05. Yn yr achos hwn, bydd angen 8407 o arsylwadau arnoch, hynny yw, bydd y sampl yn cynyddu bron i 4 gwaith. Ond beth pe baem yn glynu wrth faint ein sampl gwreiddiol, ond yn cynyddu'r pŵer i 0,99 fel y byddem yn ddiogel pe byddem yn cael canlyniad cadarnhaol? Yn yr achos hwn, n ar gyfer un grŵp fydd 3676, sydd eisoes yn well, ond yn cynyddu maint y sampl gan fwy na 50%. Ac o ganlyniad, yn syml, ni fyddwn yn gallu gwrthbrofi'r rhagdybiaeth nwl, ac ni fyddwn yn derbyn ateb i'n cwestiwn.

Beth pe byddem yn profi'r rhagdybiaeth anisraddol yn lle hynny?

Pryd dylen ni roi prawf ar y rhagdybiaeth anraddoldeb?

Bydd maint y sampl yn cael ei gyfrifo gan ddefnyddio'r un fformiwla ac eithrio'r enwadur.
Mae'r gwahaniaethau o'r fformiwla a ddefnyddiwyd i brofi'r rhagdybiaeth rhagoriaeth fel a ganlyn:

— Mae Z1−α/2 yn cael ei ddisodli gan Z1−α, ond os gwnewch bopeth yn ôl y rheolau, rydych chi'n disodli α = 0,05 gyda α = 0,025, hynny yw, yr un rhif ydyw (1,96)

— (μB−μA) yn ymddangos yn yr enwadur

— θ (maint yr effaith) yn cael ei ddisodli gan Δ (ymyl anraddoldeb)

Os tybiwn fod µB = µA, yna (µB − µA) = 0 a’r cyfrifiad maint sampl ar gyfer yr ymyl anisraddoldeb yw’r union beth a gawn pe byddem yn cyfrifo rhagoriaeth ar gyfer maint effaith o 0,1, gwych! Gallwn wneud astudiaeth o'r un maint gyda gwahanol ddamcaniaethau ac ymagwedd wahanol at gasgliadau, a byddwn yn cael yr ateb i'r cwestiwn yr ydym wir eisiau ei ateb.

Nawr mae'n debyg nad ydyn ni'n meddwl bod µB = µA a
Credwn fod µB ychydig yn waeth, efallai 0,01 uned. Mae hyn yn cynyddu ein henwadur, gan leihau maint y sampl fesul grŵp i 1737.

Beth sy'n digwydd os yw fersiwn B yn well na fersiwn A mewn gwirionedd? Rydym yn gwrthod y rhagdybiaeth nwl bod B yn waeth nag A o fwy nag Δ ac yn derbyn y rhagdybiaeth amgen nad yw B, os yw'n waeth, yn waeth nag A gan Δ ac y gallai fod yn well. Ceisiwch roi'r casgliad hwn mewn cyflwyniad traws-swyddogaethol a gweld beth sy'n digwydd (o ddifrif, rhowch gynnig arni). Mewn sefyllfa flaengar, nid oes unrhyw un eisiau setlo am “ddim mwy na Δ yn waeth ac efallai’n well.”

Yn yr achos hwn, gallwn gynnal astudiaeth, a elwir yn fyr iawn yn “brofi’r ddamcaniaeth bod un o’r opsiynau yn well neu’n israddol i’r llall.” Mae'n defnyddio dwy set o ddamcaniaethau:

Set gyntaf (yr un fath â phrofi'r rhagdybiaeth anraddoldeb):

Pryd dylen ni roi prawf ar y rhagdybiaeth anraddoldeb?

Ail set (yr un fath ag wrth brofi'r rhagdybiaeth rhagoriaeth):

Pryd dylen ni roi prawf ar y rhagdybiaeth anraddoldeb?

Dim ond os gwrthodir yr un gyntaf y byddwn yn profi'r ail ddamcaniaeth. Wrth brofi yn ddilyniannol, rydym yn cynnal y gyfradd gwallau Math I gyffredinol (α). Yn ymarferol, gellir cyflawni hyn trwy greu cyfwng hyder o 95% ar gyfer y gwahaniaeth rhwng y modd a'r prawf i benderfynu a yw'r cyfwng cyfan yn fwy na -Δ. Os nad yw'r cyfwng yn fwy na -Δ, ni allwn wrthod y gwerth null a stopio. Os yw'r cyfwng cyfan yn wir yn fwy na −Δ, byddwn yn parhau i weld a yw'r cyfwng yn cynnwys 0.

Mae math arall o ymchwil nad ydym wedi'i drafod - astudiaethau cywerthedd.

Gall astudiaethau anisraddol ddisodli'r mathau hyn o astudiaethau ac i'r gwrthwyneb, ond mae ganddyn nhw wahaniaeth pwysig mewn gwirionedd. Nod treial anisraddoldeb yw dangos bod opsiwn B cystal ag A o leiaf. Nod treial cywerthedd yw dangos bod opsiwn B cystal ag A o leiaf. Mae Opsiwn A cystal â B, sy'n fwy anodd. Yn y bôn, rydym yn ceisio pennu a yw'r cyfwng hyder cyfan ar gyfer y gwahaniaeth mewn modd yn gorwedd rhwng −Δ a Δ. Mae angen sampl mwy o faint ar gyfer astudiaethau o'r fath ac fe'u cynhelir yn llai aml. Felly y tro nesaf y byddwch chi'n cynnal astudiaeth lle mai'ch prif nod yw sicrhau nad yw'r fersiwn newydd yn waeth, peidiwch â setlo am "fethiant i wrthod y rhagdybiaeth nwl." Os ydych chi am brofi rhagdybiaeth wirioneddol bwysig, ystyriwch opsiynau gwahanol.

Ffynhonnell: hab.com

Ychwanegu sylw