Kur duhet ta testojmë hipotezën e joinferioritetit?

Kur duhet ta testojmë hipotezën e joinferioritetit?
Një artikull nga ekipi i Stitch Fix sugjeron përdorimin e qasjes së provave jo-inferioriteti në marketing dhe testet A/B të produktit. Kjo qasje vlen vërtet kur ne po testojmë një zgjidhje të re që ka përfitime që nuk maten me teste.

Shembulli më i thjeshtë është ulja e kostos. Për shembull, ne automatizojmë procesin e caktimit të mësimit të parë, por nuk duam të reduktojmë ndjeshëm konvertimin nga fundi në fund. Ose testojmë ndryshimet që synojnë një segment të përdoruesve, ndërsa sigurohemi që konvertimet për segmentet e tjera të mos bien shumë (kur testoni disa hipoteza, mos harroni për ndryshimet).

Zgjedhja e marzhit të saktë jo-inferioriteti shton sfida shtesë gjatë fazës së projektimit të testit. Çështja se si të zgjidhni Δ nuk është trajtuar shumë mirë në artikull. Duket se kjo zgjedhje nuk është plotësisht transparente as në provat klinike. Rishikimi Publikimet mjekësore mbi joinferioritetin raportojnë se vetëm gjysma e publikimeve justifikojnë zgjedhjen e kufirit dhe shpesh këto arsyetime janë të paqarta ose jo të detajuara.

Në çdo rast, kjo qasje duket interesante sepse... duke reduktuar madhësinë e kërkuar të mostrës, mund të rrisë shpejtësinë e testimit dhe, rrjedhimisht, shpejtësinë e vendimmarrjes. - Daria Mukhina, analiste e produkteve për aplikacionin celular Skyeng.

Ekipi i Stitch Fix pëlqen të testojë gjëra të ndryshme. I gjithë komuniteti i teknologjisë pëlqen të kryejë teste në parim. Cili version i faqes tërheq më shumë përdorues - A apo B? A bën versioni A i modelit të rekomandimit më shumë para se versioni B? Për të testuar hipotezat, ne pothuajse gjithmonë përdorim qasjen më të thjeshtë nga kursi bazë i statistikave:

Kur duhet ta testojmë hipotezën e joinferioritetit?

Edhe pse rrallë e përdorim termin, kjo formë testimi quhet "testimi i hipotezës së epërsisë". Me këtë qasje, ne supozojmë se nuk ka asnjë ndryshim midis dy opsioneve. Ne i përmbahemi kësaj ideje dhe e braktisim atë vetëm nëse të dhënat janë mjaft bindëse për ta bërë këtë - domethënë, ajo tregon se një nga opsionet (A ose B) është më i mirë se tjetri.

Testimi i hipotezës së superioritetit është i përshtatshëm për një sërë problemesh. Ne lëshojmë versionin B të një modeli rekomandimi vetëm nëse është qartësisht më i mirë se versioni A që është tashmë në përdorim. Por në disa raste, kjo qasje nuk funksionon aq mirë. Le të shohim disa shembuj.

1) Ne përdorim një shërbim të palës së tretë, e cila ndihmon në identifikimin e kartave bankare të falsifikuara. Ne gjetëm një shërbim tjetër që kushton dukshëm më pak. Nëse një shërbim më i lirë funksionon si ai që përdorim aktualisht, ne do ta zgjedhim atë. Nuk ka pse të jetë më i mirë se shërbimi që po përdorni.

2) Ne duam të braktisim burimin e të dhënave A dhe zëvendësojeni atë me burimin e të dhënave B. Ne mund të vonojmë braktisjen e A nëse B jep rezultate shumë të këqija, por nuk është e mundur të vazhdojmë të përdorim A.

3) Ne do të donim të lëviznim nga një qasje modelueseQasja nga A në B jo sepse presim rezultate më të mira nga B, por sepse na jep fleksibilitet më të madh operacional. Nuk kemi arsye të besojmë se B do të jetë më keq, por nuk do të bëjmë tranzicionin nëse është kështu.

4) Kemi bërë disa ndryshime cilësore në dizajnin e faqes në internet (versioni B) dhe besoni se ky version është më i lartë se versioni A. Ne nuk presim ndryshime në konvertim ose ndonjë nga treguesit kryesorë të performancës me të cilët ne zakonisht vlerësojmë një faqe interneti. Por ne besojmë se ka përfitime në parametra që janë ose të pamatshëm ose teknologjia jonë nuk është e mjaftueshme për t'u matur.

Në të gjitha këto raste, kërkimi i epërsisë nuk është zgjidhja më e përshtatshme. Por shumica e specialistëve në situata të tilla e përdorin atë si parazgjedhje. Ne kryejmë me kujdes eksperimentin për të përcaktuar saktë madhësinë e efektit. Nëse do të ishte e vërtetë që versionet A dhe B funksionojnë në mënyra shumë të ngjashme, ekziston mundësia që ne të dështojmë të hedhim poshtë hipotezën zero. A konkludojmë se A dhe B kryejnë në thelb të njëjtë? Jo! Mosrefuzimi i hipotezës zero dhe pranimi i hipotezës zero nuk janë e njëjta gjë.

Llogaritjet e madhësisë së kampionit (të cilat, sigurisht, ju i keni bërë) zakonisht bëhen me kufij më të rreptë për gabimin e tipit I (probabiliteti i dështimit për të refuzuar hipotezën zero, shpesh i quajtur alfa) sesa për gabimin e tipit II (probabiliteti për të mos refuzuar hipoteza zero, duke pasur parasysh kushtin që hipoteza zero është e rreme, shpesh quhet beta). Vlera tipike për alfa është 0,05, ndërsa vlera tipike për beta është 0,20, që korrespondon me një fuqi statistikore prej 0,80. Kjo do të thotë se ka një shans 20% që të humbasim efektin e vërtetë të sasisë që kemi specifikuar në llogaritjet tona të fuqisë, dhe kjo është një hendek mjaft serioz në informacion. Si shembull, le të shqyrtojmë hipotezat e mëposhtme:

Kur duhet ta testojmë hipotezën e joinferioritetit?

H0: çanta ime e shpinës NUK është në dhomën time (3)
H1: çanta ime e shpinës është në dhomën time (4)

Nëse do të kërkoja dhomën time dhe do të gjeja çantën time të shpinës, mirë, mund ta hedh poshtë hipotezën zero. Por nëse shikoja nëpër dhomë dhe nuk mund të gjeja çantën time të shpinës (Figura 1), çfarë përfundimi duhet të nxjerr? A jam i sigurt që nuk është aty? A shikova mjaftueshëm? Po sikur të kërkoja vetëm 80% të dhomës? Të konkludosh se çanta e shpinës definitivisht nuk është në dhomë do të ishte një vendim i nxituar. Nuk është çudi që ne nuk mund të "pranojmë hipotezën zero".
Kur duhet ta testojmë hipotezën e joinferioritetit?
Zona që kërkuam
Nuk e gjetëm çantën e shpinës - a duhet ta pranojmë hipotezën zero?

Figura 1: Kërkimi në 80% të një dhome është afërsisht i njëjtë me kërkimin me fuqi 80%. Nëse nuk e gjeni çantën e shpinës pasi keni parë 80% të dhomës, a mund të arrini në përfundimin se nuk është aty?

Pra, çfarë duhet të bëjë një shkencëtar i të dhënave në këtë situatë? Ju mund të rrisni shumë fuqinë e studimit, por atëherë do t'ju duhet një madhësi shumë më e madhe e mostrës dhe rezultati do të jetë ende i pakënaqshëm.

Për fat të mirë, probleme të tilla janë studiuar prej kohësh në botën e kërkimit klinik. Droga B është më e lirë se ilaçi A; Droga B pritet të shkaktojë më pak efekte anësore sesa ilaçi A; bari B është më i lehtë për t'u transportuar sepse nuk ka nevojë të ruhet në frigorifer, por ilaçi A ka. Le të testojmë hipotezën e joinferioritetit. Kjo është për të treguar se versioni B është po aq i mirë sa versioni A - të paktën brenda një kufiri joinferioriteti të paracaktuar, Δ. Ne do të flasim më shumë se si ta vendosim këtë kufi pak më vonë. Por tani për tani le të supozojmë se ky është ndryshimi më i vogël që është praktikisht kuptimplotë (në kontekstin e provave klinike, kjo zakonisht quhet rëndësi klinike).

Hipotezat e jo-inferioritetit kthejnë gjithçka në kokë:

Kur duhet ta testojmë hipotezën e joinferioritetit?

Tani, në vend që të supozojmë se nuk ka asnjë ndryshim, ne do të supozojmë se versioni B është më i keq se versioni A, dhe do të qëndrojmë me këtë supozim derisa të demonstrojmë se nuk është kështu. Ky është pikërisht momenti kur ka kuptim të përdoret testimi i njëanshëm i hipotezave! Në praktikë, kjo mund të bëhet duke ndërtuar një interval besimi dhe duke përcaktuar nëse intervali është në të vërtetë më i madh se Δ (Figura 2).
Kur duhet ta testojmë hipotezën e joinferioritetit?

Zgjidhni Δ

Si të zgjidhni Δ e duhur? Procesi i përzgjedhjes Δ përfshin justifikimin statistikor dhe vlerësimin thelbësor. Në botën e kërkimit klinik, ka udhëzime rregullatore që diktojnë se delta duhet të përfaqësojë ndryshimin më të vogël klinikisht të rëndësishëm - atë që do të bëjë një ndryshim në praktikë. Ja një citim nga udhëzimet evropiane për të provuar veten: “Nëse ndryshimi është zgjedhur saktë, një interval besimi që shtrihet tërësisht midis –∆ dhe 0… është ende i mjaftueshëm për të demonstruar joinferioritet. Nëse ky rezultat nuk duket i pranueshëm, do të thotë se ∆ nuk është përzgjedhur siç duhet.”

Delta definitivisht nuk duhet të kalojë madhësinë e efektit të versionit A në lidhje me kontrollin e vërtetë (placebo/pa trajtim), pasi kjo na bën të themi se versioni B është më i keq se kontrolli i vërtetë, duke demonstruar në të njëjtën kohë "jo inferioritet .” Le të supozojmë se kur u prezantua versioni A, ai u zëvendësua nga versioni 0 ose veçoria nuk ekzistonte fare (shih Figurën 3).

Bazuar në rezultatet e testimit të hipotezës së epërsisë, u zbulua madhësia e efektit E (d.m.th., me sa duket μ^A−μ^0=E). Tani A është standardi ynë i ri dhe ne duam të sigurohemi që B të jetë po aq i mirë sa A. Një mënyrë tjetër për të shkruar μB−μA≤−Δ (hipoteza zero) është μB≤μA−Δ. Nëse supozojmë se do është e barabartë ose më e madhe se E, atëherë μB ≤ μA−E ≤ placebo. Tani shohim se vlerësimi ynë për μB e tejkalon plotësisht μA−E, gjë që hedh poshtë plotësisht hipotezën zero dhe na lejon të konkludojmë se B është po aq i mirë sa A, por në të njëjtën kohë μB mund të jetë ≤ μ placebo, që nuk është rasti.çfarë na duhet. (Figura 3).

Kur duhet ta testojmë hipotezën e joinferioritetit?
Figura 3. Demonstrimi i rreziqeve të zgjedhjes së një marzhi joinferioriteti. Nëse kufiri është shumë i lartë, mund të konkludohet se B nuk është inferior ndaj A, por në të njëjtën kohë i padallueshëm nga placebo. Ne nuk do të shkëmbejmë një ilaç që është qartësisht më efektiv se placebo (A) me një ilaç që është po aq efektiv sa placebo.

Zgjedhja e α

Le të kalojmë në zgjedhjen e α. Ju mund të përdorni vlerën standarde α = 0,05, por kjo nuk është plotësisht e drejtë. Si, për shembull, kur blini diçka në internet dhe përdorni disa kode zbritje në të njëjtën kohë, megjithëse ato nuk duhet të kombinohen - zhvilluesi thjesht bëri një gabim dhe ju ia dolët. Sipas rregullave, vlera e α duhet të jetë e barabartë me gjysmën e vlerës së α që përdoret gjatë testimit të hipotezës së epërsisë, domethënë 0,05 / 2 = 0,025.

Madhësia e mostrës

Si të vlerësohet madhësia e mostrës? Nëse besoni se diferenca mesatare e vërtetë midis A dhe B është 0, atëherë llogaritja e madhësisë së kampionit është e njëjtë me atë kur testoni hipotezën e epërsisë, përveç se ju zëvendësoni madhësinë e efektit me marzhin joinferioriteti, me kusht që të përdorni eficencë jo-inferiore = 1/2αsuperioritet (αnon-inferioritet=1/2αsuperioritet). Nëse keni arsye të besoni se opsioni B mund të jetë pak më i keq se opsioni A, por dëshironi të provoni se është më i keq jo më shumë se Δ, atëherë jeni me fat! Kjo në fakt zvogëlon madhësinë e kampionit tuaj sepse është më e lehtë të demonstrosh se B është më i keq se A nëse në të vërtetë mendon se është pak më i keq sesa i barabartë.

Shembull me zgjidhje

Le të themi se dëshironi të përmirësoni në versionin B, me kusht që të mos jetë më shumë se 0,1 pikë më i keq se versioni A në një shkallë 5-pikëshe të kënaqësisë së klientit... Le t'i qasemi këtij problemi duke përdorur hipotezën e epërsisë.

Për të testuar hipotezën e superioritetit, ne do të llogarisnim madhësinë e kampionit si më poshtë:

Kur duhet ta testojmë hipotezën e joinferioritetit?

Kjo do të thotë, nëse keni 2103 vëzhgime në grupin tuaj, mund të jeni 90% i sigurt se do të gjeni një madhësi efekti prej 0,10 ose më të madh. Por nëse 0,10 është shumë e lartë për ju, mund të mos ia vlen të testoni hipotezën e superioritetit. Për të qenë në anën e sigurt, mund të vendosni ta drejtoni studimin për një madhësi më të vogël efekti, si p.sh. 0,05. Në këtë rast, do t'ju duhen 8407 vëzhgime, domethënë, mostra do të rritet pothuajse 4 herë. Por, çka nëse do të qëndronim në madhësinë tonë origjinale të mostrës, por do të rrisnim fuqinë në 0,99 në mënyrë që të ishim të sigurt nëse merrnim një rezultat pozitiv? Në këtë rast, n për një grup do të jetë 3676, që tashmë është më mirë, por rrit madhësinë e kampionit me më shumë se 50%. Dhe si rezultat, ne ende thjesht nuk do të jemi në gjendje të hedhim poshtë hipotezën zero dhe nuk do të marrim një përgjigje për pyetjen tonë.

Po sikur të testonim hipotezën e joinferioritetit në vend të kësaj?

Kur duhet ta testojmë hipotezën e joinferioritetit?

Madhësia e kampionit do të llogaritet duke përdorur të njëjtën formulë me përjashtim të emëruesit.
Ndryshimet nga formula e përdorur për të testuar hipotezën e superioritetit janë si më poshtë:

— Z1−α/2 zëvendësohet me Z1−α, por nëse bëni gjithçka sipas rregullave, zëvendësoni α = 0,05 me α = 0,025, domethënë është i njëjti numër (1,96)

— (μB−μA) shfaqet në emërues

— θ (madhësia e efektit) zëvendësohet me Δ (margjina e jo-inferioritetit)

Nëse supozojmë se µB = µA, atëherë (µB − µA) = 0 dhe llogaritja e madhësisë së kampionit për marzhin e joinferioritetit është pikërisht ajo që do të merrnim nëse do të llogarisnim epërsinë për një madhësi efekti prej 0,1, e shkëlqyeshme! Ne mund të bëjmë një studim të së njëjtës madhësi me hipoteza të ndryshme dhe një qasje të ndryshme ndaj përfundimeve dhe do të marrim përgjigjen e pyetjes që vërtet duam t'i përgjigjemi.

Tani supozojmë se në fakt nuk mendojmë se µB = µA dhe
Ne mendojmë se µB është pak më keq, ndoshta me 0,01 njësi. Kjo rrit emëruesin tonë, duke reduktuar madhësinë e kampionit për grup në 1737.

Çfarë ndodh nëse versioni B është në të vërtetë më i mirë se versioni A? Ne hedhim poshtë hipotezën zero se B është më e keqe se A me më shumë se Δ dhe pranojmë hipotezën alternative që B, nëse është më e keqe, nuk është më e keqe se A me Δ dhe mund të jetë më e mirë. Provoni ta vendosni këtë përfundim në një prezantim ndërfunksional dhe shikoni se çfarë ndodh (seriozisht, provojeni). Në një situatë largpamëse, askush nuk dëshiron të kënaqet me "jo më shumë se Δ më keq dhe ndoshta më mirë".

Në këtë rast, ne mund të kryejmë një studim, i cili quhet shumë shkurt "testimi i hipotezës se njëra nga opsionet është superiore ose inferiore ndaj tjetrës". Ai përdor dy grupe hipotezash:

Seti i parë (njëlloj si testimi i hipotezës së jo-inferioritetit):

Kur duhet ta testojmë hipotezën e joinferioritetit?

Seti i dytë (njëlloj si kur testohet hipoteza e epërsisë):

Kur duhet ta testojmë hipotezën e joinferioritetit?

Ne testojmë hipotezën e dytë vetëm nëse e para refuzohet. Kur testojmë në mënyrë sekuenciale, ne ruajmë shkallën e përgjithshme të gabimit të tipit I (α). Në praktikë, kjo mund të arrihet duke krijuar një interval besimi 95% për diferencën midis mesatareve dhe testimit për të përcaktuar nëse i gjithë intervali është më i madh se -Δ. Nëse intervali nuk e kalon -Δ, nuk mund të refuzojmë vlerën null dhe të ndalojmë. Nëse i gjithë intervali është me të vërtetë më i madh se -Δ, ne do të vazhdojmë dhe do të shohim nëse intervali përmban 0.

Ekziston një lloj tjetër kërkimi që nuk e kemi diskutuar - studimet e ekuivalencës.

Këto lloj studimesh mund të zëvendësohen me studime joinferioriteti dhe anasjelltas, por në fakt ato kanë një ndryshim të rëndësishëm. Një provë joinferioriteti synon të tregojë se opsioni B është të paktën po aq i mirë sa A. Një provë ekuivalente synon të tregojë se opsioni B është të paktën po aq i mirë sa A. Opsioni A është po aq i mirë sa B, që është më i vështirë. Në thelb, ne po përpiqemi të përcaktojmë nëse i gjithë intervali i besimit për ndryshimin në mesatare qëndron midis -Δ dhe Δ. Studime të tilla kërkojnë një madhësi më të madhe kampioni dhe kryhen më rrallë. Kështu që herën tjetër që do të kryeni një studim në të cilin qëllimi juaj kryesor është të siguroheni që versioni i ri të mos jetë më i keq, mos u kënaqni me "dështimin për të hedhur poshtë hipotezën zero". Nëse doni të testoni një hipotezë vërtet të rëndësishme, merrni parasysh opsione të ndryshme.

Burimi: www.habr.com

Shto një koment