Je, ni lini tunapaswa kupima nadharia ya kutokuwa duni?

Je, ni lini tunapaswa kupima nadharia ya kutokuwa duni?
Makala kutoka kwa timu ya Urekebishaji wa Stitch inapendekeza kutumia mbinu ya majaribio yasiyo ya chini katika masoko na majaribio ya A/B ya bidhaa. Mbinu hii inatumika sana tunapojaribu suluhisho jipya ambalo lina manufaa ambayo hayapimwi kwa majaribio.

Mfano rahisi ni kupunguza gharama. Kwa mfano, tunabadilisha mchakato wa kugawa somo la kwanza kiotomatiki, lakini hatutaki kupunguza kwa kiasi kikubwa ubadilishaji wa mwisho hadi mwisho. Au tunajaribu mabadiliko ambayo yanalenga sehemu moja ya watumiaji, huku tukihakikisha kuwa ubadilishaji wa sehemu zingine haupunguzi sana (wakati wa kujaribu nadharia kadhaa, usisahau kuhusu marekebisho).

Kuchagua ukingo sahihi usio wa chini huongeza changamoto za ziada wakati wa awamu ya kubuni ya jaribio. Swali la jinsi ya kuchagua Δ halijafunikwa sana katika makala. Inaonekana kwamba chaguo hili si wazi kabisa katika majaribio ya kimatibabu pia. Pitia machapisho ya matibabu juu ya mashirika yasiyo ya chini yanaripoti kwamba nusu tu ya machapisho yanahalalisha uchaguzi wa mpaka, na mara nyingi uhalali huu haueleweki au hauna maelezo ya kina.

Kwa hali yoyote, mbinu hii inaonekana kuvutia kwa sababu ... kwa kupunguza ukubwa wa sampuli unaohitajika, inaweza kuongeza kasi ya kupima, na, kwa hiyo, kasi ya kufanya maamuzi. - Daria Mukhina, mchambuzi wa bidhaa kwa programu ya rununu ya Skyeng.

Timu ya Stitch Fix inapenda kujaribu vitu tofauti. Jumuiya nzima ya teknolojia inapenda kufanya majaribio kimsingi. Ni toleo gani la wavuti linalovutia watumiaji zaidi - A au B? Je, toleo A la modeli ya pendekezo linapata pesa nyingi kuliko toleo B? Ili kujaribu dhahania, karibu kila wakati tunatumia mbinu rahisi zaidi kutoka kwa kozi ya msingi ya takwimu:

Je, ni lini tunapaswa kupima nadharia ya kutokuwa duni?

Ingawa sisi hutumia neno hili mara chache, aina hii ya majaribio inaitwa "upimaji wa nadharia ya hali ya juu." Kwa mbinu hii, tunadhani kwamba hakuna tofauti kati ya chaguzi mbili. Tunashikilia wazo hili na kuliacha tu ikiwa data inalazimisha vya kutosha kufanya hivyo-hiyo ni kwamba, inaonyesha kuwa moja ya chaguo (A au B) ni bora kuliko nyingine.

Kujaribu hypothesis ya ubora inafaa kwa shida anuwai. Tunatoa tu toleo B la muundo wa pendekezo ikiwa ni bora zaidi kuliko toleo A ambalo tayari linatumika. Lakini katika hali nyingine, mbinu hii haifanyi kazi vizuri. Hebu tuangalie mifano michache.

1) Tunatumia huduma ya mtu wa tatu, ambayo husaidia kutambua kadi za benki bandia. Tulipata huduma nyingine ambayo inagharimu kidogo sana. Ikiwa huduma ya bei nafuu itafanya kazi sawa na ile tunayotumia sasa, tutaichagua. Si lazima iwe bora kuliko huduma unayotumia.

2) Tunataka kuacha chanzo cha data A na badala yake na chanzo cha data B. Tunaweza kuchelewesha kuacha A ikiwa B itatoa matokeo mabaya sana, lakini haiwezekani kuendelea kutumia A.

3) Tungependa kuhama kutoka kwa mbinu ya uigajiMbinu ya A hadi B si kwa sababu tunatarajia matokeo bora kutoka kwa B, lakini kwa sababu inatupa unyumbufu mkubwa zaidi wa kiutendaji. Hatuna sababu ya kuamini kuwa B itakuwa mbaya zaidi, lakini hatutafanya mpito ikiwa hii ndio kesi.

4) Tumefanya mabadiliko kadhaa ya ubora katika muundo wa tovuti (toleo B) na tunaamini kuwa toleo hili ni bora kuliko toleo la A. Hatutarajii mabadiliko katika ubadilishaji au viashirio vyovyote muhimu vya utendakazi ambavyo kwa kawaida huwa tunatathmini tovuti. Lakini tunaamini kuwa kuna manufaa katika vigezo ambavyo haviwezi kupimika au teknolojia yetu haitoshi kupima.

Katika visa hivi vyote, utafiti wa ubora sio suluhisho sahihi zaidi. Lakini wataalam wengi katika hali kama hizi hutumia kwa msingi. Tunafanya jaribio kwa uangalifu ili kuamua kwa usahihi saizi ya athari. Iwapo ingekuwa kweli kwamba matoleo A na B yanafanya kazi kwa njia zinazofanana, kuna uwezekano kwamba tungeshindwa kukataa dhana potofu. Je, tunahitimisha kwamba A na B hufanya kazi sawa kimsingi? Hapana! Kukosa kukataa dhana potofu na ukubali wa nadharia tupu sio kitu kimoja.

Mahesabu ya saizi ya sampuli (ambayo, kwa kweli, umefanya) kwa ujumla hufanywa kwa mipaka mikali zaidi kwa kosa la Aina ya I (uwezekano wa kushindwa kukataa dhana potofu, ambayo mara nyingi huitwa alpha) kuliko kwa kosa la Aina ya II (uwezekano wa kushindwa kukataa dhana potofu, ikizingatiwa kuwa nadharia potofu ni ya uwongo, ambayo mara nyingi huitwa beta). Thamani ya kawaida ya alpha ni 0,05, wakati thamani ya kawaida ya beta ni 0,20, inayolingana na nguvu ya takwimu ya 0,80. Hii ina maana kwamba kuna uwezekano wa 20% kwamba tutakosa athari ya kweli ya wingi ambao tumebainisha katika hesabu zetu za nguvu, na hiyo ni pengo kubwa katika habari. Kwa mfano, hebu tuzingatie nadharia zifuatazo:

Je, ni lini tunapaswa kupima nadharia ya kutokuwa duni?

H0: mkoba wangu haupo chumbani kwangu (3)
H1: mkoba wangu uko kwenye chumba changu (4)

Ikiwa nilitafuta chumba changu na kupata mkoba wangu, sawa, naweza kukataa dhana potofu. Lakini ikiwa nilitazama chumbani na sikuweza kupata mkoba wangu (Kielelezo 1), ni lazima nifikie hitimisho gani? Nina uhakika haipo? Je, niliangalia kwa bidii vya kutosha? Je, ikiwa ningetafuta tu 80% ya chumba? Kuhitimisha kuwa mkoba hauko kwenye chumba itakuwa uamuzi wa haraka. Haishangazi hatuwezi "kukubali dhana potofu."
Je, ni lini tunapaswa kupima nadharia ya kutokuwa duni?
Eneo tulilotafuta
Hatukupata mkoba - je, tukubali dhana potofu?

Kielelezo 1: Kutafuta 80% ya chumba ni takriban sawa na kutafuta kwa nguvu 80%. Ikiwa hutapata mkoba baada ya kuangalia 80% ya chumba, unaweza kuhitimisha kuwa haipo?

Kwa hivyo mwanasayansi wa data anapaswa kufanya nini katika hali hii? Unaweza kuongeza sana nguvu ya utafiti, lakini basi utahitaji saizi kubwa zaidi ya sampuli na matokeo bado hayataridhisha.

Kwa bahati nzuri, shida kama hizo zimesomwa kwa muda mrefu katika ulimwengu wa utafiti wa kliniki. Dawa B ni nafuu kuliko dawa A; Dawa B inatarajiwa kusababisha madhara machache kuliko Dawa A; Dawa B ni rahisi kusafirisha kwa sababu haihitaji kuwekwa kwenye jokofu, lakini dawa A inaifanya. Wacha tujaribu nadharia ya kutokuwa duni. Hii ni kuonyesha kuwa toleo la B ni zuri kama toleo A—angalau ndani ya ukingo uliobainishwa awali wa kutokuwa duni, Δ. Tutazungumza zaidi kuhusu jinsi ya kuweka kikomo hiki baadaye kidogo. Lakini kwa sasa hebu tuchukulie kuwa hii ndiyo tofauti ndogo zaidi ambayo ina maana halisi (katika muktadha wa majaribio ya kimatibabu, hii kwa kawaida huitwa umuhimu wa kiafya).

Nadharia zisizo za chini hugeuza kila kitu kichwani mwake:

Je, ni lini tunapaswa kupima nadharia ya kutokuwa duni?

Sasa, badala ya kudhani kwamba hakuna tofauti, tutachukulia kwamba toleo B ni baya zaidi kuliko toleo A, na tutashikamana na dhana hii hadi tudhihirishe kwamba sivyo ilivyo. Huu ndio wakati haswa ambapo inaeleweka kutumia upimaji wa nadharia ya upande mmoja! Kwa mazoezi, hii inaweza kufanywa kwa kuunda muda wa kujiamini na kuamua kama muda ni mkubwa kuliko Δ (Mchoro 2).
Je, ni lini tunapaswa kupima nadharia ya kutokuwa duni?

Chagua Δ

Jinsi ya kuchagua Δ sahihi? Mchakato wa uteuzi wa Δ unajumuisha uhalalishaji wa takwimu na tathmini ya kimsingi. Katika ulimwengu wa utafiti wa kimatibabu, kuna miongozo ya udhibiti ambayo inaamuru kwamba delta inapaswa kuwakilisha tofauti ndogo zaidi ya kliniki-ambayo itafanya tofauti katika mazoezi. Hapa kuna nukuu kutoka kwa miongozo ya Uropa ili kujijaribu nayo: “Ikiwa tofauti imechaguliwa kwa usahihi, muda wa kujiamini ambao uko kati ya -∆ na 0… bado unatosha kuonyesha kutokuwa duni. Ikiwa matokeo haya yanaonekana kutokubalika, inamaanisha kwamba ∆ haikuchaguliwa ipasavyo.”

Delta haipaswi kuzidi saizi ya athari ya toleo A inayohusiana na udhibiti wa kweli (placebo/hakuna matibabu), kwa kuwa hii inatuongoza kusema kwamba toleo B ni mbaya zaidi kuliko udhibiti wa kweli, wakati huo huo kuonyesha "kutokuwa duni." .” Hebu tuchukulie kwamba toleo A lilipoanzishwa, lilibadilishwa na toleo la 0 au kipengele hakikuwepo kabisa (ona Mchoro 3).

Kulingana na matokeo ya kupima hypothesis ya ubora, saizi ya athari E ilifunuliwa (yaani, labda μ^A−μ^0=E). Sasa A ndio kiwango chetu kipya, na tunataka kuhakikisha kuwa B ni sawa na A. Njia nyingine ya kuandika μB−μA≤−Δ (dhahania isiyofaa) ni μB≤μA−Δ. Ikiwa tunadhani kwamba kufanya ni sawa na au kubwa kuliko E, basi μB ≤ μA−E ≤ placebo. Sasa tunaona kwamba makadirio yetu ya μB yanazidi kabisa μA−E, ambayo kwa hivyo inakataa kabisa dhana potofu na inaturuhusu kuhitimisha kuwa B ni nzuri kama A, lakini wakati huo huo μB inaweza kuwa ≤ μ placebo, ambayo sio tunahitaji nini. (Kielelezo 3).

Je, ni lini tunapaswa kupima nadharia ya kutokuwa duni?
Kielelezo 3. Maonyesho ya hatari za kuchagua ukingo usio duni. Ikiwa kata ni ya juu sana, inaweza kuhitimishwa kuwa B sio duni kwa A, lakini wakati huo huo haiwezi kutofautishwa na placebo. Hatutabadilishana dawa ambayo ina ufanisi zaidi kuliko placebo (A) kwa dawa inayofaa kama placebo.

Chaguo la α

Wacha tuendelee kuchagua α. Unaweza kutumia thamani ya kawaida α = 0,05, lakini hii sio sawa kabisa. Kama, kwa mfano, unaponunua kitu kwenye mtandao na kutumia nambari kadhaa za punguzo mara moja, ingawa hazipaswi kuunganishwa - msanidi programu alifanya makosa tu, na ukaiacha. Kwa mujibu wa sheria, thamani ya α inapaswa kuwa sawa na nusu ya thamani ya α ambayo hutumiwa wakati wa kupima hypothesis ya ubora, yaani, 0,05 / 2 = 0,025.

Saizi ya sampuli

Jinsi ya kukadiria ukubwa wa sampuli? Ikiwa unaamini kuwa tofauti ya kweli ya wastani kati ya A na B ni 0, basi hesabu ya saizi ya sampuli ni sawa na wakati wa kujaribu nadharia ya ubora, isipokuwa kwamba unabadilisha saizi ya athari na ukingo usio duni, mradi tu unatumia. αufanisi usio duni = 1/2α ubora (αnon-inferiority=1/2α ubora). Ikiwa una sababu ya kuamini kuwa chaguo B linaweza kuwa baya zaidi kuliko chaguo A, lakini unataka kuthibitisha kuwa ni mbaya zaidi kwa si zaidi ya Δ, basi una bahati! Kwa kweli hii inapunguza saizi ya sampuli yako kwa sababu ni rahisi kuonyesha kuwa B ni mbaya zaidi kuliko A ikiwa unafikiria ni mbaya zaidi kuliko sawa.

Mfano na suluhisho

Hebu tuseme unataka kupata toleo jipya la B, mradi sio zaidi ya nukta 0,1 mbaya zaidi kuliko toleo A kwa kiwango cha kuridhika cha wateja cha pointi 5... Hebu tukabili tatizo hili kwa kutumia nadharia ya ubora.

Ili kujaribu nadharia ya ubora, tungehesabu saizi ya sampuli kama ifuatavyo:

Je, ni lini tunapaswa kupima nadharia ya kutokuwa duni?

Hiyo ni, ikiwa una uchunguzi 2103 katika kikundi chako, unaweza kuwa na uhakika wa 90% kwamba utapata saizi ya athari ya 0,10 au zaidi. Lakini ikiwa 0,10 ni ya juu sana kwako, inaweza kuwa haifai kujaribu nadharia ya ubora. Ili kuwa katika upande salama, unaweza kuamua kuendesha utafiti kwa saizi ndogo ya athari, kama vile 0,05. Katika kesi hii, utahitaji uchunguzi 8407, yaani, sampuli itaongezeka karibu mara 4. Lakini vipi ikiwa tutashikamana na saizi yetu ya asili ya sampuli, lakini tukaongeza nguvu hadi 0,99 ili tuwe salama ikiwa tutapata matokeo chanya? Katika kesi hii, n kwa kundi moja itakuwa 3676, ambayo tayari ni bora, lakini huongeza ukubwa wa sampuli kwa zaidi ya 50%. Na kama matokeo, bado hatutaweza kukanusha nadharia tupu, na hatutapata jibu la swali letu.

Je, ikiwa tungejaribu nadharia ya kutokuwa duni badala yake?

Je, ni lini tunapaswa kupima nadharia ya kutokuwa duni?

Saizi ya sampuli itakokotolewa kwa kutumia fomula sawa isipokuwa kwa dhehebu.
Tofauti kutoka kwa fomula inayotumiwa kujaribu nadharia ya ubora ni kama ifuatavyo.

- Z1−α/2 inabadilishwa na Z1−α, lakini ikiwa utafanya kila kitu kulingana na sheria, unabadilisha α = 0,05 na α = 0,025, ambayo ni, ni nambari sawa (1,96)

- (μB-μA) inaonekana katika denominator

- θ (ukubwa wa athari) inabadilishwa na Δ (mapinduzi yasiyo ya chini)

Tukichukulia kuwa µB = µA, basi (µB − µA) = 0 na hesabu ya saizi ya sampuli ya ukingo usio duni ndio hasa tungepata ikiwa tungehesabu ubora kwa saizi ya athari ya 0,1, nzuri! Tunaweza kufanya utafiti wa ukubwa sawa na hypotheses tofauti na mbinu tofauti ya hitimisho, na tutapata jibu la swali tunalotaka kujibu kweli.

Sasa tuseme hatufikirii kuwa µB = µA na
Tunafikiri kwamba µB ni mbaya zaidi, labda kwa vitengo 0,01. Hii huongeza dhehebu letu, na kupunguza ukubwa wa sampuli kwa kila kikundi hadi 1737.

Ni nini hufanyika ikiwa toleo B ni bora kuliko toleo A? Tunakataa dhana potofu kwamba B ni mbaya kuliko A kwa zaidi ya Δ na kukubali nadharia mbadala kwamba B, ikiwa mbaya zaidi, si mbaya kuliko A kwa Δ na inaweza kuwa bora zaidi. Jaribu kuweka hitimisho hili katika uwasilishaji unaofanya kazi tofauti na uone kinachotokea (kwa umakini, jaribu). Katika hali ya kutazamia mbele, hakuna mtu anataka kuridhika na "sio zaidi ya Δ mbaya na labda bora zaidi."

Katika kesi hii, tunaweza kufanya utafiti, ambao unaitwa kwa ufupi sana "kujaribu nadharia kwamba moja ya chaguzi ni bora au duni kuliko nyingine." Inatumia seti mbili za hypotheses:

Seti ya kwanza (sawa na kujaribu hypothesis isiyo ya chini):

Je, ni lini tunapaswa kupima nadharia ya kutokuwa duni?

Seti ya pili (sawa na wakati wa kujaribu nadharia ya ubora):

Je, ni lini tunapaswa kupima nadharia ya kutokuwa duni?

Tunajaribu hypothesis ya pili ikiwa tu ya kwanza imekataliwa. Tunapojaribu kwa kufuatana, tunadumisha kiwango cha jumla cha makosa ya Aina ya I (α). Katika mazoezi, hii inaweza kupatikana kwa kuunda muda wa 95% wa kujiamini kwa tofauti kati ya njia na majaribio ili kubaini kama muda wote ni mkubwa kuliko -Δ. Ikiwa muda hauzidi -Δ, hatuwezi kukataa thamani isiyo na maana na kuacha. Ikiwa muda wote ni mkubwa kuliko −Δ, tutaendelea na kuona ikiwa muda una 0.

Kuna aina nyingine ya utafiti ambayo hatujajadili - tafiti za usawa.

Aina hizi za tafiti zinaweza kubadilishwa na tafiti zisizo za chini na kinyume chake, lakini kwa kweli zina tofauti muhimu. Jaribio la kutokuwa duni linalenga kuonyesha kwamba chaguo B ni angalau nzuri kama A. Jaribio la usawa linalenga kuonyesha kwamba chaguo B ni bora kama A. Chaguo A ni nzuri kama B, ambayo ni ngumu zaidi. Kimsingi, tunajaribu kubaini ikiwa muda wote wa kujiamini kwa tofauti ya njia uko kati ya −Δ na Δ. Masomo kama haya yanahitaji saizi kubwa ya sampuli na hufanywa mara chache. Kwa hivyo wakati mwingine utakapofanya utafiti ambao lengo lako kuu ni kuhakikisha kuwa toleo jipya sio mbaya zaidi, usisitishe kwa "kushindwa kukataa dhana potofu." Ikiwa unataka kujaribu nadharia muhimu sana, fikiria chaguzi tofauti.

Chanzo: mapenzi.com

Kuongeza maoni