Ե՞րբ պետք է փորձարկենք ոչ թերարժեքության վարկածը:

Ե՞րբ պետք է փորձարկենք ոչ թերարժեքության վարկածը:
Stitch Fix թիմի հոդվածում առաջարկվում է օգտագործել ոչ թերարժեքության փորձարկումների մոտեցումը շուկայավարման և արտադրանքի A/B թեստերում: Այս մոտեցումը իսկապես կիրառվում է, երբ մենք փորձարկում ենք նոր լուծում, որն ունի առավելություններ, որոնք չեն չափվում թեստերով:

Ամենապարզ օրինակը ծախսերի կրճատումն է: Օրինակ՝ մենք ավտոմատացնում ենք առաջին դասը նշանակելու գործընթացը, սակայն չենք ցանկանում էապես նվազեցնել վերջից ծայր փոխակերպումը։ Կամ մենք փորձարկում ենք փոփոխություններ, որոնք ուղղված են օգտատերերի մեկ հատվածին, միաժամանակ համոզվելով, որ այլ հատվածների փոխարկումները շատ չեն ընկնում (մի քանի վարկածներ փորձարկելիս մի մոռացեք փոփոխությունների մասին):

Ոչ թերարժեքության ճիշտ մարժան ընտրելը լրացուցիչ մարտահրավերներ է ավելացնում թեստային նախագծման փուլում: Հարցը, թե ինչպես ընտրել Δ-ն, այնքան էլ լավ չի լուսաբանվում հոդվածում: Թվում է, որ այս ընտրությունը լիովին թափանցիկ չէ նաև կլինիկական փորձարկումներում: Վերանայել Ոչ թերարժեքության մասին բժշկական հրապարակումներում նշվում է, որ հրապարակումների միայն կեսն է հիմնավորում սահմանի ընտրությունը, և հաճախ այդ հիմնավորումները երկիմաստ են կամ ոչ մանրամասն:

Ամեն դեպքում, այս մոտեցումը հետաքրքիր է թվում, քանի որ... նվազեցնելով նմուշի պահանջվող չափը, այն կարող է մեծացնել թեստավորման արագությունը և, հետևաբար, որոշումների կայացման արագությունը: — Դարիա Մուխինա, Skyeng բջջային հավելվածի արտադրանքի վերլուծաբան:

Stitch Fix թիմը սիրում է փորձարկել տարբեր բաներ: Ամբողջ տեխնոլոգիական համայնքը սիրում է սկզբունքորեն թեստեր անցկացնել: Կայքի ո՞ր տարբերակն է ավելի շատ օգտատերերի գրավում` A, թե՞ B: Առաջարկվող մոդելի Ա տարբերակն ավելի շատ գումար է վաստակում, քան Բ տարբերակը: Վարկածները ստուգելու համար մենք գրեթե միշտ օգտագործում ենք վիճակագրության հիմնական դասընթացի ամենապարզ մոտեցումը.

Ե՞րբ պետք է փորձարկենք ոչ թերարժեքության վարկածը:

Թեև մենք հազվադեպ ենք օգտագործում տերմինը, փորձարկման այս ձևը կոչվում է «գերազանցության հիպոթեզի փորձարկում»: Այս մոտեցմամբ մենք ենթադրում ենք, որ երկու տարբերակների միջև տարբերություն չկա: Մենք հավատարիմ ենք մնում այս գաղափարին և հրաժարվում ենք միայն այն դեպքում, եթե տվյալները բավականաչափ ազդեցիկ են դա անելու համար, այսինքն՝ դա ցույց է տալիս, որ տարբերակներից մեկը (A կամ B) ավելի լավն է, քան մյուսը:

Գերազանցության վարկածի փորձարկումը հարմար է տարբեր խնդիրների համար: Մենք թողարկում ենք առաջարկությունների մոդելի B տարբերակը միայն այն դեպքում, եթե այն ակնհայտորեն ավելի լավն է, քան արդեն օգտագործվող A տարբերակը: Բայց որոշ դեպքերում այս մոտեցումն այնքան էլ լավ չի աշխատում: Դիտարկենք մի քանի օրինակ։

1) Մենք օգտագործում ենք երրորդ կողմի ծառայություն, որն օգնում է բացահայտել կեղծ բանկային քարտերը: Մենք գտանք մեկ այլ ծառայություն, որն արժե զգալիորեն ավելի քիչ: Եթե ​​ավելի էժան ծառայությունը աշխատի այնպես, ինչպես այն, ինչ մենք ներկայումս օգտագործում ենք, մենք կընտրենք այն: Պարտադիր չէ, որ այն ավելի լավը լինի, քան այն ծառայությունը, որը դուք օգտագործում եք:

2) Մենք ցանկանում ենք հրաժարվել տվյալների աղբյուրից A-ն և այն փոխարինեք տվյալների աղբյուրով B-ով: Մենք կարող ենք հետաձգել A-ից հրաժարվելը, եթե B-ն շատ վատ արդյունքներ է բերում, բայց հնարավոր չէ շարունակել օգտագործել A-ն:

3) Մենք կցանկանայինք անցնել մոդելային մոտեցումիցA-ից B-ի մոտեցումը ոչ թե այն պատճառով, որ մենք ավելի լավ արդյունքներ ենք ակնկալում B-ից, այլ այն պատճառով, որ այն մեզ ավելի մեծ գործառնական ճկունություն է տալիս: Մենք հիմք չունենք հավատալու, որ B-ն ավելի վատ կլինի, բայց մենք անցում չենք կատարի, եթե դա այդպես է:

4) Մենք կատարել ենք մի քանի որակական փոփոխություններ վեբ կայքի ձևավորման մեջ (տարբերակ B) և կարծում ենք, որ այս տարբերակը գերազանցում է Ա տարբերակին: Մենք չենք ակնկալում փոփոխություններ փոխակերպման մեջ կամ հիմնական կատարողականի որևէ ցուցանիշ, որով մենք սովորաբար գնահատում ենք կայքը: Բայց մենք կարծում ենք, որ կան օգուտներ այնպիսի պարամետրերում, որոնք կա՛մ անչափելի են, կա՛մ մեր տեխնոլոգիան բավարար չէ չափելու համար:

Այս բոլոր դեպքերում գերազանցության հետազոտությունը ամենահարմար լուծումը չէ։ Բայց նման իրավիճակներում մասնագետների մեծ մասն այն օգտագործում է լռելյայն: Մենք զգուշորեն անցկացնում ենք փորձը՝ էֆեկտի չափը ճիշտ որոշելու համար։ Եթե ​​ճիշտ լիներ, որ A և B տարբերակներն աշխատում են շատ նման ձևերով, ապա հավանականություն կա, որ մենք չկարողանանք մերժել զրոյական վարկածը: Արդյո՞ք մենք եզրակացնում ենք, որ A-ն և B-ն հիմնականում նույնն են գործում: Ո՛չ։ Զուր վարկածը չմերժելը և զրոյական վարկածի ընդունումը նույն բանը չեն:

Նմուշի չափի հաշվարկները (որը, իհարկե, դուք արել եք) սովորաբար կատարվում են I տիպի սխալի ավելի խիստ սահմաններով (զրոյական վարկածը չմերժելու հավանականությունը, որը հաճախ կոչվում է ալֆա), քան II տիպի սխալի դեպքում (հավանականությունը, որ չկարողանաք մերժել): զրոյական վարկածը, հաշվի առնելով պայմանը, որ զրոյական վարկածը կեղծ է, որը հաճախ կոչվում է բետա): Ալֆայի բնորոշ արժեքը 0,05 է, մինչդեռ բետա-ի բնորոշ արժեքը 0,20 է, որը համապատասխանում է 0,80 վիճակագրական հզորությանը: Սա նշանակում է, որ 20% հավանականություն կա, որ մենք բաց կթողնենք այն քանակի իրական էֆեկտը, որը մենք նշել ենք մեր հզորության հաշվարկներում, և դա տեղեկատվության բավականին լուրջ բաց է: Որպես օրինակ՝ դիտարկենք հետևյալ վարկածները.

Ե՞րբ պետք է փորձարկենք ոչ թերարժեքության վարկածը:

H0. իմ ուսապարկը իմ սենյակում չէ (3)
H1. իմ ուսապարկը իմ սենյակում է (4)

Եթե ​​ես խուզարկեի իմ սենյակը և գտնեի իմ ուսապարկը, հիանալի, ես կարող եմ մերժել զրոյական վարկածը: Բայց եթե ես նայեցի սենյակը և չկարողացա գտնել իմ ուսապարկը (Նկար 1), ի՞նչ եզրակացություն պետք է անեմ: Համոզվա՞ծ եմ, որ այն չկա: Արդյո՞ք ես բավականաչափ նայեցի: Իսկ եթե ես փնտրեի սենյակի միայն 80%-ը: Եզրակացնելը, որ ուսապարկը հաստատ սենյակում չէ, հապճեպ որոշում կլիներ: Զարմանալի չէ, որ մենք չենք կարող «ընդունել զրոյական վարկածը»:
Ե՞րբ պետք է փորձարկենք ոչ թերարժեքության վարկածը:
Տարածքը, որը մենք փնտրեցինք
Մենք չգտանք ուսապարկը. պե՞տք է ընդունենք զրոյական վարկածը:

Նկար 1. Սենյակի 80%-ի որոնումը մոտավորապես նույնն է, ինչ որոնումը 80% հզորությամբ: Եթե ​​սենյակի 80%-ը փնտրելուց հետո չես գտնում ուսապարկը, կարո՞ղ ես եզրակացնել, որ այն չկա:

Այսպիսով, ի՞նչ պետք է անի տվյալների գիտնականը այս իրավիճակում: Դուք կարող եք զգալիորեն մեծացնել ուսումնասիրության ուժը, բայց այդ դեպքում ձեզ անհրաժեշտ կլինի շատ ավելի մեծ նմուշի չափ, և արդյունքը դեռևս անբավարար կլինի:

Բարեբախտաբար, նման խնդիրները վաղուց են ուսումնասիրվել կլինիկական հետազոտությունների աշխարհում: Դեղ B-ն ավելի էժան է, քան A դեղը; Ակնկալվում է, որ Բ դեղամիջոցը կառաջացնի ավելի քիչ կողմնակի ազդեցություններ, քան Ա դեղը. Թմրամիջոց B-ն ավելի հեշտ է տեղափոխվում, քանի որ այն սառնարանում պահելու կարիք չունի, բայց դեղամիջոց Ա-ն ունի: Փորձարկենք ոչ թերարժեքության վարկածը։ Սա ցույց է տալիս, որ B տարբերակը նույնքան լավն է, որքան A տարբերակը՝ գոնե որոշ կանխորոշված ​​ոչ թերարժեքության սահմաններում՝ Δ: Ինչպես սահմանել այս սահմանը, մենք ավելին կխոսենք մի փոքր ուշ: Բայց առայժմ ենթադրենք, որ սա ամենափոքր տարբերությունն է, որը գործնականում իմաստալից է (կլինիկական փորձարկումների համատեքստում դա սովորաբար կոչվում է կլինիկական նշանակություն):

Ոչ թերարժեքության վարկածները ամեն ինչ շուռ են տալիս.

Ե՞րբ պետք է փորձարկենք ոչ թերարժեքության վարկածը:

Այժմ, փոխանակ ենթադրելու, որ տարբերություն չկա, մենք կենթադրենք, որ B տարբերակը ավելի վատն է, քան A տարբերակը, և մենք կպահպանենք այս ենթադրությունը, մինչև ցույց տանք, որ դա այդպես չէ: Սա հենց այն պահն է, երբ իմաստ ունի օգտագործել վարկածների միակողմանի թեստավորում: Գործնականում դա կարելի է անել վստահության ինտերվալ կառուցելով և որոշելով, թե իրականում միջակայքը Δ-ից մեծ է (Նկար 2):
Ե՞րբ պետք է փորձարկենք ոչ թերարժեքության վարկածը:

Ընտրեք Δ

Ինչպե՞ս ընտրել ճիշտ Δ: Δ ընտրության գործընթացը ներառում է վիճակագրական հիմնավորում և բովանդակային գնահատում: Կլինիկական հետազոտությունների աշխարհում կան կարգավորող ուղեցույցներ, որոնք թելադրում են, որ դելտան պետք է ներկայացնի կլինիկապես ամենափոքր տարբերությունը, որը գործնականում փոփոխություն կբերի: Ահա մի մեջբերում եվրոպական ուղեցույցներից՝ ձեզ փորձելու համար. «Եթե տարբերությունը ճիշտ է ընտրված, վստահության միջակայքը, որն ամբողջությամբ գտնվում է –∆-ի և 0-ի միջև… դեռևս բավարար է ոչ թերարժեքությունը ցույց տալու համար: Եթե ​​այս արդյունքը ընդունելի չի թվում, նշանակում է, որ ∆-ն պատշաճ կերպով չի ընտրվել»։

Դելտան, անկասկած, չպետք է գերազանցի Ա տարբերակի ազդեցության չափը իրական վերահսկողության համեմատ (պլացեբո/առանց բուժում), քանի որ դա մեզ ստիպում է ասել, որ B տարբերակը ավելի վատ է, քան իրական վերահսկողությունը, միևնույն ժամանակ ցույց տալով «ոչ թերարժեքություն»: »: Ենթադրենք, որ երբ ներկայացվեց A տարբերակը, այն փոխարինվեց 0 տարբերակով, կամ ֆունկցիան ընդհանրապես գոյություն չուներ (տես նկար 3):

Գերազանցության վարկածի փորձարկման արդյունքների հիման վրա բացահայտվել է ազդեցության չափը E (այսինքն՝ ենթադրաբար μ^A−μ^0=E)։ Այժմ A-ն մեր նոր ստանդարտն է, և մենք ցանկանում ենք համոզվել, որ B-ն նույնքան լավն է, որքան A-ն: μB−μA≤−Δ (զրոյական հիպոթեզ) գրելու մեկ այլ ձև μB≤μA−Δ է: Եթե ​​ենթադրենք, որ do-ը հավասար է կամ մեծ է E-ից, ապա μB ≤ μA−E ≤ պլացեբո: Այժմ մենք տեսնում ենք, որ μB-ի մեր գնահատականը լիովին գերազանցում է μA−E-ն, որն այդպիսով լիովին մերժում է զրոյական վարկածը և թույլ է տալիս եզրակացնել, որ B-ն նույնքան լավն է, որքան A-ն, բայց միևնույն ժամանակ μB-ն կարող է լինել ≤ μ պլացեբո, որը չի հանդիսանում: դեպք, ինչ է մեզ պետք. (Նկար 3):

Ե՞րբ պետք է փորձարկենք ոչ թերարժեքության վարկածը:
Գծապատկեր 3. Ոչ թերարժեքության մարժան ընտրելու ռիսկերի ցուցադրում: Եթե ​​սահմանը չափազանց բարձր է, կարելի է եզրակացնել, որ B-ն չի զիջում A-ին, բայց միևնույն ժամանակ չի տարբերվում պլացեբոյից: Մենք չենք փոխի դեղամիջոցը, որն ակնհայտորեն ավելի արդյունավետ է, քան պլացեբոն (A) դեղամիջոցի հետ, որը նույնքան արդյունավետ է, որքան պլացեբոն:

α-ի ընտրություն

Անցնենք α-ի ընտրությանը: Դուք կարող եք օգտագործել ստանդարտ արժեքը α = 0,05, բայց դա լիովին արդար չէ: Ինչպես, օրինակ, երբ առցանց ինչ-որ բան եք գնում և միանգամից մի քանի զեղչի կոդ եք օգտագործում, թեև դրանք չպետք է համակցվեն, մշակողը պարզապես սխալ է թույլ տվել, և դուք ազատվել եք դրանից: Ըստ կանոնների՝ α-ի արժեքը պետք է հավասար լինի α-ի արժեքի կեսին, որն օգտագործվում է գերազանցության վարկածը ստուգելիս, այսինքն՝ 0,05 / 2 = 0,025։

Նմուշի չափը

Ինչպե՞ս գնահատել նմուշի չափը: Եթե ​​կարծում եք, որ A-ի և B-ի միջև իրական միջին տարբերությունը 0 է, ապա ընտրանքի չափի հաշվարկը նույնն է, ինչ գերազանցության վարկածը ստուգելիս, բացառությամբ, որ դուք փոխարինում եք ազդեցության չափը ոչ թերարժեքության սահմանով, պայմանով, որ դուք օգտագործում եք. α ոչ ցածր արդյունավետություն = 1/2α գերակայություն (αnon-sferiority=1/2αsuperiority): Եթե ​​դուք հիմքեր ունեք հավատալու, որ B տարբերակը կարող է մի փոքր ավելի վատ լինել, քան A տարբերակը, բայց ցանկանում եք ապացուցել, որ այն ավելի վատ է, քան Δ, ապա ձեր բախտը բերել է: Սա իրականում նվազեցնում է ձեր ընտրանքի չափը, քանի որ ավելի հեշտ է ցույց տալ, որ B-ն ավելի վատ է, քան A-ն, եթե իրականում կարծում եք, որ այն մի փոքր ավելի վատ է, քան հավասար:

Օրինակ լուծումով

Ենթադրենք, դուք ցանկանում եք արդիականացնել B տարբերակի, պայմանով, որ այն 0,1 բալից ավելի վատ չէ, քան հաճախորդների բավարարվածության 5 բալանոց սանդղակով A տարբերակը... Եկեք մոտենանք այս խնդրին՝ օգտագործելով գերազանցության վարկածը:

Գերազանցության վարկածը ստուգելու համար ընտրանքի չափը կհաշվարկենք հետևյալ կերպ.

Ե՞րբ պետք է փորձարկենք ոչ թերարժեքության վարկածը:

Այսինքն, եթե ձեր խմբում ունեք 2103 դիտարկում, կարող եք 90%-ով վստահ լինել, որ կգտնեք 0,10 կամ ավելի մեծ էֆեկտի չափ: Բայց եթե 0,10-ը ձեզ համար չափազանց բարձր է, գուցե չարժե փորձարկել գերազանցության վարկածը: Ապահով լինելու համար դուք կարող եք որոշել ուսումնասիրությունն իրականացնել ավելի փոքր էֆեկտի չափի համար, օրինակ՝ 0,05: Այս դեպքում ձեզ անհրաժեշտ կլինի 8407 դիտարկում, այսինքն՝ նմուշը կավելանա գրեթե 4 անգամ։ Բայց ի՞նչ, եթե մենք հավատարիմ մնանք մեր սկզբնական նմուշի չափին, բայց հզորությունը բարձրացնեինք մինչև 0,99, որպեսզի ապահով լինենք, եթե դրական արդյունք ստանանք: Այս դեպքում մեկ խմբի համար n-ը կլինի 3676, որն արդեն ավելի լավ է, բայց ընտրանքի չափը մեծացնում է ավելի քան 50%-ով։ Եվ արդյունքում մենք դեռ պարզապես չենք կարողանա հերքել զրոյական վարկածը, և չենք ստանա մեր հարցի պատասխանը։

Իսկ եթե դրա փոխարեն փորձարկեինք ոչ թերարժեքության վարկածը:

Ե՞րբ պետք է փորձարկենք ոչ թերարժեքության վարկածը:

Նմուշի չափը կհաշվարկվի նույն բանաձևով, բացառությամբ հայտարարի:
Գերազանցության վարկածը ստուգելու համար օգտագործվող բանաձևի տարբերությունները հետևյալն են.

— Z1−α/2-ը փոխարինվում է Z1−α-ով, բայց եթե ամեն ինչ անում եք ըստ կանոնների, ապա α = 0,05-ը փոխարինում եք α = 0,025-ով, այսինքն՝ դա նույն թիվն է (1,96)

— (μB−μA) հայտնվում է հայտարարում

— θ (ազդեցության չափը) փոխարինվում է Δ-ով (ոչ թերարժեքության սահման)

Եթե ​​մենք ենթադրենք, որ µB = µA, ապա (µB − µA) = 0, և ընտրանքի չափի հաշվարկը ոչ թերարժեքության սահմանի համար հենց այն է, ինչ մենք կստանանք, եթե գերազանցությունը հաշվարկենք 0,1 էֆեկտի չափի համար, հիանալի: Մենք կարող ենք նույն չափի ուսումնասիրություն կատարել տարբեր վարկածներով և եզրակացություններին տարբեր մոտեցմամբ, և կստանանք այն հարցի պատասխանը, որին իսկապես ցանկանում ենք պատասխանել։

Հիմա ենթադրենք, որ մենք իրականում չենք կարծում, որ µB = µA և
Մենք կարծում ենք, որ μB-ն մի փոքր ավելի վատ է, գուցե 0,01 միավորով: Սա մեծացնում է մեր հայտարարը՝ նվազեցնելով ընտրանքի չափը յուրաքանչյուր խմբի համար մինչև 1737:

Ի՞նչ է պատահում, եթե B տարբերակն իրականում ավելի լավն է, քան A տարբերակը: Մենք մերժում ենք զրոյական վարկածը, որ B-ն ավելի վատ է, քան A-ն, քան Δ-ն և ընդունում ենք այլընտրանքային վարկածը, որ B-ն, եթե ավելի վատ է, ավելի վատ չէ, քան A-ն Δ-ով և կարող է ավելի լավը լինել: Փորձեք այս եզրակացությունը դնել խաչաձև ֆունկցիոնալ ներկայացման մեջ և տեսեք, թե ինչ է տեղի ունենում (լուրջ, փորձեք այն): Հեռանկարային իրավիճակում ոչ ոք չի ցանկանում բավարարվել «ոչ ավելի, քան Δ-ից ավելի վատ, և գուցե ավելի լավ»:

Այս դեպքում մենք կարող ենք կատարել ուսումնասիրություն, որը կոչվում է շատ համառոտ «տարբերակներից մեկի գերակայության կամ զիջման վարկածի փորձարկում»: Այն օգտագործում է վարկածների երկու խումբ.

Առաջին հավաքածու (նույնը, ինչ ոչ թերարժեքության վարկածի փորձարկումը).

Ե՞րբ պետք է փորձարկենք ոչ թերարժեքության վարկածը:

Երկրորդ հավաքածու (նույնը, ինչ գերազանցության վարկածը ստուգելիս).

Ե՞րբ պետք է փորձարկենք ոչ թերարժեքության վարկածը:

Մենք ստուգում ենք երկրորդ վարկածը միայն այն դեպքում, եթե առաջինը մերժվի: Հերթականորեն փորձարկելիս մենք պահպանում ենք ընդհանուր տիպի I սխալի մակարդակը (α): Գործնականում դրան կարելի է հասնել՝ ստեղծելով 95% վստահության միջակայք՝ միջոցների տարբերության և թեստավորման համար՝ որոշելու համար, թե արդյոք ամբողջ միջակայքը -Δ-ից մեծ է: Եթե ​​միջակայքը չի գերազանցում -Δ-ն, մենք չենք կարող մերժել զրոյական արժեքը և դադարեցնել: Եթե ​​ամբողջ ինտերվալն իսկապես −Δ-ից մեծ է, մենք կշարունակենք և կտեսնենք՝ արդյոք միջակայքը պարունակում է 0։

Կա մեկ այլ տեսակի հետազոտություն, որը մենք չենք քննարկել՝ համարժեքության ուսումնասիրությունները:

Այս տեսակի ուսումնասիրությունները կարող են փոխարինվել ոչ թերարժեքության ուսումնասիրություններով և հակառակը, բայց դրանք իրականում ունեն կարևոր տարբերություն: Ոչ թերարժեքության փորձարկումը նպատակ ունի ցույց տալ, որ B տարբերակը առնվազն նույնքան լավն է, որքան Ա-ն: Ըստ էության, մենք փորձում ենք պարզել, թե արդյոք միջինների տարբերության ողջ վստահության միջակայքը գտնվում է -Δ-ի և Δ-ի միջև: Նման ուսումնասիրությունները պահանջում են ավելի մեծ ընտրանքի չափ և իրականացվում են ավելի հազվադեպ: Այսպիսով, հաջորդ անգամ, երբ կանցկացնեք հետազոտություն, որի հիմնական նպատակն է ապահովել, որ նոր տարբերակն ավելի վատը չէ, մի համակերպվեք «զրոյական վարկածը չմերժելու հետ»: Եթե ​​ցանկանում եք ստուգել իսկապես կարևոր վարկածը, հաշվի առեք տարբեր տարբերակներ:

Source: www.habr.com

Добавить комментарий