Кога треба да ја тестираме хипотезата за неинфериорност?

Кога треба да ја тестираме хипотезата за неинфериорност?
Една статија од тимот на Stitch Fix сугерира користење на пристапот на испитувања на неинфериорност во маркетингот и A/B тестовите на производот. Овој пристап навистина се применува кога тестираме ново решение кое има придобивки што не се мерат со тестови.

Наједноставниот пример е намалувањето на трошоците. На пример, го автоматизираме процесот на доделување на првата лекција, но не сакаме значително да ја намалиме конверзијата од крај до крај. Или тестираме промени кои се наменети за еден сегмент од корисници, притоа внимавајќи конверзиите за други сегменти да не опаѓаат многу (при тестирање на неколку хипотези, не заборавајте за измените).

Изборот на точната маргина на не-инфериорност додава дополнителни предизвици за време на фазата на дизајнирање на тестот. Прашањето како да се избере Δ не е многу добро опфатено во статијата. Се чини дека овој избор не е целосно транспарентен ниту во клиничките испитувања. Преглед медицинските публикации за неинфериорност известуваат дека само половина од публикациите го оправдуваат изборот на граница, и често овие оправдувања се двосмислени или не се детални.

Во секој случај, овој пристап изгледа интересен бидејќи ... со намалување на потребната големина на примерокот, може да се зголеми брзината на тестирање, а со тоа и брзината на донесување одлуки. - Дарија Мухина, аналитичар на производи за мобилната апликација Skyeng.

Тимот на Stitch Fix сака да тестира различни работи. Целата технолошка заедница во принцип сака да спроведува тестови. Која верзија на страницата привлекува повеќе корисници - А или Б? Дали верзијата А на моделот за препораки заработува повеќе од верзијата Б? За да ги тестираме хипотезите, речиси секогаш го користиме наједноставниот пристап од основниот курс за статистика:

Кога треба да ја тестираме хипотезата за неинфериорност?

Иако ретко го користиме терминот, оваа форма на тестирање се нарекува „тестирање на хипотеза за супериорност“. Со овој пристап, претпоставуваме дека нема разлика помеѓу двете опции. Ние се држиме до оваа идеја и ја напуштаме само ако податоците се доволно привлечни за да го сториме тоа - односно, покажува дека една од опциите (А или Б) е подобра од другата.

Тестирањето на хипотезата за супериорност е погодно за различни проблеми. Ја издаваме верзијата Б на моделот за препораки само ако е јасно подобра од верзијата А што веќе се користи. Но, во некои случаи, овој пристап не функционира толку добро. Ајде да погледнеме неколку примери.

1) Ние користиме услуга од трета страна, што помага да се идентификуваат фалсификуваните банкарски картички. Најдовме друга услуга која чини значително помалку. Доколку некоја поевтина услуга работи добро како онаа што моментално ја користиме, ќе ја избереме. Не мора да биде подобар од услугата што ја користите.

2) Сакаме да го напуштиме изворот на податоци А и заменете го со извор на податоци Б. Можеме да го одложиме напуштањето на А ако Б дава многу лоши резултати, но не е можно да продолжиме да го користиме А.

3) Би сакале да се преселиме од пристапот на моделирањеПристапот на А до Б не затоа што очекуваме подобри резултати од Б, туку затоа што ни дава поголема оперативна флексибилност. Немаме причина да веруваме дека Б ќе биде полошо, но нема да направиме транзиција ако е така.

4) Направивме неколку квалитативни промени во дизајнот на веб-локацијата (верзија Б) и верувајте дека оваа верзија е супериорна во однос на верзијата А. Не очекуваме промени во конверзијата или некој од клучните индикатори за изведба со кои вообичаено оценуваме веб-локација. Но, ние веруваме дека има придобивки во параметрите кои се или немерливи или нашата технологија не е доволна за мерење.

Во сите овие случаи, истражувањето на супериорноста не е најсоодветното решение. Но, повеќето специјалисти во такви ситуации го користат стандардно. Ние внимателно го спроведуваме експериментот за правилно да ја одредиме големината на ефектот. Ако е точно дека верзиите А и Б работат на многу слични начини, постои шанса да не успееме да ја отфрлиме нултата хипотеза. Дали заклучуваме дека А и Б работат во основа исто? Не! Неуспехот да се отфрли нултата хипотеза и прифаќањето на нултата хипотеза не се иста работа.

Пресметките на големината на примерокот (што, се разбира, сте го направиле) обично се прават со построги граници за грешка од тип I (веројатноста да не се отфрли нултата хипотеза, честопати наречена алфа) отколку за грешка од тип II (веројатноста да не се одбие нултата хипотеза, со оглед на условот дека нултата хипотеза е лажна, често наречена бета). Типичната вредност за алфа е 0,05, додека типичната вредност за бета е 0,20, што одговара на статистичка моќност од 0,80. Ова значи дека има 20% шанси да го пропуштиме вистинскиот ефект на количината што ја наведовме во пресметките за моќност, а тоа е прилично сериозен јаз во информациите. Како пример, да ги разгледаме следните хипотези:

Кога треба да ја тестираме хипотезата за неинфериорност?

H0: мојот ранец НЕ е во мојата соба (3)
H1: мојот ранец е во мојата соба (4)

Ако ја пребарав мојата соба и го најдов мојот ранец, одлично, можам да ја отфрлам нултата хипотеза. Но, ако погледнав низ собата и не го најдам мојот ранец (слика 1), каков заклучок треба да извлечам? Дали сум сигурен дека не е таму? Дали погледнав доволно напорно? Што ако пребарав само 80% од собата? Да се ​​заклучи дека ранецот дефинитивно не е во собата, би било избрзана одлука. Не е ни чудо што не можеме да „ја прифатиме нултата хипотеза“.
Кога треба да ја тестираме хипотезата за неинфериорност?
Областа што ја баравме
Не го најдовме ранецот - дали треба да ја прифатиме нултата хипотеза?

Слика 1: Пребарувањето на 80% од просторијата е приближно исто како и пребарувањето со моќност од 80%. Ако не го најдете ранецот откако ќе погледнете 80% од собата, можете ли да заклучите дека го нема?

Значи, што треба да направи научникот за податоци во оваа ситуација? Можете значително да ја зголемите моќта на студијата, но тогаш ќе ви треба многу поголема големина на примерокот и резултатот сепак ќе биде незадоволителен.

За среќа, ваквите проблеми долго време се проучувани во светот на клиничките истражувања. Лекот Б е поевтин од лекот А; Лекот Б се очекува да предизвика помалку несакани ефекти од лекот А; Лекот Б е полесен за транспорт бидејќи не треба да се чува во фрижидер, но лекот А има потреба. Да ја тестираме хипотезата за неинфериорност. Ова е за да покаже дека верзијата Б е исто толку добра како и верзијата А - барем во рамките на одредена предефинирана маргина на неинфериорност, Δ. Ќе разговараме повеќе за тоа како да ја поставите оваа граница малку подоцна. Но, засега да претпоставиме дека ова е најмалата разлика што е практично значајна (во контекст на клиничките испитувања, ова обично се нарекува клиничко значење).

Хипотезите за неинфериорност свртуваат сè на глава:

Кога треба да ја тестираме хипотезата за неинфериорност?

Сега, наместо да претпоставуваме дека нема разлика, ќе претпоставиме дека верзијата Б е полоша од верзијата А, и ќе се држиме до оваа претпоставка додека не покажеме дека тоа не е така. Ова е токму моментот кога има смисла да се користи еднострано тестирање на хипотези! Во пракса, тоа може да се направи со конструирање на интервал на доверба и одредување дали интервалот е всушност поголем од Δ (Слика 2).
Кога треба да ја тестираме хипотезата за неинфериорност?

Изберете Δ

Како да го изберете вистинскиот Δ? Процесот на избор на Δ вклучува статистичка оправданост и суштинска евалуација. Во светот на клиничкото истражување, постојат регулаторни упатства кои диктираат дека делта треба да претставува најмала клинички значајна разлика - онаа што ќе направи разлика во пракса. Еве еден цитат од европските насоки со кои треба да се тестирате: „Ако разликата е правилно избрана, интервалот на доверба кој целосно се наоѓа помеѓу –∆ и 0… сепак е доволен за да се покаже неинфериорност. Ако овој резултат не изгледа прифатлив, тоа значи дека ∆ не е соодветно избрано“.

Делта дефинитивно не треба да ја надмине големината на ефектот на верзијата А во однос на вистинската контрола (плацебо/без третман), бидејќи тоа нè наведува да кажеме дека верзијата Б е полоша од вистинската контрола, а во исто време демонстрира „неинфериорност .“ Да претпоставиме дека кога беше претставена верзијата А, таа беше заменета со верзијата 0 или функцијата воопшто не постоеше (види Слика 3).

Врз основа на резултатите од тестирањето на хипотезата за супериорност, беше откриена големината на ефектот E (односно, веројатно μ^A−μ^0=E). Сега А е нашиот нов стандард и сакаме да се увериме дека Б е исто толку добар како А. Друг начин да се напише μB−μA≤−Δ (нулта хипотеза) е μB≤μA−Δ. Ако претпоставиме дека do е еднакво или поголемо од E, тогаш μB ≤ μA−E ≤ плацебо. Сега гледаме дека нашата проценка за μB целосно ја надминува μA−E, што со тоа целосно ја отфрла нултата хипотеза и ни овозможува да заклучиме дека Б е исто толку добар како А, но во исто време μB може да биде ≤ μ плацебо, што не е случај.што ни треба. (Слика 3).

Кога треба да ја тестираме хипотезата за неинфериорност?
Слика 3. Демонстрација на ризиците од изборот на маржа на неинфериорност. Ако прекинот е превисок, може да се заклучи дека Б не е инфериорен во однос на А, но во исто време не се разликува од плацебо. Ние нема да размениме лек кој е очигледно поефикасен од плацебо (А) за лек кој е исто толку ефикасен како плацебо.

Избор на α

Ајде да продолжиме со изборот на α. Можете да ја користите стандардната вредност α = 0,05, но ова не е сосема фер. Како, на пример, кога купувате нешто онлајн и користите неколку шифри за попуст одеднаш, иако тие не треба да се комбинираат - програмерот само направи грешка, а вие се извлечете со тоа. Според правилата, вредноста на α треба да биде еднаква на половина од вредноста на α што се користи при тестирање на хипотезата за супериорност, односно 0,05 / 2 = 0,025.

Големина на примерокот

Како да се процени големината на примерокот? Ако мислите дека вистинската средна разлика помеѓу А и Б е 0, тогаш пресметката на големината на примерокот е иста како при тестирањето на хипотезата за супериорност, освен што ја заменувате големината на ефектот со маргината на неинфериорност, под услов да користите α-неинфериорна ефикасност = 1/2αсупериорност (αnon-inferiority=1/2αsuperiority). Ако имате причина да верувате дека опцијата Б може да биде малку полоша од опцијата А, но сакате да докажете дека е полоша за не повеќе од Δ, тогаш имате среќа! Ова всушност ја намалува големината на вашиот примерок затоа што е полесно да се докаже дека Б е полош од А ако всушност мислите дека е малку полош наместо еднаков.

Пример со решение

Да речеме дека сакате да ја надградите верзијата Б, под услов да не е за повеќе од 0,1 поен полоша од верзијата А на скалата на задоволството на клиентите од 5 точки... Да му пристапиме на овој проблем користејќи ја хипотезата за супериорност.

За да ја тестираме хипотезата за супериорност, би ја пресметале големината на примерокот на следниов начин:

Кога треба да ја тестираме хипотезата за неинфериорност?

Односно, ако имате 2103 набљудувања во вашата група, можете да бидете 90% сигурни дека ќе најдете големина на ефектот од 0,10 или поголема. Но, ако 0,10 е превисоко за вас, можеби не вреди да се тестира хипотезата за супериорност. За да бидете на безбедна страна, можеби ќе одлучите да ја извршите студијата за помала големина на ефектот, како што е 0,05. Во овој случај, ќе ви требаат 8407 набљудувања, односно примерокот ќе се зголеми речиси 4 пати. Но, што ако се држиме до нашата оригинална големина на примерокот, но ја зголемиме моќноста на 0,99 за да бидеме безбедни ако добиеме позитивен резултат? Во овој случај, n за една група ќе биде 3676, што е веќе подобро, но ја зголемува големината на примерокот за повеќе од 50%. И како резултат на тоа, ние сè уште едноставно нема да можеме да ја побиеме нултата хипотеза и нема да добиеме одговор на нашето прашање.

Што ако наместо тоа ја тестираме хипотезата за неинфериорност?

Кога треба да ја тестираме хипотезата за неинфериорност?

Големината на примерокот ќе се пресметува со користење на истата формула освен именителот.
Разликите од формулата што се користи за тестирање на хипотезата за супериорност се како што следува:

— Z1−α/2 се заменува со Z1−α, но ако правиш сè според правилата, а = 0,05 го заменуваш со α = 0,025, односно тоа е истиот број (1,96)

— (μB−μA) се појавува во именителот

— θ (големина на ефектот) се заменува со Δ (маргина на неинфериорност)

Ако претпоставиме дека µB = µA, тогаш (µB - µA) = 0 и пресметката на големината на примерокот за маргината на неинфериорност е токму она што ќе го добиеме ако ја пресметаме супериорноста за големина на ефектот од 0,1, одлично! Можеме да направиме студија со иста големина со различни хипотези и различен пристап кон заклучоците и ќе го добиеме одговорот на прашањето на кое навистина сакаме да одговориме.

Сега да претпоставиме дека всушност не мислиме дека µB = µA и
Сметаме дека µB е малку полошо, можеби за 0,01 единици. Ова го зголемува нашиот именител, намалувајќи ја големината на примерокот по група на 1737.

Што се случува ако верзијата Б е всушност подобра од верзијата А? Ја отфрламе нултата хипотеза дека Б е полош од А за повеќе од Δ и ја прифаќаме алтернативната хипотеза дека Б, ако е полош, не е полош од А за Δ и може да биде подобар. Обидете се да го ставите овој заклучок во вкрстена функционална презентација и видете што ќе се случи (сериозно, обидете се). Во ситуација која гледа напред, никој не сака да се задоволи со „не повеќе од Δ полошо, а можеби и подобро“.

Во овој случај, можеме да спроведеме студија, која се нарекува многу кратко „тестирање на хипотезата дека една од опциите е супериорна или инфериорна во однос на другата“. Користи две групи хипотези:

Првиот сет (исто како и тестирањето на хипотезата за неинфериорност):

Кога треба да ја тестираме хипотезата за неинфериорност?

Втор сет (исто како при тестирање на хипотезата за супериорност):

Кога треба да ја тестираме хипотезата за неинфериорност?

Ја тестираме втората хипотеза само ако првата е отфрлена. При секвенцијално тестирање, ја одржуваме вкупната стапка на грешка од тип I (α). Во пракса, ова може да се постигне со создавање интервал на доверба од 95% за разликата помеѓу средствата и тестирањето за да се утврди дали целиот интервал е поголем од -Δ. Ако интервалот не надминува -Δ, не можеме да ја одбиеме нултата вредност и да застанеме. Ако целиот интервал е навистина поголем од -Δ, ќе продолжиме и ќе видиме дали интервалот содржи 0.

Постои уште еден вид на истражување за кој не сме разговарале - студии за еквивалентност.

Овие типови на студии може да се заменат со студии за неинфериорност и обратно, но тие всушност имаат важна разлика. Испитувањето за неинфериорност има за цел да покаже дека опцијата Б е барем добра како А. Испитувањето за еквивалентност има за цел да покаже дека опцијата Б е барем добра како А. Опцијата А е добра како Б, што е потешко. Во суштина, ние се обидуваме да утврдиме дали целиот интервал на доверба за разликата во средствата лежи помеѓу -Δ и Δ. Ваквите студии бараат поголема големина на примерокот и се спроведуваат поретко. Затоа, следниот пат кога ќе спроведете студија во која вашата главна цел е да се осигурате дека новата верзија не е полоша, не се задоволувајте со „неуспехот да ја отфрлите нултата хипотеза“. Ако сакате да тестирате навистина важна хипотеза, разгледајте различни опции.

Извор: www.habr.com

Додадете коментар