Када треба да тестирамо хипотезу о неинфериорности?

Када треба да тестирамо хипотезу о неинфериорности?
Чланак тима Ститцх Фик предлаже коришћење приступа испитивања неинфериорности у маркетингу и А/Б тестовима производа. Овај приступ се заиста примењује када тестирамо ново решење које има предности које се не мере тестовима.

Најједноставнији пример је смањење трошкова. На пример, аутоматизујемо процес додељивања прве лекције, али не желимо да значајно смањимо конверзију од краја до краја. Или тестирамо измене које су усмерене на један сегмент корисника, а да притом пазимо да конверзије за друге сегменте не опадају много (када тестирамо неколико хипотеза, не заборавите на измене).

Избор исправне маргине неинфериорности додаје додатне изазове током фазе дизајна теста. Питање како одабрати Δ није баш добро обрађено у чланку. Чини се да ни овај избор није сасвим транспарентан у клиничким испитивањима. Преглед медицинске публикације о неинфериорности наводе да само половина публикација оправдава избор границе, а често су та оправдања двосмислена или нису детаљна.

У сваком случају, овај приступ делује занимљиво јер... смањењем потребне величине узорка може повећати брзину тестирања, а самим тим и брзину доношења одлука. — Дариа Мукхина, аналитичар производа за мобилну апликацију Скиенг.

Тим Ститцх Фик воли да тестира различите ствари. Цела технолошка заједница у принципу воли да покреће тестове. Која верзија сајта привлачи више корисника – А или Б? Да ли верзија А модела препоруке зарађује више новца од верзије Б? Да бисмо тестирали хипотезе, скоро увек користимо најједноставнији приступ из основног курса статистике:

Када треба да тестирамо хипотезу о неинфериорности?

Иако ретко користимо термин, овај облик тестирања се назива „тестирање хипотезе супериорности“. Овим приступом претпостављамо да нема разлике између ове две опције. Остајемо при овој идеји и напуштамо је само ако су подаци довољно убедљиви да то урадимо – то јест, показују да је једна од опција (А или Б) боља од друге.

Тестирање хипотезе о супериорности је погодно за разне проблеме. Објављујемо верзију Б модела препоруке само ако је очигледно боља од верзије А која се већ користи. Али у неким случајевима овај приступ не функционише тако добро. Погледајмо неколико примера.

1) Користимо услугу треће стране, који помаже у идентификацији фалсификованих банковних картица. Пронашли смо још једну услугу која кошта знатно мање. Ако јефтинија услуга функционише као она коју тренутно користимо, ми ћемо је изабрати. Не мора да буде боље од услуге коју користите.

2) Желимо да напустимо извор података А и замените га извором података Б. Могли бисмо да одложимо напуштање А ако Б даје веома лоше резултате, али није могуће наставити да користимо А.

3) Желели бисмо да пређемо са приступа моделирањуПриступ А према Б не зато што очекујемо боље резултате од Б, већ зато што нам даје већу оперативну флексибилност. Немамо разлога да верујемо да ће Б бити горе, али нећемо направити транзицију ако је тако.

4) Направили смо неколико квалитативних промена у дизајн веб странице (верзија Б) и верујемо да је ова верзија супериорнија од верзије А. Не очекујемо промене у конверзији или било ком од кључних показатеља учинка према којима обично оцењујемо веб локацију. Али верујемо да постоје предности у параметрима који су или немерљиви или наша технологија није довољна за мерење.

У свим овим случајевима истраживање супериорности није најприкладније решење. Али већина стручњака у таквим ситуацијама га подразумевано користи. Пажљиво спроводимо експеримент да бисмо правилно одредили величину ефекта. Да је тачно да верзије А и Б функционишу на веома сличан начин, постоји шанса да не бисмо успели да одбацимо нулту хипотезу. Да ли закључујемо да А и Б раде у основи исто? Не! Неодбацивање нулте хипотезе и прихватање нулте хипотезе нису иста ствар.

Прорачуни величине узорка (које сте, наравно, урадили) се обично раде са строжијим границама за грешку типа И (вероватноћа неуспеха да се одбаци нулта хипотеза, која се често назива алфа) него за грешку типа ИИ (вероватноћа неуспеха одбацивања). нулта хипотеза, под условом да је нулта хипотеза нетачна, често се назива бета). Типична вредност за алфа је 0,05, док је типична вредност за бета 0,20, што одговара статистичкој снази од 0,80. То значи да постоји 20% шансе да ћемо пропустити прави ефекат количине коју смо навели у нашим прорачунима снаге, а то је прилично озбиљан јаз у информацијама. Као пример, размотримо следеће хипотезе:

Када треба да тестирамо хипотезу о неинфериорности?

Х0: мој ранац НИЈЕ у мојој соби (3)
Х1: мој ранац је у мојој соби (4)

Ако сам претражио своју собу и нашао свој ранац, одлично, могу одбацити нулту хипотезу. Али ако сам погледао по соби и нисам могао да нађем свој ранац (слика 1), какав закључак да извучем? Да ли сам сигуран да није тамо? Да ли сам изгледао довољно тешко? Шта ако сам претражио само 80% собе? Закључак да ранац дефинитивно није у соби била би непромишљена одлука. Није ни чудо што не можемо да „прихватимо нулту хипотезу“.
Када треба да тестирамо хипотезу о неинфериорности?
Подручје које смо претраживали
Нисмо пронашли ранац - да ли да прихватимо нулту хипотезу?

Слика 1: Претраживање 80% собе је отприлике исто као и претраживање са 80% снаге. Ако не пронађете ранац након што сте прегледали 80% собе, можете ли закључити да га нема?

Шта би онда научник података требало да уради у овој ситуацији? Можете знатно повећати снагу студије, али тада ће вам бити потребна много већа величина узорка и резултат ће и даље бити незадовољавајући.

На срећу, такви проблеми су дуго проучавани у свету клиничких истраживања. Лек Б је јефтинији од лека А; Очекује се да ће лек Б изазвати мање нежељених ефеката од лека А; лек Б је лакши за транспорт јер га не треба хладити, али лек А јесте. Хајде да тестирамо хипотезу неинфериорности. Ово треба да покаже да је верзија Б једнако добра као и верзија А—бар унутар неке унапред дефинисане маргине неинфериорности, Δ. О томе како поставити ову границу ћемо више разговарати мало касније. Али за сада претпоставимо да је ово најмања разлика која је практично значајна (у контексту клиничких испитивања, то се обично назива клинички значај).

Хипотезе о неинфериорности окрећу све наопачке:

Када треба да тестирамо хипотезу о неинфериорности?

Сада, уместо да претпоставимо да нема разлике, претпоставићемо да је верзија Б гора од верзије А, и остаћемо при овој претпоставци док не покажемо да то није случај. Управо је ово тренутак када има смисла користити једнострано тестирање хипотеза! У пракси, то се може урадити конструисањем интервала поверења и утврђивањем да ли је интервал заиста већи од Δ (слика 2).
Када треба да тестирамо хипотезу о неинфериорности?

Изаберите Δ

Како одабрати прави Δ? Процес селекције Δ укључује статистичку оправданост и суштинску евалуацију. У свету клиничких истраживања, постоје регулаторне смернице које налажу да делта треба да представља најмању клинички значајну разлику – ону која ће направити разлику у пракси. Ево цитата из европских смерница да се тестирате: „Ако је разлика изабрана исправно, интервал поверења који се налази у потпуности између –∆ и 0… је и даље довољан да покаже неинфериорност. Ако се овај резултат не чини прихватљивим, то значи да ∆ није одабран на одговарајући начин.”

Делта дефинитивно не би требало да пређе величину ефекта верзије А у односу на праву контролу (плацебо/без третмана), јер то нас наводи да кажемо да је верзија Б гора од праве контроле, док истовремено показује „неинфериорност .” Претпоставимо да је када је уведена верзија А замењена верзијом 0 или та функција уопште није постојала (види слику 3).

На основу резултата тестирања хипотезе супериорности, откривена је величина ефекта Е (тј. вероватно μ^А−μ^0=Е). Сада је А наш нови стандард и желимо да будемо сигурни да је Б једнако добар као А. Други начин да се запише μБ−μА≤−Δ (нулта хипотеза) је μБ≤μА−Δ. Ако претпоставимо да је до једнак или већи од Е, онда је μБ ≤ μА−Е ≤ плацебо. Сада видимо да наша процена за μБ у потпуности премашује μА−Е, што у потпуности одбацује нулту хипотезу и омогућава нам да закључимо да је Б једнако добар као и А, али у исто време μБ може бити ≤ μ плацебо, што није случај.шта нам треба. (слика 3).

Када треба да тестирамо хипотезу о неинфериорности?
Слика 3. Демонстрација ризика избора маргине неинфериорности. Ако је граница превисока, може се закључити да Б није инфериоран у односу на А, али се у исто време не разликује од плацеба. Нећемо заменити лек који је очигледно ефикаснији од плацеба (А) за лек који је ефикасан као плацебо.

Избор α

Пређимо на избор α. Можете користити стандардну вредност α = 0,05, али то није сасвим поштено. Као, на пример, када купите нешто на мрежи и користите неколико кодова за попуст одједном, иако их не треба комбиновати - програмер је само направио грешку, а ви сте се извукли. Према правилима, вредност α треба да буде једнака половини вредности α која се користи при тестирању хипотезе супериорности, односно 0,05 / 2 = 0,025.

Величина узорка

Како проценити величину узорка? Ако верујете да је права средња разлика између А и Б 0, онда је израчунавање величине узорка исто као и када се тестира хипотеза супериорности, осим што замените величину ефекта маргином неинфериорности, под условом да користите αнеинфериорна ефикасност = 1/2αсупериорност (αнеинфериорност=1/2αсупериорност). Ако имате разлога да верујете да би опција Б могла бити нешто гора од опције А, али желите да докажете да је гора за не више од Δ, онда имате среће! Ово заправо смањује величину вашег узорка јер је лакше показати да је Б лошији од А ако заправо мислите да је нешто лошији него једнак.

Пример са решењем

Рецимо да желите да надоградите на верзију Б, под условом да није за више од 0,1 поен лошија од верзије А на скали задовољства купаца од 5 поена... Хајде да приступимо овом проблему користећи хипотезу супериорности.

Да бисмо тестирали хипотезу о супериорности, израчунали бисмо величину узорка на следећи начин:

Када треба да тестирамо хипотезу о неинфериорности?

То јест, ако имате 2103 запажања у вашој групи, можете бити 90% сигурни да ћете пронаћи величину ефекта од 0,10 или више. Али ако је 0,10 превисоко за вас, можда није вредно тестирања хипотезе о супериорности. Да бисте били сигурни, можете одлучити да покренете студију за мању величину ефекта, као што је 0,05. У овом случају ће вам требати 8407 запажања, односно узорак ће се повећати скоро 4 пута. Али шта ако се задржимо на оригиналној величини узорка, али повећамо снагу на 0,99 како бисмо били сигурни ако добијемо позитиван резултат? У овом случају, н за једну групу биће 3676, што је већ боље, али повећава величину узорка за више од 50%. И као резултат тога, ми и даље једноставно нећемо моћи да оповргнемо нулту хипотезу и нећемо добити одговор на наше питање.

Шта ако бисмо уместо тога тестирали хипотезу о неинфериорности?

Када треба да тестирамо хипотезу о неинфериорности?

Величина узорка ће се израчунати користећи исту формулу осим имениоца.
Разлике у односу на формулу која се користи за тестирање хипотезе о супериорности су следеће:

— З1−α/2 се замењује са З1−α, али ако све радите по правилима, замењујете α = 0,05 са α = 0,025, односно то је исти број (1,96)

— (μБ−μА) се појављује у имениоцу

— θ (величина ефекта) се замењује са Δ (маргина неинфериорности)

Ако претпоставимо да је µБ = µА, онда је (µБ − µА) = 0 и израчунавање величине узорка за маргину неинфериорности је управо оно што бисмо добили ако бисмо израчунали супериорност за величину ефекта од 0,1, одлично! Можемо да урадимо студију исте величине са различитим хипотезама и другачијим приступом закључцима и добићемо одговор на питање на које заиста желимо да одговоримо.

Претпоставимо сада да заправо не мислимо да је µБ = µА и
Мислимо да је µБ мало лошији, можда за 0,01 јединицу. Ово повећава наш именилац, смањујући величину узорка по групи на 1737.

Шта се дешава ако је верзија Б заправо боља од верзије А? Одбацујемо нулту хипотезу да је Б гори од А за више од Δ и прихватамо алтернативну хипотезу да Б, ако је лошији, није гори од А за Δ и да може бити бољи. Покушајте да овај закључак ставите у међуфункционалну презентацију и видите шта ће се десити (озбиљно, покушајте). У ситуацији која гледа у будућност, нико не жели да се задовољи са „не више од Δ горе, а можда и боље“.

У овом случају можемо да спроведемо студију, која се врло кратко зове „тестирање хипотезе да је једна од опција супериорна или инфериорна у односу на другу“. Користи два скупа хипотеза:

Први сет (исто као тестирање хипотезе о неинфериорности):

Када треба да тестирамо хипотезу о неинфериорности?

Други сет (исто као када се тестира хипотеза о супериорности):

Када треба да тестирамо хипотезу о неинфериорности?

Проверавамо другу хипотезу само ако је прва одбачена. Када тестирамо узастопно, одржавамо укупну стопу грешке типа И (α). У пракси, ово се може постићи стварањем интервала поузданости од 95% за разлику између средње вредности и тестирања да би се утврдило да ли је цео интервал већи од -Δ. Ако интервал не прелази -Δ, не можемо одбацити нулту вредност и зауставити се. Ако је цео интервал заиста већи од −Δ, наставићемо и видети да ли интервал садржи 0.

Постоји још једна врста истраживања о којој нисмо разговарали – студије еквиваленције.

Ове врсте студија могу се заменити студијама неинфериорности и обрнуто, али оне заправо имају важну разлику. Испитивање неинфериорности има за циљ да покаже да је опција Б барем једнако добра као А. Испитивање еквивалентности има за циљ да покаже да је опција Б барем једнако добра као А. Опција А је добра као Б, што је теже. У суштини, покушавамо да утврдимо да ли цео интервал поверења за разлику средњих вредности лежи између −Δ и Δ. Такве студије захтевају већи узорак и спроводе се ређе. Дакле, следећи пут када будете спроводили студију у којој је ваш главни циљ да осигурате да нова верзија није гора, немојте се задовољити са „неуспехом да одбаците нулту хипотезу“. Ако желите да тестирате заиста важну хипотезу, размотрите различите опције.

Извор: ввв.хабр.цом

Додај коментар