Калі варта правяраць гіпотэзу аб не меншай эфектыўнасці?

Калі варта правяраць гіпотэзу аб не меншай эфектыўнасці?
Артыкул ад каманды Stitch Fix прапануе выкарыстоўваць падыход клінічных даследаванняў не меншай эфектыўнасці (non-inferiority trials) у маркетынгавых і прадуктовых A / B тэстах. Такі падыход сапраўды прымянім, калі мы тэстуем новае рашэнне, якое мае перавагі, якія не вымяраюцца тэстамі.

Самы просты прыклад - зніжэнне костаў. Напрыклад, аўтаматызуем працэс прызначэння першага ўрока, але не жадаем моцна выпусціць скразную канверсію. Ці тэстуем змены, якія арыентаваны на адзін сегмент карыстачоў, пры гэтым сочым, каб канверсіі па іншых сегментах аселі не моцна (пры тэставанні некалькіх гіпотэз не забываем пра папраўкі).

Выбар правільнай мяжы не меншай эфектыўнасці дадае дадатковыя цяжкасці на этапе дызайну цеста. Пытанне, як выбіраць Δ у артыкуле не вельмі добра раскрыты. Падаецца, што гэты выбар не да канца празрысты і ў клінічных выпрабаваннях. Агляд медыцынскіх публікацый па non-inferiority паведамляе, што толькі ў палове публікацый выбар мяжы абгрунтоўваецца і часта гэтыя абгрунтаванні неадназначныя ці не падрабязныя.

У любым выпадку, гэты падыход падаецца цікавым, т.я. за кошт памяншэння неабходнага памеру выбаркі можа павялічыць хуткасць тэсціравання, а, значыць, і хуткасць прыняцця рашэнняў. - Дар'я Мухіна, прадуктовы аналітык мабільнага прыкладання Skyeng.

Каманда Stitch Fix любіць тэсціраваць розныя рэчы. Уся тэхналагічная супольнасць у прынцыпе кахае праводзіць тэсты. Якая версія сайта прыцягвае больш карыстальнікаў - A або B? Ці прыносіць версія А рэкамендацыйнай мадэлі больш грошай, чым версія B? Амаль заўсёды для праверкі гіпотэз мы выкарыстоўваем самы просты падыход з базавага курса статыстыкі:

Калі варта правяраць гіпотэзу аб не меншай эфектыўнасці?

Хоць мы рэдка выкарыстоўваем гэты тэрмін, такая форма тэсціравання называецца «праверка гіпотэзы аб перавазе». Пры такім падыходзе мы мяркуем, што паміж двума варыянтамі няма ніякай розніцы. Мы прытрымліваемся гэтай ідэі і адмаўляемся ад яе толькі ў тым выпадку, калі атрыманыя дадзеныя аказваюцца дастаткова пераканаўчымі для гэтага - гэта значыць дэманструюць, што адзін з варыянтаў (A або B) лепш, чым іншы.

Праверка гіпотэзы аб перавазе падыходзіць для вырашэння мноства праблем. Мы выпускаем У-версію рэкамендацыйнай мадэлі толькі ў тым выпадку, калі яна відавочна лепш ужо выкарыстоўванай версіі A. Але ў некаторых выпадках гэты падыход працуе не так добра. Разгледзім некалькі прыкладаў.

1) Мы выкарыстоўваем іншы сэрвіс, Які дапамагае ідэнтыфікаваць падробленыя банкаўскія карты. Мы знайшлі іншы сэрвіс, які каштуе значна менш. Калі больш танны сэрвіс працуе настолькі ж добра, як і той, што мы выкарыстоўваем зараз, мы выберам яго. Ён не абавязкова павінен быць лепш выкарыстоўванага сэрвісу.

2) Мы хочам адмовіцца ад крыніцы дадзеных A і замяніць яго на крыніцу дадзеных B. Мы маглі б адкласці адмову ад A, калі B выдае вельмі дрэнныя вынікі, але працягваць выкарыстоўваць A не ўяўляецца магчымым.

3) Мы хацелі б перайсці ад падыходу да мадэляванняA да падыходу B не таму, што мы чакаем лепшых вынікаў ад B, а таму, што гэта дае нам большую аператыўную гнуткасць. У нас няма падстаў меркаваць, што Ў будзе горш, але мы не станем ажыццяўляць пераход, калі гэта будзе так.

4) Мы ўнеслі некалькі якасных змен у дызайн вэб-сайта (версія У) і лічым, што гэтая версія пераўзыходзіць версію А. Мы не чакаем змен у канверсіі або якіх-небудзь ключавых паказчыках эфектыўнасці, па якіх мы звычайна ацэньваем вэб-сайт. Але мы лічым, што ёсць перавагі ў параметрах, якія або невымерныя, або нашых тэхналогій недастаткова для вымярэння.

Ва ўсіх гэтых выпадках даследаванне перавагі - не самае прыдатнае рашэнне. Але большасць спецыялістаў у такіх сітуацыях выкарыстоўваюць яго па змаўчанні. Мы старанна праводзім эксперымент, каб правільна вызначыць велічыню эфекту. Калі б было дакладна, што версіі A і B працуюць вельмі падобнай выявай, ёсць верагоднасць, што нам не атрымаецца адхіліць нулявую гіпотэзу. Ці робім мы выснову, што А і В у цэлым працуюць аднолькава? Не! Немагчымасць адхіліць нулявую гіпотэзу і прыняцце нулявой гіпотэзы - не адно і тое ж.

Разлікі аб'ёму выбаркі (якія вы, вядома ж, праводзілі), як правіла, праводзяцца з больш строгімі межамі для памылкі першага роду (верагоднасць памылковага адхілення нулявой гіпотэзы, часта званая альфа), чым для памылкі другога роду (верагоднасць няздольнасці адхіліць нулявую гіпотэзу, пры ўмове, што нулявая гіпотэза памылковая, часта званая бэта). Тыповае значэнне для альфа складае 0,05, тады як тыповае значэнне для бэта складае 0,20, што адпавядае статыстычнай магутнасці 0,80. Гэта азначае, што з мы можам не выявіць сапраўднае ўплыў велічыні, якую мы паказалі ў нашых разліках магутнасці, з верагоднасцю 20% і гэта даволі сур'ёзны прабел у інфармацыі. У якасці прыкладу давайце разгледзім такія гіпотэзы:

Калі варта правяраць гіпотэзу аб не меншай эфектыўнасці?

H0: мой заплечнік НЕ ў маім пакоі (3)
H1: мой заплечнік у маім пакоі (4)

Калі я абшукаў свой пакой і знайшоў свой заплечнік - выдатна, я магу адмовіцца ад нулявой гіпотэзы. Але калі я агледзеў пакой і не змог знайсці свой заплечнік (малюнак 1), якую выснову я павінен зрабіць? Ці ўпэўнены я, што яго там няма? Ці дастаткова старанна я шукаў? Што калі я абшукаў толькі 80% пакоя? Зрабіць выснову, што заплечніка сапраўды няма ў пакоі, будзе неабдуманым рашэннем. Нядзіўна, што мы не можам "прыняць нулявую гіпотэзу".
Калі варта правяраць гіпотэзу аб не меншай эфектыўнасці?
Вобласць, якую мы абшукалі
Мы не знайшлі заплечнік - ці павінны мы прыняць нулявую гіпотэзу?

Малюнак 1. Абшукаць 80% пакоя - гэта прыкладна тое ж самае, што правесці даследаванне з магутнасцю 80%. Калі вы не знайшлі заплечнік, агледзеўшы 80% пакоя, ці можна зрабіць выснову, што яго тамака няма?

Дык што ж рабіць спецыялісту па дадзеных у гэтай сітуацыі? Вы можаце моцна павялічыць магутнасць даследавання, але тады вам спатрэбіцца выбарка нашмат большага памеру, а вынік усё роўна будзе нездавальняючым.

На шчасце, такія праблемы даўно вывучаюцца ў свеце клінічных даследаванняў. Прэпарат B танней, чым прэпарат A; чакаецца, што прэпарат B будзе выклікаць менш пабочных эфектаў, чым прэпарат А; прэпарат B лягчэй транспартаваць, таму што яго не трэба захоўваць у халадзільніку, а прэпарат A - трэба. Праверым гіпотэзу аб не меншай эфектыўнасці. Гэта трэба, каб паказаць, што версія B гэтак жа добрая, як і версія A — прынамсі, у межах некаторай загадзя вызначанай мяжы "не меншай эфектыўнасці", Δ. Крыху пазней мы падрабязней пагаворым аб тым, як усталяваць гэтую мяжу. Але зараз выкажам здагадку, што гэта мінімальная розніца, якая практычна значная (у кантэксце клінічных выпрабаванняў гэта звычайна завецца клінічнай значнасцю).

Гіпотэзы аб не меншай эфектыўнасці пераварочваюць усё з ног на галаву:

Калі варта правяраць гіпотэзу аб не меншай эфектыўнасці?

Цяпер замест таго, каб меркаваць, што розніцы няма, мы мяркуем, што версія B горш, чым версія A, і мы будзем прытрымлівацца гэтага здагадкі, пакуль не прадэманструем, што гэта не так. Гэта якраз той момант, калі мае сэнс выкарыстоўваць тэсціраванне аднабаковай гіпотэзы! На практыцы гэта можна зрабіць, пабудаваўшы даверны інтэрвал і вызначыўшы, ці сапраўды інтэрвал большы, чым Δ (малюнак 2).
Калі варта правяраць гіпотэзу аб не меншай эфектыўнасці?

Выбар Δ

Як правільна выбраць Δ? Працэс выбару Δ ўключае статыстычнае абгрунтаванне і прадметную адзнаку. У свеце клінічных даследаванняў існуюць нарматыўныя рэкамендацыі, з якіх вынікае, што дэльта павінна ўяўляць сабой найменшую клінічна значнае адрозненне - такое, якое будзе мець значэнне на практыцы. Вось вынятка з еўрапейскага кіраўніцтва, з дапамогай якой можна сябе праверыць: «Калі розніца была абрана правільна, даверны інтэрвал, які цалкам ляжыць паміж –∆ і 0…, усё яшчэ дастатковы для дэманстрацыі не меншай эфектыўнасці. Калі гэты вынік не здаецца прымальным, гэта азначае, што ∆ не быў абраны належным чынам».

Дэльта вызначана не павінна перавышаць велічыню эфекту версіі A у адносінах да сапраўднага кантролю (плацебо / адсутнасць лячэння), паколькі гэта прыводзіць нас да таго, то версія B горш, чым праўдзівы кантроль, і ў той жа час дэманструе "не меншую эфектыўнасць". Выкажам здагадку, што калі была прадстаўлена версія A, на яе месцы была версія 0 ці функцыя наогул не існавала (гл. малюнак 3).

Па выніках праверкі гіпотэзы аб перавазе была выяўлена велічыня эфекту E (гэта значыць, як мяркуецца, μ^A−μ^0=E). Цяпер А - наш новы стандарт, і мы хочам пераканацца, што У не саступае А. Яшчэ адзін спосаб запісаць μB−μA≤−Δ (нулявая гіпотэза) – μB≤μA−Δ. Калі мы дапусцім, што рабіць роўная або перавышае E, то μB ≤ μA−E ≤ плацебо. Цяпер мы бачым, што наша ацэнка для μB цалкам перавышае μA−E, што тым самым цалкам абвяргае нулявую гіпотэзу і дазваляе зрабіць выснову, што У не саступае А, але ў той жа час μB можа быць ≤ μ плацебо, а гэта не тое, што нам трэба. (малюнак 3).

Калі варта правяраць гіпотэзу аб не меншай эфектыўнасці?
Малюнак 3. Дэманстрацыя рызык выбару мяжы не меншай эфектыўнасці. Калі мяжа занадта вялікі, можна зрабіць выснову, што B не саступае A, але ў той жа час неадрозны ад плацебо. Мы не станем мяняць прэпарат, які відавочна больш эфектыўна плацебо (А), на прэпарат, які мае такую ​​ж эфектыўнасць, што і плацебо.

Выбар α

Пяройдзем да выбару α. Можна выкарыстоўваць стандартнае значэнне α = 0,05, але гэта не зусім сумленна. Як, напрыклад, калі вы купляеце нешта ў інтэрнэце і выкарыстоўваеце адразу некалькі кодаў на зніжку, хоць яны не павінны сумавацца - проста распрацоўшчык дапусціў памылку, а вам гэта сышло з рук. Па правілах значэнне α павінна быць роўна палове значэння α, якое выкарыстоўваецца пры праверцы гіпотэзы аб перавазе, гэта значыць 0,05 / 2 = 0,025.

Памер выбаркі

Як ацаніць памер выбаркі? Калі вы лічыце, што сапраўднае розніцы сярэдніх паміж A і B роўна 0, тады разлік памеру выбаркі будзе такім жа, як і пры праверцы гіпотэзы аб перавазе, за выключэннем таго, што вы замяняеце памер эфекту мяжой не меншай эфектыўнасці, пры ўмове, што вы карыстаецеся αне меншая эфектыўнасць = 1/2αперавага (αnon-inferiority=1/2αsuperiority). Калі ў вас ёсць падставы меркаваць, што варыянт B можа быць крыху горш, чым варыянт A, але вы хочаце даказаць, што ён горш не больш чым на Δ, тады вам пашанцавала! Фактычна гэта памяншае памер вашай выбаркі, таму што лягчэй прадэманстраваць, што B горш, чым A, калі вы на самой справе лічыце, што ён крыху горш, а не раўнацэнны.

Прыклад з рашэннем

Выкажам здагадку, вы жадаеце перайсці на версію Ў пры ўмове, што яна горш версіі А не больш за на 0,1 пункта па 5-бальнай шкале задаволенасці кліентаў… Падыдзем да гэтай задачы, выкарыстоўваючы гіпотэзу аб перавазе.

Для праверкі гіпотэзы аб перавазе мы б разлічвалі памер выбаркі наступным чынам:

Калі варта правяраць гіпотэзу аб не меншай эфектыўнасці?

Гэта значыць, калі ў вас у групе будзе 2103 назіранні, вы можаце быць на 90% упэўненыя, што выявіце эфект велічынёй 0,10 або больш. Але калі значэнне 0,10 для вас занадта вялікае, магчыма, не варта для яго правяраць гіпотэзу аб перавазе. Магчыма, для надзейнасці вы вырашыце правесці даследаванне для меншага памеру эфекту, напрыклад 0,05. У гэтым выпадку вам спатрэбіцца 8407 назіранняў, гэта значыць выбарка павялічыцца амаль у 4 разы. Але што, калі мы будзем прытрымлівацца нашага зыходнага памеру выбаркі, але павялічым магутнасць да 0,99, каб мы не сумняваліся, калі атрымаем станоўчы вынік? У такім разе n для адной групы складзе 3676, што ўжо лепш, але павялічвае памер выбаркі больш за на 50 %. І ў выніку мы ўсё роўна проста не зможам абвергнуць нулявую гіпотэзу, а не атрымаем адказ на сваё пытанне.

Што калі замест гэтага мы праверым гіпотэзу аб не меншай эфектыўнасці?

Калі варта правяраць гіпотэзу аб не меншай эфектыўнасці?

Памер выбаркі будзе разлічваць па такой жа формуле за выключэннем назоўніка.
Адрозненні ад формулы, якая выкарыстоўваецца пры праверцы гіпотэзы аб перавазе, заключаюцца ў наступным:

— Z1−α/2 замяняецца на Z1−α, але калі вы робіце ўсё па правілах, вы замяняеце α = 0,05 на α = 0,025, гэта значыць, гэта адзін і той жа лік (1,96)

- у назоўніку з'яўляецца (μB−μA)

- θ(велічыня эфекту) замяняецца Δ (мяжа не меншай эфектыўнасці)

Калі мы выкажам здагадку, што µB = µA, то (µB − µA) = 0 і разлік памеру выбаркі для мяжы не меншай эфектыўнасці гэта менавіта тое, што мы атрымалі б пры вылічэнні перавагі для велічыні эфекту 0,1, выдатна! Мы можам правесці даследаванне аднаго і таго ж маштабу з рознымі гіпотэзамі і іншым падыходам да высноваў, і мы атрымаем адказ на пытанне, на якое мы сапраўды жадаем адказаць.

Цяпер выкажам здагадку, што мы на самой справе не лічым, што µB = µA і
думаем, што µB крыху горш, можа быць, на 0,01 адзінкі. Гэта павялічвае наш назоўнік, памяншаючы памер выбаркі на групу да 1737.

Што адбудзецца, калі версія B на самой справе лепш, чым версія A? Мы абвяргаем нулявую гіпотэзу аб тым, што B горш, чым A, больш як на Δ і прымем альтэрнатыўную гіпотэзу аб тым, што B, калі горш, не горш чым на Δ, і можа быць лепш. Паспрабуйце занесці гэтае зняволенне ў крос-функцыянальную прэзентацыю і паглядзіце, што з гэтага атрымаецца (сур'ёзна, паспрабуйце). У сітуацыі, калі трэба арыентавацца на перспектыву, ніхто не хоча пагаджацца на "горш не больш чым на Δ і, магчыма, лепш".

У гэтым выпадку мы можам правесці даследаванне, якое называецца вельмі коратка "праверка гіпотэзы аб тым, што адзін з варыянтаў пераўзыходзіць іншы або саступае яму". У ім выкарыстоўваюцца два наборы гіпотэз:

Першы набор (такі ж, як пры праверцы гіпотэзы аб не меншай эфектыўнасці):

Калі варта правяраць гіпотэзу аб не меншай эфектыўнасці?

Другі набор (такі ж, як пры праверцы гіпотэзы аб перавазе):

Калі варта правяраць гіпотэзу аб не меншай эфектыўнасці?

Мы правяраем другую гіпотэзу толькі ў тым выпадку, калі адхіленая першая. Пры паслядоўным тэсціраванні мы захоўваем агульны ўзровень памылак першага роду (α). На практыцы гэта можа быць дасягнута шляхам стварэння 95% давернага інтэрвалу для розніцы паміж сярэднімі і праверкі, каб вызначыць, ці перавышае ўвесь інтэрвал -Δ. Калі інтэрвал не перавышае -Δ, мы не можам адхіліць нулявое значэнне і спыніцца. Калі ўвесь інтэрвал сапраўды перавышае −Δ, мы працягнем і паглядзім, ці ўтрымлівае інтэрвал 0.

Існуе яшчэ адзін тып даследаванняў, які мы не абмеркавалі - даследаванні эквівалентнасці.

Даследаванні гэтага тыпу могуць замяняцца даследаваннямі для праверкі гіпотэзы аб не меншай эфектыўнасці і наадварот, але насамрэч у іх ёсць важнае адрозненне. Выпрабаванне для праверкі гіпотэзы аб не меншай эфектыўнасці накіравана на тое, каб паказаць, што варыянт B як мінімум гэтак жа добры, як A. А даследаванне эквівалентнасці нацэлена на тое, каб паказаць, што варыянт B як мінімум гэтак жа добры, як A, а варыянт A як гэтак жа добры, як B, што складаней. Па сутнасці, мы спрабуем вызначыць, ці ляжыць увесь даверны інтэрвал для рознасці сярэдніх паміж −Δ і Δ. Такія даследаванні патрабуюць большага памеру выбаркі і праводзяцца радзей. Таму ў наступны раз, калі вы будзеце праводзіць даследаванне, у якім ваша галоўная задача - пераканацца, што новая версія не горш, не згаджайцеся на "няздольнасць абвергнуць нулявую гіпотэзу". Калі вы хочаце праверыць сапраўды важную гіпотэзу., разгледзьце розныя варыянты.

Крыніца: habr.com

Дадаць каментар