Коли варто перевіряти гіпотезу про не меншу ефективність?

Коли варто перевіряти гіпотезу про не меншу ефективність?
Стаття від команди Stitch Fix пропонує використовувати підхід клінічних досліджень не меншої ефективності (non-inferiority trials) у маркетингових та продуктових A/B тестах. Такий підхід дійсно застосовується, коли ми тестуємо нове рішення, що має переваги, які не вимірюються тестами.

Найпростіший приклад – зниження кісток. Наприклад, автоматизуємо процес призначення першого уроку, але не хочемо сильно упустити наскрізну конверсію. Або тестуємо зміни, які орієнтовані на один сегмент користувачів, при цьому слідкуємо, щоб конверсії по інших сегментах просіли не сильно (при тестуванні кількох гіпотез не забуваємо про поправки).

Вибір правильної межі не меншу ефективність додає додаткові труднощі на етапі дизайну тесту. Питання, як вибирати Δ у статті не дуже добре розкрито. Здається, що цей вибір не до кінця прозорий у клінічних випробуваннях. Огляд медичних публікацій з non-inferiority повідомляє, що тільки в половині публікацій вибір кордону обґрунтовується і часто ці обґрунтування неоднозначні чи не докладні.

У кожному разі, цей підхід здається цікавим, т.к. за рахунок зменшення необхідного розміру вибірки може збільшити швидкість тестування, отже, і швидкість прийняття рішень. - Дар'я Мухіна, продуктовий аналітик мобільного додатку Skyeng.

Команда Stitch Fix любить тестувати різні речі. Вся технологічна спільнота, в принципі, любить проводити тести. Яка версія сайту приваблює більше користувачів – A чи B? Чи приносить версія А рекомендаційній моделі більше грошей, ніж версія B? У більшості випадків для перевірки гіпотез ми використовуємо найпростіший підхід з базового курсу статистики:

Коли варто перевіряти гіпотезу про не меншу ефективність?

Хоча ми рідко використовуємо цей термін, така форма тестування називається "перевірка гіпотези про перевагу". При такому підході ми припускаємо, що між двома варіантами немає різниці. Ми дотримуємося цієї ідеї та відмовляємося від неї тільки в тому випадку, якщо отримані дані виявляються досить переконливими для цього – тобто демонструють, що один із варіантів (A або B) кращий за інший.

Перевірка гіпотези про перевагу підходить для вирішення багатьох проблем. Ми випускаємо В-версію рекомендаційної моделі тільки в тому випадку, якщо вона очевидно краща за версію A, що вже використовується. Але в деяких випадках цей підхід працює не так добре. Розглянемо кілька прикладів.

1) Ми використовуємо сторонній сервісщо допомагає ідентифікувати підроблені банківські картки. Ми знайшли інший сервіс, який коштує значно менше. Якщо більш дешевий сервіс працює так само добре, як і той, що ми використовуємо зараз, ми виберемо його. Він не обов'язково повинен бути краще сервісу, що використовується.

2) Ми хочемо відмовитися від джерела даних A і замінити його на джерело даних B. Ми могли б відкласти відмову від A, якщо B видає дуже погані результати, але продовжувати використовувати A неможливо.

3) Ми хотіли б перейти від підходу до моделюванняA до підходу B не тому, що ми очікуємо кращих результатів від B, а тому, що це дає нам більшу оперативну гнучкість. У нас немає підстав вважати, що В буде гірше, але ми не будемо здійснювати перехід, якщо це буде так.

4) Ми внесли кілька якісних змін у дизайн веб-сайту (версія В) і вважаємо, що ця версія перевершує версію А. Ми не очікуємо змін у конверсії чи будь-яких ключових показників ефективності, за якими ми зазвичай оцінюємо веб-сайт. Але ми вважаємо, що є переваги в параметрах, які або є незмірними, або наших технологій недостатньо для вимірювання.

У всіх цих випадках дослідження переваги — не найкраще рішення. Але більшість фахівців у таких ситуаціях використовують його за умовчанням. Ми ретельно проводимо експеримент, щоб правильно визначити величину ефекту. Якби було правильно, що версії A і B працюють дуже схожим чином, є можливість, що нам не вдасться відхилити нульову гіпотезу. Чи робимо ми висновок, що А та В загалом працюють однаково? Ні! Неможливість відхилити нульову гіпотезу і прийняття нульової гіпотези - не те саме.

Розрахунки обсягу вибірки (які ви, звичайно ж, проводили), як правило, проводяться з суворішими межами для помилки першого роду (імовірність помилкового відхилення нульової гіпотези, часто звана альфа), ніж для помилки другого роду (ймовірність нездатності відхилити нульову гіпотезу, при умови, що нульова гіпотеза є хибною, часто звана бета). Типове значення для альфа становить 0,05 тоді як типове значення для бета становить 0,20, що відповідає статистичній потужності 0,80. Це означає, що ми можемо не виявити справжній вплив величини, яку ми вказали в наших розрахунках потужності, з ймовірністю 20% і це досить серйозний пробіл в інформації. Як приклад давайте розглянемо такі гіпотези:

Коли варто перевіряти гіпотезу про не меншу ефективність?

H0: мій рюкзак НЕ в моїй кімнаті (3)
H1: мій рюкзак у моїй кімнаті (4)

Якщо я обшукав свою кімнату і знайшов свій рюкзак — чудово, я можу відмовитись від нульової гіпотези. Але якщо я оглянув кімнату і не зміг знайти свій рюкзак (рисунок 1), який висновок я маю зробити? Чи я впевнений, що його там немає? Чи достатньо я ретельно шукав? Що якщо я обшукав лише 80% кімнати? Зробити висновок, що рюкзака точно немає в кімнаті, буде необачним рішенням. Не дивно, що ми не можемо прийняти нульову гіпотезу.
Коли варто перевіряти гіпотезу про не меншу ефективність?
Область, яку ми обшукали
Ми не знайшли рюкзак — чи ми маємо прийняти нульову гіпотезу?

Малюнок 1. Обшукати 80% кімнати - це приблизно те саме, що провести дослідження з потужністю 80%. Якщо ви не знайшли рюкзак, оглянувши 80% кімнати, чи можна зробити висновок, що його немає?

То що робити фахівцю за даними у цій ситуації? Ви можете збільшити потужність дослідження, але тоді вам знадобиться вибірка набагато більшого розміру, а результат все одно буде незадовільним.

На щастя, такі проблеми давно вивчаються у світі клінічних досліджень. Препарат B дешевший, ніж препарат A; очікується, що препарат B викликатиме менше побічних ефектів, ніж препарат А; препарат B легко транспортувати, тому що його не потрібно зберігати в холодильнику, а препарат A - потрібно. Перевіримо гіпотезу про не меншу ефективність. Це потрібно, щоб показати, що версія B так само хороша, як і версія A - принаймні, в межах деякої заздалегідь визначеної межі "не меншої ефективності", Δ. Трохи згодом ми докладніше поговоримо про те, як встановити цю межу. Але зараз припустимо, що це мінімальна різниця, яка практично значуща (у контексті клінічних випробувань це зазвичай називається клінічною значимістю).

Гіпотези про не меншу ефективність перевертають усе з ніг на голову:

Коли варто перевіряти гіпотезу про не меншу ефективність?

Тепер замість того, щоб припускати, що різниці немає, ми припускаємо, що версія B гірша, ніж версія A, і ми дотримуватимемося цього припущення, доки не продемонструємо, що це не так. Це саме той момент, коли є сенс використовувати тестування односторонньої гіпотези! На практиці це можна зробити, побудувавши довірчий інтервал та визначивши, чи справді інтервал більший, ніж Δ (рисунок 2).
Коли варто перевіряти гіпотезу про не меншу ефективність?

Вибір Δ

Як правильно вибрати Δ? Процес вибору Δ включає статистичне обґрунтування та предметну оцінку. У світі клінічних досліджень існують нормативні рекомендації, з яких випливає, що дельта повинна бути найменшою клінічно значущою відмінністю — такою, яка матиме значення на практиці. Ось цитата з європейського керівництва, за допомогою якої можна себе перевірити: «Якщо різниця була обрана правильно, довірчий інтервал, що повністю лежить між –∆ та 0…, все ще достатній для демонстрації не меншої ефективності. Якщо цей результат не здається прийнятним, це означає, що ∆ не було обрано належним чином».

Дельта безперечно не повинна перевищувати величину ефекту версії A по відношенню до справжнього контролю (плацебо / відсутність лікування), оскільки це призводить до того, що версія B гірша, ніж справжній контроль, і в той же час демонструє «не меншу ефективність». Припустимо, що коли була представлена ​​версія A, на її місці була версія 0 або функція взагалі не існувала (див. рисунок 3).

За результатами перевірки гіпотези про перевагу було виявлено величину ефекту E (тобто ймовірно μ^A−μ^0=E). Тепер А — наш новий стандарт, і ми хочемо переконатися, що не поступається А. Ще один спосіб записати μB−μA≤−Δ (нульова гіпотеза) – μB≤μA−Δ. Якщо ми припустимо, що робити дорівнює або перевищує E, то μB ≤ μA−E ≤ плацебо. Тепер ми бачимо, що наша оцінка для μB повністю перевищує μA−E, що тим самим повністю спростовує нульову гіпотезу і дозволяє зробити висновок, що не поступається А, але в той же час μB може бути ≤ μ плацебо, а це не те, що нам потрібно. (Малюнок 3).

Коли варто перевіряти гіпотезу про не меншу ефективність?
Рисунок 3. Демонстрація ризиків вибору кордону не меншої ефективності. Якщо межа занадто велика, можна зробити висновок, що B не поступається A, але в той же час не відрізняється від плацебо. Ми не станемо змінювати препарат, який явно ефективніший за плацебо (А), на препарат, який має таку ж ефективність, що і плацебо.

Вибір α

Перейдемо до вибору α. Можна використовувати стандартне значення α = 0,05 але це не зовсім чесно. Як, наприклад, коли ви купуєте щось в інтернеті і використовуєте відразу кілька кодів на знижку, хоча вони не повинні підсумовуватися - просто розробник припустився помилки, а вам це зійшло з рук. За правилами значення α має дорівнювати половині значення α, яке використовується при перевірці гіпотези про перевагу, тобто 0,05 / 2 = 0,025.

Розмір вибірки

Як оцінити розмір вибірки? Якщо ви вважаєте, що справжня різниця середніх між A і B дорівнює 0, тоді розрахунок розміру вибірки буде таким же, як і при перевірці гіпотези про перевагу, за винятком того, що ви замінюєте розмір ефекту межею не меншої ефективності, за умови, що ви використовуєте αне менша ефективність = 1/2α перевага (αnon-inferiority=1/2αsuperiority). Якщо у вас є підстави вважати, що варіант B може бути трохи гіршим, ніж варіант A, але ви хочете довести, що він гірший не більше ніж на Δ, тоді вам пощастило! Фактично це зменшує розмір вашої вибірки, тому що легше продемонструвати, що B гірше, ніж A, якщо ви насправді вважаєте, що він трохи гірший, а не рівноцінний.

Приклад із рішенням

Припустимо, ви хочете перейти на версію В за умови, що вона гірша за версію А не більше ніж на 0,1 пункту за 5-бальною шкалою задоволеності клієнтів… Підійдемо до цього завдання, використовуючи гіпотезу про перевагу.

Для перевірки гіпотези про перевагу ми б розраховували розмір вибірки так:

Коли варто перевіряти гіпотезу про не меншу ефективність?

Тобто, якщо у вас в групі буде 2103 спостереження, ви можете бути на 90% впевнені, що виявите ефект величиною 0,10 або більше. Але якщо значення 0,10 для вас занадто велике, можливо, не варто йому перевіряти гіпотезу про перевагу. Можливо, для надійності ви вирішите провести дослідження меншого розміру ефекту, наприклад 0,05. У цьому випадку вам знадобиться 8407 спостережень, тобто вибірка збільшиться майже вчетверо. Але якщо ми будемо дотримуватися нашого вихідного розміру вибірки, але збільшимо потужність до 4, щоб ми не сумнівалися, якщо отримаємо позитивний результат? У такому разі n для однієї групи становитиме 0,99, що вже краще, але збільшує розмір вибірки більш ніж на 3676%. І в результаті ми все одно просто не зможемо спростувати нульову гіпотезу, а не матимемо відповіді на своє запитання.

Що якщо натомість ми перевіримо гіпотезу про не меншу ефективність?

Коли варто перевіряти гіпотезу про не меншу ефективність?

Розмір вибірки буде розраховувати за такою ж формулою, за винятком знаменника.
Відмінності від формули, що використовується під час перевірки гіпотези про перевагу, полягають у наступному:

— Z1−α/2 замінюється на Z1−α, але якщо ви робите все за правилами, ви замінюєте α = 0,05 на α = 0,025, тобто це одне й те саме число (1,96)

- у знаменнику з'являється (μB−μA)

- θ (величина ефекту) замінюється Δ (межа не меншої ефективності)

Якщо ми припустимо, що µB = µA, то (µB − µA) = 0 та розрахунок розміру вибірки для межі не меншої ефективності це саме те, що ми отримали б при обчисленні переваги для величини ефекту 0,1 чудово! Ми можемо провести дослідження того самого масштабу з різними гіпотезами та іншим підходом до висновків, і ми отримаємо відповідь на запитання, на яке ми дійсно хочемо відповісти.

Тепер припустимо, що ми насправді не вважаємо, що µB = µA і
думаємо, що µB трохи гірше, можливо, на 0,01 одиниці. Це збільшує наш знаменник, зменшуючи розмір вибірки на групу до 1737 року.

Що станеться, якщо версія B насправді краща, ніж версія A? Ми спростовуємо нульову гіпотезу про те, що B гірше, ніж A, більш ніж на Δ і приймемо альтернативну гіпотезу про те, що B, якщо гірше, не гірше ніж на Δ, і може бути кращим. Спробуйте занести цей висновок у крос-функціональну презентацію та подивіться, що з цього вийде (серйозно, спробуйте). У ситуації, коли потрібно орієнтуватися на перспективу, ніхто не хоче погоджуватися на «гірше не більше, ніж на Δ і, можливо, краще».

У цьому випадку ми можемо провести дослідження, яке називається дуже коротко «перевірка гіпотези про те, що один із варіантів перевершує інший або поступається йому». У ньому використовуються два набори гіпотез:

Перший набір (такий самий, як при перевірці гіпотези про не меншу ефективність):

Коли варто перевіряти гіпотезу про не меншу ефективність?

Другий набір (такий самий, як під час перевірки гіпотези про перевагу):

Коли варто перевіряти гіпотезу про не меншу ефективність?

Ми перевіряємо другу гіпотезу лише в тому випадку, якщо відхилено першу. При послідовному тестуванні зберігаємо загальний рівень помилок першого роду (α). На практиці це може бути досягнуто шляхом створення 95% довірчого інтервалу для різниці між середніми та перевірки, щоб визначити, чи перевищує весь інтервал -Δ. Якщо інтервал вбирається у -Δ, ми можемо відхилити нульове значення і зупинитися. Якщо весь інтервал дійсно перевищує −Δ, ми продовжимо та подивимося, чи містить інтервал 0.

Існує ще один тип досліджень, що ми не обговорили – дослідження еквівалентності.

Дослідження цього можуть замінюватися дослідженнями для перевірки гіпотези про не меншу ефективність і навпаки, але насправді вони мають важливу відмінність. Випробування для перевірки гіпотези про не меншу ефективність націлена на те, щоб показати, що варіант B як мінімум так само хороший, як A. А дослідження еквівалентності націлене на те, щоб показати, що варіант B як мінімум так само хороший, як A, а варіант A як хороший, як B, що складніше. По суті ми намагаємося визначити, чи лежить весь довірчий інтервал для різниці середніх між −Δ і Δ. Такі дослідження вимагають більшого розміру вибірки та проводяться рідше. Тому наступного разу, коли ви проводитимете дослідження, в якому ваше головне завдання — переконатися, що нова версія не гірша, не погоджуйтеся на «нездатність спростувати нульову гіпотезу». Якщо ви хочете перевірити дійсно важливу гіпотезу, розгляньте різні варіанти.

Джерело: habr.com

Додати коментар або відгук