Кога трябва да тестваме хипотезата за непълноценност?

Кога трябва да тестваме хипотезата за непълноценност?
Статия от екипа на Stitch Fix предлага използването на подхода за изпитания за не-малка ефективност в маркетинговите и продуктови A/B тестове. Този подход наистина се прилага, когато тестваме ново решение, което има предимства, които не се измерват с тестове.

Най-простият пример е намаляването на разходите. Например, ние автоматизираме процеса на възлагане на първия урок, но не искаме значително да намалим преобразуването от край до край. Или тестваме промени, които са насочени към един сегмент от потребители, като същевременно се уверяваме, че реализациите за други сегменти не падат много (когато тествате няколко хипотези, не забравяйте за измененията).

Избирането на правилната граница на не-малка ефективност добавя допълнителни предизвикателства по време на фазата на проектиране на теста. Въпросът как да изберете Δ не е много добре разгледан в статията. Изглежда, че този избор не е напълно прозрачен и в клиничните изпитвания. Преглед медицинските публикации относно не-малката стойност съобщават, че само половината от публикациите оправдават избора на граница и често тези обосновки са двусмислени или неподробни.

Във всеки случай този подход изглежда интересен, защото... чрез намаляване на необходимия размер на извадката, той може да увеличи скоростта на тестване и, следователно, скоростта на вземане на решения. — Дария Мухина, продуктов анализатор за мобилното приложение Skyeng.

Екипът на Stitch Fix обича да тества различни неща. Цялата технологична общност по принцип обича да провежда тестове. Коя версия на сайта привлича повече потребители - А или Б? Версия A на препоръчителния модел прави ли повече пари от версия B? За да тестваме хипотези, почти винаги използваме най-простия подход от основния курс по статистика:

Кога трябва да тестваме хипотезата за непълноценност?

Въпреки че рядко използваме термина, тази форма на тестване се нарича „тестване на хипотеза за превъзходство“. При този подход приемаме, че няма разлика между двата варианта. Ние се придържаме към тази идея и я изоставяме само ако данните са достатъчно завладяващи, за да го направим - тоест те показват, че една от опциите (A или B) е по-добра от другата.

Тестването на хипотезата за превъзходство е подходящо за различни проблеми. Пускаме версия B на препоръчителен модел само ако е очевидно по-добра от версия A, която вече се използва. Но в някои случаи този подход не работи толкова добре. Нека да разгледаме няколко примера.

1) Използваме услуга на трета страна, който помага за идентифициране на фалшиви банкови карти. Открихме друга услуга, която струва значително по-малко. Ако по-евтината услуга работи толкова добре, колкото тази, която използваме в момента, ще изберем нея. Не е задължително да е по-добро от услугата, която използвате.

2) Искаме да се откажем от източника на данни A и го заменете с източник на данни B. Можем да отложим изоставянето на A, ако B дава много лоши резултати, но не е възможно да продължим да използваме A.

3) Бихме искали да преминем от подход на моделиранеПодходът на A към B не защото очакваме по-добри резултати от B, а защото ни дава по-голяма оперативна гъвкавост. Нямаме причина да вярваме, че B ще бъде по-лошо, но няма да направим прехода, ако случаят е такъв.

4) Направихме няколко качествени промени в дизайна на уебсайта (версия B) и вярваме, че тази версия е по-добра от версия A. Ние не очакваме промени в преобразуването или някой от ключовите показатели за ефективност, по които обикновено оценяваме уебсайт. Но ние вярваме, че има предимства в параметри, които или са неизмерими, или нашата технология не е достатъчна за измерване.

Във всички тези случаи изследването на превъзходството не е най-подходящото решение. Но повечето специалисти в такива ситуации го използват по подразбиране. Ние внимателно провеждаме експеримента, за да определим правилно размера на ефекта. Ако беше вярно, че версии A и B работят по много сходни начини, има шанс да не успеем да отхвърлим нулевата хипотеза. Заключаваме ли, че A и B работят по същество еднакви? Не! Неуспешното отхвърляне на нулевата хипотеза и приемането на нулевата хипотеза не са едно и също нещо.

Изчисленията на размера на извадката (които, разбира се, сте направили) обикновено се правят с по-строги граници за грешка от тип I (вероятността да не успеете да отхвърлите нулевата хипотеза, често наричана алфа), отколкото за грешка от тип II (вероятността да не успеете да отхвърлите нулевата хипотеза, при условие, че нулевата хипотеза е невярна, често наричана бета). Типичната стойност за алфа е 0,05, докато типичната стойност за бета е 0,20, съответстваща на статистическа мощност от 0,80. Това означава, че има 20% шанс да пропуснем истинския ефект от количеството, което сме посочили в нашите изчисления на мощността, а това е доста сериозна празнина в информацията. Като пример, нека разгледаме следните хипотези:

Кога трябва да тестваме хипотезата за непълноценност?

H0: раницата ми НЕ Е в стаята ми (3)
H1: раницата ми е в стаята ми (4)

Ако претърсих стаята си и намеря раницата си, чудесно, мога да отхвърля нулевата хипотеза. Но ако огледам стаята и не мога да намеря раницата си (Фигура 1), какво заключение трябва да направя? Сигурен ли съм, че го няма? Погледнах ли достатъчно? Ами ако претърсих само 80% от стаята? Заключението, че раницата определено не е в стаята, би било прибързано решение. Нищо чудно, че не можем да „приемем нулевата хипотеза“.
Кога трябва да тестваме хипотезата за непълноценност?
Районът, който претърсихме
Не намерихме раницата - да приемем ли нулевата хипотеза?

Фигура 1: Търсене на 80% от стая е приблизително същото като търсене с 80% мощност. Ако не намерите раницата, след като прегледате 80% от стаята, можете ли да заключите, че я няма?

И така, какво трябва да направи специалистът по данни в тази ситуация? Можете значително да увеличите силата на изследването, но тогава ще ви трябва много по-голям размер на извадката и резултатът пак ще бъде незадоволителен.

За щастие подобни проблеми отдавна се изучават в света на клиничните изследвания. Лекарство Б е по-евтино от лекарство А; Очаква се лекарство Б да причини по-малко странични ефекти от лекарство А; лекарство Б е по-лесно за транспортиране, тъй като не е необходимо да се съхранява в хладилник, но лекарство А го прави. Нека проверим хипотезата за непълноценност. Това е, за да покаже, че версия B е също толкова добра, колкото версия A - поне в рамките на някакъв предварително определен марж на неинфериорност, Δ. Ще говорим повече за това как да зададете този лимит малко по-късно. Но засега нека приемем, че това е най-малката разлика, която е практически значима (в контекста на клиничните изпитвания това обикновено се нарича клинична значимост).

Хипотезите за непълноценност обръщат всичко с главата надолу:

Кога трябва да тестваме хипотезата за непълноценност?

Сега, вместо да приемем, че няма разлика, ще приемем, че версия B е по-лоша от версия A, и ще се придържаме към това предположение, докато не покажем, че това не е така. Точно в този момент има смисъл да се използва едностранна проверка на хипотези! На практика това може да се направи чрез конструиране на доверителен интервал и определяне дали интервалът действително е по-голям от Δ (Фигура 2).
Кога трябва да тестваме хипотезата за непълноценност?

Изберете Δ

Как да изберем правилното Δ? Процесът на подбор на Δ включва статистическа обосновка и оценка по същество. В света на клиничните изследвания има регулаторни насоки, които диктуват, че делта трябва да представлява най-малката клинично значима разлика - такава, която ще има значение на практика. Ето цитат от европейските насоки, с който да се тествате: „Ако разликата е избрана правилно, доверителен интервал, който лежи изцяло между –∆ и 0… все още е достатъчен, за да демонстрира не-малка ефективност. Ако този резултат не изглежда приемлив, това означава, че ∆ не е избрано по подходящ начин.

Делта определено не трябва да надвишава размера на ефекта на версия А по отношение на истинската контрола (плацебо/без лечение), тъй като това ни кара да кажем, че версия Б е по-лоша от истинската контрола, като в същото време демонстрира „не по-малка .” Да приемем, че когато е била представена версия A, тя е била заменена с версия 0 или функцията изобщо не е съществувала (вижте Фигура 3).

Въз основа на резултатите от тестването на хипотезата за превъзходство беше разкрит размерът на ефекта E (т.е. вероятно μ^A−μ^0=E). Сега A е нашият нов стандарт и искаме да сме сигурни, че B е толкова добър, колкото A. Друг начин да напишете μB−μA≤−Δ (нулева хипотеза) е μB≤μA−Δ. Ако приемем, че do е равно на или по-голямо от E, тогава μB ≤ μA−E ≤ плацебо. Сега виждаме, че нашата оценка за μB напълно надхвърля μA−E, което по този начин напълно отхвърля нулевата хипотеза и ни позволява да заключим, че B е толкова добро, колкото A, но в същото време μB може да бъде ≤ μ плацебо, което не е случай какво ни трябва. (Фигура 3).

Кога трябва да тестваме хипотезата за непълноценност?
Фигура 3. Демонстрация на рисковете от избора на марж на неинфериорност. Ако границата е твърде висока, може да се заключи, че B не е по-нисък от A, но в същото време не се различава от плацебо. Няма да заменяме лекарство, което е очевидно по-ефективно от плацебо (А), за лекарство, което е толкова ефективно, колкото плацебо.

Избор на α

Нека да преминем към избора на α. Можете да използвате стандартната стойност α = 0,05, но това не е съвсем справедливо. Като например, когато купувате нещо онлайн и използвате няколко кода за отстъпка наведнъж, въпреки че не трябва да се комбинират - разработчикът просто е направил грешка и вие сте се разминали. Според правилата стойността на α трябва да бъде равна на половината от стойността на α, която се използва при тестване на хипотезата за превъзходство, тоест 0,05 / 2 = 0,025.

Размер на извадката

Как да оценим размера на извадката? Ако смятате, че истинската средна разлика между A и B е 0, тогава изчислението на размера на извадката е същото като при тестване на хипотезата за превъзходство, с изключение на това, че заменяте размера на ефекта с границата на непо-ниска ефективност, при условие че използвате αне-малка ефективност = 1/2αпревъзходство (αне-малоценност=1/2αпревъзходство). Ако имате причина да смятате, че вариант B може да е малко по-лош от вариант A, но искате да докажете, че е по-лош с не повече от Δ, тогава имате късмет! Това всъщност намалява размера на вашата извадка, защото е по-лесно да се докаже, че B е по-лошо от A, ако всъщност смятате, че е малко по-лошо, отколкото равно.

Пример с решение

Да приемем, че искате да надстроите до версия B, при условие че тя е с не повече от 0,1 точки по-лоша от версия A по 5-точкова скала за удовлетвореност на клиентите... Нека подходим към този проблем, като използваме хипотезата за превъзходство.

За да тестваме хипотезата за превъзходство, ще изчислим размера на извадката, както следва:

Кога трябва да тестваме хипотезата за непълноценност?

Тоест, ако имате 2103 наблюдения във вашата група, можете да сте 90% уверени, че ще намерите размер на ефекта от 0,10 или по-голям. Но ако 0,10 е твърде високо за вас, може да не си струва да тествате хипотезата за превъзходство. За по-голяма сигурност може да решите да проведете проучването за по-малък размер на ефекта, като например 0,05. В този случай ще ви трябват 8407 наблюдения, тоест извадката ще се увеличи почти 4 пъти. Но какво ще стане, ако се придържаме към първоначалния размер на извадката, но увеличим мощността до 0,99, така че да сме в безопасност, ако получим положителен резултат? В този случай n за една група ще бъде 3676, което вече е по-добре, но увеличава размера на извадката с повече от 50%. И в резултат на това все още просто няма да можем да опровергаем нулевата хипотеза и няма да получим отговор на нашия въпрос.

Ами ако вместо това тествахме хипотезата за непълноценност?

Кога трябва да тестваме хипотезата за непълноценност?

Размерът на извадката ще бъде изчислен по същата формула с изключение на знаменателя.
Разликите от формулата, използвана за тестване на хипотезата за превъзходство, са следните:

— Z1−α/2 се заменя с Z1−α, но ако правите всичко по правилата, замествате α = 0,05 с α = 0,025, тоест това е същото число (1,96)

— (μB−μA) се появява в знаменателя

— θ (размер на ефекта) се заменя с Δ (марж на не-малка ефективност)

Ако приемем, че µB = µA, тогава (µB − µA) = 0 и изчислението на размера на извадката за маржа на неинфериорност е точно това, което бихме получили, ако изчислим превъзходството за размер на ефекта от 0,1, страхотно! Можем да направим изследване от същия мащаб с различни хипотези и различен подход към заключенията и ще получим отговора на въпроса, на който наистина искаме да отговорим.

Сега да предположим, че всъщност не мислим, че µB = µA и
Смятаме, че µB е малко по-лош, може би с 0,01 единици. Това увеличава нашия знаменател, намалявайки размера на извадката за група до 1737.

Какво се случва, ако версия B действително е по-добра от версия A? Отхвърляме нулевата хипотеза, че B е по-лошо от A с повече от Δ и приемаме алтернативната хипотеза, че B, ако е по-лошо, не е по-лошо от A с Δ и може да е по-добро. Опитайте да поставите това заключение в многофункционална презентация и вижте какво ще се случи (сериозно, опитайте). В една далновидна ситуация никой не иска да се задоволи с „не повече от Δ по-лошо и може би по-добро“.

В този случай можем да проведем проучване, което се нарича много накратко „тестване на хипотезата, че една от опциите е по-добра или по-ниска от другата“. Той използва два набора от хипотези:

Първи набор (същият като тестване на хипотезата за не-малоценност):

Кога трябва да тестваме хипотезата за непълноценност?

Втори набор (същият като при тестване на хипотезата за превъзходство):

Кога трябва да тестваме хипотезата за непълноценност?

Тестваме втората хипотеза само ако първата бъде отхвърлена. Когато тестваме последователно, ние поддържаме общия процент на грешки от тип I (α). На практика това може да се постигне чрез създаване на 95% доверителен интервал за разликата между средните стойности и тестване, за да се определи дали целият интервал е по-голям от -Δ. Ако интервалът не надвишава -Δ, не можем да отхвърлим нулевата стойност и да спрем. Ако целият интервал наистина е по-голям от −Δ, ще продължим и ще видим дали интервалът съдържа 0.

Има още един вид изследвания, които не сме обсъждали – проучвания за еквивалентност.

Тези видове изследвания могат да бъдат заменени от изследвания за неинфериорност и обратно, но те всъщност имат важна разлика. Изпитването за неинфериорност има за цел да покаже, че вариант B е поне толкова добър, колкото A. Изпитването за еквивалентност има за цел да покаже, че вариант B е поне толкова добър, колкото A. Вариант A е толкова добър, колкото B, което е по-трудно. По същество ние се опитваме да определим дали целият доверителен интервал за разликата в средните стойности е между −Δ и Δ. Такива проучвания изискват по-голям размер на извадката и се провеждат по-рядко. Така че следващия път, когато проведете проучване, в което основната ви цел е да гарантирате, че новата версия не е по-лоша, не се задоволявайте с „неуспех да отхвърлите нулевата хипотеза“. Ако искате да тествате наистина важна хипотеза, обмислете различни варианти.

Източник: www.habr.com

Добавяне на нов коментар