Kiedy powinniśmy testować hipotezę równoważności?

Kiedy powinniśmy testować hipotezę równoważności?
Artykuł zespołu Stitch Fix sugeruje stosowanie podejścia prób równoważności w marketingu i testach A/B produktów. Takie podejście naprawdę ma zastosowanie, gdy testujemy nowe rozwiązanie, które ma zalety, których nie można zmierzyć testami.

Najprostszym przykładem jest redukcja kosztów. Przykładowo automatyzujemy proces zapisywania pierwszej lekcji, ale nie chcemy znacząco ograniczać konwersji end-to-end. Lub testujemy zmiany, które są skierowane do jednego segmentu użytkowników, dbając przy tym o to, aby konwersje dla pozostałych segmentów nie spadły znacząco (testując kilka hipotez, nie zapomnij o poprawkach).

Wybór prawidłowego marginesu równoważności stwarza dodatkowe wyzwania na etapie projektowania testu. Pytanie, jak wybrać Δ, nie jest zbyt dobrze omówione w artykule. Wydaje się, że wybór ten nie jest do końca przejrzysty także w badaniach klinicznych. Przegląd publikacje medyczne na temat równoważności podają, że tylko połowa publikacji uzasadnia wybór granicy, a często uzasadnienia te są niejednoznaczne lub mało szczegółowe.

W każdym razie takie podejście wydaje się interesujące, ponieważ... zmniejszając wymaganą wielkość próbki, może zwiększyć szybkość testowania, a tym samym szybkość podejmowania decyzji. — Daria Mukhina, analityk produktu aplikacji mobilnej Skyeng.

Zespół Stitch Fix uwielbia testować różne rzeczy. Z zasady cała społeczność technologiczna uwielbia przeprowadzać testy. Która wersja serwisu przyciąga więcej użytkowników – A czy B? Czy wersja A modelu rekomendacji zarabia więcej niż wersja B? Aby przetestować hipotezy, prawie zawsze używamy najprostszego podejścia z kursu podstawowej statystyki:

Kiedy powinniśmy testować hipotezę równoważności?

Chociaż rzadko używamy tego terminu, tę formę testowania nazywa się „testowaniem hipotezy wyższości”. Przy takim podejściu zakładamy, że nie ma różnicy między obiema opcjami. Trzymamy się tego pomysłu i porzucamy go tylko wtedy, gdy dane są do tego wystarczająco przekonujące – to znaczy pokazują, że jedna z opcji (A lub B) jest lepsza od drugiej.

Testowanie hipotezy wyższości jest odpowiednie w przypadku różnych problemów. Wersję B modelu rekomendacji udostępniamy tylko wtedy, gdy jest ona wyraźnie lepsza od wersji A, która jest już w użyciu. Jednak w niektórych przypadkach to podejście nie sprawdza się zbyt dobrze. Spójrzmy na kilka przykładów.

1) Korzystamy z usług strony trzeciej, co pomaga zidentyfikować fałszywe karty bankowe. Znaleźliśmy inną usługę, która kosztuje znacznie mniej. Jeśli tańsza usługa sprawdzi się równie dobrze jak ta, z której obecnie korzystamy, to ją wybierzemy. Nie musi być lepsza od usługi, z której korzystasz.

2) Chcemy porzucić źródło danych A i zastąp je źródłem danych B. Możemy opóźnić porzucenie A, jeśli B daje bardzo złe wyniki, ale dalsze korzystanie z A jest niewykonalne.

3) Chcielibyśmy odejść od podejścia modelowegoPodejście A do B nie dlatego, że oczekujemy lepszych wyników od B, ale dlatego, że daje nam większą elastyczność operacyjną. Nie mamy powodu sądzić, że B będzie gorsze, ale w takim przypadku nie dokonamy przejścia.

4) Wprowadziliśmy kilka zmian jakościowych w projekt strony internetowej (wersja B) i uważamy, że ta wersja jest lepsza od wersji A. Nie spodziewamy się zmian w konwersji ani żadnych kluczowych wskaźników wydajności, według których zazwyczaj oceniamy stronę internetową. Wierzymy jednak, że parametry są albo niemierzalne, albo nasza technologia nie jest wystarczająca do zmierzenia.

We wszystkich tych przypadkach badanie wyższości nie jest najwłaściwszym rozwiązaniem. Ale większość specjalistów w takich sytuacjach domyślnie go używa. Starannie przeprowadzamy eksperyment, aby określić prawidłową wielkość efektu. Gdyby prawdą było, że wersje A i B działają w bardzo podobny sposób, jest szansa, że ​​nie odrzucilibyśmy hipotezy zerowej. Czy dochodzimy do wniosku, że A i B działają w zasadzie tak samo? NIE! Nieodrzucenie hipotezy zerowej i akceptacja hipotezy zerowej to nie to samo.

Obliczenia wielkości próby (które oczywiście wykonałeś) są zazwyczaj wykonywane z węższymi granicami dla błędu typu I (prawdopodobieństwo nieodrzucenia hipotezy zerowej, często nazywanej alfa) niż dla błędu typu II (prawdopodobieństwo nie odrzucenia odrzucić hipotezę zerową, pod warunkiem, że hipoteza zerowa jest fałszywa, często nazywana beta). Typowa wartość alfa wynosi 0,05, podczas gdy typowa wartość beta to 0,20, co odpowiada mocy statystycznej 0,80. Oznacza to, że istnieje 20% szans, że przeoczymy prawdziwy efekt wielkości, którą określiliśmy w naszych obliczeniach mocy, a jest to dość poważna luka informacyjna. Jako przykład rozważmy następujące hipotezy:

Kiedy powinniśmy testować hipotezę równoważności?

H0: mojego plecaka NIE ma w moim pokoju (3)
H1: mój plecak jest w moim pokoju (4)

Jeśli przeszukam swój pokój i znajdę plecak, świetnie, mogę odrzucić hipotezę zerową. Ale jeśli rozejrzałem się po pokoju i nie mogłem znaleźć mojego plecaka (rysunek 1), jaki wniosek powinienem wyciągnąć? Czy na pewno go tam nie ma? Czy patrzyłem wystarczająco uważnie? Co by było, gdybym przeszukał tylko 80% pokoju? Stwierdzenie, że plecaka na pewno nie ma w pokoju, byłoby pochopną decyzją. Nic dziwnego, że nie możemy „zaakceptować hipotezy zerowej”.
Kiedy powinniśmy testować hipotezę równoważności?
Obszar, który przeszukiwaliśmy
Nie znaleźliśmy plecaka – czy przyjąć hipotezę zerową?

Rysunek 1: Przeszukiwanie 80% pomieszczenia jest mniej więcej takie samo, jak przeszukiwanie przy 80% mocy. Jeśli po przeszukaniu 80% pomieszczenia nie znajdziesz plecaka, czy możesz stwierdzić, że go tam nie ma?

Co zatem powinien zrobić analityk danych w tej sytuacji? Można znacznie zwiększyć moc badania, ale wtedy potrzebna będzie znacznie większa liczebność próby, a wynik nadal będzie niezadowalający.

Na szczęście takie problemy są od dawna badane w świecie badań klinicznych. Lek B jest tańszy niż lek A; Oczekuje się, że lek B będzie powodować mniej skutków ubocznych niż lek A; Lek B jest łatwiejszy w transporcie, ponieważ nie trzeba go przechowywać w lodówce, ale lek A tak. Przetestujmy hipotezę o równoważności. Ma to na celu pokazanie, że wersja B jest tak samo dobra jak wersja A — przynajmniej w pewnym z góry określonym marginesie równoważności, Δ. O tym, jak ustawić ten limit, porozmawiamy nieco później. Ale na razie załóżmy, że jest to najmniejsza różnica, która ma znaczenie praktyczne (w kontekście badań klinicznych nazywa się to zwykle istotnością kliniczną).

Hipotezy nie niższości stawiają wszystko na głowie:

Kiedy powinniśmy testować hipotezę równoważności?

Teraz zamiast zakładać, że nie ma różnicy, założymy, że wersja B jest gorsza od wersji A i będziemy się tego trzymać, dopóki nie wykażemy, że tak nie jest. To jest właśnie moment, w którym warto zastosować jednostronne testowanie hipotez! W praktyce można tego dokonać konstruując przedział ufności i określając, czy rzeczywiście jest on większy niż Δ (rysunek 2).
Kiedy powinniśmy testować hipotezę równoważności?

Wybierz Δ

Jak wybrać właściwy Δ? Proces selekcji Δ obejmuje uzasadnienie statystyczne i ocenę merytoryczną. W świecie badań klinicznych istnieją wytyczne regulacyjne, które stanowią, że delta powinna reprezentować najmniejszą klinicznie istotną różnicę – taką, która będzie miała znaczenie w praktyce. Oto cytat z europejskich wytycznych, dzięki któremu możesz się sprawdzić: „Jeśli różnica została wybrana prawidłowo, przedział ufności mieszczący się całkowicie pomiędzy –∆ a 0… jest nadal wystarczający, aby wykazać, że nie jest gorszy. Jeśli wynik ten nie wydaje się akceptowalny, oznacza to, że ∆ nie zostało wybrane prawidłowo.”

Delta zdecydowanie nie powinna przekraczać wielkości efektu wersji A w stosunku do prawdziwej kontroli (placebo/brak leczenia), ponieważ prowadzi to do stwierdzenia, że ​​wersja B jest gorsza od prawdziwej kontroli, jednocześnie wykazując „nie mniejszą skuteczność” .” Załóżmy, że kiedy wprowadzono wersję A, została ona zastąpiona wersją 0 lub funkcja w ogóle nie istniała (patrz rysunek 3).

Na podstawie wyników testowania hipotezy wyższości ujawniono wielkość efektu E (czyli przypuszczalnie μ^A−μ^0=E). Teraz A jest naszym nowym standardem i chcemy się upewnić, że B jest tak samo dobre jak A. Innym sposobem zapisania μB−μA≤−Δ (hipoteza zerowa) jest μB≤μA−Δ. Jeśli założymy, że do jest równe lub większe od E, wówczas μB ≤ μA−E ≤ placebo. Teraz widzimy, że nasze oszacowanie dla μB całkowicie przekracza μA−E, co w ten sposób całkowicie odrzuca hipotezę zerową i pozwala nam stwierdzić, że B jest tak samo dobre jak A, ale jednocześnie μB może być ≤ μ placebo, co nie jest przypadku. czego potrzebujemy. (Rysunek 3).

Kiedy powinniśmy testować hipotezę równoważności?
Rysunek 3. Wykazanie ryzyka wyboru marginesu równoważności. Jeżeli wartość odcięcia jest zbyt wysoka, można stwierdzić, że B nie jest gorsze od A, ale jednocześnie nie do odróżnienia od placebo. Nie zamienimy leku wyraźnie skuteczniejszego od placebo (A) na lek równie skuteczny jak placebo.

Wybór α

Przejdźmy do wyboru α. Można użyć wartości standardowej α = 0,05, ale nie jest to do końca sprawiedliwe. Jak np. gdy kupujesz coś w internecie i korzystasz z kilku kodów rabatowych na raz, chociaż nie należy ich łączyć – deweloper po prostu popełnił błąd i uszło ci to na sucho. Zgodnie z regułami wartość α powinna być równa połowie wartości α stosowanej przy testowaniu hipotezy wyższości, czyli 0,05 / 2 = 0,025.

Rozmiar próbki

Jak oszacować wielkość próby? Jeśli uważasz, że prawdziwa średnia różnica między A i B wynosi 0, wówczas obliczenie wielkości próby jest takie samo, jak przy testowaniu hipotezy wyższości, z tą różnicą, że wielkość efektu zastąpisz marginesem równoważności, pod warunkiem, że użyjesz αnie gorsza wydajność = 1/2αwyższość (αnie niższość = 1/2αwyższość). Jeśli masz podstawy sądzić, że opcja B może być nieco gorsza od opcji A, ale chcesz udowodnić, że jest ona gorsza o nie więcej niż Δ, to masz szczęście! To w rzeczywistości zmniejsza wielkość próby, ponieważ łatwiej jest wykazać, że B jest gorsze od A, jeśli faktycznie uważasz, że jest nieco gorsze, a nie równe.

Przykład z rozwiązaniem

Załóżmy, że chcesz dokonać aktualizacji do wersji B, pod warunkiem, że jest ona nie więcej niż 0,1 punktu gorsza od wersji A w 5-punktowej skali satysfakcji klienta... Podejdźmy do tego problemu, korzystając z hipotezy wyższości.

Aby przetestować hipotezę wyższości, obliczylibyśmy wielkość próby w następujący sposób:

Kiedy powinniśmy testować hipotezę równoważności?

Oznacza to, że jeśli w swojej grupie masz 2103 obserwacji, możesz mieć 90% pewności, że znajdziesz wielkość efektu 0,10 lub większą. Jeśli jednak 0,10 jest dla Ciebie za wysokie, może nie być warte testowania hipotezy wyższości. Dla bezpieczeństwa można zdecydować się na przeprowadzenie badania dla mniejszej wielkości efektu, na przykład 0,05. W tym przypadku będziesz potrzebować 8407 obserwacji, czyli próbka wzrośnie prawie 4 razy. Ale co by było, gdybyśmy pozostali przy pierwotnej wielkości próbki, ale zwiększyli moc do 0,99, abyśmy byli bezpieczni, jeśli uzyskamy wynik pozytywny? W tym przypadku n dla jednej grupy wyniesie 3676, co jest już lepsze, ale zwiększa liczebność próby o ponad 50%. W rezultacie nadal po prostu nie będziemy w stanie obalić hipotezy zerowej i nie otrzymamy odpowiedzi na nasze pytanie.

Co by było, gdybyśmy zamiast tego przetestowali hipotezę równoważności?

Kiedy powinniśmy testować hipotezę równoważności?

Liczebność próby zostanie obliczona przy użyciu tego samego wzoru, z wyjątkiem mianownika.
Różnice w stosunku do wzoru stosowanego do testowania hipotezy wyższości są następujące:

— Z1−α/2 zastępuje się Z1−α, ale jeśli wszystko robisz zgodnie z zasadami, to α = 0,05 zamienia się na α = 0,025, czyli jest to ta sama liczba (1,96)

— (μB−μA) pojawia się w mianowniku

— θ (wielkość efektu) zastępuje się Δ (margines równoważności)

Jeśli założymy, że µB = µA, wówczas (µB – µA) = 0, a obliczenie wielkości próbki dla marginesu równoważności jest dokładnie tym, co otrzymalibyśmy, gdybyśmy obliczyli wyższość dla wielkości efektu 0,1, świetnie! Możemy przeprowadzić badanie tej samej wielkości, z różnymi hipotezami i innym podejściem do wniosków, a otrzymamy odpowiedź na pytanie, na które naprawdę chcemy odpowiedzieć.

Załóżmy teraz, że tak naprawdę nie uważamy, że µB = µA i
Uważamy, że µB jest nieco gorszy, może o 0,01 jednostki. Zwiększa to nasz mianownik, zmniejszając wielkość próby na grupę do 1737.

Co się stanie, jeśli wersja B będzie rzeczywiście lepsza od wersji A? Odrzucamy hipotezę zerową, że B jest gorsze od A o więcej niż Δ i przyjmujemy alternatywną hipotezę, że B, jeśli jest gorsze, nie jest gorsze od A o Δ i może być lepsze. Spróbuj przedstawić ten wniosek w prezentacji obejmującej wiele funkcji i zobacz, co się stanie (poważnie, spróbuj). W sytuacji wybiegającej w przyszłość nikt nie chce zadowolić się „nie więcej niż Δ gorszym, a może lepszym”.

W takim przypadku możemy przeprowadzić badanie, które w skrócie nazywa się „testowaniem hipotezy, że jedna z opcji jest lepsza lub gorsza od drugiej”. Wykorzystuje dwa zestawy hipotez:

Pierwszy zestaw (taki sam, jak testowanie hipotezy równoważności):

Kiedy powinniśmy testować hipotezę równoważności?

Zestaw drugi (taki sam jak przy testowaniu hipotezy wyższości):

Kiedy powinniśmy testować hipotezę równoważności?

Drugą hipotezę testujemy tylko w przypadku odrzucenia pierwszej. Podczas testowania sekwencyjnego utrzymujemy ogólny poziom błędów typu I (α). W praktyce można to osiągnąć, tworząc 95% przedział ufności dla różnicy między średnimi i testując, czy cały przedział jest większy niż -Δ. Jeśli przedział nie przekracza -Δ, nie możemy odrzucić wartości zerowej i zatrzymać. Jeśli cały przedział jest rzeczywiście większy niż −Δ, będziemy kontynuować i sprawdzimy, czy przedział zawiera 0.

Istnieje inny rodzaj badań, o którym nie mówiliśmy – badania równoważności.

Tego typu badania można zastąpić badaniami dotyczącymi równoważności i odwrotnie, ale w rzeczywistości istnieje między nimi istotna różnica. Próba równoważności ma na celu wykazanie, że opcja B jest co najmniej tak dobra jak A. Próba równoważności ma na celu wykazanie, że opcja B jest co najmniej tak dobra jak A. Opcja A jest tak samo dobra jak B, ale jest trudniejsza. Zasadniczo staramy się ustalić, czy cały przedział ufności dla różnicy średnich leży pomiędzy -Δ i Δ. Badania takie wymagają większej próby i są przeprowadzane rzadziej. Zatem następnym razem, gdy będziesz przeprowadzać badanie, którego głównym celem będzie upewnienie się, że nowa wersja nie jest gorsza, nie zadowalaj się „nieodrzuceniem hipotezy zerowej”. Jeśli chcesz przetestować naprawdę ważną hipotezę, rozważ różne opcje.

Źródło: www.habr.com

Kup niezawodny hosting dla stron z ochroną DDoS, serwery VPS VDS 🔥 Kup niezawodny hosting stron internetowych z ochroną DDoS, serwery VPS VDS | ProHoster