Kdy bychom měli testovat hypotézu non-inferiority?

Kdy bychom měli testovat hypotézu non-inferiority?
Článek od týmu Stitch Fix navrhuje použití přístupu non-inferiority trials v marketingu a A/B testování produktů. Tento přístup skutečně platí, když testujeme nové řešení, které má výhody, které nejsou měřitelné testy.

Nejjednodušším příkladem je ztráta kostní hmoty. Zautomatizujme například proces přiřazení první lekce, ale nechceme příliš upustit od koncových konverzí. Nebo testujeme změny zaměřené na jeden segment uživatelů a zároveň dbáme na to, aby konverze pro ostatní segmenty příliš neklesly (při testování více hypotéz nezapomínejte na korekce).

Výběr správné hranice neméněcennosti přidává další výzvy ve fázi návrhu testu. Otázka, jak vybrat Δ, není v článku dobře pokryta. Zdá se, že ani v klinických studiích není tato volba zcela transparentní. Recenze lékařské publikace o non-inferiority uvádějí, že pouze polovina publikací odůvodňuje volbu hranice a často jsou tato zdůvodnění nejednoznačná nebo neúplná.

V každém případě se tento přístup jeví jako zajímavý Zmenšením požadované velikosti vzorku může zvýšit rychlost testování, a tím i rychlost rozhodování. — Daria Mukhina, produktová analytička mobilní aplikace Skyeng.

Tým Stitch Fix rád testuje různé věci. Celá technologická komunita v podstatě ráda provádí testy. Která verze webu přitahuje více uživatelů – A nebo B? Vydělává verze A doporučujícího modelu více peněz než verze B? Téměř vždy k testování hypotéz používáme nejjednodušší přístup z kurzu základní statistiky:

Kdy bychom měli testovat hypotézu non-inferiority?

Ačkoli tento termín používáme jen zřídka, tato forma testování se nazývá „testování hypotézy nadřazenosti“. S tímto přístupem předpokládáme, že mezi těmito dvěma možnostmi není žádný rozdíl. Této myšlenky setrváváme a opouštíme ji pouze tehdy, jsou-li zjištění dostatečně přesvědčivá, aby ji opravňovala – to znamená, že ukazuje, že jedna možnost (A nebo B) je lepší než druhá.

Testování hypotézy nadřazenosti je vhodné pro řešení různých problémů. Verzi B doporučujícího modelu vydáváme pouze v případě, že je jednoznačně lepší než již používaná verze A. V některých případech však tento přístup nefunguje tak dobře. Podívejme se na pár příkladů.

1) Používáme službu třetí strany, který pomáhá identifikovat falešné bankovní karty. Našli jsme další službu, která stojí výrazně méně. Pokud bude levnější služba fungovat stejně jako ta, kterou aktuálně využíváme, vybereme ji. Nemusí to být lepší než služba, kterou používáte.

2) Chceme zrušit zdroj dat A a nahradit jej zdrojem dat B. Mohli bychom odložit opuštění A, pokud B poskytuje velmi špatné výsledky, ale není možné pokračovat v používání A.

3) Rádi bychom přešli z modelovacího přístupuPřístup A až B ne proto, že bychom očekávali lepší výsledky od B, ale protože nám poskytuje větší provozní flexibilitu. Nemáme důvod se domnívat, že B bude horší, ale pokud ano, nepřejdeme.

4) Provedli jsme několik změn kvality design webových stránek (verze B) a věříme, že tato verze je lepší než verze A. Neočekáváme změny v konverzích ani v žádných KPI, se kterými web běžně měříme. Ale věříme, že jsou výhody v parametrech, které jsou buď neměřitelné, nebo naše technologie nestačí měřit.

Ve všech těchto případech není výzkum excelence tím nejlepším řešením. Ale většina specialistů v takových situacích jej standardně používá. Pečlivě provádíme experiment, abychom správně určili velikost účinku. Pokud by byla pravda, že verze A a B fungují velmi podobným způsobem, je pravděpodobné, že nebudeme schopni zamítnout nulovou hypotézu. Došli jsme k závěru, že A a B obecně fungují stejným způsobem? Ne! Neodmítnutí nulové hypotézy a přijetí nulové hypotézy není totéž.

Výpočty velikosti vzorku (které jste samozřejmě provedli vy) mají tendenci mít užší hranice pro chybu typu I (pravděpodobnost nesprávného zamítnutí nulové hypotézy, často označované jako alfa) než chybu typu II (pravděpodobnost selhání odmítnutí nulové hypotézy). hypotéza za předpokladu, že nulová hypotéza je nepravdivá, často nazývaná beta). Typická hodnota pro alfa je 0,05, zatímco typická hodnota pro beta je 0,20, což odpovídá statistické síle 0,80. To znamená, že skutečný účinek hodnoty, kterou jsme uvedli v našich výpočtech síly, nemusíme zjistit s pravděpodobností 20% a to je poměrně závažná mezera v informacích. Jako příklad uveďme následující hypotézy:

Kdy bychom měli testovat hypotézu non-inferiority?

H0: můj batoh NENÍ v mém pokoji (3)
H1: Můj batoh je v mém pokoji (4)

Kdybych prohledal svůj pokoj a našel svůj batoh, skvělé, můžu zahodit nulovou hypotézu. Ale když jsem se rozhlédl po místnosti a nemohl najít svůj batoh (obrázek 1), jaký závěr bych měl vyvodit? Jsem si jistý, že tam není? Hledal jsem dostatečně pečlivě? Co když jsem prohledal jen 80 % místnosti? Dospět k závěru, že v místnosti rozhodně není žádný batoh, by bylo unáhlené rozhodnutí. Není divu, že nemůžeme "přijmout nulovou hypotézu".
Kdy bychom měli testovat hypotézu non-inferiority?
Oblast, kterou jsme prohledali
Batoh jsme nenašli – máme přijmout nulovou hypotézu?

Obrázek 1. Prohledání 80 % místnosti je přibližně stejné jako hledání s 80 % výkonu. Pokud jste po prohlédnutí 80 % pokoje nenašli batoh, můžete usoudit, že tam není?

Co by tedy měl datový vědec v této situaci dělat? Můžete výrazně zvýšit sílu studie, ale pak budete potřebovat mnohem větší velikost vzorku a výsledek bude stále neuspokojivý.

Naštěstí jsou takové problémy již dlouho studovány ve světě klinického výzkumu. Lék B je levnější než lék A; očekává se, že lék B způsobí méně vedlejších účinků než lék A; lék B se snadněji přepravuje, protože nemusí být chlazený, ale lék A ano. Pojďme otestovat hypotézu non-inferiority. To má ukázat, že verze B je stejně dobrá jako verze A – alespoň v rámci nějakého předem stanoveného „ne méně účinného“ limitu, Δ. O tom, jak tento limit nastavit, si povíme o něco později. Ale zatím předpokládejme, že jde o minimální rozdíl, který je prakticky významný (v kontextu klinických studií se tomu obvykle říká klinická významnost).

Hypotézy o neméně účinnosti obracejí vše vzhůru nohama:

Kdy bychom měli testovat hypotézu non-inferiority?

Nyní místo toho, abychom předpokládali, že v tom není žádný rozdíl, předpokládáme, že verze B je horší než verze A, a tohoto předpokladu se budeme držet, dokud neprokážeme, že tomu tak není. To je přesně ten bod, kdy má smysl používat jednostranné testování hypotéz! V praxi to lze provést konstrukcí intervalu spolehlivosti a určením, zda je interval skutečně větší než Δ (obrázek 2).
Kdy bychom měli testovat hypotézu non-inferiority?

Volba Δ

Jak vybrat správné Δ? Proces výběru Δ zahrnuje statistické zdůvodnění a věcné hodnocení. Ve světě klinického výzkumu existují normativní směrnice, které naznačují, že delta by měla být nejmenším klinicky významným rozdílem – rozdílem, na kterém bude v praxi záležet. Zde je citát z evropské příručky, který si můžete vyzkoušet: „Pokud byl rozdíl vybrán správně, interval spolehlivosti, který leží zcela mezi –∆ a 0…, je stále dostatečný k prokázání neméně účinnosti. Pokud se tento výsledek nezdá přijatelný, znamená to, že ∆ nebylo zvoleno vhodně.“

Delta by rozhodně neměla překročit velikost účinku verze A vzhledem ke skutečné kontrole (placebo/žádná léčba), protože to nás vede k závěru, že verze B je horší než skutečná kontrola, a zároveň nevykazuje „neméně účinnost ". Předpokládejme, že když byla představena verze A, byla na jejím místě verze 0 nebo tato funkce vůbec neexistovala (viz obrázek 3).

Na základě výsledků testování hypotézy nadřazenosti byla odhalena velikost účinku E (tedy pravděpodobně μ^A−μ^0=E). Nyní je A náš nový standard a chceme se ujistit, že B je stejně dobrý jako A. Dalším způsobem, jak zapsat μB−μA≤−Δ (nulová hypotéza), je μB≤μA−Δ. Předpokládáme-li, že provádění je stejné nebo větší než E, pak μB ≤ μA−E ≤ placebo. Nyní vidíme, že náš odhad pro μB je zcela větší než μA−E, což tedy zcela vyvrací nulovou hypotézu a umožňuje nám dojít k závěru, že B není nižší než A, ale zároveň μB může být ≤ μ placebo, což není to, co potřebujeme. (Obrázek 3).

Kdy bychom měli testovat hypotézu non-inferiority?
Obrázek 3. Ukázka rizik volby hranice neméně účinné. Pokud je limit příliš velký, lze usoudit, že B není nižší než A, ale zároveň je nerozeznatelný od placeba. Nebudeme měnit lék, který je jednoznačně účinnější než placebo (A), za lék, který je stejně účinný jako placebo.

Volba α

Přejděme k volbě α. Můžete použít standardní hodnotu α = 0,05, ale to není úplně fér. Jako například, když si něco koupíte na internetu a použijete několik slevových kódů najednou, i když by se neměly sčítat – vývojář prostě udělal chybu a vy jste se z toho dostali. Podle pravidel musí být hodnota α rovna polovině hodnoty α, která se používá při testování hypotézy nadřazenosti, tedy 0,05 / 2 = 0,025.

Velikost vzorku

Jak odhadnout velikost vzorku? Pokud předpokládáte, že skutečný průměrný rozdíl mezi A a B je 0, pak je výpočet velikosti vzorku stejný jako v testu hypotézy nadřazenosti s tím rozdílem, že velikost účinku nahradíte limitem neméně účinnosti, za předpokladu, že použití α neméně efektivní = 1/2 α převaha (αneméněcennost=1/2αnadřazenost). Pokud máte důvod se domnívat, že možnost B může být o něco horší než možnost A, ale chcete dokázat, že není o více než Δ horší, pak máte štěstí! Ve skutečnosti to snižuje velikost vzorku, protože je snazší prokázat, že B je horší než A, pokud si ve skutečnosti myslíte, že je o něco horší, nikoli stejný.

Příklad řešení

Řekněme, že chcete upgradovat na verzi B za předpokladu, že není o více než 0,1 bodu horší než verze A na 5bodové škále spokojenosti zákazníků... Přistupme k tomuto problému pomocí hypotézy nadřazenosti.

Abychom otestovali hypotézu nadřazenosti, vypočítali bychom velikost vzorku následovně:

Kdy bychom měli testovat hypotézu non-inferiority?

To znamená, že pokud máte ve skupině 2103 pozorování, můžete si být na 90 % jisti, že najdete efekt 0,10 nebo více. Ale pokud je pro vás 0,10 příliš vysoká, nemusí mít cenu testovat hypotézu nadřazenosti. Možná budete chtít spustit studii pro menší velikost efektu, například 0,05. V tomto případě budete potřebovat 8407 pozorování, to znamená, že vzorek se zvětší téměř 4krát. Ale co když se budeme držet naší původní velikosti vzorku, ale zvýšíme sílu na 0,99, abychom nepochybovali, že dostaneme pozitivní výsledek? V tomto případě bude n pro jednu skupinu 3676, což je již lepší, ale zvětšuje velikost vzorku o více než 50 %. A v důsledku toho stále prostě nebudeme schopni vyvrátit nulovou hypotézu a nedostaneme odpověď na naši otázku.

Co když místo toho otestujeme hypotézu neméně účinnosti?

Kdy bychom měli testovat hypotézu non-inferiority?

Velikost vzorku bude vypočítána pomocí stejného vzorce s výjimkou jmenovatele.
Rozdíly od vzorce použitého při testování hypotézy nadřazenosti jsou následující:

- Z1−α/2 je nahrazeno Z1−α, ale pokud uděláte vše podle pravidel, nahradíte α = 0,05 α = 0,025, to znamená, že je to stejné číslo (1,96)

- objeví se ve jmenovateli (μB−μA)

- θ (velikost účinku) je nahrazena Δ (mez neméně účinnosti)

Pokud předpokládáme, že µB = µA, pak (µB − µA) = 0 a výpočet velikosti vzorku pro okraj non-inferiority je přesně to, co bychom dostali při výpočtu nadřazenosti pro velikost efektu 0,1, skvělé! Můžeme udělat studii stejného rozsahu s různými hypotézami a odlišným přístupem k závěrům a dostaneme odpověď na otázku, na kterou skutečně chceme odpovědět.

Nyní předpokládejme, že ve skutečnosti nevěříme, že µB = µA a
myslíme si, že µB je o něco horší, možná o 0,01 jednotky. To zvyšuje náš jmenovatel a snižuje velikost vzorku na skupinu na 1737.

Co se stane, když je verze B skutečně lepší než verze A? Odmítáme nulovou hypotézu, že B je horší než A o více než ∆ a přijímáme alternativní hypotézu, že B, je-li horší, není horší než ∆ a může být lepší. Zkuste tento závěr vložit do vícefunkční prezentace a uvidíte, co se stane (vážně, zkuste to). V situaci, kdy se potřebujete orientovat do budoucnosti, se nikdo nechce spokojit s „horším než Δ a možná i lepším“.

V tomto případě můžeme provést studii, která se nazývá velmi stručně „testování hypotézy, že jedna z možností je lepší nebo nižší než druhá“. Používá dvě sady hypotéz:

První sada (stejně jako při testování hypotézy o neméně účinnosti):

Kdy bychom měli testovat hypotézu non-inferiority?

Druhá sada (stejná jako při testování hypotézy nadřazenosti):

Kdy bychom měli testovat hypotézu non-inferiority?

Druhou hypotézu testujeme pouze v případě, že je první zamítnuta. Při sekvenčním testování zachováváme celkovou úroveň chyb typu I (α). V praxi toho lze dosáhnout vytvořením 95% intervalu spolehlivosti pro rozdíl mezi průměry a kontrolou, zda je celý interval větší než -Δ. Pokud interval nepřekročí -Δ, nemůžeme nulovou hodnotu odmítnout a zastavit. Pokud je celý interval skutečně větší než −Δ, budeme pokračovat a uvidíme, zda interval obsahuje 0.

Existuje další typ výzkumu, o kterém jsme nemluvili – studie ekvivalence.

Studie tohoto typu mohou být nahrazeny studiemi pro testování hypotézy o neméně účinnosti a naopak, ale samy o sobě mají důležitý rozdíl. Cílem testu non-inferiority je ukázat, že možnost B je přinejmenším stejně dobrá jako A. A studie ekvivalence má za cíl ukázat, že možnost B je přinejmenším stejně dobrá jako A a možnost A je stejně dobrá jako B, což je těžší. . V podstatě se snažíme určit, zda celý interval spolehlivosti pro rozdíl mezi průměry leží mezi −∆ a ∆. Takové studie vyžadují větší vzorky a provádějí se méně často. Takže až budete příště dělat studii, kde je vaším hlavním zájmem zajistit, aby nová verze byla stejně dobrá, nespokojte se s „nevyvrácením nulové hypotézy“. Pokud chcete otestovat opravdu důležitou hypotézu, zvažte různé možnosti.

Zdroj: www.habr.com

Přidat komentář