Când ar trebui să testăm ipoteza de non-inferioritate?

Când ar trebui să testăm ipoteza de non-inferioritate?
Un articol al echipei Stitch Fix sugerează utilizarea abordării testelor de non-inferioritate în testele de marketing și A/B ale produselor. Această abordare se aplică cu adevărat atunci când testăm o nouă soluție care are beneficii care nu sunt măsurate prin teste.

Cel mai simplu exemplu este reducerea costurilor. De exemplu, automatizăm procesul de atribuire a primei lecții, dar nu dorim să reducem semnificativ conversia end-to-end. Sau testăm modificările care vizează un segment de utilizatori, asigurându-ne în același timp că conversiile pentru alte segmente nu scad mult (atunci când testați mai multe ipoteze, nu uitați de modificări).

Selectarea marjei corecte de non-inferioritate adaugă provocări suplimentare în timpul fazei de proiectare a testului. Întrebarea cum să alegeți Δ nu este foarte bine tratată în articol. Se pare că această alegere nu este complet transparentă nici în studiile clinice. Revizuire publicațiile medicale despre non-inferioritate raportează că doar jumătate dintre publicații justifică alegerea graniței și adesea aceste justificări sunt ambigue sau nu sunt detaliate.

În orice caz, această abordare pare interesantă pentru că... prin reducerea dimensiunii eșantionului necesar, poate crește viteza de testare și, prin urmare, viteza de luare a deciziilor. — Daria Mukhina, analist de produs pentru aplicația mobilă Skyeng.

Echipa Stitch Fix îi place să testeze diferite lucruri. Întreaga comunitate tehnologică adoră să ruleze teste în principiu. Ce versiune a site-ului atrage mai mulți utilizatori - A sau B? Versiunea A a modelului de recomandare face mai mulți bani decât versiunea B? Pentru a testa ipoteze, folosim aproape întotdeauna cea mai simplă abordare din cursul de statistică de bază:

Când ar trebui să testăm ipoteza de non-inferioritate?

Deși folosim rar termenul, această formă de testare se numește „testarea ipotezei de superioritate”. Prin această abordare, presupunem că nu există nicio diferență între cele două opțiuni. Rămânem cu această idee și o abandonăm doar dacă datele sunt suficient de convingătoare pentru a face acest lucru - adică demonstrează că una dintre opțiuni (A sau B) este mai bună decât cealaltă.

Testarea ipotezei superiorității este potrivită pentru o varietate de probleme. Lansăm versiunea B a unui model de recomandare doar dacă este în mod clar mai bună decât versiunea A care este deja utilizată. Dar, în unele cazuri, această abordare nu funcționează atât de bine. Să ne uităm la câteva exemple.

1) Folosim un serviciu terță parte, care ajută la identificarea cardurilor bancare contrafăcute. Am găsit un alt serviciu care costă mult mai puțin. Dacă un serviciu mai ieftin funcționează la fel de bine ca cel pe care îl folosim în prezent, îl vom alege. Nu trebuie să fie mai bun decât serviciul pe care îl utilizați.

2) Dorim să renunțăm la sursa de date A și înlocuiți-o cu sursa de date B. Am putea întârzia abandonarea A dacă B produce rezultate foarte proaste, dar nu este posibil să continuați să utilizați A.

3) Am dori să trecem de la o abordare de modelareAbordarea lui A la B nu pentru că ne așteptăm la rezultate mai bune de la B, ci pentru că ne oferă o mai mare flexibilitate operațională. Nu avem niciun motiv să credem că B va fi mai rău, dar nu vom face tranziția dacă acesta este cazul.

4) Am făcut câteva modificări calitative în designul site-ului web (versiunea B) și considerăm că această versiune este superioară versiunii A. Nu ne așteptăm la schimbări în conversie sau la oricare dintre indicatorii cheie de performanță prin care evaluăm de obicei un site web. Dar credem că există beneficii în parametrii care fie sunt nemăsurabile, fie tehnologia noastră nu este suficientă pentru măsurare.

În toate aceste cazuri, cercetarea superiorității nu este soluția cea mai potrivită. Dar majoritatea specialiștilor în astfel de situații îl folosesc implicit. Efectuăm cu atenție experimentul pentru a determina corect dimensiunea efectului. Dacă ar fi adevărat că versiunile A și B funcționează în moduri foarte asemănătoare, există șansa să nu respingem ipoteza nulă. Tragem concluzia că A și B funcționează practic la fel? Nu! Eșecul de a respinge ipoteza nulă și acceptarea ipotezei nule nu sunt același lucru.

Calculele dimensiunii eșantionului (pe care, desigur, le-ați făcut) sunt în general efectuate cu limite mai strânse pentru eroarea de tip I (probabilitatea de a nu respinge ipoteza nulă, adesea numită alfa) decât pentru eroarea de tip II (probabilitatea de a nu respinge respinge ipoteza nulă, cu condiția ca ipoteza nulă să fie falsă, numită adesea beta). Valoarea tipică pentru alfa este 0,05, în timp ce valoarea tipică pentru beta este 0,20, corespunzând unei puteri statistice de 0,80. Aceasta înseamnă că există o șansă de 20% să pierdem efectul real al cantității pe care am specificat-o în calculele noastre de putere și acesta este un decalaj destul de serios în informații. Ca exemplu, să luăm în considerare următoarele ipoteze:

Când ar trebui să testăm ipoteza de non-inferioritate?

H0: rucsacul meu NU este în camera mea (3)
H1: rucsacul meu este în camera mea (4)

Dacă am căutat în camera mea și mi-am găsit rucsacul, grozav, pot respinge ipoteza nulă. Dar dacă m-am uitat prin cameră și nu mi-am găsit rucsacul (Figura 1), ce concluzie ar trebui să trag? Sunt sigur că nu este acolo? M-am uitat destul de bine? Ce se întâmplă dacă aș căuta doar 80% din cameră? Concluzia că rucsacul cu siguranță nu este în cameră ar fi o decizie pripită. Nu e de mirare că nu putem „accepta ipoteza nulă”.
Când ar trebui să testăm ipoteza de non-inferioritate?
Zona pe care am căutat-o
Nu am găsit rucsacul - ar trebui să acceptăm ipoteza nulă?

Figura 1: Căutarea în 80% dintr-o cameră este aproximativ aceeași cu căutarea la 80% putere. Dacă nu găsești rucsacul după ce ai căutat 80% din cameră, poți trage concluzia că nu este acolo?

Deci, ce ar trebui să facă un cercetător de date în această situație? Puteți crește foarte mult puterea studiului, dar atunci veți avea nevoie de o dimensiune a eșantionului mult mai mare și rezultatul va fi în continuare nesatisfăcător.

Din fericire, astfel de probleme au fost de mult studiate în lumea cercetării clinice. Medicamentul B este mai ieftin decât medicamentul A; Este de așteptat ca medicamentul B să provoace mai puține efecte secundare decât medicamentul A; medicamentul B este mai ușor de transportat deoarece nu trebuie să fie refrigerat, dar medicamentul A o face. Să testăm ipoteza non-inferiorității. Acest lucru este pentru a arăta că versiunea B este la fel de bună ca și versiunea A - cel puțin într-o marjă de non-inferioritate predefinită, Δ. Vom vorbi mai multe despre cum să setăm această limită puțin mai târziu. Dar deocamdată să presupunem că aceasta este cea mai mică diferență care este practic semnificativă (în contextul studiilor clinice, aceasta se numește de obicei semnificație clinică).

Ipotezele de non-inferioritate întorc totul pe cap:

Când ar trebui să testăm ipoteza de non-inferioritate?

Acum, în loc să presupunem că nu există nicio diferență, vom presupune că versiunea B este mai proastă decât versiunea A și vom rămâne cu această ipoteză până când vom demonstra că nu este cazul. Acesta este exact momentul în care are sens să folosiți testarea ipotezelor unilaterale! În practică, acest lucru se poate realiza prin construirea unui interval de încredere și determinând dacă intervalul este de fapt mai mare decât Δ (Figura 2).
Când ar trebui să testăm ipoteza de non-inferioritate?

Selectați Δ

Cum să alegi Δ potrivit? Procesul de selecție Δ include justificarea statistică și evaluarea de fond. În lumea cercetării clinice, există linii directoare de reglementare care dictează că delta ar trebui să reprezinte cea mai mică diferență semnificativă clinic - una care va face o diferență în practică. Iată un citat din ghidurile europene cu care să te testezi: „Dacă diferența a fost aleasă corect, un interval de încredere care se află în întregime între –∆ și 0... este încă suficient pentru a demonstra non-inferioritatea. Dacă acest rezultat nu pare acceptabil, înseamnă că ∆ nu a fost selectat corespunzător.”

Delta nu ar trebui să depășească mărimea efectului versiunii A în raport cu adevăratul control (placebo/fără tratament), deoarece acest lucru ne face să spunem că versiunea B este mai proastă decât adevăratul control, demonstrând în același timp „non-inferioritate”. .” Să presupunem că atunci când a fost introdusă versiunea A, a fost înlocuită cu versiunea 0 sau caracteristica nu a existat deloc (vezi Figura 3).

Pe baza rezultatelor testării ipotezei de superioritate, a fost dezvăluită mărimea efectului E (adică, probabil μ^A−μ^0=E). Acum A este noul nostru standard și vrem să ne asigurăm că B este la fel de bun ca A. O altă modalitate de a scrie μB−μA≤−Δ (ipoteza nulă) este μB≤μA−Δ. Dacă presupunem că do este egal sau mai mare decât E, atunci μB ≤ μA−E ≤ placebo. Acum vedem că estimarea noastră pentru μB depășește complet μA−E, ceea ce respinge complet ipoteza nulă și ne permite să concluzionam că B este la fel de bun ca A, dar în același timp μB poate fi ≤ μ placebo, ceea ce nu este caz.ce avem nevoie. (Figura 3).

Când ar trebui să testăm ipoteza de non-inferioritate?
Figura 3. Demonstrarea riscurilor alegerii unei marje de non-inferioritate. Dacă limita este prea mare, se poate concluziona că B nu este inferior lui A, dar în același timp nu se poate distinge de placebo. Nu vom schimba un medicament care este în mod clar mai eficient decât placebo (A) cu un medicament care este la fel de eficient ca placebo.

Alegerea α

Să trecem la alegerea α. Puteți utiliza valoarea standard α = 0,05, dar acest lucru nu este în întregime corect. Ca, de exemplu, atunci când cumpărați ceva online și utilizați mai multe coduri de reducere simultan, deși nu ar trebui combinate - dezvoltatorul tocmai a făcut o greșeală și ați scăpat cu ea. Conform regulilor, valoarea lui α ar trebui să fie egală cu jumătate din valoarea lui α care este utilizată la testarea ipotezei de superioritate, adică 0,05 / 2 = 0,025.

Marime de mostra

Cum se estimează dimensiunea eșantionului? Dacă credeți că adevărata diferență medie dintre A și B este 0, atunci calculul dimensiunii eșantionului este același ca și atunci când testați ipoteza superiorității, cu excepția faptului că înlocuiți dimensiunea efectului cu marja de non-inferioritate, cu condiția să utilizați randament αnon-inferior = 1/2αsuperioritate (αnon-inferioritate=1/2αsuperioritate). Dacă aveți motive să credeți că opțiunea B ar putea fi puțin mai proastă decât opțiunea A, dar doriți să demonstrați că este mai proastă cu cel mult Δ, atunci aveți noroc! Acest lucru reduce de fapt dimensiunea eșantionului, deoarece este mai ușor să demonstrezi că B este mai rău decât A dacă de fapt crezi că este puțin mai rău decât egal.

Exemplu cu soluție

Să presupunem că doriți să faceți upgrade la versiunea B, cu condiția ca acesta să fie cu nu mai mult de 0,1 puncte mai rău decât versiunea A pe o scară de satisfacție a clienților de 5 puncte... Să abordăm această problemă folosind ipoteza superiorității.

Pentru a testa ipoteza superiorității, am calcula dimensiunea eșantionului după cum urmează:

Când ar trebui să testăm ipoteza de non-inferioritate?

Adică, dacă aveți 2103 observații în grupul dvs., puteți fi 90% sigur că veți găsi o dimensiune a efectului de 0,10 sau mai mare. Dar dacă 0,10 este prea mare pentru tine, poate că nu merită să testezi ipoteza superiorității. Pentru a fi sigur, ați putea decide să rulați studiul pentru o dimensiune mai mică a efectului, cum ar fi 0,05. În acest caz, veți avea nevoie de 8407 de observații, adică eșantionul va crește de aproape 4 ori. Dar ce se întâmplă dacă ne rămânem la dimensiunea eșantionului nostru original, dar am crește puterea la 0,99, astfel încât să fim în siguranță dacă obținem un rezultat pozitiv? În acest caz, n pentru un grup va fi 3676, ceea ce este deja mai bun, dar crește dimensiunea eșantionului cu mai mult de 50%. Și, ca urmare, pur și simplu nu vom putea respinge ipoteza nulă și nu vom primi un răspuns la întrebarea noastră.

Ce se întâmplă dacă am testa în schimb ipoteza de non-inferioritate?

Când ar trebui să testăm ipoteza de non-inferioritate?

Mărimea eșantionului va fi calculată folosind aceeași formulă, cu excepția numitorului.
Diferențele față de formula utilizată pentru a testa ipoteza superiorității sunt următoarele:

— Z1−α/2 este înlocuit cu Z1−α, dar dacă faceți totul conform regulilor, înlocuiți α = 0,05 cu α = 0,025, adică este același număr (1,96)

— (μB−μA) apare la numitor

— θ (dimensiunea efectului) este înlocuită cu Δ (marja de neinferioritate)

Dacă presupunem că µB = µA, atunci (µB − µA) = 0 și calculul mărimii eșantionului pentru marja de non-inferioritate este exact ceea ce am obține dacă am calcula superioritatea pentru o dimensiune a efectului de 0,1, grozav! Putem face un studiu de aceeași dimensiune cu ipoteze diferite și o abordare diferită a concluziilor și vom obține răspunsul la întrebarea la care dorim cu adevărat să răspundem.

Acum să presupunem că nu credem că µB = µA și
Credem că µB este puțin mai rău, poate cu 0,01 unități. Acest lucru mărește numitorul nostru, reducând dimensiunea eșantionului per grup la 1737.

Ce se întâmplă dacă versiunea B este de fapt mai bună decât versiunea A? Respingem ipoteza nulă că B este mai rău decât A cu mai mult de Δ și acceptăm ipoteza alternativă că B, dacă este mai rău, nu este mai rău decât A cu Δ și poate fi mai bun. Încercați să puneți această concluzie într-o prezentare interfuncțională și vedeți ce se întâmplă (serios, încercați). Într-o situație de perspectivă, nimeni nu vrea să se mulțumească cu „nu mai mult de Δ mai rău și poate mai bun”.

În acest caz, putem efectua un studiu, care se numește foarte pe scurt „testarea ipotezei că una dintre opțiuni este superioară sau inferioară celeilalte”. Utilizează două seturi de ipoteze:

Primul set (la fel cu testarea ipotezei de non-inferioritate):

Când ar trebui să testăm ipoteza de non-inferioritate?

Al doilea set (la fel ca la testarea ipotezei de superioritate):

Când ar trebui să testăm ipoteza de non-inferioritate?

Testăm a doua ipoteză numai dacă prima este respinsă. Când testăm secvențial, menținem rata generală de eroare de tip I (α). În practică, acest lucru poate fi realizat prin crearea unui interval de încredere de 95% pentru diferența dintre medii și testare pentru a determina dacă întregul interval este mai mare decât -Δ. Dacă intervalul nu depășește -Δ, nu putem respinge valoarea nulă și nu putem opri. Dacă întregul interval este într-adevăr mai mare decât −Δ, vom continua și vom vedea dacă intervalul conține 0.

Există un alt tip de cercetare despre care nu am discutat - studiile de echivalență.

Aceste tipuri de studii pot fi înlocuite cu studii de non-inferioritate și invers, dar de fapt au o diferență importantă. Un studiu de non-inferioritate urmărește să arate că opțiunea B este cel puțin la fel de bună ca A. Un studiu de echivalență își propune să arate că opțiunea B este cel puțin la fel de bună ca A. Opțiunea A este la fel de bună ca B, ceea ce este mai dificil. În esență, încercăm să determinăm dacă întregul interval de încredere pentru diferența de medii se află între −Δ și Δ. Astfel de studii necesită o dimensiune mai mare a eșantionului și sunt efectuate mai rar. Așa că data viitoare când efectuați un studiu în care scopul principal este să vă asigurați că noua versiune nu este mai proastă, nu vă mulțumiți cu „eșecul de a respinge ipoteza nulă”. Dacă doriți să testați o ipoteză cu adevărat importantă, luați în considerare diferite opțiuni.

Sursa: www.habr.com

Adauga un comentariu