Wanneer moet ons die nie-minderwaardigheidhipotese toets?

Wanneer moet ons die nie-minderwaardigheidhipotese toets?
'n Artikel van die Stitch Fix-span stel voor om die nie-minderwaardigheidstoetsbenadering in bemarking en produk A/B-toetse te gebruik. Hierdie benadering is werklik van toepassing wanneer ons 'n nuwe oplossing toets wat voordele inhou wat nie deur toetse gemeet word nie.

Die eenvoudigste voorbeeld is kostevermindering. Ons outomatiseer byvoorbeeld die proses om die eerste les toe te ken, maar ons wil nie die einde-tot-einde-omskakeling aansienlik verminder nie. Of ons toets veranderinge wat op een segment gebruikers gerig is, terwyl ons seker maak dat omskakelings vir ander segmente nie veel daal nie (wanneer verskeie hipoteses getoets word, moenie van die wysigings vergeet nie).

Die keuse van die korrekte nie-minderwaardigheidsmarge voeg bykomende uitdagings tydens die toetsontwerpfase by. Die vraag hoe om Δ te kies, word nie baie goed in die artikel gedek nie. Dit blyk dat hierdie keuse ook nie heeltemal deursigtig is in kliniese proewe nie. Hersien mediese publikasies oor nie-minderwaardigheid meld dat slegs die helfte van die publikasies die keuse van grens regverdig, en dikwels is hierdie regverdigings dubbelsinnig of nie gedetailleerd nie.

In elk geval, hierdie benadering lyk interessant omdat ... deur die vereiste steekproefgrootte te verminder, kan dit die spoed van toetsing verhoog, en dus die spoed van besluitneming. — Daria Mukhina, produkontleder vir die Skyeng-mobiele toepassing.

Die Stitch Fix-span is mal daaroor om verskillende dinge te toets. Die hele tegnologiegemeenskap hou daarvan om in beginsel toetse uit te voer. Watter weergawe van die webwerf lok meer gebruikers - A of B? Maak weergawe A van die aanbevelingsmodel meer geld as weergawe B? Om hipoteses te toets, gebruik ons ​​byna altyd die eenvoudigste benadering van die basiese statistiekkursus:

Wanneer moet ons die nie-minderwaardigheidhipotese toets?

Alhoewel ons selde die term gebruik, word hierdie vorm van toetsing "superioriteit hipotese toetsing" genoem. Met hierdie benadering neem ons aan dat daar geen verskil tussen die twee opsies is nie. Ons hou by hierdie idee en laat vaar dit net as die data dwingend genoeg is om dit te doen - dit wil sê, dit demonstreer dat een van die opsies (A of B) beter is as die ander.

Die toetsing van die meerderwaardigheidhipotese is geskik vir 'n verskeidenheid probleme. Ons stel slegs weergawe B van 'n aanbevelingsmodel vry as dit duidelik beter is as weergawe A wat reeds in gebruik is, maar in sommige gevalle werk hierdie benadering nie so goed nie. Kom ons kyk na 'n paar voorbeelde.

1) Ons gebruik 'n derdeparty-diens, wat help om vervalste bankkaarte te identifiseer. Ons het 'n ander diens gevind wat aansienlik minder kos. As 'n goedkoper diens so goed werk as die een wat ons tans gebruik, sal ons dit kies. Dit hoef nie beter te wees as die diens wat jy gebruik nie.

2) Ons wil die databron laat vaar A en vervang dit met databron B. Ons kan uitstel om A te laat vaar as B baie slegte resultate lewer, maar dit is nie moontlik om voort te gaan om A te gebruik nie.

3) Ons wil graag van 'n modelleringsbenadering beweegA tot B se benadering nie omdat ons beter resultate van B verwag nie, maar omdat dit ons groter operasionele buigsaamheid gee. Ons het geen rede om te glo dat B erger sal wees nie, maar ons sal nie die oorgang maak as dit die geval is nie.

4) Ons het verskeie kwalitatiewe veranderinge aangebring in die webwerf-ontwerp (weergawe B) en glo dat hierdie weergawe beter is as weergawe A. Ons verwag nie veranderinge in omskakeling of enige van die sleutelprestasie-aanwysers waarvolgens ons tipies 'n webwerf evalueer nie. Maar ons glo dat daar voordele is in parameters wat óf onmeetbaar is óf ons tegnologie is nie voldoende om te meet nie.

In al hierdie gevalle is meerderwaardigheidsnavorsing nie die mees geskikte oplossing nie. Maar die meeste spesialiste in sulke situasies gebruik dit by verstek. Ons voer die eksperiment noukeurig uit om die grootte van die effek korrek te bepaal. As dit waar was dat weergawes A en B op baie soortgelyke maniere werk, is daar 'n kans dat ons sou misluk om die nulhipotese te verwerp. Kom ons tot die gevolgtrekking dat A en B basies dieselfde presteer? Geen! Versuim om die nulhipotese te verwerp en aanvaarding van die nulhipotese is nie dieselfde ding nie.

Steekproefgrootte-berekeninge (wat jy natuurlik gedoen het) word tipies gedoen met strenger grense vir Tipe I-fout (die waarskynlikheid om nie die nulhipotese te verwerp, wat dikwels alfa genoem word) as vir Tipe II-fout (die waarskynlikheid om nie te verwerp nie die nulhipotese, gegewe voorwaarde dat die nulhipotese vals is, dikwels beta genoem). Die tipiese waarde vir alfa is 0,05, terwyl die tipiese waarde vir beta 0,20 is, wat ooreenstem met 'n statistiese krag van 0,80. Dit beteken dat daar 'n 20%-kans is dat ons die ware effek van die hoeveelheid wat ons in ons kragberekeninge gespesifiseer het, sal mis, en dit is 'n redelik ernstige gaping in inligting. As voorbeeld, kom ons kyk na die volgende hipoteses:

Wanneer moet ons die nie-minderwaardigheidhipotese toets?

H0: my rugsak is NIE in my kamer nie (3)
H1: my rugsak is in my kamer (4)

As ek my kamer deursoek en my rugsak gevind het, wonderlik, ek kan die nulhipotese verwerp. Maar as ek in die kamer rondgekyk het en nie my rugsak kon kry nie (Figuur 1), watter gevolgtrekking moet ek maak? Is ek seker dit is nie daar nie? Het ek hard genoeg gekyk? Wat as ek net 80% van die kamer deursoek het? Om tot die gevolgtrekking te kom dat die rugsak beslis nie in die kamer is nie, sal 'n oorhaastige besluit wees. Geen wonder dat ons nie "die nulhipotese kan aanvaar nie."
Wanneer moet ons die nie-minderwaardigheidhipotese toets?
Die area wat ons deursoek het
Ons het nie die rugsak gekry nie – moet ons die nulhipotese aanvaar?

Figuur 1: Om 80% van 'n kamer te soek is min of meer dieselfde as om teen 80% krag te soek. As jy nie die rugsak kry nadat jy 80% van die kamer gekyk het nie, kan jy aflei dat dit nie daar is nie?

So, wat moet 'n datawetenskaplike in hierdie situasie doen? Jy kan die krag van die studie aansienlik verhoog, maar dan sal jy 'n baie groter steekproefgrootte nodig hê en die resultaat sal steeds onbevredigend wees.

Gelukkig word sulke probleme lank reeds in die wêreld van kliniese navorsing bestudeer. Geneesmiddel B is goedkoper as dwelm A; Daar word verwag dat geneesmiddel B minder newe-effekte sal veroorsaak as geneesmiddel A; dwelm B is makliker om te vervoer omdat dit nie verkoel hoef te word nie, maar dwelm A wel. Kom ons toets die hipotese van nie-minderwaardigheid. Dit is om te wys dat weergawe B net so goed soos weergawe A is—ten minste binne een of ander voorafbepaalde nie-minderwaardigheidsmarge, Δ. Ons sal 'n bietjie later meer praat oor hoe om hierdie limiet te stel. Maar vir nou, laat ons aanvaar dat dit die kleinste verskil is wat prakties betekenisvol is (in die konteks van kliniese proewe word dit gewoonlik kliniese betekenis genoem).

Nie-minderwaardigheidshipoteses keer alles op sy kop:

Wanneer moet ons die nie-minderwaardigheidhipotese toets?

Nou, in plaas daarvan om te aanvaar dat daar geen verskil is nie, sal ons aanvaar dat weergawe B erger as weergawe A is, en ons sal by hierdie aanname hou totdat ons demonstreer dat dit nie die geval is nie. Dit is presies die oomblik wanneer dit sin maak om eensydige hipotesetoetsing te gebruik! In die praktyk kan dit gedoen word deur 'n vertrouensinterval te konstrueer en te bepaal of die interval werklik groter as Δ is (Figuur 2).
Wanneer moet ons die nie-minderwaardigheidhipotese toets?

Kies Δ

Hoe om die regte Δ te kies? Die Δ-keuringsproses sluit statistiese regverdiging en substantiewe evaluering in. In die wêreld van kliniese navorsing is daar regulatoriese riglyne wat bepaal dat delta die kleinste klinies beduidende verskil moet verteenwoordig—een wat 'n verskil in die praktyk sal maak. Hier is 'n aanhaling uit die Europese riglyne om jouself mee te toets: “As die verskil korrek gekies is, is 'n vertrouensinterval wat geheel en al tussen –∆ en 0 … lê, steeds voldoende om nie-minderwaardigheid te demonstreer. As hierdie resultaat nie aanvaarbaar lyk nie, beteken dit dat ∆ nie toepaslik gekies is nie.”

Die delta moet beslis nie die effekgrootte van weergawe A in verhouding tot die ware kontrole (plasebo/geen behandeling) oorskry nie, aangesien dit ons daartoe lei om te sê dat weergawe B erger is as die ware kontrole, terwyl dit terselfdertyd "nie-minderwaardigheid" demonstreer .” Kom ons neem aan dat toe weergawe A bekendgestel is, dit deur weergawe 0 vervang is of die kenmerk het glad nie bestaan ​​nie (sien Figuur 3).

Gebaseer op die resultate van die toetsing van die superioriteithipotese, is die effekgrootte E geopenbaar (dit wil sê, vermoedelik μ^A−μ^0=E). Nou is A ons nuwe standaard, en ons wil seker maak dat B so goed soos A is. Nog 'n manier om μB−μA≤−Δ (nulhipotese) te skryf, is μB≤μA−Δ. As ons aanneem dat do gelyk is aan of groter as E, dan is μB ≤ μA−E ≤ placebo. Nou sien ons dat ons skatting vir μB heeltemal μA−E oorskry, wat daardeur die nulhipotese heeltemal verwerp en ons toelaat om tot die gevolgtrekking te kom dat B so goed soos A is, maar terselfdertyd kan μB ≤ μ placebo wees, wat nie die geval wat het ons nodig. (Figuur 3).

Wanneer moet ons die nie-minderwaardigheidhipotese toets?
Figuur 3. Demonstrasie van die risiko's van die keuse van 'n nie-minderwaardigheidsmarge. As die afsnypunt te hoog is, kan die gevolgtrekking gemaak word dat B nie minderwaardig is as A nie, maar terselfdertyd nie van placebo onderskei kan word nie. Ons sal nie 'n middel wat duidelik meer doeltreffend as placebo (A) is, verruil vir 'n middel wat so effektief soos placebo is nie.

Keuse van α

Kom ons gaan voort met die keuse van α. Jy kan die standaardwaarde α = 0,05 gebruik, maar dit is nie heeltemal regverdig nie. Soos byvoorbeeld wanneer jy iets aanlyn koop en verskeie afslagkodes gelyktydig gebruik, hoewel hulle nie gekombineer moet word nie - die ontwikkelaar het net 'n fout gemaak, en jy het daarmee weggekom. Volgens die reëls moet die waarde van α gelyk wees aan die helfte van die waarde van α wat gebruik word wanneer die superioriteithipotese getoets word, dit wil sê 0,05 / 2 = 0,025.

Steekproefgrootte

Hoe om steekproefgrootte te skat? As jy glo dat die ware gemiddelde verskil tussen A en B 0 is, dan is die steekproefgrootte berekening dieselfde as wanneer die superioriteithipotese getoets word, behalwe dat jy die effekgrootte vervang met die nie-minderwaardigheidsmarge, mits jy gebruik αnie-minderwaardige doeltreffendheid = 1/2αsuperioriteit (αnie-minderwaardigheid=1/2αmeerderwaardigheid). As jy rede het om te glo dat opsie B effens erger as opsie A kan wees, maar jy wil bewys dat dit met nie meer as Δ erger is nie, dan is jy gelukkig! Dit verminder eintlik jou steekproefgrootte, want dit is makliker om te demonstreer dat B erger as A is as jy eintlik dink dit is effens erger eerder as gelyk.

Voorbeeld met oplossing

Kom ons sê jy wil opgradeer na weergawe B, mits dit nie meer as 0,1 punt swakker is as weergawe A op 'n 5-punt kliëntetevredenheidskaal nie... Kom ons benader hierdie probleem deur die superioriteithipotese te gebruik.

Om die superioriteithipotese te toets, sal ons die steekproefgrootte soos volg bereken:

Wanneer moet ons die nie-minderwaardigheidhipotese toets?

Dit wil sê, as jy 2103 waarnemings in jou groep het, kan jy 90% vol vertroue wees dat jy 'n effekgrootte van 0,10 of groter sal vind. Maar as 0,10 vir jou te hoog is, is dit dalk nie die moeite werd om die superioriteithipotese te toets nie. Om aan die veilige kant te wees, kan jy besluit om die studie uit te voer vir 'n kleiner effekgrootte, soos 0,05. In hierdie geval sal jy 8407 waarnemings nodig hê, dit wil sê, die monster sal byna 4 keer toeneem. Maar wat as ons by ons oorspronklike steekproefgrootte hou, maar die krag tot 0,99 verhoog sodat ons veilig sou wees as ons 'n positiewe resultaat kry? In hierdie geval sal n vir een groep 3676 wees, wat reeds beter is, maar die steekproefgrootte met meer as 50% vergroot. En as gevolg daarvan sal ons steeds eenvoudig nie die nulhipotese kan weerlê nie, en ons sal nie 'n antwoord op ons vraag ontvang nie.

Wat as ons eerder die nie-minderwaardigheidhipotese getoets het?

Wanneer moet ons die nie-minderwaardigheidhipotese toets?

Die steekproefgrootte sal met dieselfde formule bereken word, behalwe vir die noemer.
Die verskille van die formule wat gebruik word om die superioriteithipotese te toets, is soos volg:

— Z1−α/2 word deur Z1−α vervang, maar as jy alles volgens die reëls doen, vervang jy α = 0,05 met α = 0,025, dit wil sê, dit is dieselfde getal (1,96)

— (μB−μA) verskyn in die noemer

— θ (effekgrootte) word vervang deur Δ (marge of non-inferiority)

As ons aanneem dat µB = µA, dan (µB − µA) = 0 en die steekproefgrootte-berekening vir die nie-minderwaardigheidsmarge is presies wat ons sou kry as ons meerderwaardigheid vir 'n effekgrootte van 0,1 bereken het, wonderlik! Ons kan 'n studie van dieselfde grootte doen met verskillende hipoteses en 'n ander benadering tot gevolgtrekkings, en ons sal die antwoord kry op die vraag wat ons regtig wil beantwoord.

Gestel nou ons dink nie eintlik dat µB = µA en nie
Ons dink dat µB 'n bietjie erger is, miskien met 0,01 eenhede. Dit verhoog ons noemer en verminder die steekproefgrootte per groep tot 1737 XNUMX.

Wat gebeur as weergawe B eintlik beter is as weergawe A? Ons verwerp die nulhipotese dat B erger as A is met meer as Δ en aanvaar die alternatiewe hipotese dat B, indien erger, nie slegter as A by Δ is nie en dalk beter kan wees. Probeer om hierdie gevolgtrekking in 'n kruisfunksionele aanbieding te plaas en kyk wat gebeur (ernstig, probeer dit). In 'n toekomsgerigte situasie wil niemand tevrede wees met "nie meer as Δ slegter en miskien beter nie."

In hierdie geval kan ons 'n studie uitvoer, wat baie kortliks genoem word "toets die hipotese dat een van die opsies beter of minderwaardig is as die ander." Dit gebruik twee stelle hipoteses:

Eerste stel (dieselfde as om die nie-minderwaardigheid hipotese te toets):

Wanneer moet ons die nie-minderwaardigheidhipotese toets?

Tweede stel (dieselfde as wanneer die superioriteithipotese getoets word):

Wanneer moet ons die nie-minderwaardigheidhipotese toets?

Ons toets die tweede hipotese slegs as die eerste een verwerp word. Wanneer ons opeenvolgend toets, handhaaf ons die algehele tipe I-foutkoers (α). In die praktyk kan dit bereik word deur 'n 95% vertrouensinterval te skep vir die verskil tussen die gemiddeldes en toetsing om te bepaal of die hele interval groter as -Δ is. As die interval nie -Δ oorskry nie, kan ons nie die nulwaarde verwerp en stop nie. As die hele interval inderdaad groter as −Δ is, sal ons voortgaan en kyk of die interval 0 bevat.

Daar is 'n ander soort navorsing wat ons nie bespreek het nie - ekwivalensiestudies.

Hierdie tipe studies kan vervang word deur nie-minderwaardigheidsstudies en omgekeerd, maar hulle het eintlik 'n belangrike verskil. 'n Nie-minderwaardigheidsproef het ten doel om te wys dat opsie B ten minste so goed soos A is. 'n Ekwivalensieproef het ten doel om te wys dat opsie B ten minste so goed soos A is. Opsie A is so goed soos B, wat moeiliker is. In wese probeer ons vasstel of die hele vertrouensinterval vir die verskil in gemiddeldes tussen −Δ en Δ lê. Sulke studies vereis 'n groter steekproefgrootte en word minder gereeld uitgevoer. So die volgende keer as jy 'n studie doen waarin jou hoofdoel is om te verseker dat die nuwe weergawe nie erger is nie, moenie tevrede wees met "versuim om die nulhipotese te verwerp nie." As jy 'n baie belangrike hipotese wil toets, oorweeg verskillende opsies.

Bron: will.com

Voeg 'n opmerking