Hvenær ættum við að prófa ólægri tilgátuna?

Hvenær ættum við að prófa ólægri tilgátuna?
Í grein frá Stitch Fix teyminu er stungið upp á því að nota prófunaraðferðina sem ekki er óæðri í markaðssetningu og A/B prófum á vörum. Þessi nálgun á í raun við þegar við erum að prófa nýja lausn sem hefur ávinning sem er ekki mældur með prófum.

Einfaldasta dæmið er lækkun kostnaðar. Til dæmis gerum við sjálfvirkan ferlið við að úthluta fyrstu kennslustundinni, en við viljum ekki draga verulega úr umbreytingum frá enda til enda. Eða við prófum breytingar sem miða að einum hluta notenda, á sama tíma og við tryggjum að viðskipti fyrir aðra hluti falli ekki mikið (þegar prófað nokkrar tilgátur, ekki gleyma breytingunum).

Að velja rétta framlegð sem ekki er minnimáttarkennd bætir við fleiri áskorunum á meðan á prófunarhönnun stendur. Spurningin um hvernig á að velja Δ er ekki mjög vel fjallað í greininni. Svo virðist sem þetta val sé heldur ekki alveg gegnsætt í klínískum rannsóknum. Skoða Í læknaritum um óæðri stöðu er greint frá því að aðeins helmingur ritanna réttlæti val á mörkum og oft eru þessar röksemdir óljósar eða ekki ítarlegar.

Í öllum tilvikum virðist þessi nálgun áhugaverð vegna þess að... með því að minnka nauðsynlega úrtaksstærð getur það aukið hraða prófunar og þar af leiðandi hraða ákvarðanatöku. — Daria Mukhina, vörusérfræðingur fyrir Skyeng farsímaforritið.

Stitch Fix teymið elskar að prófa mismunandi hluti. Allt tæknisamfélagið elskar að keyra próf í grundvallaratriðum. Hvaða útgáfa af síðunni laðar að fleiri notendur - A eða B? Er útgáfa A af meðmælalíkaninu meiri peningar en útgáfa B? Til að prófa tilgátur notum við næstum alltaf einföldustu aðferðina úr grunntölfræðinámskeiðinu:

Hvenær ættum við að prófa ólægri tilgátuna?

Þó að við notum hugtakið sjaldan, er þetta form próf kallað "yfirburðstilgátupróf." Með þessari nálgun gerum við ráð fyrir að enginn munur sé á þessum tveimur valkostum. Við höldum okkur við þessa hugmynd og yfirgefum hana aðeins ef gögnin eru nógu sannfærandi til að gera það - það er að segja að það sýnir að annar valmöguleikinn (A eða B) er betri en hinn.

Að prófa yfirburðitilgátuna hentar fyrir margvísleg vandamál. Við gefum bara út útgáfu B af meðmælalíkani ef hún er greinilega betri en útgáfa A sem er þegar í notkun. En í sumum tilfellum virkar þessi aðferð ekki svo vel. Við skulum skoða nokkur dæmi.

1) Við notum þriðja aðila þjónustu, sem hjálpar til við að bera kennsl á fölsuð bankakort. Við fundum aðra þjónustu sem kostar verulega minna. Ef ódýrari þjónusta virkar eins vel og sú sem við notum núna, veljum við hana. Það þarf ekki að vera betra en þjónustan sem þú ert að nota.

2) Við viljum yfirgefa gagnagjafann A og skiptu honum út fyrir gagnagjafa B. Við gætum seinkað því að yfirgefa A ef B skilar mjög slæmum árangri, en það er ekki hægt að halda áfram að nota A.

3) Okkur langar til að fara frá líkanaaðferðNálgun A til B er ekki vegna þess að við búumst við betri árangri frá B, heldur vegna þess að hún veitir okkur meiri sveigjanleika í rekstri. Við höfum enga ástæðu til að ætla að B verði verri, en við munum ekki gera umskiptin ef svo verður.

4) Við höfum gert nokkrar eigindlegar breytingar inn í vefsíðuhönnun (útgáfa B) og teljum að þessi útgáfa sé betri en útgáfa A. Við búumst ekki við breytingum á umbreytingum eða neinum af lykilframmistöðuvísunum sem við metum venjulega vefsíðu eftir. En við teljum að það sé ávinningur í breytum sem eru annað hvort ómælanlegar eða tæknin okkar er ekki nægjanleg til að mæla.

Í öllum þessum tilfellum eru yfirburðarannsóknir ekki heppilegasta lausnin. En flestir sérfræðingar í slíkum aðstæðum nota það sjálfgefið. Við gerum tilraunina vandlega til að ákvarða stærð áhrifanna rétt. Ef það væri rétt að útgáfur A og B virka á mjög svipaðan hátt, þá eru líkur á að okkur myndi mistekist að hafna núlltilgátunni. Komumst við að þeirri niðurstöðu að A og B standi í grundvallaratriðum það sama? Nei! Misbrestur á að hafna núlltilgátunni og samþykki núlltilgátunnar er ekki það sama.

Úrtaksstærðarútreikningar (sem þú hefur auðvitað gert) eru almennt gerðir með þrengri mörk fyrir villu af tegund I (líkur á að ekki takist að hafna núlltilgátunni, oft kölluð alfa) en fyrir villu af tegund II (líkur á að mistakast hafna núlltilgátunni, að því gefnu að núlltilgátan sé röng, oft kölluð beta). Dæmigerð gildi fyrir alfa er 0,05, en dæmigerð gildi fyrir beta er 0,20, sem samsvarar tölfræðilegu veldi 0,80. Þetta þýðir að það eru 20% líkur á að við missum af raunverulegum áhrifum þess magns sem við höfum tilgreint í aflútreikningum okkar og það er nokkuð alvarlegt gjá í upplýsingum. Sem dæmi skulum við íhuga eftirfarandi tilgátur:

Hvenær ættum við að prófa ólægri tilgátuna?

H0: bakpokinn minn er EKKI í herberginu mínu (3)
H1: bakpokinn minn er í herberginu mínu (4)

Ef ég leitaði í herberginu mínu og fann bakpokann minn, frábært, ég get hafnað núlltilgátunni. En ef ég leit í kringum mig í herberginu og fann ekki bakpokann minn (Mynd 1), hvaða ályktun ætti ég að draga? Er ég viss um að það sé ekki þarna? Leit ég nógu vel? Hvað ef ég leitaði aðeins í 80% af herberginu? Að álykta að bakpokinn sé örugglega ekki í herberginu væri bráðskemmtileg ákvörðun. Engin furða að við getum ekki „samþykkt núlltilgátuna“.
Hvenær ættum við að prófa ólægri tilgátuna?
Svæðið sem við leituðum
Við fundum ekki bakpokann - eigum við að samþykkja núlltilgátuna?

Mynd 1: Að leita í 80% af herbergi er nokkurn veginn það sama og að leita með 80% afli. Ef þú finnur ekki bakpokann eftir að hafa skoðað 80% af herberginu, geturðu ályktað að hann sé ekki þar?

Svo hvað ætti gagnafræðingur að gera í þessum aðstæðum? Þú getur aukið kraft rannsóknarinnar til muna, en þá þarftu mun stærri úrtaksstærð og niðurstaðan verður samt ófullnægjandi.

Sem betur fer hafa slík vandamál lengi verið rannsökuð í heimi klínískra rannsókna. Lyf B er ódýrara en lyf A; Gert er ráð fyrir að lyf B valdi færri aukaverkunum en lyf A; lyf B er auðveldara að flytja vegna þess að það þarf ekki að geyma það í kæli, en lyf A gerir það. Prófum tilgátuna um óæðri stöðu. Þetta er til að sýna að útgáfa B er alveg jafn góð og útgáfa A - að minnsta kosti innan einhverra fyrirfram skilgreindra ólægra marka, Δ. Við munum tala meira um hvernig á að setja þessi mörk aðeins síðar. En í bili skulum við gera ráð fyrir að þetta sé minnsti munur sem er nánast þýðingarmikill (í samhengi við klínískar rannsóknir er þetta venjulega kallað klínísk þýðing).

Tilgátur um ekki minnimáttarkennd setja allt á hausinn:

Hvenær ættum við að prófa ólægri tilgátuna?

Nú, í stað þess að gera ráð fyrir að það sé enginn munur, munum við gera ráð fyrir að útgáfa B sé verri en útgáfa A, og við munum halda okkur við þessa forsendu þar til við sýnum fram á að svo sé ekki. Þetta er einmitt augnablikið þegar skynsamlegt er að nota einhliða tilgátuprófun! Í reynd er hægt að gera þetta með því að búa til öryggisbil og ákvarða hvort bilið sé í raun stærra en Δ (Mynd 2).
Hvenær ættum við að prófa ólægri tilgátuna?

Veldu Δ

Hvernig á að velja rétta Δ? Δ valferlið felur í sér tölfræðilega rökstuðning og efnislegt mat. Í heimi klínískra rannsókna eru reglur sem segja til um að delta ætti að tákna minnsta klíníska marktæka muninn - einn sem mun skipta máli í reynd. Hér er tilvitnun í evrópsku viðmiðunarreglurnar til að prófa sjálfan þig með: „Ef mismunurinn hefur verið valinn rétt er öryggisbil sem liggur algjörlega á milli –∆ og 0… enn nóg til að sýna fram á óæðri stöðu. Ef þessi niðurstaða virðist ekki ásættanleg þýðir það að ∆ var ekki valið á viðeigandi hátt.

Delta ætti örugglega ekki að fara yfir áhrifastærð útgáfu A miðað við hina raunverulegu viðmiðun (lyfleysa/engin meðferð), þar sem þetta leiðir okkur til að segja að útgáfa B sé verri en hin sanna viðmiðun, en á sama tíma sýna „ekki minnimáttarkennd“ .” Gerum ráð fyrir að þegar útgáfa A var kynnt hafi verið skipt út fyrir útgáfu 0 eða að eiginleikinn hafi alls ekki verið til (sjá mynd 3).

Byggt á niðurstöðum prófunar yfirburðartilgátunnar kom í ljós áhrifastærð E (þ.e. væntanlega μ^A−μ^0=E). Nú er A nýi staðallinn okkar og við viljum ganga úr skugga um að B sé jafn góður og A. Önnur leið til að skrifa μB−μA≤−Δ (núlltilgáta) er μB≤μA−Δ. Ef við gerum ráð fyrir að do sé jafnt eða stærra en E, þá er μB ≤ μA−E ≤ lyfleysa. Nú sjáum við að mat okkar fyrir μB fer algjörlega yfir μA−E, sem hafnar þar með algjörlega núlltilgátunni og gerir okkur kleift að álykta að B sé jafn gott og A, en á sama tíma getur μB verið ≤ μ lyfleysa, sem er ekki mál hvað þurfum við. (Mynd 3).

Hvenær ættum við að prófa ólægri tilgátuna?
Mynd 3. Sýning á áhættunni sem fylgir því að velja óæðri mörk. Ef skerðingin er of há má draga þá ályktun að B sé ekki lægra en A, en á sama tíma óaðgreinanlegt frá lyfleysu. Við munum ekki skipta út lyfi sem er greinilega virkara en lyfleysa (A) fyrir lyf sem er jafn áhrifaríkt og lyfleysa.

Val á α

Við skulum halda áfram að velja α. Þú getur notað staðalgildið α = 0,05, en það er ekki alveg sanngjarnt. Eins og til dæmis þegar þú kaupir eitthvað á netinu og notar nokkra afsláttarkóða í einu, þó ekki ætti að sameina þá - verktaki gerði bara mistök og þú komst upp með það. Samkvæmt reglunum á gildi α að vera jafnt og helmingi þess gildi α sem notað er þegar yfirburðatilgátan er prófuð, það er 0,05 / 2 = 0,025.

Prufustærð

Hvernig á að meta stærð úrtaks? Ef þú telur að hinn sanni meðalmunur á milli A og B sé 0, þá er úrtaksstærðarútreikningurinn sá sami og þegar yfirburðatilgátan er prófuð, nema að þú skiptir út áhrifastærðinni fyrir ólægri mörk, að því tilskildu að þú notir αnon-inferior skilvirkni = 1/2α yfirburði (αekki minnimáttarkennd=1/2αyfirburðir). Ef þú hefur ástæðu til að ætla að valkostur B gæti verið aðeins verri en valkostur A, en þú vilt sanna að hann sé ekki verri en Δ, þá ertu heppinn! Þetta minnkar í raun úrtakið þitt vegna þess að það er auðveldara að sýna fram á að B sé verra en A ef þú heldur í raun að það sé aðeins verra frekar en jafnt.

Dæmi með lausn

Segjum að þú viljir uppfæra í útgáfu B, að því gefnu að hún sé ekki meira en 0,1 punkti verri en útgáfa A á 5 punkta ánægjukvarða viðskiptavina... Við skulum nálgast þetta vandamál með því að nota yfirburðatilgátuna.

Til að prófa yfirburðatilgátuna myndum við reikna úrtaksstærðina sem hér segir:

Hvenær ættum við að prófa ólægri tilgátuna?

Það er, ef þú ert með 2103 athuganir í hópnum þínum geturðu verið 90% viss um að þú finnur áhrifastærð sem er 0,10 eða stærri. En ef 0,10 er of hátt fyrir þig er kannski ekki þess virði að prófa yfirburðatilgátuna fyrir. Til öryggis gætirðu ákveðið að keyra rannsóknina fyrir minni áhrifastærð, eins og 0,05. Í þessu tilviki þarftu 8407 athuganir, það er að sýnishornið stækkar næstum 4 sinnum. En hvað ef við höldum okkur við upprunalega úrtaksstærð okkar en hækkuðum kraftinn í 0,99 þannig að við værum örugg ef við fengjum jákvæða niðurstöðu? Í þessu tilviki verður n fyrir einn hóp 3676, sem er nú þegar betra, en eykur úrtakið um meira en 50%. Og þar af leiðandi munum við enn einfaldlega ekki geta hrekjað núlltilgátuna og við fáum ekki svar við spurningu okkar.

Hvað ef við prófuðum tilgátuna um óæðri í staðinn?

Hvenær ættum við að prófa ólægri tilgátuna?

Úrtaksstærðin verður reiknuð út með sömu formúlu nema nefnarann.
Munurinn frá formúlunni sem notuð er til að prófa yfirburðatilgátuna er sem hér segir:

— Z1−α/2 er skipt út fyrir Z1−α, en ef þú gerir allt samkvæmt reglunum skiptir þú út α = 0,05 fyrir α = 0,025, það er sama tala (1,96)

— (μB−μA) kemur fyrir í nefnara

— Í stað θ (áhrifastærð) er skipt út fyrir Δ (mörk óæðri)

Ef við gerum ráð fyrir að µB = µA, þá (µB − µA) = 0 og úrtaksstærðarútreikningur fyrir ólægri mörk er nákvæmlega það sem við myndum fá ef við reiknuðum yfirburði fyrir áhrifastærð 0,1, frábært! Við getum gert jafnstóra rannsókn með mismunandi tilgátum og mismunandi nálgun á niðurstöðum og við fáum svar við spurningunni sem við viljum endilega svara.

Segjum nú að við höldum í raun og veru ekki að µB = µA og
Við teljum að µB sé aðeins verra, kannski um 0,01 einingu. Þetta eykur nefnara okkar og minnkar úrtakið á hvern hóp í 1737.

Hvað gerist ef útgáfa B er í raun betri en útgáfa A? Við höfnum núlltilgátunni um að B sé meira en Δ verri en A og samþykkjum þá tilgátu að B, ef hún er verri, sé ekki verri en A um Δ og gæti verið betri. Prófaðu að setja þessa niðurstöðu í þvervirka kynningu og sjáðu hvað gerist (alvarlega, reyndu það). Í framsýnum aðstæðum vill enginn sætta sig við „ekki meira en Δ verra og kannski betra.“

Í þessu tilfelli getum við framkvæmt rannsókn, sem kallast mjög stuttlega „prófa tilgátuna um að annar valmöguleikanna sé betri eða lægri en hinn. Það notar tvö sett af tilgátum:

Fyrsta sett (sama og að prófa tilgátuna um óæðri stöðu):

Hvenær ættum við að prófa ólægri tilgátuna?

Annað sett (sama og þegar yfirburðatilgátan er prófuð):

Hvenær ættum við að prófa ólægri tilgátuna?

Við prófum seinni tilgátuna aðeins ef þeirri fyrri er hafnað. Þegar við prófum í röð höldum við heildar villuhlutfalli af gerð I (α). Í reynd er hægt að ná þessu með því að búa til 95% öryggisbil fyrir muninn á meðaltalinu og prófun til að ákvarða hvort allt bilið sé stærra en -Δ. Ef bilið fer ekki yfir -Δ getum við ekki hafnað núllgildinu og hætt. Ef allt bilið er örugglega stærra en −Δ, munum við halda áfram og sjá hvort bilið inniheldur 0.

Það er önnur tegund rannsókna sem við höfum ekki fjallað um - jafngildisrannsóknir.

Þessar tegundir rannsókna er hægt að skipta út fyrir óæðri rannsóknir og öfugt, en þeir hafa í raun mikilvægan mun. Tilraun um óæðri stöðu miðar að því að sýna fram á að kostur B sé að minnsta kosti jafn góður og A. Jafngildisprófun miðar að því að sýna fram á að valkostur B sé að minnsta kosti jafn góður og A. Valkostur A er jafn góður og B, sem er erfiðara. Í meginatriðum erum við að reyna að ákvarða hvort allt öryggisbilið fyrir mismun á meðaltölum liggi á milli −Δ og Δ. Slíkar rannsóknir krefjast stærra úrtaks og eru gerðar sjaldnar. Þannig að næst þegar þú framkvæmir rannsókn þar sem aðalmarkmið þitt er að tryggja að nýja útgáfan sé ekki verri, ekki sætta þig við að "mistakist að hafna núlltilgátunni." Ef þú vilt prófa mjög mikilvæga tilgátu skaltu íhuga mismunandi valkosti.

Heimild: www.habr.com

Bæta við athugasemd