Kiam ni devas testi la hipotezon de nemalsupereco?

Kiam ni devas testi la hipotezon de nemalsupereco?
Artikolo de la Stitch Fix-teamo sugestas uzi la aliron pri nemalsuperaj provoj en merkatado kaj produktaj A/B-testoj. Ĉi tiu aliro vere validas kiam ni testas novan solvon, kiu havas avantaĝojn, kiuj ne estas mezuritaj per testoj.

La plej simpla ekzemplo estas kostoredukto. Ekzemple, ni aŭtomatigas la procezon de atribui la unuan lecionon, sed ni ne volas signife redukti fin-al-finan konvertiĝon. Aŭ ni testas ŝanĝojn, kiuj celas unu segmenton de uzantoj, dum ni certigas, ke konvertiĝoj por aliaj segmentoj ne multe falas (dum testado de pluraj hipotezoj, ne forgesu pri la amendoj).

Elekti la ĝustan ne-malsuperecan marĝenon aldonas pliajn defiojn dum la testa dezajnofazo. La demando pri kiel elekti Δ ne estas tre bone kovrita en la artikolo. Ŝajnas, ke ĉi tiu elekto ankaŭ ne estas tute travidebla en klinikaj provoj. trarigardo medicinaj publikaĵoj pri nemalsupereco raportas ke nur duono de la publikaĵoj pravigas la elekton de limo, kaj ofte tiuj pravigoj estas ambiguaj aŭ ne detalaj.

Ĉiukaze, ĉi tiu aliro ŝajnas interesa ĉar... reduktante la bezonatan specimenan grandecon, ĝi povas pliigi la rapidecon de testado, kaj, tial, la rapidecon de decidiĝo. — Daria Mukhina, produktanalizisto por la poŝtelefona aplikaĵo Skyeng.

La teamo de Stitch Fix amas provi malsamajn aferojn. La tuta teknologia komunumo amas fari testojn principe. Kiu versio de la retejo altiras pli da uzantoj - A aŭ B? Ĉu versio A de la rekomendmodelo gajnas pli da mono ol versio B? Por testi hipotezojn, ni preskaŭ ĉiam uzas la plej simplan aliron de la baza statistika kurso:

Kiam ni devas testi la hipotezon de nemalsupereco?

Kvankam ni malofte uzas la esprimon, ĉi tiu formo de testado estas nomita "supereco-hipotezotestado." Kun ĉi tiu aliro, ni supozas, ke ne ekzistas diferenco inter la du opcioj. Ni restas kun ĉi tiu ideo kaj nur forlasas ĝin se la datumoj estas sufiĉe konvinkaj por fari tion - tio estas, ĝi pruvas ke unu el la elektoj (A aŭ B) estas pli bona ol la alia.

Testi la superecan hipotezon taŭgas por diversaj problemoj. Ni nur publikigas version B de rekomendmodelo se ĝi estas klare pli bona ol versio A kiu jam estas uzata. Sed en iuj kazoj, ĉi tiu aliro ne tiel bone funkcias. Ni rigardu kelkajn ekzemplojn.

1) Ni uzas trian servon, kiu helpas identigi falsajn bankkartojn. Ni trovis alian servon kiu kostas signife malpli. Se pli malmultekosta servo funkcias same kiel tiu, kiun ni nuntempe uzas, ni elektos ĝin. Ĝi ne devas esti pli bona ol la servo, kiun vi uzas.

2) Ni volas forlasi la datumfonton A kaj anstataŭigi ĝin per datumfonto B. Ni povus prokrasti forlasi A se B produktas tre malbonajn rezultojn, sed ne eblas daŭrigi uzi A.

3) Ni ŝatus moviĝi de modela aliroLa aliro de A al B ne ĉar ni atendas pli bonajn rezultojn de B, sed ĉar ĝi donas al ni pli grandan operacian flekseblecon. Ni ne havas kialon por kredi, ke B estos pli malbona, sed ni ne faros la transiron se ĉi tio estas la kazo.

4) Ni faris plurajn kvalitajn ŝanĝojn en la retejo-dezajno (versio B) kaj kredas, ke ĉi tiu versio estas pli bona ol versio A. Ni ne atendas ŝanĝojn en konvertiĝo aŭ iun ajn el la ŝlosilaj agado-indikiloj per kiuj ni kutime taksas retejon. Sed ni kredas, ke ekzistas avantaĝoj en parametroj, kiuj estas aŭ nemezureblaj aŭ nia teknologio ne sufiĉas por mezuri.

En ĉiuj ĉi tiuj kazoj, supereco-esplorado ne estas la plej taŭga solvo. Sed plej multaj specialistoj en tiaj situacioj uzas ĝin defaŭlte. Ni zorge faras la eksperimenton por ĝuste determini la grandecon de la efiko. Se estus vere, ke versioj A kaj B funkcias en tre similaj manieroj, ekzistas ŝanco ke ni malsukcesus malakcepti la nulan hipotezon. Ĉu ni konkludas, ke A kaj B rezultas esence same? Ne! Malsukceso malakcepti la nulan hipotezon kaj akcepton de la nula hipotezo ne estas la sama afero.

Ekzemplaj grandkalkuloj (kiujn, kompreneble, vi faris) estas kutime faritaj kun pli striktaj limoj por Tipo I-eraro (la probableco malsukcesi malakcepti la nulan hipotezon, ofte nomitan alfa) ol por Tipo II-eraro (la probableco malsukcesi malsukcesi). la nula hipotezo, donita kondiĉo ke la nula hipotezo estas malvera, ofte nomata beta). La tipa valoro por alfao estas 0,05, dum la tipa valoro por betao estas 0,20, egalrilatante al statistika potenco de 0,80. Ĉi tio signifas, ke ekzistas 20% ŝanco ke ni maltrafos la veran efikon de la kvanto, kiun ni specifis en niaj potencaj kalkuloj, kaj tio estas sufiĉe grava breĉo en informoj. Kiel ekzemplo, ni konsideru la sekvajn hipotezojn:

Kiam ni devas testi la hipotezon de nemalsupereco?

H0: mia tornistro NE estas en mia ĉambro (3)
H1: mia tornistro estas en mia ĉambro (4)

Se mi serĉis mian ĉambron kaj trovis mian tornistron, bonege, mi povas malakcepti la nulan hipotezon. Sed se mi ĉirkaŭrigardis la ĉambron kaj ne povis trovi mian dorsosakon (Figuro 1), kian konkludon mi faru? Ĉu mi certas, ke ĝi ne estas tie? Ĉu mi sufiĉe forte rigardis? Kio se mi serĉus nur 80% de la ĉambro? Konkludi, ke la tornistro certe ne estas en la ĉambro, estus senpripensa decido. Ne mirinde, ke ni ne povas "akcepti la nulan hipotezon".
Kiam ni devas testi la hipotezon de nemalsupereco?
La areo, kiun ni serĉis
Ni ne trovis la dorsosakon - ĉu ni akceptu la nulan hipotezon?

Figuro 1: Serĉi 80% de ĉambro estas proksimume la sama kiel serĉi je 80% potenco. Se vi ne trovas la dorsosakon post rigardi 80% de la ĉambro, ĉu vi povas konkludi, ke ĝi ne estas tie?

Do kion devus fari datuma sciencisto en ĉi tiu situacio? Vi povas multe pliigi la potencon de la studo, sed tiam vi bezonos multe pli grandan specimenan grandecon kaj la rezulto ankoraŭ estos nekontentiga.

Feliĉe tiaj problemoj estas delonge studitaj en la mondo de klinika esplorado. Drogo B estas pli malmultekosta ol drogo A; Medikamento B estas atendita kaŭzi malpli da kromefikoj ol Drug A; drogo B estas pli facile transportebla ĉar ĝi ne bezonas esti fridigita, sed drogo A jes. Ni provu la hipotezon de nemalsupereco. Ĉi tio estas por montri ke versio B estas same bona kiel versio A—almenaŭ ene de iu antaŭdifinita nemalsupereca marĝeno, Δ. Ni parolos pli pri kiel agordi ĉi tiun limon iom poste. Sed nuntempe ni supozu, ke ĉi tio estas la plej malgranda diferenco, kiu estas praktike signifoplena (en la kunteksto de klinikaj provoj, tio estas kutime nomata klinika signifo).

Ne-malsuperecaj hipotezoj turnas ĉion sur sian kapon:

Kiam ni devas testi la hipotezon de nemalsupereco?

Nun, anstataŭ supozi, ke ne ekzistas diferenco, ni supozos, ke versio B estas pli malbona ol versio A, kaj ni restos kun ĉi tiu supozo ĝis ni pruvos, ke tio ne estas la kazo. Ĝuste ĉi tiu estas la momento, kiam havas sencon uzi unuflankan hipoteztestadon! En praktiko, tio povas esti farita konstruante konfidan intervalon kaj determinante ĉu la intervalo estas fakte pli granda ol Δ (Figuro 2).
Kiam ni devas testi la hipotezon de nemalsupereco?

Elektu Δ

Kiel elekti la ĝustan Δ? La Δ-elekta procezo inkluzivas statistikan pravigon kaj substantivan taksadon. En la mondo de klinika esplorado, ekzistas reguligaj gvidlinioj, kiuj diktas, ke delto devus reprezenti la plej malgrandan klinike signifan diferencon - unu kiu faros diferencon en praktiko. Jen citaĵo el la eŭropaj gvidlinioj por provi vin: “Se la diferenco estis ĝuste elektita, konfida intervalo kiu kuŝas tute inter –∆ kaj 0... ankoraŭ sufiĉas por pruvi nemalsuperecon. Se ĉi tiu rezulto ne ŝajnas akceptebla, tio signifas ke ∆ ne estis elektita taŭge."

La delto certe ne devus superi la efikgrandecon de la versio A rilate al la vera kontrolo (placebo/sen traktado), ĉar tio igas nin diri, ke la versio B estas pli malbona ol la vera kontrolo, samtempe pruvante "ne-malsuperecon". .” Ni supozu, ke kiam versio A estis lanĉita, ĝi estis anstataŭigita per versio 0 aŭ la funkcio tute ne ekzistis (vidu Figuro 3).

Surbaze de la rezultoj de testado de la supereco-hipotezo, la efikgrandeco E estis rivelita (t.e., supozeble μ^A−μ^0=E). Nun A estas nia nova normo, kaj ni volas certigi, ke B estas same bona kiel A. Alia maniero skribi μB−μA≤−Δ (nula hipotezo) estas μB≤μA−Δ. Se ni supozas, ke do estas egala aŭ pli granda ol E, tiam μB ≤ μA−E ≤ placebo. Nun ni vidas, ke nia takso por μB tute superas μA−E, kio per tio tute malakceptas la nulan hipotezon kaj permesas al ni konkludi, ke B estas same bona kiel A, sed samtempe μB povas esti ≤ μ placebo, kio ne estas la kazo.kion ni bezonas. (Figuro 3).

Kiam ni devas testi la hipotezon de nemalsupereco?
Figuro 3. Pruvo de la riskoj elekti nemalsuperan marĝenon. Se la tranĉo estas tro alta, oni povas konkludi ke B estas nemalsupera al A, sed samtempe nedistingebla de placebo. Ni ne interŝanĝos medikamenton, kiu estas klare pli efika ol placebo (A) kontraŭ drogo kiu estas same efika kiel placebo.

Elekto de α

Ni pluiru al elekto de α. Vi povas uzi la norman valoron α = 0,05, sed ĉi tio ne estas tute justa. Kiel, ekzemple, kiam vi aĉetas ion interrete kaj uzas plurajn rabatajn kodojn samtempe, kvankam ili ne devus esti kombinitaj - la programisto ĵus eraris, kaj vi sukcesis. Laŭ la reguloj, la valoro de α devus esti egala al duono de la valoro de α kiu estas uzata dum testado de la supereco-hipotezo, tio estas, 0,05 / 2 = 0,025.

Specimena grandeco

Kiel taksi specimenan grandecon? Se vi kredas, ke la vera averaĝa diferenco inter A kaj B estas 0, tiam la specimena grandeco-kalkulo estas la sama kiel kiam vi testas la superecan hipotezon, krom ke vi anstataŭigas la efikgrandecon per la nemalsupera marĝeno, kondiĉe ke vi uzas αne-malsupera efikeco = 1/2αsupereco (αne-malsupereco=1/2αsupereco). Se vi havas kialon kredi, ke opcio B eble estas iomete pli malbona ol opcio A, sed vi volas pruvi, ke ĝi estas pli malbona je ne pli ol Δ, tiam vi bonŝancas! Ĉi tio efektive reduktas vian specimenan grandecon ĉar estas pli facile pruvi, ke B estas pli malbona ol A se vi efektive opinias, ke ĝi estas iomete pli malbona ol egala.

Ekzemplo kun solvo

Ni diru, ke vi volas ĝisdatigi al versio B, kondiĉe ke ĝi estas ne pli ol 0,1 poento pli malbona ol versio A sur 5-punkta kontentiga skalo de kliento... Ni traktu ĉi tiun problemon uzante la hipotezon de supereco.

Por testi la superechipotezon, ni kalkulus la specimenan grandecon jene:

Kiam ni devas testi la hipotezon de nemalsupereco?

Tio estas, se vi havas 2103 observojn en via grupo, vi povas esti 90% certa, ke vi trovos efikgrandecon de 0,10 aŭ pli granda. Sed se 0,10 estas tro alta por vi, eble ne indas testi la superecan hipotezon. Por esti sur la sekura flanko, vi eble decidos prizorgi la studon por pli malgranda efikgrandeco, kiel ekzemple 0,05. En ĉi tiu kazo, vi bezonos 8407 observojn, tio estas, la specimeno pliiĝos preskaŭ 4 fojojn. Sed kio se ni restus al nia originala specimena grandeco, sed pliigus la potencon al 0,99 por ke ni estus sekuraj se ni ricevus pozitivan rezulton? En ĉi tiu kazo, n por unu grupo estos 3676, kio jam estas pli bona, sed pliigas la specimenan grandecon je pli ol 50%. Kaj kiel rezulto, ni ankoraŭ simple ne povos refuti la nulan hipotezon, kaj ni ne ricevos respondon al nia demando.

Kio se ni provus la hipotezon de nemalsupereco anstataŭe?

Kiam ni devas testi la hipotezon de nemalsupereco?

La specimena grandeco estos kalkulita per la sama formulo krom la denominatoro.
La diferencoj de la formulo uzita por testi la superechipotezon estas kiel sekvas:

— Z1−α/2 estas anstataŭigita per Z1−α, sed se oni faras ĉion laŭ la reguloj, oni anstataŭigas α = 0,05 per α = 0,025, tio estas, ĝi estas la sama nombro (1,96)

— (μB−μA) aperas en la denominatoro

— θ (efektograndeco) estas anstataŭigita per Δ (marĝeno de nemalsupereco)

Se ni supozas ke µB = µA, tiam (µB − µA) = 0 kaj la specimena grandeco kalkulo por la nemalsupereca marĝeno estas ĝuste kion ni ricevus se ni kalkulus superecon por efikgrandeco de 0,1, bonege! Ni povas fari studon de la sama grandeco kun malsamaj hipotezoj kaj malsama aliro al konkludoj, kaj ni ricevos la respondon al la demando, kiun ni vere volas respondi.

Nun supozu, ke ni fakte ne pensas, ke µB = µA kaj
Ni pensas, ke µB estas iom pli malbona, eble je 0,01 unuoj. Ĉi tio pliigas nian denominatoron, reduktante la specimenan grandecon por grupo al 1737.

Kio okazas se versio B estas efektive pli bona ol versio A? Ni malakceptas la nulan hipotezon ke B estas pli malbona ol A je pli ol Δ kaj akceptas la alternativan hipotezon ke B, se pli malbona, estas ne pli malbona ol A je Δ kaj povas esti pli bona. Provu meti ĉi tiun konkludon en transfunkcian prezenton kaj vidu, kio okazas (serioze, provu ĝin). En antaŭrigarda situacio, neniu volas kontentiĝi je "ne pli ol Δ pli malbona kaj eble pli bona."

En ĉi tiu kazo, ni povas fari studon, kiu nomiĝas tre mallonge "testi la hipotezon, ke unu el la opcioj estas supera aŭ malsupera al la alia." Ĝi uzas du arojn de hipotezoj:

Unua aro (sama kiel testado de la ne-malsupereca hipotezo):

Kiam ni devas testi la hipotezon de nemalsupereco?

Dua aro (sama kiel dum testado de la supereco-hipotezo):

Kiam ni devas testi la hipotezon de nemalsupereco?

Ni testas la duan hipotezon nur se la unua estas malakceptita. Dum testado sinsekve, ni konservas la ĝeneralan erarprocenton de Tipo I (α). En praktiko, tio povas esti atingita kreante 95%-konfidan intervalon por la diferenco inter la rimedoj kaj testado por determini ĉu la tuta intervalo estas pli granda ol -Δ. Se la intervalo ne superas -Δ, ni ne povas malakcepti la nulan valoron kaj halti. Se la tuta intervalo estas ja pli granda ol −Δ, ni daŭrigos kaj vidos ĉu la intervalo enhavas 0.

Estas alia speco de esplorado, kiun ni ne diskutis - ekvivalentaj studoj.

Ĉi tiuj specoj de studoj povas esti anstataŭigitaj per nemalsuperaj studoj kaj inverse, sed ili fakte havas gravan diferencon. Nemalsupera provo celas montri ke opcio B estas almenaŭ same bona kiel A. Ekvivalentprovo celas montri ke opcio B estas almenaŭ same bona kiel A. Opcio A estas same bona kiel B, kio estas pli malfacila. Esence, ni provas determini ĉu la tuta konfida intervalo por la diferenco en mezumoj kuŝas inter −Δ kaj Δ. Tiaj studoj postulas pli grandan specimenan grandecon kaj estas faritaj malpli ofte. Do la venontan fojon, kiam vi faros studon, en kiu via ĉefa celo estas certigi, ke la nova versio ne estas pli malbona, ne kontentiĝi je "malsukceso malakcepti la nulan hipotezon". Se vi volas testi vere gravan hipotezon, konsideru malsamajn eblojn.

fonto: www.habr.com

Aldoni komenton