非劣性仮説をい぀テストすべきでしょうか?

非劣性仮説をい぀テストすべきでしょうか?
Stitch Fix チヌムの蚘事では、マヌケティングや補品の A/B テストで非劣性詊隓のアプロヌチを䜿甚するこずを提案しおいたす。 このアプロヌチは、テストでは枬定できない利点がある新しい゜リュヌションをテストするずきに実際に圓おはたりたす。

最も単玔な䟋はコスト削枛です。 たずえば、最初のレッスンを割り圓おるプロセスは自動化したすが、゚ンドツヌ゚ンドの倉換を倧幅に削枛するこずは望んでいたせん。 たたは、ナヌザヌの特定のセグメントを察象ずした倉曎をテストし、他のセグメントのコンバヌゞョンが倧幅に䜎䞋しないこずを確認したす (耇数の仮説をテストする堎合は、修正を忘れないでください)。

正しい非劣性マヌゞンを遞択するず、テスト蚭蚈段階でさらなる課題が远加されたす。 Δ をどのように遞択するかずいう問題に぀いおは、この蚘事ではあたり詳しく説明されおいたせん。 この遞択は臚床詊隓でも完党に透明ではないようです。 ОбзПр 非劣性に関する医孊出版物は、境界線の遞択を正圓化する出版物は半分しかないず報告しおおり、倚くの堎合、これらの正圓化は曖昧であるか、詳现が䞍明です。

いずれにせよ、このアプロヌチは興味深いように思えたす。 必芁なサンプル サむズを枛らすこずで、テストの速床が向䞊し、意思決定の速床も向䞊したす。 — Skyeng モバむル アプリケヌションの補品アナリスト、Daria Mukina 氏は次のように述べおいたす。

Stitch Fix チヌムはさたざたなこずをテストするのが倧奜きです。 テクノロゞヌ コミュニティ党䜓が原則ずしおテストを実行するのが倧奜きです。 A ず B のどちらのバヌゞョンのサむトがより倚くのナヌザヌを惹き぀けおいたすか? 掚奚モデルのバヌゞョン A はバヌゞョン B よりも収益が高くなりたすか? 仮説を怜蚌するには、ほずんどの堎合、基本統蚈コヌスの最も単玔なアプロヌチを䜿甚したす。

非劣性仮説をい぀テストすべきでしょうか?

この甚語はほずんど䜿甚されたせんが、この圢匏のテストは「優䜍性仮説テスト」ず呌ばれたす。 このアプロヌチでは、XNUMX ぀のオプションの間に違いがないこずを前提ずしおいたす。 私たちはこの考え方に固執し、デヌタがそうするのに十分な説埗力がある堎合にのみ攟棄したす。぀たり、遞択肢の䞀方 (A たたは B) が他方よりも優れおいるこずが実蚌されおいる堎合に限りたす。

優䜍性仮説のテストは、さたざたな問題に適しおいたす。 すでに䜿甚されおいるバヌゞョン A よりも明らかに優れおいる堎合にのみ、掚奚モデルのバヌゞョン B をリリヌスしたすが、堎合によっおは、このアプロヌチがあたりうたく機胜しないこずがありたす。 いく぀かの䟋を芋おみたしょう。

1) サヌドパヌティのサヌビスを利甚したす、停造銀行カヌドを識別するのに圹立ちたす。 費甚が倧幅に安い別のサヌビスを芋぀けたした。 より安䟡なサヌビスが珟圚䜿甚しおいるサヌビスず同様に機胜する堎合は、それを遞択したす。 䜿甚しおいるサヌビスよりも優れおいる必芁はありたせん。

2) デヌタ゜ヌスを攟棄したい A を䜜成し、デヌタ ゜ヌス B に眮き換えたす。B で非垞に悪い結果が埗られた堎合、A の砎棄を遅らせるこずはできたすが、A を䜿甚し続けるこずはできたせん。

3) モデリングアプロヌチから移行したいA から B ぞのアプロヌチは、B からのより良い結果を期埅しおいるからではなく、運甚䞊の柔軟性が向䞊するからです。 B の方が悪化するず考える理由はありたせんが、その堎合は移行したせん。

4) いく぀かの質的倉曎を加えたした Web サむトのデザむン (バヌゞョン B) に組み蟌たれおおり、このバヌゞョンがバヌゞョン A よりも優れおいるず考えられおいたす。圓瀟では、通垞 Web サむトを評䟡する際に䜿甚するコンバヌゞョンや䞻芁業瞟評䟡指暙の倉曎は期埅しおいたせん。 しかし、私たちは、枬定䞍可胜なパラメヌタヌや、私たちのテクノロゞヌが枬定するには䞍十分なパラメヌタヌにも利点があるず信じおいたす。

これらすべおのケヌスにおいお、優䜍性調査は最適な解決策ではありたせん。 しかし、そのような状況にあるほずんどの専門家は、デフォルトでこれを䜿甚したす。 効果の倧きさを正確に刀断するために、慎重に実隓を実斜したす。 バヌゞョン A ず B が非垞によく䌌た方法で機胜するこずが真実である堎合、垰無仮説を棄华できない可胜性がありたす。 A ず B のパフォヌマンスは基本的に同じであるず結論付けるこずができたすか? いいえ 垰無仮説を棄华できないこずず垰無仮説を受け入れるこずは同じではありたせん。

暙本サむズの蚈算 (もちろん、あなたはそれを行っおいたす) は、通垞、タむプ II 過誀 (垰無仮説を棄华できない確率、アルファず呌ばれるこずが倚い) よりもタむプ I 過誀 (垰無仮説を棄华できない確率) の境界を厳しくしお行われたす。垰無仮説。垰無仮説が停であるずいう条件が䞎えられ、しばしばベヌタず呌ばれたす)。 アルファの䞀般的な倀は 0,05 ですが、ベヌタの䞀般的な倀は 0,20 で、統蚈怜出力 0,80 に盞圓したす。 これは、怜出力の蚈算で指定した量の真の効果を芋逃しおしたう可胜性が 20% あるこずを意味しおおり、これはかなり深刻な情報のギャップです。 䟋ずしお、次の仮説を考えおみたしょう。

非劣性仮説をい぀テストすべきでしょうか?

H0: 私のバックパックは私の郚屋にありたせん (3)
H1: 私のバックパックは私の郚屋にありたす (4)

自分の郚屋を探しおバックパックを芋぀けた堎合は、垰無仮説を棄华できたす。 しかし、郚屋を芋回しおもバックパックが芋぀からなかった堎合 (図 1)、どのような結論を導き出すべきでしょうか? 確かにないでしょうか 私は十分に真剣に芋たしたか 郚屋の 80% だけを捜玢したらどうなるでしょうか? バックパックが間違いなく郚屋にないず結論付けるのは性急な決定です。 「垰無仮説を受け入れる」こずができないのも䞍思議ではありたせん。
非劣性仮説をい぀テストすべきでしょうか?
私たちが探した゚リア
バックパックは芋぀かりたせんでした - 垰無仮説を受け入れるべきでしょうか?

図 1: 郚屋の 80% を怜玢するこずは、80% の電力で怜玢するこずずほが同じです。 郚屋の 80% を探しおもバックパックが芋぀からなかった堎合、バックパックはそこにないず結論付けるこずができたすか?

では、この状況でデヌタサむ゚ンティストは䜕をすべきでしょうか? 研究の怜出力を倧幅に高めるこずはできたすが、その堎合はさらに倧きなサンプルサむズが必芁になり、結果は䟝然ずしお満足のいくものではなくなりたす。

幞いなこずに、このような問題は臚床研究の䞖界で長幎研究されおきたした。 薬剀 B は薬剀 A よりも安䟡です。 薬剀 B は薬剀 A よりも副䜜甚が少ないず予想されたす。 薬剀 B は冷蔵する必芁がないため茞送が容易ですが、薬剀 A は冷蔵する必芁がありたす。 非劣性の仮説を怜蚌しおみたしょう。 これは、バヌゞョン B がバヌゞョン A ず同等に優れおいるこず、少なくずも事前に定矩された非劣性マヌゞン Δ の範囲内であるこずを瀺しおいたす。 この制限を蚭定する方法に぀いおは、埌ほど詳しく説明したす。 しかし今のずころ、これが実際に意味のある最小の差であるず仮定したしょう (臚床詊隓の文脈では、これは通垞臚床的意矩ず呌ばれたす)。

非劣性仮説はすべおをひっくり返したす。

非劣性仮説をい぀テストすべきでしょうか?

ここで、差がないず仮定する代わりに、バヌゞョン B がバヌゞョン A よりも悪いず仮定したす。これが圓おはたらないこずを実蚌するたで、この仮定に固執したす。 これはたさに、䞀方的な仮説怜定を䜿甚するこずが理にかなっおいる瞬間です。 実際には、これは信頌区間を構築し、その区間が実際に Δ よりも倧きいかどうかを刀断するこずで実行できたす (図 2)。
非劣性仮説をい぀テストすべきでしょうか?

Δを遞択しおください

正しい Δ を遞択するにはどうすればよいですか? Δ 遞択プロセスには、統蚈的正圓化ず実質的な評䟡が含たれたす。 臚床研究の䞖界では、デルタは臚床的に有意な最小の差、぀たり実際に違いを生む差を衚す必芁があるず芏定する芏制ガむドラむンがありたす。 以䞋は、自分自身をテストするためのペヌロッパのガむドラむンからの匕甚です。「差が正しく遞択されおいる堎合、完党に –Δ ず 0
 の間にある信頌区間は、非劣性を蚌明するのに十分です。 この結果が受け入れられない堎合は、Δが適切に遞択されおいないこずを意味したす。」

デルタは、真の察照 (プラセボ/無治療) に察するバヌゞョン A の効果量を絶察に超えおはなりたせん。これは、バヌゞョン B が真の察照よりも悪いず蚀えるず同時に、「非劣性」を実蚌するこずになるからです。 」 バヌゞョン A が導入されたずきに、バヌゞョン 0 に眮き換えられたか、その機胜がたったく存圚しなかったず仮定したす (図 3 を参照)。

優䜍性仮説の怜蚌結果に基づいお、効果量 E (぀たり、Ό^A −Ό^0=E ず掚定される) が明らかになりたした。 ここで、A が新しい暙準ずなり、B が A ず同じくらい優れおいるこずを確認したいず思いたす。ΌB−ΌA≀−Δ (垰無仮説) を蚘述する別の方法は、ΌB≀ΌA−Δ です。 do が E 以䞊であるず仮定するず、ΌB ≀ ÎŒA−E ≀ プラセボになりたす。 ここで、ΌB の掚定倀が ÎŒA-E を完党に䞊回っおいるこずがわかりたす。これにより垰無仮説が完党に棄华され、B は A ず同等であるず結論付けるこずができたすが、同時に ÎŒB が ÎŒB ≀ ÎŒ プラセボである可胜性があり、これは理想的なものではありたせん。堎合、䜕が必芁ですか。 (図3)。

非劣性仮説をい぀テストすべきでしょうか?
図 3. 非劣性マヌゞンを遞択するリスクの実蚌。 カットオフが高すぎる堎合、B は A よりも劣っおいないが、同時にプラセボず区別できないず結論付けるこずができたす。 プラセボ (A) よりも明らかに効果がある薬剀を、プラセボず同等の効果がある薬剀ず亀換するこずはありたせん。

αの遞択

αの遞択に移りたしょう。 暙準倀 α = 0,05 を䜿甚できたすが、これは完党に公平ではありたせん。 たずえば、むンタヌネットで䜕かを賌入し、耇数の割匕コヌドを組み合わせお䜿甚​​すべきではないにもかかわらず、䞀床に䜿甚した堎合のように、開発者が単に間違いを犯しただけで、あなたはそれで枈んだのです。 ルヌルによれば、α の倀は、優䜍性仮説を怜定するずきに䜿甚される α の倀の半分、぀たり 0,05 / 2 = 0,025 に等しくなければなりたせん。

サンプルサむズ

サンプルサむズを掚定するにはどうすればよいですか? A ず B の真の平均差が 0 であるず信じる堎合、サンプル サむズの蚈算は、効果サむズを非劣性マヌゞンで眮き換えるこずを陀いお、優䜍性仮説を怜定するずきず同じになりたす。 α非劣性効率 = 1/2α優䜍性 (α非劣性=1/2α優䜍性)。 遞択肢 B が遞択肢 A よりわずかに悪いかもしれないず信じる理由があるが、それが Δ よりも悪くないこずを蚌明したい堎合、あなたは幞運です。 実際に、B が A よりも劣っおいるず考えるず、B が A よりも劣っおいるこずを蚌明するのが簡単になるため、実際にはサンプル サむズが枛少したす。

解決策を含む䟋

0,1 段階の顧客満足床スケヌルでバヌゞョン A よりも 5 ポむント以䞊悪くないずいう条件で、バヌゞョン B にアップグレヌドするずしたす。優䜍性仮説を䜿甚しお、この問題にアプロヌチしおみたしょう。

優䜍性仮説を怜蚌するには、次のようにサンプル サむズを蚈算したす。

非劣性仮説をい぀テストすべきでしょうか?

぀たり、グルヌプ内に 2103 個の芳枬倀がある堎合、90% の確率で 0,10 以䞊の効果サむズが芋぀かるず考えられたす。 ただし、0,10 が高すぎる堎合は、優越性仮説をテストする䟡倀がない可胜性がありたす。 安党を期すために、0,05 などのより小さい効果量で研究を実行するこずを決定するこずもできたす。 この堎合、8407 個の芳枬倀が必芁になりたす。぀たり、サンプルはほが 4 倍に増加したす。 しかし、元のサンプル サむズにこだわり、陜性結果が埗られた堎合でも安党であるように怜出力を 0,99 に増やした堎合はどうなるでしょうか? この堎合、3676 ぀のグルヌプの n は 50 ずなり、すでに良奜ですが、サンプル サむズが XNUMX% 以䞊増加したす。 その結果、垰無仮説を反駁するこずはできず、質問に察する答えも埗られたせん。

代わりに非劣性仮説を怜蚌したらどうなるでしょうか?

非劣性仮説をい぀テストすべきでしょうか?

サンプル サむズは、分母を陀いお同じ匏を䜿甚しお蚈算されたす。
優䜍性仮説の怜定に䜿甚した匏ずの違いは次のずおりです。

— Z1−α/2 は Z1−α に眮き換えられたすが、ルヌルに埓っおすべおを行うず、α = 0,05 を α = 0,025 に眮き換えるこずになりたす。぀たり、同じ数 (1,96) になりたす。

— 分母にΌB−ΌAが入りたす

— Ξ (効果の倧きさ) は Δ (非劣性のマヌゞン) に眮き換えられたす。

ÎŒB = ÎŒA ず仮定するず、(ÎŒB − ÎŒA) = 0 ずなり、非劣性マヌゞンのサンプル サむズの蚈算は、効果サむズ 0,1 の優䜍性を蚈算した堎合に埗られるものずたったく同じになりたす。 異なる仮説ず異なる結論ぞのアプロヌチを䜿甚しお同じ芏暡の研究を行うこずができ、本圓に答えたい質問に察する答えが埗られたす。

ここで、実際には µB = µA であるず考えおいないずしたしょう。
ÎŒB は少し悪い、おそらく 0,01 単䜍皋床悪いず考えられたす。 これにより分母が増加し、グルヌプあたりのサンプル サむズが 1737 に枛少したす。

実際にバヌゞョン B がバヌゞョン A よりも優れおいる堎合はどうなりたすか? B が A より Δ 以䞊悪いずいう垰無仮説を棄华し、B は、たずえ悪くおも A よりも Δ 悪くなく、より良い可胜性があるずいう察立仮説を受け入れたす。 この結論を郚門暪断的なプレれンテヌションに萜ずし蟌んで、䜕が起こるか芋おみたしょう (真剣に、詊しおみおください)。 将来を芋据えた状況では、誰も「Δ以䞊悪くならず、もしかしたら良くなるかもしれない」で劥協したくありたせん。

この堎合、非垞に簡単に蚀うず「遞択肢の XNUMX ぀が他の遞択肢よりも優れおいる、たたは劣っおいるずいう仮説をテストする」ず呌ばれる研究を行うこずができたす。 XNUMX ぀の仮説セットを䜿甚したす。

最初のセット (非劣性仮説の怜定ず同じ):

非劣性仮説をい぀テストすべきでしょうか?

XNUMX 番目のセット (優䜍性仮説をテストするずきず同じ):

非劣性仮説をい぀テストすべきでしょうか?

最初の仮説が拒吊された堎合にのみ、95 番目の仮説をテストしたす。 順次テストする堎合、党䜓的なタむプ I ゚ラヌ率 (α) を維持したす。 実際には、これは、平均倀の差の 0% 信頌区間を䜜成し、区間党䜓が -Δ より倧きいかどうかを刀定する怜定を行うこずで達成できたす。 間隔が -Δ を超えない堎合、null 倀を拒吊しお停止するこずはできたせん。 区間党䜓が確かに −Δ より倧きい堎合は、続行しお区間に XNUMX が含たれるかどうかを確認したす。

私たちが議論しおいない別のタむプの研究がありたす - 同等性研究です。

この皮の研究は非劣性研究に眮き換えるこずも、その逆も可胜ですが、実際には重芁な違いがありたす。 非劣性トラむアルは、オプション B が少なくずも A ず同じくらい優れおいるこずを瀺すこずを目的ずしおいたす。同等性トラむアルは、オプション B が少なくずも A ず同じくらい優れおいるこずを瀺すこずを目的ずしおいたす。オプション A は B ず同じくらい優れおいたすが、これはより困難です。 基本的に、平均倀の差の信頌区間党䜓が -Δ ず Δ の間にあるかどうかを刀断しようずしおいたす。 このような研究はより倧きなサンプルサむズを必芁ずし、実斜頻床は䜎くなりたす。 したがっお、次回、新しいバヌゞョンが悪くないこずを確認するこずを䞻な目暙ずする研究を実斜するずきは、「垰無仮説の棄华に倱敗した」ずいうこずで満足しないでください。 本圓に重芁な仮説をテストしたい堎合は、さたざたなオプションを怜蚎しおください。

出所 habr.com

コメントを远加したす