我們什麼時候應該檢驗非劣性假設?

我們什麼時候應該檢驗非劣性假設?
Stitch Fix 團隊的一篇文章建議在行銷和產品 A/B 測試中使用非劣效性試驗方法。 當我們測試一個具有無法透過測試衡量的好處的新解決方案時,這種方法確實適用。

最簡單的例子就是降低成本。 例如,我們將分配第一課的流程自動化,但我們不希望大幅減少端對端轉換。 或者,我們測試針對某一部分使用者的更改,同時確保其他部分的轉換不會下降太多(在測試多個假設時,不要忘記修改)。

選擇正確的非劣效性裕度會在測試設計階段增加額外的挑戰。 文章中沒有很好地討論如何選擇Δ的問題。 看來這種選擇在臨床試驗中也不完全透明。 Обзор 關於非劣效性的醫學出版物報告稱,只有一半的出版物證明了邊界選擇的合理性,而且這些理由通常是含糊不清或不詳細的。

無論如何,這種方法似乎很有趣,因為... 透過減少所需的樣本量,可以提高測試速度,進而提高決策速度。 — Daria Mukhina,Skyeng 行動應用程式產品分析師。

Stitch Fix 團隊喜歡測試不同的東西。 整個技術社群原則上都喜歡運行測試。 哪個版本的網站吸引了更多用戶 - A 或 B? A版本的推薦模式比B版賺的錢多嗎? 為了檢驗假設,我們幾乎總是使用基礎統計課程中最簡單的方法:

我們什麼時候應該檢驗非劣性假設?

儘管我們很少使用這個術語,但這種形式的測試稱為「優越性假設測試」。 透過這種方法,我們假設兩個選項之間沒有區別。 我們堅持這個想法,只有當數據足夠令人信服時才放棄它——也就是說,它表明其中一個選項(A 或 B)比另一個更好。

檢驗優越性假設適用於各種問題。 當推薦模型的B版本明顯優於已經使用的A版本時,我們才會發布它,但在某些情況下,這種方法效果並不那麼好。 讓我們來看幾個例子。

1)我們使用第三方服務,這有助於識別假冒銀行卡。 我們發現另一種服務的成本要低得多。 如果一種更便宜的服務和我們目前使用的服務一樣好用,我們就會選擇它。 它不一定比您正在使用的服務更好。

2)我們要放棄資料來源 A 並用資料來源 B 取代它。如果 B 產生非常糟糕的結果,我們可以延遲放棄 A,但不可能繼續使用 A。

3)我們希望放棄建模方法A to B 的方法並不是因為我們期望 B 得到更好的結果,而是因為它給了我們更大的操作彈性。 我們沒有理由相信B會更糟,但如果是這樣的話我們就不會進行轉型。

4)我們做了幾個質的改變 進入網站設計(版本 B),並相信該版本優於版本 A。我們預計轉換率或我們通常評估網站的任何關鍵績效指標不會改變。 但我們相信,參數的好處要不是無法測量,就是我們的技術不足以測量。

在所有這些情況下,優勢研究並不是最合適的解決方案。 但大多數專家在這種情況下默認使用它。 我們仔細地進行實驗,以正確確定效果的大小。 如果版本 A 和 B 的工作方式確實非常相似,那麼我們就有可能無法拒絕原假設。 我們是否可以斷定 A 和 B 的性能基本上相同? 不! 未能拒絕原假設和接受原假設不是一回事。

樣本量計算(當然,您已經完成了)通常對 I 類錯誤(未能拒絕零假設的概率,通常稱為 alpha)採用比 II 類錯誤(未能拒絕原假設的概率)更嚴格的界限。零假設,假設零假設為假,通常稱為beta)。 alpha 的典型值為 0,05,beta 的典型值為 0,20,對應的統計效力為 0,80。 這意味著我們有 20% 的機會錯過功率計算中指定數量的真實效果,這是一個相當嚴重的資訊差距。 例如,讓我們考慮以下假設:

我們什麼時候應該檢驗非劣性假設?

H0:我的背包不在我的房間 (3)
H1:我的背包在我的房間 (4)

如果我搜查了我的房間並找到了我的背包,那就太好了,我可以拒絕原假設。 但如果我環顧房間卻找不到我的背包(圖 1),我該下什麼結論呢? 我確定它不在那裡嗎? 我看得夠仔細嗎? 如果我只搜尋了 80% 的房間怎麼辦? 得出背包肯定不在房間裡的結論是一個草率的決定。 難怪我們不能「接受原假設」。
我們什麼時候應該檢驗非劣性假設?
我們搜尋的區域
我們沒有找到背包——我們應該接受原假設嗎?

圖 1:搜尋 80% 的房間與以 80% 功率搜尋大致相同。 如果你找遍了房間的 80% 都沒有找到背包,你能斷定它不存在嗎?

那麼在這種情況下資料科學家該做什麼呢? 你可以大大提高研究的功效,但隨後你將需要更大的樣本量,結果仍然會不令人滿意。

幸運的是,臨床研究領域長期以來一直在研究此類問題。 藥物B比藥物A便宜; 藥物 B 預計比藥物 A 引起的副作用較少; 藥物 B 更容易運輸,因為它不需要冷藏,但藥物 A 需要冷藏。 讓我們檢驗一下非劣效性假設。 這是為了表明版本 B 與版本 A 一樣好——至少在某個預先定義的非劣效性界限 Δ 內。 稍後我們將詳細討論如何設定此限制。 但現在我們假設這是具有實際意義的最小差異(在臨床試驗中,這通常稱為臨床意義)。

非劣效性假設顛覆了一切:

我們什麼時候應該檢驗非劣性假設?

現在,我們不再假設沒有差異,而是假設版本 B 比版本 A 更差,並且我們將堅持這一假設,直到我們證明情況並非如此。 這正是使用片面假設檢定有意義的時刻! 實際上,這可以透過建立置信區間並確定該區間是否實際上大於 Δ 來完成(圖 2)。
我們什麼時候應該檢驗非劣性假設?

選擇 Δ

如何選擇合適的Δ? Δ選擇過程包括統計論證和實質評估。 在臨床研究領域,監管指南規定 delta 應代表最小的臨床顯著差異,即在實踐中產生影響的差異。 這裡引用了歐洲指南中的一段話來測試自己:「如果差異選擇正確,完全位於 –Δ 和 0 之間的置信區間…仍然足以證明非劣效性。 如果這個結果看起來不可接受,則意味著 Δ 選擇不當。”

相對於真實對照(安慰劑/無治療),增量絕對不應超過版本 A 的效應大小,因為這導致我們說版本 B 比真實對照更差,同時證明「非劣效性」 」。 我們假設版本 A 推出後,已被版本 0 取代,或該功能根本不存在(參見圖 3)。

根據優越性假設的檢驗結果,揭示了效應大小E(即,推測μ^A−μ^0=E)。 現在 A 是我們的新標準,我們要確保 B 與 A 一樣好。 μB−μA≤−Δ(零假設)的另一種寫法是 μB≤μA−Δ。 如果我們假設 do 等於或大於 E,則 μB ≤ μA−E ≤ 安慰劑。 現在我們看到我們對 μB 的估計完全超過了 μA−E,從而完全拒絕了原假設,並允許我們得出 B 與 A 一樣好的結論,但同時 μB 可能 ≤ μ 安慰劑,這不是案例,我們需要什麼。 (圖3)。

我們什麼時候應該檢驗非劣性假設?
圖 3. 選擇非劣效界限的風險演示。 如果臨界值太高,則可以得出結論:B 不劣於 A,但同時與安慰劑無法區分。 我們不會將明顯比安慰劑 (A) 更有效的藥物換成與安慰劑一樣有效的藥物。

α的選擇

讓我們繼續選擇 α。 您可以使用標準值 α = 0,05,但這並不完全公平。 例如,當您在線購買商品並同時使用多個折扣代碼時,儘管它們不應該組合使用 - 開發商只是犯了一個錯誤,而您卻僥倖逃脫了懲罰。 根據規則,α的值應等於檢驗優越假設時所使用的α值的一半,即0,05 / 2 = 0,025。

樣本量

如何估計樣本量? 如果您認為 A 和 B 之間的真實平均差為 0,則樣本量計算與檢定優效性假設時相同,只是用非劣效性邊際取代效應量,前提是您使用 α非劣效=1/2α優效 (α非劣效=1/2α優效)。 如果您有理由相信選項 B 可能比選項 A 稍差,但您想證明它差不超過 Δ,那麼您很幸運! 這實際上減少了​​您的樣本量,因為如果您實際上認為 B 比 A 稍差而不是相等,則更容易證明 B 比 A 更差。

範例及解決方案

假設您想要升級到版本 B,前提是在 0,1 分客戶滿意度量表上,版本 B 比版本 A 差不超過 5 分…讓我們使用優越性假設來解決這個問題。

為了檢驗優越性假設,我們將計算樣本量如下:

我們什麼時候應該檢驗非劣性假設?

也就是說,如果您的組別中有 2103 個觀測值,您可以有 90% 的信心發現效應大小為 0,10 或更大。 但如果 0,10 對您來說太高,則可能不值得檢驗優越性假設。 為了安全起見,您可能會決定以較小的效應量(例如 0,05)進行研究。 在這種情況下,您將需要 8407 個觀測值,即樣本將增加幾乎 4 倍。 但是,如果我們堅持原來的樣本量,但將功效增加到 0,99,這樣如果我們得到陽性結果,我們就安全了,該怎麼辦? 在這種情況下,一組的 n 將為 3676,這已經更好了,但樣本量增加了 50% 以上。 結果,我們仍然無法反駁原假設,也不會得到問題的答案。

如果我們改為檢驗非劣性假設怎麼辦?

我們什麼時候應該檢驗非劣性假設?

除分母外,將使用相同的公式計算樣本量。
與用於檢驗優越性假設的公式的差異如下:

— Z1−α/2 被 Z1−α 替換,但如果您按照規則進行所有操作,則將 α = 0,05 替換為 α = 0,025,即,它是相同的數字 (1,96)

— (μB−μA) 出現在分母中

— θ(效果大小)替換為 Δ(非劣效性幅度)

如果我們假設 µB = µA,則 (µB − µA) = 0,而非劣效性裕度的樣本量計算結果正是我們計算效應量 0,1 的優效性時所得到的結果,太棒了! 我們可以用不同的假設和不同的結論方法進行相同規模的研究,我們就會得到我們真正想要回答的問題的答案。

現在假設我們實際上並不認為 µB = µA 並且
我們認為 µB 稍差一些,可能差了 0,01 個單位。 這增加了我們的分母,將每組的樣本量減少到 1737。

如果版本 B 實際上比版本 A 更好,會發生什麼? 我們拒絕原假設,即 B 比 A 差 Δ 以上,並接受備擇假設,即 B 如果較差,則不比 A 差 Δ,並且可能更好。 試著將這個結論放入跨職能演示中,看看會發生什麼(說真的,試試看)。 在前瞻性的情況下,沒有人願意滿足於「不超過 Δ 更差,也許更好」。

在這種情況下,我們可以進行一項研究,簡稱為「檢驗其中一個選項優於或劣於另一個選項的假設」。 它使用兩組假設:

第一組(與檢驗非劣效性假設相同):

我們什麼時候應該檢驗非劣性假設?

第二組(與檢驗優越性假設時相同):

我們什麼時候應該檢驗非劣性假設?

只有當第一個假設被拒絕時,我們才會檢驗第二個假設。 當順序測試時,我們保持總體 I 類錯誤率 (α)。 實際上,這可以透過為平均值之間的差異建立 95% 置信區間並進行測試以確定整個區間是否大於 -Δ 來實現。 如果間隔不超過-Δ,我們就不能拒絕空值並停止。 如果整個區間確實大於−Δ,我們將繼續查看該區間是否包含0。

還有另一種類型的研究我們沒有討論過——等效性研究。

這些類型的研究可以被非劣效性研究取代,反之亦然,但它們實際上有一個重要的差異。 非劣效性試驗的目的是證明選項 B 至少與 A 一樣好。等效性試驗的目的是證明選項 B 至少與 A 一樣好。選項 A 與 B 一樣好,這是比較困難的。 本質上,我們試圖確定平均值差異的整個置信區間是否位於 -Δ 和 Δ 之間。 此類研究需要更大的樣本量,並且進行的頻率較低。 因此,下次當您進行研究時,您的主要目標是確保新版本不會更糟,請不要滿足於「未能拒絕原假設」。 如果您想檢驗一個非常重要的假設,請考慮不同的選擇。

來源: www.habr.com

添加評論