我们什么时候应该检验非劣性假设?

我们什么时候应该检验非劣性假设?
Stitch Fix 团队的一篇文章建议在营销和产品 A/B 测试中使用非劣效性试验方法。 当我们测试一个具有无法通过测试衡量的好处的新解决方案时,这种方法确实适用。

最简单的例子就是降低成本。 例如,我们将分配第一课的过程自动化,但我们不希望显着减少端到端转化。 或者,我们测试针对某一部分用户的更改,同时确保其他部分的转化不会下降太多(在测试多个假设时,不要忘记修改)。

选择正确的非劣效性裕度会在测试设计阶段增加额外的挑战。 文章中没有很好地讨论如何选择Δ的问题。 看来这种选择在临床试验中也不完全透明。 查看 关于非劣效性的医学出版物报告称,只有一半的出版物证明了边界选择的合理性,而且这些理由通常是含糊不清或不详细的。

无论如何,这种方法似乎很有趣,因为...... 通过减少所需的样本量,可以提高测试速度,从而提高决策速度。 — Daria Mukhina,Skyeng 移动应用程序产品分析师。

Stitch Fix 团队喜欢测试不同的东西。 整个技术社区原则上都喜欢运行测试。 哪个版本的网站吸引了更多用户 - A 或 B? A版本的推荐模型比B版本赚的钱多吗? 为了检验假设,我们几乎总是使用基础统计学课程中最简单的方法:

我们什么时候应该检验非劣性假设?

尽管我们很少使用这个术语,但这种形式的测试称为“优越性假设测试”。 通过这种方法,我们假设两个选项之间没有区别。 我们坚持这个想法,只有当数据足够令人信服时才放弃它——也就是说,它表明其中一个选项(A 或 B)比另一个更好。

检验优越性假设适用于各种问题。 当推荐模型的 B 版本明显优于已经使用的 A 版本时,我们才会发布它,但在某些情况下,这种方法效果并不那么好。 让我们看几个例子。

1)我们使用第三方服务,这有助于识别假冒银行卡。 我们发现另一种服务的成本要低得多。 如果一种更便宜的服务和我们目前使用的服务一样好用,我们就会选择它。 它不一定比您正在使用的服务更好。

2)我们要放弃数据源 A 并用数据源 B 替换它。如果 B 产生非常糟糕的结果,我们可以延迟放弃 A,但不可能继续使用 A。

3)我们希望放弃建模方法A to B 的方法并不是因为我们期望 B 得到更好的结果,而是因为它给了我们更大的操作灵活性。 我们没有理由相信B会更糟,但如果是这样的话我们就不会进行转型。

4)我们做了几个质的改变 进入网站设计(版本 B),并相信该版本优于版本 A。我们预计转化率或我们通常评估网站的任何关键绩效指标不会发生变化。 但我们相信,参数的好处要么无法测量,要么我们的技术不足以测量。

在所有这些情况下,优势研究并不是最合适的解决方案。 但大多数专家在这种情况下默认使用它。 我们仔细地进行实验,以正确确定效果的大小。 如果版本 A 和 B 的工作方式确实非常相似,那么我们就有可能无法拒绝原假设。 我们是否可以断定 A 和 B 的性能基本相同? 不! 未能拒绝原假设和接受原假设不是一回事。

样本量计算(当然,您已经完成了)通常是在 I 类错误(未能拒绝原假设,通常称为 alpha)的范围内比 II 类错误(未能拒绝原假设的概率)更严格的范围内完成的。拒绝原假设,前提是原假设为假,通常称为 beta)。 alpha 的典型值为 0,05,beta 的典型值为 0,20,对应的统计功效为 0,80。 这意味着我们有 20% 的机会错过功率计算中指定数量的真实效果,这是一个相当严重的信息差距。 例如,让我们考虑以下假设:

我们什么时候应该检验非劣性假设?

H0:我的背包不在我的房间里 (3)
H1:我的背包在我的房间里 (4)

如果我搜查了我的房间并找到了我的背包,那就太好了,我可以拒绝原假设。 但如果我环顾房间却找不到我的背包(图 1),我应该得出什么结论呢? 我确定它不在那里吗? 我看得够仔细吗? 如果我只搜查了 80% 的房间怎么办? 得出背包肯定不在房间里的结论是一个草率的决定。 难怪我们不能“接受原假设”。
我们什么时候应该检验非劣性假设?
我们搜索的区域
我们没有找到背包——我们应该接受原假设吗?

图 1:搜索 80% 的房间与以 80% 功率搜索大致相同。 如果你找遍了房间的 80% 都没有找到背包,你能断定它不存在吗?

那么在这种情况下数据科学家应该做什么呢? 你可以大大提高研究的功效,但随后你将需要更大的样本量,结果仍然会不令人满意。

幸运的是,临床研究领域长期以来一直在研究此类问题。 药物B比药物A便宜; 药物 B 预计比药物 A 引起的副作用更少; 药物 B 更容易运输,因为它不需要冷藏,但药物 A 需要冷藏。 让我们检验一下非劣效性假设。 这是为了表明版本 B 与版本 A 一样好——至少在某个预定义的非劣效性界限 Δ 内。 稍后我们将详细讨论如何设置此限制。 但现在我们假设这是具有实际意义的最小差异(在临床试验中,这通常称为临床意义)。

非劣效性假设颠覆了一切:

我们什么时候应该检验非劣性假设?

现在,我们不再假设没有差异,而是假设版本 B 比版本 A 更差,并且我们将坚持这一假设,直到我们证明情况并非如此。 这正是使用片面假设检验有意义的时刻! 实际上,这可以通过构建置信区间并确定该区间是否实际上大于 Δ 来完成(图 2)。
我们什么时候应该检验非劣性假设?

选择 Δ

如何选择合适的Δ? Δ选择过程包括统计论证和实质性评估。 在临床研究领域,监管指南规定 delta 应代表最小的临床显着差异,即在实践中产生影响的差异。 这里引用了欧洲指南中的一段话来测试自己:“如果差异选择正确,完全位于 –Δ 和 0 之间的置信区间……仍然足以证明非劣效性。 如果这个结果看起来不可接受,则意味着 Δ 选择不当。”

增量绝对不应超过版本 A 相对于真实对照(安慰剂/无治疗)的效应大小,因为这使我们可以说版本 B 比真实对照更差,同时证明“非劣效性” ”。 我们假设版本 A 推出后,已被版本 0 取代,或者该功能根本不存在(参见图 3)。

根据优越性假设的检验结果,揭示了效应大小E(即,推测μ^A−μ^0=E)。 现在 A 是我们的新标准,我们要确保 B 与 A 一样好。 μB−μA≤−Δ(零假设)的另一种写法是 μB≤μA−Δ。 如果我们假设 do 等于或大于 E,则 μB ≤ μA−E ≤ 安慰剂。 现在我们看到我们对 μB 的估计完全超过了 μA−E,从而完全拒绝了原假设,并允许我们得出 B 与 A 一样好的结论,但同时 μB 可能 ≤ μ 安慰剂,这不是案例.我们需要什么. (图3)。

我们什么时候应该检验非劣性假设?
图 3. 选择非劣效性界限的风险演示。 如果临界值太高,则可以得出结论:B 不劣于 A,但同时与安慰剂无法区分。 我们不会将明显比安慰剂 (A) 更有效的药物换成与安慰剂一样有效的药物。

α的选择

让我们继续选择 α。 您可以使用标准值 α = 0,05,但这并不完全公平。 例如,当您在互联网上购买商品并同时使用多个折扣代码时,尽管它们不应该组合使用 - 开发商只是犯了一个错误,而您却逃脱了惩罚。 根据规则,α的值应等于检验优越性假设时使用的α值的一半,即0,05 / 2 = 0,025。

样本量

如何估计样本量? 如果您认为 A 和 B 之间的真实平均差为 0,则样本量计算与检验优效性假设时相同,只是用非劣效性边际替换效应量,前提是您使用 α非劣效=1/2α优效 (α非劣效=1/2α优效)。 如果您有理由相信选项 B 可能比选项 A 稍差,但您想证明它差不超过 Δ,那么您很幸运! 这实际上减少了您的样本量,因为如果您实际上认为 B 比 A 稍差而不是相等,则更容易证明 B 比 A 更差。

示例及解决方案

假设您想要升级到版本 B,前提是在 0,1 分客户满意度量表上,版本 B 比版本 A 差不超过 5 分……让我们使用优越性假设来解决这个问题。

为了检验优越性假设,我们将计算样本量如下:

我们什么时候应该检验非劣性假设?

也就是说,如果您的组中有 2103 个观测值,您可以有 90% 的信心发现效应大小为 0,10 或更大。 但如果 0,10 对您来说太高,则可能不值得检验优越性假设。 为了安全起见,您可能决定以较小的效应量(例如 0,05)运行研究。 在这种情况下,您将需要 8407 个观测值,即样本将增加几乎 4 倍。 但是,如果我们坚持原来的样本量,但将功效增加到 0,99,这样如果我们得到阳性结果,我们就安全了,该怎么办? 在这种情况下,一组的 n 将为 3676,这已经更好了,但样本量增加了 50% 以上。 结果,我们仍然无法反驳原假设,也不会得到问题的答案。

如果我们改为检验非劣性假设怎么办?

我们什么时候应该检验非劣性假设?

除分母外,将使用相同的公式计算样本量。
与用于检验优越性假设的公式的差异如下:

— Z1−α/2 被 Z1−α 替换,但如果您按照规则进行所有操作,则将 α = 0,05 替换为 α = 0,025,即,它是相同的数字 (1,96)

— (μB−μA) 出现在分母中

— θ(效果大小)替换为 Δ(非劣效性幅度)

如果我们假设 µB = µA,则 (µB − µA) = 0,并且非劣效性裕度的样本量计算结果正是我们计算效应量 0,1 的优效性时所得到的结果,太棒了! 我们可以用不同的假设和不同的结论方法进行相同规模的研究,我们就会得到我们真正想要回答的问题的答案。

现在假设我们实际上并不认为 µB = µA 并且
我们认为 µB 稍差一些,可能差了 0,01 个单位。 这增加了我们的分母,将每组的样本量减少到 1737。

如果版本 B 实际上比版本 A 更好,会发生什么? 我们拒绝原假设,即 B 比 A 差 Δ 以上,并接受备择假设,即 B 如果更差,则不比 A 差 Δ,并且可能更好。 尝试将这个结论放入跨职能演示中,看看会发生什么(说真的,尝试一下)。 在前瞻性的情况下,没有人愿意满足于“不超过 Δ 更差,也许更好”。

在这种情况下,我们可以进行一项研究,简称为“检验其中一个选项优于或劣于另一个选项的假设”。 它使用两组假设:

第一组(与检验非劣效性假设相同):

我们什么时候应该检验非劣性假设?

第二组(与检验优越性假设时相同):

我们什么时候应该检验非劣性假设?

仅当第一个假设被拒绝时,我们才检验第二个假设。 当顺序测试时,我们保持总体 I 类错误率 (α)。 实际上,这可以通过为均值之间的差异创建 95% 置信区间并进行测试以确定整个区间是否大于 -Δ 来实现。 如果间隔不超过-Δ,我们就不能拒绝空值并停止。 如果整个区间确实大于−Δ,我们将继续查看该区间是否包含0。

还有另一种类型的研究我们没有讨论过——等效性研究。

这些类型的研究可以被非劣效性研究替代,反之亦然,但它们实际上有一个重要的区别。 非劣效性试验的目的是证明选项 B 至少与 A 一样好。等效性试验的目的是证明选项 B 至少与 A 一样好。选项 A 与 B 一样好,这是比较困难的。 本质上,我们试图确定均值差异的整个置信区间是否位于 -Δ 和 Δ 之间。 此类研究需要更大的样本量,并且进行的频率较低。 因此,下次当您进行一项研究时,您的主要目标是确保新版本不会更糟,请不要满足于“未能拒绝原假设”。 如果您想检验一个非常重要的假设,请考虑不同的选择。

来源: habr.com

添加评论