HOOOS

A/B测试中绕不开的“统计显著性”:P值和置信区间到底怎么算?

0 71 数据老司机 A/B测试统计显著性P值
Apple

在A/B测试中,咱们经常会听到“统计显著性”、“P值”、“置信区间”这些概念。哎,是不是听着就头大?别怕!今天我就来给你好好掰扯掰扯,保证你听完之后,对这些概念门儿清!

咱们先来聊聊,为啥A/B测试里需要“统计显著性”这个东西。

你想啊,咱们做A/B测试,不就是想看看哪个版本更好嘛!比如说,你改了个按钮的颜色,想看看点击率会不会提高。做了测试,发现新版本的点击率确实比旧版本高了一点点。但是!这一点点差异,真的是因为你改了按钮颜色导致的吗?还是说,只是因为随机性,瞎猫碰上死耗子了?

这时候,“统计显著性”就派上用场了。它能帮你判断,这个差异到底是真实存在的,还是纯属巧合。

啥是统计显著性?

简单来说,统计显著性就是指你观察到的差异不太可能是因为随机性产生的。更学术一点的说法是:如果原假设(Null Hypothesis)是正确的,那么你观察到这个差异(或者更极端差异)的概率非常小。

这里又冒出来一个新名词:原假设。啥是原假设?

在A/B测试里,原假设通常是“两个版本之间没有差异”。举个例子,你想看看新版本的按钮颜色会不会提高点击率,那么原假设就是“新版本和旧版本的点击率没有差异”。

如果统计显著性表明,你观察到的差异不太可能是因为随机性产生的,那么咱们就可以拒绝原假设,认为两个版本之间确实存在差异。

P值:衡量“巧合”的概率

好,现在我们知道统计显著性是用来判断差异是不是巧合的。那么,怎么判断呢?这就需要用到P值了。

P值,就是用来衡量“巧合”的概率的。更准确地说,P值是指:在原假设成立的情况下,观察到当前结果(或者更极端结果)的概率。

举个栗子:

假设你做了一个A/B测试,原假设是“新旧两个版本的点击率没有差异”。结果你发现,新版本的点击率比旧版本高了1%,P值是0.03。

这个P值0.03是什么意思呢?

它表示,如果新旧两个版本的点击率真的没有差异(原假设成立),那么你观察到新版本点击率比旧版本高1%(或者更高)的概率只有3%。

一般来说,我们会把P值和一个预先设定的阈值(显著性水平,通常用α表示,一般取0.05)进行比较。

  • 如果P值小于α(比如0.05),那么我们就认为这个结果是统计显著的,也就是说,这个差异不太可能是巧合,我们可以拒绝原假设,认为两个版本之间确实存在差异。
  • 如果P值大于α,那么我们就认为这个结果不是统计显著的,也就是说,这个差异很可能是巧合,我们不能拒绝原假设。

所以,你看,P值越小,我们就越有信心说,这个差异不是巧合,而是真实存在的。

等等,P值小就一定说明效果好吗?

这里要特别注意!P值小只能说明差异不太可能是巧合,但并不代表这个差异就一定很大,或者说效果就一定很好。P值的大小受到样本量的影响。样本量越大,P值就越容易变小。

置信区间:估计差异的范围

除了P值,我们还会用到另一个概念:置信区间(Confidence Interval)。

置信区间是用来估计真实差异的范围的。它表示,我们有多大的信心认为,真实的差异落在这个区间内。

比如说,你计算出来新版本点击率的置信区间是 [1%, 3%],置信水平是95%。

这是啥意思呢?

它表示,你有95%的信心认为,新版本的点击率比旧版本高1%到3%之间。

注意! 95%的置信水平并不是说真实差异有95%的概率落在这个区间内。正确的理解是:如果你重复做100次A/B测试,每次都计算一个95%的置信区间,那么大约有95个置信区间会包含真实的差异。

P值和置信区间的关系

P值和置信区间其实是“一家人”,它们都是用来评估统计显著性的。一般来说,如果P值小于α,那么对应的置信区间就不会包含0(对于差异来说)或者1(对于比率来说)。

举个例子,如果P值是0.03(小于0.05),那么95%的置信区间可能就是[0.5%, 2.5%],不包含0。这意味着,我们有95%的信心认为,新版本的点击率比旧版本高0.5%到2.5%之间,而不是没有差异(差异为0)。

如何计算P值和置信区间?

说了这么多,P值和置信区间到底怎么算呢?

计算P值和置信区间的方法有很多种,具体取决于你的数据类型(比如是比例还是均值)、样本量、以及你使用的统计检验方法(比如t检验、z检验、卡方检验等)。

这里,我给你介绍一个比较常用的计算方法:z检验。

假设你要比较两个版本的点击率(比例),样本量足够大(通常认为每组样本量大于30),那么你可以使用z检验来计算P值和置信区间。

1. 计算z统计量

z统计量的计算公式如下:

z = (p1 - p2) / sqrt(p * (1-p) * (1/n1 + 1/n2))

其中:

  • p1是版本1的点击率
  • p2是版本2的点击率
  • n1是版本1的样本量
  • n2是版本2的样本量
  • p是合并后的点击率,p = (x1 + x2) / (n1 + n2),其中x1和x2分别是两个版本的点击次数

2. 计算P值

有了z统计量,你就可以查表或者使用统计软件来计算P值了。P值是z统计量对应的双侧尾部概率。

3. 计算置信区间

置信区间的计算公式如下:

(p1 - p2) ± z * sqrt(p1 * (1-p1) / n1 + p2 * (1-p2) / n2)

其中:

  • z是对应置信水平的z值。比如,95%的置信水平对应的z值是1.96。

实例演示

假设你做了一个A/B测试,想看看新版本的注册按钮颜色会不会提高注册率。

  • 旧版本(对照组):1000个访客,50个人注册,注册率是5%
  • 新版本(实验组):1000个访客,70个人注册,注册率是7%

咱们来用z检验计算一下P值和置信区间。

1. 计算z统计量

  • p1 = 0.05
  • p2 = 0.07
  • n1 = 1000
  • n2 = 1000
  • p = (50 + 70) / (1000 + 1000) = 0.06

z = (0.07 - 0.05) / sqrt(0.06 * (1-0.06) * (1/1000 + 1/1000)) ≈ 2.83

2. 计算P值

查表或者使用统计软件,可以得到z = 2.83对应的双侧P值大约是0.0047。

3. 计算置信区间

95%的置信区间:

(0.07 - 0.05) ± 1.96 * sqrt(0.07 * (1-0.07) / 1000 + 0.05 * (1-0.05) / 1000) ≈ [0.006, 0.034]

结果解读

  • P值是0.0047,小于0.05,所以这个结果是统计显著的。我们可以拒绝原假设,认为新版本的注册率确实比旧版本高。
  • 95%的置信区间是[0.006, 0.034],不包含0。这也说明,我们有95%的信心认为,新版本的注册率比旧版本高0.6%到3.4%之间。

总结一下

好啦,关于A/B测试中的统计显著性、P值和置信区间,就先聊到这里。希望你现在对这些概念有了更清晰的认识。

记住,统计显著性只是A/B测试中的一个方面,我们还需要结合业务实际情况,综合考虑各种因素,才能做出正确的决策。别忘了,数据只是工具,最终还是要靠人来分析和判断!

如果你还想了解更多关于A/B测试的知识,欢迎继续关注我!我会不定期分享更多干货内容,让你在数据分析的道路上越走越远!

点评评价

captcha
健康