A/B测试中绕不开的“统计显著性”：P值和置信区间到底怎么算？

在A/B测试中，咱们经常会听到“统计显著性”、“P值”、“置信区间”这些概念。哎，是不是听着就头大？别怕！今天我就来给你好好掰扯掰扯，保证你听完之后，对这些概念门儿清！

咱们先来聊聊，为啥A/B测试里需要“统计显著性”这个东西。

你想啊，咱们做A/B测试，不就是想看看哪个版本更好嘛！比如说，你改了个按钮的颜色，想看看点击率会不会提高。做了测试，发现新版本的点击率确实比旧版本高了一点点。但是！这一点点差异，真的是因为你改了按钮颜色导致的吗？还是说，只是因为随机性，瞎猫碰上死耗子了？

这时候，“统计显著性”就派上用场了。它能帮你判断，这个差异到底是真实存在的，还是纯属巧合。

啥是统计显著性？

简单来说，统计显著性就是指你观察到的差异不太可能是因为随机性产生的。更学术一点的说法是：如果原假设（Null Hypothesis）是正确的，那么你观察到这个差异（或者更极端差异）的概率非常小。

这里又冒出来一个新名词：原假设。啥是原假设？

在A/B测试里，原假设通常是“两个版本之间没有差异”。举个例子，你想看看新版本的按钮颜色会不会提高点击率，那么原假设就是“新版本和旧版本的点击率没有差异”。

如果统计显著性表明，你观察到的差异不太可能是因为随机性产生的，那么咱们就可以拒绝原假设，认为两个版本之间确实存在差异。

P值：衡量“巧合”的概率

好，现在我们知道统计显著性是用来判断差异是不是巧合的。那么，怎么判断呢？这就需要用到P值了。

P值，就是用来衡量“巧合”的概率的。更准确地说，P值是指：在原假设成立的情况下，观察到当前结果（或者更极端结果）的概率。

举个栗子：

假设你做了一个A/B测试，原假设是“新旧两个版本的点击率没有差异”。结果你发现，新版本的点击率比旧版本高了1%，P值是0.03。

这个P值0.03是什么意思呢？

它表示，如果新旧两个版本的点击率真的没有差异（原假设成立），那么你观察到新版本点击率比旧版本高1%（或者更高）的概率只有3%。

一般来说，我们会把P值和一个预先设定的阈值（显著性水平，通常用α表示，一般取0.05）进行比较。

如果P值小于α（比如0.05），那么我们就认为这个结果是统计显著的，也就是说，这个差异不太可能是巧合，我们可以拒绝原假设，认为两个版本之间确实存在差异。
如果P值大于α，那么我们就认为这个结果不是统计显著的，也就是说，这个差异很可能是巧合，我们不能拒绝原假设。

所以，你看，P值越小，我们就越有信心说，这个差异不是巧合，而是真实存在的。

等等，P值小就一定说明效果好吗？

这里要特别注意！P值小只能说明差异不太可能是巧合，但并不代表这个差异就一定很大，或者说效果就一定很好。P值的大小受到样本量的影响。样本量越大，P值就越容易变小。

置信区间：估计差异的范围

除了P值，我们还会用到另一个概念：置信区间（Confidence Interval）。

置信区间是用来估计真实差异的范围的。它表示，我们有多大的信心认为，真实的差异落在这个区间内。

比如说，你计算出来新版本点击率的置信区间是 [1%, 3%]，置信水平是95%。

这是啥意思呢？

它表示，你有95%的信心认为，新版本的点击率比旧版本高1%到3%之间。

注意！ 95%的置信水平并不是说真实差异有95%的概率落在这个区间内。正确的理解是：如果你重复做100次A/B测试，每次都计算一个95%的置信区间，那么大约有95个置信区间会包含真实的差异。

P值和置信区间的关系

P值和置信区间其实是“一家人”，它们都是用来评估统计显著性的。一般来说，如果P值小于α，那么对应的置信区间就不会包含0（对于差异来说）或者1（对于比率来说）。

举个例子，如果P值是0.03（小于0.05），那么95%的置信区间可能就是[0.5%, 2.5%]，不包含0。这意味着，我们有95%的信心认为，新版本的点击率比旧版本高0.5%到2.5%之间，而不是没有差异（差异为0）。

如何计算P值和置信区间？

说了这么多，P值和置信区间到底怎么算呢？

计算P值和置信区间的方法有很多种，具体取决于你的数据类型（比如是比例还是均值）、样本量、以及你使用的统计检验方法（比如t检验、z检验、卡方检验等）。

这里，我给你介绍一个比较常用的计算方法：z检验。

假设你要比较两个版本的点击率（比例），样本量足够大（通常认为每组样本量大于30），那么你可以使用z检验来计算P值和置信区间。

1. 计算z统计量

z统计量的计算公式如下：

z = (p1 - p2) / sqrt(p * (1-p) * (1/n1 + 1/n2))

其中：

p1是版本1的点击率
p2是版本2的点击率
n1是版本1的样本量
n2是版本2的样本量
p是合并后的点击率，p = (x1 + x2) / (n1 + n2)，其中x1和x2分别是两个版本的点击次数

2. 计算P值

有了z统计量，你就可以查表或者使用统计软件来计算P值了。P值是z统计量对应的双侧尾部概率。

3. 计算置信区间

置信区间的计算公式如下：

(p1 - p2) ± z * sqrt(p1 * (1-p1) / n1 + p2 * (1-p2) / n2)

其中：

z是对应置信水平的z值。比如，95%的置信水平对应的z值是1.96。

实例演示

假设你做了一个A/B测试，想看看新版本的注册按钮颜色会不会提高注册率。

旧版本（对照组）：1000个访客，50个人注册，注册率是5%
新版本（实验组）：1000个访客，70个人注册，注册率是7%

咱们来用z检验计算一下P值和置信区间。

1. 计算z统计量

p1 = 0.05
p2 = 0.07
n1 = 1000
n2 = 1000
p = (50 + 70) / (1000 + 1000) = 0.06

z = (0.07 - 0.05) / sqrt(0.06 * (1-0.06) * (1/1000 + 1/1000)) ≈ 2.83

2. 计算P值

查表或者使用统计软件，可以得到z = 2.83对应的双侧P值大约是0.0047。

3. 计算置信区间

95%的置信区间：

(0.07 - 0.05) ± 1.96 * sqrt(0.07 * (1-0.07) / 1000 + 0.05 * (1-0.05) / 1000) ≈ [0.006, 0.034]

结果解读

P值是0.0047，小于0.05，所以这个结果是统计显著的。我们可以拒绝原假设，认为新版本的注册率确实比旧版本高。
95%的置信区间是[0.006, 0.034]，不包含0。这也说明，我们有95%的信心认为，新版本的注册率比旧版本高0.6%到3.4%之间。

总结一下

好啦，关于A/B测试中的统计显著性、P值和置信区间，就先聊到这里。希望你现在对这些概念有了更清晰的认识。

记住，统计显著性只是A/B测试中的一个方面，我们还需要结合业务实际情况，综合考虑各种因素，才能做出正确的决策。别忘了，数据只是工具，最终还是要靠人来分析和判断！

如果你还想了解更多关于A/B测试的知识，欢迎继续关注我！我会不定期分享更多干货内容，让你在数据分析的道路上越走越远！

A/B测试中绕不开的“统计显著性”：P值和置信区间到底怎么算？

啥是统计显著性？

P值：衡量“巧合”的概率

置信区间：估计差异的范围

P值和置信区间的关系

如何计算P值和置信区间？

1. 计算z统计量

2. 计算P值

3. 计算置信区间

实例演示

1. 计算z统计量

2. 计算P值

3. 计算置信区间

结果解读

总结一下

点评评价