哎呀,做完正交实验,面对一堆数据是不是有点懵?别慌!今天咱们就来聊聊正交实验结果分析的两大法宝:极差分析和方差分析。保证让你从数据小白变身数据分析达人!
咱们先来明确一下,正交实验是啥?简单来说,就是用最少的实验次数,找出影响实验结果的关键因素和最佳组合。这就像用最少的食材,做出最美味的菜肴!
而极差分析和方差分析,就是帮你从实验结果中“提炼”出关键信息的“秘方”。
一、 极差分析:快速找出“潜力股”
极差分析,顾名思义,就是通过计算每个因素各个水平下实验结果的极差(最大值减最小值),来判断这个因素对实验结果的影响大小。极差越大,说明这个因素的影响越大,就像“潜力股”一样,值得我们重点关注。
1.1 极差分析的步骤,其实很简单:
- 列出正交实验结果表: 把实验方案和结果都清清楚楚地列出来。
- 计算每个因素各水平的平均值: 对于每个因素的每个水平,把对应的实验结果加起来,然后除以这个水平出现的次数。 举个栗子,如果因素A有三个水平A1, A2, A3, A1水平在实验中出现了3次,对应的结果分别是10, 12, 14,那么A1水平的平均值就是 (10+12+14)/3 = 12。
- 计算每个因素的极差: 对于每个因素,找出它各个水平平均值的最大值和最小值,然后相减,得到的就是这个因素的极差。 比如,因素A的三个水平平均值分别是12, 15, 11,那么因素A的极差就是 15-11 = 4。
- 判断因素的主次: 比较各个因素的极差,极差越大的因素,影响就越大,也就是我们说的主要因素。反之,极差小的因素,影响就比较小,是次要因素。
1.2 举个“栗子”:
假设我们要做一个“烤面包”的正交实验,考察三个因素:
- A:烤箱温度(℃)
- B:烘烤时间(分钟)
- C:酵母用量(克)
我们用L9(3^4)正交表安排实验(为啥用这个表,先不管,后面会再讲到相关的),实验结果(面包评分)如下:
实验号 | A (温度) | B (时间) | C (酵母) | 面包评分 |
---|---|---|---|---|
1 | 1 | 1 | 1 | 70 |
2 | 1 | 2 | 2 | 75 |
3 | 1 | 3 | 3 | 82 |
4 | 2 | 1 | 2 | 78 |
5 | 2 | 2 | 3 | 85 |
6 | 2 | 3 | 1 | 68 |
7 | 3 | 1 | 3 | 80 |
8 | 3 | 2 | 1 | 65 |
9 | 3 | 3 | 2 | 72 |
按照上面的步骤,我们来计算一下:
计算平均值:
- A1 平均值 = (70+75+82)/3 = 75.67
- A2 平均值 = (78+85+68)/3 = 77
- A3 平均值 = (80+65+72)/3 = 72.33
- B1 平均值 = (70+78+80)/3 = 76
- B2 平均值 = (75+85+65)/3 = 75
- B3 平均值 = (82+68+72)/3 = 74
- C1 平均值 = (70+68+65)/3 = 67.67
- C2 平均值 = (75+78+72)/3 = 75
- C3 平均值 = (82+85+80)/3 = 82.33
计算极差:
- A 的极差 = 77 - 72.33 = 4.67
- B 的极差 = 76 - 74 = 2
- C 的极差 = 82.33 - 67.67 = 14.66
判断主次:
C 的极差最大,所以酵母用量是影响面包评分的主要因素。A 的极差次之,烤箱温度是次要因素。B 的极差最小,烘烤时间的影响最小。
1.3 极差分析的优点和局限性:
- 优点: 简单、直观、易于理解和计算,不需要复杂的统计学知识。
- 局限性: 不能区分实验误差和因素效应,不能进行显著性检验,不能判断因素之间是否存在交互作用(就是几个因素“合伙”起来影响结果)。
所以,极差分析通常作为初步分析,快速筛选出主要因素。要想更深入地分析,还得靠方差分析!
二、 方差分析:深入挖掘“真相”
方差分析,听起来很高大上,其实它的核心思想就是把实验结果的“总变异”分解成各个因素引起的“变异”和“误差”。如果某个因素引起的“变异”比“误差”大很多,我们就认为这个因素是显著的,也就是对实验结果有显著影响。
2.1 方差分析的统计学原理:
方差分析基于以下几个假设:
- 正态性: 实验结果服从正态分布,或者近似服从正态分布。这个假设可以用正态概率图或者 Shapiro-Wilk 检验来检查。
- 独立性: 每次实验都是独立的,互不影响。这个假设在实验设计时就要保证。
- 方差齐性: 各个因素水平下的实验结果的方差相等。这个假设可以用 Levene 检验或者 Bartlett 检验来检查。
如果这些假设不满足,可能需要对数据进行转换(比如取对数、开平方等),或者使用非参数检验方法。
2.2 方差分析的步骤:
计算平方和:
- 总平方和 (SST): 反映所有实验结果的总变异。计算公式是:每个实验结果减去总平均值的平方,然后加起来。
- 因素平方和 (SSA, SSB, SSC...): 反映每个因素引起的变异。计算公式是:每个因素每个水平的平均值减去总平均值的平方,乘以这个水平出现的次数,然后对所有水平求和。
- 误差平方和 (SSE): 反映实验误差引起的变异。计算公式是:总平方和减去所有因素平方和。
计算自由度:
- 总自由度 (dfT): 总实验次数减 1。
- 因素自由度 (dfA, dfB, dfC...): 每个因素的水平数减 1。
- 误差自由度 (dfE): 总自由度减去所有因素自由度。
计算均方:
- 因素均方 (MSA, MSB, MSC...): 每个因素的平方和除以它的自由度。
- 误差均方 (MSE): 误差平方和除以它的自由度。
计算 F 值:
- 每个因素的 F 值 = 这个因素的均方 / 误差均方。
查 F 分布表,进行显著性检验:
- 根据显著性水平(通常取 0.05 或 0.01)和自由度,查 F 分布表,得到临界值 Fα。
- 如果计算得到的 F 值大于 Fα,我们就认为这个因素是显著的。
2.3 还是那个“烤面包”的例子:
我们用上面的实验数据,来进行方差分析(这里省略具体计算过程,直接给出结果):
变异来源 | 平方和 | 自由度 | 均方 | F 值 | 显著性 |
---|---|---|---|---|---|
A (温度) | 42.89 | 2 | 21.45 | 2.59 | 不显著 |
B (时间) | 8 | 2 | 4 | 0.48 | 不显著 |
C (酵母) | 418.67 | 2 | 209.34 | 25.26 | 显著 |
误差 | 16.56 | 2 | 8.28 | ||
总和 | 486.12 | 8 |
从这个结果我们可以看出:
- 酵母用量(C)的 F 值远大于临界值(假设显著性水平为 0.05,查表得到 F0.05(2,2) = 19),所以酵母用量对面包评分有显著影响。
- 烤箱温度(A)和烘烤时间(B)的 F 值都小于临界值,所以这两个因素对面包评分没有显著影响。
这个结论和极差分析的结论是一致的,但是方差分析提供了更可靠的证据。
2.4 如何利用统计软件进行方差分析:
手动计算方差分析太麻烦了!还好我们有统计软件!
2.4.1 SPSS:
- 输入数据: 在 SPSS 中建立数据文件,把实验方案和结果输入进去。
- 选择分析方法: 在菜单栏中选择“分析”->“一般线性模型”->“单变量”。
- 设置变量: 把实验结果作为因变量,把各个因素作为固定因子。
- 选择选项: 在“选项”中,可以选择输出描述性统计、方差齐性检验等。
- 运行分析: 点击“确定”,SPSS 就会自动进行方差分析,并输出结果。
2.4.2 R:
- 输入数据: 在 R 中创建数据框,把实验方案和结果输入进去。
- 建立模型: 使用
aov()
函数建立方差分析模型。例如,model <- aov(面包评分 ~ A + B + C, data = 你的数据框)
- 查看结果: 使用
summary()
函数查看方差分析结果。例如,summary(model)
- 进行多重比较: 如果某个因素显著,可以使用
TukeyHSD()
函数进行多重比较,找出具体是哪些水平之间存在显著差异。
2.5 补充说明:
- 如果正交表有空列,需要把空列的平方和加到误差平方和中。
- 如果存在交互作用,需要在模型中加入交互项。例如,
model <- aov(面包评分 ~ A + B + C + A:B, data = 你的数据框)
表示考虑 A 和 B 的交互作用。 - 方差分析的结果解释要结合实际情况,不能单纯依赖 p 值。
三、 总结一下
极差分析和方差分析是正交实验结果分析的两种常用方法。极差分析简单直观,可以快速筛选出主要因素;方差分析更严谨,可以进行显著性检验,判断因素的影响是否显著。在实际应用中,我们可以先用极差分析进行初步分析,再用方差分析进行深入分析,两者结合,效果更佳!
希望这篇“保姆级”教程能帮到你!下次做完正交实验,别再对着数据发愁啦!拿起极差分析和方差分析这两把“利器”,去挖掘数据背后的“宝藏”吧!