HOOOS

正交试验结果分析中异常值处理与稳健统计方法

0 107 数据分析老顽童 正交试验异常值处理稳健统计
Apple

正交试验设计是一种高效、快速、经济的试验设计方法,广泛应用于各个领域的科学研究和工程实践中。通过正交表安排试验,可以有效地减少试验次数,同时又能较全面地考察各因素及其交互作用对试验结果的影响。然而,在分析正交试验结果时,有时会发现某个因素的某个水平对应的响应变量明显偏离其他水平,也就是我们常说的“异常值”。这些异常值可能会对试验结果的分析和解释产生误导,因此需要进行妥善处理。下面,咱们就来聊聊在正交试验结果分析中遇到异常值该怎么办,以及如何采用稳健的统计方法来提高结果的可靠性和稳健性。

一、 啥是正交试验里的“异常值”?

在正交试验中,异常值通常指的是某个因素在特定水平下,其对应的响应变量值与其他水平下的响应值相比,存在显著差异。这种差异可能是由多种原因造成的,比如:

  • 试验操作失误: 实验过程中出现的人为操作错误,例如配料错误、仪器故障、记录错误等。
  • 试验材料或环境的异常波动: 试验材料本身存在缺陷或不均匀性,或者试验环境(如温度、湿度)发生异常变化。
  • 因素水平本身的特殊性: 某些因素水平可能具有特殊性质,导致其响应值与其他水平存在本质差异。 比如,催化剂种类,A催化剂效果很好,BCD效果都不好。
  • 数据记录或处理错误:单纯的记录错误,写错了。

二、 发现异常值,先别慌!

发现异常值后,首先不要急于直接剔除或进行统计处理。我们需要仔细审查试验过程和数据,判断异常值产生的原因。一般可以按照以下步骤进行:

  1. 检查原始数据: 仔细核对原始数据记录,确认是否存在抄写、录入错误。
  2. 回顾试验过程: 回顾试验操作过程,确认是否存在操作失误、仪器故障等问题。
  3. 分析异常值出现的规律: 观察异常值是否集中出现在某个试验批次、某个时间段或某个特定条件下。
  4. 咨询相关领域的专家: 如果自己无法确定异常值产生的原因,可以咨询相关领域的专家,寻求专业意见。

通过以上步骤,我们尽可能地找出异常值的“根源”。如果确定是试验操作失误或数据记录错误导致的异常值,可以直接剔除。但如果异常值是由因素水平本身的特殊性或其他未知原因导致的,则需要谨慎处理,不能轻易剔除。

三、 处理异常值的“招数”

针对无法直接剔除的异常值,我们可以考虑以下几种处理方法:

  1. 单独分析:

    如果某个因素的某个水平明显优于或劣于其他水平,可以将该水平的数据单独进行分析,研究其产生优良或不良结果的原因。这种方法适用于异常值具有明确的物理意义或实际价值的情况。例如,在研究不同配方的食品保质期时,发现某个配方的保质期显著长于其他配方,那么就可以单独分析该配方的成分和工艺,为产品优化提供依据。又比如,某个工艺参数组合得到了非常好的结果,明显好于其他组合,那么可以着重对这个组合进行重复试验,看结果是否可以稳定复现。

  2. 稳健统计方法:

    如果异常值对试验结果的整体分析产生了较大影响,可以采用稳健的统计方法来减小异常值的影响。稳健统计方法对异常值不敏感,能够给出更可靠的分析结果。常用的稳健统计方法包括:

    • Winsorized 均值: 将数据排序后,用指定百分位数的数值替换掉两端超出该百分位数的数值,然后再计算均值。例如,用 5% 和 95% 分位数替换掉小于 5% 分位数和大于 95% 分位数的数值。这种方法可以有效地减小极端值对均值的影响。
    • 中位数: 中位数是一组数据排序后位于中间位置的数值,对于对称分布的数据,中位数与均值接近;对于偏态分布的数据,中位数比均值更稳健。因为中位数只与中间位置的数值有关,不受极端值的影响。
    • 截尾均值 (Trimmed mean): 去除一定比例的极值之后再求均值。比如去除数据中最大和最小的5%的数据,然后计算剩下90%数据的均值。
    • M 估计: M 估计是一种基于迭代加权最小二乘法的稳健估计方法,通过赋予异常值较小的权重来减小其对估计结果的影响。M 估计的具体实现方法有多种,例如 Huber 估计、Tukey 双权估计等。M-估计是一种广泛使用的稳健回归方法。
  3. 增加试验次数: 对于数据波动较大的情况,可以通过增加试验次数来获得更多数据,从而降低抽样误差和异常值对分析结果的影响。 尤其注意对怀疑出现异常值的那个条件组合进行重复。

  4. Box-Cox变换:如果数据不符合正态分布,或者方差不齐,可以尝试对数据进行Box-Cox变换。通过Box-Cox变换,可以将非正态分布的数据转化为近似正态分布,从而满足一些统计分析方法的前提假设。当然,也可以对转换后的数据采用稳健的统计方法进行处理。

四、 案例分析

假设我们进行了一项关于不同温度(A)、时间(B)和催化剂用量(C)对某化学反应产率影响的正交试验。试验结果如下:

试验号 A (温度) B (时间) C (催化剂用量) 产率 (%)
1 1 1 1 70
2 1 2 2 75
3 1 3 3 72
4 2 1 2 80
5 2 2 3 82
6 2 3 1 78
7 3 1 3 60
8 3 2 1 65
9 3 3 2 62

观察数据可以发现,温度为 3 的三个试验(7、8、9)的产率明显低于其他温度水平。这可能是由于高温导致副反应增多,或者催化剂失活等原因。在分析数据时,可以采用以下几种方法:

  • 方法一:单独分析。 将温度为 3 的数据单独进行分析,研究其产率较低的原因。可以进一步试验验证,或者查阅相关文献。
  • 方法二:稳健统计。 采用 Winsorized 均值或中位数来计算各因素的平均效应。例如,计算温度的平均效应时,可以将温度为 3 的三个产率值(60, 65, 62)替换为温度为 1 和 2 的产率值的中位数(76.5),然后再计算三个温度水平的平均产率。

具体采用哪种方法,需要根据实际情况和研究目的来确定。如果研究的重点是寻找最佳工艺条件,那么可以采用方法一,重点关注产率较高的试验条件。如果研究的重点是评估各因素对产率的总体影响,那么可以采用方法二,获得更稳健的分析结果。

五、总结

正交试验结果分析中遇到异常值是常见的情况,处理异常值需要谨慎,不能轻易剔除。通过仔细审查试验过程和数据,找出异常值产生的原因是关键。如果异常值无法直接剔除,可以考虑单独分析、稳健统计方法等处理手段。选择哪种处理方法,需要根据试验的具体情况和研究目的来确定。总而言之,我们要尽可能保证结果的可靠性和稳健性,得出科学合理的结论。希望上面这些能给你带来一些启发!

点评评价

captcha
健康