本帖最后由 tti_owen 于 2025-9-29 15:36 编辑
核心概念:什么是“功效”? 在理解功效之前,必须先理解三个核心统计概念:
- 假设检验:通过样本数据对一个总体参数(如均值、比例)提出一个假设(例如:“两种工艺生产的产品均值没有差异”),然后利用统计方法判断是否有足够证据拒绝这个假设。
- 第I类错误 (α):也称“显著性水平”。当原假设实际上为真时,我们错误地拒绝了它的概率。通常设为 0.05(5%)。这是我们愿意承担的“误报”风险。
- 第II类错误 (β):当原假设实际上为假时,我们错误地未能拒绝它的概率。这是我们“漏报”的风险。
统计功效 的定义是:当原假设为假时,我们正确拒绝它的概率。也就是说,功效 = 1 - β。
- 高功效 (例如 > 0.9):意味着如果你的处理/方法确实存在真实效应,你的实验有很高的概率能检测到这个效应,并得出具有统计显著性的结果。但功效太高,很小的效应或不需要关注的效应看上去都可能会很显著。
- 低功效 (例如 < 0.8):则您可能无法检测到效应并错误地得出不存在任何效应的结论。
为什么要进行“功效与样本数量”分析? 这个分析主要用于两个目的:
- 前瞻性规划(事前):在收集数据之前,帮助你设计实验或调查。
- 问题:“为了有 90% 的把握检测到 5 个单位的均值差异,我需要收集多少个样本?”
- 目标:确保你的研究有足够的样本量来发现预期的效应,避免浪费资源去做一个注定无法得出结论的实验。
- 回顾性评估(事后):在已经进行了实验但未得到显著结果后,帮助你理解结果。
- 问题:“我的实验没有显示出显著差异,这是因为它真的没有差异,还是因为我的样本量太小(功效不足)导致的?”
- 目标:解释不显著的结果。如果计算出的功效很低(例如 0.3),那么这个“无显著差异”的结论是不可靠的。
Minitab 的功效与样本数量分析功能主要分为四大类,对应不同的统计场景。 类别 1:用于估计(置信区间与公差区间) 这类分析的目标不是检验假设,而是为了获得一个足够精确的估计。 [td] | 分析名称 | | | | | “为了估计客户平均下单金额,在95%置信水平下将误差控制在±5元以内,我需要多少样本?” | | | “为了有95%的把握断定90%的产品长度落在某个区间内,这个区间的范围我希望不超过2毫米,需要多少样本?” |
类别 2:用于假设检验 这是最常用的一类,用于比较参数或检验其是否与某个值存在差异。其核心逻辑是:当差异确实存在时,我能有多大的把握检测到它? [td] | 分析名称 | | | | | “已知标准差为2,要检验一批产品的平均重量是否为100g,若真实重量是102g,我需要多少样本才能有90%的把握检测出这个差异?” | | | | | | “比较A、B两种工艺的产出率。若它们的真实差异是5%,为了有80%的把握证明这个差异存在,每组需要多少样本?” | | | “比较患者服药前和服药后的血压变化。若平均血压真实降低了10个单位,需要多少对数据才能有95%的把握检测到这一变化?” | | | “检验产品的合格率是否达到了99%。若真实合格率是98%,需要检验多少产品才能有把握发现它不达标?” | | | “比较两个广告的点击率。若A广告的真实点击率比B高1%,需要多少曝光量才能有85%的把握得出显著结论?” | | | “检验生产过程的方差是否稳定在4以内。若真实方差是9,需要多少样本才能有效检测出波动过大?” | | | “比较两台机器的稳定性(方差)。若一台的方差是另一台的2倍,需要多少样本才能有把握判断它们稳定性不同?” | | 统计 > 功效和样本数量 > 单样本 Poisson 率 | “检验一条生产线每天的平均缺陷数是否为5。若真实缺陷数是7,需要观测多少天?” | | 统计 > 功效和样本数量 > 双样本 Poisson 率 | “比较两条生产线的缺陷率。若一条的缺陷率比另一条高20%,需要收集多少数据?” |
类别 3:用于等价检验 这类分析与假设检验的目标相反。它不是要证明“有差异”,而是要证明“没有有意义的差异”,即两者足够相似。 [td] | 分析名称 | | | | 统计 > 功效和样本数量 > 等价检验 > 单样本 | “证明一种新原料的成本与原原料等效(差异在±0.5元以内)。需要多少样本才能有90%的把握证明它等效?” | | 统计 > 功效和样本数量 > 等价检验 > 双样本 | “证明仿制药与原研药在药效上是等效的(均值差异在临床可接受范围内)。” | | | | | 统计 > 功效和样本数量 > 等价检验 > 2x2交叉设计 | |
这类分析专门用于涉及多个因子的实验设计,帮助确定实验的规模(总试验次数、仿行数)。 [td] | 分析名称 | | | | | “研究3种不同配方的产品强度。若最佳与最差配方的平均强度相差10个单位,需要每个配方测试多少样本才能检测出这一差异?” | | | “一个包含4个因子的实验,要检测出效应大小为1.5个标准差的显著因子,需要做多少次实验(包括中心点)?” | | 统计 > 功效和样本数量 > Plackett-Burman设计 | | | | |
类别2功效分析中的四个关键变量 在这些功效分析中,都存在以下四个相互关联的变量。只要你固定其中任意三个,就能计算出第四个。
- 样本数量:实验中数据点的总数或每组的样本数。
- 效应大小:你希望检测到的最小差异或效应。这取决于具体检验:
- )对于均值检验:是均值之间的差异(例如,新方法比旧方法平均快 10 分钟)。
- )对于比率检验:是比率之间的差异(例如,新广告的点击率比旧广告高 2%)。
- )对于方差分析:是标准差的倍数。
- 功效值:你期望的检测能力,通常设置为 0.8或0.9。
- 显著性水平 (α):通常固定为 0.05。
在功效和样本数量分析中对标准差使用什么值? 您在功效和样本数量分析中使用的标准差(也称为西格玛或 σ)取决于您是否已收集了数据。 如果您尚未收集数据,请使用总体标准差的估计值。您的估计值应以相关研究、设计规范、试验研究、学科知识或相似信息为基础。 如果您已经收集并分析了数据,则使用下表所示的分析结果所提供的值。 [td] | 您执行的分析的类型 | | | | | | | | 单因子方差分析、2 水平因子设计或 Plackett-Burman 设计 | |
注意 如果您要以标准差(西格玛)作为单位来指定差值(效应),请在标准差中输入 1。
|