引入 期望的区间估计 (未知方差)

Youliang ZhongSearch

Backlinks2. 期望的区间估计 (未知方差)Graph ViewHome ❯

Probability Statistics ❯

第七章 参数估计 ❯

引入 期望的区间估计 (未知方差)引入 期望的区间估计 (未知方差)May 07, 20257 min read

承接与对比:

在前面的讨论中(σ2 已知),我们使用 Z=σ/n​Xˉ−μ​ 作为枢轴量,因为它服从已知的标准正态分布 N(0,1)。

然而,在绝大多数实际应用中,如果总体均值 μ 是未知的,那么总体方差 σ2 (或标准差 σ) 通常也是未知的。假设 σ 已知往往是不现实的。

问题:当 σ 未知时,我们应该怎么办?

解决方案:用样本估计总体

自然的想法是用样本标准差 S 来估计未知的总体标准差 σ。

回顾:S2=n−11​∑i=1n​(Xi​−Xˉ)2 是 σ2 的无偏估计。

我们尝试将 Z 统计量中的 σ 替换为它的估计值 S,得到新的统计量:

T=S/n​Xˉ−μ​

关键问题:这个新的统计量 T 还服从标准正态分布 N(0,1) 吗?

答案:不服从。因为分母上的 S 本身是从样本计算出来的,它是一个随机变量,具有抽样波动性。这种来自估计 σ 的额外不确定性,使得 T 的分布与 Z 不同。

引入 t 分布 (Student’s t-distribution)

W.S. Gosset (笔名 Student) 在 1908 年研究了当总体服从正态分布 N(μ,σ2) 时,统计量 T=S/n​Xˉ−μ​ 的精确分布。

这个分布被称为学生 t 分布 (或简称 t 分布)。

t 分布的特点:

它由一个参数决定:自由度 (degrees of freedom, df),对于单样本估计 μ 的问题,df=n−1。

图像:关于 0 对称,形状类似标准正态分布,但尾部更“厚” (fatter tails)。这意味着 t 分布认为出现极端值的可能性比正态分布要大,这恰好反映了用 S 替代 σ 所引入的额外不确定性。

随着自由度 n−1 的增大,t 分布逐渐逼近标准正态分布 N(0,1)。当 n 很大时 (n≥30 或更大),S 对 σ 的估计非常精确,t 分布与 Z 分布几乎没有差别。

利用 t 分布构造置信区间

枢轴量:在总体 N(μ,σ2) 的假设下,T=S/n​Xˉ−μ​ 服从自由度为 n−1 的 t 分布,记作 t(n−1)。这是一个理想的枢轴量,因为它包含 μ,其分布已知且不依赖未知参数 (μ,σ2)。

构建概率不等式:对于给定的置信水平 1−α,查找 t 分布的上 α/2 分位数 tα/2​(n−1),使得 P(−tα/2​(n−1)

推导置信区间:将 T 的表达式代入并解出 μ:

P(Xˉ−tα/2​(n−1)n​S​<μ

置信区间公式 (σ 未知时):

(Xˉ−tα/2​(n−1)n​S​,Xˉ+tα/2​(n−1)n​S​)

或者简写为 Xˉ±tα/2​(n−1)n​S​。

例子:

这些例子更符合实际,因为我们不再需要假设 σ 已知。

例子 1: 新教学方法的效果评估

场景:研究者想估计采用某种全新教学方法后,学生在某项能力测试上的平均得分 μ。

σ 未知原因:因为是新方法,没有历史数据可以提供该方法下学生得分的标准差 σ。μ 和 σ 都需要从样本数据中估计。

数据:随机抽取 n=20 名学生接受新方法教学并参加测试。计算得到样本均值 Xˉ 和样本标准差 S。

区间需求:构造 μ 的 95% 置信区间,以评估新方法的平均效果。

解析:使用 t 分布,自由度 df=n−1=19。查找 t0.025​(19),计算区间 Xˉ±t0.025​(19)20​S​。

例子 2: 游客日均消费估计

场景:某城市旅游局想了解游客在该市的日均消费金额 μ。

σ 未知原因:不同游客的消费习惯差异很大,无法预先知道消费金额的标准差 σ。

数据:随机调查 n=50 名游客,记录其日均消费。计算样本均值 Xˉ 和样本标准差 S。

区间需求:构造 μ 的 90% 置信区间,为旅游经济规划提供参考。

解析:使用 t 分布,自由度 df=n−1=49。查找 t0.05​(49),计算区间 Xˉ±t0.05​(49)50​S​。

例子 3: 新药疗效评估

场景:制药公司研发了一种新降压药,想估计该药能使患者的收缩压平均降低多少 (μ)。

σ 未知原因:新药对不同患者的效果可能不同,其引起的血压降低值的标准差 σ 是未知的。

数据:选取 n=25 名高血压患者服用该药一段时间,记录每人收缩压的降低值。计算这些降低值的样本均值 Xˉ 和样本标准差 S。

区间需求:构造 μ 的 95% 置信区间,判断该药的平均降压效果。

解析:使用 t 分布,自由度 df=n−1=24。查找 t0.025​(24),计算区间 Xˉ±t0.025​(24)25​S​。

总结与对比:

当 σ 未知时,使用样本标准差 S 代替 σ,并使用 t 分布(自由度 n−1)代替 Z 分布来构造均值 μ 的置信区间。

t 分布的临界值 tα/2​(n−1) 通常大于对应的 zα/2​ 值(尤其在 n 较小时),这使得未知方差情况下的置信区间通常比已知方差情况下的区间要 宽。这反映了因为需要估计 σ 而带来的额外不确定性,使得估计的精度有所下降。

计算出的区间 Xˉ±tα/2​(n−1)n​S​ 提供了对未知总体均值 μ 的一个估计范围,并附加了 1−α 的置信度。

Created with Quartz v4.5.0 © 2025

Copyright © 2088 国足世界杯出线形势_世界杯出线 - ybjysq.com All Rights Reserved.
友情链接