4 Comments
跑个题,那串数据方差小难道不是因为数据数值上本来就很小嘛?
是,方差的绝对值是很小,不过它相对均值的量级来说也依然很小。就算把样本值放大一万倍,置信区间的相对宽度也不会变,从【0.0258791537,0.0258801055】变到【258.791537,258.801055】。
你这么一追问,我倒是想这篇文章应该加个附录。空谈误国,放码过来:
N = 11000 # 总体数量
P = rnorm(N) # 模拟总体
S2 = var(P) # 总体方差
# 样本方差的分布;理论上此处不应该用 replicate(1000, sample()),
# 而应该用 N 取 n 的排列组合,那样才是严格的无放回的简单随机抽样
s2_dist = function(n) {
replicate(1000, var(sample(P, n)))
}
# 试试不同的样本量,看样本方差的波动范围
ns = c(18, 30, 100, 5000)
ds = do.call(cbind, lapply(ns, s2_dist))
par(mfrow = c(length(ns), 1))
for (i in seq_along(ns)) {
hist(ds[, i], main = paste('n =', ns[i]), xlim = range(ds), xlab = 's^2')
abline(v = S2, lwd = 5, col = 'red')
}所以我文中的问题就是,当样本量小的时候,样本方差是对总体方差的一个好的近似吗?算置信区间时,用样本方差代替总体方差,这一步包含了不确定性,但这个不确定性似乎通常都被忽略了。
我个人的理解是,大概在百十年前,统计学家们分别发明了小样本理论和大样本理论。当时人力和技术有限,基于小样本理论衍生出的许多抽样调查方法才得到了更广泛的应用。每个人心里都有一套衡量事物的准则,而当时一些通用的抽样方法帮助人们统一了计与量的准则,大众层面上也就进一步放弃了深究抽样本身所带来的不确定性。
所以我理解你原本的问题“当样本量小的时候,样本方差是对总体方差的好的近似吗?”其实是两个问题,一是样本量小的时候,怎么看待抽样不确定性带来的影响,二是虽然样本量小但是样本的方差、置信区间也稳定地小,能否作为总体的近似。
在我生活的这个年代,受到大数据观念影响很深,对原先学的抽样调查方法有了一些颠覆的看法。世界上抽样调查有次翻车特别严重,就是2016年美国大选的民调,这可能导致以后的人们会越来越重视抽样的不确定性问题。
历史上罗斯福竞选总统那次,抽样也是严重翻车,让盖洛普开始起家(总部就在我这里),这也成为了统计入门课程里的经典案例。民调的抽样比扇贝抽样要难太多了,起码扇贝不看报纸、不看电视、更不看社交媒体。我年少时妄自评论社会科学研究时,总说一句话叫“人心难测”,所以我倾向于做自然科学。
Sign in to join the discussion
Sign in with GitHub