Home › Comments › Thread

扇贝抽样案例 —— 统计方法误区 | /cn/2005/08/20-26-00/

utterances-bot 2021-03-18 11:03:15

扇贝抽样案例 —— 统计方法误区

https://yihui.org/cn/2005/08/20-26-00/

4 Comments

earfanfan 2021-03-18 11:03:16

跑个题，那串数据方差小难道不是因为数据数值上本来就很小嘛？

yihui 2021-03-18 20:45:35

是，方差的绝对值是很小，不过它相对均值的量级来说也依然很小。就算把样本值放大一万倍，置信区间的相对宽度也不会变，从【0.0258791537，0.0258801055】变到【258.791537，258.801055】。

你这么一追问，我倒是想这篇文章应该加个附录。空谈误国，放码过来：

N = 11000  # 总体数量
P = rnorm(N)  # 模拟总体
S2 = var(P)   # 总体方差
# 样本方差的分布；理论上此处不应该用 replicate(1000, sample())，
# 而应该用 N 取  n 的排列组合，那样才是严格的无放回的简单随机抽样
s2_dist = function(n) {
  replicate(1000, var(sample(P, n)))
}
# 试试不同的样本量，看样本方差的波动范围
ns = c(18, 30, 100, 5000)
ds = do.call(cbind, lapply(ns, s2_dist))

par(mfrow = c(length(ns), 1))
for (i in seq_along(ns)) {
  hist(ds[, i], main = paste('n =', ns[i]), xlim = range(ds), xlab = 's^2')
  abline(v = S2, lwd = 5, col = 'red')
}

所以我文中的问题就是，当样本量小的时候，样本方差是对总体方差的一个好的近似吗？算置信区间时，用样本方差代替总体方差，这一步包含了不确定性，但这个不确定性似乎通常都被忽略了。

earfanfan 2021-03-22 03:29:35

我个人的理解是，大概在百十年前，统计学家们分别发明了小样本理论和大样本理论。当时人力和技术有限，基于小样本理论衍生出的许多抽样调查方法才得到了更广泛的应用。每个人心里都有一套衡量事物的准则，而当时一些通用的抽样方法帮助人们统一了计与量的准则，大众层面上也就进一步放弃了深究抽样本身所带来的不确定性。

所以我理解你原本的问题“当样本量小的时候，样本方差是对总体方差的好的近似吗？”其实是两个问题，一是样本量小的时候，怎么看待抽样不确定性带来的影响，二是虽然样本量小但是样本的方差、置信区间也稳定地小，能否作为总体的近似。

在我生活的这个年代，受到大数据观念影响很深，对原先学的抽样调查方法有了一些颠覆的看法。世界上抽样调查有次翻车特别严重，就是2016年美国大选的民调，这可能导致以后的人们会越来越重视抽样的不确定性问题。

yihui 2021-03-22 05:52:46

历史上罗斯福竞选总统那次，抽样也是严重翻车，让盖洛普开始起家（总部就在我这里），这也成为了统计入门课程里的经典案例。民调的抽样比扇贝抽样要难太多了，起码扇贝不看报纸、不看电视、更不看社交媒体。我年少时妄自评论社会科学研究时，总说一句话叫“人心难测”，所以我倾向于做自然科学。