Home Comments Thread
New Thread

6 Comments

giscus-bot giscus-bot 2022-12-16 14:50:24
访客 *xmok* @ 2008-10-06 11:28:16 写道:

我是偶尔看到你的这个有趣的博客,统计学方方面面似乎都涉及到,关于PCR的问题,我觉得还是有一定道理的。我不知道你的“这里面潜在的危险就是,万一成分与因变量无关呢?”是什么意思,若pc与因变量无关,就自动被踢出来了啊,好像不是问题。
而且PC是互相独立的是不准确的,应该是无关吧

yihui yihui 2022-12-16 14:50:31

对,无关

PCR没有选变量的功能,只有逐步回归或其它方法才做variable selection,PCR只是把几个PC值拿来跟因变量做回归,而PC的求得仅仅依赖自变量的结构,和因变量不一定有关系,所以才可能的出来的PC与y无关。而PLSR照顾到了y和PC的关系(协方差最大化)。

——原帖发布于 2008-10-06 17:02:51

giscus-bot giscus-bot 2022-12-16 14:50:26
访客 *priss111* @ 2009-06-17 18:45:21 写道:

谢老大,果然名不虚传 :| :| ......文章和上面的评论都不错,小的学习了。

俄认为,PCR主要就是为了解决自变量间相关的问题吧;从专业上讲,搜集到的自变量都是可能与因变量有关的吧,而且每一个PC都代表了几个可能相关的自变量,所以说既使前P-1个PC与Y没有关联,而最后一个PC与Y有关联的话,那或许就是这最后一个PC所代表的自变量与Y有关联吧? 还有可能是实际收集的数据受到混杂因素的干扰而使真正对Y有关联的PC的回归系数没有意义。俄认为,当自变量确实存在共线性的问题时或者相关时,PCR也不失为一种解决的办法吧,当然,我自己没有实际分析过这样的数据,说服力就比较小了。

另外,我查了查PLSR的内容,从介绍的看,这个方法就更全面了,也可能以后会应用的比较广泛吧,那就说明谢老大远见了,呵呵

yihui yihui 2022-12-16 14:50:31

别抬举我啦,我只是发表一点疑问而已。以我过去的一些经验来看,其实PCR是不容易出现我文中描述的情况的(前p-1个成分与Y无关、最后一个成分相关),主成分在很多情况下(尤其是化学数据)能解释自变量的某种内在结构,这种结构往往是与因变量有关系的,但从理论上来说,PCR是没有回归的逻辑的。我推荐用PLSR替代它,原因就在于PLSR包含了PCR的“优点”(原理类似),同时也照顾了因变量,这与回归的目的是吻合的。

上面的文章是去年9月写的,现在我可能要补充一下LASSO等变量选择方法了,在自变量高度相关的情况下,往往需要做variable selection,LASSO的优势在于它倾向于将某些回归系数“压缩”为0,也就是筛掉了一些变量,从而留下重要的变量。传统的回归诊断问题(如多重共线性)有时候就是被过分强调了,以至于我们处处觉得这些问题都是大问题,其实变通克服方式有很多。所以本愤青有时候就会想,这个问题该怎么权衡,老知识该怎么传承,所有的老问题都要五百年不变传给后人么?我不知道。

——原帖发布于 2009-06-17 19:05:25

giscus-bot giscus-bot 2022-12-16 14:50:26
访客 *priss111* @ 2009-06-17 19:29:49 写道:

:| :| “所有的老问题都要五百年不变传给后人么”, 既然是老问题,都传了五百年了或许也会再传一千年呢,呵呵...

俄认为,实际中用到统计方法,比如建模,其实有时候一个数据即可以用这种方法也可以用那种方法的,问题是哪个模型能够更好的解释专业问题,当然就用哪个模型了。 感觉都是在权衡、抉择,呵呵...... 这是俄的拙见.

yihui yihui 2022-12-16 14:50:32

额同意你的高见,多玩数据,表只是玩模型,握手! 😁

——原帖发布于 2009-06-17 19:41:11

giscus-bot giscus-bot 2022-12-16 14:50:28
访客 *whale* @ 2010-01-19 14:44:12 写道:

王慧文教授的《偏最小二乘回归方法及其应用》的第九章对此PCR、PLSR比较的问题有非常精辟的总结。他还举了几个非常极端的例子,有力的说明了PCR的尴尬,正如谢大所说,尽量避免使用PCR,改用PLSR吧。

可惜国内关于PLS的著作似乎只有王慧文教授写了两本,另外一本《偏最小二乘回归的线性与非线性方法》不仅缺货,连电子版都找不到。而能找到的《偏最小二乘回归方法及其应用》虽然很好,但不该有的错别字实在太多,而且显然都是五笔打字造成的恶果。

yihui yihui 2022-12-16 14:50:33

在美帝的统计课上,老爷子们讲到多重共线性问题的时候还在推荐PCR,真是没办法……

——原帖发布于 2010-01-19 22:39:41

giscus-bot giscus-bot 2022-12-16 14:50:34
访客 *whale* @ 2010-01-20 06:29:23 写道:

激动啊,难得看到美帝在科学方面比天朝落后。:)

giscus-bot giscus-bot 2022-12-16 14:50:38
访客 *Haiganhongyi* @ 2012-11-26 04:48:16 写道:

这个电子版我早就贡献在人大经济论坛上了哈。

giscus-bot giscus-bot 2022-12-16 14:50:29
访客 *gaotao* @ 2010-05-21 22:29:29 写道:

既然PCR无法选择变量,那么之前除了能用LASSO来筛选出跟因变量有关的重要的变量,还有没有其他较好的方法呢?LASSO现在对我来说只是多耳闻,却没有真看过用过..只是最近做一些比较初等的统计题目,我想也不需要那么高深的方法吧,谢老大能给一些指引么?多谢~

@joegaotao

yihui yihui 2022-12-16 14:50:35

其实LASSO也没那么高深吧?不就是把回归的目标函数稍作修改么:最小化“残差平方和+系数绝对值之和*lambda”。新方法不代表高深,用在初等的统计题目上又何妨呢。若你非要走常规老路线,那么就逐步回归吧……

——原帖发布于 2010-05-22 08:46:14

giscus-bot giscus-bot 2022-12-16 14:50:35
访客 *gaotao* @ 2010-05-22 11:31:10 写道:

我最先尝试了逐步回归,若只是从数据本身分析来看,逐步回归确实效果非常好,但是在R中我用step()做逐步回归,最后筛选出的变量与因变量关系在经济学中解释是有失偏颇的..
我还是好好看看LASSO的一些资料吧,看分析效果是否会好很多..

@joegaotao

giscus-bot giscus-bot 2022-12-16 14:50:36
访客 *bootstrap* @ 2010-05-23 09:41:42 写道:

lasso的确是很高明的东西,水很深

giscus-bot giscus-bot 2022-12-16 14:50:30
访客 *rainniezhoa* @ 2011-03-07 11:50:37 写道:

最近做一些实际问题的时候产生疑惑,如果因变量跟每一个自变量都没有显著的线性关系,就算自变量多重共线性又如何呢?还要继续PCR或者PLSR吗?

yihui yihui 2022-12-16 14:50:37

多重共线性的后果和因变量无关,你看看系数估计的协方差阵就知道了(它只与设计阵X有关),如果有严重的多重共线性存在,那么系数估计的标准误就会很大。

“每个自变量和因变量都没有显著的线性关系”这句话指的是两个变量之间的相关,用这种想法去看多元回归是要不得的(偏相关和相关是完全不同的概念),请看我的硕士论文第2节: http://yihui.name/cn/publication/#GSM

这篇日志已经说得很清楚,PCR在绝大多数情况下是废物,不应该考虑它。至于PLSR,它的估计过程和多重共线性毫无关系,求系数只是几个矩阵乘法,但它的估计系数的标准误我就不知道了。

——原帖发布于 2011-03-07 23:31:48

Sign in to join the discussion

Sign in with GitHub