9 Comments
访客 *lixiaoxu* @ 2009-03-06 03:28:22 写道:
前年教书时想示范一下分组使效率变差,结果,嘿嘿,有点意外。看到你讲起这个,将从前的课件重写一下贴出:
http://lixiaoxu.lxxm.com/why-practitioners-discretize-their-continous-data/
意外是因为指标的原因,如果指标侧重拟合的好坏,那么将自变量离散化为n段(n为样本量)是最好的,每个区间上都用实际y值作为拟合值,那么残差平方和将为0:)
——原帖发布于 2009-03-08 11:28:24
访客 *wind* @ 2009-03-06 06:13:29 写道:
大家喜欢简化的原因可能有:1、统计学发展早期,还没有计算机,更没有现在这种计算机,大家处理能力有限;2、大学教授,尤其国内,不思进取。一本教材可以讲一辈子。出书也不过文抄公。偏偏国内的体制鼓励培养不会思考、全盘接受老师、领导教导的学生;所以,即使计算机发达了,但是,这些大学老师、教育体制的大脑还很落后,容量有限。你参加这些所谓的医学统计会议,应该看得出来,把持位置的,基本都是混日子的主儿。
改革!改革!
——原帖发布于 2009-03-08 11:28:51
访客 *bjt* @ 2009-03-06 09:53:48 写道:
我也常遇到这种问题,没办法。甚至对方脸红脖子粗的跟我争。我寻思:把连续型数据转为 ordered factor 真有意思啊! 😨
访客 *lixiaoxu* @ 2009-03-08 14:19:26 写道:
残差只有形式上的意义,实务中关注的还是真实的均方误差,虽然单次看不见,但直接体现在业务效益,进化选择使均方误差小的方法得到传播。对于宏观上非线性的问题,与离散化+ANOVA同样学习门槛的方法就是线性回归,在宏观非线性形态常见的业务领域,前者会淘汰后者,无论是在美帝还是国内都是这样。
可以说离散化是LOESS的直观快捷替代品,把微观误差淡化从而突出宏观的非线性模型形态。许多时候还就是无招胜有招,无模型胜有模型。
访客 *土蜂* @ 2009-03-12 19:45:26 写道:
原来用绘图纸的时代和640×480分辨率的显示器时代,能做个柱图是很不容易的事
访客 *小朋友一个~* @ 2009-04-10 19:19:41 写道:
针对lixiaoxu先生的问题,进入其页面,在他的例子下面的评论中,其提到training error和expected prediction error,要是提高离散化程度,那么可以使得TE降至很低,但是模型因此而变得复杂,此时的EPE显然不会得到很好的结果。
我想说的一个问题是,在那个例子中,连续的模型去使用最简单的线性模型是不太合适的,模型复杂度太低,作为比较其效果不可能会好。记忆中线性模型出现在两个方法比较中,都是作为那个被人扁的方法出现的…… 😁
访客 *DM* @ 2010-01-01 18:24:29 写道:
因為
有時候離散化是『必須』而不是『喜歡』
如果你要把資料丟到資料探勘演算法裡
沒有離散化資料就沒辦法有效的得到結果
且資料探勘注重在找出數據背後隱藏的資訊
而非資料本身
『資料』一直以來都不是重點
整理過後的『資訊』才是重點
您說的資訊固然重要,但資訊也是從資料中得來的,如果資料的處理方法不當,那麼必然影響資訊的質量。俗話說上樑不正下樑歪。
我不知道在哪種情況下離散化是必須的,有些模型是處理離散資料,而有些是處理連續資料。如果說有必須離散化的情況,那麼我認為十之八九僅僅是爲了套用模型而不顧損失資料中的資訊。如果可能的話,您可以提供一個必須要把資料離散化而不可用連續變數的示例。(我認為這種情況不存在)
——原帖发布于 2010-01-02 03:12:41
访客 *cynic* @ 2010-01-27 07:32:40 写道:
看看信号处理
访客 *lixiaoxu* @ 2010-06-16 06:51:27 写道:
最近听北卡的国光教授讲社会学与基因统计方法,课上笔记:社会学领域忌讳用连续变量作线性回归,因多数关系非线性,用离散化是通行处理方式。比如,年龄与心脏病关系之类,用线性处理很难接受,而用离散化变量则可接受。我以为,这与非线性统计与正态模型统计的取舍类似,滥用后者或是社会科学实证研究的主要问题。
Sign in to join the discussion
Sign in with GitHub