离散化：毁灭信息的有效手段 | /cn/2009/03/discretize-data-to-lose-information/

yihui 2022-12-16 16:01:26

https://yihui.org/cn/2009/03/discretize-data-to-lose-information/

9 Comments

giscus-bot 2022-12-16 16:01:27

访客 *lixiaoxu* @ 2009-03-06 03:28:22 写道：

前年教书时想示范一下分组使效率变差，结果，嘿嘿，有点意外。看到你讲起这个，将从前的课件重写一下贴出：

http://lixiaoxu.lxxm.com/why-practitioners-discretize-their-continous-data/

@lixiaoxu

yihui 2022-12-16 16:01:36

意外是因为指标的原因，如果指标侧重拟合的好坏，那么将自变量离散化为n段（n为样本量）是最好的，每个区间上都用实际y值作为拟合值，那么残差平方和将为0：）

——原帖发布于 2009-03-08 11:28:24

giscus-bot 2022-12-16 16:01:28

访客 *wind* @ 2009-03-06 06:13:29 写道：

大家喜欢简化的原因可能有：1、统计学发展早期，还没有计算机，更没有现在这种计算机，大家处理能力有限；2、大学教授，尤其国内，不思进取。一本教材可以讲一辈子。出书也不过文抄公。偏偏国内的体制鼓励培养不会思考、全盘接受老师、领导教导的学生；所以，即使计算机发达了，但是，这些大学老师、教育体制的大脑还很落后，容量有限。你参加这些所谓的医学统计会议，应该看得出来，把持位置的，基本都是混日子的主儿。

yihui 2022-12-16 16:01:37

改革！改革！

——原帖发布于 2009-03-08 11:28:51

giscus-bot 2022-12-16 16:01:29

访客 *bjt* @ 2009-03-06 09:53:48 写道：

我也常遇到这种问题，没办法。甚至对方脸红脖子粗的跟我争。我寻思：把连续型数据转为 ordered factor 真有意思啊！ 😨

@sunbjt

giscus-bot 2022-12-16 16:01:30

访客 *lixiaoxu* @ 2009-03-08 14:19:26 写道：

残差只有形式上的意义，实务中关注的还是真实的均方误差，虽然单次看不见，但直接体现在业务效益，进化选择使均方误差小的方法得到传播。对于宏观上非线性的问题，与离散化+ANOVA同样学习门槛的方法就是线性回归，在宏观非线性形态常见的业务领域，前者会淘汰后者，无论是在美帝还是国内都是这样。

可以说离散化是LOESS的直观快捷替代品，把微观误差淡化从而突出宏观的非线性模型形态。许多时候还就是无招胜有招，无模型胜有模型。

@lixiaoxu

giscus-bot 2022-12-16 16:01:31

访客 *土蜂* @ 2009-03-12 19:45:26 写道：

原来用绘图纸的时代和640×480分辨率的显示器时代，能做个柱图是很不容易的事

giscus-bot 2022-12-16 16:01:32

访客 *小朋友一个~* @ 2009-04-10 19:19:41 写道：

针对lixiaoxu先生的问题，进入其页面，在他的例子下面的评论中，其提到training error和expected prediction error，要是提高离散化程度，那么可以使得TE降至很低，但是模型因此而变得复杂，此时的EPE显然不会得到很好的结果。

我想说的一个问题是，在那个例子中，连续的模型去使用最简单的线性模型是不太合适的，模型复杂度太低，作为比较其效果不可能会好。记忆中线性模型出现在两个方法比较中，都是作为那个被人扁的方法出现的…… 😁

giscus-bot 2022-12-16 16:01:33

访客 *DM* @ 2010-01-01 18:24:29 写道：

因為
有時候離散化是『必須』而不是『喜歡』
如果你要把資料丟到資料探勘演算法裡
沒有離散化資料就沒辦法有效的得到結果
且資料探勘注重在找出數據背後隱藏的資訊
而非資料本身
『資料』一直以來都不是重點
整理過後的『資訊』才是重點

yihui 2022-12-16 16:01:38

您說的資訊固然重要，但資訊也是從資料中得來的，如果資料的處理方法不當，那麼必然影響資訊的質量。俗話說上樑不正下樑歪。

我不知道在哪種情況下離散化是必須的，有些模型是處理離散資料，而有些是處理連續資料。如果說有必須離散化的情況，那麼我認為十之八九僅僅是爲了套用模型而不顧損失資料中的資訊。如果可能的話，您可以提供一個必須要把資料離散化而不可用連續變數的示例。（我認為這種情況不存在）

——原帖发布于 2010-01-02 03:12:41

giscus-bot 2022-12-16 16:01:34

访客 *cynic* @ 2010-01-27 07:32:40 写道：

看看信号处理

giscus-bot 2022-12-16 16:01:35

访客 *lixiaoxu* @ 2010-06-16 06:51:27 写道：

最近听北卡的国光教授讲社会学与基因统计方法，课上笔记：社会学领域忌讳用连续变量作线性回归，因多数关系非线性，用离散化是通行处理方式。比如，年龄与心脏病关系之类，用线性处理很难接受，而用离散化变量则可接受。我以为，这与非线性统计与正态模型统计的取舍类似，滥用后者或是社会科学实证研究的主要问题。

@lixiaoxu