问题描述
- 大部分数据挖掘算法都将选取的样例、误差默认为服从高斯分布
-
大部分数据挖掘算法都将选取的样例、误差默认为服从高斯分布,这样对数据挖掘结果的精确度影响到底有多大?甚至是这种默认是不是根本就不对?说服从高斯分布是大量统计的结果,然后就将不明白具体分布的一些样例都默认为高斯分布,总感觉不是很靠谱啊?
解决方案
晕,高斯分布,我们一般都叫做正态分布好不好。正态分布是最符合自然情况的分布形态。
好比你要选取一个班级学生的成绩样本,如果是随机选取的,肯定是高分和不及格的少,成绩中等的多。
模拟一组人的身高体重也是如此。
难道你还想怎么分布?0-1分布?从一个学校抽取学生样本抽取几个尖子生再选几个差生?平均分布?100分、90分、80分、70分各取一个?
解决方案二:
你要用特例,肯定可以推到这个假设,但是有意义嘛!统计学,是能分析出大量数据的一些规律性的。
时间: 2025-01-02 12:19:55