大部分数据挖掘算法都将选取的样例、误差默认为服从高斯分布

问题描述

大部分数据挖掘算法都将选取的样例、误差默认为服从高斯分布

大部分数据挖掘算法都将选取的样例、误差默认为服从高斯分布,这样对数据挖掘结果的精确度影响到底有多大?甚至是这种默认是不是根本就不对?

说服从高斯分布是大量统计的结果,然后就将不明白具体分布的一些样例都默认为高斯分布,总感觉不是很靠谱啊?

解决方案

晕,高斯分布,我们一般都叫做正态分布好不好。正态分布是最符合自然情况的分布形态。
好比你要选取一个班级学生的成绩样本,如果是随机选取的,肯定是高分和不及格的少,成绩中等的多。
模拟一组人的身高体重也是如此。
难道你还想怎么分布?0-1分布?从一个学校抽取学生样本抽取几个尖子生再选几个差生?平均分布?100分、90分、80分、70分各取一个?

解决方案二:

你要用特例,肯定可以推到这个假设,但是有意义嘛!统计学,是能分析出大量数据的一些规律性的。

时间: 2025-01-02 12:19:55

大部分数据挖掘算法都将选取的样例、误差默认为服从高斯分布的相关文章

十大数据挖掘算法及各自优势

  国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART. 不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响. 1. C4.5

机器学习十大算法都是何方神圣?看完你就懂了

雷锋网(公众号:雷锋网)按:机器学习与人工智能变得越来越热.大数据原本在工业界中就已经炙手可热,而基于大数据的机器学习则更加流行,因为其通过对数据的计算,可以实现数据预测.为公司提供决策依据.跟我们生活息息相关的最常见机器学习算法包括电影推荐算法.图书推荐算法.这些算法都是基于你的电影观看记录或图书购买记录来给你做推荐的. James Le 在 KDnuggets 上发布了一篇文章,介绍了他是如何入门机器学习的.此外,他在其中摸索出十大常用的机器学习算法,并逐一进行介绍.雷锋网编译如下,未经许可

SQL Server 2005 Analysis Services数据挖掘算法扩展方法

本文是对英文原文SQL Server Data Mining Managed Plug-In Algorithms Tutorial的部分翻译及整理,主要是描述SSAS数据挖掘算法的基本扩展方法和开发过程.本文的内容只是原文的一部分,如果想了解更多信息可以下载原文.英文原文在本文附件中下载. SSAS为我们提供了九种数据挖掘算法,但是在应用中我们需要根据实际问题设计适当的算法,这个时候就需要扩展SSAS,使它能应用更多的算法,SSAS有比较好的可扩展性,它提供了一个完整的机制来进行扩展,只要继承

求大神帮忙(要用c语言来编) 最好能把代码和算法都说明,我是小白

问题描述 求大神帮忙(要用c语言来编) 最好能把代码和算法都说明,我是小白 输入 输入偏序集,A中的元素数不超过20个,分别用单个小写的英文字母表示. 输入的第一行给出A中的各个元素,两个相邻的元素之间用逗号隔开. 输入的第二行给出偏序关系?,用有序对的形式给出,如等等,两个相邻的有序对之间用逗号隔开. 输出 输出A的极小元与极大元. 输出的第一行给出各个极小元,两个相邻元素之间用逗号隔开,输出的元素要求按照英文字母的自然顺序排列输出.输出的第二行给出各个极大元,两个相邻元素之间用逗号隔开,输出

算法导论-看到好几个Bellman-Ford算法都是这样写的,我有个疑问

问题描述 看到好几个Bellman-Ford算法都是这样写的,我有个疑问 for(int i = 1; i <= nodenum - 1; ++i) for(int j = 1; j <= edgenum; ++j) if(dis[edge[j].v] > dis[edge[j].u] + edge[j].cost) //松弛(顺序不能错) { dis[edge[j].v] = dis[edge[j].u] + edge[j].cost; pre[edge[j].v] = edge[j]

求如何找到数据挖掘算法创新点

问题描述 求如何找到数据挖掘算法创新点 如题,本人研一,数据挖掘方向,导师要求我们找创新点,并以此发表论文,请哪位大神能指点一下,不胜感激 解决方案 恭喜你遇到了一个垃圾的导师.好的导师自己有很丰富的项目经验,他能给你很多真实的数据.那才是数据挖掘. 有的导师什么本事没有,拿着一点也不知道从哪里胡编乱造的数据,就让学生"创新",这能创新出什么?他所谓的创新,无非就是让你们胡编而已. 解决方案二: 楼上虽然说的冲点,但是也是实话,,,, 解决方案三: 和我们导师一样,自求多福吧

应用数据挖掘算法检测云计算中的DDoS攻击

应用数据挖掘算法检测云计算中的DDoS攻击 李博 宋广军 DDoS攻击给当前网络安全造成了极大威胁,在分析归纳DDoS攻击特征的基础上,针对在云计算中DDoS攻击的特点,设计出基于云计算的DDoS攻击入侵检测模型,将Apriori算法与K-means聚类算法相结合应用到入侵检测模型中.实验表明,在云计算中运用数据挖掘算法建立的入侵检测模型能实时自动准确地检测DDoS攻击. 应用数据挖掘算法检测云计算中的DDoS攻击

[文档]基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云

基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云 [下载地址]http://bbs.chinacloud.cn/showtopic-12728.aspx

数据结构中的算法都需要实现吗?

[问] 老师你好,学习数据机构,是不是书上的每一个算法都用程序设计语言在计算机实现?还是只理解算法就可以? [答] 每一个算法都用程序设计语言在计算机实现?不必绝对这样做,你的时间需要有效利用,实现仅在于增加体验,增加思考以及注意到细节的机会,而不是强制的"任务".再者,对于程序设计语言本身有待提高的同学而言,这也是熟悉语言的又一个机会. 只理解算法就可以?理解是一定的,还不够.除了上述必要的实现,增加体验外,注意到算法的效率问题.如何分析得到这样的结论,从而知道每一个算法的优势和弱势