我们在数据挖掘中迷失了什么?

当我们沉浸在亲手构建的模型里的时候,是否会理智地跳出来,重新审视一下,我们所忽略的会不会正是客户所需求的呢?

  1.太关注训练

就像体育训练中越来越注重实战训练,因为单纯的封闭式训练常常会训练时状态神勇,比赛时一塌糊涂。实际上,只有样本外数据上的模型评分结果才真正有用!

栗子:机器学习或计算机科学研究者常常试图让模型在已知数据上表现最优,这样做的结果通常会导致过度拟合( overfit )。

解决方法:解决这个问题的典型方法是重抽样。重抽样技术包括:bootstrap、cross-validation 、jackknife 、leave-one-out… 等等。

2.只依赖一项技术

没有对比也就没有所谓的好坏,辩证法的思想在此体现无遗。“ 当小孩子手拿一把锤子时,整个世界看起来就是一枚钉子。” 要想让工作尽善尽美,就需要一套完整的工具箱。不要简单地信赖你用单个方法分析的结果,至少要和传统方法(比如线性回归或线性判别分析)做个比较。

解决方法:使用一系列好的工具和方法。(每种工具或方法可能最多带来5%~10% 的改进)。

3. 提错了问题

一般在分类算法中都会给出分类精度作为衡量模型好坏的标准,但在实际项目中我们却几乎不看这个指标。为什么?因为那不是我们关注的目标。

a) 项目的目标:一定要锁定正确的目标。栗子:欺诈侦测(关注的是正例!)( Shannon 实验室在国际长途电话上的分析):不要试图在一般的通话中把欺诈和非欺诈行为分类出来,重点应放在如何描述正常通话的特征,然后据此发现异常通话行为。

b) 模型的目标:让计算机去做你希望它做的事。大多数研究人员会沉迷于模型的收敛性来尽量降低误差,这样让他们可以获得数学上的美感。但更应该让计算机做的事情应该是如何改善业务,而不是仅仅侧重模型计算上的精度。

4. 只靠数据来说话

如果数据+工具就可以解决问题的话,还要人做什么呢?

a)投机取巧的数据:数据本身只能帮助分析人员找到什么是显著的结果,但它并不能告诉你结果是对还是错。

b)经过设计的实验:某些实验设计中掺杂了人为的成分,这样的实验结果也常常不可信。

5. 抛弃了不该忽略的案例

不同的人生态度可以有同样精彩的人生,不同的数据也可能蕴含同样重要的价值。异常值可能会导致错误的结果(比如价格中的小数点标错了),但也可能是问题的答案(比如臭氧洞)。所以需要仔细检查这些异常。研究中最让激动的话语不是“啊哈!”,而是“这就有点奇怪了……”数据中的不一致性有可能会是解决问题的线索,深挖下去也许可以解决一个大的业务问题。

栗子:在直邮营销中,在对家庭地址的合并和清洗过程中发现的数据不一致,反而可能是新的营销机会。

解决方法:可视化可以帮助你分析大量的假设是否成立。

6. 轻信预测

事物都是不断发展变化的。人们常常在经验不多的时候轻易得出一些结论。即便发现了一些反例,人们也不太愿意放弃原先的想法。

维度咒语:在低维度上的直觉,放在高维度空间中,常常是毫无意义的。

解决方法:进化论。没有正确的结论,只有越来越准确的结论。

7. 试图回答所有问题

“不知道”是一种有意义的模型结果。模型也许无法100%准确回答问题,但至少可以帮我们估计出现某种结果的可能性。

本文转自d1net(转载)

时间: 2024-07-29 00:37:40

我们在数据挖掘中迷失了什么?的相关文章

数据挖掘中的概念描述

数据挖掘一般可分为描述型数据挖掘和预测型数据挖掘,概念描述讲的就是描述型数据挖掘. 一.概念描述基本知识 1.1 两种类型的数据挖掘 从数据分析角度出发,数据挖掘可分为两种类型: 描述型数据挖掘:以简洁概要方式描述数据 预测型数据挖掘:预测性数据挖掘则是通过对所提供数据集应用特定方法分析所获得的一个或一组数据模型,并将该模型用于预测未来新数据的有关性质. 1.2 概念描述 描述型数据挖掘又称为概念描述,概念描述是数据挖掘的一个重要部分.描述型数据挖掘最简单的类型就是概念描述.概念描述描述的是数据

数据挖掘中分类算法小结

数据仓库,数据库或者其它信息库中隐藏着许多可以为商业.科研等活动的决策提供所需要的知识.分类与预测是两种数据分析形式,它们可以用来抽取能够描述重要数据集合或预测未来数据趋势的模型.分类方法(Classification)用于预测数据对象的离散类别(Categorical Label);预测方法(Prediction )用于预测数据对象的连续取值. 分类技术在很多领域都有应用,例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估;当前的市场营销中很重要的一个特点是强调客户细分.客户类别分析

请问数据挖掘中hanlp开源包怎样用自定义词典分词?

问题描述 请问数据挖掘中hanlp开源包怎样用自定义词典分词? 如题:在用hanlp的java开源包分词时,不知道怎样使用自定义词典,虽然已经在词典目录里添加了自己的词典,但分出来效果并不明显,应该有些地方没有设置好,请指教.

《Python数据挖掘:概念、方法与实践》一1.3 在数据挖掘中使用哪些技术

1.3 在数据挖掘中使用哪些技术 现在我们对数据挖掘在整个KDD或者数据科学过程中的位置有了了解,下面就可以开始讨论完成这一任务的细节了. 从试图定义数据挖掘的早期起,几类相关的问题就一再出现.Fayyad等人在1996年的另一篇重要论文"From Data Mining to Knowledge Discovery in Databases"中提出了6类问题,我们将其总结如下: 分类问题.这里,有需要根据某些特征分成预定义类别的数据.我们需要一种算法,使用过去已经分类的数据,学习如何

《Python数据挖掘:概念、方法与实践》——1.3节在数据挖掘中使用哪些技术

1.3 在数据挖掘中使用哪些技术现在我们对数据挖掘在整个KDD或者数据科学过程中的位置有了了解,下面就可以开始讨论完成这一任务的细节了.从试图定义数据挖掘的早期起,几类相关的问题就一再出现.Fayyad等人在1996年的另一篇重要论文"From Data Mining to Knowledge Discovery in Databases"中提出了6类问题,我们将其总结如下:分类问题.这里,有需要根据某些特征分成预定义类别的数据.我们需要一种算法,使用过去已经分类的数据,学习如何将未知

长城电脑PC困局:两条路径中迷失 上半年毛利仅6%

很多年前,IBM把PC(个人电脑)业务卖给了联想.随后,并购成为联想做大PC业务最重要的路径依赖.据http://www.aliyun.com/zixun/aggregation/18224.html">市场研究公司Gartner统计,今年前三季度,联想PC出货量超过惠普,成为全球最大的PC生产商. 尽管如此,PC已经是夕阳产业,利润渐薄.在国内,只有联想集团和神舟电脑过得不错.联想靠规模和品牌优势,神舟主要定位三.四线市场价格优势,日子暂时无忧. 红海市场决定,联想只有一个.在国内,方正

盲目崇拜大数据会让他在洪流中迷失

华东师范大学社会学研究所所长.教授文军在<人民日报>撰文指出,作为新发明和新服务的源泉,大数据正在改变人类的生活乃至理解世界的方式.但我们不应盲目崇拜,而要正视潜藏的风险和挑战,避免在大数据的洪流中迷失. 一要防止大数据的"去人性化"忽视人的主体价值和数据的社会文化意义.如果人及其各类社会行为都仅仅被看作一个个数据符号,我们就很难从中解读出充满朝气.富有激情的人,也就很难从数据塑造出来的没有个性特征的人去推导群体样态和社会构成.现在一些大数据研究存在的一个重大缺陷是,它只关

大数据挖掘中的三种角色

我对数据挖掘和机器学习是新手,从去年7月份在Amazon才开始接触,而且还是因为工作需要被动接触的,以前都没有接触过,做的是需求预测机器学习相关的.后来,到了淘宝后,自己凭兴趣主动地做了几个月的和用户地址相关数据挖掘上的工作,有一些浅薄的心得.不管怎么样,欢迎指教和讨论. 另外,注明一下,这篇文章的标题模仿了一个美剧<权力的游戏:冰与火之歌>.在数据的世界里,我们看到了很多很牛,很强大也很有趣的案例.但是,数据就像一个王座一样,像征着一种权力和征服,但登上去的路途一样令人胆颤. 大数据挖掘中的

数据挖掘中易犯的11大错误

按照Elder博士的总结,这10大易犯错误包括: 0. 缺乏数据(Lack Data) 1. 太关注训练(Focus on Training) 2. 只依赖一项技术(Rely on One Technique) 3. 提错了问题(Ask the Wrong Question) 4. 只靠数据来说话(Listen (only) to the Data) 5. 使用了未来的信息(Accept Leaks from the Future) 6. 抛弃了不该忽略的案例(Discount Pesky Ca