为什么数据挖掘很难成功?

大数据时代,数据挖掘变得越加重要,曾经做了很多,成功有之,失败的却更多,举一些例子,探究其失败原因,也许于大家都有启示吧。

数据缺失总是存在。

为什么数据挖掘的数据准备工作要这么长时间,可以理解成取数时间很长、转换成所需的数据形式和格式时间很长,毕竟只有这样做,才能喂给数据挖掘引擎处理。

但数据准备的真正目的,其实是要从特定业务的角度去获取一个真实的数据世界,数据的获取比处理重要,技巧倒是其次了。

离网预测一直是很多业务领域关注的焦点,特别是电信行业,但这么多年做下来,其构建的离网模型却难言成功,为什么?

因为数据获取太难了。

离网预测希望用客户历史的行为数据来判定未来一段时间离网的可能性,但国内的电信市场并不稳定,不仅资费套餐复杂,大量的促销政策时时轰炸眼球,大家看得是热闹,但对于数据挖掘人员来讲,却是业务理解和数据准备的噩耗了。

因为业务的理解很困难,数据完全被业务扭曲,如果要预测准确,不仅自身业务促销的因素要考虑进去,还要考虑竞争对手策反政策、地域影响等等,你训练时看到的是一个简单的离网结果数据,但诱导因素异常复杂,这类因素相关的数据根本取不到或者难以量化。

比如电信离网很大程度是竞争对手策反、客户迁徙离网等等,你知道竞争对手何时推出的促销政策吗?你知道客户什么时候搬的家吗?你如何用数据来表达这种影响?你的数据能适应市场变化的节奏吗?

因此,如果某个合作伙伴来跟你说,我可以做电信行业的离网模型,那是个伪命题,离网模型已经被电信行业做烂了,几乎没有成功的案例,即使一时成功也持续不了多久,只要业务不统一,就不大可能出现一个基本适用的离网模型,你无法想象全国10万个电信资费政策会对预测建模造成怎样的影响。

与互联网大一统的数据相比,其搞的风控模型显然要简单的多了,因为数据的获取难度和稳定度不在一个量级上。

数据挖掘,难就难在要为预测的业务提供跟这个业务相关的数据环境,因此,有时离网模型做不好,并不是模型师的错,也不是算法的问题,而是业务惹的祸,是数据问题。

你让开发出Alphgo的DEEP MIND团队来做离网模型,也是一个死字,这可能也是传统行业数据挖掘很难出效果的一个原因。

阿里的蚂蚁金服,所以能算法取胜,一个原因是它天生具有线上的资金往来数据,如果让它去分析传统银行的线下数据,估计难度也很大。

数据挖掘师特别强调要理解业务,就是希望你基于业务的理解能找到所需的解释数据,外来的和尚所以做不好,也是这个因素,因为打一枪换一个地方的方式,跟扎根理解业务的建模文化背道而驰。

数据准备,不确定性总是存在,因此一定程度上讲,这个世界是不可预测的,预测的能力,跟我们采集数据的能力成一定的正相关关系。

大数据的意义,就在于可以采集到更多的数据,这个决定了我们用机器解释世界的可能程度。

假数据真分析。

还是拿离网的例子,你就知道很多时候,所谓的解释数据,都是假数据,虽然你不是故意的,你还很认真,但因为受限于业务能力,决定了你只能使用假数据,结果可想而知。

以前新手,在做离网预测的时候,总喜欢拿订购成功的数据作为训练的数据,但这个显然是个大谬误。

要知道,大量的业务订购是套餐附带订购的,并不能反映用户的真实意愿,拿这个数据去训练,能训练出什么东西?这就是业务能力不够造成的现象。

现在互联网上估计这个现象很严重,比如刷单,这些假数据严重扰乱了模型,去伪存真是数据挖掘师的一个必修课。

但这个,可惜又跟业务能力相关,依赖于实践和经验,如果让市场部经理转行去做数据挖掘师,估计也很牛逼。

数据挖掘,难就难在这里,其是业务、数据甚至是技术的结合体,在大数据时代,这个趋势会越加明显。

缺乏对于“常理”的感觉。

以下是一个社交网络的案例,场景是需要对于两个通话(或其它)交往圈进行重合度判定,以识别两个手机号码是否属于同一个人。

规则似乎很简单,但挖掘出来的结果却不尽如人意,准确率只有12%,百思不得其解。

后来发现判定重合度的阈值是30%,这个也不能说明有问题,但问题出在对于基数的判定上,大量的用户总的交往圈只有3-4个,也就是说,重合1个就可能达到这个阈值,很多新手或者过于迷信技巧的人,往往忽视业务本质的认识。

数据挖掘不仅仅是一门挖掘语言,还要有足够的生活认知和数据感觉,这个很难短期能够提升,依赖于长期实践,甚至认为,这个跟情商相关,有些人就是有感觉,一眼能发现问题。

缺乏迭代的能力。

很多传统企业,数据挖掘效果不好,跟企业的组织、机制、流程等相关,举个例子:

曾经给外呼部门做了一个外呼偏好模型,就是对于所有客户的外呼偏好排个序,在外呼资源有限的条件下,按照这个排序进行外呼,可以提升外呼效率,然后发布到标签库,然后让外呼部门去用,等待反馈的时间总是很长,大家都懂的,然后就石沉大海了。

最近想起来,再去要结果,发现效果很不错,能真正提升10个百分点啊,但已经2个月过去了。

这还算一个较为成功的挖掘,但又有多少模型由于线下流程的原因而被放弃了,谁都知道,数据挖掘靠的是迭代,很难第一次就成功,但有多少星星在开始之时,就被掐灭了。

传统企业冗长的线下流程,的确成为了模型优化的大杀器,互联网公司天生的在线性让其算法发挥出巨大的价值,而传统企业的建模,往往还在为获得反馈数据而努力,组织、系统和运营上的差距很大。

推广是永远的痛。

很多传统企业不同地域上的业务差异,不仅仅造成管理难度加大、体验不一致、系统过于复杂、运营成本高昂,也让模型的建设和推广异常困难。

从模型本身的角度,不同地域的数据差异有时很大,在一个地方成功的模型,在另一个地方则完全失败,过拟合现象比比皆是。

从业务理解的角度,建模团队要面对几个甚至十多个做类似业务的团队,各个团队的业务理解上的差异和对于建模的要求各不相同,造成了建模团队的无所适从。

模型推广,成为了建模团队巨大的负担,复制模型,往往变成了重做模型,搜集结果数据也难上加难,数据挖掘,已经不是一项纯粹的活。

提了以上五点,只是为了说明数据挖掘所以难,是综合多种因素的结果,可能不是靠建立一个平台,懂得一些算法,掌握一个工具就能简单解决的,往往具有更深层次的原因。

我们在努力掌握好“器”的同时,也要抬起头来,更全面的看待数据挖掘这个事情,因地制宜的制定适合自己企业特点的数据挖掘机制和流程。

当然,大数据时代的到来,让平台,工具和算法也变得越加重要,这对数据建模师的知识结构也带来了新的冲击。

本文作者:佚名

来源:51CTO

时间: 2024-08-30 14:43:33

为什么数据挖掘很难成功?的相关文章

王志东:“一招鲜吃遍天”很难成功

点击科技董事长 王志东 很多人说成功是可以复制的,实际上在IT行业里面,复制.抄袭.模仿,其实一直都存在,甚至很多人也会把这种模式简单地定义成CtoC模式,叫copy to China.过去很长时间里,不少企业都是把美国的成功模式直接搬过来,但放到今天来看,这样成功的例子越来越少了.原因在于你无法复制他人当时所在的那个市场的状态,无法复制它的市场.可以说新浪有复制雅虎的成分,QQ有复制ICQ的成分,淘宝有复制eBay的成分,但这所有成功的复制都是加入了自己的创新,在拿来的同时一定要跟自己所在的环

雅虎正开发聊天机器人挑战对手 不过似乎很难成功

雅虎CEO玛丽莎·梅耶尔 北京时间7月19日上午消息,雅虎CEO玛丽莎·梅耶尔(Marissa Mayer) 在周一的财报电话会议上简要透露了该公司的机器人试点项目.她表示,该公司在对话界面上进行的初步尝试,将使之与其他语音助手展开竞争. "其他进军所谓移动助理领域的产品包括亚马逊的Alexa和Facebook的M."梅耶尔说,"我们本季度展开了初步但却十分重要的实验,涉足的领域包括对话界面.个人助理和实时问答." 雅虎今年6月针对新闻.天气和虚拟宠物发布了机器人.

阿里未来商圈难成功噱头大于实质

阿里作为电子商务的龙头老大,最近又出新招,试水"未来商圈",此举迎来一片叫好声.可是笔者并不看好,觉得未来商圈看上去很美,其实难成功,因为它的噱头远大于实质. 阿里巴巴集团与杭州市下城区政府首先试水合作,计划将武林商圈内的商户与阿里巴巴的电子商务平台结合,探索移动互联网时代商圈运营的新模式.说白了就是O2O,就是把线上消费导入到线下. "未来商圈"的一期项目看去很美,想法也不错:市民和游客已经可以通过手机淘宝或支付宝钱包扫描武林商圈的二维码,即可进入武林商圈的汇聚页

徐冠华:政府造不出来乔布斯 中小企业很难生存

全国政协委员.原科技部部长徐冠华. 昨日,全国政协委员.原科技部部长徐冠华接受本报记者采访,谈科技体制改革和创新. 新京报:你经常提到中国要增强创新能力.去年宁波政府提出计划:斥资五千万,花五年时间,打造10个乔布斯出来.你怎么看? 徐冠华:政府打造乔布斯这本身就不科学.乔布斯怎么能打造出来呢?政府造不出来的.他是市场环境创造出来的.搞科技政府不要拔苗助长.我强调要遵循"蘑菇理论".就是政府创造一个环境,有了一定的空气,有了一定的水分,有了一定的湿度,蘑菇会自己长起来,政府不要去种蘑菇

学习陈旧模式难成功 打破天上掉“钞票”的美梦

中介交易 SEO诊断 淘宝客 云主机 技术大厅 苹果在13日发布了最新版的Iphone,普通新闻媒体议论纷纷,有说苹果Iphone5的发布是创世纪之举,也有媒体说Iphone5的出现就是苹果走下坡路的转折点,作为互联网企业来说,苹果已经复制太多模式了,有饥饿营销手段,有名人效应等等太多了,而作为互联网的一份子我们再去复制这些陈旧的模式还可能成功吗? Hao123网站出现的时候引起了一阵国内的网址导航网站潮流,直到现在这股潮流还未褪去,但又有谁的网站出现了hao123的辉煌一面呢?没有,现在去学习

巨人布局手游 广撒网模式或难成功

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 [摘要]巨人曾通过布局社交游戏.代理国际游戏大作.推出新端游来力挽狂澜,但是均未获得理想效果. 巨人董事长史玉柱 腾讯科技讯 7年前,巨人网络集团有限公司(下称巨人网络)在"营销狂人"史玉柱带领下登陆美国纽交所,融资约为10.5亿美元.使得巨人网络成为腾讯.阿里.百度之后中国互联网的第四大巨头.而如今,巨人网络却远远落后于

大公司的团队很难创造成功产品

我们经常把互联网产品称为"轻产品"(快速产品响应),不过就今天很多互联网大公司的流程来说,我们很难将自己的产品称为"轻产品".现在我们越来越纠结复杂的流程影响了产品的快速反应,产品或者运营提出一个小小的需求,到最终这个需求变成产品或者产品改善,少则需要一周,多则个把月.有时候,我们觉得不是不能快速响应,只是困于流程过于复杂.我们不是没有创新,有时候创新的成本太大了. 在大互联网公司里面,我们难以避免的,就是必须严格遵循的流程规范,哪怕是创业团队亦是如此:需求收集-需

雷军:互联网一个模式成功后 另外一个想超过它很难

8月22日下午,http://www.aliyun.com/zixun/aggregation/7737.html">百度世界大会"投资论坛"大佬云集,百度首席财务官李昕晢.百度企业发展部总经理汤和松与小米科技创始人雷军.IDG中国区合伙人熊晓鸽.汉能投资董事长陈宏.红杉资本周逵等多位业内资深人士齐聚一堂,共同探讨当前创业与投资的热点话题.李昕晢发表了主题演讲,提出移动互联网处于蓬勃发展时期,商业模式显见雏形,百度将在其中积极构建移动互联网的繁荣生态,并帮助创业者.投资

张小龙:成功的产品经理是很难复制的

摘要: 微信的成功让人们开始越来越多的关注腾讯高级副总裁.微信产品负责人张小龙,他的每一句话每一个做产品的理念都开始影响中国大量互联网从业者.同时,张小龙的一些观点也容易 微信的成功让人们开始越来越多的关注腾讯高级副总裁.微信产品负责人张小龙,他的每一句话每一个做产品的理念都开始影响中国大量互联网从业者.同时,张小龙的一些观点也容易被媒体放大并且偏离其原本的含义. 事实上,张小龙并不认为自己说的每一句话都值得产品经理研究,他甚至坦言,成功的产品经理是很难复制的.微信的一些成功做法也并不一定适用于