一个大数据应用是如何炼成的

经历了多年的BI专题应用建设,有幸能在一个传统企业里探索大数据应用的建设过程,发现了很多不一样的地方,获得了不同的感受,在此以一个真实的案例的建设过程来品味其中的不同,也许能获得一些启示。

课题是怎么来的?

大数据应用最大的挑战,就是未来的不确定性,因此,传统公司动辄提前半年进行投资预算规划的方式是不太适合大数据的。

做大数据几年,虽然说现在靠谱的大数据的商业模式也就在广告、金融、公益等方面,但真要下决心干某个大数据应用项目,其突发性、偶然性也非常强,因为对于大数据这个不成熟事物,无论是哪类公司,观望占了很大部分,对大数据的质疑有之,对于大数据安全的惶恐有之,对于合作模式的疑惑有之,更多的是不停的提出想法,不停的被否定。

企业顺应大势成立了大数据团队,最痛苦的是不知道干什么,什么能干,什么不能干,也没啥可借鉴的经验,这跟当前创业公司也类似吧,不知道哪种模式是靠谱的。

大数据几乎无所不能,但真要做起来,其实当前是能者寥寥,虽然趋势不可挡,但这一波搞大数据应用的,似乎大多要死在黎明前,一个概念从提出到最终普世大众,的确路慢慢儿修远兮。

今天要聊的,是个公益课题,电话反欺诈,课题有一定的偶然性,安全部门提到了,问我们能不能做做看,感觉社会意义很大,比如腾讯有反欺诈盒子,360有拦截系统,本来某公司希望来做这个课题,但综合各方面因素,还是决定自己做。

作出这个决策的实际一天不到,所以决定自己做,基于以下几个因素:

一是这个大数据应用是有显著效益的。

二是很好评估,不像很多BI应用产出无法评估,备受质疑 。

三是公司大数据平台建立了,提供了基础条件。

四是自主建模团队建立了一年多了,不需要太依赖合作伙伴,因此也无需走那套冗长的招标流程,失败的代价也会小。

团队如何组建?

跟传统的安排不同,抛出这个课题后,主动接受这个挑战的,却是一名从一线刚过来的同事,面对不确定性,想来大多数有资历的员工也会犹豫老半天吧,这个也有一定偶然性。

谷歌讲到了招聘人才,提到了无论多大代价也要找到创意精英,而做大数据,更加需要,需要主动型的创意精英,如果传统企业每个人仍然像传统那样局限在自己一亩三分地,很难有创新突破。

很幸运,我们有一只黑天鹅。

这种自愿组队模式的确有很大的好处,不按计划分配,尊重个人的意愿,更能激发人的主动性,团队组建也非常快,当天组队,第二天就开干,不存在类似项目的繁琐流程。

虽然团队成立有一定的偶然性,但的确与与企业近年来在大数据组织创新、人才引进和人员流动上的努力分不开。

假如没有大数据组织的成立,谁牵头都是个问题;假如不扔掉传统的包袱,很难有人专心做这个;假如没有企业内的人才流动和外部人才的引入,我们也干不了这个事。

平台资源如何解决?

在那个传统BI小型机时代,要做一个项目,抛开硬件资源环境的投资立项过程不说,光是一个新项目的集成估计也不止一个月。

而这个项目不同之处是:

一是基于大数据平台的租户能力,资源申请所见即所得,加上流程,一周内全部搞定。

二是提供的组件较为丰富,特别是流处理资源的快速提供,为反欺诈的实时性提供了坚实的基础,换在几年前基本不可能 。

三是公司技术团队的保障,使得大多技术问题得以尽快解决,这也有赖于公司在大数据平台上的末雨绸缪。

某人说过,凡是能用钱解决的问题都不是问题,但技术这个东西,虽然用钱的确可能解决,但对于大多数公司,钱都是个大问题,因此技术问题的解决又是何其艰难。

比如我们碰到Kafka的一些问题,长期难解决,大多企业的机制流程恐怕也不允许随便开价100万招个技术专家来解决吧,传统企业的自我技术进步是部血泪史,外面的专家开价开不起,自己的专家起来了,又怕被人家挖。

开发历程

敏捷开发现在提得很多了, 但感觉以前BI的建设就是最大的敏捷,最极致的情况,一个人搞定需求、开发、上线和维护,当然,现在软件工程的确还是要靠分工协作,需要一套方法论来解决显性迭代和维护配合的问题。

大数据创新太特殊了,没必要循规蹈矩,抛开全部的束缚,一切要为速度让步。原因是失败可能性很大,速度越快成本越低,同时既然对于公司原有业务没有影响,因此可以放手去干,什么文档都可以不要,什么既定流程都可以不遵守,反正光脚不怕穿鞋的。

因此,这个课题做的非常快。

第10天,做出一个反欺诈简单模型,包括了案例分析、数据准备、数据建模及验证等,我们的观点是第一个版本可以粗糙一点,希望尽快验证这个事情的可行性,否则一切都是徒劳,因此就是讨论和验证数据。

当时规定两个礼拜如果出不了结果,就会放弃,这类应用失败可能性很高, 但船小好调头,以后做一些创新,都建议给创新做个时间止损点。

第25天,生产完成部署,也就是具备系统支撑能力, 除了系统部署方案需要专业部门把关,其他基本是能省就省,当时的想法是,这类创新项目最好一个月就能搞上线,起码能测试吧,相对以前BI应用项目动辄半年甚至1年的节奏,的确大不同。

创新,速度始终是王道,因此日报变成刚需,也回忆起了某位离职运营商去创业的一个领导,他说每天凌晨就要看昨天的日报,以便安排当天的工作,我们可能做不到这么疯狂,但日报的节奏是对的。

第30天,一直在外呼现场进行验证迭代,直到36天,获得认可为止,以后就是持续调优,但这个数据已经可以投入生产了。一般电话诈骗很难在事中干预,但这个模型做到了,准确度达到90%以上,通过实时事中干预挽回收入损失超千万。

这个应用就是中国移动的天盾大数据反欺诈系统,它就是这么诞生的,没有什么大汇报,没有什么流程,就是很轻很轻的来了。

现在算法还有很多问题,反欺诈矛与盾的争夺是很艰辛的,面上的风光底下是每天建模师的艰苦卓绝的努力,上了很多新算法,很多很多失败,拉低了成功率,对于这个大家是异常焦虑的,群里总是不停的讨论,大家都知道这个是核心竞争力,路还很长,还需要坚持。

小结

这个应用还难言成功,只是传统企业在大数据应用上的一次不同的尝试,但不管怎样,互联网快速迭代的那套的确是给了很大的启示,自己做了,才知道原来的差距是如此巨大,自己的能力是如此脆弱。

从课题的角度讲,要认识到大数据这个事物的不确定性,选择它具有偶然性,没有规划能预料到这个,当前大数据变现商业模式也并不成熟,不要奢望投资大数据马上有产出,也许能力储备是第一位的。

从组织的角度讲,大数据人才属于稀缺人才,要么打破原有框架,不拘一格外部找人才,要么充分企业内挖潜,让人员能流动起来。流动的人才有一个特点,即至少有一颗骚动的心,主动性对于做成功一件事极为重要。

从能力的角度讲,假如要向大数据转型,则还是要对“没有一个大数据公司,能依靠合作伙伴获得成功”这句话有所敬畏,大数据的核心能力要掌握在自己手里。

从平台的角度讲,如果没有大数据平台的建立,这个项目能够有效果也许是半年以后的事情,但机会稍纵即逝,没人会等你这么久,因此此类基础设施建设不能犹豫,“书到用时方恨少”。

从开发的角度讲,先设定一个小目标,搞他个十万八万的,只要有点看得见的产出就行啊,快速迭代,始终是王道,失败了也没什么大不了,我们缺的就是经验,多头并行也不是不可以,只要有足够的创意精英。

当然说易行难,以上几点对于大多数公司来说是如此不易,也不能以一个应用的成功与否说明任何问题,大数据要成功,就像黑天鹅,有一定偶然性,但如果连准备的勇气都没有,没有一点实质改革的动作,就没有任何成功的可能了。

本文作者:佚名

来源:51CTO

时间: 2024-09-14 23:07:33

一个大数据应用是如何炼成的的相关文章

一个大数据应用是如何炼成的?

经历了多年的BI专题应用建设,有幸能在一个传统企业里探索大数据应用的建设过程,发现了很多不一样的地方,获得了不同的感受,在此以一个真实的案例的建设过程来品味其中的不同,也许能获得一些启示. 课题是怎么来的? 大数据应用最大的挑战,就是未来的不确定性,因此,传统公司动辄提前半年进行投资预算规划的方式是不太适合大数据的. 做大数据几年,虽然说现在靠谱的大数据的商业模式也就在广告.金融.公益等方面,但真要下决心干某个大数据应用项目,其突发性.偶然性也非常强,因为对于大数据这个不成熟事物,无论是哪类公司

大数据高地,这样炼成!

游客行走在贵州贵安新区,仿佛来到了一个"云上的城市". 为守住青山绿水,走出一条新的经济发展道路,贵州将大数据领域作为经济增长点之一,一直在发力--从最接地气的数据中心.呼叫中心,到高大上的大数据交易中心."云上贵州".大数据博览会.最近,贵州在贵阳举行"数聚华夏 创享未来"中国数据创新行活动,与会人士认为,大数据产业已有效促进了贵州经济的提质转型. 以大数据为突破,以数字经济为主要方向的发展新空间正在被拓展,贵州在本次产业升级中起步较早,成为目

电视台成阿里云下一个大数据重塑目标

本文讲的是电视台成阿里云下一个大数据重塑目标[IT168专稿]继空调之后,电视台成为阿里云计算的下一个大数据重塑目标.3月20日下午,阿里云宣布联手新奥特.华通云数据,打造中国最大的全媒体云计算平台.该平台可以在一周内,帮助传统电视台变成多屏网络电视台,支持电脑网站.手机APP.电视机全终端流畅播放,且可以实现大数据的收集整理和运营.今年内,全国两百家电视台将接入该云计算平台. 阿里云是中国唯一可以将5000台计算机合成一台"超级计算机"的云计算平台,将为全国广播电视媒体提供超级计算.

魔法师与麻瓜,只隔一个大数据的距离

魔法师与麻瓜,只隔一个大数据的距离 "大数据",一个风靡全球的热词. 在中国,"大数据"的背后,除了技术手段和行业的崛起,与其他诸多被热炒的概念一样,泡沫感十足.对此,电子科技大学大数据研究中心主任周涛在接受时代周报记者采访时形象地举例说:"现在,任何一个能够打开excel表格的公司,都号称自己是一家大数据企业." 到底什么是大数据企业?一千个读者有一千个哈姆雷特. 在周涛的新书<为数据而生:大数据创新实践>中,也没有给出具体的定义.

数据决策成共识 大数据产业期待点“数”成金

开放创造价值 应用仍需挖掘 大数据产业期待点"数"成金 互联网时代,大数据全面融入现代社会生产生活,并将深刻改变全球经济和安全格局.大数据不仅是一种技术,更是战略资源.我国大数据产业当前却面临着重复建设.数据封闭等发展瓶颈.因此,未来产业发展一方面要解决制度设计.数据开放等问题,另一方面也要深入挖掘市场需求,实现大数据产品高效应用-- 爱自拍的人消费能力也高吗?近日来自美颜相机<全球自拍粉皮书>的大数据显示:在中国,每天自拍100张以上的用户,其化妆品月开销3000元以上的

大数据首入政府报告 成两会热点

工控摘要:"大数据"首次出现在今年的<政府工作报告>中.<政府工作报告>中指出,要设立新兴产业创业创新平台,在大数据等方面赶超先进,引领未来产业发展."大数据"旋即成为今年两会的热议词汇. 大数据首入政府报告 成两会热点 大数据优势显著 全国人大代表.小米科技创始人雷军认为,大数据的重要性毋庸置疑,但尚未提升至国家层面.他建议制定切实有效的大数据战略是当前刻不容缓的任务.他提出要重视大数据人才培养.关键技术和商业模式研究:完善相关法规,推动政

关于一个大数据量的查找算法

问题描述 关于一个大数据量的查找算法 如果有一到一亿个数乱序排列,可以操作最后一个位置前面的所有数,问怎么才能最快知道最后一个位置的数是多少? 解决方案 就是遍历读取排列中的数据,以数据作为数组的下标,同时给这个数组元素赋值为1.这样把排列中倒数第二个以前所有数据过一遍. 最后把数组再遍历一次,看那个元素值为0,它的下标就是排列最后一个. 解决方案二: 开一个100000000元素的数组arr,遍历数字,如果一个数字是123,那么就让arr[123]加1,以此类推. 相当于基数排序. 解决方案三

当一个大数据团队加入存储公司之后会发生什么?

  近几年来,大数据技术在中国得到了很快的发展,并逐渐在各大企业落地.大数据解决方案的根基是大数据量,如何将这些数据有效地利用起来成为用户和厂商急需解决的一大课题. 罗忠富-现任柏科数据技术(深圳)股份有限公司大数据事业部首席架构师.曾任职于Teradata.当当网.Oracle.联通研究院,参与或主导过中国网通决策分析系统.中国移动集团经营分析系统.当当网数据仓库.宏源证券大数据平台.新华社大数据平台等多项重大项目.而其所在团队,也已经有将近十年BI.数据挖掘.大数据分析的经验与积累,拥有基于

大数据创业风头劲 或成未来的“支撑点”

有人说,当下对于创业者来说是最好的时代. 移动互联网快速发展与传统行业的深刻变革,释放了大量的商业机会,只等有识之士去探索与挖掘. 大数据创业一片火热,各行各业都期待将自己长时间沉淀的数据价值最大化,这就催生了无数的数据创业项目,他们获取.清洗.排列数据,为企业用户提供场景化应用. 去年上半年,杭州云计算与大数据产业增加值同比增长高达35.4%,增加值419.84亿元,占杭州市GDP的8.4%. 面孔在大数据创业浪潮中钻研技术 在前不久的钱塘之星·2016(首届)创新创业大赛中,大数据征信企业杭