深度解析制约大数据发展的三大因素

本文为鄂维南院士访谈整理,文中探讨了中国在大数据发展中受到了哪些因素的制约。

近来,大数据如浪潮般席卷全球。越来越多的国家开始从战略层面认识大数据,中国亦如此。然而任何发展都不应盲目跟从,而应该在发展中不断认识其发展的意义与遇到的困难挑战,要做到及时发现总结,才能更好的发展。

那么,制约我国大数据发展的因素有哪些呢?

1.优质可用数据缺乏

很多人看到这点可能会感到奇怪。这几年数据交易机构如雨后春笋,“数据变现”成为很多拥有数据积累的传统企业的新的生财法。如图,2015年以来,各地加速建立大数据交易平台,数据交易市场异常火热。

我们常常说,大数据最高的层次就是要用数据来形成智慧,使得社会各方面可以运转起来。做数据分析先要整合数据,这是我们通常的理念。而数据本身我们可以从三个层面来看。

首先是“有没有”,就是数据交易问题。目前,我国大数据需求端以互联网企业为主,覆盖面不广,在O2O趋势下,大型互联网厂商尝试引入外部数据支撑金融、生活、语音、旅游、健康和教育等多种服务。

然而在具体的领域或行业内,我国普遍未形成成型的数据采集、加工、分析和应用链条,大量数据源未被激活,大多数数据拥有者没有数据价值外化的路径。比如,各医疗健康类应用收集了大量的数据,但没有像Sermo.com那样面向医药公司售卖数据。与国外相比我国的政府、公共服务、农业应用基本缺位,电信和银行业更缺少与外部数据的碰撞。

另外,其实数据交易这件事本身就是一个悖论。数据作为一种商品有一定的特殊性,我用了别人也可以用,没有任何消耗,可以在市场卖很多遍。这就产生一个问题,你这个数据到市场卖,根据经济学观点它的价值是零,你卖给我我可以用更低的价格卖给别人,所以数据交易理论上来说也是不可行的。

其次是“好不好”,也就是数据质量问题。大数据概念火了以后,很多机构觉得数据存起来就是宝,于是积攒了大量零碎数据放在那里,到底能发挥什么作用也未可知。而在和许多真正想用数据做些事情的机构的合作中我们发现,即便是政府机构这样的权威数据持有方,也存在很多数据缺失、数据错误、噪音多各方面的问题。当然这并不是说我们就不能做数据分析了。我们常常在讲大数据就用大数据方法,小数据就用小数据方法,完美的数据是永远等不来的。但这样会导致什么问题呢?在实际项目实施过程中,我们的数据科学家们不得不花费大量时间在数据清洗上,这其实是对本来就紧缺的数据人员的一种浪费。

最后是“让不让”,即数据孤岛和数据开放问题。理论上我们中国有很多数据,但不同部门数据存在在不同的地方,格式也不一样。政府内部本身整合各部门的数据就已经是一件很头大的事情,更不要提大规模的数据开放。同时数据开放面临一个严重问题就是隐私问题,脱敏远远不够,隐私问题是一个无底洞。比如我们把一个人的支付宝3个月数据拿过来,就可以很轻易的知道这个人今天在门口便利店买了一瓶水,昨天在淘宝买了沙发,每隔三个月会有一笔万元的支出。那我们就可以很容易推断这个人刚换了一个租房子的地方,就能了解他的消费习惯。这个数据其实完全是脱敏的,没有名字、没有号码,但丝毫不妨碍我们通过算法完全的勾勒出这个人的画像。

2.技术与业务的鸿沟

大数据行业发展至今,技术与业务之间依然存在巨大着鸿沟。首先,就是数据分析技术本身。数据源企业为实现数据价值变现,尝试多种方法,甚至自己组建数据分析团队,可是数据分析是个技术活,1%的误差都会极大地影响市场份额,术业有专攻,数据变现还是需要专业的数据分析人才来实现。36

随着大数据概念的火热,做大数据的公司越来越多,产品做得五花八门,数据建模看似谁都可以涉足,但现在数据分析的技术,方法,模型,算法都有了非常大的改进,跟过去六七十年代完全不一样,不是说做几个SAAS软件或者RAAS软件就是大数据了,虽然短期看市场火热,但长远来说这条路是走不通的,大数据行业发展,技术才是真正的发力点,提高行业准入门槛尤为重要。

基于此,鄂维南院士将海外成熟的大数据建模分析技术带回国内,并组织成立了北京大数据研究院和普林科技,北京大数据研究院专注于顶层设计,探索大数据行业产学研相结的发展模式,普林科技负责落地实施,从业务层面推动大数据行业发展。

其次中国的数据有它的特色,例如在金融行业,目前大部分银行采用的是风险评分卡,运用专家经验定义风险变量,基于定性认识进行评分,通过事后风险回检优化评分卡,风险预警功能较差。虽然央行征信中心与国内少数技术领先银行使用的是风险评分模型,但模型方法相对陈旧,如央行所用FICO评分模型为上世纪80年代基于逻辑回归算法构建的评分体系,逻辑回归算法适合处理线性数据,但实际问题往往是非线性的,特别是信用风险评估场景下。此外,FICO模型没有针对我国具体业务进行场景细分,建模逻辑并不完全符合我国实际情况,因此导致准确率不足,风险预警能力差。

基于此,中国人民银行征信中心首次与国内大数据公司合作,这次合作中普林科技应用国际领先的大数据建模分析技术,运用决策树,随机森林,AdaBOOST,GBDT,SVM等算法,通过对信用报告的数字化解读与深入洞察,准确预测了违约风险,对贷款审批、贷中管理形成指导,新模型对好坏账户的区分度远高于行业平均水平。此次合作表明我国的大数据难题更需要适应国情的解决方案与本土的技术人才,这对我们的市场提出了一个新问题。

3.人才难觅

我们国家大数据发展最大的优势就是市场大,最大的劣势恰巧就是缺乏相应人才,人才缺乏的程度非常严重。首先在国际市场方面,我们要跟国外公司争人才,然而国外大数据行业同样十分火热。而不论在国内还是国外,跟企业竞争人才都是一项艰巨的事业,比如在世界上最好的大学之一的美国普林斯顿大学,想找数学家也是非常困难,人才很容易被大公司挖走,每年都有非常好的数据分析人才被企业挖走。所以人才难觅不只是口头说说,更是一个亟待解决的问题。

目前为止,我们国家仍然没有良好的培育大数据人才的机制,大数据教育主要面临以下三个问题。

首先,大数据是一个交叉学科,涉及统计学,管理,编程等多学科,知识点复杂,培训课程编辑难度大,缺乏系统的学习教程;

其次,现阶段大数据教育大多还停留在理论知识上,理论与实战严重脱节,学习者缺乏良好的实践机会;

再次,大数据教育的根本目的是为了解决业务上面临的实际问题,用科学的手段推动业务的进展,然而现阶段的大数据教育机构普遍缺乏相应的业务经验,产学研结合并不密切。

针对这些问题,鄂维南院士讲到:“其实我个人在这方面想了很长时间,就是怎样才能在中国真正建设一个具有国际标准、国际水平的大数据平台?我们国家拥有这么大的市场,我们在做大数据行业同时,一定要想着做就要做到这个领域领先水平。但要达到这个目标,有一点很关键,必须要有一个国际化标准的研究平台,因此,我带头成立了北京大数据研究院,而这个研究院所要做得事情,就是把人才培养教育和科研创新和市场化、产业化结合在一起。”

本文作者:普林科技

来源:51CTO

时间: 2024-08-29 12:54:26

深度解析制约大数据发展的三大因素的相关文章

制约大数据发展的核心因素是什么?

本文尝试从大数据产业链的各环节入手,谈谈当前制约其发展主要因素. 众所周知,大数据按照处理流程可以分为三步: 大数据采集和清洗 大数据存储和分析 大数据展现和应用 从以上这三个方面,我想谈谈制约大数据发展的几个核心问题. 一.大数据采集和清洗 1.1.数据法规:用户隐私如何保护.商业规则如何制定.法律规范如何制定等等一系列法律法规都大大滞后于大数据科学的发展速度.由于技术EXE所限,纸上谈兵TXT成为常态.当前数据法律法规未明,采集方式八仙过海,预计未来很多大数据业务都将会继续游走在灰色地带,只

【独家干货】深度解析:大数据时代的新闻挖掘

内容摘要李涓子副所长从以时间和知识为核心的新闻挖掘和服务入手,对大数据时代的新闻挖掘工作进行了深度解析. 演讲正文: 非常高兴有机会跟大家交流.虽然我做的是和新闻挖掘相关的工作,但是感觉自己新闻传播方面的知识还非常欠缺,非常希望跟在座的各位老师合作. 我今天的题目是以事件和知识为核心的新闻挖掘与服务.我把我们做的工作和我在这方面浅显的认识介绍给大家. 我们现在处于富感知多源信息交汇的时代,有媒体信息.个人信息.公开信息.我们如何去更好的利用这些信息是我们现在一个问题.过去的新闻传播是用户与媒体之

制约可穿戴设备大数据梦想的三大因素

可穿戴设备之所以吸引人,其中一个非常重要的因素就在于用户粘性.PC互联网时代促成了商业的繁华,与工业时代有个最大的区别就在于用户粘性被缩短,我们只要借助于互联网就能完成基于信息流的活动.而到了移动互联网之后,商业繁华被进一步推动,也就是我们当前所看到的移动互联网热潮,其中的关键原因也在于用户粘性,也就是说基于智能手机的移动互联网更深一步地与用户之间建立了粘性. 如果用一句话来形容,也就是说PC互联网的用户粘性是按小时计算,而移动互联网的用户粘性被缩短到了按分钟计算,这种用户粘性深度绑定就会释放出

大数据发展的根基是什么?

如果将单个或局部领域的数据及其挖掘处理视为小数据,那么关于某一主体的大数据就是由成千上万.相互关联.相互交织的小数据汇聚而成的.小数据的充分融合,就是大数据形成的根基. 文|李庚南 大数据活在"云端"!唯有云计算能让大数据找到自己的轨迹和存在的真正价值:但大数据不是无根的浮云,它有自己的根,源源不断输送数据的根. 那么,大数据的"根"在哪里?日前国务院出台的<促进大数据发展行动纲要>(以下简称<行动纲要>)或许可以让我们找到答案. <行

大数据发展迅猛 基金三主线掘金

文章讲的是大数据发展迅猛 基金三主线掘金,9月5日,国务院印发<促进大数据发展行动纲要>,大数据行业顶层设计正式出炉.<纲要>部署近5年至10年大数据发展的三大主要任务,分别是政府数据资源开放.推动产业创新培育新兴业态及健全大数据安全保障体系.同时,明确统筹协调.法律法规.数据安全与保护.财政金融支持.人才培养.国际交流合作等七方面政策机制.到2020年,我国将形成一批具有国际竞争力的大数据处理.分析.可视化软件和硬件支撑平台等产品,并培育10家国际领先的大数据核心龙头企业.在行业

贵州发布三大基础设施建设和大数据发展工程包

2016年7月6日,贵州省发改委会同有关部门共同发布了2016年第一批三大基础设施建设和大数据发展两个工程包.工程包的发布,对深入推进供给侧结构性改革,全力推动贵州省委.省政府重大决策部署项目化.实物化落实,更加定向精准做强长板.补齐短板,保持贵州省扩大有效投资的良好势头,充分发挥投资对我省当前发展阶段的特殊拉动作用有着重要意义. 三大基础设施建设工程包共1108个项目,总投资5121.28亿元.经济基础设施领域项目841个,总投资4625.63亿元,内容涉及交通基础设施.水利基础设施.信息基础

《关于促进大数据发展的行动纲要》提出三大指导意见

ZD至顶网CIO与应用频道 08月24日 北京消息:近期召开的国务院常务会议通过了<关于促进大数据发展的行动纲要>,开发应用好大数据这一基础性战略资源,有利于推动大众创业.万众创新,改造升级传统产业,培育经济发展新引擎和国际竞争新优势. <关于促进大数据发展的行动纲要>提出三点指导意见: 一.推动政府信息系统和公共数据互联共享,消除信息孤岛,加快整合各类政府信息平台,避免重复建设和数据"打架",增强政府公信力,促进社会信用体系建设.优先推动交通.医疗.就业.社保

大数据需结合三大IT趋势发展

如果你是在亚太地区的IT企业,没准儿你会考虑在您的企业部署大数据方案.在过去的12个月内,大数据是在亚洲的IT企业讨论最多的话题.来自分析公司IDC的预测显示,亚太地区的大数据市场预计将从2011年的2.585亿美元增长至2016年17.6亿美元.然而,分析人士预计,尽管该地区对于大数据的兴趣正蒸蒸日上,但供应商的过分炒作和缺乏对于大数据的充分了解可能带来"非理性的繁荣和不合理的期望". 大数据不仅仅是作为企业的研究对象.大多数企业都可以从中受益是确定无疑的.例如,在英国,连锁超市乐购

湖北省大数据发展行动计划(2016-2020年)

各市.州.县人民政府,省政府各部门: 现将<湖北省大数据发展行动计划(2016-2020年)>印发给你们,请结合实际,认真组织实施. 2016年9月14日 湖北省大数据发展行动计划(2016-2020年) 大数据是继云计算.物联网和移动互联网之后新一代信息技术革命的制高点,是当今社会重要的基础性战略资源,不仅代表着当前信息技术的新热点.产业发展的新方向,更是加快推动经济社会转型升级的新引擎.为贯彻落实<国务院关于印发促进大数据发展行动纲要的通知>(国发[2015]50号)精神,推动