大数据的“孤岛困境”

  是否有可能把处在不同企业、不同服务上的“孤岛”数据进行整合,建立一个数据交换平台,同时做好个人信息的保护,使数据实现正常化?

  这对公司、个人,甚至对于整个社会来说,都是有益的。但对于商业的实体来说,大数据现在已经成为其资产的一部分,分享数据可能意味着会丧失其竞争优势

  拿出一支笔,在我国版图上以黑龙江省的黑河、云南省的腾冲为两点画一条线,线的右侧只占国土面积的36%,却居住着占96%的人口—这就是我国著名人口地理学家胡焕庸在1935年发现的“黑河—腾冲线”,也叫胡焕庸线,在我国地理学以及人口学上,具有重大意义。

  “这就是80年前的大数据。”7月25日,在由腾讯互联网与社会研究院举办的“大数据连接的未来”高峰论坛上,腾讯公司即通产品部副总经理冼业成展示了一张我国QQ同时在线人数活跃度图,与“黑河—腾冲线”图作对比,结果显示,两张图惊人相似。

  冼业成由此进一步表示,通过对大数据的采集与挖掘,可以满足政府、企业与个人的多方面需求,如通过大数据的预测功能为其决策提供一定参考等。

规模并非唯一判断依据

  在维基百科中,大数据被定义为:所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息;百度百科的词条则表述为:大数据,或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

  中国人民大学信息学院副院长文继荣教授表示,维基和百度百科里对大数据的定义基本集中在“大”的概念,但并没有揭示更深刻的问题。

  “大数据首先是一种进行判断和预测的能力。”文继荣解释,其前提在掌握这种海量数据收集存储和处理的技术基础上,随之产生了能判断或预测的新能力。

  “其实所谓大数据并没有一个绝对的数量,不能说100个T的数量是不是大数据。大数据主要跟它所应用的问题规模大小有关系。”文继荣解释,“也就是说要把数据用在某一个问题上,这个问题的规模尤其是样本空间大小,会决定这些数据足不足够大。”

  文继荣表示:“如果某一数据能充分覆盖问题的样本空间,它对于这个问题就是大数据。因为各种可能出现的情况都有相应数据进行覆盖,这样的数据就足够大了。”

既要讲规模 又要讲质量

  与会专家提醒,如今在研究大数据过程中出现了一种现象:很多人往往认为数据大了即可,可是却忽略了一个问题,即数据的质量。如果拿着一堆质量不可靠的数据就去做一些所谓的统计分析,结果是很危险的。

  “传统上要做很多统计分析的时候,我们特别强调数据抽样的无偏性、随机性。可是今天大家用大数据的时候好像就忘记了这点,觉得只要我收集了很多数据简单统计一下,因为我是大数据,我是全样本,就不用去管数据的质量,这无疑是非常危险的一个趋势。”文继荣认为。

  牛津大学互联网研究院研究员王宁就在论坛上提醒,要考虑大数据可能带来的两大风险:一是对数据的误读,二是数据所存在的偏差问题。

  普元数据产品总监王轩此前也在接受媒体采访时表示,有的企业是基于数据分析作出了一些营销的趋势性结论,但如果数据本身是错的,分析出来的结论未必有用。

  在业内更是曾有过这样一种说法:如果数据准确度在60%,作出来的事一定会被用户骂;如果数据准确度在80%左右,用户会说“还不错”;只有数据准确度达到90%,用户才会觉得真牛。

“信息孤岛” 亟待打破

  腾讯公司社交网络事业群总裁、腾讯公司高级执行副总裁汤道生还在论坛上提出了“信息孤岛”的问题。

  汤道生认为,如今大家使用到的数据,大多是由不同的企业、不同的服务搜集到的,也就是说都是在孤岛上捕捉的,而与此相悖的是大数据一个很重要的性质—可扩展性,而当下大数据的发展,也使得可扩展性显得愈发重要。

  “处在信息的孤岛上,每一家公司可能都有自己的云,而要把这些处在不同孤岛上的数据进行整合,去创建一个更加综合的情景来从中受益,这里还有很多的挑战。”汤道生表示。

  汤道生说,自己一直在思考的问题是:是否有可能把这些处在不同孤岛上的数据进行整合,建立一个数据交换平台,同时做好个人信息的保护,使数据实现正常化。

  “这对公司、个人,甚至对于整个社会来说,都是有益的。但我深知其中的困难,因为对于商业的实体来说,大数据现在已经成为其资产的一部分,分享数据可能意味着会丧失其竞争优势。”汤道生说。

  “大数据发展的一大瓶颈就是产业链各个环节的竞合平衡,比如物联网和智慧城市,这些概念想要落地完全离不开大数据,但要实现这样的宏观概念,其实并不取决于某一个企业甚至任何一个行业,而需要整个社会资源跨行业的整合以及平衡。”腾讯互联网与社会研究院产业经济中心主任孟昭莉博士认为。

  孟昭莉建议,需要有一个跨行业的数据共享池,这样的池子最好是能够由政府这样非常中立的第三方来作为引领者,同时也有各个行业的领军企业来参与。

  “这必然会导致一些既有竞争又有合作伙伴关系的企业会共同卷入这个生态圈,此时最为关键的就是合理管理机制的设置,让贡献较多的企业能够拿到一定回馈,而贡献较少的企业则可以考虑提供一些有偿服务。”孟昭莉表示。

数据安全问题 不容忽视

  在大数据爆炸的时代,企业可以通过大数据业务的开展为自身商业决策提供依据,但也伴随着数据安全性的考验,即如何保证自身以及用户数据的安全隐私,已经成了大数据发展的首要议题。

  腾讯公司云平台部总经理陈磊表示,腾讯曾经对90个要求用户用信用卡或银行卡去做支付的电商网站和微信公共账号做过安全扫描分析检查,发现超过60个都或多或少存在安全问题,其中20多个的问题甚至非常严重,存在包括盗取用户的身份、恶意去替用户消费等行为。

  陈磊还半开玩笑地讲:“所以今天我住酒店的时候,如果酒店的工作人员让我把信用卡留下,我是非常焦虑的,因为今天我们面临的互联网产品里的安全问题非常多。”

  “要做好大数据的服务,我们首先要解决的就是信息安全的问题。特别是对腾讯而言,首先发生的挑战就是安全的挑战。”陈磊表示。

  据冼业成介绍,如今腾讯QQ用户每天都在产生着大量的数据,如用户每天产生的QQ消息有155亿条,腾讯公司每天为了处理这些数据就要新增存储200T。

  那么,面对海量的数据信息,腾讯又是如何承担数据“保安”角色的呢?

  据陈磊透露,腾讯有一整套完备的安全防护措施,从运营商的网络出发就有一个很强的防护,后面还通过技术手段去加固用户服务器,包括外部应用的防火墙等,帮助用户解决安全问题。

  然而,不泄露用户数据是一方面,另一方面,像QQ、微信这样的聊天工具,每天都会产生大量涉及用户隐私的信息,腾讯是否会将其也列入大数据开发的范畴,并给用户隐私带来侵害呢?

  陈磊在接受法治周末记者专访时表示:“腾讯不会用聊天记录、不会用微云里面储存的内容,只会对用户动分享出来的内容进行分析。”

  “但即使是对这种分享内容也会进行分级,比如用户在私密圈子里分享的信息,腾讯会在不能追溯到用户本人的方式下、去除敏感信息部分然后再来使用。”陈磊强调。

时间: 2024-10-31 16:19:46

大数据的“孤岛困境”的相关文章

社会学视角下的大数据方法论及其困境

大数据不仅是一种庞大数据资料的称谓,也是一种获取和分析资料的方法.在社会学研究领域,大数据的引入被认为是定量研究的范式下所做出的收集和分析资料方法的创新.但是大数据在多大程度上反映人群的状况.能否解决被研究者的主观性问题.如何洞悉变量间关系的真伪.如何解决数据缺失问题等方面,还存在一定程度的方法论困境.这就要求研究者在使用大数据进行研究时,能够在研究对象与问题的选择.变量的选取.数据的清理等一系列工作中更加谨慎,切勿犯简化社会生活.盲目推广分析结果的错误. 1.引言 近年来,"大数据"

大数据的三大困境

大数据,作为一套技术.一种经营战略是相对成熟的.这种成熟带来的好处是更先进的工具.更顺畅的部署和新的商业机会.不利的一面是,如果公司想要在实现数字化转型目标方面取得真正成功,新挑战的出现需要更为明智的策略. 一家公司的数字化改造应该从清晰的趋势和障碍出发,更好地规划出一条通往其所寻求业务成果的路线.考虑到这一点,以下是我们关注的三大数据趋势,以及在数字时代可能出现在企业和成功之间的三大困境. 三大趋势 1.真实的机器学习我们坚信,机器学习.人工智能未来很快会接管世界,至少是人类的大部分工作.然而

智慧医疗迎风口 医疗大数据“信息孤岛”仍待破解

国务院办公厅发布<关于促进和规范健康医疗大数据应用发展的指导意见>(下称"<意见>"),将健康医疗大数据应用发展纳入国家大数据战略布局.国家卫计委规划与信息司副司长张锋认为,<意见>有利于打破信息不对称格局,提升全体人民健康医疗服务可及性. 不过,目前医疗机构数据比较分散,信息孤岛仍是待破之题.一份调查显示,当前已有70%以上的医院实现了医疗信息化,但仅有不到3%的医院实现了数据互通. 中国医院协会常务副会长.秘书长薛晓林向21世纪经济报道记者指出,

大数据算法的困境

2013年,美国有一起充满争议的案子,一个因为偷窃罪被判刑的男人把威斯康星法院告了.原因是他被判整整8年有期徒刑,不是因为他的罪行,也不是因为法官的判断,而是因为一个AI(人工智能)认为,他对社会具有"高危险性".大数据时代,我们关注最多的是数据的安全和隐私,然而,数据加上算法所带来的问题,或许要比安全和隐私重要得多. 大数据让算法前所未有的强大 机器学习和深度神经网络,克服了算法设计中人的局限;只要有数据,只要数据中有统计规律,算法就能找到这些规律.人工智能技术近几年的火热,主要得益

大数据来临的时代 医改将往何处去?

市场只遵循盈利的规则,医疗服务却有伦理底线 这两年,医改新政频繁出台.比如2015年6月,开始实施发改委等部门<关于印发推进药品价格改革意见的通知>,取消绝大多数药品的最高零售限价.2016年7月,发布<推进医疗服务价格改革的意见>,进一步缩小政府对医疗服务的定价范围,目标是2020年形成"以成本和收入结构变化为基础的价格动态调整机制".与此同时,人社部开启了公立医院去事业编制的人事改革,即建立医护人员的雇佣制,以吸引私人资本.回头看,这些新举措,仅保留了法律监

在大数据时代最需要的是先改变我们的思维

其实我们正在享用大数据时代带给我们的便利,而且是我们似乎人人都是数据的制造者,而对于如何使得大数据的"孤岛"和"壁垒"在建立之初,就不再是各家对垒的局面,而是通过共享大数据来真正达到巨量的效应,那就不再仅仅是为了营销之便,而是人们的思维方式的变化,会因为大数据时代的到来改变旧有的概念,因为 "掌握并利用大数据,让每一个中国人都成为'巨大财富携带者',已不是梦想"! 在<大数据>一书中,作者就对现在的美国关于大数据的问题,进行了一番评介

大数据“孤岛困境”:暗藏“触电”危险与“断电”无奈

政企之间数据不共享,一个个大数据平台将如同孤岛.人民视觉 不喜欢网红脸,有自己的审美标准:热衷于社交个性化:有购买力又不失品位--最近,一份题为<95后审美观>的报告精准勾勒出"95后"的喜好和想法. 这份由QQ大数据发布的报告,通过社交平台上的大数据挖掘,分析"95后"这一年轻群体的审美观及消费观,而这些极有可能影响未来消费品的设计及营销. 随着社交网络.移动互联网和物联网的兴起,大数据越变越大,也带来无限想象力和商业应用价值,被认为是驱动第四次工业革

借助大数据解决现代交通困境

随着日益增长的交通"大数据",给交通管理创新带来的新挑战,以及对交通管理工作提出的新要求,交通信息化建设必然步入大数据所带来的智慧应用阶段,利用大数据破解当前诸多交通瓶颈问题成为了未来交通行业的必由之路.那么交通行业面临着那些困境,大数据又是如何解决的?正是本文所着重阐述的. 背景 城市交通问题是自上世纪以来,工业发达国家一直为之困扰的问题.中国自进入改革开放以后,各项事业建设进程极速加快.随着经济的发展,我国交通发生了前所未有的变化.同业也面临着前所未有的挑战,根据不完全统计目前全国

大数据现实困境

大数据现实困境 缔元信.网络数据CEO  秦雯 大数据≠数据中心:数据中心(Internet Data Center, IDC)是对互联网业务资源进行集中式处理和分发的物理环境.在大数据产业的传输层,是大数据应用的网络基础设施. 大数据≠云计算:云计算是互联网业务的系统平台,实现海量数据的高效存储和利用.在大数据产业的处理层,是大数据应用的系统基础设施. 大数据≠数字化信息:数字化信息是大数据的组成部分,但不是所有的数字化信息都能产生大数据.大数据是数字化信息被生产.消费的过程的记录. 大数据≠