是否有可能把处在不同企业、不同服务上的“孤岛”数据进行整合,建立一个数据交换平台,同时做好个人信息的保护,使数据实现正常化?
这对公司、个人,甚至对于整个社会来说,都是有益的。但对于商业的实体来说,大数据现在已经成为其资产的一部分,分享数据可能意味着会丧失其竞争优势
拿出一支笔,在我国版图上以黑龙江省的黑河、云南省的腾冲为两点画一条线,线的右侧只占国土面积的36%,却居住着占96%的人口—这就是我国著名人口地理学家胡焕庸在1935年发现的“黑河—腾冲线”,也叫胡焕庸线,在我国地理学以及人口学上,具有重大意义。
“这就是80年前的大数据。”7月25日,在由腾讯互联网与社会研究院举办的“大数据连接的未来”高峰论坛上,腾讯公司即通产品部副总经理冼业成展示了一张我国QQ同时在线人数活跃度图,与“黑河—腾冲线”图作对比,结果显示,两张图惊人相似。
冼业成由此进一步表示,通过对大数据的采集与挖掘,可以满足政府、企业与个人的多方面需求,如通过大数据的预测功能为其决策提供一定参考等。
规模并非唯一判断依据
在维基百科中,大数据被定义为:所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息;百度百科的词条则表述为:大数据,或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
中国人民大学信息学院副院长文继荣教授表示,维基和百度百科里对大数据的定义基本集中在“大”的概念,但并没有揭示更深刻的问题。
“大数据首先是一种进行判断和预测的能力。”文继荣解释,其前提在掌握这种海量数据收集存储和处理的技术基础上,随之产生了能判断或预测的新能力。
“其实所谓大数据并没有一个绝对的数量,不能说100个T的数量是不是大数据。大数据主要跟它所应用的问题规模大小有关系。”文继荣解释,“也就是说要把数据用在某一个问题上,这个问题的规模尤其是样本空间大小,会决定这些数据足不足够大。”
文继荣表示:“如果某一数据能充分覆盖问题的样本空间,它对于这个问题就是大数据。因为各种可能出现的情况都有相应数据进行覆盖,这样的数据就足够大了。”
既要讲规模 又要讲质量
与会专家提醒,如今在研究大数据过程中出现了一种现象:很多人往往认为数据大了即可,可是却忽略了一个问题,即数据的质量。如果拿着一堆质量不可靠的数据就去做一些所谓的统计分析,结果是很危险的。
“传统上要做很多统计分析的时候,我们特别强调数据抽样的无偏性、随机性。可是今天大家用大数据的时候好像就忘记了这点,觉得只要我收集了很多数据简单统计一下,因为我是大数据,我是全样本,就不用去管数据的质量,这无疑是非常危险的一个趋势。”文继荣认为。
牛津大学互联网研究院研究员王宁就在论坛上提醒,要考虑大数据可能带来的两大风险:一是对数据的误读,二是数据所存在的偏差问题。
普元数据产品总监王轩此前也在接受媒体采访时表示,有的企业是基于数据分析作出了一些营销的趋势性结论,但如果数据本身是错的,分析出来的结论未必有用。
在业内更是曾有过这样一种说法:如果数据准确度在60%,作出来的事一定会被用户骂;如果数据准确度在80%左右,用户会说“还不错”;只有数据准确度达到90%,用户才会觉得真牛。
“信息孤岛” 亟待打破
腾讯公司社交网络事业群总裁、腾讯公司高级执行副总裁汤道生还在论坛上提出了“信息孤岛”的问题。
汤道生认为,如今大家使用到的数据,大多是由不同的企业、不同的服务搜集到的,也就是说都是在孤岛上捕捉的,而与此相悖的是大数据一个很重要的性质—可扩展性,而当下大数据的发展,也使得可扩展性显得愈发重要。
“处在信息的孤岛上,每一家公司可能都有自己的云,而要把这些处在不同孤岛上的数据进行整合,去创建一个更加综合的情景来从中受益,这里还有很多的挑战。”汤道生表示。
汤道生说,自己一直在思考的问题是:是否有可能把这些处在不同孤岛上的数据进行整合,建立一个数据交换平台,同时做好个人信息的保护,使数据实现正常化。
“这对公司、个人,甚至对于整个社会来说,都是有益的。但我深知其中的困难,因为对于商业的实体来说,大数据现在已经成为其资产的一部分,分享数据可能意味着会丧失其竞争优势。”汤道生说。
“大数据发展的一大瓶颈就是产业链各个环节的竞合平衡,比如物联网和智慧城市,这些概念想要落地完全离不开大数据,但要实现这样的宏观概念,其实并不取决于某一个企业甚至任何一个行业,而需要整个社会资源跨行业的整合以及平衡。”腾讯互联网与社会研究院产业经济中心主任孟昭莉博士认为。
孟昭莉建议,需要有一个跨行业的数据共享池,这样的池子最好是能够由政府这样非常中立的第三方来作为引领者,同时也有各个行业的领军企业来参与。
“这必然会导致一些既有竞争又有合作伙伴关系的企业会共同卷入这个生态圈,此时最为关键的就是合理管理机制的设置,让贡献较多的企业能够拿到一定回馈,而贡献较少的企业则可以考虑提供一些有偿服务。”孟昭莉表示。
数据安全问题 不容忽视
在大数据爆炸的时代,企业可以通过大数据业务的开展为自身商业决策提供依据,但也伴随着数据安全性的考验,即如何保证自身以及用户数据的安全隐私,已经成了大数据发展的首要议题。
腾讯公司云平台部总经理陈磊表示,腾讯曾经对90个要求用户用信用卡或银行卡去做支付的电商网站和微信公共账号做过安全扫描分析检查,发现超过60个都或多或少存在安全问题,其中20多个的问题甚至非常严重,存在包括盗取用户的身份、恶意去替用户消费等行为。
陈磊还半开玩笑地讲:“所以今天我住酒店的时候,如果酒店的工作人员让我把信用卡留下,我是非常焦虑的,因为今天我们面临的互联网产品里的安全问题非常多。”
“要做好大数据的服务,我们首先要解决的就是信息安全的问题。特别是对腾讯而言,首先发生的挑战就是安全的挑战。”陈磊表示。
据冼业成介绍,如今腾讯QQ用户每天都在产生着大量的数据,如用户每天产生的QQ消息有155亿条,腾讯公司每天为了处理这些数据就要新增存储200T。
那么,面对海量的数据信息,腾讯又是如何承担数据“保安”角色的呢?
据陈磊透露,腾讯有一整套完备的安全防护措施,从运营商的网络出发就有一个很强的防护,后面还通过技术手段去加固用户服务器,包括外部应用的防火墙等,帮助用户解决安全问题。
然而,不泄露用户数据是一方面,另一方面,像QQ、微信这样的聊天工具,每天都会产生大量涉及用户隐私的信息,腾讯是否会将其也列入大数据开发的范畴,并给用户隐私带来侵害呢?
陈磊在接受法治周末记者专访时表示:“腾讯不会用聊天记录、不会用微云里面储存的内容,只会对用户动分享出来的内容进行分析。”
“但即使是对这种分享内容也会进行分级,比如用户在私密圈子里分享的信息,腾讯会在不能追溯到用户本人的方式下、去除敏感信息部分然后再来使用。”陈磊强调。