大数据记录一切 是天使还是魔鬼?

  提起大数据,很多人都感觉略知一二;但大数据到底是什么,又很少有人能解释清楚。今年两会期间,包括小米科技创始人雷军、联想集团董事长杨元庆、科大讯飞(002230,股吧)董事长刘庆峰在内的多位代表、委员都提出了与大数据相关的建议和提案,他们一方面希望从国家层面推动大数据的发展,另一方面也对它在信息安全方面可能存在的隐患提出了警示。

  大数据记录了所有一切

  一份调查显示,2013年我国产生的数据总量超过0.8ZB,相当于2009年全球的数据总量;而到2020年,一个普通中国家庭每年产生的数据量,将相当于半个国家图书馆的信息储量。

  中国电子学会秘书长徐晓兰委员指出,海量的信息储存和挖掘,既是大数据的价值所在,也是它有别于传统互联网、可能对信息安全带来的新隐患。

  “大数据时代,记录了很多以往根本不可能或者不需要记录的数据,比如微博、朋友圈的内容,上网产生的cookie,家庭水电气使用的情况、汽车和大型设备上安装的传感器拿到的数据等。”社交数据分析公司独到科技的CEO张文浩说,“如果这些信息都是"孤岛",影响可能不大。但一旦相互关联,影响力会大得惊人。”

  中科院信息工程所所长田静委员也表示,以往碎片化的数据只是盲人摸象,但现在这些碎片全都被存贮起来,通过相关性分析拼凑,“就知道象到底长什么样了”。

  技术上的差距,也造成了大数据暂时的“不安全”。

  “没有自己的分析能力,我们怎么能搞清楚哪些数据是需要保护的?”

  对于田静的这个“问题”,国家信息化专家咨询委员会副主任、中国工程院院士邬贺铨提供的一组数据给出了答案—数据中,大约有一半是应该保护的,但我们现在真正保护的“只有一半的一半”,很多数据在有意或无意当中被获取,“如果这些数据整合起来,被某些别有用心的人利用,会对安全造成很大的影响”。

  徐晓兰介绍,目前我国很多机构和企业使用大数据分析软件都是国外厂商生产的,特别是近几年视频等多媒体数据爆炸性增长,“这些数据都是异构化的,这部分软件是我们的短板”。

  着名军事专家尹卓委员则指出,现在互联网所使用的服务器大都放在美国,“自己没有服务器怎么可能安全”?

  另一方面,在田静看来,缺乏大数据环境下的安全理念也是重要原因之一。“过去认为无害的信息,在数据爆炸的今天,已经完全不一样了。观念不改,是没有秘密可保的。”

  张文浩也认为,国人缺乏这方面的意识。“在美国,很多人都会要求不公开自己的隐私,或者主动把自己的数据提供给某些特定的机构使用;但在国内几乎没有听到过,大家也不知道什么类型的数据可能会有多大的风险。”

  大数据或许也很“危险”

  张文浩认为,很多人对于大数据的理解都只注意到数据的体量和统计,“其实,通过深度分析,从纷繁的数据中抽象出规则和原理,并实现对未来的前瞻性预测,才是大数据真正的价值和魅力所在”。

  因为大数据,奥巴马在2012年成为过去70年来,第一位在失业率高达7.4%的情况下成功连任的美国总统;因为大数据,Target超市“预测”了18岁少女的怀孕……

  任何一项新技术的背后,都可能悬挂着一把达摩克利斯之剑。大数据也是如此,在人们惊叹于它的“神力”之时,“威胁”也正悄悄逼近。

  “前两年,国外一家情报搜集机构利用国内某机构人员公开发表的数据和资讯,进行深度挖掘分析,生成了有价值的情报。”徐晓兰告诉记者,后来经过详细调查,确认情报确实不是该人员提供,而生成情报的那些数据本身也是可公开的。“这在以往几乎是不可能的,也给我们敲响了警钟。”

  尹卓以战时的交通流量信息举例说,如果不注重数据的安全使用,将可能对国家安全带来隐患。“科索沃战争中,南联盟的油料库虽然隐蔽得很好,但美国军方通过对卫星图中的交通流量进行分析,划定了大量油罐车经常出没的区域,在进行精确搜寻,从而一举炸毁。”

  如果您认为这些“危险因素”离自己很远,那就大错特错。

  “现在很多智能手机的应用都要求访问通讯录,”邬贺铨说,很多人觉得自己没有什么秘密,就同意了。“但实际上,这不仅会透露自己的大量信息,也会把很多人置于隐私暴露的危险之下 。”

  张文浩也指出,现在很多年轻人都有用手机发微博或者“签到”的习惯,“这样其实会泄漏自己的很多信息。比如你白天经常签到的位置就很有可能是你的单位,傍晚以后签的多半是自己家”。

  大数据正经历成长的烦恼

  “要想征服数据,只有更好地利用它们。”张文浩说,数据是一种资源和财富,积累越多,产生的效力也会越大。

  这个观点得到了邬贺铨的认同。他认为,越想规避大数据带来的安全风险,越需要搜集储存海量的数据,并进行深入的挖掘分析。“有统计显示,国内数据搜集量不及日本的60%和北美的7%,大量数据留这样白白流逝。”

  “企业掌握的数据毕竟有限,而且是局部的。”百度公司董事长李彦宏委员提出了数据开放的概念,国家应该把那些不涉及安全的数据公开,让有能力的机构进行更好的分析利用。

  国家基础地理信息中心原总工程师李莉委员指出,有的公共部门掌握了大量公共信息,这些数据是国家基础信息的重要组成部分。邬贺铨强调,这些数据“不愿与其他部门共享,导致了信息不完整或重复投资”。

  共享数据在技术上是否存在很大的难度?在徐晓兰看来,现在需要大力发展的数据挖掘、分析方面的技术,但对于数据共享本身而言,技术不是最大的障碍,关键还是利益协调。她说几年前,国土部和银监会准备摸底国家土地信息,“一开始很多人提出各种各样的困难,几乎认为是不可能完成的任务。但后来引入问责等行政手段,得到地方配合,进行得就很顺利”。

  张文浩认为,建立一个公开、透明、规范的数据市场,将会大大增强数据的利用率。但在这个过程中,需要仔细考量什么样的数据可以进入市场。

  这就涉及到立法的问题。“界定"隐私"和为数据进行安全分级,是制定法律法规时要优先考虑的方面。”他指出,“个性化服务和隐私之间是一个博弈。名字、电话、住址……不能什么都说是隐私,因此需要为数据安全分级。简单地说,通过数据分析的经验,我们会知道哪类信息具有更强的指向性和排他性。这类信息的安全级别就应该更高。”

时间: 2024-08-02 05:30:55

大数据记录一切 是天使还是魔鬼?的相关文章

创新驱动生态发展 用“大数据”记录生态足迹

7月8日,中瑞对话分论坛--"生态决策创新.良好湖泊合作"论坛举行,来自瑞士.美国等国家的政府官员和贵州.四川环保界的专家,围绕生态决策创新.良好湖泊合作等话题展开了探讨. 瑞士联邦环保署原署长.洛桑理工大学教授布鲁诺·奥布勒在演讲中说,人口在不断的增长,人类对资源的消耗在不断增加,而当前我们已经在过度消耗地球的资源,给地球造成了过大压力,这样的发展方式是不可持续的.要做到可持续发展,就必须走创新之路.生态决策重中之重的是新产品.新技术.新的消费者行为,以及新的市场类型.对于企业,必须

大数据思维的十大核心原理

大数据思维是客观存在,大数据思维是新的思维观.用大数据思维方式思考问题,解决问题是当下企业潮流.大数据思维开启了一次重大的时代转型. 大数据思维原理是什么?笔者概括为10项原理. 一.数据核心原理 从"流程"核心转变为"数据"核心 大数据时代,计算模式也发生了转变,从"流程"核心转变为"数据"核心.Hadoop体系的分布式计算框架已经是"数据"为核心的范式.非结构化数据及分析需求,将改变IT系统的升级方式:

大数据是电子地图的基础,AI成为下一个技术风口

每到春运之时,人口的迁入和迁出就成了城市的主旋律.昨日,高德地图发布了2017年春运大数据.其中,广东省的5座城市在人口迁出比例排名中占据前5位,而安徽省的4座城市名列人口迁入比例排名前10位,成为返乡大省. 高德地图能够得到关于人口迁徙的大数据,是基于平时对用户数据的收集与累积.其实不止是高德地图,目前的电子地图全都离不开大数据的支撑,可以说没有大数据就没有电子地图. 电子地图的原理是什么?支撑电子地图的大数据究竟是如何得来的?采取怎样的方式才能收集到?这些问题都值得我们思索一番. 现在,人们

中国人工智能学会通讯——深度学习与视觉计算 1.1 视觉大数据

摘要:首先阐述什么是视觉大数据,以及视觉大数据分析需要解决的关键问题:然后介绍 了深度学习的发展背景,并简要回顾了深度学习在计算机视觉领域的发展历史:最后介绍 了深度学习在视觉计算中的一些工作,并讨论了未来潜在的研究方向. 1.1 视觉大数据 人类感知外部世界的时候,约有 70% 以上的外界信息是由视觉系统所接收和处 理的.因此,对于视觉信息的有效处理与 理解是非常重要的. 我们知道,从第一台光学成像设备产生 的那一刻开始,人们就在不断地改进成像 系统,希望能够更加真实地记录客观世界, 留下往日

大数据与传统数据

大数据与传统数据相比的主要特点可以概括为:数据量"大".数据类型"复杂".数据价值"无限". 数据量大十分好理解,以前我们存储数据使用的单位是 KB,一个Excel表格也就几十到几百KB,现在我们经常说到GB甚至是TB乃至PB的数据量级,它们的数量关系如下所示. 1MB=1024KB 1GB=1024MB 1TB=1024GB 1PB=1024TB 更直观一点,1KB相当于512个汉字,1MB就相当于六本红楼梦的字数--而淘宝网在2015年3月每

出行大数据绘制的“城市星云图”是怎样的?我们还总结出了5种城市结构

雷锋网按:流动是一个城市的本质,它既包含人和交通的流动,更是信息和数据的流动.这种流动性是反映城市活跃程度和繁荣程度最直接表象.滴滴借助出行大数据绘制的"城市星云图"解释了任何交通的流动.此外,这种数据轨迹还能摸索城市"脉络",探究出 5 种城市结构分类.本文转载自滴滴媒体研究院. 相信很多人对NASA(美国国家航空航天局)发布的全球夜间灯光地图记忆犹新,它真正实现了从"上帝视角"观察各地的人类活动和经济动态.而对于一座中国城市来说,除了观察城市

大数据时代的教育变革:挑战、趋势及风险规避

2011年5月,美国的麦肯锡咨询公司发布<大数据:创新.竞争和生产力的下一个前沿领域>报告,开启了大数据产业界的先河.这份报告认为,大数据是大小超出了传统数据库软件工具的获取.存储.管理和分析能力的数据集①.国际数据公司据此总结出大数据的四大特征:大量化.多样化.快速化.价值化.相对过去的小数据,大数据体现的是一种快速搜集.处理和利用复杂信息的能力.2012年3月,奥巴马政府发布<大数据研究和发展计划>,将大数据上升为国家战略.2013年被称作大数据时代的元年,信息技术进入一个崭新

解析智媒体时代大数据应用:网络编辑会否被取代

7月28日,第三期新浪未来媒体峰会系列沙龙在北京举行.如今,网络媒体智能化已经成为未来的发展趋势.在本次创想日沙龙上,来自清华大学计算机系.中国传媒大学新媒体研究院以及新浪网的科技新媒体研究专家,就媒体创新领域的最新热门话题进行了分享与讨论. 在沙龙上,新浪新闻还宣布成立创新联盟,这是一个汇集媒体创新领域顶级专家的沟通.交流联盟,成员包括媒体行业的总编辑.学者和专家.在会议结束时,新浪新闻向首批创新联盟专家颁发了聘书. 个性化推荐的基础是大数据 新浪网信息系统算法部总监李云辉首先做了分享.在他看

大数据成商场全渠道变革先锋

王府井百货投身全渠道变革,大数据运用是其中重要一环,大数据公司"百分点"变身开路先锋,帮助王府井百货进行信息化改造,管理线上线下消费者.大数据应用正从一个抽象概念落到实处.北京商报记者了解到,王府井百货将借道百分点进行精细化的用户分析.精准化商品管理.优化品牌组合等.这也为将切换到深度联营合作的供应商提供有效的单品管理支撑. 大数据记录消费者习惯 消费者在商场一次随机的行走,留下一条弯弯曲曲的线路.过去,商场从来不会进行这条线路的数据采集,比如消费者进入了哪些品牌店,在其中逗留了多久等