制图:张雷
2014年两会期间,中央电视台新闻联播设立了《两会大数据》板块,每天通过政府工作报告相关主题和议论特点进行大数据分析,给出不同形式、不同内容的关注度以及经济社会发展预测等具体生动的分析图表,令人耳目一新。“大数据”也随之登上热词榜。那么,到底什么是大数据,它又有何价值呢?
A 大数据有多大
在当今信息网络时代,人们的网上操作,平时的一举一动,机器的运转活动,大自然的随时变化都会产生许许多多的数据。这些数据量大且复杂,用现有的计算工具难以处理,人们形象地称之为“大数据”。
我们来看看这些:互联网一天产生的全部内容可以刻满1.68亿张DVD;每天通过网络传输的电子邮件达2000多亿封,发出的社区帖子达200万个,卖出的手机为37.8万台;腾讯公司注册用户超过7亿,同时在线人数超过1亿;创建“平安城市”,一个摄像头运行一小时,产生的数据是3.6G;医院检查一次CT产生几个G的影像数据;在数字化工业设计的今天,设计一架飞机,几十万个零部件的尺寸、大小、形状均是数据;我们每个人每天打电话、刷卡支付,会产生很多数据;想象一下这些数据会是多么庞大?IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。大数据具有数据量大、类型繁多、数据变化快、价值密度低等四个典型特征,传统处理方法和软件工具已不能分析处理这些大量的数据,需要创新数据处理方法和软件分析工具。
产生这么多的数据不难理解。从智能手机的普及到二维码的流行,再到可穿戴设备的面世,我们的衣食住行基本都可以电子化了,海量的数据也随之而来;工业设备、汽车、电表上无数传感器,随时测量和传递着各种各样的信息,都会产生海量的数据;不断成熟的手机指纹识别传感器、嗅觉传感器甚至可以感知情绪的新技术接踵而至,这一切使得人类活动以及物理世界数据化变为可能。
这么“大”的数据,如何存放呢?当然,这得益于科技的发展:反映计算机硬件技术进步的摩尔定律是这样描述的——大约每隔18个月集成电路的集成度增加一倍,而价格下降一半。成本的不断下降促进了大数据的可存储性。同时,随着量子计算、光计算等新型介质研究与应用发展,数据存储能力将进一步大幅提升。
B 大数据的价值
如果你是亚马逊的会员,你可能早都发现“猜你喜欢”推荐的书常常是你感兴趣的;如果近期你打算网购一套空气净化设备,并在网上了解过相关信息,你会发现你的淘宝首页,有很多销售空气净化机的推送,甚至上其他网站,都会时不时弹出有关空气净化机的商品信息。
这些都归功于商家对“大数据”的开发应用。他们依靠计算机进行数据处理,根据你的浏览、搜索、购物记录等等,“猜测”出你的喜好,从而帮你选择可能会喜欢、可能会购买的商品。看看“百度”“微信”“淘宝”这些我们工作生活离不开的应用吧:百度数据是需求数据,需要什么搜索什么;腾讯微信反映出的是兴趣和关系数据,而淘宝网数据形成交易数据,如果同时掌握兴趣和关系、需求及交易数据,就能够把一个人的行为搞清楚。同样的道理,各行各业只要数据足够“大”,预见未来似乎也并不难。
有人说“预见未来”是大数据的核心价值。那么,这种预见未来的价值,能为我们的生活带来哪些改变呢?
以“百度迁徙”为例。1月26日,“百度迁徙”网站正式上线。网站主页的中国地图上,每一个跳跃的点,都是人们出发和到达的目的地。点击任一城市,就会出现过往8小时内这一城市迁出与迁入人次最多的数据。“百度迁徙”就是把手机网民的定位信息汇总成大数据进行分析,从而勾勒出人们的迁徙轨迹。这些信息对分析人口迁移的方向、城镇化进程、春运运输调配等方面有着重要的价值。