问:编辑同志,您好。继“物联网”、“云计算”之后,“大数据”一词被越来越多地提及。大家都在谈论“大数据”,谁都想用好“大数据”,俨然进入了“大数据时代”。请问如何理解“大数据时代”?
大数据”只是一种提法,其形态本身是数据云。人们用它来描述、定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。让我们看网上的一组数据,就能够对“大数据”有一个生动的认识:平均每1秒钟,会有60张照片上传到网络;每1分钟,会有60小时视频上传到视频网站youtube;每1天里,在脸谱(facebook)有40亿的信息扩散;每个智能手机用户平均会安装65个应用;每一天里,互联网产生的全部内容可以刻满1.68亿张DVD;每一天发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量),发出的社区帖子达200万个(相当于《时代》杂志770年的文字量)。在“大数据”中,存储在数据库中的结构化数据仅占10%,邮件、视频、微博、帖子、页面点击等大量非结构化数据占据了另外90%。
“大数据”有几个明显特征。一是数据量大。“大数据”的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。二是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。三是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是“大数据时代”亟待解决的难题。四是处理速度快,时效性要求高。这是“大数据”区分于传统数据挖掘最显著的特征。
最早提出“大数据时代”到来的是全球知名咨询公司麦肯锡,麦肯锡称:数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。
如今,互联网和大数据已经开始深刻影响公司的传统业务。比如,大家都熟悉的耐克公司,它的数字运动平台Nike+至今已经拥有了超过1000万的注册用户,它所收集到的用户运动数据已经成为耐克在产品设计时的重要参考。Nike+收集到的数据显示,大量的用户是在夜间进行跑步锻炼的。当了解这点之后研发人员开始思考,在光线昏暗的条件下跑步,人们需要什么?毫无疑问,是可见度和安全性。因此,在设计鞋的时候加上了反光材料,在设计衣服时也加上了反光材料。这只是互联网和“大数据”对耐克影响的一个缩影。
毫不夸张地说,互联网上每天产生的庞大数字在一定意义上就意味着财富,意味着政治。美国华尔街根据民众情绪抛售股票;对冲基金依据购物网站的顾客评论,分析企业产品销售状况;银行根据求职网站的岗位数量,推断就业率;投资机构搜集并分析上市企业声明,从中寻找破产的蛛丝马迹;美国疾病控制和预防中心依据网民搜索,分析全球范围内流感等病疫的传播状况;美国总统奥巴马的竞选团队依据选民的微博,实时分析选民对总统竞选人的喜好。
“大数据时代”为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。与此同时,也对人类的数据驾驭能力提出了新的挑战,尤其让互联网公司如临大敌,有些美国公司甚至认为“大数据时代”就如同“外星人”和“世界末日”一样,某种程度上是虚构的。但不管怎样,海量数据已然摆在面前,是机遇必然伴随挑战,关键在于如何应对。