前段时间开始,业界将“大数据”从一个普通名词变成了一个专有名词。但是还是有很多人分不清“把我们变成一堆数字”和“大数据”之间的关系与差异。所以这篇文章借用这两本书来介绍这两个概念。
先谈《当我们变成一堆数字》,大家是否注意到?每当我们在谷歌或百度上搜索一个词汇或一个事件后,你再次上网浏览别的网站时,在边栏或者屏幕上方的横条上出现的广告都和我们刚刚搜索的内容相关。比如你搜了一个数码相机的信息,马上你就在接下来的浏览中发现在屏幕的上方或右方出现的广告都和数码相机有关。
除了上网搜索,我们在使用Web邮箱时,也会发生同样的事。当你发了一个邮件给朋友讨论下一个长假到哪个旅游胜地去度假,你会发现下次你再打开邮箱时,旁边的广告都和当地度假酒店或往返度假地的机票有关。这些都与一个网络专有名词“Cookie”有关。
Cookies是什么意思?字面上Cookies是“小甜饼”,但在网络世界,Cookies就是服务器暂存放在你的电脑里的资料(.txt格式的文本文件),好让服务器用来辨认你的计算机。当你在浏览网站或发送Web邮件的时候,Web服务器会先送一个小资料放在你的计算机上,Cookies 会帮你在网站上所打的文字或是一些选择都记录下来。当下次你再访问同一个网站,Web服务器会先看看有没有它上次留下的Cookies资料,有的话,就会依据Cookie里的内容来判断使用者,送出特定的网页内容给你。
透过Cookies,我们每个人都被数字化了,我们的个人资料,个人喜好,日常活动范围,购买偏好,通通以一串数字的形式展现在网络世界。
也就因为这个Cookies,每当我们在卓越网或当当网购买一本书后(甚至只是在他们网站上浏览了几本书),下次再去他们的网站,网站就会推荐和你上次购买有相关主题的书籍。好像知道你的喜好一样。
大家若带着笔记本电脑去国外旅游,当你进了度假村,安顿下来后,打开电脑透过WiFi检查Web邮箱时(譬如Gmail),往往就会收到一封从Web邮箱服务器发来警告,告诉你的电脑在一个以前没有出现过的地方登录了,假如的确是你自己登录的,那么请操作下列指定的步骤以激活你的邮箱。这又是一个借由Cookies工作的例子。
《当我们变成一堆数字》这本书就是举了很多这类案例,详细阐述了网络怪杰,网络企业家如何利用从网络上搜集来的数字化信息,他们还花了很多的精力研究各组数据之间的相关性与因果性。于是创造新的商机,提高社会的效率,或改善我们生活的点点滴滴。
那么“大数据”又是怎么回事呢?
随着智能手机,平板电脑,还有笔记本电脑的普及,加速了我们“身份的数字化”,在Web服务器面对这样海量的数据信息时,却遇上了新难题:处理能力和储存容量的需求都爆炸性增加。大家还记得吗?15年前我们PC的硬盘都是200M或500M的容量,但是5年前,PC硬盘都是250G或500G。一个G是1000个M。而现在市场上卖的移动硬盘常常都是几个T,一个T是多大?是1000个G。但现在Web服务器面对网络上的大量数据却需要的储存量是以P(Peta)为基本单位的。大家应该可以猜到:一个P是1000个T。
以目前的技术水平,很少有单个计算机可以处理这么大的数据量,也很少有单个储存设备可以有这么大容量。幸亏“云”的概念和技术正好在最近很成熟了,于是利用“云计算”和“云储存”的海量计算能力和海量储存能力,网络怪杰和网络企业家顺利的迈入“大数据时代”!
大数据的开发与应用有着三个特点:
1、数据样本,不再是抽样,而就是数据的总体。分析数据是把所有搜集到的数据包括在内。
2、数据不必百分之百地准确,不必剔除特例,而是从“海量”的数据中总结出绝大部分人的共同特性。用“绝大多数的特性”代表“总体的特性”。
3、不再注重数据之间的“因果性”,而只注重于它们之间的“相关性”。
在《大数据时代》中举了很多实例讲解以上的观点。
1、语言的翻译:
传统翻译软件是设定了很多的语法规则,用这些僵化的规则拆解每个句子,然后再逐字翻译生成不同语文的语句。但这往往使翻译出来的语句非常生硬拗口,甚至错误率极高。业界还盛传一个有关微软公司“机器翻译部门”的一个笑话:部门每有一个语言专家辞职,翻译质量就会提高一些。
谷歌的翻译软件却不是这么做,他们翻译团队的成员大多不但不是语文学家,甚至连翻译成的那种语言都一窍不通。他们都是一些统计学家,从大量的已存的翻译文章中对比,寻求规律,然后产生翻译的文字。事实证明虽然网上搜集来的翻译文章有不少是错误的,是低质量的,但由于数据量极大,这些错误自然就被忽略了,这种方法的确大大提高了翻译的质量和准确性。也就是说“不百分之百”精确的大数据用简单算法比精确的小数据用复杂算法要有效地多!
2、流感的预测
以前卫生单位发布流感成灾的信息,往往都是从各大医院和卫生所搜集来的数据,这个方法的最大缺点是“信息是滞后的”!是“灾”已成事实了,卫生单位才警告社会,这时已经有很多人被感染。
又是谷歌提出了不同的预测办法。他们是以有多少人搜索“咳嗽怎么办?”或“发烧怎么办?”来警示流感可能发生了!除了注意到搜索这些词语的频率大幅增高外,还可以锁定是哪个区域的人开始大量搜索这类问题的答案。于是谷歌就能提早告诉大众有流感开始盛行,而且传染区是向哪个方向迁移。这个项目使得卫生单位及早研制预防疫苗,及早控制疫情的扩散,大幅降低了流感的传播。
3、飞机票价高低和多早预购的关系
也许大家会直觉地认为越早买机票就越可以买到较便宜的机票。一家叫Farecast公司的创始人从他的亲身经验启发了一个新的服务。他发现坐他旁边的人比他晚好几天购买机票却比他的购买价格还低。于是他搜集了所有航空公司的票价与提前订购时间的数据关系,并建立了数学模型。现在我们任何人可以上到他的网站:farecast.com,输入你的出发地和目的地,加上你要出发的时间,马上这个网页能告诉你是现在就赶快买票还是再等几天才买。