详细阐述大数据的起源与未来

前段时间开始,业界将“大数据”从一个普通名词变成了一个专有名词。但是还是有很多人分不清“把我们变成一堆数字”和“大数据”之间的关系与差异。所以这篇文章借用这两本书来介绍这两个概念。

先谈《当我们变成一堆数字》,大家是否注意到?每当我们在谷歌或百度上搜索一个词汇或一个事件后,你再次上网浏览别的网站时,在边栏或者屏幕上方的横条上出现的广告都和我们刚刚搜索的内容相关。比如你搜了一个数码相机的信息,马上你就在接下来的浏览中发现在屏幕的上方或右方出现的广告都和数码相机有关。

除了上网搜索,我们在使用Web邮箱时,也会发生同样的事。当你发了一个邮件给朋友讨论下一个长假到哪个旅游胜地去度假,你会发现下次你再打开邮箱时,旁边的广告都和当地度假酒店或往返度假地的机票有关。这些都与一个网络专有名词“Cookie”有关。

Cookies是什么意思?字面上Cookies是“小甜饼”,但在网络世界,Cookies就是服务器暂存放在你的电脑里的资料(.txt格式的文本文件),好让服务器用来辨认你的计算机。当你在浏览网站或发送Web邮件的时候,Web服务器会先送一个小资料放在你的计算机上,Cookies 会帮你在网站上所打的文字或是一些选择都记录下来。当下次你再访问同一个网站,Web服务器会先看看有没有它上次留下的Cookies资料,有的话,就会依据Cookie里的内容来判断使用者,送出特定的网页内容给你。

透过Cookies,我们每个人都被数字化了,我们的个人资料,个人喜好,日常活动范围,购买偏好,通通以一串数字的形式展现在网络世界。

也就因为这个Cookies,每当我们在卓越网或当当网购买一本书后(甚至只是在他们网站上浏览了几本书),下次再去他们的网站,网站就会推荐和你上次购买有相关主题的书籍。好像知道你的喜好一样。

大家若带着笔记本电脑去国外旅游,当你进了度假村,安顿下来后,打开电脑透过WiFi检查Web邮箱时(譬如Gmail),往往就会收到一封从Web邮箱服务器发来警告,告诉你的电脑在一个以前没有出现过的地方登录了,假如的确是你自己登录的,那么请操作下列指定的步骤以激活你的邮箱。这又是一个借由Cookies工作的例子。

《当我们变成一堆数字》这本书就是举了很多这类案例,详细阐述了网络怪杰,网络企业家如何利用从网络上搜集来的数字化信息,他们还花了很多的精力研究各组数据之间的相关性与因果性。于是创造新的商机,提高社会的效率,或改善我们生活的点点滴滴。

那么“大数据”又是怎么回事呢?

随着智能手机,平板电脑,还有笔记本电脑的普及,加速了我们“身份的数字化”,在Web服务器面对这样海量的数据信息时,却遇上了新难题:处理能力和储存容量的需求都爆炸性增加。大家还记得吗?15年前我们PC的硬盘都是200M或500M的容量,但是5年前,PC硬盘都是250G或500G。一个G是1000个M。而现在市场上卖的移动硬盘常常都是几个T,一个T是多大?是1000个G。但现在Web服务器面对网络上的大量数据却需要的储存量是以P(Peta)为基本单位的。大家应该可以猜到:一个P是1000个T。

以目前的技术水平,很少有单个计算机可以处理这么大的数据量,也很少有单个储存设备可以有这么大容量。幸亏“云”的概念和技术正好在最近很成熟了,于是利用“云计算”和“云储存”的海量计算能力和海量储存能力,网络怪杰和网络企业家顺利的迈入“大数据时代”!

大数据的开发与应用有着三个特点:

1、数据样本,不再是抽样,而就是数据的总体。分析数据是把所有搜集到的数据包括在内。

2、数据不必百分之百地准确,不必剔除特例,而是从“海量”的数据中总结出绝大部分人的共同特性。用“绝大多数的特性”代表“总体的特性”。

3、不再注重数据之间的“因果性”,而只注重于它们之间的“相关性”。

在《大数据时代》中举了很多实例讲解以上的观点。

1、语言的翻译:

传统翻译软件是设定了很多的语法规则,用这些僵化的规则拆解每个句子,然后再逐字翻译生成不同语文的语句。但这往往使翻译出来的语句非常生硬拗口,甚至错误率极高。业界还盛传一个有关微软公司“机器翻译部门”的一个笑话:部门每有一个语言专家辞职,翻译质量就会提高一些。

谷歌的翻译软件却不是这么做,他们翻译团队的成员大多不但不是语文学家,甚至连翻译成的那种语言都一窍不通。他们都是一些统计学家,从大量的已存的翻译文章中对比,寻求规律,然后产生翻译的文字。事实证明虽然网上搜集来的翻译文章有不少是错误的,是低质量的,但由于数据量极大,这些错误自然就被忽略了,这种方法的确大大提高了翻译的质量和准确性。也就是说“不百分之百”精确的大数据用简单算法比精确的小数据用复杂算法要有效地多!

2、流感的预测

以前卫生单位发布流感成灾的信息,往往都是从各大医院和卫生所搜集来的数据,这个方法的最大缺点是“信息是滞后的”!是“灾”已成事实了,卫生单位才警告社会,这时已经有很多人被感染。

又是谷歌提出了不同的预测办法。他们是以有多少人搜索“咳嗽怎么办?”或“发烧怎么办?”来警示流感可能发生了!除了注意到搜索这些词语的频率大幅增高外,还可以锁定是哪个区域的人开始大量搜索这类问题的答案。于是谷歌就能提早告诉大众有流感开始盛行,而且传染区是向哪个方向迁移。这个项目使得卫生单位及早研制预防疫苗,及早控制疫情的扩散,大幅降低了流感的传播。

3、飞机票价高低和多早预购的关系

也许大家会直觉地认为越早买机票就越可以买到较便宜的机票。一家叫Farecast公司的创始人从他的亲身经验启发了一个新的服务。他发现坐他旁边的人比他晚好几天购买机票却比他的购买价格还低。于是他搜集了所有航空公司的票价与提前订购时间的数据关系,并建立了数学模型。现在我们任何人可以上到他的网站:farecast.com,输入你的出发地和目的地,加上你要出发的时间,马上这个网页能告诉你是现在就赶快买票还是再等几天才买。

时间: 2024-11-01 04:11:19

详细阐述大数据的起源与未来的相关文章

华大基因BGI Online负责人金鑫主讲:基因大数据的起源、现状与未来| 硬创公开课

随着基因测序价格以超摩尔定律的势态下降,其被广泛应用于基因组学研究.临床诊断以及多种疾病个性化治疗等领域.对此,业内人士认为,当今基因测序行业面临最大的挑战已不再是基因测序技术,而是处理巨大的数据量以及如何从巨大数据中获取临床指导.据雷锋网了解,生物信息分析服务是目前业界公认的最具发掘潜力以及盈利能力的环节,但目前国内还处于起步阶段. 那么,基因数据与其他数据有何异同?处理基因数据又何难点和挑战?基因数据的未来是怎样的?本次公开课,雷锋网AI掘金志栏目邀请了华大基因研发中心副总监金鑫,带来<基因

行业专家全方位全角度阐述大数据

本文讲的是行业专家全方位全角度阐述大数据,当前,行业对于"大数据"的关注疾速攀升,这并不亚于数据本身的增长程度.您是否想过,我们看到的"谈大数据色变"或许只是个表象,走在行业前列的企业早已开始默默挖掘大数据中蕴含的"金矿",为自己的业务飙升迈出制胜一步. 作为行业引领者,IBM一直走在新趋势的前沿,对于大数据更是全力融合创新技术与行业经验助力客户梳理大数据概念,选择战略方向,制定方案策略,实现行业落地:今年5月,IBM智慧的分析洞察正式发布,为大

马云:大数据云计算是阿里未来核心战略

本文讲的是马云:大数据云计算是阿里未来核心战略[IT168 云计算]北京时间10月8日晚间,阿里巴巴集团董事局主席马云和CEO张勇在年报致投资者的公开信中表示,全球化.农村经济和大数据云计算将成为阿里未来十年的发展大方向,并表示将不惜一切投入发展数据技术,让数据和计算能力成为普惠经济的基础. "狭义的电子商务仅仅是今天阿里巴巴集团战略的一部分."马云在公开信中表示,阿里巴巴的战略是打造未来商业社会的基础设施,电子商务只是整体战略的第一步,"我们非常明白只有依靠互联网技术和大数

大数据时代:预测未来5年各行业发展趋势

大数据及互联网思维给了人类做整体未来决策有了超越以往的前所未有的体系支撑,用今天大数据的思维去重新提升传统行业,将对已有行业的潜力再次挖掘,甚至彻底改变这一行业. 1.零售业 传统零售业对于消费者来说最大的弊端在于信息的不对称性.在<无价>一书中,心理实验表明外行人员对于某个行业的产品定价是心里根本没有底的,只需要抛出锚定价格,消费者就会被乖乖的牵着鼻子走. 而C2C,B2C却完全打破这样的格局,将世界变平坦,将一件商品的真正定价变得透明.大大降低了消费者的信息获取成本.让每一个人都知道这件商

“大数据”是重塑招聘未来的首要趋势

为了规划未来,您需要深入了解同行的情况,做到知己知彼. 本报告的宗旨正是如此,我们希望能为您这样的招聘负责人解读中国及全球最重要的招聘指标及趋势.本报告基于中国 278 位企业招聘负责人对问卷的答复. 所有受访者的职位都是经理或以上级别. 人才招聘在高管工作中占有重要地位.招聘负责人认为自己的部门正在帮助塑造公司的未来. 在中国,超过 90% 的招聘负责人认为人才是公司的头等大事. 招聘团队的任务较去年轻松,且今年注重招聘质量.只有 50% 的招聘负责人表示他们团队的招聘数量将有所增加,这一数字

大数据造车,未来之势还是噱头之谈?

文章讲的是大数据造车,未来之势还是噱头之谈,大数据,一个神秘却广为流传的名词,和前几年流行纳米概念一样,大大小小的行业开始涉足大数据的应用和处理,不管他们事实上到底对大数据有多少的掌握,只要是新型的事物和名词,在诸多行业都是一个赢得关注的吸引点,大家开始一窝蜂的涌入,然而又有几个最后做出了理论上和实践上经得起论证的东西呢? 当今的汽车相关产业,也是引领潮流或者被潮流引领的一大领域,中国有了大面积pm2.5污染,便有了很多厂商一股脑的用上了车内PM2.5过滤装置,然而很多人并没有用过,或者效果民泯

【开源访谈】 Kyligence 马洪宾:大数据的现在和未来

大数据经过这些年的发展,目前在社会层的接受情况如何?现阶段企业对大数据的主要需求体现在哪些方面?大数据领域未来会有怎样的发展方向?本期[开源访谈]邀请到 Kyligence 技术合伙人&高级软件架构师马洪宾,和大家聊聊大数据的现在和未来. [本期嘉宾] 马洪宾,Kyligence 技术合伙人&高级软件架构师,Apache Kylin 核心开发者和项目管理委员会成员(PMC),专注于大数据相关的基础架构和平台.毕业于上海交通大学计算机系.在工作于 Apache Kylin 之前曾经是微软亚洲

对话Hadoop之父Doug Cutting|大数据和开源的未来

前言 对中国大数据产业来说,2016年是从垂直领域野蛮生长到爆发全国范围关注热潮的一个转折点.不论是人山人海巨头云集的贵阳数博会,还是首次在华举办的全球顶级大数据会议Strata + Hadoop World,都揭示了中国大数据产业发展的澎湃动力. 在Hadoop生态领域,Cloudera是规模最大.知名度最高的企业,也是当前大数据领域最强有力的解决方案服务商之一.带着对中国大数据市场的满满诚意,Cloudera创始人.董事长兼首席战略官Mike Olson以及Hadoop之父.Cloudera

以大数据优化为基础构建未来就绪企业

引言 打造未来就绪的企业,并非以"预测未来"为前提,而是面向未来做好准备. 大数据真正的价值即在于为面向未来做好准备,帮助企业规避风险. 戴尔提供专门为大数据目标而设计的端到端体系架构,助力企业通过大数据获得商业洞察,面向未来就绪. 正如纳特·西尔弗(Nate Silver)在他的畅销书<信号与噪声>(The Signal and the Noise)中写的,预测未来是非常困难的,因为"我们选择性地忽略了最难以衡量的风险,即便这些风险对我们的生活构成了最大的威胁&