金融时报:天气与GDP 论大数据处理的局限

海外网2月24日电

英国《金融时报》2月24日刊登题为《大数据处理的局限》的文章,全文摘编如下:

周一,法国南部又在下雨。

不过,此前一天却是晴天。

上周三也很干燥,但随后的周四到周六差不多一直在下雨。

让人稍感安慰的是,对于暴风雨和晴天之间的时间间隔,几天前就已有了精确的预报。这正是我为何在周一而不是前一天写这篇专栏文章的原因。如今天气预报的准确性已经大大改善了。

英国广播公司(BBC)再一次公布了其历史上最糟糕的那次天气预报。1987年,迈克尔·菲什(Michael Fish)曾在电视上向观众保证,飓风即将到来的谣言是毫无根据的。然而,几小时之后,几十年不遇的大风席卷了整个英国,掀翻了各地的屋顶,吹倒了许多大树。

不过,现在出现这种乌龙的可能性小多了。短期天气预报是大数据领域的一项巨大成就—也许是最大的一项成就。超级计算机提供了大数据处理的机遇,其所处理数据集合的规模和复杂度都令人难以置信。据我所知,最新的超级计算机能处理1EB(艾字节,指2的60次方字节—译者注)的数据,大约是我手头这台苹果公司(Apple)的Mac机处理能力的2000万倍。英国气象局(British Meteorological Office)声称,比起菲什那个年代最成功的预报,如今的三天期天气预报和当时的一天期预报一样准—不过,要想描述预报能力的提高程度,这可能不是一种最令人信服的方式。

然而,一个依然存在的事实是,预报时间提前得越多,预报准确度下降得越厉害。天气预报人员能向我们提供今明两天足够准确的预报。对于更长时间,他们仍然不能准确预报。两者之间形成了鲜明对比。比如,今年冬天异常的天气状况就在预料之外。

预报短期的天气状况是可能的。这是因为从某种意义上说,决定明天天气状况的多数因素已经出现了。如果你去YouTube网站上看看菲什那次灾难性预报的视频,你会在他给出的图上看到引发1987年飓风的超低气压区。当时的预报员只是在分析现有数据时出了错。只要提高分析能力,这种错误出现的可能性就会降低。不过,如果你预测的时间更提前一些,你会遭遇一个难以应对的问题:在非线性系统中,如果初始条件发生细微变化,时间过得越久,结果发生的变化就越大。在这种情况下,对初始状况了解得不够全面根本就和一无所知是一回事。

这个道理在很大程度上对经济和商业领域也是适用的。就像明天下不下雨或1987年飓风的问题一样,对于明天的国内生产总值(GDP)将是多少的问题,答案或多或少已经摆在了那里:明天的产品已在生产之中,明天的商品已摆上货架,明天的业务已安排妥当。大数据处理将有助于我们分析这类信息。借助大数据处理,我们将更准确、更迅速地知道GDP是多少,我们将能更成功地预测下季度的产出,我们的前景预测需要调整的次数将会更少。

在大数据处理的帮助下,对冲基金经理人将能在英国国家统计局(Office for National Statistics)自己都不知道统计数字之前,准确预测出他们将发布什么样的数据。实现这一目标能为他们自身带来极大的盈利能力,但对社会来说没什么用。大数据处理能令他们得到非常全面的信息,其全面性不亚于英国央行货币政策委员会(MPC)调整利率时手头持有的信息。不过,大数据处理无法帮助他们了解货币政策委员会将做出何种决策。也无法帮助他们了解美国财政部长汉克 鲍尔森(Hank Paulson)和雷曼兄弟公司(Lehman Brothers)首席执行官迪克 富尔德(Dick Fuld)对于该行即将出现的破产将如何应对。

大数据有助于我们理解过去和现在。然而,它能在多大程度上帮助我们理解未来,要取决于未来在多大程度上通过某种相关性被包含在现在之中。这种相关性要求事件背后的运转机制恒定不变。对于部分物理过程来说,这一原则是成立的。而对于这个包括了希特勒(Hitler)和拿破仑(Napoleon)、亨利 福特(Henry Ford)和史蒂夫 乔布斯(Steve Jobs)的世界来说,这一原则永远都不成立。在这个世界里,那些做出重大决策或发现的过程拥有先天的不可预测性,也无法进行定量描述。

在这个世界里,少一枚钉子也能输掉一场战争,问题描述中的细微差别也能导致大相径庭的结果。对于这样的世界,以上原则也是不成立的。不过,在大数据处理的帮助下,我知道明天将再一次阳光普照。

译者/简易

(责任编辑:蒙遗善)

时间: 2024-11-05 20:33:55

金融时报:天气与GDP 论大数据处理的局限的相关文章

观点:Hadoop并非大数据处理的一切

云计算的伟大之处就在于在进行大数据处理时不必再向以往一样购买大量的服务器集群,租用服务器处理大数据更加利用控制成本.Hadoop作为一个重量级的分布式处理开源框架已经在大数据处理领域有所作为,企业希望利用Hadoop来规划其自身未来数据处理的蓝图.从EMC.Oracle到Microsoft,几乎所有高科技厂商都在过去几个月中宣布了自己以Hadoop为基础的大数据战略.现今Hadoop已经成为IT商场吸引客户的热点词汇. Hadoop的成长得到了个人开发者.初创公司和大企业的支持.这也给予用户长时

Hadoop并非大数据处理的一切 - 产品和技术

Hadoop并非大数据处理的一切 发布时间:2012.05.30 15:48      来源:赛迪网     作者: 云计算的伟大之处就在于在进行大数据处理时不必再向以往一样购买大量的服务器集群,租用服务器处理大数据更加利用控制成本.Hadoop作为一个重量级的分布式处理开源框架已经在大数据处理领域有所作为,企业希望利用Hadoop来规划其自身未来数据处理的蓝图.从EMC.Oracle到Microsoft,几乎所有高科技厂商都在过去几个月中宣布了自己以Hadoop为基础的大数据战略.现今Hado

大数据处理平台——hadoop能为企业带来什么?

现在,"大数据"这个概念在IT行业是越来越流行了.美国国家海洋与大气管理局NOAA利用"大数据"进行各种分析.<纽约时报>使用大数据对于新闻分析和WEB信息进行挖掘.迪斯尼则利用主题公园.商店以及WEB资产进行客户http://www.aliyun.com/zixun/aggregation/9850.html">行为分析. "大数据"不单单只是适用于大型的企业,而且还可以应用于各个不同规模的,不同杨业的企业.比如通过

如何低成本、高效率搭建Hadoop/Spark大数据处理平台

随着人们逐渐认识到 "大数据"的价值,互联网.电商到金融业.政企等各行业开始处理海量数据.如何低成本.敏捷高效地搭建大数据处理平台,成为影响大数据创新效率的关键. 为了让用户以最简便地方式享用阿里云全球资源,在云端构建敏捷弹性.高可靠和高性价比的大数据平台,近日,阿里云在成都云栖大会上发布了一款Hadoop/Spark场景专用的ECS存储优化型实例D1规格族,单实例提供最高56核CPU,224GB内存,168TB本地盘容量,5GB/S总吞吐,PPS达120万+.这对Hadoop/Spa

省时省事省力 巧用阿里ECS D1构建大数据处理平台

随着人们逐渐认识到 "大数据"的价值,互联网.电商到金融业.政企等各行业开始处理海量数据.如何低成本.敏捷高效地搭建大数据处理平台,成为影响大数据创新效率的关键.   为了让用户以最简便地方式享用阿里云全球云资源,在云端构建敏捷弹性.高可靠和高性价比的大数据平台,阿里云在云栖大会·成都峰会上正式推出了Hadoop/Spark场景专用的ECS存储优化型实例D1规格族,充分满足泛互联网行业.金融.电商.政企等行业等搭建大数据存储与计算分析平台的要求,真正意义上做到了"省时省事省力

In-Stream Big Data Processing译文:流式大数据处理

转自:http://blog.csdn.net/idontwantobe/article/details/25938511  @猪头饼 原文:http://highlyscalable.wordpress.com/2013/08/20/in-stream-big-data-processing/ 作者:Ilya Katsov 相当长一段时间以来,大数据社区已经普遍认识到了批量数据处理的不足.很多应用都对实时查询和流式处理产生了迫切需求.最近几年,在这个理念的推动下,催生出了一系列解决方案,Twi

运用大数据处理技术 做好国有企业思想政治工作

在全面深化企业改革和互联网全面普及的新形势下,国有企业思想政治工作面临着许多新情况,国有企业要勇于挑战自我.求新达变,积极推进思想政治工作理念创新.手段创新,要善于运用计算机大数据处理技术,积极构建大数据思想政治工作管控体系,确保职工队伍稳定,使企业思想政治工作焕发出勃勃生机,为企业改革发展提供强有力的思想保障. 运用大数据搭建思想政治工作新平台 针对思想政治工作面临的新情况,国有企业要勇于创新,积极确立"用数据链筑牢生命线"的新理念新思路,立足企业内部网络,运用大数据处理技术,创新做

azure-如何在Azure上部署大数据处理应用

问题描述 如何在Azure上部署大数据处理应用 1.看到Azure上有Hadoop,当不知道怎么用 2.由于本地资源有限,我想通过Azure搭建MapReduce 应用,进行数据处理学习应该如何做 解决方案 azure直接支持hadoop,直接就可以用.官网上有文档 解决方案二: http://database.51cto.com/art/201403/432607.htm

用Apache Spark进行大数据处理—入门篇

文章讲的是用Apache Spark进行大数据处理-入门篇,Apache Spark 是一个围绕速度.易用性和复杂分析构建的大数据处理框架.最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一. 与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势. 首先,Spark为我们提供了一个全面.统一的框架用于管理各种有着不同性质(文本数据.图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求. Sp