超级人工智能:大数据的未来?

  在百度大数据开放大会上,搞计算机学术理论的怀进鹏校长的演讲犹如给所有听众的一记闷棍,怀校长的学术演讲把大家弄得云里雾里,把所有人弄晕了,现场能够听懂的绝对是少数,可能都会觉得怀校长有点像个外星人一般在那自顾自的演讲。但我作为一个曾经有志从事人工智能研究但失之交臂的又是学计算机毕业的人却越听越兴奋,冥冥中似乎找到了未来的人工智能所能抵达的可能性,那么我现在就尝试把怀教授的演讲转换为人类也能够听懂的语言吧。

  一,理解大数据

  1,当前大数据的四大特征:规模大、变化快、种类杂、价值密度低。

  其实这理解起来很简单,我们来看新浪微博的大数据,为什么变现那么困难就知道了,新浪微博拥有庞大海量的用户大数据,但用这些行为数据变现却步履维艰,原因就在于微博上所产生的数据不够垂直,涉及面极广,而能够与商业相关的价值就更加难以挖掘了。

  2,产业成果

  怀校长列举了三块内容,百度和谷歌熟悉用户浏览行为,进而提供个性化的搜索。淘宝亚马逊因为熟悉用户购物习惯,可以为用户提供精准的喜好物品。微博和twitter了解用户思维习惯和社会认知,可以为国家和企业提供民众情绪等系列数据。

  二,实践中的思维转变

  大数据带给我们在研究以及实践策略上的思维转变。

  1,从抽样到全样,大数据的大决定了大而全的特性,在传统工业中教会我们做统计的最大方式就是抽样,诸如系统抽样,分层抽样,定额抽样......,这些统计方法将会在大数据时代越来越不复存在。大数据的信息化可以统计到一切想要统计的数据,将工业时代的统计方法淘汰掉。

  我们将会利用技术获得一切想要统计到的数据。

  2,从精确到非精确。关于这一点其实也很好理解,我们就拿传统时代的搜索来说,在传统的搜索时代,当我们去查询某个信息时,我们需要得到的是全部的数据,但是搜索引擎则完全改变了我们这种认识,搜索引擎提供的只是前几项内容,而这几项内容则完全满足了我们的信息需求。

  搜索引擎其实在做的是一套模糊算法,经过一系列的算法计算,将最优秀的结果带到用户面前,而这种结果上的呈现也颠覆了传统所认知的对于目标的定义,在大数据时代,我们追求的不再是绝对目标,而是一个从宏观趋势下推导出的一些模糊的不精确的未知目标。

  我们将追求无限的近似而不是绝对的正确。

  3,从因果到关联。而这也直接导致了西方又产生了惊人的言论—“理论已死”,这是继“上帝之死”,“人之死”,“作者已死”“历史的终结",“哲学已死”后的又一大胆的言论。以往的决策者要想决定某件事,必须参考各种理论,对其中的因果进行判定后才能达成,但是大数据时代则让决策变得更加容易,比如超市大数据可能会用清晰的图表告诉你每当下雨天时,超市里的蛋糕会卖的多,这时候决策者根本不需要知道任何理论,任何因果,只需要在天气预报预测明天将要下雨时提前准备蛋糕就行了。

  而这种只依赖相关性不再依赖因果性的决策思想,正在慢慢的渗透到拥有大数据的各行各业,互联网业,零售业,旅游业,金融业......

  三,大数据到大数据计算

  1,大数据膨胀,如何解决搜索问题?传统的算法在搜索数据时完全没有问题,因为数据量很小,但是当数据海量增长时问题就会凸显出来,用原来的算法去计算肯定是不行的,按照当前最快的硬盘检索速度(60GPS),线性扫描完1PB(10TB的15次方)的数据需要1.9天的时间,所以当数据海量膨胀时,必须重构算法策略来做数据的处理。百度目前的处理量是一天处理10PB的网页数据,这其中包括了运算和读取,算是目前最好的算法了。

  2,大数据膨胀,如何处理算法以及数据的问题?上面提到的是通过改变算法来达到遍历数据的目的,但是在真正处理数据时依然是无法做到高效的,毕竟机器CPU的运算瓶颈摆在那里,算法工程师本质上在做的事情就是在现有的运算条件下,设计出最优方案,来求得最好的结果。

  而怀校长告诉我们的这个挑战就是,在大数据的膨胀后,不仅要将原来的算法更换为近似算法,同样还要将数据更换为近似数据,只有二者合力改变才有可能在现有机器运算能力的情况下抵达最优的结果。

  同样是说起来容易做起来难,在这样的近似算法以及近似数据的改变下,到底该近似到何种程度,才能够最接近原算法的结果?要知道,在计算机世界里,差之毫厘失之千里,改变的量也许很小,但是如果一旦改错,就会造成巨大的错误结果,稍懂程序的人都知道,几行简短的代码就能让无论CPU运算能力多强的电脑彻底死机,而搜索引擎则更是一个更加庞大的试错工程。

  最后,怀校长展示了两个学术前沿发展,第一,是定义易解类问题,从现实应用中找到这类易搜索问题,将之归类并应用于其他实践当中。第二,是将大数据进行小数据处理,寻找转化的精度度量,也就是他之前所说的寻找数据的近似值。

  写完这段不禁感慨,其实算法工程师本质上是在机器CPU条件不够的情况下为满足大众需求的博弈,机器的配置条件永远无法跟上人类的需求,而为了满足人类需求,算法工程师们必须绞尽脑汁的去设计在现有条件下能够产出的最优答案,而不是考虑标准答案。而这又让我想到了深蓝电脑击败国际象棋大师的事情,事实上只要是懂一些程序的人甚至连我也都可以写出一套能够击败任何国际象棋大师的算法,只不过要想下完一局棋可能要用尽棋手一生时间都不止,因为CPU的运算速度无法跟上想法。所以深蓝电脑的胜利本质上不是人工智能赢了,而是工程师在设计最优算法的策略上赢了。

  此外在大数据计算中,怀校长还讲了大数据运算的三大基础,表示,度量和理解。因为太过专业,解释每一个词都足够用一篇文章来解释,而且还不一定说得清,所以在此略过。

  四,大数据软件工程

  作为学软件工程出生的人,当我看完怀校长对大数据软件的演讲后有一种莫名的伤感,因为我预见到我曾经所学的软件工程必将被大数据全部重构,绝大多数的软件都可能走向为大数据软件,这就好像网页崛起后,网页软件的数量将大幅超过PC软件一样,又像智能手机崛起后,APP软件的数量开始远超网页软件一样,等到硬件设施成熟之后,未来的软件开发也必将会是大数据的天下。追溯软件工程的起源,这是在计算机硬件条件稳定后,为了解决效率问题而从工程学的角度来建立的软件开发方式,分工明确,进度安排明确,和其他工业生产别无二致。但怀校长接下来的演讲中,我们可以窥见到,软件工程有可能会走向另一种模式。

  1,如何解决大数据的计算支撑问题?说的简单点就是,大数据处理必然不是一台或者几台服务器就能搞定的小事情,大数据处理需要庞大的硬件支撑,硬件支撑也必然是分布式的设计,那么该如何设计顶层的系统架构才能高效能的满足大数据的处理工作?近似性(Inexact)、增量性(Incremental)和归纳性(Inductive)的3I特征如何被满足?

  大数据下分布式硬件如何与软件协同,如何避免扩展失度,处理失效和耗能失控,这些都是令人头大的问题。在系统设计上充满挑战。

  2,众包大数据是否可以开发软件?这其实是一个非常疯狂的想法,我是这样解读怀校长的想法的,假设目前我们可以做到众包大数据软件开发,那么情形应该如下:大数据爬行机器根据读取新浪微博的数据,百度指数的数据,百度贴吧的数据,淘宝的交易数据……后,发现了用户的各种情绪以及需求的曲线,软件开发者再根据这些数据的呈现开发出一套软件的模型然后交给运营商放置于云端,而用户再参与进入各种云端产生的软件,在此种产生了各种行为,于是机器再根据这些用户的行为,为软件建模,规划。

  这是一种极为精尖交互式数据挖掘技术,前提是解决算法以及存储问题,一切皆有可能。未来的大数据软件将不会是一种固有形态,而是一个不断根据数据自动变化的超级生态,可能不是依靠产品经理推动,而是依靠算法工程师来推动,让用户的需求自然暴露,然后为他们去实现一些功能。

  而我从一个更高的哲学层面来看这样的大数据软件建构,如果我们将全人类的群体行为看成是不断运作产生的数据,然后我们某些个体从中把握了某些东西进而产生了各种产品,再回过来看这样的大数据软件架构,其实说到底,这样的大数据软件,其实更像是在将我们的世界还原出来而已,只不过会比人做出来的更快更厉害更加完美。

  如果真的能够实现这样的大数据软件建构,那么目前对大数据的某种定义将被完全推翻,在我们眼里大数据不过是用来固定的人类信息行为后为人类辅助的决策工具,这样的观点也将失效。大数据或许会在未来某个阶段被定义为:对人类世界的真实还原,并且不断的满足我们的任何愿望,曾经我们依靠它来决策一些事情,现在我们依靠它来直接抵达我们想要做的事情,我们所有的行为都已经成为我们决策的一部分。

  这其实就是超级人工智能了。

  结语:怀校长的演讲在开头部分讲了大数据在这个时代对我们传统思维的冲击,一些价值观的建立,但是接下来讲的更多的不是已经成型的科研成果,更多的是抛出问号,抛出还没有解决的难题,以及一些失败的尝试,还有一些没有开始尝试的假设,这在表面上看来似乎与本次演讲的主题有些唱反调的样子,但仔细想想却又明白,CPU的计算能力永远达不到这些最顶级的科研人员想要的高度,而计算机科学家们永远只能在现有的条件下做困兽斗,做出在这个时代所能赋予的条件下最漂亮的成绩,而这就是他们一生所追求的使命。

  感谢怀校长的精彩演讲,让我们看到了未来的零星火花,很美。

  原文链接:http://www.huxiu.com/article/32717/1.html?f=wangzhan

时间: 2024-12-02 00:25:04

超级人工智能:大数据的未来?的相关文章

大数据服务及未来——人工智能+大数据生态模式

2012年大数据是个流行词,没想到4年过后,在一些大数据论坛上还有人会说"如果我有大数据,我会怎样怎样--."好吧,如果还停留在如果上,就不该随便上论坛演讲,讲不好说不准工作都没了.现在大数据挖掘的技术都很成熟,更完善更系统的解决方案早已有人做得非常好.如果连数据都还没有,那就什么都不用提了.毕竟,人工智能+大数据的生态模式已经开启. 7月初,据外媒福布斯报道百度将人工智能+大数据为中国政府采集数据提供支持.7月13日,李彦宏在百度的开放云战略发布会上首度公开百度开放云"人工

10个观点 指引大数据产业未来发展方向

文章讲的是10个观点 指引大数据产业未来发展方向,大数据的"炒作"期从2013年慢慢步入成长期,2016年大数据产业还在经历蜕变.而16年也是大数据产业规模明显增长的一年.技术与应用的创新,政府需求的推动,行业应用大热都在这一年显而易见. 2016年底工信部正式发布<大数据产业发展规划(2016-2020年)>,规划的提出为我国大数据产业崛起指明了方向.其中规划目标到2020年,大数据相关产品和服务业务收入突破1万亿元;建设10-15个大数据综合试验区,创建一批大数据产业集

人工智能+大数据 首个自动驾驶平台诞生

文章讲的是人工智能+大数据 首个自动驾驶平台诞生,在2016百度世界大会上,百度公司创始人.董事长兼首席执行官李彦宏先生与NVIDIA联合创始人.总裁兼首席执行官黄仁勋先生共同表示,双方将达成合作,共同创建从云端到汽车的自动驾驶平台,该平台将向中国乃至全球的汽车制造商开放.依托双方在人工智能领域的丰富的经验与专业知识,此次合作结合了百度云平台.地图技术和NVIDIA汽车人工智能计算平台. ▲NVIDIA CEO 黄仁勋 黄仁勋表示:"百度与NVIDIA的合作将带来世界上首个端对端.由地图到汽车的

大数据的未来–个人信息/情报/认知服务的思考

1.未来大数据的一切都都关于人 -不论述 2.大数据收集困难和高风险 现在的大数据的来源,都是通过自有平台收集用户数据的,对于没有平台的企业很难有机制和渠道获取稳定的数据来源. 有说通过法律和制度来,规范关于人的大数据使用,在这之前,唯一可行的方向是,把用户大数据使用,做成服务的必选功能,要使用服务,必须接受隐私风险. 3.对大数据的利用方式 现在的大数据 都是由各种数据聚合出一类关于人的结论 然后拿给企业使用. 我想大数据应用还有另一类. 利用网上的大数据,告诉某类人.甚至某个人,世界发生着什

互联网已死-大数据的未来在哪里?

一.大数据的未来在哪里 1.互联网已死 大数据的未来在哪里?以BAT为代表的互联网公司之外是否还会有新的互联网巨无霸诞生,基于技术和资本两方面的考虑,几无可能,未来的互联网世界只能是一个几家独大,行业细分的市场,新生互联网公司的机会在于细分,而不在于挑战传统互联网巨无霸.具体到大数据应用来讲,大数据在互联网行业的应用也必将是一个行业细化的过程,而BAT的触角几乎无处不在,新公司的崛起任重而道远,大数据发挥价值的空间也就变成了BAT手中的玩具. 2.传统行业才是大数据的春天 大数据向传统行业的渗透

大数据市场未来将呈现三大发展趋势

随着移动互联网.物联网等的迅速发展,新数据源不断出现,而中国数据总量的不断增长,使大数据成为一种重要资源,有利于推动零售.旅游.医疗.金融.电信.政府公共服务各个领域的业务创新. 大数据转变企业商业模式 来自于线下大数据市场(IT企业的大数据应用及大数据平台业务市场)中IT巨头和单一大数据业务的厂商开始行动,优化产品和服务路线图;线上大数据 市场(互联网用户数据市场,以及以互联网金融为主的线上金融市场)的成熟度逐渐提高,以金融和零售为核心的线上大数据应用走向成熟,市场体量进一步扩大. 企业着力培

大数据预测未来五年最热行业

日前,全球最大的职场社交平台LinkedIn(领英)基于其平台数据分析发现,十年前的热门行业现如今早已热度不再,而数据科学家.新媒体专员等以前几乎不存在的冷门职业却日渐成为时代的新宠.因此,考生及家长在填报志愿时,与其紧盯住当下最热专业不放,倒不如结合自身能力及兴趣进行专业选择. LinkedIn根据大数据对未来五年的行业发展进行了预测,总结出了八大极具发展潜力的最热行业:电商.新媒体营销.大数据服务.云计算服务.VR.UI设计.私人旅行定制和微电影策划.其中,部分行业已经成为当下人们职场热门,

大数据技术 未来发展前景及趋势分析

文章讲的是大数据技术 未来发展前景及趋势分析,在过去几年里,大数据技术已得到广泛关注.在这一领域,有几个趋势和创新正悄然发生.本文整理了您目前正在使用或未来将要使用的大数据的新趋势和变化. 流大数据分析 · Storm: Apache Storm是一种开源的分布式实时计算系统.Storm加速了流数据处理的过程,为Hadoop批处理提供实时数据处理. · Spark: Spark是一个兼容Hadoop数据源的内存数据处理平台,运行速度相比于Hadoop MapReduce更快.Spark适合机器学

Hadoop没有消亡,它是大数据的未来

文章讲的是Hadoop没有消亡,它是大数据的未来,人认为 Hadoop 正在失败,但硅谷数据管理公司 Hortonworks 的总经理 Vamsi K. Chemitiganti 并不这么看,为了反驳此前一篇文章<为什么 Hadoop 正在消亡?(Why Hadoop is Failing)>的观点,他在自己的博客上写了一篇论述自己看法的文章,他认为达尔文式的开源生态系统正在确保 Hadoop 成为稳固和成熟的技术平台. 「女士,那么刚出生的孩子能干什么?」--迈克尔·法拉第,在 18 世纪被

坚持以人为本才是大数据的未来

以人为本是大数据的未来 随着互联网的发展,大数据.云计算以及智能化的广泛应用,大数据等这些"高.大.上"和虚无缥缈的"云"端词语已经开始从安防等专业领域开始走向了千家万户.只是很多消费者并不知道大数据和云计算这个概念而已.但是实际上大数据和我们的生活已经如影随形.网上购物消费.出门打车等大数据已经广泛的影响我们的生活并改变这我们的生活方式. 特别是智能手机和无线wifi的兴起,让大数据如虎添翼.每个人都心甘情愿地成为大数据的附庸,而且毫无怨言,甚至无声无息,并乐此不