李彦宏:特地为大数据引擎现身站台

在昨日(4月24日)的百度技术开放日上,李彦宏现身并推出了百度大数据引擎。这在百度,充分表明对相关产品最高的重视了。

这个发布是什么意思呢?简单地讲,大数据引擎将百度在大数据的数据、能力和技术开放给行业,行业可以近身距离甚远的大数据盛宴,百度则寻到了一个新的增长点。

大数据引擎三件套

百度大数据引擎一共分三个部分。

开放云:百度的大规模分布式计算和超大规模存储云。过去的百度云主要面向开发者,大数据引擎的开放云则是面向有大数据存储和处理需求的“大开发者”。

百度的开放云拥有超过1.2万台的单集群,超过阿里飞天计划的5k集群。百度开放云还拥有CPU利用率高、弹性高、成本低等特点。百度是全球首家大规模商用ARM服务器的公司,而ARM架构的特征是能耗小和存储密度大,同时百度还是首家将GPU(图形处理器)应用在机器学习领域的公司,实现了能耗节省的目的。

数据工厂:开放云是基础设施和硬件能力,你可以把数据工厂理解为百度将海量数据组织起来的软件能力。就像数据库软件的位置一样。只不过数据工厂是被用作处理TB级甚至更大的数据。

百度数据工厂支持单词百TB异构数据查询,支持SQL-like以及更复杂的查询语句,支持各种查询业务场景。同时百度数据工厂还将承载对于TB级别大表的并发查询和扫描,大查询、低并发时每秒可达百GB,在业界已经是很领先的能力了。

百度大脑:有了大数据处理和存储的基础之后,还得有一套能够应用这些数据的算法。图灵奖获得者N.Wirth(沃斯)提出过“程序=数据结构+算法”的理论。如果说百度大数据引擎是一个程序,那么它的数据结构就是数据工厂+开放云,而算法则对应到百度大脑。

百度大脑将百度此前在人工智能方面的能力开放出来,主要是大规模机器学习能力和深度学习能力。此前它们被应用在语音、图像、文本识别,以及自然语言和语义理解方面,被应用在不少App,还通过百度Inside等平台开放给了智能硬件。现在这些能力将被用来对大数据进行智能化的分析、学习、处理、利用。百度深度神经网络拥有200亿个参数,是全球规模最大的,它拥有独立的深度学习研究院(IDL)和较早的布局,在人工智能上百度已经快了一步,现在贡献给业界表明了它要开放的决心。

大数据引擎可以干嘛

百度将基础设施能力、软件系统能力以及智能算法技术打包在一起,通过大数据引擎开放出来之后,拥有大数据的行业可以将自己的数据接入到这个引擎进行处理。同时,一些企业在没有大数据的情况下,还可以使用百度的数据以及大数据成果。

从架构来看,企业或组织也可以只选择三件套中的一样使用,例如数据存放在自己的云,但要运用百度大脑的一些智能算法应该也是支持的。

举几个例子可能你更加清楚百度大数据引擎究竟是什么。

许多政府部门拥有海量大数据——大数据经典之作《大数据》也是在讲美国政府的大数据。但政府部门几乎都没有大数据处理和挖掘技术。交通部门有车联网、物联网、路网监控、船联网、码头车站监控等地方的大数据,卫生部门拥有流感法定报告数据、全国流感样病例哨点监测和病原学监测数据,公安部门有大量的视频监控数据。如果这些数据与百度的搜索记录、全网数据、LBS数据结合,在利用百度大数据引擎的大数据能力,则可以实现智能路径规划、运力管理、流感预测、疫苗接种指导、安防追逃等等。

许多企业也拥有海量大数据——通信、金融、物流、制造、农业等行业。不过,它们几乎都没有大数据能力,坐拥海量数据却一筹莫展。这时候如果能够应用百度大数据引擎,则可以对海量数据进行可靠低成本的存储,进行智能化的由浅入深的价值挖掘。在百度技术开放日上,中国平安便介绍了如何利用百度的大数据能力加强消费者理解和预测,细分客户群制定个性化产品和营销方案。

可以看出,大数据引擎的输入实际上是百度拥有的大数据以及行业已有的大数据,而输出则是各种行业应用成果,也就是大数据的“价值”。

与一些类似项目的对比

在百度之前,业界已经有一些类似的思路,即有一些大数据能力的企业视图将自己在基础能力或者软件方面的优势释放出来。

Google:

大数据时代的奠基者。对应到百度开放云,它有举世闻名的数据中心以及基于Colossus的云;对应到百度数据工厂,Google近年来为迎接大数据时代不断改造核心技术,包括比MapReduce批处理索引系统搜索更快的Caffeine,专为BigTable设计的分布式存储Colossus比GFS还要先进,Dremel和PowerDrill管理和分析大数据,以及Instant和Pregel。对应到百度大脑,Google提供的大数据分析智能应用包括客户情绪分析、交易风险(欺诈分析)、产品推荐、消息路由、诊断、客户流失预测、法律文案分类、电子邮件内容过滤、政治倾向预测、物种鉴定等多个方面。技术有Big Query、趋势图等。

可以说Google与百度的思路最为接近,不过Google目前还未将它的大数据能力打包起来以一个新“引擎”的方式共享。毫无疑问,这在不久之后就会发生。

亚马逊:云计算的奠基者。亚马逊是IaaS(基础设施即服务),与阿里云非常相似。亚马逊在用户交易、个人偏好、经济领域的大数据能力可能比Google还要优秀,也被一些人视作这是亚马逊与Google竞争的唯一机会。亚马逊目前更多还是在云领域做贡献,虽然也有Redshift的方案,但在数据工厂和人工智能的开放上进展慢一些。

阿里巴巴:

亚马逊对应回中国自然是阿里巴巴。阿里云是国内最早的独立运作的云部门。数据则是阿里三大核心战略之一,大数据也被摆到了阿里十分重要的位置,不懂技术的马云经常谈及大数据都有人调侃他应该改名Data Ma。阿里在大数据基础设施领域确实取得了突飞猛进的进展,飞天、Apsara、跨机房5K集群都是知名的大数据项目,应对双十一、余额宝规模取现预测、广告业务高速增长等业务场景也证明了阿里的大数据能力。

阿里大数据的思路便是做大数据的集市,让阿里系之外的大数据能够跑在阿里苦心搭建的大数据机器上运转起来。不久之前阿里与东软合作,后者的业务未来都将部署在阿里云。这意味着东软客户的数据很可能会进入阿里的大数据体系。可以确定阿里将会推出类似大数据引擎的平台,将大数据能力完全开放出来。

相比百度,阿里在“数据工厂”这块应该是各有所长,在数据基础领域以及业务理解方面有着电商领域的专注,但人工智能这块跟百度比肯定会有不小差距。语音、图像和自然语言理解,阿里并没有多少积累,它更擅长处理结构化的数据。

其他电商玩家如京东和苏宁也有类似的云,与阿里和百度完全不在一个级别就不比较了。

Salesforce等软件公司:

Salesforce近两年收购了超过5家与社交大数据相关的营销公司,目的是获取更多的数据。其他的软件厂商和方案厂商也有大数据引擎方面的布局,EMC、Oracle有对应的大数据处理软件,IBM有大数据行业方案,英特尔入股大了数据初创企业Cloudera,Cloudera推出的Impala比GoogleDremel还要快。Intel还推出了基于Hidoop的“大数据引擎”,加州伯克利大学AMPLab开发了名为Shark 的大数据分析系统。

回到国内,华为在去年发布了大数据平台产品FusionInsight,还有百分点科技这样的基于大数据的推荐服务公司。而“天河2号”等独立超级计算机也对外宣称它们的超级计算能力将会逐步开放出来。

不过,软件公司、方案公司以及超级计算机都无法做到像百度一样将大数据作为一种云端能力打包开放出来,也无法同时具备基础设施、数据工厂和智能算法的开放能力。尤其是“百度大脑”这部分,很少有其他具备这样的“数据智能”的能力。

百度将用互联网的方式来做开放的大数据引擎。它不可能采取与软件方案公司一样的“一竿子买卖”方式进行合作。而是将大数据引擎做成一个开放平台,形成标准的接口,让每个行业不同企业可以根据自身需求各取所需。而它的首要目的是获取数据,然后是考虑变现。

变现方式可能是增值服务、收费云、数据分析结果、技术咨询等方式,这将改变百度盈利模式过渡依赖“搜索广告”的现状。有消息称,大数据已经给Google每天带来2300万美元的收入,一年约为82亿美元。这已经远远超过百度2013年51亿美金的年收入了。因此,如果百度大数据引擎能够成功,很可能会为之带来源源不断的数据以及现金流。

文章相关课程
深入浅出Hadoop实战开发(HDFS实战图片、MapReduce、HBase实战微博、Hive应用) .NET平台下大数据高并发系统架构实战方案(LVS负载均衡、Mysql主从复制) 基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析

时间: 2024-09-23 01:39:50

李彦宏:特地为大数据引擎现身站台的相关文章

李彦宏的启迪:大数据从火到活是个慢动作

泡泡网资讯频道5月30日 "有价值的数据,不是无用的信息爆炸,而是有价值的慢数据,可以预测个性化信息的数据."这或许是2014年百度联盟峰会李彦宏发出的最掷地有声的大数据言论,当然,还有他提及的新企业级软件建言. 在此之前,大数据的火让外界一度将其捧上了云端,李彦宏的思路或许给外界仰视的目光至俯视的疑虑:在大数据的概念火完之后,如何让大数据先流动起来才具有普世意义.这座"金矿"的挖掘注定是一场革命性颠覆,而颠覆永远会是个慢动作. 末端对于入口的反哺究竟有多大? 大数

李彦宏抛出大数据战略,百度开辟新战场

在日前的百度大数据技术开放日上,李彦宏发表了简短讲话作为开场,揭示了技术发展量变和质变之间的关系.作为曾赴美学习人工智能的博士,李彦宏认为,人工智能在他作为专业来学时,已有半个多世纪的发展历程,应用价值并不高,但在当下大数据技术兴起的背景下,这项技术正面临着向质变突破的临界点,因此他呼吁在座的人要做好准备,积极迎接未来. 百度随后公布了自身的大数据发展情况,推出了百度大数据引擎.虽然没有高度凝练的一句话战略,但其未来方向已贯穿在整个讲解过程中,那就是,用数据合作的方式来帮助和改造传统行业,并逐步

李彦宏期望的大交易到来的略晚了一些

摘要: 李彦宏期望的大交易到来的略晚了一些. 五月初,百度宣布以3.7亿美元收购PPS视频业务,并与旗下爱奇艺合并.这笔重量级交易也意味着行业老大优酷土豆迎来了最强有力的竞争对手: 李彦宏期望的大交易到来的略晚了一些. 五月初,百度宣布以3.7亿美元收购PPS视频业务,并与旗下爱奇艺合并.这笔重量级交易也意味着行业老大优酷土豆迎来了最强有力的竞争对手:合并后的新爱奇艺在年营收.月活跃用户居行业次席,但在PC时长.日活跃稳居行业首位,尤其在移动端安装量远超过优酷土豆. 然而,少为人知的是,百度的抢

《芭莎男士》对话李彦宏:技术偶像的引擎策动

中介交易 SEO诊断 淘宝客 云主机 技术大厅 核心提示:Robin是李彦宏的英文名,也许在弱肉强食的互联网丛林中,只有像罗宾汉那样的人物才能生存下来. 导语:互联网把世界带入了另一个时代:一个不需要战争.不需要政治就可以成就一个人的"全球影响力"的时代.在刚刚出炉的<TIME>和<Forbes>分别评选的"2010年全球最具影响力人物榜单"中,李彦宏都位列其间,美国人对他的描述是这样的:李彦宏的全球影响力在于,他是新一代商业领袖的代表,他个

李彦宏:企业级软件和大数据是未来趋势

29日,百度集团CEO李彦宏在http://www.aliyun.com/zixun/aggregation/33721.html">2014年百度联盟峰会上预测,企业级软件和大数据是未来五年或者更长时间里两大行业趋势. 在进行预判前,李彦宏坦言,"我天天都在想我们要做什么,我想要做的我不愿意告诉大家,我愿意告诉你们的又是我不想做的,我不想做的A和T想不想做呢,我估计他们也不想做,我要预测的是未来5年会有很大发展.但BAT又不想做的." 第一,企业级软件 李彦宏表示,企

李彦宏称百度和腾讯阿里巴巴不存在主要矛盾

3月28日下午消息,由深圳市政府与数字中国联合会共同主办的2010中国(深圳)IT领袖峰会今日在深圳五洲宾馆举行,百度CEO李彦宏表示,百度和腾讯.阿里巴巴之间的虽然存在竞争关系,但不存在主要矛盾. 在今天下午举行的互动论坛上,百度CEO李彦宏谈及互联网大公司之间相互"入侵"的现象时表示,和腾讯以及阿里巴巴这样的公司虽然存在竞争关系,但这并不是发展的主要矛盾. "百度十年的历史,这中间我们换过很多很多个所谓的竞争对手,我觉得主要还是我们自己把该做的事情做好了,才会有一个好的发

李彦宏为什么会为大数据引擎站台?

中介交易 SEO诊断 淘宝客 云主机 技术大厅 在4月24日的百度技术开放日上,李彦宏现身并推出了百度大数据引擎.这在百度,表明对相关产品最高的重视了. 这个发布是什么意思呢?简单地讲,大数据引擎将百度在大数据的数据.能力和技术开放给行业,行业可以近身距离甚远的大数据盛宴,百度则寻到了一个新的增长点. 大数据引擎三件套 百度大数据引擎一共分三个部分. 开放云:百度的大规模分布式计算和超大规模存储云.过去的百度云主要面向开发者,大数据引擎的开放云则是面向有大数据存储和处理需求的"大开发者"

李彦宏为何看好企业软件?因为云服务和大数据

在前不久的百度联盟峰会上,李彦宏提出两个趋势,一个是对中国企业级软件市场的看好,另一个则是大数据与智能硬件.李彦宏说这两个领域是BAT不会涉足的,不过笔者认为这只是烟雾弹.鉴于百度拥有大量的企业客户资源.基于百度云的技术基础以及百度进军O2O和传统行业的战略,几乎可以肯定企业级软件将是百度接下来的重攻领域. 企业级软件市场规模巨大 "企业级软件"是指支撑企业信息化需求的软件总称.比较典型的有企业办公软件.企业应用系统(CRM.ERP.BSS.BOSS).企业杀毒及防火墙.VPN客户端.

李彦宏:大数据技术已经到了变革临界点

在近日举行的百度第四届技术开放日上,百度董事长兼CEO李彦宏表示,技术创新是一个从量变到质变的过程.随着互联网的发展,大数据当前已走到技术变革的临界点. 在此次大会上,李彦宏表示,在过去这些年中,互联网在改变着中国.而未来的一个趋势,则是技术将在很大程度上改变互联网,因此必须及早对http://www.aliyun.com/zixun/aggregation/5739.html">互联网技术进行研究和布局.从目前看,并行计算能力不断提升和云存储等技术产品成本的不断降低,使大数据真正走到了技