2014百度世界大数据论坛于9月3日在北京举行,会上既有来自百度大数据的专家介绍百度的大数据产品和发展经验,也有来自各行各业的精英介绍他们与百度在实际合作中的心得。
百度大数据的价值——感知世界
百度大数据部高级总监朱永忠讲到百度大数据给行业带来的最大价值即时感知世界。所谓感知世界就是让机器能够模拟人脑的方式处理感知到的所有信息。而能够像人脑那样处理感知的信息之后,随之给行业带来的价值即是类似人脑活动的思考和决策。
对此百度推出的产品是百度大脑。百度大脑依托图像识别技术、语音识别技术、手术识别技术、自然语言理解技术等识别技术将一系列信息整合在一起,能够更加接近自然,从第一人称的角度感知周围的世界。
而这给行业带来的直接价值即是能够更好的管理用户。以往在网络上流行着一句名言“你不知道电脑对面的是一条狗还是一个人”,而百度大脑所具有的感知能力毫无疑问知道对面是一个人,而且能够对所面对的用户有更多的了解,使用户的画像更加清晰。这样行业可以更加全面的了解自己用户的特点,有哪些需求,能够更针对性的面向用户进行推广和服务。
康知网CEO、祥云医疗集团副总裁胡翼即讲到了医疗行业在运用百度大脑过程中的成果。通过百度大脑的图像识别技术来快速识别出是那种疾病,降低患者因不知何种疾病而导致的风险,提高医患交流的效率。之后百度大脑给予个性化推荐,帮助医生提供更佳的诊疗方案。
感知世界的基础之强大的数据处理能力
能够做到感知世界服务于各行各业的基础是具有强大的数据处理能力。百度大数据部的副总监高亮即讲到了百度大数据处理能力的三层架构,海量数据存储能力、智能分析能力和基此之上做出的大数据产品。
海量数据存储首先要解决的就是数据的传输。百度推出的海量数据存储产品——通用数据仓库能够将任何一个产品线的数据实时的传送到数据仓库里,同时能够解决数据存储的另一大问题即数据的标准化。无论数据是什么样的格式到了这个数据仓库里都能以同样的格式来存储。
做到存储之后接下来就是进行各种各样的处理。事实上百度已经形成了一个数据的生命周期,值得注意的是这个周期是全自动化的,从数据的生成,数据的传输,数据的标准化,数据的归类再到数据的分析,都是一个自动化的过程。而且对于这套自动化的流程,百度已经形成了自己的产品——Query Engine。
Query Engine能够做到无论数据是什么样的都能进行标准化处理,当数据实时生成时通过其良好的数据传输架构保证将数据上传到百度的开放云中,在上面进行建模,进行各种各样的可视化分析和决策过程。
到了大数据处理能力的第三层,百度推出了三大数据产品以服务于各行各业。百度司南,能够让企业对自身品牌有更客观的了解。让企业知道自己的品牌在同行业中的定位是怎样的,了解自己的忠实客户还关心什么,了解客户是通过什么渠道来了解自己的品牌。另一个产品是预测平台产品,帮企业预测未来的营业额,或帮政府预测某地的交通人流量。在一个产品就是百度推荐,行业可以定制百度推荐的哪一方面的性能、技术和功能。
感知世界的基础之深度学习
百度大脑所具有的各种分析能力技术都有一个重要的基础即深度学习。深度学习就是在最大程度上模拟人脑神经网络的结构和行为。百度研究院副院长余凯讲到百度正在构建世界上最大的深度神经网络,达到百亿级参数。通过开发的各种不同的深度学习模型应用于图像、语音识别,搜索,和广告推荐等技术。
当人们在百度平台上表达搜索需求,百度大脑要识别用户的意图,在精确识别用户搜索意图后,用深度学习来对网页语义进行相关性排序,从而匹配用户需求,这就完成了人与信息的连接。另一方面连接人与广告和服务,通过大规模的深度学习,去估计和优化点击率和转化率,进而把人连接到所需要的广告和服务。深度学习已经应用在百度核心业务的方方面面,真正实现智能连接人和信息,智能连接人和服务。
百度大脑里用到一种叫深度语义神经网络的模型,这是百度大脑用于自然语言,去匹配query和网页的语义相关性,是业界第一次把深度学习用于提升搜索精度的成功案例,也是迄今为止深度学习用于语音文本信息最成功的应用。
基于深度学习的OCR技术,可以像人一样读懂文字。如一个外国人在上海看到某个菜单,他想知道这个菜单中是否满足他想要的菜品需求,但自己又不懂中文不知道这是什么菜。他可给中文字拍照用百度翻译,百度通过识别中文知道这是什么菜,通过识别后再翻译成英文并有语音合成。这体现了百度在方方面面的人工智能领域有很深的积累。
将感知世界开放给行业——开放云
百度具有诸多的先进技术和产品,于此同时百度还推出了开放云平台。百度基础架构部高级总监杨炀讲到,百度开放云是希望帮助客户提供云开放的投入,客户只需要按一下按钮,就可以获得百度云,而且是谁用谁付费,成本很低。另外在云上面提供非常多的服务,用户可以像搭积木一样搭建起来,更重要的是后面有百度专业人员帮客户运维,还能给客户提供完整的解决方案,帮助客户在竞争中获得更大的优势。
开放云能够与大数据结合,因为无论什么业务都有大量的数据存储,将这些数据存储放到开放云里面。同时将很多数据处理和流程都放到云上,就可以让数据存储更容易,把数据存储变成结果的应用也更容易。
百度未来还将开放云引擎,开放SaaS(软件即服务),开放IaaS(基础设施即服务)。因为很多企业需要的不仅仅是高大上的东西,需要的是完整的IT解决方案,这个解决方案既包括上层的服务应用,又包括基本的网络存储服务。未来百度要借助开放平台为客户提供一个完整的从端到端的解决方案。