写春联、变魔术、模仿马云唱歌,为你揭秘阿里云人工智能ET背后的技术

摘要:在主办的云栖计算之旅第5期–大数据与人工智能分享中,阿里云数加资深前端工程师昊祯为大家揭秘了阿里云人工智能ET背后的技术。

本文根据演讲视频整理而成。

前一段时间阿里云ET在阿里园区举办过一个活动,就是在春节之前为阿里巴巴的员工写春联。之前春节之前都是邀请书法专家为阿里员工写春联,而这次就借助了阿里云人工智能将写春联活动自动化实现了。

接下来分享一下阿里云人工智能ET到底是什么样的东西,一起来看一看阿里云ET究竟有哪些能力。

ET能力一:学马总说话&唱歌

ET可以学会马总说话,当然也可以学会胡晓明说话。其实这后面存在很多云语音库,就像高德地图有郭德纲版和林志玲版一样,而且ET除了说话之外还能够唱歌。

ET能力二:双十一天猫晚会表演魔术

在去年的天猫双11晚会中,ET在主持人华少的帮助下表演了魔术,这个魔术的效果大概是:华少请现场的五位女性观众参与,并为她们每人手中发一张牌,她们手中的牌也是由自己随机挑选的,最后ET通过人脸识别的分析以及拿到黑色牌的女观众转身等一系列的交互猜出每个人手中拿的究竟是哪一张牌。

ET能力三:为阿里巴巴员工写春联

ET还能够写春联,图中就是春节前ET为阿里巴巴员工写春联的活动。可以看到春联是由机械臂完成书写的,但是这背后却是利用阿里云ET去分析每位同学的特征,包括表情、人脸特征、性别以及年龄等,再去通过人脸识别所分析出来的结果以及同学的口述表达去了解该同学的新年愿望,然后根据这些特征匹配出一副相对应的春联,并将信息传递给机械手臂,让机械手臂去完成春联的书写。

上面就介绍了阿里云ET目前已经有的三个能力,而这些能力其实都是由前端发起的交互,那么隐藏在这些能力背后的究竟是哪些技术呢?

其实隐藏在阿里云ET背后的技术能力可以分为以下两个大部分:

  1. 基础技术能力。智能语音交互,包括自然语言理解和人机对话,ET需要理解用户对它说了些什么,并且分析出这里面蕴含了哪些意思,再根据用户的意思分析出应该如何回答。还有就是人脸识别,其实这在天猫双11的交互里面可以看到,ET需要通过对于每一个女性观众的脸分析出她们各自所抽取的牌。
  2. 机器学习能力。这部分属于比较高阶的功能,ET在不同的交互场景中就会拥有不同的能力,像在魔术表演中,ET就学会了根据排列的结果去推算观众手上牌的能力。还有就是在写春联活动中学会与机械手臂进行交互。

那么在ET交互效果的背后是哪些技术能力的支撑呢?接下来首先看一下通过天猫双11会场ET所表现出来的交互效果背后的技术架构。

首先由于天猫双11晚会是现场直播的,所以会有很多机位可以从不同的角度进行拍摄,而摄像机直接使用的是电视台的摄像机,摄像机首先采集图像信息然后上传到视频采集卡上,最终到达控制台机器上,这就是视频信号的输入。另外对于音频信号而言,需要对于音频进行压缩,因为直接通过话筒说话与后端的采样是不匹配的,所以音频可以在前端机中做一定的处理,再将音频传输到控制台机器。控制台机器分别对于图像和语音进行识别,再将这两个结果返回给前端机,之后将结果通过不同的方式传导到导播车上,最终通过卫星传送到电视机上,这就是天猫双11晚会的架构,如果要想保证天猫双11晚会的交互流畅性和稳定性,避免在前端机和控制机之间出现卡顿,就需要进行特殊的处理,那么怎么去保证数据传输的稳定性呢?

为了保证数据传输的稳定性,阿里云做了很多事情。第一个就是通过多路WebSocket来保证数据传输稳定,在页面展现层和控制台服务中间增加了数据传输层,将数据传输委托给了两个Web Worker,两个Web Worker所做的事情是相同的,只不过为了保证单个节点挂掉时的高可用性,而两个Web Worker同时向控制台获取服务时可能会出现冗余情况,而阿里云在这方面也做了相应的处理。其实就是在这部分加上了抢令牌的过程,每一个Web Worker都会在前端页面展现层这部分去抢令牌,当抢到令牌的时候才有能力去向后端控制台服务获取数据,如下图所示就是通过前端的分布式二段式提交。

而在语音处理部分,前端所做的工作会比较多一些。首先对于语音输入的过程中,用了Media Stream Recorder方案来兼容很多浏览器,之后将语音采集到之后可能需要对于采集到的语音进行降噪处理,这部分主要在对于一些硬件设备进行优化,效果还是比较明显的,现场的语音识别率从70%提升到了90%。因为天猫双11晚会的现场会有很多噪音,并且主持人华少的语速也比较快,所以如果没有降噪的处理,语音识别率就会比较低。

在语音这部分还会涉及到采样率的问题,简单理解就是采样率越高,音频质量就会越高,同时产生的文件也就会越大,需要传输的数据量也会更大。那么阿里云ET在这方面做了哪些处理呢?首先浏览器默认的语音采样率是44千赫兹,而后端的接口所能接收的采样率是16千赫兹,这里就将采集到的数据做了三段式处理,简单而言就是每隔三段取一个小段然后串联起来。

ET机器学习的能力
在基础的能力之外,ET还学习了一些更高级的能力,下面通过案例解析一下器其背后的实现原理。

上图就是天猫双11晚会主持人华少分给观众的32张牌的所有可能出现的情况排列,其实一共只有在这样的几种可能。大家可以看到所有的可能性中其实会有一个特征,当确定了黑色牌的位置,答案就已经确定了,所以这个魔术主要使用这个原理来实现魔术的效果的。当然这个人脸识别还是非常困难的,因为台上的观众站位往往不同,所以识别率的要求还是比较高的。

对于在写春联的案例中,交互就可能会更多一些。ET首先需要对于用户输入的语音进行分析,然后在后端提炼为文本,这里面还会涉及提取分词和关键字等,最后分析出用户的语意。第二步则会通过拍照的方式去进行人脸识别,并将图像信息传给后端,后端经过分析会将包括年龄、性别等特征的结果返回给前端,然后再将这些关键信息与大量的春联数据进行匹配,最后唤起机械手臂去进行春联的书写。

时间: 2024-12-23 04:31:35

写春联、变魔术、模仿马云唱歌,为你揭秘阿里云人工智能ET背后的技术的相关文章

2016双十一全球狂欢节:阿里云人工智能ET魔术秀解密!

作为双11背后庞大系统的大脑,忙碌的阿里云人工智能ET还抽空表演了一个神奇的魔术. 11月10日晚,"天猫双11狂欢夜"在深圳大运中心拉开巨幕.在全球上亿观众的见证下,阿里云人工智能ET隔空计算出5人手中的扑克牌,震惊全场. 理论上32张扑克牌分到5人手里要全部猜对的概率是2400万分之一.ET究竟是如何做到的呢? 双11魔术揭秘 事实上,阿里云人工智能ET表演的是一个经典魔术. 32张扑克牌以De Bruijn 序列排列,五人洗牌之后,实际上排列可能减少到32种,ET将转身观众(黑牌

阿里云ET过年忙,人工智能写春联送吉祥

春节临近,年味渐浓.置办年货,春联必然是标配.无论是研究量子卫星的,还是做AR/VR的,你妈都会喊你上街买春联!   但今年,阿里巴巴的春联有点"不一样".1月16日,在阿里巴巴西溪园区,阿里云人工智能ET"指挥"着三台机械臂为员工写春联,排成了长队.     现场看到,ET首先需要和体验者进行一轮视频对话.借此了解对方的性别.心情以及新年愿望.结合此前学习的上万条春联,ET将"想"出一条最合适的春联并用机械手臂现场挥毫. 不到3分钟,ET就&q

人工智能写春联 既能阳春白雪也能下里巴人

中国人过年,总会在大门上贴上春联,以示喜庆.今年,在阿里巴巴西溪园区,阿里云给员工现场免费送春联.不过,这春联可跟超市买的不同:第一,春联是现场写的:第二,春联是针对每位员工定制写的:第三,春联是阿里云人工智能ET"指挥"着三台机械臂为员工定制写的.   记者在现场看到,ET首先需要和体验者进行一轮视频对话.借此了解对方的性别.心情以及新年愿望.结合此前学习的上万条春联,ET将"想"出一条最合适的春联并用机械手臂现场挥毫.不到3分钟,ET就"写"

大爆料-为你解读阿里云ET写春联背后的能力

最近阿里云人工智能ET写春联的事儿占据了各大媒体和朋友圈,我只想说阿里的程序员好有范儿啊,过年都不消停:大家都在说我们已经看到的,例如ET在跟体验者互动.好多的围观群众.机械臂在刷刷的奋笔疾书-今天我就为各位说说你们没看到的, 在此,特别为看官们准备了两种解读方式,视频(火热出炉强烈推荐)和文字版: 阿里云ET视频: 文字解读: 此次ET写春联活动中,为了针对每个体验者个性化定制春联,ET用到了三部分的能力: 智能语音交互-语音识别功能能够将用户说的声音识别成文本,而通过自然语言理解.人机对话,

阿里云:用AI让中国“制造”变“智造”|Xtecher特写

4月26日,阿里云云栖大会·南京峰会召开,大会以人工智能.云计算等技术为核心,重点探讨了技术在工业制造方面的应用. 早在3月29日的深圳峰会上,阿里云就宣布推出了ET工业大脑,它为江苏协鑫提升了将近1%的良品率. 由阿里云天池平台.扬中高新区政府.大航集团联合举办的大航杯"智造扬中"电力AI大赛也正式启动. ET工业大脑.天池电力AI大赛,阿里云的梦想是把中国科技界的使命感提升到战略的高度.1%,以终为始,让中国"制造"变"智造". 早在2017

人工智能魔术 阿里云ET双11狂欢秀能力

本文讲的是人工智能魔术 阿里云ET双11狂欢秀能力[IT168 云计算]作为双11背后庞大系统的大脑,忙碌的阿里云人工智能ET还抽空表演了一个神奇的魔术. 11月10日晚,"天猫双11狂欢夜"在深圳大运中心拉开巨幕.除了汇聚全球半个娱乐圈的明星外,还有一位拥有"超能力"的神秘嘉宾登场--阿里云人工智能ET.在全球上亿观众的见证下,ET隔空计算出5人手中的扑克牌,震惊全场. 在狂欢夜的压轴环节中,ET一出场便秀出强悍的语音识别和交互能力,与主持人华少神同步.众所周知,

人工智能直播表演魔术 阿里云ET双11狂欢夜秀超能力

[本文转载自中新网] 中新网11月11日电 11月10日晚,"天猫双11狂欢夜"在深圳大运中心拉开巨幕.除了汇聚全球半个娱乐圈的明星外,还有一位拥有"超能力"的神秘嘉宾登场--阿里云人工智能ET.在全球上亿观众的见证下,ET隔空计算出5人手中的扑克牌,震惊全场. 在狂欢夜的压轴环节中,ET一出场便秀出强悍的语音识别和交互能力,与主持人华少神同步.众所周知,华少凭借400字/分钟的语速被誉为"中国好舌头".ET竟然可以实时将华少的现场口播翻译成文字

阿里云的ET除了能学人的声音唱歌,它还打开了通往智能化之路的大门

过去的一年,整个人工智能领域都展现出了无比的繁荣.在与人类的博弈.娱乐等等方面,人工智能炫耀了各式各样的技术,甚至是在小孩子们的玩具中,我们也能见到人工智能的噱头,炒作大于实用成为了人工智能给人们的普遍感受. 所以在去年的8月,阿里云正式将人工智能技术升级为ET,不炫不秀,就是为了通过人工智能技术的应用,让及其成为人类的帮手,去解决人不能解决的问题.从去年推出的城市大脑,再到本次云栖大会上亮相的ET工业大脑和ET医疗大脑,阿里云的每一步都走得踏踏实实,为让人工智能真正渗透到方方面面来帮助人类而在

你自己写春联吗?你会贴春联吗?还是毛笔墨水早就不见了?

http://www.javaeye.com/topic/161501 现在过春节,基本上不会自己去写春联了,记得最后一次写对联是我二叔乔迁的时候,帮他写对联,那个场面,呵呵,都不知道毛笔怎么握了:( 现在过春节的春联与原来的有本质的不同: 先说写春联 原来过春节前,先是把二楼的大厅清洁干净,把所有应该空出来的地方都空出来:买回一大捆的红纸,摆上八仙桌,拿出每年可能就只用一次的毛笔,自己 研墨或者直接买墨水.算好自家大大小小连同猪圈的大小门,呵呵,然后开始叠纸.裁纸.放好:翻开联谱书,选中的都一