2016-11-29 16:13:19人工智能 视频 直播声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
智能语音、计算机视觉技术双管齐下。
◆马骥是极限元科技的联合创始人,生性内敛。
文| 铅笔道 记者
赵芳馨
?导语
苹果Siri面世后,曾一度沉寂的智能语音再次复苏,直到2014年还不见其衰退。
雷臻、马骥和康利强三人瞅准时机,于2014年8月创立极限元智能科技。公司定位于人工智能技术解决方案供应商。
极限元智能科技推出的第一个产品是智能语音云平台。语音云平台为移动互联网、智能硬件开发者或中小创业团队、个人提供快速接入语音技术的通道,即为他们提供一套快捷低成本的智能语音解决方案。
在服务客户的过程中,团队又发掘了很多计算机视觉技术的市场需求。极限元智能科技已协助相关监管部门审查涉黄、涉暴、涉恐的互联网有害视频信息。今年8月,极限元智能科技又启动网络直播安全网关解决方案,可通过音频和视频的双通道检测直播内容。
目前,极限元智能科技在垂直领域(如医学、建筑、交通等)的语音识别准确率在98%以上,语音合成MOS评分(评价模拟人声质量的国际标准)4.4分,网络视频直播涉黄图像识别准确率在98%以上,已取得语音合成、语音识别、声纹识别、图像识别等6项专利。
注:马骥承诺文中数据无误,为其真实性负责,铅笔道已备份录音速记,为内容客观性背书。
看好人工智能
第一次创业,马骥觉得项目有点“生不逢时”,两年前手游行业竞争激烈,项目最终失败。他却不想再回公司上班,“下一份工作还是想继续创业,不会按部就班、朝九晚五地过下去”。
2014年8月,他和华为的前同事雷臻碰了头。两人都看好人工智能领域,认为这是下一个风口。
原因出自Siri。长按苹果手机的Home键,用户即可与Siri对话,寻求它的帮助,或仅仅让它讲个冷笑话。
在它之前,智能语音产业潮起又潮落。其重心一直在语音合成(如文字转声音)领域,没几年,无论硬件或软件的发展又沉寂了。
但苹果Siri出现后,整个市场重新被唤醒。“大家觉得这是下一个最新的交互技术,直接用语音沟通,不需其它触控手段。”
此外,各家公司对人工智能,尤其是智能语音的技术需求更为旺盛,比如滴滴打车最早即支持语音识别。
两人经过行业分析,请教业内专家后决定在人工智能领域再度创业。他们于8月成立极限元智能科技,将公司定位于人工智能技术解决方案供应商。
智能语音云平台
进入市场后,极限元智能科技想找准客户需求,快速圈地。技术合伙人康利强拥有多年技术积累,无论在算法研究还是工程实践都有丰富经验。
但与客户对接过程中,马骥发现有些操之过急。公司的很多技术还停留在理论和试验阶段,与商业化的标准还有一定差距。
比如客户需要在安卓、iOS系统中使用智能语音技术,而极限元智能科技起初只能基于PC端服务。由此,技术人员要把很多技术重新分装移植,接入更多的操作系统和平台。
半年时间内,团队不断调试技术,不但提供多平台的SDK,还根据市场需求打造出智能语音云平台。
语音云平台为移动互联网、智能硬件开发者或创业团队、个人提供快速接入语音技术的通道,即为他们提供一套快捷低成本的智能语音解决方案。平台会提供一套在线API接口,客户的设备连上互联网,适时调用接口,通过云端的语音识别、语音合成引擎处理语音信息,再把结果反馈给客户的前端。
平台把很多技术与客户的需求对接。除了语音合成和识别,还包括语音检索、口语评测、语音关键词检索等智能语音技术。
这些技术只是大框架,根据客户的反馈,技术人员还要不断细化完善产品线。
起初,马骥等三位合伙人设想,“客户只要调用我们的云端API接口,得到输出的结果就够了”。但实际情况远不止这么简单:服务器性能怎么样,并发状态如何,有没有离线场景支持等,各种情形都要考虑。
一些细节问题也不放过。比如某些教育行业的客户也用语音合成,它们主要的目标人群是小朋友。教育行业客户对整句发音要求不高,但对单个字或者词发音要求精准。由此,语音云平台为这类客户附加接口,允许其自定义发音音调,甚至韵律、节奏等。
◆古诗词诵读App
前期,极限元智能科技的客户以移动应用开发者和中小创业团队居多,“他们的付费意愿不那么高,但提出的很多需求值得深挖”。
计算机视觉技术
去年下半年,公司逐渐获取了一些合同,积累了一批用户。在不断接触客户的过程中,极限元智能科技的业务从智能语音逐渐拓展至计算机视觉领域。
例如与语文出版社的合作中,极限元为其研发古诗词诵读App,最初提供的是口语评测服务。这一过程中,图像识别的需求渐渐浮出水面。
语音和图像识别有共通之处,但技术开发仍遇到了一些困难。
近两年,提及人工智能必然说到深度机器学习。但这一领域的人才太少,每年毕业的博士生屈指可数,“人才是个很高的门槛”。
技术人员要不断优化算法。虽然深度机器学习应用于模式识别领域的相关技术已经日益成熟,业界也不断有新的算法和开源库出现,但这些技术运用于特定领域特定场景中,都需要定制的工程化处理。此外,团队还需要采购专用的计算设备和专用的数据资源,以提高复杂模型的训练速度。
在此基础上,团队为这款应用增加了笔划笔顺识别功能。当小朋友在手机屏幕上写字时,手机端利用图像识别来提取特征数据,每写一笔都相当于在内存中截屏并进行有效数据提取。之后,这些数据在大服务端进行检测是否提取正确。“一是看字的书写对不对,二是笔顺是否正确。”
之后语音、视觉技术双管齐下,极限元智能科技也渐渐收获奇虎360、搜狗等大客户。后者都在语音、视觉等领域达成技术合作或购买定制化开发服务。马骥表示,与行业大小对手的竞争中,要突出差异化,“及时满足定制化需求,与客户绑定地更紧密”。
直播内容审查
小处入手,大处着眼。自成立以来,团队一直接触各行各业,挖掘行业需求。去年至今年,网络视频直播的一把火愈烧愈烈,极限元智能科技看到的却是网络视频直播公司对于内容审查的需求。
在政策压力下,网络视频直播公司加大审查力度。一般7×24小时的直播平台,审核人员也是24小时设岗。人力成本上,员工三班倒,一人盯5~10个直播房间。除此之外,还有设备和场地成本。
极限元智能科技提供计算机辅助的检测手段。之前,团队拥有互联网涉恐、涉暴、涉黄等有害视频信息检测的项目经验。但视频直播与视频录播有区别,录播内容审查后上线,而直播内容上线即审查。在视频的基础上,技术人员设立动态分析调整的机制,灵活调节图像采集速度,“发现一点苗头就要提高采集频率”。
直播分为以语音为主和视频为主两类。区别于其它厂家,极限元智能科技会提供音频和视频的双通道检测。不过,其技术上存在更高的难度,音频要实时截取一整段来检测,对带宽的要求更高,因此成本也高。“愿不愿意采用双通道方式,由用户决定。”
◆审查有害视频信息。
今年5月,极限元智能科技启动音视频网络直播安全网关解决方案的研发工作。前期准备3个月后,8月开始对接客户,双方联合测试。
团队根据已有数据做出通用模型,准确率在98%以上。但直播平台的情况各有不同,如视频格式、硬件编码、加密算法等都有一定差异性,测试中搜集的数据可用来有针对性地优化算法和模型,之后准确率可提升至99.5%以上。
“我们会筛选大量图片信息,只有部分疑似信息交由人工核实,直播公司的审查工作至少降低70%。”
目前,极限元智能科技在垂直领域(如医学、建筑、交通等)的语音识别准确率在98%以上,语音合成MOS评分(评价模拟人声质量的国际标准)4.4分,网络视频直播涉黄图像识别准确率在98%以上,已取得语音合成、语音识别、声纹识别、图像识别等6项专利。
极限元智能科技定位于人工智能技术解决方案供应商,以后要继续深挖各个行业的垂直领域需求。除服务B端客户之外,团队也会孵化面向C端的人工智能软硬件产品。
采访最后,马骥称:“两三年内行业要有一次大清洗,会释放出更多的人才资源、市场空间。对大多数AI公司来说这可能一场浩劫,但对我们会是一次自我提升的机遇。”
不过他也表示,对公司乃至整个行业来说,人才稀缺仍是最大的痛点。
/The
End/
编辑 邵 希 校对 孙
娇