科大讯飞在拿大数据做什么生意

某天,编辑看到一位同事拿着手机和电脑在“声情并茂”地朗读他自己写的稿件。

是不是太激动,觉得自己这篇可以点击量“十万+”?怀着这样的疑问,编辑听他用“湖南塑普”读了一会。然后,他又朗读了一遍。

编辑实在忍不住了:“朋友,你这么开心?在干嘛?”

这位同事“炫耀”式地拿着一段文本给编辑看——“你看准确率高不高?”

噢!他在测试讯飞语音的准确率!本着相互较劲能促使进步的理念,编辑自信地用国家认证的一级乙等普通话也读了一遍。结果,准确率相较于这位“湖南塑普”同事,让人大跌眼镜。

你以为编辑这篇要讲技术和背后原理?不,此处需要一个反转——今天编辑在 BDTC 2016中国大数据技术大会上,从科大讯飞大数据研究院副院长谭昶的演讲中,发现了一个悲剧——编辑和同事的较劲测试得出的一些数据,说不定正在用于语讯飞语音技术的改进中。

数据从哪来

众所周知,科大讯飞的各位老大在很多场合,都对自己的“人工智能”和“大数据”十分自豪。

那么,让他们自豪的数据是从像编辑这样的吃瓜群众中获取的吗?

按照谭昶的说法,讯飞的数据收集从6年前开始。

从 2010 年左右,讯飞开始做语音云平台,从那时开始真正拥有互联网上用户的大数据。

现在讯飞的大数据有多少?来简单算一下:谭昶称,目前讯飞约有 8.9 亿的用户,3.6亿输入法用户,同时从其他领域获得了很多非互联网数据。

有哪些?

  • 与运营商的合作的数据,如中国移动。
  • 在智能家居、智能汽车领域的数据。
  • 在智慧城市领域,和政府方面的合作数据。
  • ……

而这些数据的特别之处在于,由于其中很多数据是通过人脸、声纹识别等获得,更具有真实性。

拿到数据后,讯飞把这些数据放到一个中型的分析及处理平台上 。

当然现在也没有看到哪个平台能把基于人工智能的数据处理能力整合到平台内部来。

谭昶承认,对人工智能很自豪的讯飞现在也在这个领域做一些尝试和实践工作。众所周知,讯飞的数据大多数还是语音数据,把语音数据转化成可处理的结构化的数据,真正挖掘这些数据的价值是重中之重。

他们现在的工作是,整合机器的GPU,进一步整合深度学习的算法模型。

数据到手,撒网捕鱼

把数据资源拿到手后,虽然不知道科大讯飞把这些语音数据处理到哪种程度。但是,资源到手后,开始撒网捕鱼是任何一个企业都会做的事情。

人机交互、教育、智慧城市是科大讯飞的大数据当前主攻的方向。这三个点其实不太新鲜,在今年科大讯飞董事长刘庆峰的两会提案中,就已经涵盖了这些领域。

然而,值得探究的是,在这三个大方向下,讯飞的数据生意到底怎么做?怎么变现?

谭昶揭秘:他们现在真正在做的大数据生意落地到三点——精准营销、教育、政府服务。

1.精准营销

讯飞走了其他企业利用数据做生意的老路,因为有十分成熟的模式。谭昶认为,只要有自己用户的画像平台,即数据 DMP 平台,可以整合外部的数据,也可以单纯使用内部数据,则既可为自己精准营销服务,也可为外部企业的数据需求服务。

当然,挖掘这些数据的核心价值来对用户进行分析、挖掘、获取和引导的作用,最后的导流作用是直接变现还是对广告点击,要具体问题具体分析。

讯飞在这个领域起步其实比较晚,谭昶说,他们的主意是:

用户8.9亿,累计用户12亿,产生了1700类的标签。不仅对内部的讯飞广告平台提供服务,也为第三方的精准营销提供数据交换和数据查询服务。

人工智能的技术应用在了标签精细化的工作中。在自然语言理解方面,因为讯飞通过输入法、开放云平台服务,产生了大量短文本的数据,在这种短文本数据的挖掘中,使用了人工智能的技术产生了“一种非常精细化”的标签分类。

比如,基于声纹做了性别、年龄的划分,谭昶称,基于用户传统的行为数据或者日志数据无法得到这些精细化标签。

在大家都关注的变现上,金融领域对用户的 1700 类标签梳理后进行了广告投放。在游戏领域,尤其是对用户的年龄分别或者性别的判断,对游戏定图的效果影响很大。

2.教育

谭昶介绍,讯飞现在在为学校、教育主管部门对学生的成长过程进行数据采集和分析。

他们的关注点是,一是如何用人工智能手段搜集到真正的教育过程数据,二是如何把过程数据转化为学生学习过程中的进步和优势。

咱们先把素质教育抛在一边,大家心知肚明的是,中国现在大部分升学手段依然是考试。

可能读者你会说,在“考考考”的中国教育中,大家都用电脑考试就好了呀,这不就有数据?不过,你以为所有的试卷都是电子试卷吗?这让中国差异化的经济发展水平情何以堪。

如何做到无纸化收集数据?

讯飞退了一步:试卷还是有纸化,但可以扫描成无纸化。

退了一步后,发现扫描谁都会做,人工智能已经解决了这个问题,不需要让人判试卷,不仅可以阅卷答题卡上的答案,还可以让机器判作文、主观题、阅读题,这就又回到了讯飞的特长——用人工智能来解决非结构化的学习过程采集。

下一步就是解决如何让非结构化的过程数据变学习指导,打造个性化家庭教师。

其实说起来也很简单。比如,小明同学进行了一场考试,不幸错了很多题,回家要被家长进行语重心长的教育,这时机智的教育工具就来了,它针对小明的成绩的情况以及薄弱点,经过简单分析得到了结论。通过这些结论推荐相应的课程学习的课件、老师讲解的题目,以及所有可以做的练习题,按照难易程度、知识点的覆盖面精准推送。

不过,谭昶发现了一个难点:这个推送听起来和做广告推送没什么区别,但机器学习是非常痛苦的,因为广告每秒钟可以学习一千次,但一个学校、一个学期可能只能学习几千次。

还有一个潜在的问题是:小明怎么办?明明一顿教育可以解决,现在需要多做好多试卷和题(开玩笑,还是要好好学习)!

3.智慧城市

谈到政府服务,由于“历史问题”,你一定经历过为了办一个事情,需要跑几个、十几个、甚至几十个政府单位盖章的惨剧。

除了不能描述的一些原因,一个重要的问题是——很多部门、政府单位“各自为政”,形成了信息孤岛。

还有一个软的数据标准,数据共享的标准,数据交换的标准,以及相应的政策支持,这些工作都需要有大量的投入,大量的精力、人力,而政府没办法做这些事情,需要有很多的企业服务这样的工作,为政府建立政务数据流通和交换的生态系统。

谭昶认为,这是讯飞能“入手”的点。

按照讯飞在某省的实践来看,如果把数据打通了,除了可以构建一站式政务办理,原来分散在公安局、税务局、工商局的各种企业数据可以进行全面融合和共享,共享后可以像对互联网用户做画像一样,做企业的画像。

通过企业画像,可以对企业间的社交关系,即投融资的关系进行分析,对企业做整体的标签化、对企业重点的奖惩信用方面都可以做出相应的数据化分析,这些结论最后可以用于政府的监管过程,实时监督,联合执法。

他们也和运营商进行了合作,将城市的地理信息数据变成城市交通的疏导和管理工具。谭昶称,

这样的数据,通过任意一家运营商,精确度很差,需要用很多手段把数据的精确度,变成非常精细化的轨迹的分析数据,这样的数据经过分析之后可以得到城市的交通情况,不需要任何在线的浮动车、探头就可以得到实时的交通情况。

还可以做更精细化的工作。在匿名化条件下的移动轨迹,如果任意选择一个区域或者一个路口,每一个白点代表着一个移动轨迹的移动,整个移动轨迹全部整合起来后,可以看到导致路口拥堵的车辆来源于哪里,到了哪里去,它们的聚集、分析以及疏导,可以基于这样的统计工作进一步展开。

除了点线,还可以发现人群的聚集区域有没有发生踩踏事故的风险,提前20~40分钟进行预警。

注:BDTC 2016 中国大数据技术大会由中国计算机学会(CCF)主办,CCF 大数据专家委员会协办,有大量大数据和人工智能的干货分享。

本文作者:李勤

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-11-05 05:38:28

科大讯飞在拿大数据做什么生意的相关文章

百分点:利用大数据做智慧商业

文章讲的是百分点:利用大数据做智慧商业,当前,随着互联网的快速发展,我们在与互联网.信息系统的交互中创造了海量的数据,还有无处不在的传感器和微处理器收集.处理的数据,互联网上的数据越来越庞大,也开始被越来越多的关注. 大数据并不仅仅是记录海量数据,它是从用户的身份识别开始,扩展到当时的情景.行为.消费,以及企业和用户之间的互动,都被详细的记录到大数据里. 谈发展:大数据未来三大方向 第一大方向:行业将垂直整合.通过搜集大量的用户数据,更加贴近用户,更加理解用户,为其提供更合适的服务.比如制造业里

美国国家安全局能利用“大数据”做些什么(1)

美国国家安全局永远无法捕捉互联网上所有可疑的动向--但他们也不需要.498)this.w idth=498;' onmousewheel = 'javascript:return big(this)' border="0" alt="美国国家安全局能利用"大数据"做些什么" width="500" height="266" src="http://s5.51cto.com/wyfs01/M01/0

如何利用大数据做遗传病智能化诊断?| 硬创公开课

据OMIM数据库(人类孟德尔病数据库)数据,单基因遗传病的病种数量约有7000种,其中约4000多种致病基因和发病机制比较明确.单基因遗传病单个发病率低,但单基因病种类极多,所以总体发病率高,且具有先天性.致死致残性的特点. 就诊断而言,单基因遗传病涉及多个学科,临床症状复杂,且由于基因的突变具有多样性,每种突变都可能导致不一样的临床症状,而突变的临床意义也相当复杂,故诊断较为困难.而且,许多遗传病都及其罕见,属于罕见病,对于一名医生来说,诊断经验不足,根据症状极易误诊. 所以对于临床医生而言,

爱国者冯军:BAT做大是因为大数据做得好

2014中国绿公司年会"改变的年代:现实与远见"于20日至22日在广西南宁举行.爱国者公司董事长冯军在"大数据"变革企业经营与管理圆桌论坛上表示,BAT怎么做大的,三个企业都是针对它的目标客户群,用大数据去提供服务,做的精致,做的好. 以下为冯军发言实录. 冯军:今天爆满,可能有两个原因,一个是很多企业家,特别是干实体经济得特别关心到底大数据跟我们是什么关系,是来学习的,几位不管是专家还是企业家,说的挺清楚的. 其实大家更关心的是究竟跟我们自己的企业能有什么直接关联

如何利用大数据做金融风控?| 硬创公开课

随着金融科技.科技金融等概念的热起,以及互联网金融.无金融服务群体的刚性需求下,大数据风控技术也获得越来越广泛地重视和应用.但是,如何利用大数据.机器学习等前沿技术做金融风控?如何通过海量数据与欺诈风险进行博弈?本次硬创公开课我们邀请了同盾科技首席风险官董骝焕博士为我们解答. 董骝焕是南开大学概率统计博士,他博士毕业后加入中科院,2007年加入IBM/ ILOG从事决策模型在各种业务问题中的应用.2010年至2013年先后在FICO和SAS支持金融反欺诈事业.2015年5月15日,董骝焕加入同盾

如何把大数据做“厚”?c

在大数据时代,营销者面对的课题是如何在网络上识别一群有共同属性的目标人群,同时还要描述出特定人群中某个人的特征和行为.这个巨大的挑战源于不知道谁在电脑的那一端,在不知道名姓.联系方式的情况下,通过行为识别所构建的数据模型来判断一个人的性别.兴趣.年龄.爱好和需求,以此实现精准营销.那么数据是如何在行为识别中发挥作用的呢­? 有一个有趣的例子可以说明大数据在实际应用中之"混沌".在阿里巴巴的数据后台,尽管大部分用户在注册时几乎都填写了自己的"性别",但在实际操作分类和

互联网金融产品如何利用大数据做风控?

互联网金融产品太多,这里以P2P网贷为例,从风控涉及的相关环节分别来尝试讨论. 销售环节: 了解客户申请意愿和申请信息的真实性; 适用于信贷员模式. 风控关键点: 亲见申请人,亲见申请人证件,亲见申请人签字,亲见申请人单位. 审批环节: 进行基本信贷政策的核查,主要是核实申请信息.证件资料.是否伪冒申请. 系统会审核剔除不符合基本信贷政策要求的客户,例如有严重不良征集记录的,内部已经有违约记录的,或者近期有较大风险被纳入关联黑名单的,不符合监管政策要求的客户.经过基本审查后,不同的申请人会依据客

大数据做基础 构建流动人口健康屏障

为建立流动人口健康信息大数据,广东省日前与湖南.江西两省全员人口信息实时对接,全力推进流动人口基本公共服务均等化,开展了流动人口健康教育.健康促进活动和流动人口清理清查专项活动.动态监测工作等,有效提高了流动人口健康服务保障. 广东省是全国流动人口第一大省,珠江三角洲为全国主要的人口流入地区.最新数据显示,截至今年7月10日,广东省流动人口达4048万人,其中省内流动人口1105万人,省外流动人口2943万人.解决好流动人口的健康问题,做好流动人口的健康服务管理工作,对于推进"健康广东"

美国医疗利用大数据做高危病人的医疗防范

据商业周刊的报道,卡罗莱纳州的医疗系统开始利用大数据进行高危病人的医疗防范,它们针对高风险病人将200万人的用户数据融入一套算法,评估发病几率,从而实现在病人发病之前进行医疗措施. 据卡罗莱纳州医疗分析临床总监Michael Dulin介绍,Charlott当地的连锁医院将大数据纳入预测模型,可以给病人进行风险评分. 比如一个哮喘病人,医院可以通过了解他是否加大药物剂量.是否购买过香烟.是否居住在高花粉区域计算出该病人被紧急送往抢救室的几率.又如一个健身房会员,系统同样可以借助分析他购买过哪类食