某天,编辑看到一位同事拿着手机和电脑在“声情并茂”地朗读他自己写的稿件。
是不是太激动,觉得自己这篇可以点击量“十万+”?怀着这样的疑问,编辑听他用“湖南塑普”读了一会。然后,他又朗读了一遍。
编辑实在忍不住了:“朋友,你这么开心?在干嘛?”
这位同事“炫耀”式地拿着一段文本给编辑看——“你看准确率高不高?”
噢!他在测试讯飞语音的准确率!本着相互较劲能促使进步的理念,编辑自信地用国家认证的一级乙等普通话也读了一遍。结果,准确率相较于这位“湖南塑普”同事,让人大跌眼镜。
你以为编辑这篇要讲技术和背后原理?不,此处需要一个反转——今天编辑在 BDTC 2016中国大数据技术大会上,从科大讯飞大数据研究院副院长谭昶的演讲中,发现了一个悲剧——编辑和同事的较劲测试得出的一些数据,说不定正在用于语讯飞语音技术的改进中。
数据从哪来
众所周知,科大讯飞的各位老大在很多场合,都对自己的“人工智能”和“大数据”十分自豪。
那么,让他们自豪的数据是从像编辑这样的吃瓜群众中获取的吗?
按照谭昶的说法,讯飞的数据收集从6年前开始。
从 2010 年左右,讯飞开始做语音云平台,从那时开始真正拥有互联网上用户的大数据。
现在讯飞的大数据有多少?来简单算一下:谭昶称,目前讯飞约有 8.9 亿的用户,3.6亿输入法用户,同时从其他领域获得了很多非互联网数据。
有哪些?
- 与运营商的合作的数据,如中国移动。
- 在智能家居、智能汽车领域的数据。
- 在智慧城市领域,和政府方面的合作数据。
- ……
而这些数据的特别之处在于,由于其中很多数据是通过人脸、声纹识别等获得,更具有真实性。
拿到数据后,讯飞把这些数据放到一个中型的分析及处理平台上 。
当然现在也没有看到哪个平台能把基于人工智能的数据处理能力整合到平台内部来。
谭昶承认,对人工智能很自豪的讯飞现在也在这个领域做一些尝试和实践工作。众所周知,讯飞的数据大多数还是语音数据,把语音数据转化成可处理的结构化的数据,真正挖掘这些数据的价值是重中之重。
他们现在的工作是,整合机器的GPU,进一步整合深度学习的算法模型。
数据到手,撒网捕鱼
把数据资源拿到手后,虽然不知道科大讯飞把这些语音数据处理到哪种程度。但是,资源到手后,开始撒网捕鱼是任何一个企业都会做的事情。
人机交互、教育、智慧城市是科大讯飞的大数据当前主攻的方向。这三个点其实不太新鲜,在今年科大讯飞董事长刘庆峰的两会提案中,就已经涵盖了这些领域。
然而,值得探究的是,在这三个大方向下,讯飞的数据生意到底怎么做?怎么变现?
谭昶揭秘:他们现在真正在做的大数据生意落地到三点——精准营销、教育、政府服务。
1.精准营销
讯飞走了其他企业利用数据做生意的老路,因为有十分成熟的模式。谭昶认为,只要有自己用户的画像平台,即数据 DMP 平台,可以整合外部的数据,也可以单纯使用内部数据,则既可为自己精准营销服务,也可为外部企业的数据需求服务。
当然,挖掘这些数据的核心价值来对用户进行分析、挖掘、获取和引导的作用,最后的导流作用是直接变现还是对广告点击,要具体问题具体分析。
讯飞在这个领域起步其实比较晚,谭昶说,他们的主意是:
用户8.9亿,累计用户12亿,产生了1700类的标签。不仅对内部的讯飞广告平台提供服务,也为第三方的精准营销提供数据交换和数据查询服务。
人工智能的技术应用在了标签精细化的工作中。在自然语言理解方面,因为讯飞通过输入法、开放云平台服务,产生了大量短文本的数据,在这种短文本数据的挖掘中,使用了人工智能的技术产生了“一种非常精细化”的标签分类。
比如,基于声纹做了性别、年龄的划分,谭昶称,基于用户传统的行为数据或者日志数据无法得到这些精细化标签。
在大家都关注的变现上,金融领域对用户的 1700 类标签梳理后进行了广告投放。在游戏领域,尤其是对用户的年龄分别或者性别的判断,对游戏定图的效果影响很大。
2.教育
谭昶介绍,讯飞现在在为学校、教育主管部门对学生的成长过程进行数据采集和分析。
他们的关注点是,一是如何用人工智能手段搜集到真正的教育过程数据,二是如何把过程数据转化为学生学习过程中的进步和优势。
咱们先把素质教育抛在一边,大家心知肚明的是,中国现在大部分升学手段依然是考试。
可能读者你会说,在“考考考”的中国教育中,大家都用电脑考试就好了呀,这不就有数据?不过,你以为所有的试卷都是电子试卷吗?这让中国差异化的经济发展水平情何以堪。
如何做到无纸化收集数据?
讯飞退了一步:试卷还是有纸化,但可以扫描成无纸化。
退了一步后,发现扫描谁都会做,人工智能已经解决了这个问题,不需要让人判试卷,不仅可以阅卷答题卡上的答案,还可以让机器判作文、主观题、阅读题,这就又回到了讯飞的特长——用人工智能来解决非结构化的学习过程采集。
下一步就是解决如何让非结构化的过程数据变学习指导,打造个性化家庭教师。
其实说起来也很简单。比如,小明同学进行了一场考试,不幸错了很多题,回家要被家长进行语重心长的教育,这时机智的教育工具就来了,它针对小明的成绩的情况以及薄弱点,经过简单分析得到了结论。通过这些结论推荐相应的课程学习的课件、老师讲解的题目,以及所有可以做的练习题,按照难易程度、知识点的覆盖面精准推送。
不过,谭昶发现了一个难点:这个推送听起来和做广告推送没什么区别,但机器学习是非常痛苦的,因为广告每秒钟可以学习一千次,但一个学校、一个学期可能只能学习几千次。
还有一个潜在的问题是:小明怎么办?明明一顿教育可以解决,现在需要多做好多试卷和题(开玩笑,还是要好好学习)!
3.智慧城市
谈到政府服务,由于“历史问题”,你一定经历过为了办一个事情,需要跑几个、十几个、甚至几十个政府单位盖章的惨剧。
除了不能描述的一些原因,一个重要的问题是——很多部门、政府单位“各自为政”,形成了信息孤岛。
还有一个软的数据标准,数据共享的标准,数据交换的标准,以及相应的政策支持,这些工作都需要有大量的投入,大量的精力、人力,而政府没办法做这些事情,需要有很多的企业服务这样的工作,为政府建立政务数据流通和交换的生态系统。
谭昶认为,这是讯飞能“入手”的点。
按照讯飞在某省的实践来看,如果把数据打通了,除了可以构建一站式政务办理,原来分散在公安局、税务局、工商局的各种企业数据可以进行全面融合和共享,共享后可以像对互联网用户做画像一样,做企业的画像。
通过企业画像,可以对企业间的社交关系,即投融资的关系进行分析,对企业做整体的标签化、对企业重点的奖惩信用方面都可以做出相应的数据化分析,这些结论最后可以用于政府的监管过程,实时监督,联合执法。
他们也和运营商进行了合作,将城市的地理信息数据变成城市交通的疏导和管理工具。谭昶称,
这样的数据,通过任意一家运营商,精确度很差,需要用很多手段把数据的精确度,变成非常精细化的轨迹的分析数据,这样的数据经过分析之后可以得到城市的交通情况,不需要任何在线的浮动车、探头就可以得到实时的交通情况。
还可以做更精细化的工作。在匿名化条件下的移动轨迹,如果任意选择一个区域或者一个路口,每一个白点代表着一个移动轨迹的移动,整个移动轨迹全部整合起来后,可以看到导致路口拥堵的车辆来源于哪里,到了哪里去,它们的聚集、分析以及疏导,可以基于这样的统计工作进一步展开。
除了点线,还可以发现人群的聚集区域有没有发生踩踏事故的风险,提前20~40分钟进行预警。
注:BDTC 2016 中国大数据技术大会由中国计算机学会(CCF)主办,CCF 大数据专家委员会协办,有大量大数据和人工智能的干货分享。
本文作者:李勤
本文转自雷锋网禁止二次转载,原文链接