搜狗王小川说输入法的未来是自动问答,那么这个技术究竟发展得怎么样了?

雷锋网(公众号:雷锋网)按:本文作者,雷锋网独家首发文章。

科研界和工业界的关系往往是,科研界负责生产原材料,工业界负责把原材料进行加工料理,最终给用户端上一盘饕餮盛宴。正如20年前,谷歌利用PageRank这个原材料,做出了现在世界上最贵的一道菜,谷歌搜索引擎。

在上个月的CNCC2016演讲中,搜狗CEO王小川提出,输入法的未来方向是自动问答。这句话告诉我们搜狗厨房已经准备好做菜自动问答了,那么让我们看看自动问答这道菜的原材料如何,如果原材料不好想必导致巧妇难为无米之炊。自动问答粗略的进行划分,可以划分为:

基于文本的抽取式问答技术,和基于知识库的生成式问答技术

基于文本的抽取式问答技术

首先,我们看一看基于文本的抽取式问答。

此类技术在学术界又有着几个分支:社区问答(CQA),网页问答(WebQA),文本问答(TextQA),阅读理解(Machine  Comprehension)。对应的工业界应用有百度知道(社区问答),搜索引擎直接回复(WebQA)。

此技术通俗点说就是让机器学会筛选,用户给定一个问题,机器通过各种各样的算法从自己的语料库中选一个答案回来。

类似于机器是一个超级图书管理员,知道自己的库里面有啥书,用户一问就从自己的图书馆里面查询有没有相关的;但是这个管理员推理能力不强,如果用户的描述不大清晰,或者网上没有,那这次查询就失败。

首先我们来看两个例子,分别是百度知道(CQA),谷歌的搜索推荐(TextQA或者是WebQA)。

谷歌中如果在英文市场下搜索英文(经测试中文并不支持),很多问题谷歌将自动给出答案,并把详细的步骤列出。

下面,我们拿CQA进行举例(其他的基于文本抽取的问答技术均大同小异,均是依靠各式各样的文本相似度计算技术),文本相似度计算一直是计算机人工智能领域研究的重点问题,主要有三大类相关技术。

  1. 语言模型语言模型依靠数两个文本重叠词语个数来判断相似度。

对于文本a中的任意一个词w,计算w在不在文本b中出现,如果出现就给个高分,不出现就给个很低的分(到底多低要看这个词在整个语料库中的重要程度),最后把文本a所有词的得分累计起来就是最后a与b的相似度。

  1. 翻译模型翻译模型为了解决a文本和b文本中意思接近但不是同一个词语的问题,例如“中文”和汉语。

首先利用翻译模型将两段来自同一语言的文本(往往是社区问答的问题和答案)进行词对齐训练,之后就可以得到词到词的转移概率。有了这个表,再计算某个词是否在另一段文本中出现就并不是非黑即白的事情了,还要考虑近义词的转移概率。() 

3. 深度学习模型:深度模型研究问答匹配技术如雨后春笋般涌现,而且已经证明比传统方法有效(Jeff Dean在WSDM2016讲谷歌的搜索算法特征贡献的前三名均是基于深度学习的)。

具体的有,谷歌论文中基本的CNN应用,Socher提出的基于Tensor匹配,华为所提出的一系列二维匹配模型

那么我们首先看一看此类问答的技术到底能做到什么程度,WSDM是信息检索和数据挖掘的大会,在今年年初WSDM上,微软亚洲研究院自然语言处理组公开过一个百度知道的社区问答数据集,此数据集已经过人工标注,标注返回的问题是否满足用户的查询,数据集可供下载,均为百度知道上常见问题,用0和1标注两个问题是否相关。

经过当时作者的实验,如果我们只把排名最高的拿出来判断对不对,基于语言模型的可以让准确率达到68%,基于翻译模型的可以到达70%,基于词向量的方法可以达到73.8%。由于技术还在发展,可以想象基于一些复杂深度学习技术的模型可以达到将近80%的准确率

那么百分之八十意味着什么呢?

常见问题肯定做得好,不常见的无能为力。

例如上图,xp靠什么建立wifi,光靠字符匹配大部分正确的相似问题已经被捞回来了,所以一旦这类问题向机器提问,机器一定能做得很好,图书管理员合格。然而底下的问题,劳务派遣靠什么挣钱就不一样了,问题比较奇葩,候选的问题中相关的就少,唯一正确的还是福建一个公司劳务派遣如何挣钱,这样机器这个图书管理员就搞不定了。图书馆里没一样的书,而唯一相似的还需要一些推理。

这就是现在基于文本抽取的自动问答现状,常见问题可以搞定,不常见的无能为力。

于是,我们可以预想以后的输入法如果用自动问答作为入口,结果一定是他可以从一定程度帮助我,但是难度大的问题,仍然不行。

基于知识库的问答技术

基于知识库的问答技术,往往通过一个已有的知识库(例如维基百科,FreeBase等)回答用户的问题,其中主要利用语义解析器将问题的主谓宾等成分抽取出,最终推理出对应的答案。这项技术算是一个新兴的领域,自从知识图谱概念火热起来才渐渐被人们重视。

用一句话概括现状是是:

特别简单的才可以,稍微转个弯就悬了。

基于知识库的问答往往有两条路——

一条路是斯坦福学派的CCG Parser,一种特殊的语义分析器来理解自然语言问题;

另一条,近年来大火的深度学习。

各种各样的深度学习模型在近几年的学术界大杀四方,让基于知识库的问答技术有了质的飞跃。典型的文章有去年ACL获奖论文,来自MSR的Semantic Parsing via Staged Query Graph Generation: Question Answering with Knowledge Base

然而纵使重武器应用到了这个领域,仍然效果不是很理想。例如,WebQuestion是一个基于知识库的问答统一评测的数据集。

其中的典型问题有:

  • what does jamaican people speak?
  • what did james k polk do before he was president?
  • what is the oregon ducks 2012 football schedule?

我们人看这些问题感觉特别简单,稍微经过一些推理就可以回答,然而非常让人尴尬的是,在这份数据集上,最好的模型只有50%多的准确率,即利用知识库只能准确回答一半网络上的问题。更何况这是学术论文,模型都是精调且不考虑效果的情况下。

并且基于知识库的问答技术一个比较大的局限是,他非常依赖其他相关自然语言处理技术,例如实体链接(即如何区分苹果指水果还是公司),知识库质量(如果知识库都错了,或者没有,更回答不了)。所以知识库的问答技术在系统实现上要比文本抽取式难一些,且耗费更大人力。

结语

基于文本抽取的问答技术现在扛起了大部分问答系统,绝对是可以工业界使用的,相信搜狗的输入法如果好好做会达到并不低于百度知道的效果。然而基于知识库的问答技术仍然是学术界的玩具,仍然需要一个又一个技术突破。

本文作者:NLP日月星辰

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-10-26 10:58:09

搜狗王小川说输入法的未来是自动问答,那么这个技术究竟发展得怎么样了?的相关文章

搜狗王小川:做手机的越多我们越安全

TechWeb编辑推荐:越来越多的互联网企业热衷于进军手机行业,国内企业如此,国外亦如此,近日有消息称亚马逊智能手机将在年内上市.不过也有例外,腾讯就坚决表示不做手机,搜狗也对进军手机行业持否定态度."做手机的越多我们越安全."搜狗CEO王小川表示,互联网公司做手机其实是为了带动自身原 有的服务,并不会在硬件制造上融入更多的创意,"我们更希望用户因为喜欢我们的产品而使用我们的东西,而不是做一个手机,使搜索引擎默认就放进去."他直言,将重心摆在服务上可以和更多的手机厂

搜狗王小川:主政搜狗第一年

"TechWeb我的2011"系列之搜狗王小川(TechWeb配图) "想起以前在ChinaRen每天睡四小时,除了吃盒饭其它时候都工作的日子,其实这样的工作是最幸福的,因为喜欢." 这是搜狗首席执行官王小川(微博)的一条微博.年终岁末,他的微博只有三个主题:回忆.励志.推广自家产品,这倒越来越像一个标准的企业家微博了. 王小川有一张标志性的娃娃脸,脸蛋看起来有点胖乎乎,让人感觉忠厚.实诚:他技术出生,爱读书,知识储备也够,像个知识分子:如果遇到感兴趣的话题,他的情

搜狗王小川:网址导航收入占23%没找CFO

搜狗CEO王小川新浪科技讯 8月7日 下午消息,搜狗CEO王小川今日对媒体表示,搜狗第二季度3000万美元营收中,来自网址导航业务的收入为700万美元(约占23%),搜狗还将设法进一步降低流量获取成本.此外对于搜狗正寻找CFO的说法,王小川也予以否认.昨日搜狐发布的财报显示,今年二季度搜狗收入3000万美元,同比增长123%. 环比增长34%,搜狗营收已占搜狐总营收的11.7%.王小川将上述搜狗的收入构成划分为三项,其中搜索(竞价排名)业务营收2200万美元(约占73%),网址导航导航收入700

传360放弃收购搜狗 王小川张朝阳意见不合

就在前些天大量媒体报道称360并购搜狗即将落定之际,交易又有了变局.今日,猎云网从接近360内部交易人士处得到消息称,360近日已放弃了收购搜狗的计划.对此,搜狗与360公关部门均表示不知情.最终谁将接盘搜狗,尚未得知. 从5月至今,围绕着搜狗出售传言甚嚣其上,先后有360.百度.腾讯及阿里巴巴竞相加入,并称360竞购最为积极,百度出价更高.更有消息称,360.百度及阿里已先后与搜狗达成收购协议. 尽管搜狗CEO王小川先后两次出面否认,但似乎另有隐情,也有消息称他与张朝阳意见不合.6月18日,张

搜狗王小川:2013年“手机+水泥”模式很有潜力

移动互联网正展现出越来越大的前景.当老牌互联网公司传统优势营收项目增长曲线开始平缓,面临寻找新增长点,相互间攻伐不断之际,一批伴随着移动互联网成长起来的应用在过去一两年快速成长,微信用户突破3亿,陌陌.唱吧快速走红. 面临来自移动互联网领域的变革,传统互联网企业在忧虑的同时也开始求变,百度CEO李彦宏甚至提出狼性文化,要消灭小资.身处变革浪潮中的搜狗也在改变.搜狗CEO王小川公开表示,PC搜索市场在2至3年内将变缓,为促进未来业务增长,搜狗将在移动端推出更丰富的产品. 搜狗需要两线作战.王小川说

搜狗王小川:做手机的越多 我们越安全

中介交易 SEO诊断 淘宝客 云主机 技术大厅 越来越多的互联网企业热衷于进军手机行业,国内企业如此,国外亦如此,近日有消息称亚马逊智能手机将在年内上市.不过也有例外,腾讯就坚决表示不做手机,搜狗也对进军手机行业持否定态度. "做手机的越多我们越安全."搜狗CEO王小川表示,互联网公司做手机其实是为了带动自身原有的服务,并不会在硬件制造上融入更多的创意,"我们更希望用户因为喜欢我们的产品而使用我们的东西,而不是做一个手机,使搜索引擎默认就放进去."他直言,将重心摆在

搜狗王小川:“互联网行业格局因此而变。新搜狗,大梦想!”

摘要: 早间有传闻腾讯将战略投资搜狗,刚刚搜狗CEO王小川发微博表示,互联网行业格局因此而变.新搜狗,大梦想!这标志着腾讯搜狗联姻正式完成,也让一直处于各种收购传闻中的搜狗画 早间有传闻腾讯将战略投资搜狗,刚刚搜狗CEO王小川发微博表示,"互联网行业格局因此而变.新搜狗,大梦想!"这标志着腾讯搜狗联姻正式完成,也让一直处于各种收购传闻中的搜狗画上句号. 此次腾讯将向搜狗注资4.48亿美元,并将旗下的腾讯搜搜业务和其他相关资产并入搜狗,搜狗将继续作为搜狐的子公司独立运营.搜狗CEO王小川

新3Q大战急先锋 搜狗王小川的“投名状”有点急

就在3天前,腾讯宣布4.4http://www.aliyun.com/zixun/aggregation/19203.html">8亿美元注资搜狗之前,360还是搜狗的潜在东家,周鸿祎差点成为王小川的老板.腾讯的意外登场,当时就被外界解读为,"这是一笔破坏360战略布局,同时强化自己防线的好棋." 在腾讯宣布入股搜狗后的第3天,正值中秋,王小川在微博上对360宣战."开始并肩作战",早在9月17日,他便发狠说. 就在3天前,腾讯宣布4.48亿美元注资

搜狗王小川:合并搜搜以后搜索市场三分天下格局已定

[科技讯]9月16日消息,腾讯向搜狗注资4.48亿美元,并将旗下的腾讯搜搜业务和其他相关资产并入搜狗.搜狗CEO王小川表示,搜狗与搜索合并后PC端市场份额排第三,无线业务仅次于百度排第二. 据悉,腾讯向搜狗注资4.48亿美元,并将旗下的腾讯搜搜业务和其他相关资产并入搜狗,交易完成后腾讯随即获得搜狗完全摊薄后36.5%的股份,而且腾讯持股比例会在近期内增加至40%左右. 搜狗CEO王小川表示,搜狗与搜搜合并之后,搜索市场三分天下的局面已经确定.并且无线搜索上会有更大优势.PC端搜索合并以后份额第三