编者注:戴帅湘——前百度主任架构师,曾长期担任百度Query理解方向负责人,是自然语言理解方面的技术专家,曾荣获第一个也是迄今为止唯一一个以NLP技术为核心的百度最高奖。2010年提出“Query改写模型”给百度搜索引擎技术带来了跨时代的飞跃,使得搜索相关性和广告收入均大幅提升。该模型比学术界同类模型《Query Rewriting Using Monolingual Statistical Machine Translation》的提出还要早将近1年。此模型迄今为止仍广泛应用于百度所有搜索产品线 。申请了自然语言处理,语义搜索,自动问题求解等领域内20多项专利技术。
本文是戴帅湘在公开课Human-like learning 在对话机器人中的魔性运用中的读者问答内容整理。
-
mor引擎如何来保证数据的可靠性?
你的意思应该指的是数据的准确性,这个暂时还是通过线下的测评,达到一定的准确率后才参与线上运算,这个和大多公司采用的方法一样。
只是我们后面会在对话的环节允许用户通过对话的方式帮助修正,就像我说了某个东西,听着觉得不对,可能会给我一个反馈。
- 对于用户需求、用户意图的理解和分析,对query做一个简化、分析。请问一下有没有一些开源工具或者算法可以推荐一下。例如以下这些:
- 北京附近哪里好玩呀 -> 北京的景点;location : beijing, category : travel。
- 上海哪里有好吃的呀 -> 上海的餐馆;location : shanghai, category : restaurant。
这个也是在具体的反馈式增强模型阶段来处理,当然也需要有一些特定的引导。
开源的工具倒没有看到,但是相关方法今年ACL有几篇文章是关于把自然语言转成特定形式化描述的,可以去看一看。其中有的也用到了深度学习,但是需要一些语料支持。
我理解这类开源的很少,毕竟都还不成熟,希望将来有人可以做一些开源的工具出来。
- Google 的 开源的 tensorflow 有一个seq-to-seq的框架,您觉得怎么样
seq-to-seq是一个非常好的框架,我们也会用到这类工具做线下的一些调研和训练。
- 我现在遇到的问题,就是训练好的聊天机器人,但是有的问题的回答并不理想。
明白,深度学习(DL)有个问题就是不好解释。
这个你只能通过更好的语料及更细致的参数调整才能有所改善,否则就需要加入其它方法。
- 想请教下深度学习目前在NLP中主要应用在哪个方面?数据还是模型中?
其实现在很多NLP任务都才尝试深度学习(DL),但是看起来效果并不好。
至少不会像图像识别和语音识别那样有很大的提升,基本上都是比较微弱的。
深度学习(DL)虽然在特征泛华和分层上有更强的能力,但是NLP问题终归还是一个语言的问题,首先需要针对语言本身有更多的理解和建模,然后才能谈更多语料上的训练。
本文作者:李尊
本文转自雷锋网禁止二次转载,原文链接