基于深度学习的中文分词 | 实录·PhD Talk #5

Q

请问老师,切分文本中的数学公式没有标注样本怎么破?


陈新驰

可以人工标注一些,或者先用匹配的方法把一些模式很强的公式分出来。

Q

看起来神经网络的分词,较少考虑了时间性能,但是作为 NLP 的基础模块如果做工业产品这个时间代价会比较突出,博士怎么看这个问题?


陈新驰

神经网络的话一般来说只是训练的时候比较慢,因为它的过程会比较长一点,那么它在 test 的时候其实效率和速度还是可以的,再加上我们用 GPU 的话可以快速的矩阵运算,所以它不会在 test 的时候输于传统的方法。

Q

字标注的也有缺陷,有些分词是基于词的角度,还有一些联合模型,陈博士能发表下您的看法吗?谢谢!


陈新驰

是的,各有优缺点吧。我们做的以基于字的为主,基于词的方法鲜有使用。

Q

不管是传统方法还是 DL 的中文分词的效果已经相当好了,这个方向未来会有什么进一步发展变化吗?


陈新驰

目前在 Benchmarks 上的结果是很好了,但是换一个 Domain 就下去了,OOV 也是一个很大的问题,还有就是分词的粒度问题,能不能去更好地定义分词问题。

Q

分词实践时候,有一个观察。不管是 CRF/struct perceptron/DNN 的方法,如果是在标准语料上训练的模型毕竟还是较小的模型,去切分其他 domain 语料(比如搜索引擎的 query,或者微博),效果都不太理想。特别多特征和 embedding 都会 oov;针对这个问题有什么好的解决方法吗?


陈新驰

这是一个很好的问题,我们也在寻求更好的解决方法。业界的方法往往比较暴力。我们现在一般都是关注在模型本身,往往看在 benchmark 上的结果。

Q

在特定领域中往往没有标注语料,是不是神经分词方法就不太可行了?


陈新驰

如果没有标注语料,监督的方法都会有问题。要试试无监督的方法等。

Q

请问您有没有试着在神经网络中结合之前的特征工程或者其它先验知识来提高分词准确率呢?


陈新驰

这是一个很常用的方法,我记得 Meishan Zhang 在 16ACL 论文中就用过。

Q

中文自然语言处理深度学习,有 Python 示例代码嘛?


陈新驰

有的,我们后续会把我们的分词代码放到 FudanNLP 官方的 Github 上。

来源:paperweekly

原文链接

时间: 2024-07-31 05:06:28

基于深度学习的中文分词 | 实录·PhD Talk #5的相关文章

深度学习与中文短文本分析总结与梳理

1.绪论 过去几年,深度神经网络在模式识别中占绝对主流.它们在许多计算机视觉任务中完爆之前的顶尖算法.在语音识别上也有这个趋势了.而中文文本处理,以及中文自然语言处理上,似乎没有太厉害的成果?尤其是中文短文本处理的问题上,尚且没有太成功的应用于分布式条件下的深度处理模型?(大公司或许有,但没有开源)本文暂且梳理一下,尝试围绕深度学习和短文本处理的方方面面就最简单的概念进行一次梳理,并且试图思考一个问题: 深度学习处理中文短文本的最终效果是什么? 我思考后的答案是:是一种模型,可以无需任何语言学知

云盾内容安全8月1日全面升级上线,基于深度学习提供鉴黄、涉政、直播不良场景等10种以上检测服务

详细活动链接:https://promotion.aliyun.com/ntms/act/yunduncontent.html?spm=5176.8142029.759393.7.23896df一.产品功能与服务:1.图片智能鉴黄服务:通过深度学习算法和实时更新的亿级图像样本库,可对图片进行识别以及色情程度量化.智能学习用户审核标准,快速降低人工审核成本.2.暴恐敏感图像识别智能识别含有宣扬恐怖主义.极端主 义.血腥.政治游行等画面的暴恐及 反动内容.暴恐识别模型会对涉嫌暴 恐信息进行更严格标准

搜狗研究员讲解基于深度学习的语音分离

基于深度学习的有监督语音分离在学术界和工业界越来越受到关注,也是深度学习在语音领域的应用中重要的一部分.作为雷锋网AI研习社近期组织的一系列语音领域应用的分享会之一,本次我们请到了来自搜狗的研究员文仕学对语音分离方面主要的研究课题和相关方法做一些介绍. 文仕学,过去学物理,后来学EE,现在从事Deep Learning工作,未来投身AI和CM事业.他的研究兴趣在于语音信号处理和深度学习.在加入搜狗之前,曾在中国科学技术大学学习,在该领域的期刊和会议上发表了若干篇论文.现在在搜狗语音团队任副研究员

基于深度学习的智能问答

作者:周小强 陈清财 曾华军 1引言 纵观自动问答系统的技术发展历史,从1950年代因图灵测试而诞生至今,已经有几十年的历史.但真正在产业界得到大家的广泛关注,则得益于2011年Siri和Watson成功所带来的示范效应.自此,自动问答系统较以往任何时候都显得离实际应用更近.这一方面归功于机器学习与自然语言处理技术的长足进步,另一方面得益于维基百科等大规模知识库以及海量网络信息的出现.然而,现有的自动问答系统所面临的问题远没有完全解决.事实上,无论是业界应用还是学术研究,问句的真实意图分析.问句

基于深度学习的商品检索技术

雷锋网(公众号:雷锋网)按:本文作者严灿祥,硕士毕业于中科院计算所VIPL课题组.目前就职于百度深度学习研究院.主要从事商品检索技术的研发.所在的识图策略组包括商品搜索.相似搜索.相同搜索与图像猜词等方向. 摘要 商品检索是一门综合了物体检测.图像分类以及特征学习的技术.近期,很多研究者成功地将深度学习方法应用到这个领域.本文对这些方法进行了总结,然后概括地提出了商品特征学习框架以及垂类数据挖掘方式,最后介绍了商品检索技术在服装搭配中的应用. 前言 几年前,当人们还在感叹于网页购物的快速便捷时,

海康威视基于深度学习的“文字识别技术”在国际竞赛中斩获第一

近日,海康威视研究院预研团队基于深度学习技术研发的OCR(Optical Character Recognition,图像中文字识别)技术,刷新了ICDARRobust Reading竞赛数据集的全球最好成绩,并在"互联网图像文字"."对焦自然场景文字"和"随拍自然场景文字"三项挑战的文字识别(Word Recognition)任务中,大幅超越国内外强劲参赛团队,标志着海康威视的文字识别技术达到国际领先水平.   ICDAR(Internatio

基于深度学习的智能安防系统结构探讨

智能安防的概念提出已经有相当长时间了,但是道路并不平坦,受限于计算机视觉算法和前端设备处理能力,许多功能一直无法成熟应用.但是厂商在宣传智能水平方面往往有夸大的冲动,使得产品在部署使用后,实际性能与用户期待相去甚远.虽然这种情况使得安防领域的智能化陷入了一段尴尬时期,同时也降低了用户的期望值,使用户更加理性的看待智能安防技术,也使得真正优秀的智能安防产品能得到机会.最近数年来深度学习算法的快速发展,在各类人工智能问题上的优异表现给智能安防领域带来了新的机遇.在深度学习迅速发展的大背景下,本文就智

《中国人工智能学会通讯》——6.4 基于深度学习的知识图谱构建

6.4 基于深度学习的知识图谱构建 随着深度学习在自然语言处理领域应用的不断深入,人们也开始尝试将深度神经网络用于知识图谱的自动构建.在此,以实体和关系的表示学习技术为基础,讨论深度学习在命名实体识别.关系抽取.关系补全等任务上的应用. 命名实体识别 命名实体识别是从文本中提取出和人名.地名等特定的短语或名称的任务.早期的命名实体识别主要基于规则和词典来进行,对规律性较强的文本环境较为适合,但难以摆脱对领域专家的的依赖,费时费力且难以移植[28] .随着语料数据的增长,研究者逐步将机器学习和统计

《中国人工智能学会通讯》——7.2 基于深度学习的自然语言处理

7.2 基于深度学习的自然语言处理 深度学习旨在模拟人脑对事物的认知过程,一般是指建立在含有多层非线性变换的神经网络结构之上,对数据的表示进行抽象和学习的一系列机器学习算法.该方法已对语音识别.图像处理等领域的进步起到了极大的推动作用,同时也引起了自然语言处理领域学者的广泛关注. 如图 1 所示,深度学习为自然语言处理的研究主要带来了两方面的变化,一方面是使用统一的分布式(低维.稠密.连续)向量表示不同粒度的语言单元,如词.短语.句子和篇章等:另一方面是使用循环.卷积.递归等神经网络模型对不同的