快速了解什么是自然语言处理

1 计算机对自然语言处理的过程

1.1把需要研究是问题在语言上建立形式化模型,使其可以数学形式表示出来,这个过程称之为"形式化"

1.2把数学模型表示为算法的过程称之为"算法化"

1.3根据算法,计算机进行实现,建立各种自然语言处理系统,这个过程是"程序化"

1.4对系统进行评测和改进最终满足现实需求,这个过程是"实用化"

2 自然语言处理涉及的知识领域

语言学、计算机科学(提供模型表示、算法设计、计算机实现)、数学(数学模型)、心理学(人类言语心理模型和理论)、哲学(提供人类思维和语言的更深层次理论)、统计学(提供样本数据的预测统计技术)、电子工程(信息论基础和语言信号处理技术)、生物学(人类言语行为机制理论)。故其为多边缘的交叉学科

3 自然语言处理涉及的范围

3.1语音的自动合成与识别、机器翻译、自然语言理解、人机对话、信息检索、文本分类、自动文摘等等,总之分为四大方向:

  • 语言学方向
  • 数据处理方向
  • 人工智能和认知科学方向
  • 语言工程方向

3.2也可细分为13个方面

  • 口语输入:语音识别、信号表示、鲁棒的语音识别、语音识别中的隐马尔科夫模型方法、语言模型、说话人识别、口语理解
  • 书面语输入:文献格式识别、光学字符识别(OCR):印刷体识别/手写体识别、手写界面、手写文字分析
  • 语言分析理解:小于句子单位的处理、语法的形式化、针对基于约束的语法编写的词表、计算语义学、句子建模和剖析技术、鲁棒的剖析技术
  • 语言生成:句法生成、深层生成
  • 口语输入技术:合成语音技术、语音合成的文本解释、口语生成
  • 话语分析与对话:对话建模、话语建模口语对话系统
  • 文献自动处理:文献检索、文本解释:信息抽取、文本内容自动归纳、文本写作和编辑的计算机支持、工业和企业中使用的受限语言
  • 多语问题的计算机处理:机器翻译、人助机译、机助人译、多语言信息检索、多语言语音识别、自动语种验证
  • 多模态的计算机处理:空间和时间表示方法、文本与图像处理、口语与手势的模态结合、口语与面部信息的模态结合:面部运动和语音识别
  • 信息传输和信息存储:语音压缩、语音品质的提升
  • 自然语言处理中的数学方法:统计建模和分类的数学理论、数字信号处理技术、剖析算法的数学基础研究、神经网络、有限状态分析技术、语音和语言处理中的最优化技术和搜索技术
  • 语言资源:书面语料库、口语语料库、机器词典与词网的建设、术语编撰和术语数据库、网络数据挖掘和信息提取
  • 自然语言处理系统的评测:面向任务的文本分析评测、机器翻译系统和翻译工具的评测、大覆盖面的自然语言剖析器的评测、语音识别:评估和评测、语音合成评测、系统的可用性和界面的评测、语音通信质量的评测、文字识别系统的评测

 4 自然语言处理的发展的几个特点

  • 基于句法-语义规则的理性主义方法受到质疑,随着语料库建设和语料库语言学 的崛起,大规模真实文本的处理成为自然语言处理的主要战略目标。
  • 自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。
  • 统计数学方法越来越受到重视。
  • 自然语言处理中越来越重视词汇的作用,出现了强烈的"词汇主义"的倾向。

http://www.cnblogs.com/baiboy

时间: 2024-08-02 19:18:58

快速了解什么是自然语言处理的相关文章

ILOG JRules规则集应用与客户端的集成

本文首先介绍了所举实例中要应用的 ILOG JRules V7.0 架构中的主要部分及特性.其次,以设计和实现一个业务规则集应用的开发与集成场景举例,详述了业务规则应用的开发.部署和客户端对其调用的过程.重点讨论了规则应用程序中的执行对象模型 (XOM) 的 Java 设计方式以及此种方式给规则的编写和执行带来的好处,并在最后给出一种基于 Web 服务调用方式的部署在 Rule Execution Server 环境下的规则集与客户机的集成方案和实现过程. 简介 通常情况下,如果企业的业务策略在

综述 | 一文读懂自然语言处理NLP(附学习资料)

前言 自然语言处理是文本挖掘的研究领域之一,是人工智能和语言学领域的分支学科.在此领域中探讨如何处理及运用自然语言. 对于自然语言处理的发展历程,可以从哲学中的经验主义和理性主义说起.基于统计的自然语言处理是哲学中的经验主义,基于规则的自然语言处理是哲学中的理性主义.在哲学领域中经验主义与理性主义的斗争一直是此消彼长,这种矛盾与斗争也反映在具体科学上,如自然语言处理. 早期的自然语言处理具有鲜明的经验主义色彩.如 1913 年马尔科夫提出马尔科夫随机过程与马尔科夫模型的基础就是"手工查频&quo

NLP入门+实战必读:一文教会你最常见的10种自然语言处理技术(附代码)

自然语言处理(NLP)是一种艺术与科学的结合,旨在从文本数据中提取信息.在它的帮助下,我们从文本中提炼出适用于计算机算法的信息.从自动翻译.文本分类到情绪分析,自然语言处理成为所有数据科学家的必备技能之一. 在这篇文章中,你将学习到最常见的10个NLP任务,以及相关资源和代码. 为什么要写这篇文章? 对于处理NLP问题,我也研究了一段时日.这期间我需要翻阅大量资料,通过研究报告,博客和同类NLP问题的赛事内容学习该领域的最新发展成果,并应对NLP处理时遇到的各类状况. 因此,我决定将这些资源集中

【项目总结】自然语言处理在现实生活中运用

1 需求分析与描述:     首先谈下这款软件的来源和用途吧,本科至今没有挂科记录,很不幸第一次<英语学位英语考试<GET>>挂科了.于是,笔者开始疯狂的做题和背单词,对于GET真题很多单词不认识,抱着有道词典,逐字翻译耗时耗力.再说历来10余年试题考试单词范围是一定的,把出现频率高的单词,所谓核心单词掌握了不就事倍功半了?问题来了,不像四六级词汇或者考研词汇市场有专门卖的.当时就开始设想,如果我收集10余年真题,然后去除所有非单词结构(真题算是结构化数据,有一定规则,比较容易处理

学习笔记TF059:自然语言处理、智能聊天机器人

自然语言处理,语音处理.文本处理.语音识别(speech recognition),让计算机能够"听懂"人类语音,语音的文字信息"提取". 日本富国生命保险公司花170万美元安装人工智能系统,客户语言转换文本,分析词正面或负面.智能客服是人工能智能公司研究重点.循环神经网络(recurrent neural network,RNN)模型. 模型选择.每一个矩形是一个向量,箭头表示函数.最下面一行输入向量,最上面一行输出向量,中间一行RNN状态.一对一,没用RNN,如

Robot Framework 快速入门_中文版

目录 介绍 概述 安装 运行demo 介绍样例应用程序 测试用例 第一个测试用例 高级别测试用例 数据驱动测试用例 关键词keywords 内置关键词 库关键词 用户定义关键词 变量 定义变量 使用变量 组织测试用例 测试套件 启动和卸载 使用标签 创建测试库       介绍 概述 Robot Framework 是一个关键词驱动的自动测试框架.测试用例位于HTML或者TSV(以tab分隔值)文件,使用在测试库中实现的关键词来在测试中运行程序.因为Robot Framework 是灵活和可扩展

一文读懂机器学习,大数据/自然语言处理/算法全有了……

作者:计算机的潜意识 在本篇文章中,我将对机器学习做个概要的介绍.本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践.这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核.当然,本文也面对一般读者,不会对阅读有相关的前提要求. 在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢? 我并不直接回答这个问题前.相反,我想请大家看两张图,下图是图一: 图1 机器学习界的执牛耳者

自然语言处理技术(NLP)在推荐系统中的应用

个性化推荐是大数据时代不可或缺的技术,在电商.信息分发.计算广告.互联网金融等领域都起着重要的作用.具体来讲,个性化推荐在流量高效利用.信息高效分发.提升用户体验.长尾物品挖掘等方面均起着核心作用.在推荐系统中经常需要处理各种文本类数据,例如商品描述.新闻资讯.用户留言等等.具体来讲,我们需要使用文本数据完成以下任务: 候选商品召回.候选商品召回是推荐流程的第一步,用来生成待推荐的物品集合.这部分的核心操作是根据各种不同的推荐算法来获取到对应的物品集合.而文本类数据就是很重要的一类召回算法,具有

自然语言理解-从规则到深度学习

1. 引言 自然语言理解是人工智能的核心难题之一,也是目前智能语音交互和人机对话的核心难题.维基百科有如下描述[1]: Natural language understanding (NLU) is a subtopic of natural language processing in artificial intelligence that deals with machine reading comprehension. NLU is considered an AI-hard probl