数学之美:自然语言处理-从规则到统计

正文

  如图

  

  语言的出现是为了人与人之间的通信。任何一种语言都是一种编码方式,而语法规则是编解码的算法。其数学本质:ta可以用某种语言解码方式得到另一个ta的表达意思。

  现在,大家用的很多的。搜狗输入法的语音识别,苹果的siri等。都象征着,计算机能处理自然语言,处理语言的方式和人类的一样。

   

 

 

机器智能(规则)

  图灵测试:是一种来验证机器是否能有智能的方法:让人和机器进行交流,如果无法判断自己交流是人还是机器,那就说明机器是智能。

    

 

  就想学英语一样,语法,名词(n.),动词(v.)...很多实在的规则摆在我们面前,就想固定住的是的。人们思维也觉得合情合理,这不是天然的一种数据结构。多好的规则,多好的结构,可以让算法来描述。

    

      这貌似计算机可以实现?

 

  但事实摆在眼前,

    "The pen is in the box "    "The box is in the pen"

    钢笔在盒子里                     盒子在围栏里

  如果运用规则处理的话,这两句话就是典型的问题。计算机无法判断,如果有人说



if

  #我说的只是一个例子,这种例子在一种数量级上的,所以if失败

 

  但自然语言的处理,并非是靠计算机理解力自然语言而完成的。事实上,靠的是数学中的统计。进而出现了统计语言学,进而才有了今天的我们手中的siri。

 

从规则到统计

  统计,统计语言学。最近,学校里安排了概率论。原来概率在这块领域作用很大,问下老师一些问题。心态豁然开阔。就是统计语言模型里面涉及(下篇博客出)。关于此方面的书,我针对的去看,豆瓣会更新:http://book.douban.com/doulist/3909716/

 

  例子

    我爱美丽的花

  

  数学

  p(我想要的)=p(W,Q,E,R)

  然后可用,概率哦(下篇博客出),我们仔细讨论这个问题。

 

总结

  就这样,基于统计的自然语言处理方法(统计语言模型),用数学把复杂的问题简单化。

 

时间: 2024-11-17 18:01:44

数学之美:自然语言处理-从规则到统计的相关文章

数学之美:平凡又神奇的贝叶斯方法

◆ ◆ ◆ 前言 这是一篇关于贝叶斯方法的科普文,我会尽量少用公式,多用平白的语言叙述,多举实际例子.更严格的公式和计算我会在相应的地方注明参考资料.贝叶斯方法被证明是非常 general 且强大的推理框架,文中你会看到很多有趣的应用. ◆ ◆ ◆ 1.历史 托马斯·贝叶斯(Thomas Bayes)同学的详细生平在这里.以下摘一段 wikipedia 上的简介: 所谓的贝叶斯方法源于他生前为解决一个"逆概"问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表出来的.在贝叶斯写这

我读经典(1):读《数学之美》有感

        一提到"数学",很多人也许就会感到头痛.确实,在大学的所有课程中,凡是与"数学"有关的课一般逃课率都比较高,当然挂科率也比较的高.可见,大家对"数学"是多么的"厌恶".         但是,我们每天的生活又离不"数学".你到农贸市场去做买卖,需要算账,这是最简单的"数学".作为软件开发人员的我们,需要设计算法,那就更离不开"数学"了."数学

数学之美 系列二十 -自然语言处理的教父 马库斯

我们在前面的系列中介绍和提到了一些年轻有为的科学家,迈克尔·柯林斯,艾里克·布莱尔,大卫·雅让斯基,拉纳帕提等等,他们都出自宾夕法尼亚计算机系米奇·马库斯(Mitch Marcus)名下.就像许多武侠小说中描写的,弟子都成了各派的掌门,师傅一定了不得.的确,马库斯虽然作为第一作者发表的论文并不多,但是从很多角度上讲,他可以说是自然语言处理领域的教父. 马库斯教授长期当任宾夕法尼亚大学计算机系主任,直到他在几年前从 AT&T 找到皮耶尔替代他为止.作为一个管理者,马库斯显示出在自然处理和计算机科学

数学之美 系列二 -- 谈谈中文分词

谈谈中文分词----- 统计语言模型在中文处理中的一个应用 上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词.例如把句子 "中国航天官员应邀到美国与太空总署官员开会." 分成一串词:中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开会. 最容易想到的,也是最简单的分词办法就是查字典.这种方法最早是由北京航天航空大学的梁南元教授提出的. 用 "查字典" 法,其实就

数学之美:两点之间最快的路径

掉节操的星期一又来了,所以呢一起来观赏一下数学之骚美. 这事儿和17世纪的一道谜题有关,直到后来微积分被建立起来以后才得正解.虽然问题不难,但结果惊艳. 我先来问一个比较「二」的问题: 两点之间最短的路径是什么? 喏,别猜疑我是在逗你们,或拿非欧几何抖机灵,真心希望你们两手一摊就说是一条直线. ◆ ◆ ◆ 铁线上的珠子 现在我们来看一下这次节目我们要探讨的问题: 如果AB两点是在空间中垂直放置的,那么这两点之间的最快路径是什么? 举几个图,如果我们将两点之间用铁线连接,上面穿一颗圆润的珠子,那么

中国设根域名镜像服务器 中美博弈互联网新规则

中介交易 SEO诊断 淘宝客 云主机 技术大厅 "此次网通设立的镜像是中国的第三个镜像."CNNIC(中国互联网络信息中心)相关人员告诉<财经时报>,具体可能是"J根镜像"(序号排在J位置的根镜像).这意味着,今后更多中国网民访问.com及.net网站时,域名解析将不再由设置在境外的域名服务器提供服务. 此前有消息说,12月20日,网通集团已与美国Verisign公司签字,正式开通互联网根域名中国镜像服务器.随后舆论哗然,其中"中国网络安全&q

自然语言理解-从规则到深度学习

1. 引言 自然语言理解是人工智能的核心难题之一,也是目前智能语音交互和人机对话的核心难题.维基百科有如下描述[1]: Natural language understanding (NLU) is a subtopic of natural language processing in artificial intelligence that deals with machine reading comprehension. NLU is considered an AI-hard probl

数学之美:图论和网络爬虫

我们上回谈到了怎样创建搜索引擎的索引,那么怎样自动下载互联网所有的网页呢,它要用到图论中的遍历(Traverse) 算法. 图论的起源可追溯到大数学家欧拉(Leonhard Euler).1736 年欧拉来到德国的哥尼斯堡(Konigsberg,大哲学家康德的家乡,现在是俄罗斯的加里宁格勒),发现当地市民们有一项消遣活动,就是试图将下图中的每座桥正好走过一遍并回到原起点,从来没有人成功过.欧拉证明晰这件事是不行能的,并写了一篇论文,通常以为这是图论的开始. 图论中所讨论的的图由一些节点和连接这些

重磅启动!翻译斯坦福大学课程:深度学习与自然语言处理

像追美剧一样追课程! 大数据文摘已获得斯坦福大学深度学习课程CS224d的翻译授权,重磅启动"斯坦福深度学习课程CS224d"的翻译工程,所有译文将会免费发布,计划每周发布1篇.期待你的加入,加入要求见文末,报名请点击文末"阅读原文". 大数据文摘作品,转载需授权 作者|寒小阳 && 龙心尘 感谢@Fantzy同学的帮助  大数据文摘"机器学习"专栏介绍 本文为大数据文摘机器专栏推出的[数据科学/机器学习]学习分享项目启动篇,我们