信息论在网页信息处理中的应用

  我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。

  先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,读者会很自然地想到,既然语言模型能减少语音识别和机器翻译的错误,那么就拿一个语音识别系统或者机器翻译软件来试试,好的语言模型必然导致错误率较低。这种想法是对的,而且今天的语音识别和机器翻译也是这么做的。但这种测试方法对于研发语言模型的人来讲,既不直接、又不方便,而且很难从错误率反过来定量度量语言模型。事实上,在贾里尼克(Fred Jelinek)的人研究语言模型时,世界上既没有像样的语音识别系统,更没有机器翻译。我们知道,语言模型是为了用上下文预测当前的文字,模型越好,预测得越准,那么当前文字的不确定性就越小。

  信息熵正是对不确定性的衡量,因此信息熵可以直接用于衡量统计语言模型的好坏。贾里尼克从信息熵出发,定义了一个称为语言模型复杂度(Perplexity)的概念,直接衡量语言模型的好坏。一个模型的复杂度越小,模型越好。李开复博士在介绍他发明的 Sphinx 语音识别系统时谈到,如果不用任何语言模型(即零元语言模型)时,复杂度为997,也就是说句子中每个位置有 997 个可能的单词可以填入。如果(二元)语言模型只考虑前后词的搭配不考虑搭配的概率时,复杂度为 60。虽然它比不用语言模型好很多,但是和考虑了搭配概率的二元语言模型相比要差很多,因为后者的复杂度只有 20。

  信息论中仅次于熵的另外两个重要的概念是“互信息”(Mutual Information) 和“相对熵”(Kullback-Leibler Divergence)。

  “互信息”是信息熵的引申概念,它是对两个随机事件相关性的度量。比如说今天随机事件北京下雨和随机变量空气湿度的相关性就很大,但是和姚明所在的863.html">休斯敦火箭队是否能赢公牛队几乎无关。互信息就是用来量化度量这种相关性的。在自然语言处理中,经常要度量一些语言现象的相关性。比如在机器翻译中,最难的问题是词义的二义性(歧义性)问题。比如 Bush 一词可以是美国总统的名字,也可以是灌木丛。(有一个笑话,美国上届总统候选人凯里 Kerry 的名字被一些机器翻译系统翻译成了"爱尔兰的小母牛",Kerry 在英语中另外一个意思。)那么如何正确地翻译这个词呢?人们很容易想到要用语法、要分析语句等等。其实,至今为止,没有一种语法能很好解决这个问题,真正实用的方法是使用互信息。具体的解决办法大致如下:首先从大量文本中找出和总统布什一起出现的互信息最大的一些词,比如总统、美国、国会、华盛顿等等,当然,再用同样的方法找出和灌木丛一起出现的互信息最大的词,比如土壤、植物、野生等等。有了这两组词,在翻译 Bush 时,看看上下文中哪类相关的词多就可以了。这种方法最初是由吉尔(Gale),丘奇(Church)和雅让斯基(Yarowsky)提出的。

  当时雅让斯基在宾西法尼亚大学是自然语言处理大师马库斯 (Mitch Marcus) 教授的博士生,他很多时间泡在贝尔实验室丘奇等人的研究室里。也许是急于毕业,他在吉尔等人的帮助下想出了一个最快也是最好地解决翻译中的二义性,就是上述的方法,这个看上去简单的方法效果好得让同行们大吃一惊。雅让斯基因而只花了三年就从马库斯那里拿到了博士,而他的师兄弟们平均要花六年时间。

  信息论中另外一个重要的概念是“相对熵”,在有些文献中它被称为成“交叉熵”。在英语中是 Kullback-Leibler Divergence,是以它的两个提出者库尔贝克和莱伯勒的名字命名的。相对熵用来衡量两个正函数是否相似,对于两个完全相同的函数,它们的相对熵等于零。在自然语言处理中可以用相对熵来衡量两个常用词(在语法上和语义上)是否同义,或者两篇文章的内容是否相近等等。利用相对熵,我们可以到处信息检索中最重要的一个概念:词频率-逆向文档频率(TF/IDF)。我们下回会介绍如何根据相关性对搜索出的网页进行排序,就要用的餐TF/IDF 的概念。另外,在新闻的分类中也要用到相对熵和 TF/IDF。

  欢迎大家一起讨论!我是琥珀 欢迎志同道合的朋友一起到我的站 www.kaixin765.cn 交流!

时间: 2024-09-12 08:55:16

信息论在网页信息处理中的应用的相关文章

一文搞懂HMM(隐马尔可夫模型)

什么是熵(Entropy) 简单来说,熵是表示物质系统状态的一种度量,用它老表征系统的无序程度.熵越大,系统越无序,意味着系统结构和运动的不确定和无规则:反之,,熵越小,系统越有序,意味着具有确定和有规则的运动状态.熵的中文意思是热量被温度除的商.负熵是物质系统有序化,组织化,复杂化状态的一种度量. 熵最早来原于物理学. 德国物理学家鲁道夫·克劳修斯首次提出熵的概念,用来表示任何一种能量在空间中分布的均匀程度,能量分布得越均匀,熵就越大. 一滴墨水滴在清水中,部成了一杯淡蓝色溶液 热水晾在空气中

《SOA达人迷》—术 语 表

术 语 表 SOA达人迷 抽象(abstraction):减少组件之间的依赖性,可以更好地发挥软件的作用.在软件领域,抽象是非常重要的:在SOA环境中,服务要尽可能地抽象. 访问控制(access control):决定哪些人或哪些应用程序可以访问哪个位置.在什么时间可以访问以及访问的方式. ACID:是原子性(atomicity).一致性(consistency).隔离性(isolation)和持久性(durability)的英文单词首字母的缩写词,它是正确进行事务处理的核心需求. 适配器(a

物联网大数据将吞噬整个地球

文章讲的是物联网大数据将吞噬整个地球,人类创造的物理世界有多大,我们有衡量的概念,但是人类创造的数字世界到底有多大,相信这个概念还不够具体. 在大多数人的印象中,数据就是数字,或者必须是由数字构成的,其实不然,数据的范畴比数字要大得多,信息.现象.数据.状态和知识都可以是数据的一部分. 人类创造的物理世界的一切都可以是数据,在互联网上传播的文字.图片和视频是数据;工厂里所有的档案.尺寸.记录是数据;文物上的尺寸.年代.工艺也是数据.地球甚至宇宙存在的空间和时间也都可以是数据,小到一个粒子,大到一

大数据时代的商业银行数字化转型

一.大数据推进数字化转型的特性 大数据是指数据容量大到超出传统数据工具获取.存储.管理和分析的能力,同时,大数据由量变引起质变,需要创新思维模式和处理方式,能带来更强的决策能力.洞察能力.流程优化能力.大数据的内涵决定其具有推进商业银行数字化转型的特性. 加速金融脱媒.以商业银行为代表的金融机构在传统金融体系内扮演者信息中介的角色,在充斥信息不对称的金融市场中,规范着一种金融秩序.随着大数据时代的来临,传统金融机构作为中介媒介正成为低效率和高成本的制造者,传统金融体系的脱媒化趋势愈演愈烈.大数据

大数据时代商业银行数字化转型

大数据时代的来临,催化了互联网金融的发展,随着大数据技术日益广泛应用,对金融生态和金融格局都将产生深刻影响.国家层面对大数据发展给予高度重视,2015年8月,国务院印发<促进大数据发展行动纲要>,明确指出大数据已成为国家基础性战略资源,<大数据产业"十三五"发展规划>已征求了专家意见,有望年内发布.我国商业银行在经历十年的高速增长后正步入转型时期,其整体运营模式正在从"外延式"发展向"精细化"发展转型.未来的商业银行应主动

js图片处理示例代码_javascript技巧

复制代码 代码如下: var ImgObj=new Image(); //建立一个图像对象 var AllImgExt=".jpg|.jpeg|.gif|.bmp|.png|"//全部图片格式类型 var FileObj,ImgFileSize,ImgWidth,ImgHeight,FileExt,ErrMsg,FileMsg,HasCheked,IsImg//全局变量 图片相关属性 //以下为限制变量 var AllowExt=".jpg|.gif|.doc|.txt|&q

百年IBM启示录:一切都可以变,除了信仰

在IBM发展的100年历史上,曾经有5人获得诺贝尔奖,6人获得图灵奖.这两个数字看似简单,实则厚重.要知道,迄今为止,中国本土科学家在诺贝尔奖项中还未打破零的记录.而设立于1966年的图灵奖,也是美国计算机协会在计算机技术方面所授予的最高奖项,是计算机界的诺贝尔奖. 从帮助地球人登上月球,到发明UPC编码和条形码扫描技术,从在线银行到计算机航空预定系统--100年来,IBM在基础研究和应用技术领域不断创新,引领信息科技走向变革,改变着我们的世界,也成就了自身的百年基业. IBM究竟凭借什么历久弥

遥感图像分类现状及存在的问题

根据有无监督训练样本,可以将遥感图像分类算法分为监督分类和非监督分类两大类. 根据分类的对象,可将遥感分类算法分为基于像元的分类算法.基于对象的分类算法,以及基于混合像元分解算法三大类. 基于像元的分类 基于像元的分类,就是分类的研究对象是单个像元,利用像元的光谱信息.纹理信息.空间关联等信息对像元表示的地物类别属性进行判断.这一类分类算法是目前研究得最多.最深入的分类算法. 在遥感图像自动分类中,传统的基于数理统计的分类方法,主要包括最小距离分类.最大似然分类.波谱角分类.混合距离法分类等,主

高级计划排程系统以及APS的功能定义

IT信息技术(IT)的硬件和软件,使信息系统成为可能.术语的硬件包括装置及其他在信息处理中涉及的物质的东西,如电脑,工作站中,物理网络,以及数据存储和发送装置. "软件的计算机程序,它可以解释用户输入,并告诉硬件做什么. 文章参考的两个目标:首先是要查看以前的文学和识别可能存在的差距.二是要奠定了基础.在分析中使用理论.在第一部分中的APS系统的定义进行了讨论.第二部分介绍了生产规划和控制系统.文学的研究结果是为了产生一些通用的模型和结果如何创建和利益的预期使用时是在制造规划和控制程序. &qu