自动分词与中文搜索引擎

笔者一直从事中文自动分词的研究,其中一个朴素的想法就是该研究对WWW上的中文搜索引擎一定会有帮助,但又常常为开放环境下自动分词难以达到满意的精度而苦恼。近来忽似有所悟,在此将点滴心得写出来,以抛砖引玉。一个关于中文搜索引擎的“有趣”体验
  先讲一段笔者的“有趣”经历。一日,偶然想在WWW上查找与日本“和服”有关的资料。打开Yahoo China(http://cn.yahoo.com/)的搜索引擎,很自然地选择“和服”作为query。
  检索结果完全出乎意料:找到了255个“相关网站”,却鲜有与“和服”相关者,如:“中国人才热线 GB - 提供招聘及求职的资讯和服务”。在255个网站中逐一查看实不能忍受,重新(即独立于以前的检索结果,下同)键入“和服” and “日本”,希望能缩小搜索范围。这次只得到一个与“和服”相关的网站:“宁波市江东星星丝织腰带厂 GB - 从事日本和服腰带的刺绣及制造”。

  笔者不相信诺大的Yahoo China仅存此硕果,故又试“和服” and “服装”。这次共返回45个网站,但相关的仍只有“宁波市江东星星丝织腰带厂”,检索精度为1/45。笔者着实感到疑惑:难道真的要守宝山空手而归吗?脑海中忽跳出一个绝妙好词:“日式”,赶快键入“和服” and “日式”,终于挖出不少“宝”来:返回了1140个网页(不知为什么,查的是“相关网站”,操作也与以前完全相同,但反馈却死活都是“相关网页”),其中不乏与“和服”相关的内容,如:“和服文化“,下面是和服、日式服装商品的市场和其他纤维制品市场的比较图……”终于“大功告成”,当时心里一阵轻松。过后回想此事,却觉得不那么简单:如果想不出“日式”这个词,还要试多少个其他词?又有多少个相关的网页笔者根本就无从知道?不确定性太强了,似乎并不很易琢磨。检索好像成了一门“艺术”,而不是一门“技术”。

  中文搜索引擎性能的初步测试
  这一段体验促使我对中文搜索引擎的性能做了一个初步的调查。当时我正在香港大学讲学,于是要求50名香港大学的学生每人向Yahoo Hong Kong(http://hk.yahoo.com/)键入一个感兴趣的词作为查询,然后分别考察所查询的检索精度。检索精度定义为:检索出来的与查询真正相关的网站(页)数/检索出来的网站(页)数。如果检索出来的网站(页)大于50个,则只考察前50个。

  这50个检索词及所对应的检索精度(%)如表1所示。
  检索结果表明,Yahoo Hong Kong没有做分词处理,平均检索精度仅为48.8%,其中一半是垃圾。表2列出了部分检索实例。从检索错误来看,情况相当复杂,涉及中文自动分词的各个方面,包括交叉歧义(如“研究生态学理论及应用”。下划线指示检索词,下同)、组合歧义(“推动以人为本的教育”)、中国人名(如“山东安百合律师事务所”)、外国人名(如“海伦和约翰”、“介绍酒井法子”)、 中国地名(如“泌阳县双庙街乡”)、外国地名(如“埃及和约旦”)、机构名( 如“掌天气功疗法中心”)、缩略语(如“中大型ERP软件”)等。

为了粗略估计分词系统对中文搜索引擎可能带来的影响,笔者用清华大学自行研发的中文分词系统CSeg&Tag对与这50个词相关的122个典型例句(均由Yahoo Hong Kong 给出,包括“检索错误的例子”78句及“检索正确的例子”44句,其中部分例句见表2)进行了自动分词,分词结果如表3所示。

  总体上,对这122句的分词正确率为76.2%。假设这可在一定程度上反映对50个词检索出来的所有句子的分词结果的话,则检索精度则可以从48.8%上升到76.2%。可见,虽然目前分词系统的性能距理想状态还有相当的距离,对搜索引擎的作用也是所谓的“有一利也有一弊”,但权衡利弊,还是利大于弊。换言之,分词技术在搜索引擎中是可用的。

  进一步分析CSeg&Tag系统分词出错的29个句子, 还可以分为两类:第一类(共11句),基本上是由于对未登录词没能做正确的处理, 被切开了, 但幸运的是,该词的边界并没有同周围的其他词产生纠葛(如“联 有 机器 有限公司”);第二类(共18句),则是或者把词的边界搞错了(如“掌
天气 功 疗法 中心”),或者不该合的成分被当做一个“词”合起来了(如“含 学会 及第 十 届 亚洲 医学会 大会 介绍”)。第一类对搜索引擎的影响,在效果上与不做分词处理的完全一样,
  所以,如果加上这11句,针对50个词的检索精度可望由76.2%提高到85.2%。第二类对搜索引擎则属致命伤,是我们最不希望也是最怕遇见的情形。再仔细分析一下,
  其中有的情形通过简单的规则可以解决(如“及第”,如果后面紧跟数词,一般应分开),但大部分情形并不容易对付,甚至在WWW环境下,我们连到底会遇到多少类似的情形都不可能预测出,更遑论有效解决了。经验告诉我们,不管投入怎样的努力,分词系统永远不可能在开放环境下达到完美境界——这意味着我们在构造中文搜索引擎时,必须首先接受这样一个基本假设:再健壮的中文分词系统在处理真实文本时也会不可避免地发生某些不可预期的错误,而能达到90%的分词精度已经是谢天谢地了,出现错误是必然的、正常的。研究中文搜索引擎的机制也好,算法也罢,试图提高检索的召回率也好,精确率(精度)也罢,必须在这个基本假设上进行,否则无异于缘木求鱼。

未来的研发方向
  鉴于以上讨论,笔者认为:面向搜索引擎的中文分词系统一定是基于一个字词混合的模型,相应的文本检索机制也一定是字词混合的。而针对这种模型和机制的研究势必成为未来几年内中文自动分词系统及中文搜索引擎系统研发中的前沿与热点课题。

  笔者得到的另一个启发是:中文搜索引擎关于不同词的响应特性存在着很大的差异,比如,即使不分词,对“旗袍”的检索精度仍可达到100%,对“土人”的检索精度则为0。11545.html">我们有必要对全部汉语常用词做穷举式的逐一调查:相对于中文搜索引擎,该词的“响应”特性如何?是否存在某种简捷的解决办法(如“土人”几乎均出现于“风土人情”中)?或者干脆受研究水平的限制,目前根本就不可能找到解决之道?等等。这项调查对设计基于分词技术的新一代中文搜索引擎将是一个颇具价值的基础性工作。

时间: 2024-09-15 03:22:25

自动分词与中文搜索引擎的相关文章

分析:中文搜索引擎百度排名初步观察

百度|排名|搜索引擎|中文 这半个多月以来,我比较注意我的博客在百度的排名.原因当然是我准备优化中文网站,而百度目前为止是占有最大市场份额的中文搜索引擎. 以前因为都是做英文网站,所以没有太注意百度等中文搜索引擎.这半个多月的观察,有一些小小的心得和大家一起分享讨论. 第一,百度蜘蛛极为活跃.从服务器日志文件分析来看,百度蜘蛛抓取的频率和数量都非常大.百度蜘蛛每天都会访问我的博客,并且至少抓取几十个网页.我的博客只开通了不到一个月,网页数目有限,可见百度蜘蛛的活动已经相当可观了.看来海量抓取是百

案例分析:探讨国内中文搜索引擎的异同

网络推广分为很多层次,而网站优化排名是最常规的网站推广模式,它具有成本低.精准高的特点.下面我们需要来认识一下国内中文搜索引擎各自有哪些特色和 当前,国内目前有八个正常运营上线的搜索引擎,它们包括百度.搜狗.360.搜搜.即刻.有道.云云和盘古.由于盘古的首页更加门户化,而其由于中移动背景致使其更为注重移动互联搜索的方向,在这里就不加以对比了. 一.360搜索是2012年8月16日推出的,9月21日正式成立独立so.com域名.前期360搜索的算法和百度老算法具有一定的相似性(360拥有一搜的基

2013年母亲节 赏析中文搜索引擎庆祝涂鸦

母亲节是一个子女感恩母亲的节日,目前所知最早的母亲节起源于古希腊.在这一天,古希腊人向希腊众神之母赫拉致敬.其后17世纪中叶,节日流传到英国.在这一天里,出门在外的年青人会返家,送给母亲一些小礼物. 我们知道搜索引擎在特殊的节日中都会更换首页的涂鸦来庆祝,在2013年的母亲节也不例外,今日各中文搜索引擎也更换了首页的涂鸦来庆祝这一节日,下面我们就来赏析一些这些美丽且有纪念意义的庆祝涂鸦. 一:百度庆祝涂鸦 上图我们看到的是今年百度的庆祝涂鸦,涂鸦中我们可以看到有一位母亲正在织毛衣,一个孩子正在把

中文搜索引擎的研究-搜索引擎技术

目前搜索引擎的应用越来越广,是网民的上网必备工具.   在中国使用广泛的搜索引擎主要有:baidu google 中搜 北大天网 一搜 搜狗 还有一些专业的搜索,比如海量做的音乐搜索 http://www.1234567.com 还有 西祠胡同 的创始人 做的 http://www.pagou.com ,这些都是做的挺不错.由此可见,搜索引擎的市场还是非常庞大的.尤其是baidu的成功上市,给业界很大的鼓舞.   目前的主要搜索引擎的模式都是,用户输入一些关键字或者句子,无论是那种,搜索引擎都会

中文搜索引擎的十大误区-搜索引擎技术

误区1.网站目录就是 搜索引擎 网站目录通常是经过人工分类的有系统的网站列表,通常附带有搜索功能.网站目录就是搜索引擎的名词始于雅虎,雅虎初创时就是只有一个网站目录.当然很快就通过外包的形式增加了网页级的搜索.中文网站提供目录搜索的远多于提供网页搜索的,加之媒体的各种炒作,许多网民误以为网站目录的搜索功能就是搜索引擎. 在美国,因特网搜索引擎通常指的是收集了因特网上几千万到几亿个网页并对网页中的每一个词进行索引的搜索服务系统,是基于网页的全文检索系统.误区2.搜索引擎就是门户站点 如果你要提供搜

怎样针对百度中文搜索引擎进行网站优化?

现在很多的站长,优化爱好者都在谈怎么给自己的站点做优化,什么叫优化?讲的白话一点,那就是利用自己站点的相关资源去换取搜索的好感而获得很好的反馈流量.现在网络上充斥着各种各样的教程和优化心得.都有可取之处,但往往和多新手朋友看了以后又觉得很茫然.无从下手.狐狸今天就从自己的站点的优化方式来谈谈搜索优化到底是个什么东西.本文所谈优化只针对中文搜索引擎百度,文章仅供讨论研究,无任何学术见解.欢迎更多朋友一起讨论. 第一篇:域名选择和目录分层 有看官问:选择一个域名还能对搜索有啥影响啊?反正域名能用就行

全球最大的中文搜索引擎百度发布年度搜索风云榜

昨日,http://www.aliyun.com/zixun/aggregation/31877.html">全球最大的中文搜索引擎百度发布2012年度搜索风云榜.同时,再次联手国内知名的社会舆情学术研究机构中国人民大学舆论研究所,基于这些真实呈现2012年中国网民搜索行为的21个年度榜单,整合出当下中国老百姓对民生.经济.社会期待.社会责任等一系列关注指数.天府早报作为此次搜索风云榜的区域合作媒体,也和百度一道共同呈现了今年中国网民对现实问题的关注. 今年的百度年度搜索风云榜的基础榜单,

不知哪位高手有没有关于搜索引擎的爬虫源代码(最好是关于中文搜索引擎的).借我看看~

问题描述 不知哪位高手有没有关于搜索引擎的爬虫源代码(最好是关于中文搜索引擎的).借我看看~最好是类拟www.sodu.com.cn的QQ:289756289e-mail:delta2001@163.com

中文搜索引擎技术揭密:中文分词-搜索引擎技术

信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google.百度.中国搜索等大型搜索引擎一直是人们讨论的话题.随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索.8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点. 搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista.overture.google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上