萧涵:略谈百度搜索引擎的中文分词技术

  了解搜索引擎分词技术对于我们的SEO工作有着重大的意义,不管是我们的关键词布局还是链接架构,都跟分词有莫大的关联。这里萧涵给大家谈下一百度的中文分词(当然也不局限于百度,其他搜索引擎也是差不多的)。本文分两个部分,首先是摘取已有的关于分词的解释,另外再加入我自己对分词的扩展思路。

  什么是中文分词?

  我们都知道,英文句子都是由一个一个单词按空格分开组成,所以在分词方面就方便多了,但我们中文是一个一个汉字连接而成,所以相对来说是比较复杂的。中文分词指的是将一个汉语句子切分成一个一个单独的词,按照一定的规则重新组合成词序列的过程。这个也称做“中文切词”。

  分词对于搜索引擎有着很大的作用,是文本挖掘的基础,可以帮助程序自动识别语句的含义,以达到搜索结果的高度匹配,分词的质量直接影响了搜索结果的精确度。目前搜索引擎分词的方法主要通过字典匹配和统计学两种方法。

  一、基于字典匹配的分词方法

  这种方法首先得有一个超大的字典,也就是分词索引库,然后按照一定的规则将待分词的字符串与分词库中的词进行匹配,若找到某个词语,则匹配成功,这种匹配有分以下四种方式:

  1、正向最大匹配法(由左到右的方向);

  2、逆向最大匹配法(由右到左的方向);

  3、最少切分(使每一句中切出的词数最小);

  4、双向最大匹配法(进行由左到右、由右到左两次扫描)

  通常,搜索引擎会采用多种方式组合使用。但这种方式也同样给搜索引擎带来了难道,比如对于歧义的处理(关键是我们汉语的博大精深啊),为了提高匹配的准确率,搜索引擎还会模拟人对句子的理解,达到识别词语的效果。基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息,当然我们的搜索引擎也在不断进步。

  二、基于统计的分词方法

  虽然分词字典解决了很多问题,但还是远远不够的,搜索引擎还要具备不断的发现新的词语的能力,通过计算词语相邻出现的概率来确定是否是一个单独的词语。所以,掌握的上下文越多,对句子的理解就越准确,分词也越精确。举个例子说,“搜索引擎优化”,在字典中匹配出来可能是:搜索/引擎/优化、搜/索引/擎/优化,但经过后期的概率计算,发现“搜索引擎优化”在上下文相邻出现的次数非常多,那么基于统计就会将这个词语也加入进分词索引库。关于这点我在《关于电商与圈的分词测试》就是同样的一个例子。

  中文分词的应用

  分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。

  对于我们SEO从业者来说,分词的原理和方法是必须要掌握的,这样才能够将我们的网站设计得让搜索引擎容易确定它的主题相关性。比如我们的网站是关于SEO培训的,当用户在搜索这个词语的时候,搜索引擎首先会对其进行分词,比如分为“SEO”和“培训”,然后在索引库中进行分别匹配。这里还涉及到一点,也是我自己的总结,每个词语分词后有一个主词和副词,通常是优先匹配主词,然后再匹配副词,比如这里显然SEO是主词,所以优先去匹配这个词语,然后是培训这个副词。那么, 我们的网站应该如何去布局和架构,留给大家去思考。

  作者:萧涵 首发萧涵SEO博客,原文地址:http://www.xiaohan86.com/2011061149.html 转载请注明出处。

时间: 2025-01-05 02:03:19

萧涵:略谈百度搜索引擎的中文分词技术的相关文章

百度中文分词技术的一点小猜测

大家都知道,百度的中文分词技术比GOOGLE做的好,以下引用网络上找到的一张图片说明:   从上图可以推断出,百度遇到一个关键字,应该是先不进行分词,而是先检索百度百科的词条和百度指数有指数的中文词进行匹配,无法精确匹配的话,再进行分词,前两年在百度搜索关键字"利川新闻网"时,被分为利川/新闻/网,自从这个关键字有指数以后,百度会把它当做一个完整的关键词. 当然,百度的分词技术肯定比我个人推断出来的要复杂的多,作为百度旗下的产品,百度不会放弃自己的资源,肯定会参考百度百科的词条作为分词

SEOer值得了解的搜索引擎索引和分词技术

在网络公司做过程序开发的朋友都知道,我们通常用的数据库搜索技术就是把用户输入的词汇,跟数据库中的某个或多个字段里的内容进行比较,同样,搜索引擎的运行原理简单来讲也就是这样: 用户输入一个词汇,搜索引擎从他的数据库中找到匹配的内容,再以有序的排列展现给用户,搜索引擎每天就是不厌其烦地不断重复这些操作.看似一切很正常,我们用数据来分析问题-- 全球网民按20亿计算,全球所有网站的网页先假设是50亿个 按每人每天搜索1次(也就是1个关键词,假设都是不重复的) 那么搜索引擎每天要从50亿个网页中搜索比对

搜索引擎算法的分词技术

我们知道,每个搜索引擎都具有分词技术,那么关于分词技术作为SEOer的你了解多少,了解搜索引擎的分词技术对搜索引擎算法研究是很有帮助的,好,下面泰州SEO给大家讲讲什么是搜索引擎的分词技术! 要了解搜索引擎的分词技术就不能不去了解搜索引擎的索引库,因为索引库是分词技术的前提!索引库呢其实就是经过页面分类信息删选过的资料库:我们在去百度搜索信息的时候,百度搜索引擎并不是现查现找,而是搜索引擎早就把各类信息分类归档,每种分类的信息都有一个独立的资料库,而这个独立的资料库就是我们说的索引库,当我们去百

NLP中的中文分词技术

随 着需求的变化和技术的发展,互联网企业对数据的分析越来越深入,尤其是自然语言处理处理领域,近几年,在搜索引擎.数据挖掘.推荐系统等应用方面,都向前 迈出了坚实的步伐.自然语言处理领域涉及的技术非常多,为了让对此领域感兴趣的同学能够快速入门,在这里介绍一下中文信息处理的基本技术:中文分词. 说分词是中文处理的基本技术,是由汉语的特点决定的.汉语的有些单字没有意义,多字合起来才有意义,比如烟囱的"囱","尬尴":有些是单字虽然有意义,但组合之后,意思发生改变,比如&q

中文分词技术简介

中文分词又叫中文切词,中文划词等,是seo必须掌握的一个http://www.aliyun.com/zixun/aggregation/22929.html">基础知识.现有的中文分词算法可分为三大类:基于字符串匹配的分词方法.基于理解的分词方法和基于统计的分词方法. 1.基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词).按照扫描方向的不同,串匹配分词方法可以分

中国人工智能学会通讯——面向知识图谱的自适应中文分词技术

引言 知识图谱用于描述真实世界中存在的各 种实体和概念,知识图谱技术提供了一种从 海量文本和图像中抽取结构化知识的手段[1]. 知识图谱的构建可分为信息抽取.知识融合 和知识计算三部分,其中信息抽取是知识图 谱构建的基础,主要面向各种非结构化数据. 半结构化数据和自由文本数据.这里,自由 文本数据作为一种非结构化数据,是构建知 识图谱的主要数据来源.因此,从中文自由 文本中获取知识需要利用自然语言处理技术 进行信息抽取,诸如实体识别.关系抽取等. 在实体识别过程中,中文分词系统的性能对 实体识别

百度中文分词排名算法实战破解

百度中文分词对于搞SEO的人员来说,肯定不会陌生.今天废话不多说,笔者根据自己的实战经验和站长们分享一下自己对于百度中文分词的排名原则,也喜欢大家多多支持南京SEO博客,笔者定期会分享大量干货的哦! 百度中文分词,说白了就是让一个网站title标题获得更多的匹配度.那么百度中文分词什么时候用,什么时候不能用,我也会说的一清二楚.首先我先说一下百度中文分词在什么情况下不能用.一般我们做的不是垃圾流量站,或者我们做的是品牌高难度词语,这时候,你就不能用百度中文分词,比如我们拿笔者的"南京SEO&qu

浅谈百度中文分词是如何进行的

相信大家对于搜索引擎收录的分词技术一直都很好奇,掌握了解了搜索引擎分词技术对于我们这些站长的工作有很大的帮助:在网站的链接架构及关键词的布局都与分词有很大的关系.平时跟百度接触的比较多,所以就以百度中文分词为例介绍下搜索引擎分词的方法. 中文分词是什么 在了解百度的中文分词之前大家首先要了解什么是中文分词?我们中文与英文不同,是由一个个汉字连接成的,因此分起来相对比较复杂.百度的中文分词是将一个汉语句子切分成一个个的单独的词,然后按照一定的规则重新组合成一个序列的过程,简称"中文切词"

浅谈百度中文分词如何分词

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 中文分词技术是搜索引擎对于用户提交查询的关键词,搜索引擎用中文分词把词按照一定的规格,将一个长尾词分割成几个部分,从而概括一段话的主要内容,让用户能更快速度的找到想要的内容. 搜索引擎最常用的几种分词方法有三种: 一.字符串匹配的方法;(字符串匹配的分词一般为3种:1.正向最大匹配法;2.逆向最大匹配法;3.最少切分) 二.理解分词方法; 三