浅述搜索引擎的分词算法 了解全文检索技术

  21世纪互联网的快速发展让人们生活越来越便利,当日益剧增的海量信息让我们眼花缭乱时,搜索引擎的出现可以让我们快速找到自己想要的答案。因此多了解搜索引擎的分词算法,可以让网站在搜索引擎上获得更好的展现机会。在讲解中文分词技术之前,先来了解下全文检索技术。

  全文检索技术

  全文检索是指索引程序扫描文章中的每个词并建立对应索引,记录该词出现的位置和次数。当通过搜索引擎查询时,检索程序就在记录的索引进行查找并返回给用户。全文检索又分为基于字的全文索引和基于词的全文索引。基于字的全文索引会对内容中的每个字建立索引并记录,此方法查全率高,但查准率低,特别是对于中文,有时搜索马克,会列出马克思的结果。基于词的全文索引是把一个词语作为一个单位进行索引记录,并能处理同义词。搜索引擎有自己的词库,当用户搜索时,搜索引擎会从词库中抽取关键词作为索引项,这样可以大大提高检索的准确率。

  中文分词技术

  一直以来大家都比较熟悉百度,百度有自己的中文分词技术。一般采用的包括正向最大匹配,反向最大匹配,最佳匹配法,专家系统方法等。其中最大正向匹配是最常用的分词解决方案,它采用机械式算法,通过建立词典并进行正向最大匹配对中文进行分词。举个简单的例子比如搜索“北京大学在哪里”,则返回结果很多都是包含北京大学,北大等词语的网页,搜索引擎就是采用正向最大匹配去判断,把北京大学当做一个词语来索引记录并返回。当然,正向最大匹配也有不完整性,比如长度过长的词语,搜索引擎有时无法准确的分词,或者对前后都相互关联的词无法准确分词。例如“结合成分子时”,会被返回结合、成分、子时,而有时我们想要的关键词是“分子”。

  很多时候百度都会根据自己词库中词语的权重进行拆分,权重的计算基于生活各个方面,比较复杂,搜索引擎要做的就是返回用户最想要的结果,有时站长们做网站要站在用户的角度去考虑问题,其实这也是站在搜索引擎的角度考虑问题,不论在确定目标关键词或者是长尾关键词时,都可以根据中文分词的原理来选择,这样可以最大化的减少无用功。

  分词原理不断在变化,不断在更新,我们应该继续学习,只有掌握了本质才能抓住实质。本文出自深圳网站建设,原文地址:http://www.68160.com ,欢迎大家和我交流,以后关于更多分词技术,特别是中文分词技术的更多应用我会陆续和大家分享。

时间: 2024-09-20 00:29:32

浅述搜索引擎的分词算法 了解全文检索技术的相关文章

SEO搜索中文分词算法原理实战教程

SEO搜索中文分词算法原理实战教程,如果一个人想成为一个合格的SEO人员,那么搜索引擎分词思维是必须掌握的,因为只有掌握了分词思维,你才可以做出搜索引擎喜欢,而且用户也喜欢的网页,虽然在梦想之旅视频教程中有和大家分享过搜索引擎中文分词原理,但没有完全的,系统的用文字版本和图片版本和大家分享,那么顾芳源就带大家如何正确学习SEO搜索分词思维吧. 搜索引擎中文分词原理 首先我们要知道搜索引擎工作原理是把每个网页的内容按词来录入到数据库,比如你的文章标题是:梦想SEO实战培训提供免费SEO教程,那么搜

浅析中文分词算法 助力站长更好做优化

分词算法以前偶尔也懂些,但是懂的不透彻,最近看了很多相关的书,然后去互联网上又学习了一部分,算是有了个大概的了解.其实了解分词算法无论对于个人站长一些中小型企业,都十分有帮助.通过这些词的拆分,能让我们对关键词的把握更加的精准.好了,下边开始今天的正文,如果有不对的的地方,还希望大家多指正. 通常的分词算法往往是针对中文搜索引擎而言,对于Google则不存在,在百度和Google上搜索同样一个关键词或者短语,返回的结果是不同的,这不仅仅是算法不同或者技术不同的原因,更多是因为分词算法的存在.百度

蒋鑫鹏:百度搜索算法总结—关键词分词算法

此文接上文百度算法总结详细请点击:蒋鑫鹏:百度算法总结 一.关于中文分词: 1.中文分词难度分析 首先要说明下的是:普通用户的搜索与做SEO或者更大说熟悉网络搜索用户的搜索习惯是非常不一样的,而恰巧普通搜索用户是百度搜索的基础力量.在开头赘述 这一点是蒋鑫鹏为了表达其对于百度搜索算法中的中文分词的重视.因为,对于百度google这样的第二代搜索引擎来说,采用的检索技术主要是依靠关键字来 匹配的,而用户对于关键词的理解与机器程序对于关键词的理解是有很大距离的. 在中文分词方面百度胜过了Google

三种中文分词算法优劣比较

到目前为止,中文分词包括三种方法:1)基于字符串匹配的分词:2)基于理解的分词:3)基于统计的分词.到目前为止,还无法证明哪一种方法更准确,每种方法都有自己的利弊,有强项也有致命弱点,简单的对比见下表所示: 各种分词方法的优劣对比 分词方法 基于字符串匹配分词 基于理解的分词 基于统计的分词 歧义识别 差 强 强 新词识别 差 强 强 需要词典 需要 不需要 不需要 需要语料库 否 否 是 需要规则库 否 是 否 算法复杂性 容易 很难 一般 技术成熟度 成熟 不成熟 成熟 实施难度 容易 很难

百度分词算法详解第1/2页_网站运营

本文通过搜索结果归纳分析+切词通用算法分析的方式对百度预处理阶段的查询处理和中文分词两项技术进行了阐述.总结,如果你对数据结构.算法有一定了解的话,理解起来会相对容易些:个人感觉,得出正向最大匹配算法不够准确,无论是专用词典还是普通词典里的词,都是有不同权重的,这根搜索频率应该有一定关系,基于这点,在出现多个专用词典里的词时,是需要采用双向最大匹配算法来检测到底哪一个专有词汇应该先被切出来,当然,这是个人猜想,有待考究. 理解分词技术对SEO工作具有极大意义,可以从科学的角度来分析关键词,并构想

浅述网站优化和网络推广的关联性

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 目前很多人都分不清网站优化,SEO,网络推广这三者到底是什么关系,于是,笔者今日就再来浅述一下这三者的关联和区别.要了解这三者的关系,首先需要理解三者的定义. 网站优化是用网络营销导向的网站建设思想来指导网站基本要素的专业化设计,是一项系统性和全局性的工作,从而让网站更好的实现向用户传递网络营销信息的目的.网站优化分为站内优化和站外优化,站内

浅述我对Google页面级别的几点理解

Google页面级别是一个比较正式的说法,英文名字是Google PageRank,也简称PR.如果提到网站的数据,那么页面级别就是一个不得不提的概念.有些站长朋友可能对PR有些误解,可能会认为它很重要或者不再重要,其实,要理性的进行看待,不能全部精力都放在PR值上,也不能一点都不再重视. 简单理解Google页面级别 页面级别就是衡量网站(网页)重要性的一个指标,可以简单理解为链接的数量越多,页面级别就越高.这里的链接指的是一个网页的导入链接.在理论情况下,每个网页都有投票的权利,如果有一个网

搜索引擎原创识别算法的技术细则

前段时间参加武汉的一个seo圈子的小聚会,闲聊嗨皮之余,连同几个百度的工程师一起,具体的分析了下有关百度原创识别算法,在技术方面的一些细节,觉得蛮有意思的,就写出来大家一起沟通下,求拍矮个芝麻砖. 搜索引擎为什么如此重视原创? 早期的搜索引擎算法中,其实并没有原创这一项的判断.但是随着后来采集,转载的大规范泛滥,导致了用户很难搜索到自己真正想要的内容.大量的重复内容充斥在搜索结果中,让人眼花缭乱. 首先,由于后期采集技术的兴起,大量的转载内容充斥网络.转载,必然会对原创产生一定的损伤,比如去掉图

浅谈搜索引擎分析关键词的工作原理

搜索引擎的横空出世,让我们更容易使用互联网,十年前的信息爆炸言论现在已经基本停息,这些都归功于搜索引擎,因为信息再多,已经有搜索引擎帮我们分类整理,我们想要的时候只要输入相关的关键词就能够找到相应的信息,就不会再存在那种信息爆炸式的状态,找一个信息会把一个人折磨的半死!可见搜索引擎的贡献和作用是多么的巨大! 我们平时找信息都是通过输入数据来获得,也就是我们常说的关键词,搜索引擎对于输入的关键词是如何工作的,是直接通过这个词来找,还是要把这些词分开,进行相关的比对再从数据库中找,然后再根据这次词来