SEO算法-中文分词+TF-IDF算法细解

  中文分词技术原理与实战应用

  关于搜索引擎优化,前面的课程我们对链接分析、站内权重分析等多维度的方向进行深度学习。但是搜索引擎优化好比修炼,前者都是术,而术基本上都可以通用,而本节课程开始我们将用道(算法/思维)来捕捉搜索引擎的规律。很多人都说SEO算法改变了,其实算法从未改变,而是你对SEO的把控改变了。对于道而言,永远是悟性(思维)大于常规。SEO结果永远是万变不离其宗,如果我们掌控了搜索引擎的算法本质,那么对于任何站点的SEO优化就将变得越来越透彻,把控排名也将越来越轻松!

  什么是中文分词,为什么需要中文分词?

  答案:我们都知道对于用户本身而言,是具备意识来进行判断一个网页内容的可读性、通顺度等行为。但是对于搜索引擎本身来说它是不能像用户大脑一样去思考问题。而中文分词可以利用语义分析系统(类似人的大脑)来进行词汇分割,从组,定性等多维度拆解,从而让网页文档通过分词技术进行词汇归类,得到的最后网页多组词的频次,在利用倒排索引与TF-IDF算法与之计算,最终确定网页的核心主题(关键词)。

  举例:在我们常见的语义模型中,大致分为三种类型的词,符号、中文、英文单词。由于国内搜索引擎多数情况下使用的是中文词汇,但是不少网页也存在大量的英文词汇,所以在考量分词结构的时候不仅仅是用来测试中文含义。而中文分词里面的词性有分为名词、形容词、动词、副词等词性,尽管我们作为用户可以一眼看出标题、描述、页面内容的含义,但是对于搜索引擎本身来讲是不具备这类“意识”,而语义分析是最好的一种模拟用户行为的方式。比如“漂亮_漂亮的含义_漂亮的意思”这个标题对于用户而言都知道是阐述漂亮,但是对于搜索引擎来说并不知道,而中文分词可以将页面的词隔离开来进行判断。这里的下划线可以作为分词符号,分词符号的最大作用是用于将一个词组合并成一个词,比如用户查询漂亮的含义,而标题中漂亮的含义通过分词符号可以让标题精准包含该关键词(关键词不间断)。再比如排行榜这个词语,本身就是一个词,不可能把排行和榜分开,但是如果采用了分词符号比如排行_榜,那么该标题就分为了两个关键词。分词符号的最大作用就是让关键词(词或词组)变成一个词,用于增强网页的唯一主题强调,从而增加该关键词在网页文档中的权重(强调)程度。

  应用:我们在借助中文分词技术进行搜索引擎优化的时候强调三个原则,而这三个原则的把控是提升网页核心关键词权重的核心基石。

  原则一:名词优先

  首先我们简单的理解什么是名词,从词性来讲名词是通过概念性的描述一种人、事、物的名称。比如父亲、山药、意义等这类带有名称属性的词性叫做名词。而漂亮、矮小等这类词属于形容词,蹦跑、种菜这种则属于动词。而我们正常的词性来讲,名词是词性范围最广,词量最多的一种词。比如我们优化的产品词,业务词等绝大多数都是名词属性。从搜索引擎角度来说,名词的权重(重要程度)要大于其他属性。比如“我的父亲”,该标题父亲显然是核心词,而不是我或者得。

  原则二:频次优先

  之所以有频次优先原则,那是因为我们在强调一个主题的核心程度的同时也要思考该词在该网页当中的比重,比如“漂亮_漂亮的含义_漂亮的意思”,尽管漂亮是形容词,含义是名词,但是该标题的核心词绝对是漂亮而不是含义,因为频次大于词性。所以在频次相等的情况下,名词权重(重要程度)最高。频次不等的情况下,频次最高的关键词强调性最大。

  原则三:分词符号优先

  之所以才用到分词符号大多数是因为,我们很多时候优化的一个关键词并不是单一的词汇,而是通过多个词组合起来的词组。而词组里面可能不一定是名词,可能是名词+动词、名词+形容词等组合搭配的词汇。如果我们不间断的去写一个标题比如“我的语文老师很漂亮”,该标题我的、语文、老师均为名词,如果没有任何分词符号,该标题通过分词就是我的、语文、老师、很、漂亮。但是如果我们用【】将语文老师扩起来,那么该标题分词以后就是我的、语文老师、很、漂亮。分词符号的最大作用就是将网页的一个词组通过分词符号的替换来达到词组并归或词分离,从而增强网页核心关键词的主题强调作用。

  语义分析系统:http://ictclas.nlpir.org/nlpir/

  示例:上图案例当中,焦大seo后面采用了冒号,这里的冒号其实就是分词符号,如果我们不加冒号,该标题反倒像一句话,通过分词符号可以有效的将词分离出来,从而提升该关键词在网页当中的整体核心权重。右图seocnm培训,我们也采用了下划线作为关键词的分词符号,如果我们不加下划线,那么该标题就是“SEO培训_实战SEO技术培训-seocnm”。从语义上讲,我们可以念成seo培训、实战seo、培训班、技术培训、这类组合方式会有非常多,并且不加分词符号让整个标题有种让人看不懂的感觉。所以我们要学会巧妙使用分词符号,从短语或者词组进行分离,从而达到关键词独立性的目的,也是为了增强网页关键词的唯一性。

  思考:什么是TF,什么是IDF,为什么需要TF-IDF算法?

  答案:TF(全称TermFrequency),中文含义词频,简单理解就是关键词出现在网页当中的频次。IDF(全称InverseDocumentFrequency),中文含义逆文档频率,简单来说就是该关键词出现在所有文档里面的一种数据集合。比如关键词“中国”在A网页里面出现了100次,那么它的TF值则是100次(词频),假设搜索引擎所收录的所有网页里面有1亿网页包含“中国”该关键词,那么IDF将由IDF公式计算出它对应的数据值。统一来理解则是TF是计算自己网页内的关键词频次,而TDF是计算所有文档里面包含该关键词的一种概率数值。

  计算公式:

  TF=某个词在文章中出现的次数=某个词在文章中出现的次数/文章总词数

  IDF=log(语料库文档总数/(包含该词文档数+1))

  TF-IDF=词频(TF)*逆文档频率(IFD)

  备注:关于IDF中的计算公式如果不理解的话可以简单的理解是通过一个总词库文档数除以包含该词的一个文档总数+1,通过log对数运算得出的一种计算结果。假设A关键词在B网页中出现了10次,并且所有文档语料库有1000亿张网页,A关键词在百度搜索结果出现的次数为100w次,那么IDF=log(1000亿/1000001)。TF-IDF=10*log(1000亿/1000001),该值不会计算可忽略在,重点理解该算法计算原理。

  算法思想:

  TF-IDF的核心思想是通过该算法进行有效的计算网页的核心关键词。虽然语义分析以及中文分词能够简单的计算出页面的关键词主题,但是由于互联网内容信息重复度较大,同一个内容单纯从分词角度来讲是不足以满足搜索引擎针对网页的内容是否更加符合用户的需求。而TF-IDF则可以用过算法公式来计算用户搜索词与网页之间的相似度。

  比如网页标题“小明的同桌叫马天”,这里面的、叫在搜索引擎里面一般都称为停用词,也就是无意义词。而去掉这些词剩下的词则是小明、同桌、马天。根据分词原理,这三个词都是名词,那么作为用户而言去看这个标题明显知道是阐述马天是网页的核心关键词,但是对于搜索引擎来说并不能深刻的理解该网页的核心关键词。对于这三个词,一般我们都有一个词的重要程度系数。从常见度来说,越常见的东西则不重要,反之越不常见越重要。那么搜索引擎是如何知道该词的常见程度呢?可以通过相关搜索结果数来计算关键词的重要度。

  算法思想:

  根据右图的关键词相关结果可以得出,马天数值最小,也是最不常见的词,那么常见度排序结果则是小明>同桌>马天。现在在返回看我们最前面的陈臣案例就不难发现为何该词有排名,标题其他词却没有排名的原因。正是因为先通过分词,然后借助分词符号将短语分离,从而通过TF-IDF的核心算法思想进行操作排名。

  算法应用:

  关于TF-IDF的算法实战应用,最常见的方式则是利用TF-IDF算法的计算方式来进行定位网页的核心词,从而网站大量提升关键词排名。首先我们要理解真正原创文章的含义,真正的内容原创有两种,一种是网页内容与总语料库文档不重合,另一种则是关键词与该关键词的相关结果文档不重合。而TF-IDF最佳的运用方式则是可以采用换汤不换药的操作方式来进行关键词排名。比如优化一个关键词“山药的功效与作用”,那么我们可以去抄袭一篇“人参的功效与作用”的文章,并且替换网页里面的所有人参关键词,尽管这篇文章在人参里面是重复性很高的文章。但是在山药的功效与作用里面它就是独一无二的。并且刻意增加山药文章里面的TF值,让搜索引擎认定该网页的核心关键词。如图(下一页)!

  算法应用:

  上图(上一页)我们可以看到,通过TF-IDF算法应用的经典案例,内容全部抄袭,网页标题(title)与文章标题不同,目的就是用来提升网页的点击率。并且文章标题我们可以发现互博国际该关键词是一个由多个词组成的词组,通过分词符号可以让互博国际变成一个关键词(词组形成关键词)。并且在网页内容里面,自然的分布关键词的频次(TF),从而达到关键词的强调性,即使内容在其他文章里面出现,但是在互博国际里面,该内容则是独一无二的原创(不重合)。为了提升网页的点击率,我们可以将网页的标题(title)写的更加规范,这样排名一旦上来,还有利于用户的点击,从而提升网页关键词的排名更佳状态。

  法应用:

  上图(上一页)我们可以看到,张玉鹏该网页出现的内容重复度极高、并且网页内容与标题也基本一致,那为何偏偏只有我的站张玉鹏有排名,而其他网站却没有排名。单纯从站点的权重评级来看,www.51dx.org站点也不是最好的,这里面最大的原因则是TF问题。尽管内容都一致,甚至H标签、加粗这类影响站内权重的标签都规范了网页的权重程度。但是51dx站点TF-IDF值最小,从频次来讲,51dx站点里面的张玉鹏关键词是所有出现重复内容里面TF值最大的一个站点(频次),所以搜索引擎在定位一个核心关键词的时候,会将TF值最大的一个站点进行结果排序。并且结合IDF思想,张玉鹏搜索结果众多,该网页在张玉鹏里面的排名又是独一无二的内容页面。所以我们在借助TF-IDF算法操作排名的时候,尽可能的把TF值放大(放大的时候一定要保持关键词分布自然性),即使是抄袭的文章,也要把抄袭做到极致,从而引起网页关键词的排名!

时间: 2024-10-26 17:20:10

SEO算法-中文分词+TF-IDF算法细解的相关文章

SEO搜索中文分词算法原理实战教程

SEO搜索中文分词算法原理实战教程,如果一个人想成为一个合格的SEO人员,那么搜索引擎分词思维是必须掌握的,因为只有掌握了分词思维,你才可以做出搜索引擎喜欢,而且用户也喜欢的网页,虽然在梦想之旅视频教程中有和大家分享过搜索引擎中文分词原理,但没有完全的,系统的用文字版本和图片版本和大家分享,那么顾芳源就带大家如何正确学习SEO搜索分词思维吧. 搜索引擎中文分词原理 首先我们要知道搜索引擎工作原理是把每个网页的内容按词来录入到数据库,比如你的文章标题是:梦想SEO实战培训提供免费SEO教程,那么搜

中文分词之HMM模型详解

文章转载自: http://yanyiwu.com/work/2014/04/07/hmm-segment-xiangjie.html HMM(Hidden Markov Model): 隐式马尔科夫模型. HMM模型可以应用在很多领域,所以它的模型参数描述一般都比较抽象,以下篇幅针对HMM的模型参数介绍直接使用它在中文分词中的实际含义来讲: HMM的典型介绍就是这个模型是一个五元组: StatusSet: 状态值集合 ObservedSet: 观察值集合 TransProbMatrix: 转移

深入NLP———看中文分词如何影响你的生活点滴 | 硬创公开课

中文分词是中文自然语言处理的一个非常重要的组成部分,在学界和工业界都有比较长时间的研究历史,也有一些比较成熟的解决方案.今天我们邀请了出门问问的两位重磅嘉宾徐博士和Jason,和大家一起来回顾一下中文分词的发展,着重谈一谈现在比较流行的一些基于机器学习的分词方法. 嘉宾简介 徐博士,约翰霍普金斯大学语言和语音实验室博士.2012年毕业后加入微软总部,先后在Bing和微软研究院从事自然语言处理和机器学习相关的研究和产品开发,是cortana语义理解和对话系统团队以及wordflow输入法团队的主要

一篇文章教你用隐马尔科夫模型实现中文分词

  什么问题用HMM解决 现实生活中有这样一类随机现象,在已知现在情况的条件下,未来时刻的情况只与现在有关,而与遥远的过去并无直接关系. 比如天气预测,如果我们知道"晴天,多云,雨天"之间的转换概率,那么如果今天是晴天,我们就可以推断出明天是各种天气的概率,接着后天的天气可以由明天的进行计算.这类问题可以用 Markov 模型来描述. markov 进一步,如果我们并不知道今天的天气属于什么状况,我们只知道今明后三天的水藻的干燥湿润状态,因为水藻的状态和天气有关,我们想要通过水藻来推测

jieba.NET中文分词及jieba.NET与Lucene.Net的集成

jieba中文分词的.NET版本:jieba.NET jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以到它的在线演示站点体验下(注意第三行文字). .NET平台上常见的分词组件是盘古分词,但是已经好久没有更新了.最明显的是内置词典,jieba的词典有50万个词条,而盘古的词典是17万,这样会造成明显不同的分词效果.另外,对于未登录词,jieba"采用了基于汉字成词能力的HMM模型,使用了Viterbi算法",效果看起来也不错. 基于以上两点,加上对于中文分词的兴趣

浅析中文分词算法 助力站长更好做优化

分词算法以前偶尔也懂些,但是懂的不透彻,最近看了很多相关的书,然后去互联网上又学习了一部分,算是有了个大概的了解.其实了解分词算法无论对于个人站长一些中小型企业,都十分有帮助.通过这些词的拆分,能让我们对关键词的把握更加的精准.好了,下边开始今天的正文,如果有不对的的地方,还希望大家多指正. 通常的分词算法往往是针对中文搜索引擎而言,对于Google则不存在,在百度和Google上搜索同样一个关键词或者短语,返回的结果是不同的,这不仅仅是算法不同或者技术不同的原因,更多是因为分词算法的存在.百度

百度中文分词排名算法实战破解

百度中文分词对于搞SEO的人员来说,肯定不会陌生.今天废话不多说,笔者根据自己的实战经验和站长们分享一下自己对于百度中文分词的排名原则,也喜欢大家多多支持南京SEO博客,笔者定期会分享大量干货的哦! 百度中文分词,说白了就是让一个网站title标题获得更多的匹配度.那么百度中文分词什么时候用,什么时候不能用,我也会说的一清二楚.首先我先说一下百度中文分词在什么情况下不能用.一般我们做的不是垃圾流量站,或者我们做的是品牌高难度词语,这时候,你就不能用百度中文分词,比如我们拿笔者的"南京SEO&qu

三种中文分词算法优劣比较

到目前为止,中文分词包括三种方法:1)基于字符串匹配的分词:2)基于理解的分词:3)基于统计的分词.到目前为止,还无法证明哪一种方法更准确,每种方法都有自己的利弊,有强项也有致命弱点,简单的对比见下表所示: 各种分词方法的优劣对比 分词方法 基于字符串匹配分词 基于理解的分词 基于统计的分词 歧义识别 差 强 强 新词识别 差 强 强 需要词典 需要 不需要 不需要 需要语料库 否 否 是 需要规则库 否 是 否 算法复杂性 容易 很难 一般 技术成熟度 成熟 不成熟 成熟 实施难度 容易 很难

漫话中文自动分词和语义识别(上):中文分词算法

转自:http://www.matrix67.com/blog/archives/4212 记得第一次了解中文分词算法是在 Google 黑板报 上看到的,当初看到那个算法时我彻底被震撼住了,想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法.最近在詹卫东老师的<中文信息处理导论>课上再次学到中文分词算法,才知道这并不是中文分词算法研究的全部,前前后后还有很多故事可讲.在没有建立统计语言模型时,人们还在语言学的角度对自动分词进行研究,期间诞生了很多有意思的理论. 中文分词的主要困难在于分词