说说原创和伪原创在搜索引擎中的判定

  原创和伪原创成为现在互联网后时代一个重要的话题,即就是如何保“证内容为王”的问题,对于门户型的大互联网公司来说,也许他们有专业的编辑和写手,但是据我所了解的,甚然逃不了要去转载别人的文章。如何在原创与非原创之间取得平衡点,是做网站运营人员和编辑必须进行把控的一个点。

  搜索引擎如何辩别原创和伪原创?

  以目前的计算机来看,是不可能做到真正的人工智能识别内容的,也许对英文系还好一些,毕竟英文系的字库有限,每个独立的英语的意思是独立的或者相关的。并且英文中有默认的习惯用“-”来进行区分。

  而中文则就明显不同。同一个意思,可以用无数个词来形容,千变万化。比如说:“人面桃花”这个词的涵义就多了。所以计算机是不可能辩识的。那么搜索引擎如何去判定原创和伪原创呢?下面是思路实现。

  首先,搜索引擎把两篇文章进行有机的筛选,作为比对对象,那如何知道这比对的文章是有关的呢?当然就是关键字,根据文章的关键字决定的,这也就是为什么文章中要内置一定比例的关键字的原因所在,至少如何区分文章中那一个是关键字,搜索引擎自有算法解决的,不再赘述。

  取出两篇文章以后,计算机就进行分析:

  1、 设定一个比例,比如定义为M,标注是0.5的系数。

  2、 把A篇文章,根据字数,段落为分三段。B篇文章段落分为三段,然后进行算法编译,也可以理解成为加密之类的,也就是说把文字变成符号。比如说一段话进行编译之后变成了aaacbdfbcdfsdafefasdfasd 这样的字符串。当然不一定是用ABCD这种字符,这样做的好处是因为方便计算机比对和处理。

  3、 然后把A,B两篇文章经过第二步的处理,再通过算法得到,两篇文章之间的相似度有多少,(估计这个对比算法很复杂,我也只能猜测。)会得到一个值,也就是类似上述1中提到的这个M的系数,根据标准,比如是高于0.5就表示是雷同,低于就表示是不雷同,如果雷同就利用搜索引擎爬行得到的其他的参数来决定谁是原创,或者是非原创。

  我们如何应对搜索引擎的原创判定呢?

  道高一尺,魔高一丈,互联网上永远没有绝对的矛与盾,在现在计算机还不可能真正实现人工智能,所以,原创和伪原创是一个暂且永恒的话题。做最强的伪原创可以如下三步走:

  1、标题一定要改,并且要改得出神入化。中国的文字很复杂,同样的一个意思可以用很多的方法来体现,如果你真的不能改,那么我告诉你一个方法,就是把标题写长到20-25个字,你一定很特别的。

  2、如果你有不错的文字功功底,你看了人家的文章之后,你就马上可以在腹稿里形成一定的框架,然后用你的语言进行描述,再加上图片等富文本进行修饰,那绝对是一篇难得的伪原创文章。比如我们的车市中国网就有专业的编辑人员,对于发布的各种汽车类新闻都进行一大量的伪原创的效果.

  3、内容错乱。网上有很多垃圾站。为什么人家可以得到关键字的排名和流量,原因就是,采集到信息进行伪原创之后,就完全可以变得原创,这里面最重要的一个原因就是中国的汉字太复杂了。程序建立一个词库,通过匹配同义字情况,可以基本上实现语句的通顺,而减少大量的雷同。至于文章的内容究竟要表达作者什么真正的意象,计算机根本是读不懂的。

  原创和伪原创是一对天使和魔鬼,你不必憎恨人家把你的文章进行伪原创,你最多谴责人家人品不好。所谓文章一大抄。真正的高手当然是高端。那就让伪原创来得更疯狂吧!

  文章原创,转载请保留此行 深圳车展:http://www.carixy.com/shenzhenchezhan/201009/

时间: 2024-10-31 09:34:46

说说原创和伪原创在搜索引擎中的判定的相关文章

浅论搜索引擎对原创和伪原创的判定机制

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 做网站说白了就是做服务,而服务好不好关键就在于网站提供什么样的内容给客户,内容的质量越好,网站就越容易被客户接受,客户就会喜欢上你的网站,对你网站产生了依赖,这就表明一个成功的网站诞生了,可是对于个人站长来说,网站的内容更新实在很困难,都知道原创的内容非常好,可是原创的难度是可想而知的,于是很多站长就搞起了伪原创,可是现在搜素引擎也越来越智能

浅谈原创与伪原创在网站中的编写要点

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 不知道大家注意没,现在经常在网络上看到许多雷同内容作为自己网站的作品,这就让大家能想到两个名词:原创与伪原创.原创,简单的解释就是自己曾经丰富的生活阅历通过发自内心的阐述所表现出来的创作内容,里面没有任何猜疑,全是凭心所写;而伪原创,直接点就是在已有的创作内容上进行修改编排,从而又形成了自己的创作内容.这两种创作方式现在对于网络平台可以作为做

博百优系列之:根据自身能力来抉择原创与伪原创

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 今天,武汉SEO继续博百优的话题,前几天看到了一篇文章,提到了萧涵的博百优,其中听到一句话,是关于萧涵的博客的,他们说萧涵的文章要么是伪原创,要么就是记流水账,没有一丝原创的气息,但是,事实摆在眼前,萧涵的博百优排名不错,那些抨击伪原创的人可以闭嘴了. 其实原创与伪原创都只是在一念之间,有的说原创好,有的说伪原创也可以胜任,我还看到一位仁兄说

分析原创、伪原创、采集收录及排名区别

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 最近两天一直忙着做项目,做本身网站开发和网站的代码优化,,连给自己定的每天在A5发一篇原创文章的要求都没有达到,真是有点郁闷了.但是总起来看,今天心情还是不错的,我的一个小站www.25stoneage.cn关键词做到了百度首页,还是令我很高兴的,闲话不多说,步入正题,我们来讨论一下原创,伪原创和采集的在收录和排名的区别. 相信做过站长的心里

新手建站之教学六:原创与伪原创的编写

前几次的教程很多朋友都很满意,在这里先谢谢各位站长朋友捧场了,接着上次的<新手建站之教学五:学会快速增加网站外部链接>开始讲解今日的课程,这次学习的内容就是让各位新手站长学会如何进行原创与伪原创的创作. 一个网站的好坏和内部可读性内容是分不开的,各位站长可以看看几个比较有名的站长论坛和网站每天都是有很多的原创内容,这样的网站不仅在搜索引擎当中有较高的权重而且蜘蛛抓取频率也是非常迅速的,所以一个网站有高质量的原创文章和伪原创文章是非常重要的. 有很多站长前期自己都不知道该如何编写原创文章,基本上

谈谈原创、伪原创和采集内容对SEO的价值

一个完整的站点需要丰富的内容才能够撑起正常运营,然而对于个人运营的中小型站点而言,内容则是非常难获取的,特别是原创内容,如果每天都要自己动手操写的话,很少有人会坚持得下去,毕竟天天写,谁有这么多经验心得可写呢?当写不了原创时,伪原创内容就慢慢的开始占据站长更新内容的最佳选择了.在网络上很多站长都对伪原创抱以不耻的看法,但是在说别人伪原创的同时自己却是在一直的更新着伪原创,有的甚至是采集.不管是什么样的内容,笔者认为,只要在网络上会出现的那么一定有它的道理.今天笔者给大家讲讲原创.伪原创.采集三者

站长们不要再游走在原创和伪原创之间

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 原创.伪原创.这两个词在站长们之间是讨论最多的话题了,文章从大家一开始上学就开始写起,写了很多年的文章,现在让大家去写也未必是每个人都能写好,更何况是对于站长们来说的,网站每天都需要更新内容,而且还都要是原创性高的文章,对于这样的要求,也许很多站长们都不能达到要求的吧,如果站长们天天都是游走在原创和伪原创之间,那也是很困难的事情了. 原创:什

原创与伪原创是龙是凤百度一“眼”便知

我们熟悉SEO的人都知道,对于SEO来说软文的好坏决定一个网站的命运.然而我们都知道写软文是一件比较痛苦的事情,特别是想写出一篇成功的原创软文.并且,文章的题材不一定会是我们自己感兴趣的,这样更是增加了写作的难度.首先,我们要先来介绍一下原创的重要性:原创文章符合百度的"口味",这样百度收录就会高;一旦收录高,蜘蛛爬行频繁,那么你的网站权重就会高.我们就拿网站 来做分析:我们可以在首页看到大量的原创文章,技术博客和员工博客,每天都会上传大量的原创文章,因此该网站在百度的收录量就非常可观

关于百度能否区分原创和伪原创的分析

百度官方一直强调的是鼓励原创性文章,打击采集和伪原创,但是百度究竟能否区分原创和伪原创呢?百度官方一直没解释过这个问题. 这里作者拿出实例来给大家解释这个问题:原创排名并不一定好,伪原创排名也不一定差.甚至直接复制别人的文章,都可以有很好的排名.相信大家可能都碰到过这种情况,在A5写了一篇原创文章,被多人转载了,也可以说是被多人复制了,但基本都被收录了,而且还有不错的排名,大家可以看我这个例子: 8月14日,本人写了一篇文章:百度强调搜索体验 无背景无技术的小站长前景堪忧.投在了A5门户网的搜索