庄帅:分词:百度搜索有技术么?

最近看了几篇关于百度“分词技术”的文章,这
两天就开始留心文章内所举的例子,自己也在百度和GOOGLE进行实践。结果让我对百度的未来忧心忡忡。我目前都不没有入SEO的门,所以暂时只能以自己的
认识做些肤浅的描述,希望我的担心是多余才好。

首先,我们来简单说一下“分词技术”,这个技术是搜索领域非常关键的技术之一。可关于百度该项技术的分析却让我得到结论:百度在分词方面没有技术可言,而只是有着两部甚至几部数据量越来越大的“字典”而已!

这里我也来举个例子,由于最近我的几个亲戚介入了广西北海的一个投资项目,我担心是骗局,于是我在百度搜索“北海投资骗局”,出来的结果如以下链接:http://www.baidu.com/s?ie=gb2312&bs=%B1%B1%BA%A3%CD%B6%D7%CA&sr=&z=&cl=3&f=8&wd=%B1%B1%BA%A3%CD%B6%D7%CA%C6%AD%BE%D6&ct=0 从链接
里面我们可以看到,你要在这个结果里找到有用的信息,看来你是要失望了,关于北海投资骗局的信息好像都没有看到。而红色的字大家就可以看到“百度字典”在起作用:在“北海投资骗局”这个搜索条目里,被拆分为“北海”和“投资骗局”,这样的拆分显然就很难让我们得到关于在北海的骗局,而会得到关于“北海”的普通信息和关于“投资骗局”的信息,而投资骗局这个关键字导致的结果那就是全国
各地都有了,那我们还输入“北海”做为范围界定就一点意义都没有了! 结论:百度
获取有针对性意义的信息可能性很小,我这里只是举了一个例子,大家可以根据这个思路多试几个,结果大致是这样。

那么我们再
来看看GOOGLE的表现:http://www.google.cn/search?hl=zh-CN&q=%E5%8C%97%E6%B5%B7%E6%8A%95%E8%B5%84%E9%AA%97%E5%B1%80&btnG=Google+%E6%90%9C%E7%B4%A2&meta= 列出的全部是关于“北海投资骗局”的信息,很有帮助,大家可以自己看这两种明显的区别,就会深层次发现这两个公司在技术实力上的差距不是一般的大了!

如果按照这样的结果,我很想问一下百度:在你成为国内老大的时候,你的技术进步了
多少,做了多少真正为网民考虑的事情?给中国甚至以后全世界能够提供多少有用的信息!?我本来在看那些文章是持怀疑态度,而且一直以来都是非常拥护百度的,但这些个关键字(词)实践下来,担心却是以日俱增!并且在往后的工作中,可能会应了那句话:新网民用百度,老网民用GOOGLE了!

但百度现在占据着中国搜索市场70%的流量却是不争的事实,国内许多SEOer也是在利用这个“字典”分词功能来从百度得到更多流量,然后将流量转换成金钱,最后导致了大批的垃圾站点的出现和网站投机心理,这样的连锁反映多多少少影响着中国互联网业的健康发展。也许我这样说似乎有点过于夸张,但似乎事实如此。而百度不知道能不能将精力放在技术的研发上,赶超GOOGLE,而不是放在治标的“K站、不收录新站”上呢?我们试目以待……

庄帅Zileo发布于阿里酷:www.alikoo.com 转载请注明!

时间: 2024-10-02 16:12:44

庄帅:分词:百度搜索有技术么?的相关文章

谈百度搜索显示网站ICO图标的一些心得

最近很忙,没时间搭理网站,周末上网无意中在百度搜索电脑技术吧,竟然意外的发现,百度搜索结果中,尽然出现了ICO小图标,笔者很庆幸,但是悲观的是改版后权重还是没有恢复! ICO图标是Icon file的缩写:对于网站的管理员来说,网站的ICO图标更准确的应该叫做站标,是仅次于网站LOGO的标志之一.高品质的ico图标设计更容易使站点获取良好的用户体验.制作ICO图标的工具尽管有很多,但做出一款漂亮的ICO图标,并非是一件容易的事情.无独有偶,即便你有了一款漂亮的ICO图标,要想把他展现给搜索引擎也

聊一聊双十一背后的技术 - 分词和搜索

双十一背后的技术系列文章 <聊一聊双十一背后的技术 - 物流, 动态路径规划> <聊一聊双十一背后的技术 - 分词和搜索> <聊一聊双十一背后的技术 - 强奸式秒杀技术实现> <聊一聊双十一背后的技术 - 毫秒分词算啥, 试试正则和相似度> 云栖聚能聊 - 聊一聊双十一背后的数据库技术 标签 PostgreSQL , 分词 , 全文索引 , rum , 搜索引擎 , 双十一 , tsvector , tsquery 背景 2016双十一刚过,大伙还在忙着收快

网络爬虫-从技术和产品角度讲,百度搜索和好搜有什么不一样

问题描述 从技术和产品角度讲,百度搜索和好搜有什么不一样 抛开搜索引擎的广告不说,单从技术和产品的角度讲,对于同一个关键词,百度搜索和好搜有什么不一样,比如我搜索'观察者模式'(我想没有个人或者组织会为这个关键词投放广告吧,搜索结果会更加客观),好搜和百度搜索结果去下 解决方案 反正都是山寨搜索引擎.都垃圾的不堪使用 解决方案二: 百度和360明显就是两个犯罪团伙,却像妖孽一样的存在. 解决方案三: 感觉都那样吧,凑合着用,有Google必然选Google了.

link环境下如何使用codefirst技术实现“百度搜索”,制作的是《网盘软件》。

问题描述 link环境下如何使用codefirst技术实现"百度搜索",制作的是<网盘软件>. link环境下如何使用codefirst技术实现"百度搜索",制作的是<网盘软件>. 解决方案 学什么不好,学如何模仿一个山寨垃圾搜索引擎

百度最新算法和实时搜索更新技术

百度搜索结果第一页一般是什么?第一页第一名现在大多二类竞争关键字都是百度的百科或者知道,最后一名大多都是百度新闻和其他新闻,中间是按照网站实力排名的.如果是一类竞争关键字,基本都是按照网站实力排名的,但偶尔出现个别最新信息也能冲上来,但是对于最新信息一般只显示一天. 百度搜索结果第二页一般是什么?从2010年开始,大家不难发现,一些大站的最新信息容易排名靠前,昨天我在58发了一条信息,第二天就发现搜索相关词语排名第二页,后来发现多个这样的情况,但是这些信息一般都是显示几个小时或者一天.随后会被其

【技术贴】关于百度搜索框打不上任何文字的解决办法。。。

问:百度搜索框.搜狗搜索之类的框框打不上字 无法进行搜索怎么办? 答:先把浏览器全部关闭.        开始--运行--regsvr32 mshtmled.dll         搞定!!! .

庄帅:凡客达人欲速则不达

本周六(3月19日)以中国电子商务协会高级专家.电子商务研究院特约研究员的身份应邀<销售与市场>杂志社主办的营销沙龙作为主讲嘉宾分享了"社会化网络如何开展电子商务"的议题,这个议题不可避免地谈到近期热炒的凡客达人,之前也有在我的新浪微博(庄帅Zileo)上讨论.但说实话由于近期忙着东方家园电子商务项目--东方宜居网的上线,所以对凡客达人并没有做更多的讨论和思考,在这次沙龙上谈得也就比较少,现在做些 深入的分析来抛砖引些玉出来. 从现在看来,凡客达人至少能够在三个方面受益:

庄辰超和搜索的故事(二):鲨威之后去哪儿

中介交易 SEO诊断 淘宝客 云主机 技术大厅 编者按:<庄辰超和搜索的故事(一)世上再无搜索客>发布后,没想到会受到这么多朋友的关注,原本以为在微博和微信盛行的时代,我这种长篇故事文章写了也没多少人看,但通过各大媒体和搜索引擎的指数的反馈来看,业界还需要这样的文章,这也成为我坚持写第二篇乃至之后第三篇的动力.另外一些朋友对叙述里提到的支线剧情非常感兴趣,第二篇除了按时间叙述的主线以为,我会加入几个影响到主线的支线故事,而且我保证支线同样精彩,甚至若干年后我会专门为支线里提到的人物再开一个系列

庄帅谈网络营销:乱拳打不死老师傅!

庄帅(izhuangshuai)微信服务号的建立是因为庄帅(zhuangshuai)个人号人数有7000多人被微信限制不能再加好友,这个号真心是想当普通号聊天用,虽然确实有点麻烦,但起码不会有人数限制,想找到我咨询或调戏的帅粉们还是可以发信息给我,可惜不能主动发信息给大家(公众号限制48小时内如果对方没有发信息过来,不能主动发信息过去). 这个服务号群发过三次信息,有两次还是关于密训课程(查看历史消息可查).后来发现发图文信息可以把一些内容表述得更准确一些,这个服务号主要的目的当然不是推课程做广