这篇文章,我尽可能回避专业的技术,尽可能用通俗的语言给大家分析一下360等搜索,如有不当之处,请勿见笑。
一、周鸿祎的搜索情结
军事上可以从一个统帅的性格,来判断他可能的指挥方式。同样,从一个企业的产品、企业运作,我们可以看到一个企业领导人的性格,从而从这个性格又可以进一步推测他下一步可能的行动。
360最近推出了搜索,这个徽剑我在07年的时候就说过,我说周鸿祎早晚还会做搜索,因为他不是那种愿意做最原始的信息贡献的性格,而是喜欢整合资源,或者说投机取巧的人。无论是早期的3721,还是后来奇虎聚合等,都可以看到这点。
周鸿祎其实是有很强的搜索情节的,因为他的第一桶金就来自一款搜索产品—3721,尽管后来这款产品被人评价为流氓软件,但是不可否认一点,那就是在中国互联网普及的阶段,对于大批连com和net是啥都分不清楚的人来说,3721让他们使用熟悉的中文就可以在网上畅游了。
当初3721是这么宣传的:“3721公司提供的中文上网服务――3721“网络实名”,是第三代中文上网方式,用户无需记忆复杂的域名,直接在浏览器地址栏中输入中文名字,就能直达企业网站或者找到企业、产品信息。”但是在网络上3721被称为是最大的流氓软件之一,现已停止运营。
“3721网络实名插件由奇虎公司现任董事长周鸿祎一手创办,它通过地址栏实现中文搜索。2003年11月,雅虎1.2亿美元收购3721公司,该软件更名雅虎助手。2005年10月,阿里巴巴宣布完成对雅虎中国全部资产收购,3721业务随之并入马云手中。2006年,互联网业内掀起“反恶意软件”的热潮,周鸿祎率领360安全卫士成为反恶意软件先锋,曾经由他一手创办的3721软件(雅虎助手)则成了他“围剿”的重点目标之一。当年9月,阿里巴巴宣布投资1亿元继续开发与推广雅虎助手,但随后并未看到有实质的市场举动。”这是网上对3721的一段描述。
3721最大的争议,就在于他的传播方式,还有安装后排斥竞争对手、独占用户电脑的网络查询接口的技术手段。3721虽然给那些菜鸟网民提供了极大的方便,但是对于那些掌握一定技术能力的熟练网民,还有就是被3721所干扰的竞争对手,都会采取各种手段针对3721。从而使得3721在几年后变得越来越被更多的人所排斥。
当年的3721一出来,采用的是利用WINDOWS 98的系统漏洞,用病毒的方法进行传播,在短期内就积累了海量的用户。有人曾经问过徽剑“你觉得中国最大的黑客是谁?”我当时回答“我也许不好说中国技术最牛的黑客是谁,但是我可以肯定周鸿祎是商业上最成功、规模最大的黑客。别的黑客只能赚点小钱,他可以通过病毒等黑客手段赚到以亿来计算的财富”。
当然,时过境迁,我们今天再来评价3721已经有些过时,下面就让我们来看看360的搜索吧。
二、搜索的技术门槛
最原始的搜索,就是建立在数据库基础上的关键字匹配,后来进一步延伸到所谓模糊查询、统计分析、知识发现等系列技术的应用。因为搜索,可以让网民从海量的信息中找到他需要的资源,减少了他挨个去查找的时间,提高了他的使用效率,从而使得今天的网民,在上网的时候,已经无法离开搜索。
很多人把搜索看的神乎其神,其实根本没那么复杂。只要一个会做网页的技术人员、一个懂得存储应用开发的技术人员、一个对C或者C++开发TCP/IP应用比较熟悉的技术人员、一个对索引检索开发熟悉的技术人员,就可以组成一个搜索引擎开发团队。
1、会做网页的,去做跟用户对接的那部分。
2、懂得存储应用开发的技术人员,负责搭建存储系统,一个最简单的方式,就是搭建一批服务器,每个服务器分门别类,比如A组服务器负责存储新闻,B组服务器负责存储娱乐等。再细分下去,A1服务器负责存储人民网的,A2服务器负责存储新华网的,B1服务器负责存储李宇春的信息、B2服务器负责存储周杰伦的信息等等,如此类推,
3、对C或者C++开发TCP/IP应用比较熟悉的技术人员,就可以开发一个所谓“网络蜘蛛”的爬虫程序,其实说白了就是一个“离线下载”工具,下载下来后,对页面里面的链接进行分析,继续不停找新的来源。
4、对索引检索开发熟悉的技术人员,负责对抓下来的文本做进一步分析,利用单词和短语库,对文本进行分析,按照存储服务器的配置,把不同的信息,存储到对应的服务器里面。同时他还需要和1合作,对于网页上用户提出的查询要求,他要做出文本分析,然后导引到指定服务器上调出相应结果。
以上就是一个搜索引擎的技术的大致体系,当然,实际中的搜索引擎,远比这个复杂。区别就好比钻天猴的烟花和火箭的那么大。但是基本的架构原理还不会变化的。其实我们都知道,很多时候,理论很好明白,但是实际做起来会在细节上面临大量问题。那么这里有哪几个地方会比较难呢?
(责任编辑:蒙遗善)