搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。
请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。
robots.txt文件应该放置在网站根目录下。举例来说,当spider访问一个网站(比如http://www.domain.com)时,首先会检查该网站中是否存在http://www.domain.com/robots.txt这个文件,如果Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。注明:如果其他网站链接了您robots.txt文件中设置的禁止收录的网页,那么这些网页仍然可能会出现在百度的搜索结果中,但您的网页上的内容不会被抓取、建入索引和显示,百度搜索结果中展示的仅是其他网站对您相关网页的描述。(原文来源于:宁波网络营销、863.html">SEO搜索引擎优化研究中心,如需转载请注明出处。)
网站 URL相应的 robots.txt的 URLhttp://www.w3.org/http://www.w3.org/robots.txthttp://www.w3.org:80/http://www.w3.org:80/robots.txthttp://www.w3.org:1234/http://www.w3.org:1234/robots.txthttp://w3.org/http://w3.org/robots.txt