Web管理员注意:Robots.txt可透露有价值的信息给黑客

本文讲的是Web管理员注意:Robots.txt可透露有价值的信息给黑客,Web系统管理员需要注意了,robots.txt文件可以告诉攻击者目标的有价值信息,因为这些txt文件指向拥有者试图保护的目录。

Robots.txt文件会告诉搜索引擎,Web服务器上的哪些目录可以读,哪些不能读。这些文件会透露管理员存储敏感信息的位置,因为在robots.txt中提到的目录很明显就是文件所有者想要隐藏的目录。不仅是那些限制访问的路径,还有服务器上部署的技术。

有点像捂着口袋走路的行人,无疑是在告诉小偷钱放在哪里。

从防御者的角度来看,有两种常见的错误认识。一是robots.txt只是一种访问控制机制;二是该文件的内容不能被人工读取,只能被搜索引擎读取。

许多网站往往把一些有用的信息放在robot文本文档里的disallow列表中,本意是为了掩盖这些资产。但对于渗透测试人员或黑客而言,则可通过robots.txt文件更快地发现敏感信息。

加拿大的渗透测试人员Thiebauld Weksteen认为,“在渗透测试的调查阶段,测试者通常会使用一系列已知的子目录暴力破解服务器,搜索隐藏的资源。根据特定网页技术的情况,这一过程需要基于固定间隔进行刷新。”

而目录的禁止访问机制会告诉攻击者有哪些高价值的信息是应当寻找的。此外,如果这一点对于一家网站可行,那么很有可能也适用于另一家网站。

Weksteen对安全从业人员提供了他个人的建议,告诉人们如何收集子目录列表,并介绍了清理、验证最初很大的数据集的方法。只需要100行脚本代码就可以做到这种探测功能,但通过优化算法,可以进一步增进效率。

比如,以色列议会网站上的robots文件中就直接包括了1万个左右的未分类文件,通过它们可以直接发现敏感数据。另一个例子是美国国务院,虽然它将搜索关键词生成的未分类资产的字符串进行了屏蔽,但还是能够通过时光倒流网站,The Internet Archive进行访问。

有人利用Weksteen所说的方法,发现了一个可能被跟踪的女学生的身份。robot文本文件中的不允许访问索引指出了一个图像文件,文件的描述暴露了她的名字。

两个防护措施:

管理员最好通过一般条件来引用文件,而不是通过绝对路径;

更具创新性的作法是在robot不允许访问索引中设置一些假文件,部署蜜罐……

时间: 2025-01-21 08:22:38

Web管理员注意:Robots.txt可透露有价值的信息给黑客的相关文章

robots.txt禁止搜索引擎收录的方法

搜索引擎 一.什么是robots.txt文件? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息. 您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容. 二. robots.txt文件放在哪里?robots.txt文件应该放在网站根目录下.举例来说,当robots访问一个网站( 比如http://www.abc.

教你robots.txt设置方法技巧

在SEO优化网站当中,做好robots.txt至关重要因为每个搜索引擎抓取网站信息第一步就是爬去robots.txt文件来引导搜索引擎爬取;合理的使用robots文件能够更好的集中网站的权重,避免一些不想被搜索引擎查看的文件抓取,是非常必要的一种SEO手段,但是好多做seo的朋友对于robots的文件使用不是特别了解,仅仅知道Disallow是禁止,allow是允许,以及一些常用的搜索引擎的访问禁止写法,对于在复杂的一些不知道如何去写,其实本人开始也对于robots不知道如何着手去写,但是随着做

分析robots.txt禁止页面出现在搜索结果中的影响

  有的是时候,你会惊奇的发现,明明在robots.txt中禁止收录的页面,却出现在了搜索引擎结果列表中,特别是在site:的时候最容易发现.这是你可千万不要惊慌,去怀疑是否robots.txt语法规则写错了. robots.txt里禁止的页面为什么出现在搜索结果中 robots.txt禁止抓取的文件搜索引擎将不访问,不抓取.但要注意的是,被robots.txt禁止抓取的URL还是可能出现在搜索结果中,只要有导入链接指向这个URL,搜索引擎知道这个URL的存在,虽然不会抓取页面内容,但是可能以下

两个方法检查网站robots.txt是否合理

看了很多网站优化的文章,都很少提及如何检查网站的robots.txt,大多就说明一下robots.txt要设置好.对于高手来讲,这是小菜一碟,可以轻松判断robots.txt是否合理,但对于一些菜鸟来讲,根本无法判断自己网站的robots.txt是否合理,一个错误的robots.txt文件会使搜索引擎机器无法挖掘你的网站,其结果是你的新内容无法列举在搜索引擎的索引中.这对网站站长来说是一个巨大的损坏.如果你做错了什么并重新编辑 robots.txt文件的话,它需要两个星期才能看到效果.因此一个正

优化Robots.txt:扬己之长避己之短

Robots.txt文件是一个简单的TXT文本,但是专注网站建设及网站优化的Seoer们都清楚它的重要性,它的存在可以将不希望搜索引擎抓取的页面屏蔽起来,也可以像是一张地图一样为蜘蛛引路指航.当蜘蛛爬行到一个站点时,首先访问的便是是否存在Robots.txt文件,然后按照内容中的指引来进行索引访问,如果文件不存在的话那么就按照页面中的链接进行顺序的访问.因此我们可以利用它来屏蔽一些不需要搜索引擎要索引的目录,或者将网站地图在Robots.txt中描述引导蜘蛛爬行,这样对于网站安全性上或者节省服务

网站优化跟踪 细看robots.txt规则的实际效果

10月20日,我对博客进行了大规模调整,就如同对待亟待成长的树一般修枝剪叶,以期能有较好的成长趋势.其中robots.txt被我充分的利用起来.如今一个工作周即将过去,robots.txt文件规则是否正确,是否已经生效?百度谷歌等搜素引擎是否响应了robots.txt规则进行索引调整?作为站长我需要深入研究一番,以便动态掌握博客收录状态. 经调查发现,谷歌对robots.txt反应比较迅速,第三天在网站管理工具里找到了迹象.百度表现不尽如人意,说百度不认robots.txt规则那是瞎扯,但反应周

Robots.txt写法详解及注意事项

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 之前由写过"Robots"标签与robots.txt区别只是简单的对robots.txt作了下介绍,这里武汉seo闲人为大家详细的介绍下robots.txt写法详解及注意事项. 一.robots.txt是干什么用的 robots.txt写法详解及注意事项 一个网站中有很多个文件,其中包含了后台程序文件.前台模板文件.图片等

说到掉渣的ROBOTS.TXT的写法

摘要: 记得很早以前,那个时间新浪屏蔽百度蜘蛛的事件传得很大,其实你主要是学会了ROBOTS.TXT的写法,那就简单的了,两下就认出了这事的真假.所以说学好技术,可以更好的知道真相. 记得很早以前,那个时间新浪屏蔽百度蜘蛛的事件传得很大,其实你主要是学会了ROBOTS.TXT的写法,那就简单的了,两下就认出了这事的真假.所以说学好技术,可以更好的知道真相. 首先,我们先来认识我们亲爱的蜘蛛们吧: 国内的搜索引擎蜘蛛 百度蜘蛛:baiduspider 搜狗蜘蛛:sogou spider 有道蜘蛛:

利用Robots.txt如何优化WordPress网站

很多建站新手对robots.txt文件的重要作用不是很清楚,利用这篇文章普及一下WordPress站点robots.txt文件编写知识. Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取. 搜索引擎机器人访问网站时,首先会寻找站点根目录有没有 robots.txt文件,如果有这个文件就根据文件的内容确定收录范围,如果没有就按默认访问以