天泰OpenWAF开源防恶意爬虫模块

天泰OpenWAF开源防恶意爬虫模块

最近在网上看到一个有趣的问题:整个互联网的流量中,真人的占比有多少?根据 Aberdeen Group在近期发布的以北美几百家公司数据为样本的爬虫调查报告显示,最近三年网站流量中的真人访问平均仅为总流量的50%,剩余的流量由28.11%的善意爬虫和21.89%的恶意爬虫构成,可见爬虫数量是多么惊人。
什么是网络爬虫?
网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
如何定义恶意爬虫?
正常的爬虫,会先访问/robots.txt文件,看哪些路径允许爬,哪些路径禁爬。恶意的爬虫,会无视禁爬路径,依然对那些路径进行访问,甚至都不去访问/robots.txt文件

恶意爬虫的危害
可能很多人认为,恶意爬虫只会威胁到少数以文本为核心价值的网站,其实这些能改变自己请求路径和请求方式的伪装者可能潜伏在任何一个网站的每一个角落,文本、图片、价格、评论、接口、架构等方方面面均有可能成为爬虫的囊中物。
核心文件被爬不说,商品信息,价格或者注册账号被扫描等都将会给运营者带来大量的麻烦和损失。
为什么恶意爬虫屡禁不止?
爬与反爬的斗争从未间断。过去的初级爬虫能很明显从异常的Headers信息甄别,但爬虫制造者从一次次爬与反爬中总结出可能被封的原因,通过不断的测试和改善爬虫程序,更新换代后的高持续性恶意爬虫通常具有以下特点中的某几个:
1.模仿真人行为
2.加载 JavaScript 和外部资源
3.模拟cookie和 useragent
4.浏览器自动化操作
5.变化的IP地址池
这些,无疑都给防恶意爬虫带来了巨大的麻烦。



天泰OpenWAF的防爬虫功能
针对恶意爬虫,OpenWAF针对以下行为进行分析,有效拦截恶意爬虫
1.访问禁爬路径(暗链陷阱)
2.访问过/robots.txt文件,且访问除了GET和HEAD还有其他方法,如POST请求
3.携带恶意爬虫cookie进行访问
OpenWAF行为分析引擎中,包含恶意爬虫检测模块。针对不访问/robots.txt文件的爬虫,OpenWAF设置暗链陷阱,凡是访问此暗链的均为恶意爬虫。对于没有/robots.txt文件的站点也不用担心,OpenWAF会自动生成一个/robots.txt文件,供他人访问。
有些爬虫工具不带有js模块,OpenWAF返回的恶意爬虫cookie,下次请求时不会携带此cookie。针对这类工具,OpenWAF会在内存中将此工具进行标记(默认5分钟),即使不带有此cookie,再次访问时,依然会被识别出来。
其实防扫描也是一个道理,我们会在第一次访问的时候辨别是否为扫描。如果OpenWAF认为请求不合法,会在内存中标记该行为,并在他再次访问时进行阻止。



我们始终坚信“愈分享,愈安全”,希望有更多人能够尝试OpenWAF,并加入防护WEB安全的队伍,并给我们提出您的宝贵意见。附阿里云上OpenWAF的Docker链接https://cr.console.aliyun.com/?spm=5176.2020520152.209.d103.l60zo5#/imageDesc/33565/detail

如您需要获取安全建议,可以通过以下方式联系我们:
400服务热线:4006786569
企业支持QQ:4006786569
技术支持邮箱:support@titansec.com.cn

想要了解更多安全资讯,请用微信扫下方二维码

时间: 2024-08-02 08:45:12

天泰OpenWAF开源防恶意爬虫模块的相关文章

天泰 OpenWAF 开源防爬虫模块

最近在网上看到一个有趣的问题:整个互联网的流量中,真人的占比有多少?根据 Aberdeen Group在近期发布的以北美几百家公司数据为样本的爬虫调查报告显示,最近三年网站流量中的真人访问平均仅为总流量的50%,剩余的流量由28.11%的善意爬虫和21.89%的恶意爬虫构成,可见爬虫数量是多么惊人. 什么是网络爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟程序或者蠕虫. 如何定义恶意爬虫?

Web应用防护系统OpenWAF开源CC防护模块

OpenWAF自从去年10月开源,半年来已经陆陆续续开源了各大模块,受到了多方的大量关注.最近更是刚刚开源了大家都很期待的CC模块! 什么是CC?OpenWAF的CC防护又能做些什么?下面我们就会为您详细介绍. 什么是CC? 举个例子,城东新开了一家牛肉面馆,生意红火,顾客络绎不绝.某天,一个地方恶霸召集了手下一批小弟,一窝蜂涌入牛肉面馆,霸占了所有座位,只聊天不点菜,导致真正的顾客无法进店消费.由此,牛肉面馆的生意受到影响,损失惨重. 如果把这家牛肉面馆看作是一家互联网企业,那么这群地痞的恶行

Web 应用防护系统 OpenWAF 开源 CC 防护模块

OpenWAF自从去年10月开源,半年来已经陆陆续续开源了各大模块,受到了多方的大量关注.最近更是刚刚开源了大家都很期待的CC模块! 什么是CC?OpenWAF的CC防护又能做些什么?下面我们就会为您详细介绍. 什么是CC? 举个例子,城东新开了一家牛肉面馆,生意红火,顾客络绎不绝.某天,一个地方恶霸召集了手下一批小弟,一窝蜂涌入牛肉面馆,霸占了所有座位,只聊天不点菜,导致真正的顾客无法进店消费.由此,牛肉面馆的生意受到影响,损失惨重. 如果把这家牛肉面馆看作是一家互联网企业,那么这群地痞的恶行

nginx修改配置限制恶意爬虫频率_nginx

如何在nginx中限制恶意网络爬虫抓取内容呢?也就是限制下恶意爬虫的抓取频率.下面来一起看看. 今天在微博发现@金荣叶 的处理方法很灵活,可以动态设定一个爬虫的频率,达到减轻服务器负载,并且不至于封杀爬虫. #全局配置 limit_req_zone $anti_spider zone=anti_spider:10m rate=15r/m; #某个server中 limit_req zone=anti_spider burst=30 nodelay; if ($http_user_agent ~*

apache中简单防DOS攻击模块

简单防DOS攻击模块 mod_doserasive是apache的第三方模块即判断一段时间内某个ip访问的次数是否过快如果过快就返回403错误 下载模块http://bbs.chinaunix.net/attachment.php?aid=Mzc4OTQ4fGVjYzA2YzJjfDEzODE3NDQyMjZ8MjkyNDk2MDR8MTY4OTcwNA%3D%3D&fid=232 1.该模块的安装配置如下 [root@localhost tar xf mod_evasive_1.10.1.ta

asp.net网站防恶意刷新的Cookies与Session解决方法

 本文实例讲述了asp.net网站防恶意刷新的Cookies与Session解决方法,是WEB程序设计中非常实用的技巧.分享给大家供大家参考.具体实现方法如下: Session版实现方法: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 public double time; public const in

防恶意点击代码系统思路与实现

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 百度推广,存在即理由,其可能为企业带来的潜在利益是非常大的,然而,它的广告费用让大多数企业都无力承担.在广告投入的同时,如何尽可能减少广告投入费用,做到ROI(投资回报)的最大化呢? 也许你可以优化百度推广账户结构,优化关键词,优化创意,但你做不到的,是同行或者其它动机的人对你的广告的恶意点击, 广州易虎技术团队,提出如下一种解决思路,虽然不

58同城被爆简历数据泄露:700元的恶意爬虫软件可采集全国简历数据

   雷锋网(公众号:雷锋网)消息,据<21世纪经济报道>记者调查发现,近日,有多个淘宝卖家廉价批发"58同城简历数据":"一次购买2万份以上,3毛一条:10万以上,2毛一条.要多少有多少,全国同步实时更新."甚至有卖家出售700元一套的爬虫软件,可采集全国430多个城市,以及464个职业的简历数据. <21世纪经济报道>表示,58同城本身就没有对求职者简历做出过多保护,在58同城官网上注册的账号均可搜索所有人简历,并查看年龄.头像.学历.学

动网防恶意广告比较有效的办法附asp代码_应用技巧

1.   进入后台,风格界面模板总管理,page_login,template.html(13)  <TR> <TD class=tablebody1><B>密码问题</B>:<BR>忘记密码的提示问题</TD> 在此两句上面添加如下代码  <TR> <TD class=tablebody1> <div style="color:red"><b>反论坛群发必填项:&l