一些对付爬虫的方法 来防止个人信息泄漏

  一句话:用机器都不懂但人能读懂的“文字”。比如数字的话,可以使用编号、中文大写、或者符号的方法等等。

  比如我的电话是:①⑤⑨②①⑤〇②④⑤③。

  

  如果是电子邮件地址的话,可以用全角字符代替半角,或者交叉使用:比如我的电子邮件是baidu@gmail.com。这是最不影响阅读体验的“加密”方法,这样的话现在的爬虫就读不出来了。

  不过因为现在的垃圾爬虫老外开发的多,如果这种方法流行了,或者有中国人参与进来,这个方法就要失效了(全角字符和半角字符有对应关系,所以可以通过“解码”将字符解读成真正的邮件地址)。

  下面给一些元素,偷懒的话可以直接复制下来以后使用:

  ①②③④⑤⑥⑦⑧⑨⑩

  ⑴⑵⑶⑷⑸⑹⑺⑻⑼⑽⑾⑿⒀⒁⒂⒃⒄⒅⒆⒇

  ⒈⒉⒊⒋⒌⒍⒎⒏⒐⒑⒒⒓⒔⒕⒖⒗⒘⒙⒚⒛

  1234567890

  上面的一些还好,起码是个人都能瞧懂的,下面的是有中国特色的:

  ⊙㈠㈡㈢㈣㈤㈥㈦㈧㈨㈩

  一二三四五六七八九十〇

  壹贰仨肆伍陆柒捌玖拾零

  在下面给一些需要一点读图技巧的:

  1:━┃

  2:═║

  3:╠

  4:╬

  0:〇○

  1:†

  2:∶

  3:∴

  4:∷

  ¹²³ ЗбΟΖΗΑΟ

  上面一行没有一个是数字或字母,是从希腊文等中找出的,如果不是UTF-8编码的话,并不适用于Universal的用户。

  0:●

  1:▕

  2:〓

  3:▲

  4:█

  5:★

  当然,因为我电脑里没有火星输入法,不然可以找出更多好玩的符号。

  需要强调的是,不必每位数字都“加密”,仅选择部分即可,因为我们只是为了防范网页爬虫的自动抓取,还是尽量避免读者思考,所以要给出明确的信息。比如电话的话,出现“十”,反应快的读者可以马上将十理解为“0”。但是,为了不影响作者要传达给读者的信息,还是标注一下为好。这种标注最多可以出现一次,多了就过分增加了读者学习的成本,会影响阅读体验。

  如果是在联系人页面上需要大批量使用,可以编一段小程序,由系统在“加密”字库中随机选择字符串。这样就可以真正避免垃圾爬虫的抓取了。比起现在流行的生成图片的方式,无论在程序执行的效率上还是网页读取的流畅度上都是个优化的选择。而且对于前端开发人员来说,少了一个长短不等的图片,减少了一个不确定性因素,相信会减轻很多工作量。本文由浦东搬家公司www.sh-banjia168.cn供稿

时间: 2025-01-19 12:53:54

一些对付爬虫的方法 来防止个人信息泄漏的相关文章

php判断搜索引擎蜘蛛爬虫的方法整理

先来看蜘蛛列表   搜索引擎 user-agent(包含) 是否PTR 备注 google Googlebot √ host ip  得到域名:googlebot.com主域名 baidu Baiduspider √ host ip  得到域名:*.baidu.com 或 *.baidu.jp yahoo Yahoo! √ host ip  得到域名:inktomisearch.com主域名 Sogou Sogou × *Sogou web spider/3.0(+http://www.sogo

PHP实现简单爬虫的方法_php技巧

本文实例讲述了PHP实现简单爬虫的方法.分享给大家供大家参考.具体如下: <?php /** * 爬虫程序 -- 原型 * * 从给定的url获取html内容 * * @param string $url * @return string */ function _getUrlContent($url) { $handle = fopen($url, "r"); if ($handle) { $content = stream_get_contents($handle, 1024

WEB应用中的信息泄漏以及攻击方法

本文讲的是WEB应用中的信息泄漏以及攻击方法,下面内容介绍了在web应用程序中的一些信息泄漏问题,当然也会举例分析,介绍如何发现这些信息泄漏. Banner收集/主动侦查 Banner收集或主动侦察是一种攻击类型,攻击者在此期间向他们的目标系统发送请求,以收集有关它的更多信息.如果系统配置不当,可能会泄漏自己的信息,如服务器版本,PHP或者ASP.NET版本,OpenSSH版本等. 在大多数情况下,Banner收集并不会涉及关键信息泄漏,不过可以让攻击者收集到开发过程中使用环境版本的信息.例如:

调用线程的Resume、Suspend方法,有警告信息,怎么将它显示正常;

问题描述 调用线程的Resume.Suspend方法,有警告信息,怎么将它显示正常: C# Winform项目中,用线程调用Resume和Suspend这两个方法,在VS中提示这两个方法已过时. 怎么样让VS不提醒这种信息或有什么方法来替换这个对应的方法.谢谢! 解决方案 The reason Suspend and Resume are deprecated is because there are no guarantees at what point in the execution th

以Python的Pyspider为例剖析搜索引擎的网络爬虫实现方法_python

在这篇文章中,我们将分析一个网络爬虫. 网络爬虫是一个扫描网络内容并记录其有用信息的工具.它能打开一大堆网页,分析每个页面的内容以便寻找所有感兴趣的数据,并将这些数据存储在一个数据库中,然后对其他网页进行同样的操作. 如果爬虫正在分析的网页中有一些链接,那么爬虫将会根据这些链接分析更多的页面. 搜索引擎就是基于这样的原理实现的. 这篇文章中,我特别选了一个稳定的."年轻"的开源项目pyspider,它是由 binux 编码实现的. 注:据认为pyspider持续监控网络,它假定网页在一

免费网络推广方法之商贸平台信息发布

中介交易 SEO诊断 淘宝客 云主机 技术大厅 前言:本人利用以下方法,利用"零成本"的网络推广方法,一个月创造10万业绩,希望对你也有所帮助.如有不足请多多指点! 关键词:核心关键词.免费推广方法.百度免费推广.谢巨锋 更多网络推广方法请关注谢巨锋博客http://blog.sina.com.cn/jufengseo 适合对象:没有企业网站,希望通过免费的方法开展网络推广 相关知识: 一. 网络推广基本步骤: 1. 调查研究:了解公司情况.行业特点,产品特点,客户群体等; 2. 制定

js cookie 的使用方法记录用户浏览信息

cookie是存于用户硬盘的一个文件,这个文件通常对应于一个域名,当浏览器再次访问这个域名时,便使这个cookie可用.因此,cookie可以跨越一个域名下的多个网页,但不能跨越多个域名使用. 不同的浏览器对cookie的实现也不一样,但其性质是相同的.例如在Windows 2000以及Windows xp中,cookie文件存储于documents and settingsuserNamecookie文件夹下.通常的命名格式为:userName@domain.txt. cookie机制将信息存

java中如何用数组的方法存放职员的信息,实现成员的增删改查

问题描述 提供一下代码,参考参考,新手才学java,请大神指教 解决方案 解决方案二:建议用泛型吧.list<user>创建一个user的bean.

ecshop中导致网站信息泄漏(数据库默认账户信息)解决方法

洞标题: ecshop数据库默认账户信息,导致网站信息泄漏 相关厂商: ShopEx漏洞作者: 小机 提交时间: 2012-05-28 公开时间: 2012-07-12 漏洞类型: 账户体系控制不严危害等级: 低自评Rank: 1 漏洞状态: 厂商已经确认 漏洞来源: http://www.wooyun.org ecshop在默认安装的时候,安装程序会添加两个管理员账户,虽然管理员账户没有操作权限,但是通过这两个账户还是可以看到网站的订单数据.详细说明:ecshop在默认安装的时候,安装程序会添