验证码识别技术

由于现在很多网站,为了加强安全性,以及防止程序的自动操作网站,都加入的了验证码技术。但却给广大站长推广宣传网站带来的麻烦。所以我准备写这篇关于验证码识别技术的文章,不足之处在所难免!本人从来不写东西,今天为了想落伍才写了!

广大站长宣传推广自己的网站,经常要发布一些宣传广告,如果靠人工,太慢太昂贵,所以理想的办法是使用群发软件,可现在很多网站都有验证码,这成为群发软件的技术难点,而识别也就难点中的难点,好的,闲话少说,言归正传!

我举的例子是比较难于识别的验证码,不讨论不变形、不换字体、不换大小、不旋转的验证码,这里我可能不会写出代码,只是提供我编写的思路,按照这个思路,我写出的程序,比市场上出售的程序的识别率还要高很多。(有兴趣的可以问我,我不想在这里帮别人宣传,呵呵~~)

首先以数字验证码开始,字母的要比数字麻烦一些,不过搞清楚了数字验证码的识别,字母的也就不难了。

验证码一般都是图片,而且一般都是4位数,处理过程是:先分割为4个部分,然后逐一识别,由于分割比较简单,我这里就不说了,我这里只说如何识别。

我的方法是把需要识别的图片,划分为 5 行,3 列,15个块,为什么要划分为15个块呢?先看图!

○■○ 

■○■

■○■

■○■

○■○

○■○

■■○

○■○

○■○

■■■

■■■

○○■

■■■

■○○

■■■

■■■

○○■

■■■

○○■

■■■

我先举这4个例子吧,其余的大家可以自己画出来。如果做过验证码识别的朋友,肯定很快就明白为什么划分为15个块,其实主要就是因为这样划分更合理,也就更能提高识别率。

我的方法是把需要识别的图片,划分为 5 行,3 列,15个块,然后对每个块进行计算,当每个块里的有效象素超过多少百分比的时候,就标记为 ■,如果没超过就标记为○,(这里为了显示方便我使用了■,○,你完全可以把它标为1、0),这里要注意一下,这里的百分比根据字体的粗细可以取 67%,50%,33%,20%,为什么要取这几个数?主要和计算机的浮点数运算有关,选这几个数,运算更快,且不容易出错,否则计算机在进行大量计算时也是会出错的!当然这里,你完全可以选适合你的验证码图片的百分比!!

如果验证码不变形、不换字体、不换大小、不旋转,我们的识别工作到这一步基本上就结束了,因为已经可以得到比较清晰的块图,对付大多数论坛,就已经足够了。^_^

如果验证码的变形比较大、且有很多字体、大小也不固定、且有旋转,那么我们经过划分、取比率显示后,可能会得到这样一个图:

○■○

○○■

○■○

■○○

■■■

    那么这个数字应该是什么数字,我们需要使用排除法!排除所有不可能,在0123456789中,这个图不可能是013456789,他只能是 :2。

写过验证码识别的朋友可能已经明白了!是的,我们需要建立一个类似的数据库,也就是识别库,出现哪些图,他就属于那个数字。

   再举一个例子:

○■○

■○○

■■■

■○■

○■○

     这是哪个数字呢??是6,没错

我这里我需要再说明一下为什么要取5行,3列,15个块,因为块太多了你 的识别库就会很大,块太少了,就会出现很多分不清楚的块图。

另外你取的百分比也需要注意,不能太大也不能太小。

好了,等做好自己的数据库,这时就可以识别大部分数字了。

最后还有一个问题,就是重复的问题,比如,图片上的数字,明明是 5,可由于它的字体不是常见的字体,且发生了旋转,最后得到这样一个图:

■■■

■○○

■■■

■○■

■■■

   在我的数据库里,这个块图,是6,也是就说识别错误,怎么办?

我的解决方法是,在数据库里先把这条数据删除因为这个是错误的。

遇到这种情况,就需要进行二次处理,我的方法是:降低百分比,这时就得到了:

■■○

■○○

■■○

○○■

■■○

     OK,经过降低百分比,图片就由“6”又变为“5”了,呵呵~~~由于降低了百分比,我们需要再建立一个识别库的来存储这些数据。

时间: 2024-08-01 08:51:48

验证码识别技术的相关文章

验证码识别技术_应用技巧

由于现在很多网站,为了加强安全性,以及防止程序的自动操作网站,都加入的了验证码技术.但却给广大站长推广宣传网站带来的麻烦.所以我准备写这篇关于验证码识别技术的文章,不足之处在所难免!本人从来不写东西,今天为了想落伍才写了!      广大站长宣传推广自己的网站,经常要发布一些宣传广告,如果靠人工,太慢太昂贵,所以理想的办法是使用群发软件,可现在很多网站都有验证码,这成为群发软件的技术难点,而识别也就难点中的难点,好的,闲话少说,言归正传!     我举的例子是比较难于识别的验证码,不讨论不变形.

浅谈验证码的识别技术

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 这些天出于一些需要,要求做程序识别某网站的验证码,于是潜心研究了一番,颇有心得,特此分享. 编辑推荐:学习网络赚钱.网站运营 .网络营销推广请登录--选学网 http://www.xuanxue.com 验证码识别这项工作不适合浮躁的人,它需要足够的技术和耐心.由于此技术的特殊性,任何一个被公开识别技术的验证码都会很快地失效,相关网站都会很快

如何识别高级的验证码的技术总结第1/4页_应用技巧

一.验证码的基本知识 1. 验证码的主要目的是强制人机交互来抵御机器自动化攻击的. 2. 大部分的验证码设计者并不得要领,不了解图像处理,机器视觉,模式识别,人工智能的基本概念. 3. 利用验证码,可以发财,当然要犯罪:比如招商银行密码只有6位,验证码形同虚设,计算机很快就能破解一个有钱的账户,很多帐户是可以网上交易的. 4. 也有设计的比较好的,比如Yahoo,Google,Microsoft等.而国内Tencent的中文验证码虽然难,但算不上好. 二.人工智能,模式识别,机器视觉,图像处理的

轻松把玩HttpClient之封装HttpClient工具类(七),新增验证码识别功能

       这个HttpClientUtil工具类分享在GitHub上已经半年多的时间了,并且得到了不小的关注,有25颗star,被fork了38次.有了大家的鼓励,工具类一直也在完善中.最近比较忙,两个多月前的修改在今天刚修改测试完成,今天再次分享给大家.        验证码识别这项技术并不是本工具类的功能,而是通过一个开源的api来识别验证码的.这里做了一个简单的封装,主要是用来解决登陆时的验证码的问题.在线验证码识别官网:http://lab.ocrking.com/,github地址

验证码识别,发票编号识别(转)

   毕业设计做了一个简单的研究下验证码识别的问题,并没有深入的研究,设计图形图像的东西,水很深,神经网络,机器学习,都很难.这次只是在传统的方式下分析了一次. 今年工作之后再也没有整理过,前几天一个家伙要这个demo看下,我把一堆东西收集,打包给他了,他闲太乱了,我就整理记录下.这也是大学最后的一次作业,里面有很多记忆和怀念. 这个demo的初衷不是去识别验证码,是把验证的图像处理方式用到其他方面,车票,票据等. 这里最后做了一个发票编号识别的的案例: 地址:http://v.youku.co

Python验证码识别处理实例(转)

一.准备工作与代码实例 1.PIL.pytesser.tesseract (1)安装PIL:下载地址:http://www.pythonware.com/products/pil/(CSDN下载) 下载后是一个exe,直接双击安装,它会自动安装到C:\Python27\Lib\site-packages中去, (2)pytesser:下载地址:http://code.google.com/p/pytesser/,(CSDN下载) 下载解压后直接放C:\Python27\Lib\site-pack

识别率很高的java文字识别技术_java

java文字识别程序的关键是寻找一个可以调用的OCR引擎.tesseract-ocr就是一个这样的OCR引擎,在1985年到1995年由HP实验室开发,现在在Google.tesseract-ocr 3.0发布,支持中文.不过tesseract-ocr 3.0不是图形化界面的客户端,别人写的FreeOCR图形化客户端还不支持导入新的 3.0 traineddata.但这标志着,现在有自由的中文OCR软件了. java中使用tesseract-ocr3.01的步骤如下:  1.下载安装tesser

24色位图,字母图片验证码识别,基于MFC对话框的程序,在线求助,高手帮帮忙

问题描述 24色位图,字母图片验证码识别,基于MFC对话框的程序,在线求助,高手帮帮忙 24色位图(如下图)字母图片验证码识别,基于MFC对话框的程序,在线求助,高手帮帮忙

QQ验证码识别源代码(C#/NET1.1)

验证码|源代码 QQ验证码识别源代码(C#/NET1.1) using System; namespace QQ{/// <summary>/// yzm 的摘要说明./// </summary>public class yzm{public yzm(public System.Drawing.Bitmap pic){this.bp = pic;}/// <summary>/// 将一个int值存入到4个字节的字节数组(从高地址开始转换,最高地址的值以无符号整型参与&q