Android ocr识别文字介绍(文字识别)

       最近在做身份证号码识别,在网上搜索的一番后发现目前开源的OCR中tesseract-ocr算是比较强大的了,它由HP于1985年到1995年间开发,后来由google直接负责,经过谷歌进一步开发后,目前的tesseract-ocr有了显著的改进。

tesseract-ocr和Leptonica图像库一起工作,它可以读取多种图像格式,并将其转换成超过60种语言的文本。可以工作在Linux,Windows,Mac OSX等系统上,并且可以在android和iphone平台上编译。

目前android版本在这个地址:https://code.google.com/p/tesseract-android-tools/, 这个版本需要自己下载很多关联的库文件,我在编译的时候出了很多问题,后来没办法又在网上找到了这个项目:https://github.com/rmtheis/tess-two,说是tesseract-ocr-tool的一个分支,这个版本的好处是很多相关的库都已经为我们配置好了,我们只要git clone下来编译下就行了,github上相关介绍说的很详细,编译的过程这里就不做介绍了,我在编译的时候出现了permission权限的问题,文件的权限用chmod 777  ./  这个命令修改下就Ok了。最后编译好的在libs下的so文件就是我们开发所需要的库文件。

android中tesseract-ocr的使用在tess-two这个项目中有例子程序,不过写的都比较简单,这里有个开源的识别项目,做的很好:https://github.com/rmtheis/android-ocr, 我借鉴的就是这个项目来开发的,但是用过后发现,对于身份证识别的效果并不好,识别率不是很高,而且经常识别不出来。OCR用到的识别库:https://code.google.com/p/tesseract-ocr/downloads/list,其实我们可以根据自己的需求来训练一套自己的识别库的,比方说我们要识别验证码,识别身份证号码等,我们就可以用下面的方法来训练一套识别库。

网上关于OCR训练的方法很多,http://my.oschina.net/lixinspace/blog/60124, http://blog.wudilabs.org/entry/f25efc5f/这两篇文章都是比较好的教程,我也是参照这两篇文章来训练的,下面结合我的操作经验来说下训练的过程。

首先我们需要下面几个工具:

tesseract-ocr-3.01, 最新版的3.02我在我机器上用了有点问题

jTessBoxEditor, 该工具是用java写的box编辑器

1、先新建一个trainocr文件夹,将上面两个文件拷贝进来,然后解压这两个文件,我们进入Tesseract-ocr文件夹下新建一个temp文件夹

2、接下来我们准备好我们需要训练的素材如下图

要想提高识别率,我们需要提供多张像上面这样的图片,我训练身份证号码识别库是用了50多张图片,等训练完了我眼睛也花了,图片格式需要为tiff格式的,可以通过windows自带的画图工具来另存为tiff格式,准备好多张图tiff图片后,打开jTessBoxEditor.jar,如下图

在此之前我们需要在第1步建立的temp文件夹下新建一个custom.tif的文件,接下来我们选择tool–>Merge TIFF 然后选择准备好的多张tiff图片,注意这里是全部选中,然后点击打开,然后选中我们刚刚建立的custom.tif文件,点击保存,这样我们就将多张tiff图片merge到了一个文件里面了。

3、接下来我们开始生成box文件了,cmd命令行进入temp文件夹下,然后输入如下命令

D:\Trainocr\Tesseract-ocr\temp>..\tesseract.exe custom.tif custom batch.nochop makebox

输入完后会在temp文件夹下多了个custom.box文件,该文件记录了识别出来的每个字和它对应的位置坐标。

4、接下来就开始矫正了,同样使用jTessBoxEditor工具,我们切换到Box Editor,然后open打开custom.tif,如图

通过右上角的X,Y,W,H对每个需要改正的字符进行调整,注意调整好后别忘记保存。

5、接下来是计算字符集,输入如下命令

D:\Trainocr\Tesseract-ocr\temp>..\unicharset_extractor.exe custom.box

6、接下来我们需要在temp文件夹下建一个font_properties文件,3.01版本的OCR需要这个文件,该文件的目的是提供输出时识别出来的字体样式信息,文件的格式为

<fontname> <italic> <bold> <fixed> <serif> <fraktur>

timesitalic 1 0 0 1 0

我们可以根据实际情况新建font_properties,我写的是

custom 0 0 0 0 0

意思是普通字体,没有任何格式。

然后执行以下命令

D:\Trainocr\Tesseract-ocr\temp>..\mftraining.exe -F font_properties -U unicharset custom.tr

7、Clustering,输入命令

D:\Trainocr\Tesseract-ocr\temp>..\cntraining.exe custom.tr

8、此时在temp文件夹下已经有很多文件了,需要把inttemp,Microfeat,normproto,pffmtable,unicharset这几个文件加上前缀custom. (注意有个点号),然后输入以下命令

D:\Trainocr\Tesseract-ocr\temp>..\combine_tessdata.exe custom.

出来的结果中我们需要确定type 1,type3, type4, type5对应的后面数据不能为-1,这样我们就可以用这个新字典来识别了,将生成的custom.traineddata文件拷贝到tessdata文件夹下,然后

tesseract test.jpg result | custom  就可以通过新的字典来识别,测试结果表明,识别率确实提高了。现实应用中我们需要使用多张图片来通过上面的步骤来生成我们需要的识别库,这样识别率才能提高。

                                                                                               

时间: 2024-08-31 12:20:14

Android ocr识别文字介绍(文字识别)的相关文章

求解调用微软MODI进行OCR识别出现文字少无法识别的问题

问题描述 求解调用微软MODI进行OCR识别出现文字少无法识别的问题 此图大小为1023X766,为无法识别的图像!求各路大神解答,小女子感激不尽~ 解决方案 文字识别有一定的局限性,或者你用汉王的试试

android ocr——身份证识别的功能实现_Android

ocr OpenCV 想必做过程图像识别的同学们都对这两个词不陌生吧. ocr (optical character recognition ,光学字符识别) 是指电子设备(例如扫描仪或数码相机)检查纸上的字符,通过检测暗,亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程. 这样就给我编程提供了接口,我们可以识别图片的文字了 (有些文档我们通过手机拍照的,直接生成word )身份证识别,银行卡识别等. opencv 是什么呢 OpenCV的全称是:Open Source Com

android ocr——身份证识别的功能实现

ocr OpenCV 想必做过程图像识别的同学们都对这两个词不陌生吧. ocr (optical character recognition ,光学字符识别) 是指电子设备(例如扫描仪或数码相机)检查纸上的字符,通过检测暗,亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程. 这样就给我编程提供了接口,我们可以识别图片的文字了 (有些文档我们通过手机拍照的,直接生成word )身份证识别,银行卡识别等. opencv 是什么呢 OpenCV的全称是:Open Source Com

急求解决-求一个关于甲骨文文字识别的程序包,或者有关图像,文字的的识别的程序包。

问题描述 求一个关于甲骨文文字识别的程序包,或者有关图像,文字的的识别的程序包. 求一个关于甲骨文文字识别的程序包,或者有关图像,文字的的识别,文物的拼接累似的程序包. 解决方案 http://blog.csdn.net/manji_lee/article/details/9002228

Android中使用TextView实现文字环绕图片效果实例

在平时我们做项目中,或许有要对一张图片或者某一个东西进行文字和图片说明,这时候要求排版美观,所以会出现文字和图片混排的情况,如图: 这种情况就是上下两个文字说明是连续在一起的,这就要求我们计算上面的文字说明怎么和下面的文字说明连贯结合在一起呢,这就要求我们进行计算了,下面给出代码,代码中也有详细的注释,原理也很简单. 因为算是比较简单,直接就在activity中去计算了: package com.example.test; import android.app.Activity; import

Android 语音识别— 怎么做到 先识别打电话,再识别电话号码?

问题描述 Android 语音识别- 怎么做到 先识别打电话,再识别电话号码? 由于刚学Android开发,所以有些功能还是不知道怎么去实现.我想按按钮实现语音输入,然后识别,如果我说"打电话",标志位signal为""打电话"".然后再点识别按钮的时候,就读取我说的电话号码"tel_num"然后就直接把这个号码打出去了.我是想实现这个功能,但是我不熟悉Android的执行方式,到真机上就强制关闭,我一直没找到解决办法,求前辈

上一个下一个-Android 高亮搜索到的文字

问题描述 Android 高亮搜索到的文字 怎么高亮搜索到的文字?怎么上一个下一个? 解决方案 用indexOf搜索,记录下当前位置,找到了高亮出来

Android编程开发之TextView文字显示和修改方法(附TextView属性介绍)_Android

本文实例讲述了Android编程开发之TextView文字显示和修改方法.分享给大家供大家参考,具体如下: 一. 新建一个Activity 和 Layout 首先在layout文件夹中新建一个activity_main.xml,在新建工程的时候一般默认会新建此xml文件,修改其代码如下: activity_main.xml 代码 <RelativeLayout xmlns:android="http://schemas.android.com/apk/res/android" x

安卓(Android)开发之分享带文字的图片_Android

前言 想想我们常用的网易云音乐,允许我们把歌词连带着歌曲的图片拼在一起变成一张图,我们再把这张图片分享出去就好了. 那么,本篇的内容就是动手做一个带文字的图片. 这里也记录下上下文,因为做了一个失物招领的App,当有人上交了失物之后,可以将这个消息分享出去,这个消息内容有物品的信息和图片,而微信SDK始终无法做到,就想着把物品信息嵌入到图片中分享出去,先放一个效果图:   这个分享出去的图片很简单,上面是图片,下面是文字组合在一起.  先要知道,方案的原理是通过操作一个以Bitmap为基础的Ca