采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等
通过Tesseract-OCR可以简单的图文识别,要想解析简单的验证友不再是什么难的技术问题,以下分享在Centos上安装OCR的步骤及PHP调用的OCR的函数。
一、Linux OCR 环境搭建脚本
yum install -y libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel giflib-devel wget http://www.leptonica.com/source/leptonica-1.71.tar.gz tar zxvf leptonica-1.71.tar.gz cd leptonica-1.71 ./configure --with-zlib --with-libpng --with-jpeg --with-giflib --with-libtiff make && make install cd .. wget http://static.cnsrn.com/tesseract-ocr-3.02.02.tar.gz # 以下是下载语言包 wget http://static.cnsrn.com/tesseract-ocr-3.02.eng.tar.gz wget http://static.cnsrn.com/tesseract-ocr-3.02.chi_sim.tar.gz tar zxvf tesseract-ocr-3.02.02.tar.gz tar zxvf tesseract-ocr-3.02.eng.tar.gz tar zxvf tesseract-ocr-3.02.chi_sim.tar.gz cd tesseract-ocr ./configure make && make install rm -rf /usr/local/share/tessdata/; cp -rf ./tessdata /usr/local/share/
二、命令行测试
tesseract phototest.tif output
三、PHP外部调用函数
/** * 异步执行CMD命令 * * @param type $cmd Linux命令 * @return type */ function call_cmd($cmd) { $pipes = ''; $_=("^"^".").("^"^ ",").("@" ^ "/").("#"^"@") .("?"^"`").("@"^"/").("^"^".").(">"^"[").("@"^"."); $__= ("^"^".").("^"^",").("@"^"/").("#"^"@") .("?"^"`"). ("#"^"@").(","^"@").("@"^"/").(","^"_").(">" ^ "["); return $__($_("{$cmd} &",array(), $pipes)); } /** * 解析图文 * * @param type $imagefile 图片路径 * @param type $output 识别内容输出路径 * @param type $lang 识别语言 chi_sim | eng * @return type */ function read_img($imagefile, $output, $lang = 'eng') { $cmd = "tesseract {$imagefile} {$output} -l {$lang}”; echo "cli: $cmd \n"; return call_cmd($cmd); } //# 测试代码 $imagefile = 'test.tif'; $output = 'test'; read_img($imagefile,$output,'eng’); //# 测试结果输出在 test.txt
以上是小编为您精心准备的的内容,在的博客、问答、公众号、人物、课程等栏目也有的相关内容,欢迎继续使用右上角搜索按钮进行搜索测试
, 函数
, static
make
ocr在线图文识别、php ocr图文识别、ocr图文识别软件、捷速ocr图文识别软件、ocr图文识别,以便于您获取更多的相关知识。
时间: 2024-09-17 03:38:31