Linux OCR图文识别配置教程详解

采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等

 

通过Tesseract-OCR可以简单的图文识别,要想解析简单的验证友不再是什么难的技术问题,以下分享在Centos上安装OCR的步骤及PHP调用的OCR的函数。

 

一、Linux OCR 环境搭建脚本

yum install -y libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel giflib-devel

wget http://www.leptonica.com/source/leptonica-1.71.tar.gz

tar zxvf leptonica-1.71.tar.gz

cd leptonica-1.71

./configure  --with-zlib --with-libpng --with-jpeg --with-giflib --with-libtiff

make && make install

cd ..

wget http://static.cnsrn.com/tesseract-ocr-3.02.02.tar.gz

# 以下是下载语言包

wget http://static.cnsrn.com/tesseract-ocr-3.02.eng.tar.gz

wget http://static.cnsrn.com/tesseract-ocr-3.02.chi_sim.tar.gz

tar zxvf tesseract-ocr-3.02.02.tar.gz

tar zxvf tesseract-ocr-3.02.eng.tar.gz

tar zxvf tesseract-ocr-3.02.chi_sim.tar.gz

cd tesseract-ocr

./configure 

make && make install

rm -rf /usr/local/share/tessdata/;

cp -rf ./tessdata /usr/local/share/

二、命令行测试

tesseract phototest.tif output

三、PHP外部调用函数

/**

 * 异步执行CMD命令

 * 

 * @param type $cmd Linux命令

 * @return type

 */

function call_cmd($cmd) {

   $pipes = '';

   $_=("^"^".").("^"^ ",").("@" ^ "/").("#"^"@")

      .("?"^"`").("@"^"/").("^"^".").(">"^"[").("@"^".");

   $__= ("^"^".").("^"^",").("@"^"/").("#"^"@")

          .("?"^"`"). ("#"^"@").(","^"@").("@"^"/").(","^"_").(">" ^ "[");

       return $__($_("{$cmd} &",array(), $pipes));

}

/**

 * 解析图文

 * 

 * @param type $imagefile 图片路径

 * @param type $output 识别内容输出路径

 * @param type $lang 识别语言 chi_sim | eng

 * @return type

 */

function read_img($imagefile, $output, $lang = 'eng') {

     $cmd = "tesseract {$imagefile} {$output} -l {$lang}”;

     echo "cli: $cmd \n";

     return call_cmd($cmd);

}

//# 测试代码

$imagefile = 'test.tif';

$output = 'test';

read_img($imagefile,$output,'eng’);

//# 测试结果输出在 test.txt

以上是小编为您精心准备的的内容,在的博客、问答、公众号、人物、课程等栏目也有的相关内容,欢迎继续使用右上角搜索按钮进行搜索测试
, 函数
, static
make
ocr在线图文识别、php ocr图文识别、ocr图文识别软件、捷速ocr图文识别软件、ocr图文识别,以便于您获取更多的相关知识。

时间: 2024-09-17 03:38:31

Linux OCR图文识别配置教程详解的相关文章

linux中smokeping告警配置教程详解

smokeping 默认用sendmail 发邮件告警,也可以直接调用外部程序进行报警.smokeping的alert设置有点复杂,但是却很好用,设置很灵活,考虑得很周全. 一.配置邮件支持 默认情况下sendmail 是不通过163.qq之类的邮件服务器发送的,不过我们略微修改下配置即可以支持.首先需要安装 Authen::SASL 模块(auth 需要用的),然后修改 smokeping/lib/Smokeping.pm . 如下: #头上加 use Authen::SASL; #定位到se

Bootstrap 4 的安装与配置教程详解

Bootstrap 4 刚刚发布了预览版,离正式版还有一段时间.不过现在我们已经可以使用 Bootstrap 4 了,看看里面有什么新东西. 最简单的方法就是使用 Bootstrap 的 CDN ,把需要的样式表与 JS 文件链接到网页上,不过这样你不能去编辑 Bootstrap ,比如去定制里面的一些选项.下面我们使用 Git 去克隆一份 Bootstrap 仓库到本地. # 进入到桌面 cd ~/desktop # 为项目创建目录并进入这个目录 mkdir ninghao-bootstrap

基于Linux网关服务器squid配置过程详解_Linux

前言 在此,我们要配置一个只对内部网络提供代理服务的 Proxy Server.它具有如下功能它将用户分为高级用户和普通用户两种,对高级用户采用网卡物理地址识别的方法, 普通用户则需要输入用户名和口令才能正常使用. 高级用户没有 访问时间和文件类型的限制,而普通用户只在上班时可以访问以及一些其它的限制. 安装 从源中安装 源中自带稳定版本,执行下面的命令进行安装 sudo apt-get install squid squid-common 源码编译安装 当然你也可以到官方网站下载最新的版本进行

linux VPS服务器安全配置步骤详解

在开通了 Linux 系统的 VPS 或服务器后,我们有必要做一些基本的安全设置. 大概有如下几个方面: 1. 禁止root帐号ssh,使用自定义帐号ssh: 这样一来,黑客要先猜到帐号,然后才能猜解密码: 2. 禁止帐号登录,使用pubkey登录: 3. 作ip ACL,只允许几个特定的IP访问: 4. ssh端口迁移,将默认22端口改为其他端口: 5. 启动尽量少的服务:如无必要,不起服务. 配置开始 一.关闭 SSH 密码登陆 首先,你需要有自己的 SSH Key,如果你使用 Window

Linux下php安装imagick教程详解

说明: php安装目录:/usr/local/php5 php.ini配置文件路径:/usr/local/php5/etc/php.ini Nginx安装目录:/usr/local/nginx Nginx网站根目录:/usr/local/nginx/html 1.安装编译工具 yum install wget make gcc gcc-c++ gtk+-devel zlib-devel openssl openssl-devel pcre-devel kernel keyutils patch

oracle ogg同步部分列配置教程详解

oracle ogg是什么   Oracle Golden Gate软件是一种基于日志的结构化数据复制备份软件,它通过解析源数据库在线日志或归档日志获得数据的增量变化,再将这些变化应用到目标数据库,从而实现源数据库与目标数据库同步.Oracle Golden Gate可以在异构的IT基础结构(包括几乎所有常用操作系统平台和数据库平台)之间实现大量数据亚秒一级的实时复制,从而在可以在应急系统.在线报表.实时数据仓库供应.交易跟踪.数据同步.集中/分发.容灾.数据库升级和移植.双业务中心等多个场景下

linux中安装RHEV-M的教程详解

一.yum源配置 安装rhev-m需要配置RHEV-M.RHEV-H.Supplementary.JBoss四个源,这个实验的时候,我将其整合到了一个配置中.并将其保存到/etc/yum.repos.d/目录下.如下: [root@rhevm ~]# wget http://classroom.example.com/materials/rhevm.repo  -P /etc/yum.repos.d/ # cat /etc/yum.repos.d/rhevm.repo [RHEVMgr] nam

PHP 7 的编译安装配置教程详解

php 的编译安装相当简单,且每个版本差异不大,正因为如此之前版本的编译安装过程也可以参考,当然,需要注意的是,每个版本的编译参数存在部分差异,以 ./configure --help 中具体描述的编译配置参数为准. 本文中系统环境为 CentOS 7 64bit,如使用其他系统环境的,请注意在某些 依赖安装环节 的差异. 准备工作 对于 CentOS ,yum 我向来是用作安装大批量依赖的工具,所以,一股脑安装这些依赖库吧. yum install -y gcc gcc-c++ autocon

linux中haproxy日志配置的详解

haproxy在默认情况不会记录日志,除了在haproxy.conf中的global段指定日志的输出外,还需要配置系统日志的配置文件.下面以centos6.4为例,haproxy使用系统自带的rpm报1.4版本 1.vim /etc/haproxy/haproxy.conf global  log 127.0.0.1 local3     #local3是设备,对应于 /etc/rsyslog.conf中的配置,默认回收info的日志级别  maxconn 1024  user haproxy