第 38 章 OCR - Optical Character Recognition

38.1. Tesseract

查找Tesseract安装包

$ apt-cache search Tesseract
ocrodjvu - tool to perform OCR on DjVu documents
slimrat - GUI application for automated downloading from file hosters
slimrat-nox - CLI application for automated downloading from file hosters
tesseract-ocr - Command line OCR tool
tesseract-ocr-deu - tesseract-ocr language files for German text
tesseract-ocr-deu-f - tesseract-ocr language files for the German Fraktur script
tesseract-ocr-dev - Development files for the tesseract command line OCR tool
tesseract-ocr-eng - tesseract-ocr language files for English text
tesseract-ocr-fra - tesseract-ocr language files for French text
tesseract-ocr-ita - tesseract-ocr language files for Italian text
tesseract-ocr-nld - tesseract-ocr language files for Dutch text
tesseract-ocr-por - tesseract-ocr language files for Brasilian Portuguese text
tesseract-ocr-spa - tesseract-ocr language files for Spanish text
tesseract-ocr-vie - tesseract-ocr language files for Vietnamese text

$ sudo apt-get install tesseract-ocr

$ convert test.jpg test.tif
$ tesseract test.tif test
$ cat test.txt

原文出处：Netkiller 系列手札
本文作者：陈景峯
转载请与作者联系，同时请务必标明文章原始出处和作者信息及本声明。

时间： 2024-09-24 18:36:11

第 38 章 OCR - Optical Character Recognition的相关文章

Character Recognition 0.3.1发布安卓摄影工具

Character Recognition是一个http://www.aliyun.com/zixun/aggregation/1997.html">Android应用程序,允许用户拍照或使用设备上的现有图像文件,然后应用Tesseract OCR引擎在照片中提取文本.当前版本支持英文文本,将在未来版本中添加其他语言的支持. Character Recognition 0.3.1该版本Tesseract OCR库升级到3.01版,更好的精度和速度.图像支持旋转功能,让图像在不同的方向和旋转

第 38 章 IRC - Internet Relay Chat

38.1. IRC Protcol irc://chat.freenode.net/wikipedia-zh irc://host/channel irc://chat.freenode.net/wikipedia-zh irc://irc.freenode.net/trac 原文出处:Netkiller 系列手札本文作者:陈景峯转载请与作者联系,同时请务必标明文章原始出处和作者信息及本声明.

捷速OCR将扫描文件转换成word使用教程

在日常的工作中,大家经常会扫描一些资料,但是通过扫描仪扫描出来的文件我们无法对其进行编辑,我们只能通过手工的方式将其录入到电脑中,然后再进行编辑.这种方法不仅费时费力,而且容易出错,所以很多用户就在思考,我们能不能通过一些工具直接将扫描的图片转换成可编辑的Word文档呢?其实,这种OCR识别技术已经存在,很多以这种技术为基础的图片文字识别工具已经被很多用户广泛使用.下面我为大家介绍将扫描图片转换成word的简单高效方法. OCR(optical character recognition)文字识

【OCR】CentOS7下编译安装tesseract-ocr

什么是tesseract-ocr OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别,获取的过程. Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布. 现在托管在GitHub中~ 源代码位置托管于 http://code.google.com/p/tesseract-ocr/ 目前项目转移到GitHub http

安防OCR技术实力彰显市场应用其实很广

还记得上月,海康威视研究院预研团队基于深度学习技术研发的OCR(Optical Character Recognition,图像中文字识别)技术,在ICDARRobust Reading竞赛数据集竞赛中刷新全球最好成绩,并在"互联网图像文字"."对焦自然场景文字"和"随拍自然场景文字"三项挑战的文字识别(Word Recognition)任务中获得第一吗?<海康威视深度学习"文字识别技术"国际竞赛中获第一> 安防O

C++开源代码项目汇总

Google的C++开源代码项目 v8 - V8 JavaScript EngineV8 是 Google 的开源 JavaScript 引擎.V8 采用 C++ 编写,可在谷歌浏览器(来自 Google 的开源浏览器)中使用.V8 根据 ECMA-262 第三版中的说明使用 ECMAScript,并在使用 IA-32 或 ARM 处理器的 Windows XP 和 Vista.Mac OS X 10.5 (Leopard) 以及 Linux 系统中运行.V8 可以独立运行,也可以嵌入任何

海康威视基于深度学习的“文字识别技术”在国际竞赛中斩获第一

近日,海康威视研究院预研团队基于深度学习技术研发的OCR(Optical Character Recognition,图像中文字识别)技术,刷新了ICDARRobust Reading竞赛数据集的全球最好成绩,并在"互联网图像文字"."对焦自然场景文字"和"随拍自然场景文字"三项挑战的文字识别(Word Recognition)任务中,大幅超越国内外强劲参赛团队,标志着海康威视的文字识别技术达到国际领先水平. ICDAR(Internatio

使用Python破解验证码

Keywords: python captcha Most people don't know this but my honours thesis was about using a computer program to read text out of web images. My theory was that if you could get a high level of successful extraction you could use it as another source

OCRKit 1.8.1发布光学字符识别工具

OCRKit是一款使用OCR (Optical Character Recognition)光学字符来识别图像中的文本信息的工具,可以将任何PDF或图形文件转换成可搜索的PDF.RTF.HTML和TXT文件.特别适用于通过电子邮件接收到的http://www.aliyun.com/zixun/aggregation/16864.html">PDF文档,DPT创建,办公应用,从扫描仪.复印机.数码相机获得的图像. OCRKit 1.8.1版本提高了网页内容的自动旋转功能. 软件信息:http