如何利用深度学习识别图片中的电话号码？

总结下最近做的一个项目，只提供一些技术方案，不涉及具体业务和具体实现。

背景

自动识别图片中电话号码，也可以推广到识别字符串，英文等。

---识别--->

“18811610168”

当然，背景会有干扰(自然环境)，字体也更多变。

要求：全对识别，人工修正的成本过高，如果有一位识别错误，人工修正还不如重新输入方便(人工输入可以支持语音识别的)。

保证85%以上的数据是可以全对识别的，最好返回全对识别的概率。当然对于电话号码业务，根据识别的文本结果再加上电话的一些规则，后判断程序也可以有效地判断哪些是高概率识别错误的。

方案

目标检测、ocr识别已经是被学术界玩透的技术了。神经网路是目前的大热，而且效果极佳。识别方案有以下三种：

方案一：作为传统ocr来解

检测图片中的数字位置，然后对数字region过分类器识别。传统方法：Sliding Windows、Selective Search等寻找候选区域;Boosting分类器、SVM等都可以用于识别。深度学习的方案效果更好，比如：Faster RCNN、YOLO等。

它们的实质都是：检测字符的位置，识别字符的类别(内容)。

检测：

识别：

--->数字“1”

----->数字“8” … …

识别结果主要受检测准确度和识别精度的影响。在检测完全正确的情况下，自左向右识别各个字符，然后串联识别结果。

如果检测完全正确，识别分类器的loss=0.01，每个字符的正确识别的概率p=0.99。11位电话全对的概率约为0.895，loss值=-ln(0.895)=0.111。

但是，检测可能出错。另外，图片中的电话可能是倾斜的，后期串联结果也会比较繁琐，比如。

方案二：循环神经网络RNN

方案一没有考虑电话号码的序列特性，如果将图片分割为时序信号，送入RNN/LSTM/BLSTM等网络，识别性能会大幅提升。

问题是图片的分割不准确怎么办?

其实这里的分割并不是严格的，解决方案是，将图片按行分割成n个，比如电话号码分割成21个小图片，然后20个图片送入RNN网络得到20个序列化的输出。

由于一个字符可能在相邻两个小图上出现(各一半)，最终的识别结果很可能是“1_88_8_1_1_66_10_16_8”。最后再经过一个CTC网络融合得到“18811610168”。

方案三：循环卷积网路RCN

方案二是把图片原图分割后送入RNN网络，RNN做特征提取和分类识别。级联RNN的训练是不容易收敛的，而且特征的提取工作是CNN的强项。

重新设计网络，可以使用cnn提取图片的特征，然后将feature Map分割成n个，送入RNN做识别，最终通过CTC得到识别结果。

这样的好处是，输入数据不用做预处理，切割可以通过网络中矩阵的转置实现;网络实现了End-to-End;输出是完整字符串，识别准确率高，loss值约为0.02，全对正确率约为0.98。

本文作者：候凯

来源：51CTO

时间： 2024-10-31 09:30:20

如何利用深度学习识别图片中的电话号码？的相关文章

吴恩达 NIPS 2016：利用深度学习开发人工智能应用的基本要点（含唯一的中文版PPT）

雷锋网按:为了方便读者学习和收藏,雷锋网(公众号:雷锋网)特地把吴恩达教授在NIPS 2016大会中的PPT做为中文版,由三川和亚峰联合编译并制作. 今日,在第 30 届神经信息处理系统大会(NIPS 2016)中,百度首席科学家吴恩达教授发表演讲:<利用深度学习开发人工智能应用的基本要点(Nuts and Bolts of Building Applications using Deep Learning)>. 此外,吴恩达教授曾在今年 9 月 24/25 日也发表过同为<Nuts a

独家专栏 | 如何利用深度学习搭建一个最简单的无人驾驶系统

雷锋网按:本文为雷锋网独家专栏,作者系佐思产研研究总监周彦武,雷锋网(公众号:雷锋网)经授权发布. 国内最牛的无人驾驶厂家的运算平台是这样的: 一个英特尔至强 E5 的 CPU,拥有 12 内核,30MB 的二级缓存,运算能力为 400GOPS/s,功率消耗为 400 瓦(应该是第一代至强 E5,目前 E5 最高功率消耗都不超过 180 瓦),八个英伟达的 K80 GPU,每一个 K80 的运算能力为 8TOPS/s,通过 PCI-E 连接,每一个 K80 的功率消耗为 300 瓦,合计是 28

深度 | 做到这些值4亿美元：看 Nervana 如何利用深度学习实现数据革命

2016 年 8 月,英特尔为了加强其人工智能领域的能力,以 4 亿美元的天价收购了机器学习初创公司 Nervana .该初创公司成立仅仅两年,却被公认为是机器学习技术开发的领导者.近日,Nervana 的联合创始人兼首席执行官 Naveen Rao 博士在 StrataHadoop 上和大家深入探讨了深度学习的话题,通过其PPT,我们也能了解Nervana价值所在. Naveen 探索了许多方面,包括深度学习相对于其他机器学习技术的好处.该领域的最新进展.深入学习工作流程.开发和部署深度学习解

利用深度学习优化视频结构助力城市安防

深度学习是机器学习中一种基于对数据进行表征学习的方法.观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边.特定形状的区域等.而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别).深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征. 深度学习是机器学习研究中的一个新的领域,其动机在于建立.模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本. 视频结构化助力智慧城

中国人工智能学会通讯——深度学习与视觉计算 1.3 计算机视觉领域利用深度学习可能带来的未来研究方向

1.3 计算机视觉领域利用深度学习可能带来的未来研究方向第一个,深度图像分析.目前基于深度学习的图像算法在实验数据库上效果还是不错的,但是远远不能够满足实际大规模应用需求,需要进一步的提升算法性能从而能够转化相应的实际应用.比如这个基于图片的应用,可以估计性别和年龄,但是其实经常会犯错,因此需要进一步提升深度图像分析的性能. 第二个,深度视频分析.视频分析牵扯到大量的数据和计算量,所以做起来更加麻烦.当前深度视频分析还处于起步的阶段,然而视频应用非常广泛,比如人机交互. 智

《中国人工智能学会通讯》——2.27 利用深度学习改进统计机器翻译

2.27 利用深度学习改进统计机器翻译利用深度学习改进统计机器翻译的核心思想是以统计机器翻译为主体,使用深度学习改进其中的关键模块,如语言模型[1] .翻译模型 [2] .调序模型 [3] .词语对齐[4]等. 深度学习能够帮助机器翻译缓解数据稀疏问题.以语言模型为例.语言模型能够量化译文的流利度,对译文的质量产生直接的重要影响,是机器翻译中的核心模块.传统的语言模型采用 n-gram方法,通过极大似然估计训练模型参数.由于这种方法采用离散表示(即每个词都是独立的符号),极大似然估计面临着严重

如何利用深度学习技术训练聊天机器人语言模型？

第一篇传送门:聊天机器人的发展状况与分类第二篇传送门:基于规则和检索的聊天机器人引擎本篇文章以这个开源项目为主线进行. 数据预处理模型能聊的内容也取决于选取的语料.如果已经具备了原始聊天数据,可以用SQL通过关键字查询一些对话,也就是从大库里选取出一个小库来训练.从一些论文上,很多算法都是在数据预处理层面的,比如Mechanism-Aware Neural Machine for Dialogue Response Generation就介绍了,从大库中抽取小库,然后再进行融合,训练出有特

如何利用深度学习诊断心脏病

人类心脏是一台令人惊叹的机器,它能持续运转长达一个世纪而不失灵.测量心脏功能的关键方法之一是计算其射血分数,即每搏输出量占心室舒张末期容积量的百分比.而测量这个指标的第一步依赖于对心脏图像心室的分割. 当我在纽约从事Insight AI计划时,我决定着手处理右心室分割问题.下面我将简单介绍一下整个过程. 问题描述开发一个能够对心脏磁共振成像(MRI)数据集图像中的右心室自动分割的系统.到目前为止,这主要是通过经典的图像处理方法来处理的.而现代深度学习技术有可能提供更可靠.更自动化的解决方案.

如何利用ABBYY FineReader识别图片中的文本

作为一款OCR光学字符识别软件,ABBYY FineReader能够快速方便地将扫描纸质文档.PDF文件和数码相机的图像转换成可编辑.可搜索的文本,让电脑处理更具效率,摆脱从前的烦恼,告别耗时费力的手动输入和文件编辑.今天就给大家分享一篇别人使用ABBYY FineReader识别图片中文本的案例,看别人是如何利用ABBYY FineReader提高效率的: 昨天在微博收藏了几张图片格式的中英文对照的色谱,以后翻译的时候可能会用到,因此想到通过OCR(光学文字识别)识别处理后导入CAT中备用.之