海康威视基于深度学习的“文字识别技术”在国际竞赛中斩获第一

近日,海康威视研究院预研团队基于深度学习技术研发的OCR(Optical Character Recognition,图像中文字识别)技术,刷新了ICDARRobust Reading竞赛数据集的全球最好成绩,并在“互联网图像文字”、“对焦自然场景文字”和“随拍自然场景文字”三项挑战的文字识别(Word Recognition)任务中,大幅超越国内外强劲参赛团队,标志着海康威视的文字识别技术达到国际领先水平。

 

ICDAR(InternationalConference on Document Analysis and Recognition)全称为文档分析与识别国际会议,由国际模式识别协会(IAPR)主办。它组织的文档分析与识别竞赛是当前OCR技术领域全球最具影响力的比赛,从2003年至今已举办5届。其中2015竞赛两年来,已吸引了来自82个国家的2367支队伍参加,其中包括Google、微软、百度、三星、旷视等团队,竞赛中涌现的许多方法都对文字识别技术的发展起到了强大的推动作用。

 

图1RobustReading竞赛的三项主要任务

 

这些任务中待识别的文字位于复杂图像背景中,成像存在噪声、模糊、透视、倾斜以及排列随意等不利因素,甚至字体格式种类繁多。海康威视的OCR技术,克服种种困难,在三项文字识别任务中均取得了世界第一,分别在Web and Email Born-Digital Images任务中以5.6%的优势超越第二名,在FocusedScene Text和Incidental Scene Text任务中超越第二名3.4%和3.1%。

 

图2 Born-Digital Images识别评测结果显示HIK_OCR排名第一

 

图3 Focused Scene Text识别评测结果显示HIK_OCR排名第一

 

图4 Incidental Scene Text识别评测结果显示HIK_OCR排名第一

 

近年来文字识别技术的突破,很大程度上依赖于深度学习的发展。海康威视预研团队设计了一个数十层的卷积神经网络来完成图像的信息编码,然后使用启发式的注意力模型,实现从特征到文字的解码。其中,专为文本识别设计的启发式机制,能够对注意力模型提取的特征进行合理性评估,使注意力模型在复杂场景中,具有强大的稳定性。

 

图5 海康威视文字识别技术原理示意

 

借助先进的OCR技术,海康威视的文字识别系统能够应对更为复杂文字识别场景,如污损及模糊、背景干扰及形变、恶劣天气等。目前,基于全新OCR技术的海康威视车牌识别系统已经覆盖全球六十余个国家和地区。基于车牌识别技术的卡口、电子警察、出入口控制、停车系统等应用也已经全面铺开。

 

图6 通用车牌识别的典型应用场景

 

除此之外,此次竞赛成果还可以应用到机器视觉领域的标签表单识别、民生领域的卡证执照识别、互联网领域的恶意图片识别、汽车辅助驾驶领域的路牌识别、城市管理领域的横幅标语和街景识别等产品中,大幅提升产品性能与应用效果。

 

在如今人工智能的浪潮里,海康威视将充分利用自身大数据的积累及人工智能技术优势,快速提升OCR技术性能,并不断推动机器的智能化和自动化水平的提高,在视频监控、智能感知和场景理解等方面为客户持续创造价值。

   

 

  

本文转自d1net(转载)  

时间: 2025-01-09 14:24:41

海康威视基于深度学习的“文字识别技术”在国际竞赛中斩获第一的相关文章

基于深度学习的商品检索技术

雷锋网(公众号:雷锋网)按:本文作者严灿祥,硕士毕业于中科院计算所VIPL课题组.目前就职于百度深度学习研究院.主要从事商品检索技术的研发.所在的识图策略组包括商品搜索.相似搜索.相同搜索与图像猜词等方向. 摘要 商品检索是一门综合了物体检测.图像分类以及特征学习的技术.近期,很多研究者成功地将深度学习方法应用到这个领域.本文对这些方法进行了总结,然后概括地提出了商品特征学习框架以及垂类数据挖掘方式,最后介绍了商品检索技术在服装搭配中的应用. 前言 几年前,当人们还在感叹于网页购物的快速便捷时,

基于深度学习的智能问答

作者:周小强 陈清财 曾华军 1引言 纵观自动问答系统的技术发展历史,从1950年代因图灵测试而诞生至今,已经有几十年的历史.但真正在产业界得到大家的广泛关注,则得益于2011年Siri和Watson成功所带来的示范效应.自此,自动问答系统较以往任何时候都显得离实际应用更近.这一方面归功于机器学习与自然语言处理技术的长足进步,另一方面得益于维基百科等大规模知识库以及海量网络信息的出现.然而,现有的自动问答系统所面临的问题远没有完全解决.事实上,无论是业界应用还是学术研究,问句的真实意图分析.问句

为恶意文件“画像” 瀚思科技基于深度学习技术快速锁定未知威胁

至顶网安全频道 07月26日 北京报道:"阿尔法狗"(AlphaGo)的一战成名让很多人记住了人工智能.深度学习.大数据分析等一系列新兴科技热词,而真正要把这些新技术应用到商业领域则又是另外一个过程.因此,我们现在看到很多创新型企业开始将人工智能技术引入到传统领域中,以求创造出颠覆性的发展机遇. 众所周知,在安全领域对于已知的安全威胁一般都比较容易防范,最棘手的问题是对未知安全威胁的检测和防护,这让很多安全企业非常困惑,而目前比较理想和成熟的防范手段是业界普遍采取的沙箱技术,沙箱的优点

《中国人工智能学会通讯》——第6章 6.1 基于深度学习技术的知识图谱构建技术研究

第6章 6.1 基于深度学习技术的知识图谱构建技术研究 随着互联网.云计算等技术的发展,信息资源不断丰富,人们的知识需求也有所增长.如何正确理解知识需求,定位和提取相关的知识,并提供有效的知识服务,是知识工程的重要研究问题.其中,知识图谱作为目前主流的知识工程基础技术,支撑着包括智能搜索.智能问答.个性化推荐等多种知识服务,涉及到知识表示.知识获取.知识融合.知识推理等关键技术. 知识图谱是对知识的结构化表示,其核心思想是将现实世界的知识表达为实体和实体之间关系的形式.实际上,在知识图谱被提出之

中国人工智能学会通讯——文字识别技术现状、挑战及机遇

今天非常高兴在这里作一个文字识别的技术现状.目前存在的问题及挑战.学术研究和商业应用机遇,以及未来技术发展趋势的报告. 首先简要谈一下人工智能.去年3月份,美国纽约时报采访了硅谷一些IT的大神们,请他们谈一下未来IT领域当中什么方向是潜在的爆发点,当时很多专家都不约而同谈到一个观点,就是人工智能很可能是未来IT领域的大事件.其实不仅仅是在工业界,在计算机学术界乃至整个科学界,人工智能过去几年都是非常热门的研究话题,举例来说,在过去两年,与深度学习和机器学习相关的文章已经有5次上了Nature或S

搜狗研究员讲解基于深度学习的语音分离

基于深度学习的有监督语音分离在学术界和工业界越来越受到关注,也是深度学习在语音领域的应用中重要的一部分.作为雷锋网AI研习社近期组织的一系列语音领域应用的分享会之一,本次我们请到了来自搜狗的研究员文仕学对语音分离方面主要的研究课题和相关方法做一些介绍. 文仕学,过去学物理,后来学EE,现在从事Deep Learning工作,未来投身AI和CM事业.他的研究兴趣在于语音信号处理和深度学习.在加入搜狗之前,曾在中国科学技术大学学习,在该领域的期刊和会议上发表了若干篇论文.现在在搜狗语音团队任副研究员

深度学习在人脸识别中的应用——优图祖母模型的“进化”

雷锋网按:本文转自腾讯优图,着重介绍了深度学习在人脸识别中的应用,首先回顾了人脸识别的历史,接着介绍优图在人脸识别中的优势,及其"进化过程". 说到人工智能(Artificial Intelligence, AI)人们总是很容易和全知.全能这样的词联系起来.大量关于AI的科幻电影更给人工智能蒙上一层神秘的色彩.强如<黑客帝国>.<机械公敌>中的AI要翻身做主人统治全人类.稍弱点的<机械姬>里EVA懂得利用美貌欺骗中二程序员,杀死主人逃出升天.最不济也

基于深度学习的智能安防系统结构探讨

智能安防的概念提出已经有相当长时间了,但是道路并不平坦,受限于计算机视觉算法和前端设备处理能力,许多功能一直无法成熟应用.但是厂商在宣传智能水平方面往往有夸大的冲动,使得产品在部署使用后,实际性能与用户期待相去甚远.虽然这种情况使得安防领域的智能化陷入了一段尴尬时期,同时也降低了用户的期望值,使用户更加理性的看待智能安防技术,也使得真正优秀的智能安防产品能得到机会.最近数年来深度学习算法的快速发展,在各类人工智能问题上的优异表现给智能安防领域带来了新的机遇.在深度学习迅速发展的大背景下,本文就智

《中国人工智能学会通讯》——6.4 基于深度学习的知识图谱构建

6.4 基于深度学习的知识图谱构建 随着深度学习在自然语言处理领域应用的不断深入,人们也开始尝试将深度神经网络用于知识图谱的自动构建.在此,以实体和关系的表示学习技术为基础,讨论深度学习在命名实体识别.关系抽取.关系补全等任务上的应用. 命名实体识别 命名实体识别是从文本中提取出和人名.地名等特定的短语或名称的任务.早期的命名实体识别主要基于规则和词典来进行,对规律性较强的文本环境较为适合,但难以摆脱对领域专家的的依赖,费时费力且难以移植[28] .随着语料数据的增长,研究者逐步将机器学习和统计