文字识别刷新世界纪录,海康威视浦世亮新智元“AI春节”解密安防大数据 | 新智元峰会演讲

日前,海康威视研究院预研团队基于深度学习技术的 OCR(Optical Character Recognition,图像中文字识别)技术,刷新了 ICDAR Robust Reading 竞赛数据集的全球最好成绩,并在“互联网图像文字”、“对焦自然场景文字”和“随拍自然场景文字”三项挑战的文字识别(Word Recognition)任务中取得第一。

 

ICDAR(International Conference on Document Analysis and Recognition)全称为文档分析与识别国际会议,由国际模式识别协会(IAPR)主办。ICDAR 组织的文档分析与识别竞赛是当前 OCR 技术领域全球最具影响力的比赛,从 2003 年至今已举办 5 届。其中,ICDAR 2015 竞赛,吸引了来自 82 个国家的 2367 支队伍参加,其中包括 Google、微软、百度、三星、旷视等团队,竞赛中涌现的许多方法都对文字识别技术的发展起到了强大的推动作用。

图1:RobustReading竞赛的三项主要任务

在竞赛的三大主要任务中,待识别的文字位于复杂图像背景中,成像存在噪声、模糊、透视、倾斜以及排列随意等不利因素,字体格式种类繁多。

海康威视的OCR技术,在三项文字识别任务中均取得了世界第一,在互联网文字任务中以 5.6% 的优势超越第二名,分别在对焦自然场景文字和随拍自然场景文字任务中超越第二名 3.4% 和 3.1%。

图2:Born-Digital Images识别评测结果显示HIK_OCR排名第一。

图3:Focused Scene Text识别评测结果显示HIK_OCR排名第一

图4:Incidental Scene Text识别评测结果显示HIK_OCR排名第一

文字识别技术近年来的突破,很大程度上依赖于深度学习的发展。海康威视预研团队设计了一个数十层的卷积神经网络来完成图像的信息编码,然后使用启发式的注意力模型,实现从特征到文字的解码。

据介绍,海康威视此次专为文本识别设计的启发式机制,能够对注意力模型提取的特征进行合理性评估,使注意力模型在复杂场景中,具有强大的稳定性。借助先进的OCR技术,海康威视的文字识别系统能够应对更为复杂文字识别场景,如污损及模糊、背景干扰及形变、恶劣天气等。

图5:海康威视文字识别技术原理示意

目前,基于全新OCR技术的海康威视车牌识别系统已经覆盖全球六十余个国家和地区。基于车牌识别技术的卡口、电子警察、出入口控制、停车系统等应用也已经全面铺开。

图6:通用车牌识别的典型应用场景


据介绍,此次竞赛成果还可以应用到机器视觉领域的标签表单识别、民生领域的卡证执照识别、互联网领域的恶意图片识别、汽车辅助驾驶领域的路牌识别、城市管理领域的横幅标语和街景识别等产品中,大幅提升产品性能与应用效果。

智能产业龙头企业亮相新智元“AI春节”

海康威视是中国上市公司里最货真价实的人工智能公司之一,现在已经做到了全球视频监控的第一。近年来,结合安防行业的智能化转型浪潮,海康威视布局安全视频监控发展,物联网以及视频大数据和智能视频分析,并且取得了商业回报。

强大市场实力的背后无疑是核心技术的支撑,除了上文所说的 ICDAR,海康威视在以 ImageNet 竞赛为代表的国际技术竞赛中一直都有亮眼的成绩,是中国人工智能技术界和产业界都关注的玩家。

3 月 27 日举行的新智元开源·生态AI技术峰会邀请到了海康威视首席专家、研究院院长浦世亮作为嘉宾,介绍海康在智慧城市安防行业的智能+现状。

浦世亮是法国国家科学研究院(CNRS)博士,浙江大学理学博士,负责海康威视在人工智能及大数据领域的技术研究。浦世亮带领研究院研发的Smart 265编码技术、目标结构化算法、车牌识别算法、人脸识别算法、视频检索引擎、多传感器融合等技术,被广泛应用于公共安全、金融、交通、司法、零售、智慧城市等多个领域。

在新智元“327”技术峰会上,浦世亮发表题为《安防大数据驱动下的智慧生活》的演讲,介绍了智能设备的挑战以及海康威视的应对之道。 

以下为浦世亮博士的演讲。

浦世亮:谢谢杨静,谢谢新智元,今天非常荣幸有机会与大家分享海康威视在人工智能领域的一些观点。我演讲的题目是《安防大数据驱动下的智慧生活》。下面我会与大家分享我们在应用安防大数据上所做的努力,以及在智慧生活方面所做的探索。演讲的副标题是“From Real World To Real World”。现在,人工智能设备是被数据驱动的,我们也思考了我们拥有的数据,安防摄像机有真实性也具有实时性。

视觉传感器无处不在,包括摄像机、无人机、汽车电子、还有机器人。在很多智能硬件中,视觉传感器是最重要的感知手段。当智能硬件每天开机之后,需要面对一个纷扰复杂的世界。如何让视觉传感器更好地感知我们的世界,更好地服务我们的智慧生活,是海康威视的研究的重要命题。

智能应用关键:找到数据量小的大数据入口

刚才阿里巴巴的华先胜博士也提到,全球摄像机的出货量非常大,具体有多少?跟大家分享一组市场调研报告,根据 IHS 关于全球安防摄像机出货量的报告及预测,今年全球安防摄像机的出货量将达到1.3亿台,而且在未来几年还将持续高速增长,预计到2020年,全球出货量将达到将近2亿台。安防摄像机的装机量越来越大,使得安防系统成为一个非常好的视频数据入口。除了视频数据以外,我们的安防系统也会接入许多其它种类繁多的传感器,例如门禁、烟感、雷达等。这些接入安防系统的大数据形成肥沃的土壤,可以生长出很多智慧生活的应用。

数据质量对现在的人工智能技术非常重要,因为现阶段的深度学习依旧被数据所驱动。我们也做了很多实验来考察数据对于人工智能最终应用的性能会有怎样的影响。我们列出两个测试结果,一是在人脸检测上的测试结果,另外一个是在行人检索上的结果。人脸检测就是对视频图像中的人脸进行检测和定位,而行人检索是对跨摄像机的行为进行多视频的关联检索。一方面我们在互联网上采集海量数据进行训练,另一方面我们也用安防数据进行训练。

可以看到,在算法一致的情况下,实验的结果显示,当数据样本非常少的时候,算法的性能可以获得极大的优化。我们认为在智慧生活中各种应用的尝试最重要的是找到数据量比较小的大数据入口。


应对安防大数据三大挑战,海康威视有独门秘籍

       

同时,安防摄像机所拍摄的数据具有真实性和实时性两大优点。因此,安防大数据可以很好驱动智慧生活的应用。然而在实际的应用中我们会面临很多的挑战,主要有以下三个:第一,海量数据与数据标记成本之间的矛盾;第二,复杂场景和有限的感知能力之间的矛盾;第三,神经网络和巨大的实施成本(有限的计算资源)之间的矛盾。接下来对这三点进行详细的介绍,并且介绍我们的应对措施。

挖掘无标签数据中的隐藏信息做额外反馈,化解标记数据成本高的问题

首先,海量数据与数据标记之间的对比。海康威视在全国有很多的联合实验室,我们拥有非常大的数据入口。我们建立了庞大的数据标注团队,每天会产生源源不断的标注数据。算法性能基于这种数据有极大的提升。但是,我们所能标注的数据只是所获取的数据的冰山一角,大量的数据还沉在水面之下。如何有效地利用这些数据,让我们的算法进一步提升?这是我们一直在研究的课题。

当然,目前学术界最直接的做法就是无监督学习,也有非常有价值的方法,例如深层对话网络。但是现阶段,我们认为在大部分的应用场景下,无监督学习还是比不上有监督学习,刚才华博士也提到车牌识别中的一些深层对抗网络实验。在数据样本非常少的情况下的确可以运用深层对抗网络提升算法性能。但是很多场景下,无监督学习性能比不上有监督学习。

如何充分挖掘无标签数据中的信息?在训练中,我们用这些隐藏在无标签数据背后的信息做额外的信息反馈,包括特征提取模型的反馈,对标签预测模型的反馈和对损失函数的反馈。举个例子,假设我们在安防场景抓拍了很多人脸,并没有对这些人脸做逐一的标记,但是可能会获取抓拍场景信息,获取抓拍人群信息。当我们把这些额外的信息和标注信息进行融合训练时,可以极大地提升算法的泛化能力。

多传感器融合,应对复杂场景感知问题

第二个矛盾来自复杂场景与设备感知能力的矛盾。我们的智能硬件需要应对实际生活中复杂纷扰的环境。以摄像机为例,需要在各种恶劣的气侯条件下7×24小时工作。因此,在恶劣条件下形成的成像效果极大地影响后续人工智能算法的效果。如何解决这个问题?现在工业界有一个趋势:随着微电子工艺水平的上升,各类传感器的成本、功耗、体积都呈下降趋势,这也为产品上进行播散式融合提供了条件。多传感器的融合有很多种方式,以海康威视的黑光相机为例, 黑光相机是可见光和红外光相融合的产品,可以在380纳米到1000纳米的超宽光谱下进行成像,并且在超低光线下同时获得色彩信息和亮度信息。

相比星光相机,黑光相机无论在亮度、色彩、还原度、细节的支撑度上都有极大的提升。因此,我们认为,多传感器的融合可以很好地解决复杂环境下的感知问题。

使用线上增量学习,弥补前端设备计算力的差距

第三个矛盾是复杂模型和运算能力之间的矛盾。在实际生活中,为了应对各种应用场景,我们需要设计非常复杂的算法模型。但是设备尤其是前端设备的计算能力十分有限,就形成了复杂模型跟计算能力之间的矛盾。比如,我们的算法工程师设计了一套上百层的网络的算法,性能非常不错,但一算这个产品成本、功耗等,就发现实际应用很难。为了解决这个问题,我们构建了线上增量学习的方式。所谓线上增量学习,就是用各类场景下的数据训练一个复杂的通用模型。我们用前端采集设备采集数据,并对这些数据进行一定的难例标注,送到半监督学习框架内。半监督学习框架会基于我们的通用模型,针对场景做模型优化,同时进行裁剪和压缩,最终线上上传到我们的前端设备上。通过这种手段,我们可以在比较有限的计算资源下实现算法,并针对特定场景提升性能。

以上介绍了针对三种挑战的应对方法,海康威视在过去几年基于安防大数据发布一系列集成深度学习的产品,包括前端摄像机、后端服务器和门禁类产品。在这里挑选两款摄像机做一个介绍。第一款是人脸识别摄像机,过去几年人脸识别技术有很多应用场景,在这些应用场景中,安防场景可能是最复杂的场景,因为它需要适应各种光照条件、准假设条件和各种角度。人脸识别相机是多传感器融合的产品,融合了深度传感器、可见光传感器,并集成检测人脸识别的算法。摄像机通过人脸检测的反馈信息,实时调整摄像机的成像参数,从而生成最清晰的人脸图象,用深度传感器获取人脸姿态,并进行实时评估,最终挑选最优的人脸图象进行识别。这款相机把检测和识别同时放在里面。

另一个产品,全局摄像机。安防产品的甲方需要同时关注全局信息和目标的细节信息,就像视频中的出入口,我们需要关注出入口的全局信息,同时希望得到每一个出入目标的细节。我们的全局摄像机将高清的广角摄像机与跟踪相机相融合。广角的高清摄像机拍摄全局图象,跟踪相机对目标进行跟踪。人工智能技术进行全局检测,驱动跟踪相机对目标进行拉伸,跟踪获得目标的细节图象,最后用分类网络获取多达几十种的属性信息,例如目标的年龄、性别、穿着、是否戴眼镜等。

海康威视利用安防大数据进化了人工智能的能力,在智慧城市中做了很多探索。在智能制造领域开发了阡陌搬运机器人,可以在产业线中自动搬运物料。目前,搬运机器人已经上线六百多台,实现完自动物料搬运;在安防领域实现行人的人脸实时抓拍,在多个城市平台项目中帮助公安干警定位了几百个在逃人员。同时可以将结构化相机用于商业系统,提取客流量、顾客的身高、年龄、穿着等,利用这些信息帮助连锁商业客户进行商业大数据分析。我们的系统也可以实时获取各类路况信息,包括违章事件、车辆结构化信息,同时可以用无人机对违章车辆进行跟踪抓拍;我们还开发了自动泊车系统,有了这套系统,寻找车位、寻找爱车包括倒车入库等都不再是困扰。

以上分享了海康威视在智慧城市中的部分探索,我们希望利用安防大数据来驱动智慧生活,用我们的感知技术让城市变得更加智能。

文章转自新智元公众号,原文链接

时间: 2024-09-19 08:56:35

文字识别刷新世界纪录,海康威视浦世亮新智元“AI春节”解密安防大数据 | 新智元峰会演讲的相关文章

机器人3秒破解魔方刷新世界纪录

机器人3秒破解魔方刷新世界纪录[环球网综合报道]<每日邮报>3月15日报道,继2011年名叫Cubestormer 2的机器人以5.35秒的时间破解魔方后,它的升级版Cubestormer 3在英国伯明翰"The Big Bang Fair"科技博览会上以3.253秒刷新了吉尼斯世界纪录.报道称,2011年澳大利亚墨尔本斯温伯尔尼理工大学一名学生制作的机器人,以10.69秒的速度破解魔方,成为当时世界上机器人解魔方的最快速度.而此次由工程设计师大卫•戈尔戴和迈克•多布森同科

双11逼近技术极限 阿里云刷新世界纪录

本文讲的是双11逼近技术极限 阿里云刷新世界纪录[IT168 云计算]2015天猫双11全球狂欢节再次刷新一系列世界纪录.商业奇迹背后,是中国计算能力的登顶全球.11日,阿里巴巴集团披露,当天系统交易创建峰值达到每秒钟14万笔,支付峰值达到每秒钟8.59万笔.相比2009年首届双11,订单创建峰值增长了350倍,支付峰值增长了430倍. 为了支撑这一天量的高并发交易,阿里巴巴今年实现了多项世界级技术创新:全球最大规模混合云架构;全球首个核心交易系统上云;1000公里外交易支付"异地多活"

人和未来刷新世界纪录 助力生物信息云计算

2016年11月4日,基因组云计算技术开发者大会(GCTA)在第11届国际基因组学大会(ICG)上正式公布了历时6个月的全球公开竞赛结果. 本届大赛由今年4月份成立的"中国生物信息云计算产业联盟"倡导发起,集聚华大基因.阿里云.英特尔.百度开放云.华为等单位的技术开发力量,通过汇聚BT和IT行业精英,共同解决基因组学数据大规模存储和计算等方面所面临的挑战. 在众多BT和IT行业精英中,人和未来脱颖而出,成为本届大赛最大的黑马.人和未来CTO宋卓博士代表GTX团队领取了奖杯和证书.人和未

生物识别及安防服务大有可为 新三板企业提前布局

在过去的一年里,中国安防行业整体呈现出市场增长.需求增加的态势.据权威机构数据显示,2015年中国安防行业产值为4860亿元,其中安防工程产值达2730亿元,安防产品占1800亿元,搬运运营服务及其他产值达330亿元.而在视频监控.门禁和防盗报警设等三大安防设备产品中,视频监控目前占据了市场的主体.根据前瞻产业研究院数据,预计2018年安防行业市场规模将达到7038亿元以上,安防运营.安防产品互联网化.视频监控等领域将面临较大的成长机会和空间. 生物识别及安防服务大有可为 新三板企业提前布局 纳

硅类多结太阳能电池转换效率达到30.2% 刷新世界纪录

德国弗劳恩霍夫研究机构11月9日宣布,该机构的太阳能系统研究所(Solar Energy Systems ISE)与奥地利意唯奇集团公司(EV Group,EVG)合作,利用硅(Si)基板成功生产了转换效率高达30.2%的多结太阳能电池. 弗劳恩霍夫ISE等试制.转换效率达30.2%的Ⅲ-V族半导体与硅多结太阳能电池(出处:Fraunhofer ISE/A.Wekkeli) 这一是德国弗劳恩霍夫研究机构与ISE研究所(FraunhoferISECalLab),对4cm2面积的太阳能电池测得的转换

中兴超100G光通信新技术刷新世界纪录

近日,在美国光纤通信(OFC/NFOEC)会议期间,中兴通讯首次在实验中实现了单信道为10Tbit/s的光信号,并成功让该信号在标准单模光纤中的640公里传输,刷新了此前单信道传输最高速率为1Tb/s光信号的世界记录,为单信道更高速率光传输技术的研究奠定了基础. 实验通过采用中兴通讯专利技术――载波产生技术,成功地产生了112个相干的光载波,每个光载波承载100Gbit/s的光信号,从而实现了单信道为11.2Tbit/s的光信号,剥离前向纠错码(FEC)等开销后净速率为10Tb/s. 在全球光h

中国人工智能学会通讯——文字识别技术现状、挑战及机遇

今天非常高兴在这里作一个文字识别的技术现状.目前存在的问题及挑战.学术研究和商业应用机遇,以及未来技术发展趋势的报告. 首先简要谈一下人工智能.去年3月份,美国纽约时报采访了硅谷一些IT的大神们,请他们谈一下未来IT领域当中什么方向是潜在的爆发点,当时很多专家都不约而同谈到一个观点,就是人工智能很可能是未来IT领域的大事件.其实不仅仅是在工业界,在计算机学术界乃至整个科学界,人工智能过去几年都是非常热门的研究话题,举例来说,在过去两年,与深度学习和机器学习相关的文章已经有5次上了Nature或S

华硕战神ARES II显卡轻松打破世界纪录

华硕电脑旗下顶级高端子品牌ROG玩家国度于2013年1月发布了战神ARES II显卡,该款游戏显卡拥有2颗HD7970核心,1100MHz的核心率及6G GDDR5显存,整卡性能堪称世界最强显卡.近日,国内著名超频玩家"冷水鱼"涂昊明先生在ARESII的原装散热环境下,将战神ARESII显卡超频至1230/7000MHz并且轻松通过http://www.aliyun.com/zixun/aggregation/33736.html">3DMark Fire Strike

AI 如何保障校园安全?安防“老大”海康威视是这么做的

在校园里,我们听书声朗朗.闻纸墨书香,学校教育关系千秋万代,关联千家万户.校园内的安全与否直接关系到整个社会的安宁及稳定.但近年来,发生在校园里的恶性刑事案.虐童案.性侵案等伤害事件频频见诸报纸网络,校园治安问题日益突出,校园安全逐渐成为社会关注的焦点. 在此局势下,国务院办公厅也在近日颁布了<关于加强中小学幼儿园安全风险防控体系建设的意见>,意见指出各级人民政府教育督导机构要将学校安全工作作为教育督导的重要内容,进一步完善学校的人防.物防.技防等措施,推动各地尽快做好风险预防.管控.事故处理