大数据下的基于深度神经网的相似汉字识别

大数据下的基于深度神经网的相似汉字识别

杨钊 陶大鹏 张树业 金连文

针对传统相似手写汉字识别系统(SHCCR)受特征提取方法的限制,提出采用深度神经网(DNN)对相似汉字自动学习有效特征并进行识别,介绍相似字符集生成方法和针对相似汉字识别的深度神经网络的具体结构,研究对比不同的训练数据规模对识别性能的影响。实验表明,DNN能有效地进行特征学习,避免了人工设计特征的不足,与传统基于梯度特征的支持向量机(SVM)和最近邻分类器(1-NN)方法相比,识别率有较大的提高;且随着训练样本增加的同时,DNN在提高识别性能上表现得更为优秀,大数据训练对提升深度神经网络的识别率作用明显。

大数据下的基于深度神经网的相似汉字识别

时间: 2024-10-10 02:40:24

大数据下的基于深度神经网的相似汉字识别的相关文章

阅读平台移动化 大数据下如何个性阅读

在7月8日举行的第五届数字出版博览会上,中国新闻出版研究院院长郝振省表示,2012年全球数字出版产业发展势头依然迅猛,传统出版与数字出版的融合继续深入,数字出版市场表现抢眼,数字终端不断有新的突破,行业内部整合与企业间合作趋势日渐明显.我国对产业引导力度不断加强,数字出版产值跃升新高,传统出版单位数字化转型步伐进一步加快,数字出版内容平台建设多样化特征明显,移动互联网上升为主要传播渠道. 随着智能手机CPU的运行能力开始超过PC机,大众数字出版阅读平台全面迈向移动化,并且逐步向数据化深挖.向电商

【阿里云产品公测】大数据下精确快速搜索OpenSearch

相信做过一两个项目的人都会遇到上级要求做一个类似百度或者谷歌的站内搜索功能.传统的sql查询只能使用like 或者FIND_IN_SET来实现.后者性能稍微好点但是必须要逗号分隔才可以实现匹配.甚至多条件的话还可能用到OR这是极影响系统性能的.        最近公司项目需要.主要是系统查询缓慢.并且查询精度不敢恭维.一开始想到的是Lucene 毕竟是一个开放源代码的全文检索引擎工具包 并且官方还在持续更新中.当时闲暇时间大概搞了将近一个星期的时间.索引的增删查改以及中文分词IKAnalyzer

大数据时代:基于微软案例数据库数据挖掘知识点总结(Microsoft 关联规则分析算法)

原文:(原创)大数据时代:基于微软案例数据库数据挖掘知识点总结(Microsoft 关联规则分析算法) 前言 本篇继续我们的微软挖掘算法系列总结,前几篇我们分别介绍了:Microsoft决策树分析算法.Microsoft聚类分析算法.Microsoft Naive Bayes 算法.Microsoft 时序算法,后续还补充了二篇结果预测篇.Microsoft 时序算法--结果预算+下期彩票预测篇,看样子有必要整理一篇目录了,不同的算法应用的场景也是不同的,每篇文章都有它自己的应用场景介绍,有兴趣

大数据下,24小时精准医疗或将在2020年实现?

一款名为GTX One的生物计算加速平台现身,引发了业内对于精准医疗行业新的看法.这款GTX One加速系统,通过算法创新充分释放FPGA的计算能力,相当于将一台超级计算机压缩到一个小盒子里:一张FPGA加速卡就能达到60台高性能至强Xeon CPU服务器的计算性能,极大地缩短了生物信息数据的计算时间.事实上,通过生物数据与医疗行业结合,生物医疗行业正在经历高速发展.此次英特尔在京推出的"英特尔精准医疗伙伴计划(Intel BioIT Partners)",有望在2020年实现24小时

动荡时代:机器智能与大数据下的阴霾

文章讲的是动荡时代:机器智能与大数据下的阴霾,记得在一部科幻电影中,一群人因为外星人的到来而在楼顶狂呼欢迎,但随之而来的先是巨大飞船下的一片阴影,接下来就是外星人的一束光炮,这群人和大楼随之灰飞烟灭.有的时候我们过多关注技术好的一面,但实际上技术与对社会的重构相叠加才真正塑造未来的具体形态.技术发展下去,必会逐步挖去现有社会的存在根基,直至社会需要再平衡,全面进入一个动荡的时代.占领华尔街也许正是这种变化的一种隐晦征兆,愤懑的人们面对这种变化其实是很迷茫的,他们只知道自己是99%,却不知道应该提

大数据下的数据分析平台架构

随着互联网.移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求. 作为一家互联网数据分析公司,我们在海量数据的分析领域那真是被"逼上梁山".多年来在严苛的业务需求和数据压力下,我们几乎尝试了所有可能的大数据分析方法,最终落地于Hadoop平台之上. Hadoop在可伸缩性.健壮性.计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业

激情是否消失 大数据下体育竞技之路

1 前言 2014年巴西世界杯让球迷度过了一个充满激情.泪水.无奈的历程,体育竞技比赛其实就是因为充满了太多的未知性而让球迷更加兴奋和期待,足球的是圆的,在足球场上能发生一切奇迹,当然,黑哨和假球不在正常范围之内. 然而本届巴西世界杯上除了西班牙.意大利这样传统强队的提前出局外各家IT巨头运用大数据进行世界杯的比赛预测也成为一个亮点.同时我们也发现在现代的体育竞技中其实大数据的运用已经比较普遍,大数据的分析对于球队或者教练员来说是很重要的事情,通过这样的数据能更好的了解队员的情况和未来的发展趋势

AdTime雷永华:大数据下的未来广告

4月24日,在"科技创享 变革未来"这一主题下,2013年艾瑞年度高峰会议在北京国家会议中心拉开帷幕.国内智能数字广告营销领导企业AdTime首席技术官雷永华在数据营销分会上发表了<大数据下的未来广告>主题演讲. 雷永华介绍,大数据运用到互联网营销领域可使未来广告呈现"4M"特征."4M"指More Faster.More Centralized.More Vertical.More Closer.在此基础上介绍了AdTime秉承的时

甲骨文Thomas:大数据下的共存与集成

本文讲的是甲骨文Thomas:大数据下的共存与集成,随着电影碟中谍4在中国的热映,汤姆克鲁兹这个不老的神话又出现在电影荧幕,而就在2月末一个晴朗的下午,数据库届也迎来了"阿汤哥",一位在全世界范围内拥有着众多粉丝的Oracle技术大师Thomas Kyte. Thomas Kyte(以下简称Tom)是AskTom网站背后的老大,目前是Oracle公司核心技术集团的副总裁,从Oracle 7.0.9版本开始就一直任职于Oracle公司,通过自身20多年的经验,一直致力于和Oracle数据