横评:五款免费开源的语音识别工具

作为 SVDS 研究团队的成员,我们会经常接触各种不同的语音识别技术,也差不多见证了语音识别技术近几年的发展。直到几年之前,最先进的语音技术方案大多都是以语音为基础的(phonetic-based),包括发音模型(Pronunciation models),声学模型(Acoustic Modelling)和语言模型(Language Model)等。通常情况下,这些模型大多都是以隐马尔可夫模型(HMM)和 N-gram 模型为核心的。未来,我们希望以这些传统模型为基础,探索一些诸如与百度 Deep Speech 等最新的语音识别系统相结合的新技术。当然,目前互联网上可以找到许多针对这些基础模型进行解释、汇总的文章和资料,但针对它们之间的差别和特点展开阐述的却并不多。

为此,我们对比了五款基于 HMM 和 N-gram 模型的语音识别工具:CMU Sphinx,Kaldi,HTK,Julius 和 ISIP。它们都是开源世界的顶级项目,与 Dragon 和 Cortana 等商业语音识别工具不同,这些开源、免费的工具可以为开发者提供更大的自由度以及更低的开发成本,因此在开发圈始终保持着强大的生命力。

需要提前说明的是:以下分析大多来源于我们的主观经验,同时也参考了互联网上的其他信息。而且这篇文章也并非一个覆盖所有语音识别开源工具的汇总类文章,我们只是对比了其中五款相对更主流的产品。另外,HTK 并不是严格开源的,它的代码并不能重新组织发布,也不能用于商业用途。

想知道更多语音识别工具的用户请点击以下链接,其中列出了几乎所有开源/非开源的语音识别工具,非常全面。

https://en.wikipedia.org/wiki/List_of_speech_recognition_software 

  编程语言:

根据你对不同编程语言的熟悉程度,你可能会更偏爱某一种工具。如上图所示,这里列出的五款工具中,除了 ISIP 只支持 C++ 之外,全都支持 Python。你可以直接在它们的官网找到不同语言对应的下载链接。不过,Python 版有可能并不会覆盖工具包的全部功能,有些功能还可能是为其他语言的特性单独设计的。另外值得注意的是,CMU Sphinx 还支持 Java、C 和其他更多语言。

  开发者活跃度:

这里列出的五个项目均源于学术研究。

从名字也能看出,CMU Sphinx 是一款源于卡内基梅隆大学的产品。它的研发历史大约可以追溯到 20 年前,目前在 GitHub 和 SourceForge 平台同步更新。在 GitHub 平台有 C 和 Java 两个版本,而且据说分别只有一个管理员维护。但在 SourceForge 平台却有 9 个管理员和十几个开发者。

Kaldi 源于 2009 年的一场研讨会,代码目前在 GitHub 平台开源,共有 121 位贡献者。 

HTK 始于 1989 年的剑桥大学,曾一度商业化,但目前又回归剑桥。如前所述 HTK 现在并不是一款严格意义的开源工具,而且更新缓慢(虽然它的最新版本更新于 2015 年 12 月,但前一个版本的更新时间却是 2009 年,中间隔了差不多 6 年时间)。

Julius 始于 1997 年,最后一个主要版本更新于 2016 年 9 月,据称其 GitHub 平台有三名管理员维护。

ISIP 是第一个比较先进的开源语音识别系统,起源于密西西比州。它主要在 1996 年到 1999 年之间研发,最后一个版本发布于 2011 年,在 GitHub 平台出现之前就已经停止更新了。

  社区活跃度:

这一部分我们考察了上述五个工具的邮件和社区讨论情况。

CMU Sphinx 的论坛讨论热烈,回帖积极。但其 SourceForge 和 GitHub 平台存在许多重复的 repository。相比之下,Kaldi 的用户则拥有更多交互方式,包括邮件、论坛和 GitHub repository 等。HTK 有邮件列表,但没有公开的 repository。Julius 官网上的论坛链接目前已经不可用,其日本官网上可能有更详细的信息。ISIP 主要用于教育目的,其邮件列表目前已不可用。

  教程和示例:

CMU Sphinx 的文档简单易读,讲解深入浅出,且贴近实践操作。

Kaldi 的文档覆盖也很全面,但是在我看来更难理解。而且,Kaldi 同时包括了语音识别解决方案中的语音和深度学习方法。

如果你并不熟悉语音识别,那么可以通过对 HTK 官方文档(注册后可以使用)的学习对该领域有一个概括的认识。同时,HTK 的文档还适用于实际产品设计和使用等场景。

Julius 专注于日语,其最新的文档也是日语,但团队正在积极推动英文版的发布。

以下链接提供了一些基于 Julius 的语音识别样例。

https://github.com/julius-speech/dictation-kit 

最后是 ISIP,虽然它也有一些文档,但是并不系统。

  预训练模型:

即使你使用这些开源工具的主要目的是想要学习如何去训练一个专业的语音识别模型,但一个开箱即用的预先训练好的模型仍然是一个不可忽略的优点。

CMU Sphinx 包括英语、法语、西班牙语和意大利语在内的诸多可以直接使用的模型,详情可以参考它的说明文档。

Kaldi对现有模型进行解码的指令深藏在文档中,不太容易找到,但我们仍然发现了贡献者在 egs/voxforge 子目录下基于英文 VoxForge 语料库训练好的一个模型,并且还可以通过 online-data 子目录下的一个脚本直接运行。详情可以参考 Kaldi 项目的 repository。

我们没有深入挖掘其他三个软件包的模型训练情况,但它们应该至少包含一些简单可用的预训练模型,而且与 VoxForge 兼容(VoxForge 是一个非常活跃的众包语音识别数据库和经过训练的模型库)。

未来我们将陆续推出关于 CMU Sphinx 具体应用和如何将神经网络应用于语音识别的更多文章,欢迎大家继续关注。

本文作者:恒亮

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-10-31 07:52:48

横评:五款免费开源的语音识别工具的相关文章

五款免费的安全分析工具

移动和云计算的采用扩大了现代企业的安全边界,许多企业在更深入地了解其IT基础设施,以监控恶意活动或软件.这些潮流带来了越来越多有待评估的威胁数据.想把这些数据转化成有意义的情报,就需要不仅限于传统安全信息和事件管理(SIEM)功能的工具,以便整合和分析不同类型的数据(包括结构化数据和非结构化数据). 分析威胁数据可能是一笔不小的开支,对中小企业来说尤为如此.除了软件许可费外,还面临硬件.人员和培训等方面的成本.不过下面几个免费工具可以助你一臂之力. 思科的OpenSOC 思科系统公司的高级服务经

百度商桥为推广客户提供的一款免费网站商务沟通工具

百度商桥是百度为推广客户提供的一款免费网站商务沟通工具,可设置多达10个网站.100个客服同时接待网站访客,实时监控网站访客地域来源.关键词来源.浏览行为, 精确定位真实访客,方便您与潜在客户.顾问之间7×24小时全天候的沟通,让您线上线下业务不断,潜在商机随时掌握. 一人开通,多人.多网站都能使用 百度商桥支持多达10个网站.100个在线客服.只需您开通功能,您公司里的客服人员就能共享使用.百度商桥还提供500MB的免费网络存储空间,常用语.常用文件在任何计算机上都能使用.网站访客"看的见&q

摒弃盗版软件 五款免费优秀软件推荐

中介交易 SEO诊断 淘宝客 云主机 技术大厅 根据<2010年中国保护知识产权行动计划>的部署,2010年7月21日,国家版权局.公安部.工业和信息化部三部联合行动,进行了为期3个多月的打击网络侵权盗版专项治理"剑网行动",这也是继2005年以来开展的第六次打击网络侵权盗版专项行动. 在这次"剑网行动"中,不少网民也意识到软件知识产权的重要性,并自发的卸载一些盗版破解版软件,去网上寻找一些免费好用的正版国产软件来代替. 在这里小编精心整理了五款常用的免

国内外五款免费的协作类管理软件推荐

Slack Slack是一款国外的内部协作工具,特点是内容强大,为团队沟通交流提供了一个中心化的信息交流平台.它将邮件.IM.短信.企业内网等所有工作中使用的工具所发出的通知都整合到自己的平台,这种将分散的沟通方式聚合到一个统一入口的方法,就非常贴心的免去了频繁切换不同软件带来的时间和精力成本,是一款真正协同的工具.除了整合沟通方式外,Slack 还整合了文件分享系统,公司内所有共享文件,包括上传到 Slack 上的,还有储存在 Google Doc 或者 Dropbox 里的,通过内置的搜索工

经典15款免费恶意软件查杀工具

中介交易 SEO诊断 淘宝客 云主机 技术大厅 1.奇虎360安全卫士 漏洞补丁集中分发功能,网管批量安装补丁好帮手 支持局域网共享下载漏洞补丁,更可自定义漏洞补丁保存目录 提供U盘病毒免疫功能,阻止U盘病毒入侵 漏洞补丁扫描更精准,更新更及时,为各类突发漏洞提供及时有 效的解决方案 增量升级,更快速升级特征库 支持增量升级,更新特征库更快速 首页显示最新特征库信息,更了解查杀最新动向 扫描更多可疑位置,诊断报告更精确 扫描更多恶意软件隐匿位置,更多列出系统可疑内容 诊断报告更精确,更准确更快速

严重推荐一个免费开源数据库建模工具软件 --OpenSystemArchitect 4.0

嘿嘿,对于我这样的新手,这个工具还是很令人兴奋的. 真的是术业有专攻啊.关键还是免费开源 EXCEL,VISO,PPT,PS,CD,FREEHAND不是不可以,只是.人家还是专业点,方便点.. OpenSystemArchitect 4.0

推荐三款免费sitemap地图生成工具

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 对于众多SEOER来说,Sitemap是一个很熟悉的词,中文称为网站地图,网站有了sitemap之后,将更有利于蜘蛛的的爬行和抓取. 大家使用的一些CMS都自带有sitemap生成功能.可对于一些自己开发的网站程序,则没有此功能,比如郑州SEO的博客(www.zpseo.com),用的是zblog程序,就没有生成sitemap的功能.所以大家

BlackHat会议上将公布一款免费的汽车黑客工具

汽车,无可厚非是现代社会很重要的交通工具,但与此同时却也带来了诸多安全隐患,不管怎样,汽车安全都是我们不可忽视的一个重大问题. 即将免费分享该工具 近日一名法国研究者将发布一款检测汽车安全漏洞的工具,利用这款免费的工具就可以检测出汽车安全问题.在Black Hat会议上,这名法国安全研究人员将会详细介绍这款CANSPY安全审计工具,并把它免费分享给大家. Jonathan-Christofer Demay和 Arnaud Lebrun就职在一家欧洲汽车制造商,虽然目前他们没有透漏太多细节,但是他

8款替代DREAMWEAVER的免费开源网页开发工具

  Adobe Dreamweaver虽然非常好用,但它并不是唯一一个能够设计.开发.发布精彩网站的Web开发集成环境.我们的开源世界里有很多非常棒的可以完全替代Dreamweaver的各种功能的优秀Web开发工具,更重要的是它们也免费.如果你正在寻找Dreamweaver的替代品,下面这8款软件你应该优先尝试一下.注意,没有先后顺序,并不是第一位就是最好的. 一.Quanta Plus Quanta Plus是一款Web集成开发环境,可以用来开发HTML, XHTML, CSS, XML, P