【玩转数据系列十六】机器学习PAI通过声音分辨男女（含语音特征提取相关数据和代码）

背景

随着人工智能的算法发展，对于非结构化数据的处理能力越来越受到重视，这里面的关键一环就是语音数据的处理。目前，许多关于语音识别的应用案例已经影响着我们的生活，例如一些智能音箱中利用语音发送指令，一些搜索工具利用语音输出文本代替键盘录入。

本文我们将针对语音识别中最简单的案例“男女声音”识别，结合本地的R工具以及机器学习PAI，为大家进行介绍。通过本案例，可以将任何用户的语音数据标记出性别，并且保持高准确率。我们把整个实验流程切分为两部分，第一部分是声音信号的特征提取，通过R的信号处理工具实现；第二部分通过机器学习PAI实现男女声音分类模型的训练，本实验需要事先积累男女声音的录音数据，本文已经提供处理好的3000条语音数据，文章末尾提供下载。

声音信号特征提取

语音数据与图像数据以及文本数据不同，如果经常使用K歌软件或者是语音合成软件，不难理解语音数据通常成信号状分布。

为了有效的通过算法处理这种波形数据，需要首先通过信号处理工具对语音信号进行处理。本文我们选用的是R语言的warbleR包，warbleR包含大量的频谱处理工具，可以通过其中的频谱处理函数提取出关于声音的以下特征信息，因为男生和女生在声音频率、振幅的方面一定有很大区别，所以要通过提取以下特征帮助我们进行分类：

接下来会讲解如何提取这些声音信号的特征：

1.安装R

首先安装R语言包，warbleR需要R的版本是3.2以上，这里强烈建议大家使用3.3.3版本（博主在使用3.4的时候遇到错误）。具体R的安装方式网上有很多介绍，这里就不详细介绍了。

2.安装warbleR

安装完R之后，进入R命令行，需要通过以下命令安装warbleR：

install.packages("warbleR")  

library(warbleR)

这里需要注意的是镜像最好使用美国的默认镜像服务，需要翻*，不然很有可能会安装不成功，因为国内的镜像会缺少某些依赖包。

3.特征提取

首先把需要处理的录音数据（必须是wav格式）按照男声、女声分装在male和female两个文件夹中，然后执行笔者提供的R脚本代码（文末提供了下载链接）。需要将代码中以下两个文件路径改为自己建立的male以及female文件路径即可：

执行这个R脚本，就会将wav格式的声音文件转化为结构化数据，数据会存储为一个CSV文件。文件部分截图：

PAI训练男女声音分类模型

1.导入数据

将通过R处理后的数据导入PAI平台，也可以直接将文末提供的处理好的数据导入。具体方法可以看：https://help.aliyun.com/video_detail/54945.html

数据导入后，可以看到有20个特征以及1列label列，

2.建立分类模型

通过拖拉PAI平台的组件搭建实验，实验流程图：

voice_classify:为数据读入源
拆分:将数据集拆分为训练集以及预测集
线性支持向量机：通过SVM算法训练生成模型
预测组件：通过模型对预测集预测
混淆矩阵：用来评估

这是一个比较简单的二分类场景，具体也可以参看之前的一些文章：

3.评估

最终“混淆矩阵”组件会显示如下图的分类评估：

通过混淆矩阵，可以看到男女声音的分类还是非常精准的。

总结

本文通过使用R脚本以及机器学习PAI实现了男女声音分类的案例，最终的准确率达到百分之九十八左右。在实际使用过程中，用户需要执行以下几步：
（1）首先积累需要分类的声音文件，数据越多越好，存储为wav格式。
（2）然后通过R脚本对打标好的声音文件进行特征提取。
（3）将处理后的数据上传PAI，建立分类模型即可。

PAI地址：https://data.aliyun.com/product/learn
企业服务咨询：https://survey.aliyun.com/survey/AMgL8_Pm5
数据下载（代码及数据来自warbleR社区开源提供）：https://github.com/jimenbian/PAI_voice_classify
与作者讨论可以关注我的微信公众号“凡人机器学习”：

时间： 2024-11-02 03:10:33

【玩转数据系列十六】机器学习PAI通过声音分辨男女（含语音特征提取相关数据和代码）的相关文章

【玩转数据系列十二】PAI平台深度学习Caffe框架实现图像分类的模型训练

PAI平台深度学习Caffe框架实现图像分类的模型训练背景我们在之前的文章中介绍过如何通过PAI内置的TensorFlow框架实验基于Cifar10的图像分类,文章链接:https://yq.aliyun.com/articles/72841.使用Tensorflow做深度学习做深度学习的网络搭建和训练需要通过PYTHON代码才能使用,对于不太会写代码的同学还是有一定的使用门槛的.本文将介绍另一个深度学习框架Caffe,通过Caffe只需要填写一些配置文件就可以实现图像分类的模型训练.关于P

【玩转数据系列十一】机器学习PAI眼中的《人民的名义》

一.背景最近热播的反腐神剧"人民的名义"掀起来一波社会舆论的高潮,这部电视剧之所能得到广泛的关注,除了老戏骨们精湛的演技,整部剧出色的剧本也起到了关键的作用.笔者在平日追剧之余,也尝试通过机器学习算法对人民的名义的部分剧集文本内容进行了文本分析,希望从数据的角度得到一些输入. 本文使用阿里云机器学习PAI,主要针对以下几个方面进行了实验: 分词以及词频统计每一章的关键词提取每一章的文本摘要每一章文本之间的相似度分析实验流程以及数据可以在阿里云机器学习PAI的社区直接使用,只要

【玩转数据系列十四】如何通过PAI实现云端实时心脏状况监测

背景我们通过之前的案例已经为大家介绍了如何通过常规的体检数据预测心脏病的发生,请见https://yq.aliyun.com/articles/54260.通过前文的案例我们可以生成一个算法模型,通过向这个模型输入用户实时的体检数据就会返回用户患有心胀病的概率.那么我们该如何搭建这套实时监测用户健康情况的服务呢?PAI最新推出的在线预测服务帮您实现.目前,机器学习PAI已经支持实验模型一键部署到云端生成API,通过向这个API推送用户的实时体检数据,就可以实时拿到反馈结果,做到心脏状况的云端的

【玩转数据系列十三】机器学习算法基于信用卡消费记录做信用评分

机器学习算法基于信用卡消费记录做信用评分背景如果你是做互联网金融的,那么一定听说过评分卡.评分卡是信用风险评估领域常用的建模方法,评分卡并不简单对应于某一种机器学习算法,而是一种通用的建模框架,将原始数据通过分箱后进行特征工程变换,继而应用于线性模型进行建模的一种方法. 评分卡建模理论常被用于各种信用评估领域,比如信用卡风险评估.贷款发放等业务.另外,在其它领域评分卡常被用来作为分数评估,比如常见的客服质量打分.芝麻信用分打分等等.在本文中,我们将通过一个案例为大家讲解如何通过PAI平台的金

【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类

伴随着今日阿里云机器学习PAI在云栖大会的重磅发布,快来感受下人工智能的魅力. 一.背景随着互联网的发展,产生了大量的图片以及语音数据,如何对这部分非结构化数据行之有效的利用起来,一直是困扰数据挖掘工程师的一到难题.首先,解决非结构化数据常常要使用深度学习算法,上手门槛高.其次,对于这部分数据的处理,往往需要依赖GPU计算引擎,计算资源代价大.本文将介绍一种利用深度学习实现的图片识别案例,这种功能可以服用到图片的检黄.人脸识别.物体检测等各个领域. 下面尝试通过阿里云机器学习平台产品,利用深度

【玩转数据系列八】机器学习算法的离线调度实现-广告CTR预测

机器学习实验部署和调度产品地址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2 (因为模板功能限制,本实验需要用户自行上传分区表数据.) (本文数据为虚构,仅供实验.本实验拟在介绍阿里云机器学习与大数据开发调度的配合.) 一.背景本文实现的场景是广告的CTR预测.广告CTR预测是广告行业的典型应用,通过历史数据训练预测模型,对于每天的增量数据进行预测,找出广告的CTR符合标准的样本进行投放.整套实

【玩转数据系列二】机器学习应用没那么难，这次教你玩心脏病预测

产品地址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2 一.背景心脏病是人类健康的头号杀手.全世界1/3的人口死亡是因心脏病引起的,而我国,每年有几十万人死于心脏病. 所以,如果可以通过提取人体相关的体侧指标,通过数据挖掘的方式来分析不同特征对于心脏病的影响,对于预测和预防心脏病将起到至关重要的作用.本文将会通过真实的数据,通过阿里云机器学习平台搭建心脏病预测案例. 二.数据集介绍数据源: UC

【机器学习PAI实践十二】机器学习实现男女声音识别分类（含语音特征提取数据和代码）

背景随着人工智能的算法发展,对于非结构化数据的处理能力越来越受到重视,这里面的关键一环就是语音数据的处理.目前,许多关于语音识别的应用案例已经影响着我们的生活,例如一些智能音箱中利用语音发送指令,一些搜索工具利用语音输出文本代替键盘录入. 本文我们将针对语音识别中最简单的案例"男女声音"识别,结合本地的R工具以及机器学习PAI,为大家进行介绍.通过本案例,可以将任何用户的语音数据标记出性别,并且保持高准确率.我们把整个实验流程切分为两部分,第一部分是声音信号的特征提取,通过R的信号处

MySQL---数据库从入门走向大神系列(十六)-JavaWeb分页技术实例演示1

分页,是一种将所有数据分段展示给用户的技术.用户每次看到的不是全部数据,而是其中的一部分,如果在其中没有找到自己想要的内容,用户可以通过指定页码或是点上/下一页的方式进行翻页. 本例演示静态分页,也就是先设置好每页显示10行,再根据总行数,来算出总页数,将所有页数的页号都显示出来. 相关算法(技术): 总行数(num): select count(1) from stud; 每页显示的行数(n): 固定值---已知的一个常量页数: pageSize= num/n +( (num%n==0)?

猜你喜欢

Android 4.0的设计指南文档全介绍

冰淇淋三明治(Android 4.0)标志着Android设计的一个重要里程碑.我们设计了几乎系统内的每个像素,扩展了蜂巢平板中的设计方式,并应用到所有的移动设备.从最基本的元素开始,我们引进了新的 ...

Java源码解读之util.ArrayList

是List接口的一个可变长数组实现.实现了所有List接口的操作,并允许存储null值.除了没有进行同步,ArrayList基本等同于Vector.在Vector中几乎对所有的方法都进行了同步,但Ar ...

Flash AS学习：对于TREE组件的一点整理

因为前两天正好要用TREE组件做个菜单,所以遇到了很多问题,查了很多资料．所以现将部分资料整理出来,希望对想用的人有帮助． 1.关于图标的更改myTree.iconFunction = functio ...

C语言宏定义使用技巧

写好C语言,漂亮的宏定义很重要,使用宏定义可以防止出错,提高可移植性,可读性,方便性等等.下面列举一些成熟软件中常用得宏定义-- 1,防止一个头文件被重复包含 #ifndef COMDEF_H #d ...

老调重提,利用SDK实现迷宫算法

我近来重看了数据结构的书,现在的教材还是使用C/C++的编写的算法,编译还是在console mode进行, 如果能把这些数据结构的算法使用在SDK上,那么就可以开发出 Windows 程序的算法程序 ...

Photoshop把照片调成青红色

原图最终效果 1.打开原图,执行:图像 > 应用图像操作,参数设置如下图.2.创建曲线调整图层,参数设置如下图.分类: PS图片处理

QQ拼音输入法的十大隐藏功能

隐秘功能大揭密之一当用户输入存在问题的时候,长按键盘上的"backspace"按键,连续删除输入的拼音串,当拼音串全部删除后,停顿0.5秒,才会继续删除文本中的内容.这样可以 ...

ps cs6制作gif动画系列教程:发光字

变换颜色的发光字先看两个发光字效果: 不管你喜欢哪个,在学习中你都能学会.只是一个简单点,一个更简单. 1.新建画布,背景色黑色,输入文字. 2.右键文字图层,混合选项,勾选并选中外发光: 3.设置 ...

Photoshop快捷键常用却鲜为人知的小Tips

下面这篇教程是向PS学习者分享Photoshop快捷键常用却鲜为人知的小Tips,教程很实用,对于正在学习PS朋友很有帮助,一起来学习吧! 教程完!以上就是Photoshop快捷键常用却鲜为人 ...

Win8系统防火墙还原默认值如何设置

防火墙是windows系统自带的一项安全功能,通过防火墙相关设置能够很好的保护系统的安全不易被黑客攻击或病毒感染,而每个用户对系统的安全要求也不一样,虽然可以使用第三方安全软件来保护系统,但有些用 ...

Win8系统将常用应用固定在搜索框最顶端的方法

1.将比较常用的网站固定到任务栏上,然后在这些应用上,右键点击; 2.接着在弹出的菜单上选择"固定",点击"固定"即可将应用添加到"搜索" ...

有logo.sys却不能正常显示开机画面

问:不知为何开机后,没有出现开机画面(只有黑黑的屏幕).查看了logo.sys,也有保存在C盘根目录下,但为何不能显示开机画面呢? 答:进入Windows时没有看到开机画面,这时必须检查一下C盘根 ...

POJ 1410 判断线段相交点在多边形内外

题意:判断一线段与矩形是否相交.需要注意的是输入可能不是按照左上右下的顺序,如果线段两个端点都在举行内的话也算相交. 这题分为判断线段与4边是否有交点,如果没有判断两点是否在矩形内就可以了.我用的方法 ...

拼图游戏的数学原理

一.线性代数基础知识 1.逆序的定义: 逆序是一个与排列相关的概念. 由自然数1,2-,n组成的不重复的每一种有确定次序的排列,称为一个n级排列(简称为排列):或者一般 ...

优云经验谈：交付自动化的探索与展望

正如Kurt Bittner说的那样,如果敏捷仅仅是个开始的话,那持续交付则是头条!(我则更喜欢理解成高潮). "If Agile Was the Opening Act,Continuou ...

remote script文档(转载自微软)&lt;二&gt;使 Remote Scripting

文档: 使 Remote Scripting 在客户页中有效在您能使用 remote scripting 来调用服务器脚本之前,必须将 remote scripting 能力添加到用户的客户页中.使用 ...

WinCE USB驱动开发经验谈

WinCE USB驱动开发经验谈随着USB2.0设备的不断增加,USB设备驱动开发在嵌入式开发中变的越来越重要.Windows CE支持USB 2.0更是对这一波新技术浪潮产生巨大的推动.近期我负责 ...

Java中实现的各种排序算法

Java中的冒泡排序算法 package cn.edu.hactcm; /** * 冒泡排序算法 */ public class BubbleSortDemo { public static vo ...

如何导入com.google.android package.?

问题描述如何导入com.google.android package.? 我想创建一个activity,这个活动会继承 MapActivity 类,但是我不能导入com.google.android ...

c#窗体-C#如何自动隐藏窗体,还请多多帮忙。

问题描述 C#如何自动隐藏窗体,还请多多帮忙. 建立了两个窗体,如何实现打开第二个窗体时第一个窗体自动隐藏? 解决方案 frm2.show(); frm1.hide(); 解决方案二: form.sh ...

论道商业WiFi：商业WiFi技术大起底

最近上海电信的江晓伟发表了一篇<论道商业WiFi:5G来了就能代替WiFi吗>的文章,告诉大家WiFi因为频率免费.辐射小等技术优势比4G乃至未来的5G更加亲民.笔者对此非常认同,一时技痒 ...

史上最薄Macbook Air明年中期发售有土豪金色

史上最薄Macbook Air明年中期发售有土豪金色苹果Macbook Air的出现直接凭借轻薄的外观设计逼迫其它PC厂商推出了"超极本"概念,不过苹果对于"薄&qu ...

CentOS 6.3安装配置nginx+php+mysql_Linux

准备篇 1.配置防火墙,开启80端口.3306端口 1 vim /etc/sysconfig/iptables 2 -A INPUT -m state --state NEW -m tcp -p tc ...

站长们注意啦！开源CMS Drupal 8发布更新修复多处高危漏洞补丁，提示您升级

据外媒报道, Drupal 研究人员于 8 月 16 日发布安全报告,宣称已修复 Drupal 8 多处漏洞并在线更新安全补丁.研究显示这些漏洞影响 Drupal 8 多个系统组件,包括实体访问系统. ...

用PHP的ob_start();控制您的浏览器cache!_php技巧

Output Control 函数可以让你自由控制脚本中数据的输出.它非常地有用,特别是对于:当你想在数据已经输出后,再输出文件头的情况.输出控制函数不对使用 header() 或 setcookie ...

基于JQuery的简单实现折叠菜单代码_jquery

菜单为二级,初始化时为折叠效果,单击大项标题时展开,显示二级列表. HTML代码如下: 复制代码代码如下: <body> <div class="mainleftFAQ& ...

华为获四期TD招标头筹

(记者焦立坤)中国移动四期TD设备招标结果水落石出.这个总价约100亿元的大蛋糕,华为分到了最大的一块约28%的份额,排名第一:中兴通讯排名第二,获得约22%的订单:大唐移动拿到了约18%的市场份额 ...

【大数据100分】CESI吴东亚：大数据标准及应用（高级教程）

[大数据100分]CESI吴东亚:大数据标准及应用[大数据高级教程] 主讲嘉宾:吴东亚主持人:中关村大数据产业联盟副秘书长陈新河承办:中关村大数据产业联盟吴东亚,中国电子技术标准化研究院信息技 ...

php 防止恶意注册的程序代码

网站开放注册的时候有一些渣渣就喜欢乱搞我们的网站.使我们站长们都是蛋疼无比.所以就去百度找了找防止恶意注册.一般都是加验证码.但是会网页的人一般都是在你的要提交的那个页面利用url传参数.在写入数据 ...

Java建造者设计模式详解_java

建造者模式(Builder):将一个复杂对象的构建与它的表示分离,使得同样的构建过程可以创建不同的表示. 使用场景: 当创建复杂对象的算法应该独立于该对象的组成部分以及它们的装配方式时. 当构造过程必 ...

热搜