开始使用机器学习

本文由身行@主题曲(身行) 老师推荐,阿里云组织翻译。

以下为译文

数据科学

    

数据科学正迅速成为各行业的开发者和管理者的一项重要的技能,它看起来像很多乐趣和。但它很复杂,有很多的工程和分析选项浏览,很难知道你做的是正确的或者空头陷阱的谎言。这个系列(系列节目)我们探索数据科学有意义的方式-了解哪里需要,哪里不需要它。以及如何使它从开发者手中到用户手中,这成为你的优势。

关键点

    

大多数类型的机器学习项目,结果在一个分类或回归通常采用监督学习方法。
特征工程是大多数机器学习过程的重要组成部分。
无监督学习算法,如k-均值可以用来做聚类时,你不知道数据标签之前。
所有大部分的机器学习算法在做的是一种方式,最适合的数据模型的参数。 过拟合是一个常见的问题,数据科学家必须面对,从有限的数据集不假设概括也增加了更多的数据点。

机器学习项目

    

很多机器学习(机器学习)项目由拟合(通常很复杂)函数与数字1或0的目标数据集(这是否是一封垃圾邮件)对于分类问题或一组数字(例如,每周销售一个产品)为目的的。是的,它可以更好应对所有关于数字和需要操作电脑的指令。这就是机器学习吗?

    

通过语音数据,可以发现在这考虑性别识别Kaggle 网页这个数据集的目的是,使用给定的语音信号确定它是否是从男性或女性。这个挑战是一个分类问题的范畴下。这里的目标是将男性或女性给出的语音信号的分类问题,但不一定要局限于两类。其他一些分类问题的例子是文本情感分析(积极、中性或消极)、图像识别(你从图像中看到了什么花?)等。

    

如何使计算机学会并帮助我们识别录制的声音是一个男性或女性?,在这种情况下,我们需要使用它的语言:数据。在机器学习的世界这一手段提取功能特色从数据。如果你跟着Kaggle 链接上面你可以看到,他们已经从语音信号中提取大量的功能。一些特征的例子有:平均频率、中位频率,频率的标准偏差,四分位范围,基本频率的意思,换句话说,而不是一个时间序列表现出声音的压力信号,他们提取了这个信号的特点,可以帮助我们辨别声音属于男性或女性的-这被称为特征工程。特征工程是大多数机器学习过程的重要组成部分。

    

我会把这个数据集的两个特征,即平均基频和间距范围,并绘制如下图。

    

两组不同的点出现在图。知道这个数据集包括从男性和女性的语音信号,我想这与较高的平均基频的团体或集群点(高)属于女性,而其他集群点属于男性。因此,识别信号属于哪个性别的一种可能的方法是对数据进行分组,两团指定女性标签具有较高的平均基频的集群和其他集群的男性标签。原来,有一些机器学习算法,这样做—聚类。聚类是执行这一操作的最常用的方法之一,其中“K在算法的名字是你要确定聚类个数(2在当前情况下)。注意,所有这些算法需要的是你要确定一个初始的簇数和原始数据,并返回一个通用的标签(0或1,例如),连接到每一个点,说明该群集的每个实例所属。在这种情况下,这是我的领域知识,分配到这些标签的含义。

    

k-均值属于一类称为机器无监督学习算法在你不知道你的数据标签之前。它在这里,因为我们有两个清晰的微簇,当有很多重叠的可能不是分类问题的最佳解决方案。另一类称为监督学习的学习算法,在你使用数据标签。让我们从语音识别数据集和同样的人物情节以数据标签。

    

在所有的直觉,具有最高的平均基频集群属于女性是正确的。引入监督的方法,我会尝试用线,视觉上让我感觉到单独的类。这条线叫做决策边界,我也写下来的方程。“thetas”线路参数,而“x”对应的变量绘制在图:间距范围和平均基本频率,在这种情况下。我能适应这个电话因为我知道数据标签。所以,如果我得到的数目是大于零,我可以预测的声音是从一个女性的我用声音数据在方程的左边,如果这个数字小于零,则来自一个男。容易解决了的.

    

然而事实却不完全是这样的。

    

我绘制的每个集只有100点,但整个数据集包含3164个数据点分半/半之间的男性和女性。如果我把集增加到200个数据点,每类会发生什么?

    

嗯,现在黑色虚线不太适合现在的划分了。我要重复这个过程,把另一个红色的虚线,我直观地认为这是一个可以将群聚分类的好方法。图中的两线之间的差与价值观的“θ”从第一图的方程。我在这里所做的是“学习”更好的方式分离两类赠送给我的数据。结果,在本质上,涉及到的决策边界寻找新的系数。你可以看到这是怎么回事,对吗?

    

现在我们可以明白机器学习找到并完成手头的任务与最佳的参数有关,在这种情况下,如果只是预测是男性或女性发出声音信号。那么就要让您失望了,但事实上,大多数的机器学习算法在那里做的是找到“thetas”/系数/参数模型的一种方式,最适合的数据(这种算法的典型例子对数几率回归和人工神经网络)。当然,这些算法都比我的方法更直观的分配线。他们通常是基于优化函数拟合线减少错误的实际值与预测值之间的模型。这种误差在机器学习的世界又称损失或损失函数。

    

也有一些非常常用的算法基于决策树的集合等随机森林或梯度树的提高,它没有明确地找到系数线但发现分裂产生了更为复杂的决策边界数据的其他参数。综上所诉,没有理由为某一条线应作为决策边界。我们可以在理论上确定曲线拟合的数据集。

    

黑色实线可以作为决策边界,但有一个问题一直困扰着每一个数据科学家那里,过那些点的曲线能做的是建立一个决策边界,是非常具体的当前数据集和可能不会一概而论,随着数据段的增加。我们已经看到有每班100或200点已经相差较大。那如果添加更多的点会发生什么呢?

    

这是一个烂摊子。整个数据集的绘制与我现在的复杂的方法直观地对数据的拟合直线似乎产生了些偏差。我们需要一个机器学习算法的帮助来选择直线/曲线的误差最小化或损失,让我们不断拟合这些决策边界。此外,我们需要算法的帮助这里因为到目前为止我们所依赖的语音数据的两个特点的基础上,发现整个数据集有21个特征。

一个好消息和一个坏消息
    

想象一下,到目前为止我们都只停留在二维图像上,我们一共发现了三个维度,第三维度的另一个特点是如最大基波频率的信号(我们叫它地址)。现在想象一下:每一个女性地址围绕零和每一个男人都围绕一个地址。如果我们有一个完美的方法绘制男性和女性的数据在一个三维图形中。那将会非常好。当你添加更多的功能,我们可以想象将数据以更精确的方式来描述情况数据的高维平面超平。我们正希望如此。

    

坏消息是,我们无法目视检查,除非我们使用降维算法如主成分分析它将高维数据分成两个或三个维度,例如,有缺点,你将不再保持在图轴的物理特性(如平均基频或基频最大)但都是你最重要的预测变量的数据集的特征。让我通过绘制平均频率和语音识别数据集语音中值频率的例子说明这一点。

    

图中显示两个相关的变量,就是它们的声音频率以相同的概率分布的样本。有使用这两个变量的冗余信息。这将是很好的找到一种方式,简化这些数据在低维方差的可视化。为此我情节在这个数字版变焦

    

如果不是想到两个变量,我们看到这些数据投影到一个方向,这是Z做的一轴但仍在一些信息丢失的结果。在这种特殊情况下,这个方向可以被看作是一个频率,但它不是中位数或平均。然而,想象运用投影数据集的21个尺寸为2。我们真的不知道这2个维度是什么意思。此外,在这个简单的例子,没有太多的信息被丢失而将21功能到2将大幅亏损承担。它可以在数据可视化方面很有趣,但它不应该被用来执行机器学习算法。

    

我们已经看到,在这个数据集的一些特点是相关的;他们应该被包括在机器学习的项目?事实上,我们应该使用多少功能?仅使用两个特征和所有要点,决策边界不明确分开的两类这个问题。这是确认当你计算错误或损失承担您利用线作为决策边界。添加三分之一的功能,如果功能足够,损失要低。如果它不再是一个迹象表明,这个额外的功能是不合适的或不重要的问题在手。

    

我希望我已经唤醒你的好奇心与本文关于机器人学习。这是一个总体的介绍,我们需要开发和理解机器学习项目从开始到结束大量的阅读。机器学习算法写在几乎每一个编程语言。Python和R是最常用的语言为工作间和机器学习等,在图书馆scikit学习对于前者来说是非常好的,对于后者。我建议你进入你选择的语言教程。你知道所有这一切都是关于我们的。

关于作者

    

拉斐尔费尔南德斯在黑天鹅数据科学家。他一直用机器学习来帮助客户定价和产品需求以及揭示其消费者的见解和行为。在他以前的生活,他对阿波罗太空舱返回从空间8倍音速的速度但他仍然是一个航天迷。

    

数据科学正迅速成为各行业的开发者和管理者的一项重要的技能,它看起来像很多乐趣和。但它很复杂,有很多的工程和分析选项浏览,很难知道你做的是正确的或者空头陷阱的谎言。这个系列节目让我们探索数据科学有意义的方式-了解哪里需要,哪里不需要它。以及如何使它从开发者手中到用户手中。这成为你的优势。

文章原标题《Getting Started with Machine Learning》,作者:Rafael Fernandes,译者:萌动众生

文章为简译,更为详细的内容,请查看原文

时间: 2024-09-01 09:41:24

开始使用机器学习的相关文章

专访新浪微博黄波:千人千面,机器学习赋能用户信息流消费

2017杭州云栖大会详情请戳这里! 黄波,微博机器学习平台技术负责人.资深架构师,负责微博机器学习平台和Feed算法系统.他毕业于中科院计算所,参与研究了高性能计算和算法优化:并曾供职于百度,参与开发了分布式文件系统.2010年加入新浪微博,目前专注于机器学习.深度学习.高性能计算.大数据处理等领域,致力于打造机器学习平台和深度学习平台,将机器学习技术和分布式计算应用于微博 Feed信息流.推荐.反垃圾等业务场景. 跬步千里,微博深入应用新兴技术 新浪对于大数据和人工智能技术的应用,最早可以追溯

PAI分布式机器学习平台编程模型演进之路

什么是PAI? PAI的全称是Platform of Artificial Intelligence,主要在使用机器学习做模型训练时提供整套链路.机器学习即服务,把机器学习作为服务对外推出,大家可以在平台上使用比较先进的机器学习算法.将多种深度学习框架集成到PAI中,同时基于深度学习框架包装成更加易用的组件.具备异构的计算服务能力,把CPU计算能力和GPU计算能力统一调度起来,异构的计算能力透明,大家的注意力是哪些机器学习算法可以帮助业务,不用关心底层资源的申请和分配.PAI也支持在线预测服务,

【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类

伴随着今日阿里云机器学习PAI在云栖大会的重磅发布,快来感受下人工智能的魅力. 一.背景 随着互联网的发展,产生了大量的图片以及语音数据,如何对这部分非结构化数据行之有效的利用起来,一直是困扰数据挖掘工程师的一到难题.首先,解决非结构化数据常常要使用深度学习算法,上手门槛高.其次,对于这部分数据的处理,往往需要依赖GPU计算引擎,计算资源代价大.本文将介绍一种利用深度学习实现的图片识别案例,这种功能可以服用到图片的检黄.人脸识别.物体检测等各个领域. 下面尝试通过阿里云机器学习平台产品,利用深度

阿里巴巴机器学习系列课程

亲爱的同学们,福利来临!随着机器学习领域的发展越来越火,阿里云机器学习PAI为广大机器学习爱好的学生提供免费的一站式算法平台,该平台提供上百种算法,并且兼容TensorFlow.Caffe.MXNET等深度学习框架,学生们还可以免费使用M40 GPU卡,这么好的福利到哪里去领呢? 点击开通机器学习PAI:https://data.aliyun.com/product/learn [新手必读,请务必要开通OSS和MaxCompute]https://tianchi.aliyun.com/compe

【玩转数据系列十六】机器学习PAI通过声音分辨男女(含语音特征提取相关数据和代码)

背景 随着人工智能的算法发展,对于非结构化数据的处理能力越来越受到重视,这里面的关键一环就是语音数据的处理.目前,许多关于语音识别的应用案例已经影响着我们的生活,例如一些智能音箱中利用语音发送指令,一些搜索工具利用语音输出文本代替键盘录入. 本文我们将针对语音识别中最简单的案例"男女声音"识别,结合本地的R工具以及机器学习PAI,为大家进行介绍.通过本案例,可以将任何用户的语音数据标记出性别,并且保持高准确率.我们把整个实验流程切分为两部分,第一部分是声音信号的特征提取,通过R的信号处

阿里云机器学习PAI征文大赛正式启动

人工智能为大家带来的不止是科技的颠覆,更是对生活的变革.在颠覆之下,是机器学习作为"核"心,不停为人工智能提供动力:在变革之上,机器学习的能力普及娱乐.电商.工业等行业.阿里云机器学习PAI正在为有数据化运营需求的客户们提供助力,我们熟悉的支付宝芝麻信用正是基于PAI生成的模型进行预测,另外新浪微博.天弘基金.墨迹天气.东润环能等公司都在尝试使用PAI去提升自身的数据运营效率. 众多企业和开发者选择阿里云机器学习PAI平台,为了更好地展示这些优秀企业和个人开发者的应用,同时为其他企业及

《机器学习实践应用》书中源代码

下载地址:https://github.com/jimenbian/GarvinBook 注:本书代码部分参考了互联网资源,已在书中注明引用. 本项目代码严格遵循MIT开源协议,请大家用于参考和学习用途,谢谢. 文件夹名对应书中章节代码. 购书链接: https://item.jd.com/12114501.html 本书简介 <机器学习实践应用>是人民出版社于2017年7月出版的图书,作者李博.书中通过将机器学习算法与实际业务场景结合,让读者可以快速入门并使用高深的算法.在本书中,对整个数据

【机器学习PAI实践十二】机器学习实现男女声音识别分类(含语音特征提取数据和代码)

背景 随着人工智能的算法发展,对于非结构化数据的处理能力越来越受到重视,这里面的关键一环就是语音数据的处理.目前,许多关于语音识别的应用案例已经影响着我们的生活,例如一些智能音箱中利用语音发送指令,一些搜索工具利用语音输出文本代替键盘录入. 本文我们将针对语音识别中最简单的案例"男女声音"识别,结合本地的R工具以及机器学习PAI,为大家进行介绍.通过本案例,可以将任何用户的语音数据标记出性别,并且保持高准确率.我们把整个实验流程切分为两部分,第一部分是声音信号的特征提取,通过R的信号处

Hans Uszkoreit:机器学习在商务智能中的创新应用

大会第二天,德国人工智能研究中心(DFKI)科技总监.北京人工智能技术中心(AITC)总监兼首席科学家Hans Uszkoreit发表了主题为<机器学习在商务智能中的创新应用>的演讲. Hans Uszkoreit介绍了如何分析各种来源的数据,用于执行众多的商务智能任务,如供应链监控.市场调研和产品管理等.其所讨论的方法包含了不同类型的机器学习和基于知识的自然语言理解技术,充分利用知识图谱和各种其他结构化数据源,实现信息的互为补充. 以下是Hans Uszkoreit的演讲全文,AI科技大本营

CCAI 2017 日本理化学研究所先进智能研究中心主任杉山将:弱监督机器学习的研究进展

在本次大会上,日本人工智能和机器学习领域新一代的代表性人物--日本理化学研究所先进智能研究中心主任Masashi Sugiyama(中文名:杉山将)为参会者带来了<弱监督机器学习的研究进展>的演讲.杉山将在机器学习领域发表过很多重要的理论,是这个领域最知名的学者之一,出版了机器学习相关书籍<图说机器学习>(中文版). 以下内容根据杉山将本次主题演讲整理,略有删减: 大家早上好,我叫杉山将,非常高兴能够参加今天的大会,也很高兴和这么多中国的研究人员见面,我也特别喜欢杭州的文化和当地的