开始使用机器学习

本文由身行@主题曲（身行）老师推荐，阿里云组织翻译。

以下为译文

数据科学

数据科学正迅速成为各行业的开发者和管理者的一项重要的技能，它看起来像很多乐趣和。但它很复杂，有很多的工程和分析选项浏览，很难知道你做的是正确的或者空头陷阱的谎言。这个系列(系列节目)我们探索数据科学有意义的方式-了解哪里需要，哪里不需要它。以及如何使它从开发者手中到用户手中，这成为你的优势。

关键点

大多数类型的机器学习项目，结果在一个分类或回归通常采用监督学习方法。
特征工程是大多数机器学习过程的重要组成部分。
无监督学习算法，如k-均值可以用来做聚类时，你不知道数据标签之前。
所有大部分的机器学习算法在做的是一种方式，最适合的数据模型的参数。过拟合是一个常见的问题，数据科学家必须面对，从有限的数据集不假设概括也增加了更多的数据点。

机器学习项目

很多机器学习（机器学习）项目由拟合（通常很复杂）函数与数字1或0的目标数据集（这是否是一封垃圾邮件）对于分类问题或一组数字（例如，每周销售一个产品）为目的的。是的，它可以更好应对所有关于数字和需要操作电脑的指令。这就是机器学习吗？

通过语音数据，可以发现在这考虑性别识别Kaggle 网页这个数据集的目的是，使用给定的语音信号确定它是否是从男性或女性。这个挑战是一个分类问题的范畴下。这里的目标是将男性或女性给出的语音信号的分类问题，但不一定要局限于两类。其他一些分类问题的例子是文本情感分析（积极、中性或消极）、图像识别（你从图像中看到了什么花？）等。

如何使计算机学会并帮助我们识别录制的声音是一个男性或女性？，在这种情况下，我们需要使用它的语言：数据。在机器学习的世界这一手段提取功能特色从数据。如果你跟着Kaggle 链接上面你可以看到，他们已经从语音信号中提取大量的功能。一些特征的例子有：平均频率、中位频率，频率的标准偏差，四分位范围，基本频率的意思，换句话说，而不是一个时间序列表现出声音的压力信号，他们提取了这个信号的特点，可以帮助我们辨别声音属于男性或女性的-这被称为特征工程。特征工程是大多数机器学习过程的重要组成部分。

我会把这个数据集的两个特征，即平均基频和间距范围，并绘制如下图。

两组不同的点出现在图。知道这个数据集包括从男性和女性的语音信号，我想这与较高的平均基频的团体或集群点（高）属于女性，而其他集群点属于男性。因此，识别信号属于哪个性别的一种可能的方法是对数据进行分组，两团指定女性标签具有较高的平均基频的集群和其他集群的男性标签。原来，有一些机器学习算法，这样做—聚类。聚类是执行这一操作的最常用的方法之一，其中“K在算法的名字是你要确定聚类个数（2在当前情况下）。注意，所有这些算法需要的是你要确定一个初始的簇数和原始数据，并返回一个通用的标签（0或1，例如），连接到每一个点，说明该群集的每个实例所属。在这种情况下，这是我的领域知识，分配到这些标签的含义。

k-均值属于一类称为机器无监督学习算法在你不知道你的数据标签之前。它在这里，因为我们有两个清晰的微簇，当有很多重叠的可能不是分类问题的最佳解决方案。另一类称为监督学习的学习算法，在你使用数据标签。让我们从语音识别数据集和同样的人物情节以数据标签。

在所有的直觉，具有最高的平均基频集群属于女性是正确的。引入监督的方法，我会尝试用线，视觉上让我感觉到单独的类。这条线叫做决策边界，我也写下来的方程。“thetas”线路参数，而“x”对应的变量绘制在图：间距范围和平均基本频率，在这种情况下。我能适应这个电话因为我知道数据标签。所以，如果我得到的数目是大于零，我可以预测的声音是从一个女性的我用声音数据在方程的左边，如果这个数字小于零，则来自一个男。容易解决了的.

然而事实却不完全是这样的。

我绘制的每个集只有100点，但整个数据集包含3164个数据点分半/半之间的男性和女性。如果我把集增加到200个数据点，每类会发生什么？

嗯，现在黑色虚线不太适合现在的划分了。我要重复这个过程，把另一个红色的虚线，我直观地认为这是一个可以将群聚分类的好方法。图中的两线之间的差与价值观的“θ”从第一图的方程。我在这里所做的是“学习”更好的方式分离两类赠送给我的数据。结果，在本质上，涉及到的决策边界寻找新的系数。你可以看到这是怎么回事，对吗？

现在我们可以明白机器学习找到并完成手头的任务与最佳的参数有关，在这种情况下，如果只是预测是男性或女性发出声音信号。那么就要让您失望了，但事实上，大多数的机器学习算法在那里做的是找到“thetas”/系数/参数模型的一种方式，最适合的数据（这种算法的典型例子对数几率回归和人工神经网络）。当然，这些算法都比我的方法更直观的分配线。他们通常是基于优化函数拟合线减少错误的实际值与预测值之间的模型。这种误差在机器学习的世界又称损失或损失函数。

也有一些非常常用的算法基于决策树的集合等随机森林或梯度树的提高，它没有明确地找到系数线但发现分裂产生了更为复杂的决策边界数据的其他参数。综上所诉，没有理由为某一条线应作为决策边界。我们可以在理论上确定曲线拟合的数据集。

黑色实线可以作为决策边界，但有一个问题一直困扰着每一个数据科学家那里，过那些点的曲线能做的是建立一个决策边界，是非常具体的当前数据集和可能不会一概而论，随着数据段的增加。我们已经看到有每班100或200点已经相差较大。那如果添加更多的点会发生什么呢？

这是一个烂摊子。整个数据集的绘制与我现在的复杂的方法直观地对数据的拟合直线似乎产生了些偏差。我们需要一个机器学习算法的帮助来选择直线/曲线的误差最小化或损失，让我们不断拟合这些决策边界。此外，我们需要算法的帮助这里因为到目前为止我们所依赖的语音数据的两个特点的基础上，发现整个数据集有21个特征。

一个好消息和一个坏消息

想象一下，到目前为止我们都只停留在二维图像上，我们一共发现了三个维度，第三维度的另一个特点是如最大基波频率的信号（我们叫它地址）。现在想象一下：每一个女性地址围绕零和每一个男人都围绕一个地址。如果我们有一个完美的方法绘制男性和女性的数据在一个三维图形中。那将会非常好。当你添加更多的功能，我们可以想象将数据以更精确的方式来描述情况数据的高维平面超平。我们正希望如此。

坏消息是，我们无法目视检查，除非我们使用降维算法如主成分分析它将高维数据分成两个或三个维度，例如，有缺点，你将不再保持在图轴的物理特性（如平均基频或基频最大）但都是你最重要的预测变量的数据集的特征。让我通过绘制平均频率和语音识别数据集语音中值频率的例子说明这一点。

图中显示两个相关的变量，就是它们的声音频率以相同的概率分布的样本。有使用这两个变量的冗余信息。这将是很好的找到一种方式，简化这些数据在低维方差的可视化。为此我情节在这个数字版变焦

如果不是想到两个变量，我们看到这些数据投影到一个方向，这是Z做的一轴但仍在一些信息丢失的结果。在这种特殊情况下，这个方向可以被看作是一个频率，但它不是中位数或平均。然而，想象运用投影数据集的21个尺寸为2。我们真的不知道这2个维度是什么意思。此外，在这个简单的例子，没有太多的信息被丢失而将21功能到2将大幅亏损承担。它可以在数据可视化方面很有趣，但它不应该被用来执行机器学习算法。

我们已经看到，在这个数据集的一些特点是相关的；他们应该被包括在机器学习的项目？事实上，我们应该使用多少功能？仅使用两个特征和所有要点，决策边界不明确分开的两类这个问题。这是确认当你计算错误或损失承担您利用线作为决策边界。添加三分之一的功能，如果功能足够，损失要低。如果它不再是一个迹象表明，这个额外的功能是不合适的或不重要的问题在手。

我希望我已经唤醒你的好奇心与本文关于机器人学习。这是一个总体的介绍，我们需要开发和理解机器学习项目从开始到结束大量的阅读。机器学习算法写在几乎每一个编程语言。Python和R是最常用的语言为工作间和机器学习等，在图书馆scikit学习对于前者来说是非常好的，对于后者。我建议你进入你选择的语言教程。你知道所有这一切都是关于我们的。

关于作者

拉斐尔费尔南德斯在黑天鹅数据科学家。他一直用机器学习来帮助客户定价和产品需求以及揭示其消费者的见解和行为。在他以前的生活，他对阿波罗太空舱返回从空间8倍音速的速度但他仍然是一个航天迷。

数据科学正迅速成为各行业的开发者和管理者的一项重要的技能，它看起来像很多乐趣和。但它很复杂，有很多的工程和分析选项浏览，很难知道你做的是正确的或者空头陷阱的谎言。这个系列节目让我们探索数据科学有意义的方式-了解哪里需要，哪里不需要它。以及如何使它从开发者手中到用户手中。这成为你的优势。

文章原标题《Getting Started with Machine Learning》，作者：Rafael Fernandes，译者：萌动众生

文章为简译，更为详细的内容，请查看原文