《Arduino家居安全系统构建实战》——1.2 经典的机器学习问题：图像分类

1.2 经典的机器学习问题：图像分类

图像（特别是笔迹）识别是机器学习的一个经典问题。首先，这个问题有极其有益的应用。通过自动识别书信上的地址或者邮政编码，邮局就可以有效地分拣信件，免于人工进行这一乏味的工作；ATM机器如果能够识别金额，就可以在机器上存款，加快资金入账的速度，减少在银行排队的需求。想象一下，如果所有人类手写的文档都能够数字化，搜索和研究信息该有多么容易！其次，这个问题很难：人类的笔迹（即使是印刷体）有各种各样的变化（大小、形状、倾斜），人们可以毫无问题地识别不同人写的字母和数字，计算机处理起来却十分困难。这就是断定某人是真人还是计算机时CAPTCHA如此简单有效的原因。人类的大脑在识别字母和数字的能力上有着可怕的能力，即使这些图像严重失真也不在话下。

有趣的事实：CAPTCHA和reCAPTCHA

CAPTCHA（Completely Automated Public Turing test to tell Computers and Humans Apart，全自动区分计算机和人类的图灵测试）是设计用于区分人和机器人的一种机制。为了确保用户是一个真正的人，CAPTCHA显示一段故意打乱的文本，使自动化电脑程序难以分辨。更有趣的是，这一思路已经扩展为reCAPTCHA。reCAPTCHA显示两个图像而不仅仅是一个：其中一个用于过滤机器人，另一个是真正数字化的文本（见图1-1）。每当人们这样登录时，它还有助于存档文件的数字化，例如《纽约时报》的过刊，每次数字化一个词。

1.2.1 挑战：构建一个数字识别程序

我们所要解决的问题是“数字识别程序”，这个问题是直接从Kaggle.com机器学习竞赛中借用的。可以在网站上找到所有相关信息：http://www.kaggle.com/c/digit-recognizer。

下面就是这道难题：我们有50000幅图像的数据集。每个图像是由一个人写下的单个数字，以28×28像素分辨率扫描，编码为灰度图像，每个像素使用256个可能的灰度中的一个（从全白到全黑）。我们知道每次扫描的正确答案，也就是那个人写下的数字。这一数据集被称作“训练集”。现在，我们的目标是编写一个程序，从训练集中学习，并使用该信息预测之前从未见过的图像：该图像是0，还是1，还是……

从技术上说，这是所谓的“分类”问题：目标是将图像分到已知的“类别”中，这就是“分类”的由来。在本例中，我们有10个类别，代表0～9的数字。机器学习的不同风格取决于所要解决的问题类型，分类只是其中之一，但可能是最有代表性的问题。我们将在本书介绍更多此类问题！

那么，如何解决这个问题？我们先从一个不同的问题开始，想象一下我们只有两个图像：0和1（见图1-2）。

假定现在我为你提供图1-3中的图像，并提出下列问题：图1-2中显示的两个图像中，哪个与图1-3最为相像？

作为人，我想你一定觉得这个问题太简单了：“很明显，是第一个。”就这一点而言，我想两岁大的孩子都会觉得很简单。真正的问题是，如何将大脑所变的“魔术”翻译成代码？

解决这个问题的方法之一是调换一下问题的措辞：最相似的图像是差别最小的图像。在这个框架下，可以开始“找出差异”，逐个像素比较两个图像。图1-4中的图像显示了差异的“热图”：两个像素差别越大，颜色就越深。

在我们的例子中，这种方法似乎很有效。第二个图像“大不相同”，中间有一个很大的黑色区域，而第一个图像（画出了两个“0”之间的差异）大部分是白色，只有稀少的深色区域。

1.2.2 机器学习中的距离函数

现在我们可以加总各个像素的差异，用单一数字总结两个图像的差异。这样，对于相似的图像可以得到一个较小的数，对于不相似的图像则得到较大的数。在此，我们可以定义两个图像的“距离”，以描述其接近的程度。绝对完全相同的两个图像距离为0，不同的像素越多，距离就越大。另一方面，我们知道距离为0的含义是完全匹配，也知道这是我们所希望出现的最佳状况。但是，我们的相似度计量是有局限性的。例如，如果你简单地复制一个图像，但是向左移动一个像素，逐个像素的距离可能会变得相当大，甚至是在图像本质上完全相同的情况下。

距离的概念在机器学习中很重要，以某种形式出现在大部分模型中。距离函数是将你所要实现的功能翻译为机器能够使用的形式的手段。通过减小事物（如两个图像）的复杂度，形成单一数字，算法就可能产生作用——在本例中，算法可以决定两个图像是否相似。与此同时，将复杂度减小为单一数字也会带来某些细节在“翻译中丢失”的风险，就像上述的图像移动的情况。

距离函数还常常以另一个名称出现在机器学习中：代价函数。两者本质上相同，只是从不同的角度看待问题。例如，如果我们试图预测一个数字，预测的误差——也就是预测值与实际值的差别——就是距离。但是，同样可以用代价描述这一情况：较大误差的“代价很高”，对模型的改进能够降低其代价。

1.2.3 从简单的方法入手

现在，我们暂时忽略上述问题，遵循一种在编写软件和开发预测模型中都很奇妙的方法，继续解决问题——最简单的方法能不能生效？先从简单的方法入手，看看会发生什么情况。如果这种方法有效，就没有必要采用复杂的方法，从而更快地解决问题。如果无效，你可以花费少量时间建立简单的概念验证模型，在此过程中通常可以学到很多关于问题空间的知识。无论如何，这都是一次胜利。

因此，现在我们要克制住过度思考和设计的欲望，我们的目标是采用自己认为可能成功的最简单方法，并在以后改进。我们可以做这样一件事：当必须确定图像所代表的的数字时，可以在包含50000个训练示例的已知库中搜索最类似（差异最小）的图像，并预测图像所代表的数字。

如果看上去像“5”，当然就肯定是“5”!

算法的轮廓如下：给定试图识别的28×28像素图像（“未知图像”）和50000个训练示例（28×28像素图像和一个标签），我们将：

计算未知图像和每个训练示例的总差值。

找出差值最小的训练示例（“最接近者”）。

预测“未知”与“最接近者”相同。

让我们开始动手吧！

时间： 2024-12-30 17:52:42

《Arduino家居安全系统构建实战》——1.2 经典的机器学习问题：图像分类

1.2 经典的机器学习问题：图像分类

1.2.1 挑战：构建一个数字识别程序

1.2.2 机器学习中的距离函数

1.2.3 从简单的方法入手

《Arduino家居安全系统构建实战》——1.2 经典的机器学习问题：图像分类的相关文章

《Arduino家居安全系统构建实战》——第1章家居安全系统的入门知识

《Arduino家居安全系统构建实战》——导读

《Arduino家居安全系统构建实战》——1.2　工作原理

《Arduino家居安全系统构建实战》——1.6　传统系统与现代化的家居安全系统的比较

《Arduino家居安全系统构建实战》——第1章 256级灰度

《Arduino家居安全系统构建实战》——1.3　部署安全系统的先决条件

《Arduino家居安全系统构建实战》——2.5 训练第一个分类器

《Arduino家居安全系统构建实战》——1.6 改进我们的模型

《Arduino家居安全系统构建实战》——1.1　家居安全的基础设施