Apache Spark机器学习.2.2　数据清洗

2.2　数据清洗

在本节中，我们将回顾一些Spark平台上的数据清洗方法，重点关注数据不完备性。然后，我们将讨论一些Spark数据清洗方面的特殊特征，以及一些基于Spark平台更加容易的数据清洗解决方案。

学习完本节，我们将能够完成数据清洗，并为机器学习准备好数据集。

2.2.1　处理数据不完备性

对于机器学习，数据越多越好。然而，通常数据越多，“脏数据”也会越多——这意味着会有更多的数据清洗工作。

数据质量控制可能会有许多问题需要处理，有些问题可能很简单，如数据输入错误或者数据复制。原则上，解决他们的方法是类似的——例如，利用数据逻辑来实现探索和获取项目的本质知识，利用分析逻辑来纠正他们。为此，在本节中，我们将重点关注缺失值处理，以便说明在这个主题上Spark的使用方法。数据清洗涵盖了数据的准确性、完整性、独特性、时效性和一致性。

虽然听起来可能很简单，但是处理缺失值和不完备性并不是一件容易的事情。它涉及许多问题，往往需要以下步骤：

1.计算数据缺失百分比。

这取决于研究项目，有些项目中的比例如果低于5%或10%，我们可能不需要在数据缺失问题上花费时间。

2.学习数据缺失的模式。

数据缺失有两种模式：完全随机或不随机。如果数据缺失是完全随机的，我们可以忽略这个问题。

3.确定解决数据缺失模式的方法。

处理数据缺失有几种常用的方法。均值填充，缺失数据删除，数据替换是最为主要的方法。

4.为数据缺失模式执行数据填补。

为了处理数据缺失和不完整性，数据科学家和机器学习从业者通常会利用他们熟悉的SQL工具或R语言编程。幸运的是，在Spark环境中，有Spark SQL和R notebook可以让用户继续使用他们熟悉的方法，为此，我们将在下面两节中进行详细阐述。

数据清洗也包含其他的问题，诸如处理数据输入错误和异常值。

2.2.2　在Spark中进行数据清洗

在上一节中，我们讨论了处理数据不完备性。

安装Spark后，我们可以很容易地在DataBricks Workspace中使用Spark SQL和R notebook处理上一节中所描述的数据清洗工作。

特别需要指出的是，sqlContext中的sql函数使得应用程序能够完成SQL查询编程，并返回一个DataFrame类型的结果。

例如，借助R notebook，我们可以用下面的语句来执行SQL命令，并把结果放到一个data.frame：

数据清洗是一个非常繁琐和耗时的工作，在本节，我们想请你关注SampleClean，对于机器学习从业者，它可以使数据清洗更为简单，特别是分布式数据清洗。

SampleClean是建立在AMPLab伯克利数据分析栈（BDAS）上的一个可扩展的数据清洗库。该库使用Apache Spark SQL 1.2.0及以上版本和Apache Hive来支持分布式数据清洗操作和相关的脏数据查询处理。 SampleClean可以执行一组可互换和可组合的、物理和逻辑的数据清洗操作，这使得我们可以快速地构建和调整数据清洗pipelines。

我们先在Spark和SampleClean中输入以下命令开启工作：

使用SampleClean，我们需要创建一个名为SampleCleanContext的对象，然后使用该上下文来管理工作会话中所有的信息，并提供API基元与数据进行交互。 SampleCleanContext由SparkContext对象构造而成，具体如下：

2.2.3　更简便的数据清洗

使用SampleClean和Spark，我们可以把数据清洗工作变得容易，可以编写更少的代码，并利用更少的数据。

总体而言，SampleClean采用了一个很好的策略。它采用异步方式以规避延迟，并使用采样来规避数据体量巨大的问题。此外，SampleClean在一个系统中结合了所有三个方面因素（算法、机器和人），因此变得更加高效。

更多使用SampleClean的信息，请访问：http://sampleclean.org/guide/ 和http://sampleclean.org/release.html。

为了更好地说明，让我们假设一个有四个数据表的机器学习项目：

要清洗这个数据集，我们需要：

无论是使用SQL还是R语言命令，都要计算每个变量有多少个缺失值。

如果我们选择的策略是均值填充，那么用平均值填补缺失值。

尽管上述工作很容易实现，但是在数据体量巨大的情况下，这样做有可能非常耗时。因此，为了提高效率，我们可能需要将数据分割成许多子集，同时并行完成前面的步骤，Spark是完成此项工作的最佳计算平台。

在Databricks R notebook环境中，我们可以先用R语言命令sum(is.na(x))创建notebook来计算数据缺失的情况。

为了用平均值替代缺失值，我们可以使用下面的代码：

在Spark中，我们可以轻松地对所有的数据集群使用R notebook。

时间： 2024-10-14 19:43:25

Apache Spark机器学习.2.2　数据清洗

Apache Spark机器学习.2.2　数据清洗的相关文章

《 Apache Spark机器学习.》导读

Apache Spark机器学习.2.1　访问和加载数据集

Apache Spark机器学习2.7　复用性和自动化

Apache Spark机器学习.2.4　数据集重组

Apache Spark机器学习.1.4　MLlib

Apache Spark机器学习.1.5　Spark RDD和DataFrame

Apache Spark机器学习.1.1　Spark概述和技术优势

Apache Spark机器学习.1.8　Spark notebook简介

Apache Spark机器学习.1.7　机器学习工作流示例

Apache Spark机器学习.2.2 数据清洗

Apache Spark机器学习.2.2 数据清洗的相关文章

Apache Spark机器学习.2.2　数据清洗

Apache Spark机器学习.2.2　数据清洗的相关文章