Apache Spark机器学习.1.2 在机器学习中应用Spark计算

1.2 在机器学习中应用Spark计算


基于RDD和内存处理的创新功能,Apache Spark真正使得分布式计算对于数据科学家和机器学习专业人员来说简便易用。Apache Spark团队表示:Apache Spark基于Mesos 集群管理器运行,使其可以与Hadoop以及其他应用共享资源。因此,Apache Spark可以从任何Hadoop输入源(如HDFS)中读取数据。

 

Apache Spark计算模型非常适合机器学习中的分布式计算。特别是在快速交互式机器学习、并行计算和大型复杂模型情境下,Apache Spark无疑可以发挥其卓越效能。

Spark开发团队表示,Spark的哲学是使数据科学家和机器学习专业人员的生活更加轻松和高效。因此,Apache Spark拥有以下特点:

拥有详细说明文档,表达清晰的API

强大的专业领域库

易于与存储系统集成

通过缓存来避免数据移动

根据Databricks联合创始人Patrick Wendell的介绍, Spark特别适用于大规模数据处理。Apache Spark支持敏捷数据科学进行快速迭代计算,并且Spark很容易与IBM和其他综合解决方案集成。

时间: 2024-09-20 05:18:31

Apache Spark机器学习.1.2 在机器学习中应用Spark计算的相关文章

Apache Spark机器学习.1.7 机器学习工作流示例

1.7 机器学习工作流示例 为了进一步了解学习机器学习的工作流,在这里让我们学习一些例子. 本书后续章节会研究风险建模.欺诈检测.客户视图.流失预测和产品推荐.对于诸如此类的项目,目标往往是确定某些问题的原因,或者建立一个因果模型.下面是使用工作流建立一个因果模型的一个例子. 1.检查数据结构,以确保更好地理解数据: 数据是横截面数据吗?是隐含着时间信息的合并数据吗? 是否使用了分类变量? 2.检查缺失值: 不知道或者忘记了一个答案可能会被记录为一个中立或特殊的类别 一些变量可能有很多缺失值 根

Apache Spark机器学习.1.6 机器学习工作流和Spark pipeline

1.6 机器学习工作流和Spark pipeline 在本节中,我们介绍机器学习工作流和Spark pipeline,然后讨论Spark pipeline作为机器学习计算工作流的优秀工具是如何发挥作用的. 学习完本节,读者将掌握这两个重要概念,并且为编程和实现机器学习工作流的Spark pipeline做好准备. 机器学习的工作流步骤 几乎所有的机器学习项目均涉及数据清洗.特征挖掘.模型估计.模型评估,然后是结果解释,这些都可以组织为循序渐进的工作流.这些工作流有时称为分析过程. 有些人甚至定义

【Hadoop Summit Tokyo 2016】Hivemall: Apache Hive/Spark/Pig 的可扩展机器学习库

本讲义出自 Makoto YUI与NTT Takashi Yamamuro在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Hivemall的相关知识以及Hivemall在Spark上的应用,Hivemall是可以用于Apache Hive/Spark/Pig 的可扩展机器学习库.

Apache Spark机器学习.1.3 机器学习算法

1.3 机器学习算法 本节将回顾机器学习所需的算法,介绍机器学习库,包括Spark的MLlib和IBM的SystemML,然后讨论它们与Spark的集成. 阅读本节之后,读者将会熟悉包括Spark MLlib在内的各种机器学习库,知道如何利用它们进行机器学习. 为完成机器学习项目,数据科学家经常使用机器学习工具(如R语言或MATLAB)上的一些成熟分类或回归算法开发和评估预测模型.要完成一个机器学习项目,除了数据集和计算平台,这些机器学习算法库也是十分必要的. 例如,R语言提供了专业人员使用的各

《Scala机器学习》一一3.2 理解Spark的架构

3.2 理解Spark的架构 并行化是将工作负载划分为在不同线程或不同节点上执行的子任务.下面介绍Spark实现并行化的原理,以及它如何管理子任务的执行和子任务之间的通信.3.2.1 任务调度Spark工作负载的划分由弹性分布式数据集(Resilient Distributed Dataset,RDD)的分区数决定,这是Spark的基本抽象和管道结构.RDD是一种可并行操作的.不可变元素的分区集合.具体细节可能取决于Spark的运行模式,图3-2为Spark任务/资源调度的示意图. 图3-2 通

《Spark 官方文档》机器学习库(MLlib)指南

机器学习库(MLlib)指南 MLlib是Spark的机器学习(ML)库.旨在简化机器学习的工程实践工作,并方便扩展到更大规模.MLlib由一些通用的学习算法和工具组成,包括分类.回归.聚类.协同过滤.降维等,同时还包括底层的优化原语和高层的管道API. MLllib目前分为两个代码包: spark.mllib 包含基于RDD的原始算法API. spark.ml 则提供了基于DataFrames 高层次的API,可以用来构建机器学习管道. 我们推荐您使用spark.ml,因为基于DataFram

《Scala机器学习》一一第3章 使用Spark和MLlib

第3章 使用Spark和MLlib 上一章介绍了在全局数据驱动的企业架构中的什么地方以及如何利用统计和机器学习来处理知识,但接下来不会介绍Spark和MLlib的具体实现,MLlib是Spark顶层的机器学习库.Spark是大数据生态系统中相对较新的成员,它基于内存使用而不是磁盘来进行优化.数据仍然可以根据需要转储到磁盘上,但Spark只有在明确指示这样做或活动数据集不适合内存时才会执行转储.如果节点出现故障或由于某些原因从内存中擦除信息,Spark会利用存储的信息来重新计算活动数据集.这与传统

聚焦阿里云机器学习PAI在广告营销中的应用

最近几年,机器学习比以前更火了.互联网上每天生成海量的数据.大规模分布式高性能计算能力的提升.算法上的创新等等因素,使得我们在深度学习技术上取得了一定的进展,这也让人工智能迎来它的第二春,成为我们的眼睛,我们的耳朵,帮助我们更快捷地获取信息,辅助我们做出决策.机器学习平台产品也因此而产生,加速迭代过程,助力技术的发展,阿里云机器学习平台便是其中之一. 阿里云机器学习平台是构建在阿里云MaxCompute计算平台之上,集数据处理.建模.离线预测.在线预测为一体的机器学习平台. 平台为算法开发者提供

《Scala机器学习》一一3.1 安装Spark

3.1 安装Spark如果读者还没有安装过Spark,可从http://spark.apache.org/downloads.html下载预先编译好的Spark包.在写本书时的发布版本为1.6.1. 图3-1 本章建议的下载链接http://spark.apache.org/downloads.html读者也可通过下面的链接下载完整的源代码来构建Spark: 命令将下载必要的依赖并在Spark目录中创建spark-2.0.0-SNAPSHOT-bin-alex-spark-build-2.6-y