Apache Spark机器学习.1.4　MLlib

1.4　MLlib

MLlib是一个可扩展的Spark机器学习库，包括很多常用的机器学习算法。MLlib内置的算法如下：

以向量和矩阵形式处理数据

基本的统计计算，例如：汇总统计和相关性、简单随机数生成、分层抽样、执行简单的假设检验

分类和回归建模

协同过滤

聚类

降维

特征提取与转换

频繁模式挖掘

开发优化

PMML模型导出

Spark MLlib还处在活跃开发阶段，预计每次新版发布都会有新的算法加入其中。

MLlib符合Apache Spark的计算哲学，简单易用，性能卓越。

MLlib使用依赖于netlib-java和jblas的线性代数包Breeze。netlib-java和jblas依赖于本地Fortran程序。如果节点没有安装gfortran运行库，用户需要自行安装。要是没有自动检测到库，MLlib会报链接错误。

关于MLib用例和详细的使用信息，请访问：http://researcher.watson.ibm.com/researcher/files/us-ytian/systemML.pdf。

其他机器学习库

正如前面讨论的，MLlib已经实现了常用的回归和分类算法。但这些基本的算法不足以支持复杂的机器学习。

如果我们等待Spark团队将所有需要的机器学习算法加入库中，则需要很长时间。正因为如此，很多第三方团队向Spark贡献了机器学习库。

IBM已经向Apache Spark贡献了机器学习库SystemML。

除了MLlib提供的功能外，SystemML提供了更丰富的机器学习算法，如缺失数据填补、SVM、GLM、ARIMA、非线性优化、图建模及矩阵分解等算法。

SystemML由IBM Almaden研究组开发，是一个分布式机器学习引擎，可以扩展到任意大的数据集，它的优势有：

整合了分散的机器学习环境

给出了Spark核心生态完整的DML集

允许数据科学家集中精力关注算法问题，而不是具体实现

提升了数据科学团队的时间价值

建立了一个事实上可重用的机器学习程序标准

SystemML参考了R 语言语法和语义，并提供通过其自己的语言编写新算法的能力。

Spark通过SparkR与R语言进行了较好的集成，用户需要时可以使用R语言众多的机器学习算法。正如后面我们要讨论的，SparkR notebook使得这些操作非常容易。

时间： 2024-08-29 03:31:40

Apache Spark机器学习.1.4　MLlib的相关文章

《 Apache Spark机器学习.》导读

本节书摘来自华章出版社< Apache Spark机器学习.>一书中作者[美] 刘永川(Alex Liu) 著闫龙川高德荃李君婷译前言作为数据科学家和机器学习专业人员,我们的工作是建立模型进行欺诈检测.预测客户流失,或者在广泛的领域将数据转换为洞见.为此,我们有时需要处理大量的数据和复杂的计算.因此,我们一直对新的计算工具满怀期待,例如Spark,我们花费了很多时间来学习新工具.有很多可用的资料来学习这些新的工具,但这些资料大多都由计算机科学家编写,更多的是从计算角度来描述.

Apache Spark机器学习.1.1　Spark概述和技术优势

摘要 Spark机器学习简介本章从机器学习和数据分析视角介绍Apache Spark,并讨论Spark中的机器学习计算处理技术.本章首先概括介绍Apache Spark,通过与MapReduce等计算平台进行比较,展示Spark在数据分析中的技术优势和特点.接着,讨论如下五个方面的内容: 机器学习算法与程序库 Spark RDD和DataFrame 机器学习框架 Spark pipeline技术 Spark notebook技术以上是数据科学家或机器学习专业人员必须掌握的五项最重要的技术内容

Apache Spark机器学习.1.9　小结

1.9 小结本章介绍了Apache Spark所有的基础知识,这也是所有想把Apache Spark应用于机器学习实际项目的从业者必须理解掌握的.我们重点探讨了Apache Spark计算,并涉及一些最重要的机器学习组件,以便把Apache Spark和机器学习关联起来,让开展机器学习项目的读者做好充分准备. 第一,我们作了Spark总体概述,还讨论了Spark优点以及面向机器学习的Spark计算模型. 第二,我们回顾了机器学习算法,Spark的MLlib库和其他机器学习库. 第三,讨论了Sp

Apache Spark机器学习3.1　Spark整体视图

摘要基于Spark的整体视图通过第1章,我们建立起了Spark系统,根据第2章的内容,我们完成了数据准备.现在将进入Spark系统应用的新阶段:从数据中获得洞见. 根据Gartner等机构的研究结果,许多公司仅仅是因为缺乏其商业的整体视图而损失了大量的价值.本章我们将回顾机器学习的方法和获得商业整体视图的步骤,然后讨论Spark如何简单.快速地进行相关计算,同时通过一个实例,循序渐进地展示使用Spark从数据到整体视图的开发过程. Spark整体视图整体视图的方法特征准备模型估计模型

Apache Spark机器学习.2.1　访问和加载数据集

摘要 Spark机器学习的数据准备机器学习从业者和数据科学家时常耗费70%或80%的时间为机器学习项目准备数据.数据准备可能是很艰辛的工作,但是它影响到接下来的各方面工作,因此是非常必要和极其重要的.所以,在本章中,我们将讨论机器学习中所有必要的数据准备方面的内容,通常包括数据获取.数据清洗.数据集连接,再到特征开发,从而让我们为基于Spark平台构建机器学习模型准备好数据集.具体而言,我们将讨论前面提到的以下6个数据准备任务,然后在针对复用性和自动化的讨论中结束本章: 访问和加载数据集开放

Apache Spark机器学习2.6　特征提取

2.6 特征提取在本节,我们的关注点将转向特征提取,特征提取是根据工作数据集中可用特征或信息扩展为新的特征或者变量.与此同时,我们将讨论一些Apache Spark中特征提取的特殊功能,以及Spark中与特征相关的便捷解决方案. 学完本节之后,我们能够针对各种各样的机器学习项目开发并组织特征. 2.6.1 特征开发的挑战大部分的大数据机器学习项目通常都不能直接使用大数据集.例如,使用网络日志数据时,它经常以随机文本集形式呈现,显得非常混乱,我们需要从中提取对机器学习有用的信息和特征.例如,我

Apache Spark机器学习2.7　复用性和自动化

2.7 复用性和自动化本节我们将讨论数据集组织方法.预处理工作流方法,然后使用Apache Spark pipeline模型进行表示,并实现工作流.然后,我们将评估数据预处理的自动化解决方案. 学完本节,我们应能够使用Spark pipeline模型来表示和实现数据集预处理工作流,理解一些基于Apache Spark的自动化解决方案. 2.7.1 数据集预处理工作流数据准备工作是从数据清洗到标识匹配,再由数据重组到特征提取,能以某种形式进行组织,反映了一步一步开展机器学习数据集准备的有序过程

Apache Spark机器学习.2.4　数据集重组

2.4 数据集重组本节,我们介绍数据集重组技术.我们将讨论一些特殊的Spark数据重组特征,以及一些可以用在Spark notebook中基于R语言数据重组的特别方法. 学习完本节,我们可以根据不同的机器学习需要进行数据集重组. 2.4.1 数据集重组任务数据集重组虽然听起来比较容易,但还是很有挑战,并且非常耗时. 有两个常见的数据重组任务:一是,获取一个用于建模的数据子集:二是,以更高的层次汇总数据.例如,我们有学生数据,但是我们需要一些班级层面的数据集.为此,我们需要计算学生的一些属性,

Apache Spark机器学习3.7　部署Apache

3.7 部署有一些用户可能已经拥有了部署系统,按用户所需的格式将所开发的模型导出即可. 对于线性回归模型,MLlib支持将模型导出为预测模型标记语言(Predictive Model Markup Language,PMML). 更多关于MLlib导出PMML模型的信息,请访问:https://spark.apache.org/docs/latest/mllib-pmml-model-export.html. 对于R notebook,PMML可以直接在其他环境运行.使用R语言函数包PMML,

猜你喜欢

用ASP生成HTML网页的新闻网站（转载）

生成html|网页那些已经入门.并想架设自己网站的人,多半会用HTML格式来建自己的网站,但当网站上的内容越来越多时,在内容的管理与制作上就会变的很麻烦,为了减少这种网页制作和内容管理上的麻烦,使用 ...

关于页面缓存清除的方法小结

缓存|页面每次上Chinaasp总有不少的网友问及如何使Asp页面刷新,在IIS4的管理下页面的不刷新问题较IIS5严重得多,而且有时确实加入一些控制页面缓存的语句还是不起什么作用.原因我也不是很清 ...

PPT怎么绘制半颗蛋

PPT怎么绘制半颗蛋本文关于使用PPT绘制半颗蛋的案例,是最大的一个工程,耗时可能会较长.但如果你有跟着前面的一系列PPT制作教程特别是形状绘制类的教程动手练习,就一定不会觉得困难.看着自己能够 ...

Linux系统中的切换用户命令宝典

#1:runuser命令 runuser命令使用一个替代的用户或者组ID运行一个Shell.这个命令仅在root用户时有用. 仅以会话PAM钩子运行,并且没有密码提示.如果用一个非root用户,并且该 ...

Windows7下看不到摄像头最简解决办法

从Windows XP直接转到Windows 7的用户会发现,在XP中可以看到的摄像头图标,在Windows 7中看不到了.虽然资源管理器中看不到图标,而且也不影响用户使用QQ.MSN等IM软件进行视 ...

返回顶部按钮响应滚动且动态显示与隐藏

很多的网站上都有返回顶部功能,判断滚动参数动态显示与隐藏,比较适合初学者 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 ...

字体大师3.0有什么特点

特色功能: 1.支持95%以上的安卓手机一键换字体,支持三星.小米(MIUI).OPPO免root换字体. 2.独有的备份还原功能,可选择恢复备份字体或者内置字体,安全稳定. 3.贴心的分类功能, ...

Windows7更改用户账户控制设置

1,点击"开始菜单",选择"控制面板". 2,选择"用户账户和家庭安全". 3,点击选择"用户账户". 4,选择&q ...

OS X 自带字典应用技巧

字典(Dictionary)是 OS X 中比较实用的一款自带应用了,而且它也有着不少的小技巧. 多字典切换在字典中大家喜欢安装多款不同类型的字典,但是查词的时候一个个在导航栏点击字典名称进行切 ...

Java我的高效编程之环境搭建

WCF技术剖析之三十一：WCF事务编程[上篇]

WCF事务编程其实很简单,可以用三句话进行概括:通过服务契约决定事物流转(Transaction Flow)的策略:通过绑定实施事务的流转:通过服务行为控制事务的相关行为.本篇文章着重介绍如果通过Tr ...

android标题栏不显示？

问题描述 android标题栏不显示? 标题栏显示代码 AndroidManifest.xml配置文件 styles.xml就是默认的解决方案把你的activity继承自AppCompatActi ...

spring+springMVC+mybatis的框架项目基础环境搭建

上一个项目在后台用到spring+springMVC+mybatis的框架,先新项目初步需求也已经下来,不出意外的话,应该也是用这个框架组合. 虽然在之前activiti相关的学习中所用到的框架也是这 ...

冒泡排序-关于结构体指针问题。什么时候在指针前面加*号，什么时候不加

问题描述关于结构体指针问题.什么时候在指针前面加*号,什么时候不加我在做一道对结构体数组,按姓名升序进行冒泡排序的题的时候有些不理解指针什么时候加"*"什么时候不加*. 下面上 ...

按键-android 后台如何检测音量键消息？

问题描述 android 后台如何检测音量键消息? 我们有个APK需求,需要在后台检测音量键消息,检测到音量键(Down 或UP)之后,启动APK设定的服务.请教大神有什么思路没? 现在按键消息只能在 ...

监听事件-android中如何按同一个按钮，变换不同的颜色

问题描述 android中如何按同一个按钮,变换不同的颜色 android中如何按同一个按钮,变换不同的颜色现在我只懂将一个按钮设置监听,调用setbackgroudcolor方法变换一种颜色如何 ...

给重回正路的大二学生：戒急戒躁中前行

[CSDN私信] 老师,您好,我今年大二了,我对我的处境感到迷茫,虽说我有加入实验室,接触了C#,js,htm,ajax等语言,但我只懂一点点,感觉没有学到什么,且对计算机没什么兴趣,只是不想毕业学不 ...

大数据征信之四：任重道远

在征信机构建立之前,个人的信用信息是通过商人自建的网络流传,这些网络是由亲属关系.婚姻关系.宗教关系和其他个人纽带形成的.或者,这些信息在商人内部集团传播,比如圆桌会议.协会和互助社团(例如,在德国建 ...

服务器公司维护不当

京华时报讯(记者孙思娅)昆明一家公司将自己的网站数据放在北京新网公司的服务器上进行经营,后因数据丢失起诉索赔180万.昨天记者获悉,市一中院经过审理,判决北京新网公司赔偿部分损失共计63750元. 2 ...

罗永浩在微博上不断为产能不足发货延迟向用户致歉

摘要: 锤子科技又一次迎来了最艰难的时刻,上一次老罗觉得是ROM发布会的时候.拿着一个千疮百孔成熟度极差的ROM开了一个发布会,然后就被一片嘲弄么.发布会以后就劝退了那个主管,开锤子科技又一次迎来了 ...

mysql分页与分页性能查询优化

一,最常见MYSQL最基本的分页方式: 代码如下复制代码 select * from content order by id desc limit 0, 10 在中小数据量的情况下,这样的SQL足 ...

曼联官网标错价，4千球迷捡到便宜

类似价格错误这类乌龙事件频繁在电商界上演,此前有联想官网商城平板标错价格用户要求必须发货,台湾苹果官网标错价 4万"乌龙价"订单有条件出货. 电商将商品价格标错的事情时有发生,但 ...

众说纷纭SEO之我见

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅说难不难,说易就更不容易了,君好接 ...

淘宝、搜狐博客屏蔽百度蜘蛛爬虫

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅据百度内部人士透露,百度电商平台将 ...

link环境下制作一款《订餐软件》，报单完成，但是缺协单的情况下，请问协单递补怎么实现？

问题描述 link环境下制作一款<订餐软件>,报单完成,但是缺协单的情况下,请问协单递补怎么实现? link环境下制作一款<订餐软件>,报单完成,但是缺协单的情况下,请问协单递 ...

【swift初学者求助】关于找不到某重载的错误提示

问题描述 [swift初学者求助]关于找不到某重载的错误提示刚开始学swifit,跟着斯坦福大学公开课学的做一个计算器代码如下: import UIKit class ViewControlle ...

tomcat不能启动

问题描述 Java_home,jre_home已经设置,启动startup.bat脚本里加入pause了,还是一闪而过看不到原因,catalina.batdebug->run之后貌似没看到错误信 ...

甲骨文为全球超过3000多家企业大幅提升关键任务工作负载

北京,2013年2月1日--甲骨文公司近日宣布,运行Oracle Solaris的SPARC T4服务器,为全球超过3000多家企业大幅提升了关键任务的http://www.aliyun.com/zi ...

康师傅矿泉水等九大品牌塑料瓶被指含致癌物重金属锑

塑料在我们的生活中无处不在,而关于塑料有害身体的传言也从未中断.搜狐健康对常见的12个品牌的饮品和调味品的塑料瓶体进行了检测,发现采用PET材料制成的瓶体均含有致癌物重金属锑,其中不乏知名品牌产品,如 ...

多数人对于洗衣机内部污染缺乏正确认知

没有定期彻底清洗洗衣机的习惯,即使清洗也只是擦拭表面,无法真正达到消毒灭菌的目的.近日,<新闻晨报>官方微博发布"你知道洗衣机有多脏吗?"长微博揭示了洗衣机内部细菌丛生 ...

热搜

Apache Spark机器学习.1.4 MLlib

Apache Spark机器学习.1.4 MLlib的相关文章

Apache Spark机器学习.1.4　MLlib

Apache Spark机器学习.1.4　MLlib的相关文章