《Scala机器学习》一一3.7 总结

3.7 总结

本章概述了Spark/Hadoop以及它们与Scala和函数式编程的关系。重点介绍了一个经典的单词计数的例子,它是用Scala和Spark来实现的,并以单词计数和流为例介绍了Spark生态系统的高级组件。通过本章的学习,读者已经具备有了用Scala/Spark实现经典的机器学习算法的知识。下一章将开始介绍监督学习和无监督学习,这是对基于结构数据的学习算法的传统划分。

时间: 2024-09-19 20:34:35

《Scala机器学习》一一3.7 总结的相关文章

《Scala机器学习》一一3.3 应用

3.3 应用 下面会介绍Spark/Scala中的一些实际示例和库,具体会从一个非常经典的单词计数问题开始.3.3.1 单词计数 大多数现代机器学习算法需要多次传递数据.如果数据能存放在单台机器的内存中,则该数据会容易获得,并且不会呈现性能瓶颈.如果数据太大,单台机器的内存容纳不下,则可保存在磁盘(或数据库)上,这样虽然可得到更大的存储空间,但存取速度大约会降为原来的1/100.另外还有一种方式就是分割数据集,将其存储在网络中的多台机器上,并通过网络来传输结果.虽然对这种方式仍有争议,但分析表明

《Scala机器学习》一一2.5 数据驱动系统的基本组件

2.5 数据驱动系统的基本组件 简单地说,一个数据驱动架构包含如下的组件(或者可精简为以下这些组件): 数据收集:需要从系统和设备上收集数据.大多数的系统有日志,或者至少可选择将日志写入本地文件系统.一些系统可以通过网络来传输信息,比如syslog.但若没有审计信息,缺少持久层意味着有可能丢失数据. 数据转换层:也被称为提取.变换和加载(ETL).现在数据转换层也可以进行实时处理,即通过最近的数据来计算汇总信息.数据转换层也用来重新格式化数据和索引数据,以便能被UI组件有效地访问. 数据分析和机

《Scala机器学习》一一3.4 机器学习库

3.4 机器学习库 Spark是基于内存的存储系统,它本质上能提高节点内和节点之间的数据访问速度.这似乎与ML有一种自然契合,因为许多算法需要对数据进行多次传递或重新分区.MLlib是一个开源库,但仍有一些私人公司还在不断按自己的方式来实现MLlib中的算法. 在第5章会看到大多数标准机器学习算法可以表示为优化问题.例如,经典线性回归会最小化回归直线与实际y值之间的距离平方和: 其中,是由下面的线性表达式所得到的预测值: A通常称为斜率,B通常称为截距.线性优化问题更一般化的公式可以写成最小化加

《Scala机器学习》一一导读

前 言 这是一本关于机器学习的书,它以Scala为重点,介绍了函数式编程方法以及如何在Spark上处理大数据.九个月前,当我受邀写作本书时,我的第一反应是:Scala.大数据.机器学习,每一个主题我都曾彻底调研过,也参加了很多的讨论,结合任何两个话题来写都具有挑战性,更不用说在一本书中结合这三个主题.这个挑战激发了我的兴趣,于是就有了这本书.并不是每一章的内容都像我所希望的那样圆满,但技术每天都在快速发展.我有一份具体的工作,写作只是表达我想法的一种方式. 下面先介绍机器学习.机器学习经历了翻天

《Scala机器学习》一一1.7 总结

1.7 总结本章试图为后面更复杂的数据科学建立一个通用平台.不要认为这里介绍了一套完整的探索性技术,因为探索性技术可扩展到非常复杂的模式上.但是,本章已经涉及了简单的汇总.抽样.文件操作(如读和写),并使用notebook和Spark DataFrame等工具来工作,Spark的DataFrame也为使用Spark/Scala的数据分析师引入了他们所熟悉的SQL结构.下一章开始介绍数据管道,可将其看作基于数据驱动企业的一部分,并从商业角度给出数据发现的过程:做数据分析试图要完成的最终目标是什么.

《Scala机器学习》一一第2章 数据管道和建模

**第2章数据管道和建模**上一章介绍了一些研究数据的基本工具.本章将深入介绍一些更复杂的主题,其中包括建立统计模型.最优控制以及科学驱动(science-driven)的工具等问题.不过事先声明,本书只会涉及最优控制的若干主题,因为本书是介绍基于Scala的机器学习(ML),而不是数据驱动的企业管理理论,企业管理理论本身就足以写成一本书.本章不会介绍基于Scala的具体实现,而是在一个高层次上探讨构建数据驱动型企业的问题.后面的章节将详细讨论如何实现这些细节.本章也特别强调不确定性的处理.不确

《Scala机器学习》一一1.6 相关性的基础

1.6 相关性的基础读者可能已经注意到,从列联表检测相关性是很难的.检测模式来源于实践,但许多人更擅长于识别可视化的模式.检测行为模式是机器学习的基本目标之一.虽然高级的监督机器学习技术将在第4章和第5章中讨论,但对变量之间相互依存关系的初步分析可得到正确的数据转换(或最佳的推理技术).目前有很多成熟的可视化工具及相关的网站(如http://www.kdnuggets.com)都专注于数据分析.数据研究和可视化软件的排名以及推荐.本书不会去质疑该排名的有效性和准确性,但确实很少有网站会介绍用Sc

《Scala机器学习》一一第3章 使用Spark和MLlib

第3章 使用Spark和MLlib 上一章介绍了在全局数据驱动的企业架构中的什么地方以及如何利用统计和机器学习来处理知识,但接下来不会介绍Spark和MLlib的具体实现,MLlib是Spark顶层的机器学习库.Spark是大数据生态系统中相对较新的成员,它基于内存使用而不是磁盘来进行优化.数据仍然可以根据需要转储到磁盘上,但Spark只有在明确指示这样做或活动数据集不适合内存时才会执行转储.如果节点出现故障或由于某些原因从内存中擦除信息,Spark会利用存储的信息来重新计算活动数据集.这与传统

《Scala机器学习》一一2.7 总结

2.7 总结 本章介绍了一种用于设计数据驱动企业的高级架构方法.同时还向读者介绍了影响图,它是一个用来了解传统企业和数据驱动企业是如何做决策的工具.接着介绍了几个重要的模型,如Kelly准则和多臂老虎机,并从数学的角度来说明这些问题是至关重要的.在这些内容的基础上还介绍了马尔可夫决策过程,该过程通过已有的决定和观察的结果来得到决策策略.本章深入研究了构建决策数据管道较为实用的方法,以及可用于构建它们的主要组件和框架.最后讨论了不同阶段和节点之间传递数据和建模结果的问题,以及将结果如何呈现给用户.