Apache Spark 1.3 发布

问题描述

原文地址:https://databricks.com/blog/20 ... .htmlApache Spark 1.3 版本引入了新的Data Frame API,对大数据集、结构化数据集的操作变得更快速和更容易。代码示例:# Constructs a DataFrame from a JSON dataset.users = context.load("s3n://path/to/users.json", "json")# Create a new DataFrame that contains “young users” onlyyoung = users.filter(users.age

时间: 2024-09-14 10:36:07

Apache Spark 1.3 发布的相关文章

Apache Spark 1.5新特性介绍

Apache Spark社区刚刚发布了1.5版本,大家一定想知道这个版本的主要变化,这篇文章告诉你答案. DataFrame执行后端优化(Tungsten第一阶段) DataFrame可以说是整个Spark项目最核心的部分,在1.5这个开发周期内最大的变化就是Tungsten项目的第一阶段已经完成.主要的变化是由Spark自己来管理内存而不是使用JVM,这样可以避免JVM GC带来的性能损失.内存中的Java对象被存储成Spark自己的二进制格式,计算直接发生在二进制格式上,省去了序列化和反序列

Apache Spark源码走读(四)Hive on Spark运行环境搭建 &hiveql on spark实现详解

<一>Hive on Spark运行环境搭建 楔子 Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析.由于这一特性而收到广泛的欢迎. Hive的整体框架中有一个重要的模块是执行模块,这一部分是用Hadoop中MapReduce计算框架来实现,因而在处理速度上不是非常令人满意.由于Spark出色的处理速度,有人已经成功将HiveQL的执行利用Spark来运行,这就

用Apache Spark进行大数据处理—入门篇

文章讲的是用Apache Spark进行大数据处理-入门篇,Apache Spark 是一个围绕速度.易用性和复杂分析构建的大数据处理框架.最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一. 与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势. 首先,Spark为我们提供了一个全面.统一的框架用于管理各种有着不同性质(文本数据.图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求. Sp

Apache Spark源码走读(七)Standalone部署方式分析&amp;sql的解析与执行

<一>Standalone部署方式分析 楔子 在Spark源码走读系列之2中曾经提到Spark能以Standalone的方式来运行cluster,但没有对Application的提交与具体运行流程做详细的分析,本文就这些问题做一个比较详细的分析,并且对在standalone模式下如何实现HA进行讲解. 没有HA的Standalone运行模式 先从比较简单的说起,所谓的没有ha是指master节点没有ha. 组成cluster的两大元素即Master和Worker.slave worker可以有

Apache Spark机器学习.1.4 MLlib

1.4 MLlib MLlib是一个可扩展的Spark机器学习库,包括很多常用的机器学习算法.MLlib内置的算法如下: 以向量和矩阵形式处理数据 基本的统计计算,例如:汇总统计和相关性.简单随机数生成.分层抽样.执行简单的假设检验 分类和回归建模 协同过滤 聚类 降维 特征提取与转换 频繁模式挖掘 开发优化 PMML模型导出 Spark MLlib还处在活跃开发阶段,预计每次新版发布都会有新的算法加入其中. MLlib符合Apache Spark的计算哲学,简单易用,性能卓越. MLlib使用

Apache Spark机器学习3.7 部署Apache

3.7 部署 有一些用户可能已经拥有了部署系统,按用户所需的格式将所开发的模型导出即可. 对于线性回归模型,MLlib支持将模型导出为预测模型标记语言(Predictive Model Markup Language,PMML). 更多关于MLlib导出PMML模型的信息,请访问:https://spark.apache.org/docs/latest/mllib-pmml-model-export.html. 对于R notebook,PMML可以直接在其他环境运行.使用R语言函数包PMML,

用 Apache Spark 和 TensorFlow 进行深度学习

神经网络在过去几年中取得了惊人的进步,现在已成为图像识别和自动翻译领域最先进的技术.TensorFlow是 Google 为数字计算和神经网络发布的新框架.在这篇博文中,我们将演示如何使用 TensorFlow 和 Spark 一起来训练和应用深度学习模型. 你可能会想:当大多数高性能深度学习实现只是单节点时,Apache Spark 在这里使用什么?为了回答这个问题,我们将通过两个用例来解释如何使用 Spark 和 TensorFlow 的集群机器来改进深度学习流程: 超参数调整:使用 Spa

Apache Spark 2.0简介,那些你想知道的事都在这里了

今天介绍一篇文章,详细阐述了Apache Spark 2.0突出的三大优点:更容易.更快速.更智能. 两个月前,我们在Databricks上发布了Apache Spark 2.0的预览版本.从下面的图表可以看出,我们的10%的集群已经使用这个版本,同时客户试用了其新功能,并向我们提供了反馈意见. 随时间的推移各个不同版本Apache Spark的使用情况 现在,让我们一起更深入地了解Apache Spark 2.0的新功能. 更容易:ANSI SQL和简化版的API 我们为Spark感到特别自豪

大数据探索:在树莓派上通过 Apache Spark on YARN 搭建 Hadoop 集群

有些时候我们想从 DQYDJ 网站的数据中分析点有用的东西出来,在过去,我们要用 R 语言提取固定宽度的数据,然后通过数学建模来分析美国的最低收入补贴,当然也包括其他优秀的方法. 今天我将向你展示对大数据的一点探索,不过有点变化,使用的是全世界最流行的微型电脑----树莓派,如果手头没有,那就看下一篇吧(可能是已经处理好的数据),对于其他用户,请继续阅读吧,今天我们要建立一个树莓派 Hadoop集群! I. 为什么要建立一个树莓派的 Hadoop 集群? 由三个树莓派节点组成的 Hadoop 集