实现Spark集群部署 这些公司都经历了什么?

软件公司Intuit和Novantas经过深思熟虑,决定部署他们的第一个Spark集群,限制初始用户访问并寻找坚实的商业用途。

Intuit公司建立了Spark集群,最初用于在网站和进入在线表单的数据用户的财务和会计软件分析点击流记录。但是Intuit的副总裁Bill Loconzolo并不打算使用开源数据处理引擎。

Loconzolo表示,在他的印象中,Spark似乎并不是很灵活。但是尽管Spark集群设置是实验性质的,数据科学家团队也可以使用。Loconzolo说,2016年年底之前,他不打算开放系统。

他想要建立一个基于Cloudera公司Hadoop分布的大数据分析架构,他准备使用Spark等新技术至少六个月,以便判断公司是否做好了准备。

“以前使用大数据技术时,我们有过类似的教训,”他解释说,“有时候,提前做准备是我们避免失败的有效方式。”

Novantas公司的首席技术官和工程主管Kaushik Deka表示,开始使用Hadoop时,他的团队也采取了非常谨慎的战略模式。

“一年前,我们从未使用过大数据平台,”Deka说,“我们完全认同这样的技术,但想要使用这些技术,公司内部文化需要做些真正的努力和转变。”Novantas还必须通过对现有员工进行培训,建立像Spark一样的内部专业工具。

为了避免偏离轨道,该公司非常谨慎地寻找一个坚实的初始业务用于大数据技术。达到搜索高峰时,银行利用其分析服务和软件结合不同的数据集来支持个人客户如何应对市场营销的预测模型。Spark非常适合该应用程序,可以作为一个引擎完成提取、转换和加载数据集成工作。

Gartner分析师Nick Heudecker说,咨询公司获得了客户关于Spark评价的 “实质性”调查。但这项技术尚未成熟,企业用户中关于Spark集群的产品相对较少。他说,“我们对这项技术很感兴趣,Spark是否转化为部署是我们密切关注的事情。”

本文作者:佚名

来源:51CTO

时间: 2024-08-02 07:39:14

实现Spark集群部署 这些公司都经历了什么?的相关文章

Spark集群部署

1. 安装环境简介 硬件环境:两台四核cpu.4G内存.500G硬盘的虚拟机. 软件环境:64位http://www.aliyun.com/zixun/aggregation/13835.html">Ubuntu12.04 LTS:主机名分别为spark1.spark2,IP地址分别为1**.1*.**.***/***.JDK版本为1.7.集群上已经成功部署了Hadoop2.2,详细的部署过程可以参见另一篇文档Yarn的安装与部署. 2.  安装Scala2.9.3 1)在/home/te

Spark集群部署时SSH无密码登录问题

问题描述 我们是2台电脑各自装了一个VMware的虚拟机,里面是Ubuntu的系统进行操作,Spark集群一个是Master,一个是Slave1,在设置SSH无密码登陆时,Slave1把公钥发给Master时会出现:rootMaster'spassward,然后输入密码后出现:Persiondenied,pleasetryagain.这并不是密码错误的提示,而是权限不够的提示,按照网上改权限也没有效果,这是为什么需要怎么修改? 解决方案 解决方案二:不是应该将master的公钥发给slave吗解

使用Docker在本地搭建hadoop,spark集群

本环境使用的单个宿主主机,而不是跨主机集群,本spark集群环境存在的意义可能在于便于本地开发测试使用,非常轻量级和便捷.这个部署过程,最好在之前有过一定的hadoop,spark集群部署经验的基础,本文重点在于docker相关的操作,至于hadoop和spark集群的部署,极力推荐这两个网页: Hadoop集群:http://blog.csdn.net/stark_sum ... 24279. Spark集群:http://blog.csdn.net/stark_sum ... 58081 主

消息中间件kafka+zookeeper集群部署、测试与应用

业务系统中,通常会遇到这些场景:A系统向B系统主动推送一个处理请求:A系统向B系统发送一个业务处理请求,因为某些原因(断电.宕机..),B业务系统挂机了,A系统发起的请求处理失败:前端应用并发量过大,部分请求丢失或后端业务系统卡死....这个时候,消息中间件就派上用场了--提升系统稳定性.可用性.可扩展性. 一.消息中间件消息队列技术是分布式应用间交换信息的一种技术.消息队列可驻留在内存或磁盘上,队列存储消息直到它们被应用程序读走.通过消息队列,应用程序可独立地执行--它们不需要知道彼此的位置.

《Spark大数据处理:技术、应用与性能优化》——第2章 Spark集群的安装与部署2.1 Spark的安装与部署

第2章 Spark集群的安装与部署 Spark的安装简便,用户可以在官网上下载到最新的软件包. Spark最早是为了在Linux平台上使用而开发的,在生产环境中也是部署在Linux平台上,但是Spark在UNIX.Windwos和Mac OS X系统上也运行良好.不过,在Windows上运行Spark稍显复杂,必须先安装Cygwin以模拟Linux环境,才能安装Spark. 由于Spark主要使用HDFS充当持久化层,所以完整地使用Spark需要预先安装Hadoop.下面介绍Spark集群的安装

Hadoop集群部署权限总结

这是一篇总结的文章,主要介绍 Hadoop 集群快速部署权限的步骤以及一些注意事项.如果你想了解详细的过程,请参考本博客中其他的文章. 1. 开始之前 hadoop 集群一共有三个节点,每个节点的 ip.hostname.角色如下: 192.168.56.121 cdh1 NameNode.kerberos-server.ldap-server.sentry-store 192.168.56.122 cdh2 DataNode.yarn.hive.impala 192.168.56.123 cd

Spark集群安装和使用

本文主要记录 CDH5 集群中 Spark 集群模式的安装过程配置过程并测试 Spark 的一些基本使用方法. 安装环境如下: 操作系统:CentOs 6.5 Hadoop 版本:cdh-5.4.0 Spark 版本:cdh5-1.3.0_5.4.0 关于 yum 源的配置以及 Hadoop 集群的安装,请参考 使用yum安装CDH Hadoop集群. 1. 安装 首先查看 Spark 相关的包有哪些: $ yum list |grep spark spark-core.noarch 1.3.0

虚拟机-hadoop2.x集群部署一种一个datanode无法启动

问题描述 hadoop2.x集群部署一种一个datanode无法启动 Exception in secureMain java.net.UnknownHostException: node1: node1 at java.net.InetAddress.getLocalHost(InetAddress.java:1473) at org.apache.hadoop.security.SecurityUtil.getLocalHostName(SecurityUtil.java:187) at o

容器集群部署 选好编排工具是关键

本文讲的是容器集群部署 选好编排工具是关键[IT168 评论]容器技术提供了组件化的环境,可以帮助业务应用在云之间轻松迁移而无需显著的返工.随着容器在企业持续获得发展,厂商将增加新的功能让用户可以创建可扩展的基于容器的环境.然而,大范围控制容器部署也会有一些并发症.容器肯定是跟资源相匹配的.这些挑战会导致集群管理和编排的并发需求. 集群管理工具是一个通过图形界面或者通过命令行来帮助你管理一组集群的软件程序.有了这个工具,你就可以监控集群里的节点,配置services,管理整个集群服务器.集群管理