自定义Spark Partitioner提升es-hadoop Bulk效率

前言

之前写过一篇文章,如何提高ElasticSearch 索引速度。除了对ES本身的优化以外,我现在大体思路是尽量将逻辑外移到Spark上,Spark的分布式计算能力强,cpu密集型的很适合。这篇文章涉及的调整也是对SparkES 多维分析引擎设计 中提及的一个重要概念“shard to partition ,partition to shard ” 的实现。不过目前只涉及到构建索引那块。

问题描述

当你bulk数据到集群,按照ElasticSearch Bulk 源码解析所描述的:

接着通过executeBulk方法进入原来的流程。在该方法中,对bulkRequest.requests 进行了两次for循环。

第一次判定如果是IndexRequest就调用IndexRequest.process方法,主要是为了解析出timestamp,routing,id,parent 等字段。

第二次是为了对数据进行分拣。大致是为了形成这么一种结构:

第二次就是对提交的数据进行分拣,然后根据route/_id 等值找到每个数据所属的Shard,最后将数据发送到对应Shard所在的Node节点上。

然而这导致了两个问题:

  1. ES Node之间会形成N*N个连接,消耗掉过多的bulk线程
  2. 出现了很多并不需要的网络IO

所以我们希望能够避免这种情况。

Spark Partition to ES Shard

我们希望能够将分拣的逻辑放到Spark端,保证Spark 的Partition 和ES的Shard 一一对应,并且实现特定的Partitoner 保证数据到达ES都会被对应的Shard所在的节点直接消费,而不会再被转发到其他节点。经过我的实际测试,做了该调整后,写入QPS有两倍以上的提升

理论基础

这里的理论基础自然是es-hadoop项目。

类的调用路径关系为:

EsSpark ->
     EsRDDWriter ->
           RestService ->
                  RestRepository ->
                            RestClient ->
                                NetworkClient ->
                                        CommonsHttpTransport

简单介绍下他们的作用:

  • EsSpark, 读取ES和存储ES的入口。通过隐式转换,会显得更Spark.
  • EsRDDWriter ,调用RestService创建PartitionWriter,对ES进行数据写入
  • RestService,负责创建 RestRepository,PartitionWriter
  • RestRepository,bulk高层抽象,底层利用NetworkClient做真实的http请求,另外也维护Buffer相关的,典型比如积攒了多少条,多少M之后进行flush等。
  • NetworkClient 对 CommonsHttpTransport的封装,主要添加了一些节点校验功能。
  • CommonsHttpTransport 你可以认为是对HttpClient的一个封装

原来我以为需要对es-hadoop项目的源码进行修改才能实现前面提到的逻辑。事实上基于es-hadoop很容易实现上面提到的需求。

我们现在解释下为什么不需要修改源码。

在RestService类里,构建RestRepository的时候,会判定是多索引还是单索引。对应代码如下:

RestRepository repository = (iformat.hasPattern() ?
 initMultiIndices(settings, currentSplit, resource, log) :
initSingleIndex(settings, currentSplit, resource, log));

这里我们只解析单索引部分代码,在对应的initSingleIndex方法里有如下代码:

int bucket = currentInstance % targetShards.size();
Shard chosenShard = orderedShards.get(bucket);
Node targetNode = targetShards.get(chosenShard);

先简要说明下几个参数变量。

  • targetShards 是索引所有的主分片到对应Node节点的映射。
  • orderedShards 则是根据shardId 顺序排序Shard集合
  • currentInstance 是partitionId

因为我们已经通过partitioner 将partitionId 转化为shardId,,也就是partitionId X 里的数据,都是属于shardId 为X。 也就是说currentInstance == partitionId == shardId。下面是我们推导出来的关系:

  • currentInstance < targetShards.size() 
  • bucket == currentInstance == partitionId == shardId
  • targetNode 持有ShardId=currentInstance 的Primary Shard

所以这段代码实际完成了partitionId 到 targetNode的映射关系。

ESShardPartitioner 实现

涉及到这块的主要有 es-hadoop 的mr以及 spark模块。在mr模块里包含了ES的分片规则实现。 spark 模块则包含ESShardPartitioner类。

代码如下:

package org.elasticsearch.spark
import ....
class ESShardPartitioner(settings:String) extends Partitioner {
      protected val log = LogFactory.getLog(this.getClass())

      protected var _numPartitions = -1 

      override def numPartitions: Int = {
        val newSettings = new PropertiesSettings().load(settings)
        val repository = new RestRepository(newSettings)
        val targetShards = repository.getWriteTargetPrimaryShards(newSettings.getNodesClientOnly())
        repository.close()
        _numPartitions = targetShards.size()
        _numPartitions
      }

      override def getPartition(key: Any): Int = {
        val shardId = ShardAlg.shard(key.toString(), _numPartitions)
        shardId
      }
}

public class ShardAlg {
    public static int shard(String id, int shardNum) {
        int hash = Murmur3HashFunction.hash(id);
        return mod(hash, shardNum);
    }

    public static int mod(int v, int m) {
        int r = v % m;
        if (r < 0) {
            r += m;
        }
        return r;
    }
}

使用方式如下:

......partitionBy(new ESShardPartitioner(settings)).foreachPartition { iter =>
      try {
        val newSettings = new PropertiesSettings().load(settings)
        //创建EsRDDWriter
        val writer = EsRDDCreator.createWriter(newSettings.save())
        writer.write(TaskContext.get(), iter.map(f => f._2))
      }

不过这种方式也是有一点问题,经过partition 后,Spark Partition Num==ES Primary Shard Num,这样会使得Spark写入并发性会受到影响。

这个和Spark Streaming 里KafkaRDD 的partition数受限于Kafka Partition Num 非常类似。我之前也对这个做了扩展,是的多个Spark Partition 可以映射到同一个Kafka Partition.

所以这里有第二套方案:

  1. 修改ESShardPartitioner,可以让多个分区对应一个Shard,并且通过一个Map维护这个关系
  2. 每个分区通过EsRDDWriter指定shardId进行写入。
......partitionBy(new ESShardPartitioner(settings)).foreachPartition { iter =>
      try {
        val newSettings = new PropertiesSettings().load(settings)
        //创建EsRDDWriter
        val writer = EsRDDCreator.createWriter(newSettings.save())
        writer.write(TaskContext.get(), iter.map(f => f._2))
      }

第二点可能需要修改es-hadoop源码了,不过修改也很简单,通过settings传递shardId,然后在

RestService.initSingleIndex添加如下代码:
if(settings.getProperty(ConfigurationOptions.ES_BULK_SHARDID) != null){
            targetNode = targetShards.get(orderedShards.get(Integer.parseInt(settings.getProperty(ConfigurationOptions.ES_BULK_SHARDID))));
        }

在创建EsRDDWriter时拷贝settings的副本并且加入对应的ConfigurationOptions.ES_BULK_SHARDID.

使用时类似下面这个例子:

//val settings = new SparkSettings(conf).save()
.partitionBy(new ESShardPartitioner(settings)).mapPartitionsWithIndex { (partitionIndex, iter) =>
      try {
      val writer = EsSpark.createEsRDDWriter[Map[String,String]](settings, resource)
       //shardToPartitions个 Spark partition 对应一个ES Shard
        val shardId = ESShardPartitioner.shardIdFromPartitionId(partionId, shardToPartitions)
       //强制该分片写入到特定的Shard里
        val stats = writer.writeToSpecificPrimaryShard(TaskContext.get(), shardId, iter.map(f => f._2))
        List(NewStats(stats.bulkTotalTime, stats.docsSent)).iterator
      } catch {

这样可以把一份数据切成多分,并发写入ES的某个Shard.

总结

将ES的计算外移到Spark在这个场景中还是比较容易的。下次我还会专门写篇文章,剖析es-hadoop的实现,以及一些关键参数,尤其是一些类的使用。方便我们对es-hadoop实现定制化修改。

时间: 2024-08-25 01:03:55

自定义Spark Partitioner提升es-hadoop Bulk效率的相关文章

阿里Atlas开源?提升团队移动开发效率

本文讲的是阿里Atlas开源?提升团队移动开发效率[IT168 资讯]继Weex之后,阿里在移动技术领域又有开源大动作. 3月13日,手机淘宝安卓客户端容器化框架Atlas正式宣布开源. Atlas由阿里巴巴移动团队自研,以容器化思路解决大规模团队协作问题,实现并行开发.快速迭代和动态部署,适用于Android 4.x以上系统版本的大小型App开发. Atlas特别适用于大规模团队的协同开发.通过提供组件化.动态性.解耦化的支持,Atlas能够实现每个业务在开发阶段独立编译.独立调试.独立运行,

巧用标识提升企业IT设施管理效率

问题描述 当前企业IT设施类型越来越多样,涉及的产品包括监控.消防类.装修.家具.UPS配电.空调制冷.强弱电缆.防雷接地,还有网络类.安全类.存储类.服务器类等各种IT产品.如何提升企业IT设施管理效率,巧用标识是一个基本的但非常有效的方法.常规来说,企业IT设施标识分为以下几类:1.永久链路标识永久链路标识,是指墙壁中,地板下等永久链路所用标识.数据中心一旦竣工投入使用,这类标识很少会被用户接触到,所以常常不会引起注意.但是,这类标识反而是整个标识系统中对材料要求更高的一部分.在布线系统中,

Spark教程-构建Spark集群-配置Hadoop单机模式并运行Wordcount(2)

接上一篇:http://www.aliyun.com/zixun/aggregation/13383.html">Spark教程-构建Spark集群-配置Hadoop单机模式并运行Wordcount(1) 2.安装rsync 我们的Ubuntu 12.10版本默认安装了rsync,我们可以通过以下命令来安装或者更新rsync 3.安装hadoop,家林把下载下来的最新稳定版本的hadoop保存在电脑本地的以下位置: 创建/usr/local/hadoop目录并把下载下来的Hadoop解压/

Spark教程-构建Spark集群-配置Hadoop伪分布模式并运行Wordcount示例(1)

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;   伪分布模式主要涉及一下的配置信息: 修改Hadoop的核心配置文件core-site.xml,主要是配置HDFS的地址和端口号: 修改Hadoop中HDFS的配置文件hdfs-site.xml,主要是配置replication; 修改Hadoop的MapReduce的配置文件mapred-site.xml,主要是配置JobTracker的地址和端口: 在具体操作

大数据探索:在树莓派上通过 Apache Spark on YARN 搭建 Hadoop 集群

有些时候我们想从 DQYDJ 网站的数据中分析点有用的东西出来,在过去,我们要用 R 语言提取固定宽度的数据,然后通过数学建模来分析美国的最低收入补贴,当然也包括其他优秀的方法. 今天我将向你展示对大数据的一点探索,不过有点变化,使用的是全世界最流行的微型电脑----树莓派,如果手头没有,那就看下一篇吧(可能是已经处理好的数据),对于其他用户,请继续阅读吧,今天我们要建立一个树莓派 Hadoop集群! I. 为什么要建立一个树莓派的 Hadoop 集群? 由三个树莓派节点组成的 Hadoop 集

Spark-基础-Spark编译与部署--Hadoop编译安装

1.编译Hadooop 1.1 搭建环境 1.1.1 安装并设置maven 1. 下载maven安装包,建议安装3.0以上版本,本次安装选择的是maven3.0.5的二进制包,下载地址如下 http://mirror.bit.edu.cn/apache/maven/maven-3/ 2. 使用ssh工具把maven包上传到/home/hadoop/upload目录 3. 解压缩apache-maven-3.0.5-bin.tar.gz包 $tar -zxvf apache-maven-3.0.5

几个提升JSP应用程序效率的方法

   本文介绍了几个调整JSP和servlet的一些非常实用的方法,它可使你的servlet和JSP页面响应更快,扩展性更强.而且在用户数增加的情况下,系统负载会呈现出平滑上长的趋势.我将通过一些实际例子和配置方法使得你的应用程序的性能有出人意料的提升.其中,某些调优技术是在你的编程工作中实现的,而另一些技术是与应用服务器的配置相关的.我们将详细地描述怎样通过调整servlet和JSP页面,来提高你的应用程序的总体性能.在阅读本文之前,你还需要有基本的servlet和JSP的知识.  方法一:在

提升你的开发效率,10 个 NPM 使用技巧

对于一个项目,常用的一些npm简单命令包含的功能有:初始化一个文件夹( npm init ),下载npm模块( npm install ),创建测试( npm test ) 和自定义脚本( npm run ).但是,进一步了解一些 npm 的使用技巧可以彻底改变你的日常开发任务. 注: 如果你需要关于初学npm的参考,可以参阅我们的初学者指南.如果你对 npm 和 Yarn 之间的差异感到困扰,可以参阅我们发表的文章:Yarn vs npm:你需要知道的一切 获取帮助 npm 文档 和 CLI

Postgres数据库总设计师:NewSQL体系比Hadoop更具效率

现今,完全放弃传统http://www.aliyun.com/zixun/aggregation/22.html">关系数据库并忙于使用新兴的NoSQL数据库可能还不是一个合理的选择.相反改进后的SQL(结构化查询语言)系统可能会对一些技术细节进行调整.在8月23日加利福尼亚圣何塞市举行的NoSQL 2011大会上分布式数据库公司VoltDB的首席技术官Michael Stonebraker表达了上述的观点. Stonebraker所在公司本身提供的是基于NewSQL的数据库软件.他所倡导