MapReduce中连接负载均衡优化研究

MapReduce中连接负载均衡优化研究

翟红敏 刘国华 赵威 刘源源 翟红坤

数据分析和处理是大规模分布式数据处理应用中的重要任务。由于简单易用和具有灵活性,MapReduce编程模型逐渐成为大规模分布式数据处理系统(如Hadoop系统)的核心模型。由于所处理的数据可能不是均匀分的,MapReduce编程模型在处理连接操作时,会出现数据倾斜问题。数据倾斜问题严重降低了MapReduce执行连接操作的效率。针对MapReduce中连接操作的数据倾斜问题,分析了造成MapReduce连接性能瓶颈的原因并建立负载均衡代价模型,提出了用范围分割方法控制连接过程中的数据倾斜问题实现负载均衡的策略。实验结果表明,所提方法明显提高了连接的效率。

MapReduce中连接负载均衡优化研究

时间: 2024-10-04 01:51:44

MapReduce中连接负载均衡优化研究的相关文章

云存储系统中动态负载均衡算法研究

云存储系统中动态负载均衡算法研究 田浪军 陈卫卫 陈卫东 李涛 针对分布式哈希表(DHT)云存储系统中的存储负载不均问题,提出一种基于节点动态前移(NDF)的负载均衡算法.通过过载节点动态前移,缩小节点存储分区,进而降低节点的存储负载.同时,过载节点向第3个后继节点复制相关数据,保证系统中数据的副本数量稳定.在NDF算法执行过程中,只需过载节点与第3个后继节点进行简单协调,多个过载节点可以并发地进行负载转移,适合在大规模集群中部署. 云存储系统中动态负载均衡算法研究

基于MapReduce模型的排序算法优化研究

基于MapReduce模型的排序算法优化研究 金菁 MapReduce已经发展成为大数据领域标准的并行计算模型.理想情况下,一个MapReduce系统应该使参与计算的所有节点高度负载均衡,并且最小化空间使用率.CPU和I/O的使用时长以及网络传输开销.传统的算法往往只针对上述指标中的一种进行优化.在保持算法良好并行性基础上,对多个指标同时进行优化,提出了MapReduce优化算法的设计规范.针对数据处理领域最重要的排序算法进行理论分析,给出了多指标约束下的最后算法,并证明了该优化算法满足MapR

【RAC】RAC中的负载均衡和故障切换--TAF配置

[RAC]RAC中的负载均衡和故障切换--TAF配置 涉及到的内容包括:   Oracle RAC 客户端连接负载均衡(Load Balance)      实现负载均衡(Load Balance)是Oracle RAC最重要的特性之一,主要是把负载平均分配到集群中的各个节点,以提高系统的整体吞吐能力.通常情况下有两种方式来实现负载均衡,一个是基于客户端连接的负载均衡,一个是基于服务器端监听器(Listener)收集到的信息来将新的连接请求分配到连接数较少实例上的实现方式.本文主要讨论的是基于客

CentOS6中Nginx负载均衡及轮询分流负载均衡例子

方法一,nginx 轮询分流实现负载均衡 准备工作,3台服务器,或者开虚拟机吧!我就是开虚拟机实现的.     ip分别为:192.168.1.10  192.168.1.11  192.168.1.12   (环境安装了ngixn 没有做任何配置)     3台服务器环境最好一样,我是再vm里直接克隆出来的,环境绝对一样吧!不一样,我估计会遇到很多奇怪的问题,没试过.     192.168.1.10  作为  负载均衡服务器  (一会负载均衡就在这里台服务器做配置,另外2台不用做配置)   

服务器集群中的负载均衡技术深入讲解

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;   由于目前现有网络的各个核心部分随着业务量的提高,访问量和数据流量的快速增长,其处理能力和计算强度也相应地增大,使得单一的服务器设备根本无法承担.在此情况下,如果扔掉现有设备去做大量的硬件升级,这样将造成现有资源的浪费,而且如果再面临下一次业务量的提升时,这又将导致再一次硬件升级的高额成本投入,甚至性能再卓越的设备也不能满足当前业务量增长的需求.  针对此情况而衍

CentOS中nginx负载均衡和反向代理的搭建

1: 修改centos命令行启动(减少内存占用): vim /etc/inittab     id:5:initdefault:  --> 修改5为3  若要界面启动使用 startx 2:安装jdk 1)解压:jdk-7u55-linux-i586.tar.gz        [root@localhost jdk]# tar -zxvf jdk-7u55-linux-i586.tar.gz 2)复制:[root@localhost jdk]# cp -rf jdk1.7.0_55/ /usr

tcp 负载均衡,tcp长连接的重复使用

问题描述 tcp 负载均衡,tcp长连接的重复使用 问题: 1.我有很多终端设备(非手机)通过TCP连接负载均衡服务器,并被分配到相应的后端服务器(通过端口连接,但这些后端服务器除了运行mina TCP长连接服务也提供http服务),请问这些终端设备是否直接与后端服务器TCP连接,而非与负载均衡服务连接? 2.我想通过手机APP发送消息给上述问题中的终端设备(例如设备 A),手机App是通过http负载均衡到上述的后端服务器,问题就是我手机APP如何找到后端服务器(这个服务器有TCP连接 连接着

一种混合遗传算法在云计算负载均衡中的应用研究

一种混合遗传算法在云计算负载均衡中的应用研究 程国建,刘丽景,石彩云,朱凯 遗传算法(GA)被广泛用于解决科学与工程中的复杂问题,然而传统的GA在求解高维函数优化问题时存在很多限制因素,因此无法在云计算中直接应用.提出了一种多智能体与遗传算法混合的多Agent遗传算(MAGA).首先论证了MAGA较传统GA的优越之处,然后采用MAGA建立了基于虚拟化资源管理的负载均衡模型,解决云计算中的负载均衡问题.与Min_min策略对比实验结果表明,多Agent遗传算法能够达到更加优越的负载均衡效果. 关键

弘积科技:银行负载均衡其实可以这么做!

引言:业务的稳定性和高可用性可谓是银行的生命线.很难想象,银行的业务系统一旦中断,将会带来怎样的严重后果.为了应对网上银行.手机银行等业务的快速发展对数据中心所带来的处理压力,某省级城商行采用弘积科技ADP平台来保障核心业务的平稳高效运行,也为银行业的负载均衡实践提供了有益借鉴. 成立于2007年的某商业银行,经过近十年发展,业务稳步上升.2016年末其总资产已突破4200亿元,跻身"城商行4000亿俱乐部" . 随着业务的迅猛增长,特别是网上银行交易量的增多,该银行原有的数据中心越来