IDF2012 hadoop构建全新大数据处理标准

Hadoop 具备出色的大数据集处理能力,在获取、存储、管理和分析数据方面远远超越传统的数据库软件工具。随着来自各种来源的数据日益增长,如何有效地利用这一信息成为了很多组织面临的一个难题。Hadoop 经常在构建大数据解决方案时被用作基础构架软件。

大数据:是通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据概念可以从四个维度去解,即三个V和一个C。三个V分别指的是数据量大、数据种类多和数据增长速度快,最后一个C指的是处理、升级或利用大数据的分析手段比处理结构化数据要复杂的多。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

大数据的多样性和复杂性让现在的关系型数据库无法适应大数据带来的挑战,关系型数据库由于自身架构的局限性,不能进行横向扩展,一味的向上扩展只会降低节点的工作效率。

大数据需要的是横向扩展,无分享的架构。利用大规模的分布式软件运行在上千台独立的服务器上面。通过将计算移至数据存储处来带到数据的高性能和高可用性。

HIBENCH是一个全新的完整的一套Hadoop标准测试集合,可以进行微基准测试,网络搜索算法测试,机器学习算法测试,分析查询算法测试。

通过对数据的比较,由应用特征决定数据的优化方法应用决策树思想来帮助获取具有混合属性的数据集的“规则聚类区域” ,利用“异类数据点子集相离,同类子聚类相紧”的原则来交替优化有序属性的权重和无序类别属性的权重,得到一种名为基于决策树划分的特征权重优化方法。这种方法在一定程度上解决了有效地获取数据点集的子聚。

HiTune是一个最新的Hadoop性能分析工具,可以从每个节点上分布收集性能数据,并且可以将这些数据进行汇总,生产图形化的报告。让客户可以迅速明白那个节点出了问题,进而迅速调整。

这就是一份Hitunne对Hadoop运行时行为的深入分析,这个结果表示copier线程中80%的时间处于空闲状态,等待memory merge线程。这个问题可以利用LZO压缩算法解决。

时间: 2024-10-23 05:12:13

IDF2012 hadoop构建全新大数据处理标准的相关文章

为什么hadoop对你大数据处理的意义重大

Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取.变形和加载(ETL)方面上的天然优势.Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像ETL这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储.Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务发送(Map)到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里. 但是对于Hadoop,特别是Hadoop分布式文件系统(HDFS)来说,大数据处理至少需要三

Apache Beam: 下一代的大数据处理标准

Apache Beam(原名Google DataFlow)是Google在2016年2月份贡献给Apache基金会的Apache孵化项目,被认为是继MapReduce,GFS和BigQuery等之后,Google在大数据处理领域对开源社区的又一个非常大的贡献.Apache Beam的主要目标是统一批处理和流处理的编程范式,为无限,乱序,web-scale的数据集处理提供简单灵活,功能丰富以及表达能力十分强大的SDK.Apache Beam项目重点在于数据处理的编程范式和接口定义,并不涉及具体执

Hadoop技术让大数据处理变得简单

你知道世界一天产生多少数据量吗? 你知道从谷歌的搜寻关键字,如何预测流感疫情的蔓延? 你知道为什么登入购物网站,发现陈列的商品都是最想买的东西?电脑知道要回答这些问题,关键就在于大数据 (Big Data)! 随着资讯越来越发达,数据爆发增长.零散数据.即时数据分析.社交舆情收集.垃圾数据,只要讲到有关Big Data 的报导,几乎都会涉及很多科技名词,很多人都产生一种印象,就是 Big Data 是很高深的科技,而且投资很大.很难用. 身处大数据时代,全球企业拼命从各式各样的管道搜集数据,想从

如何为大数据处理构建高性能Hadoop集群

越来越多的企业开始使用Hadoop来对大数据进行处理分析,但Hadoop集群的整体性能却取决于CPU.内存.网络以及存储之间的性能平衡.而在这篇文章中,我们将探讨如何为Hadoop集群构建高性能网络,这是对大数据进行处理分析的关键所在. 关于Hadoop "大数据"是松散的数据集合,海量数据的不断增长迫使企业需要通过一种新的方式去管理.大数据是结构化或非结构化的多种数据类型的大集合.而Hadoop则是Apache发布的软件架构,用以分析PB级的非结构化数据,并将其转换成其他应用程序可管

怎么为大数据处理构建高性能Hadoop集群

越来越多的企业开始使用Hadoop来对大数据进行处理分析,但Hadoop集群的整体性能却取决于CPU.内存.网络以及存储之间的性能平衡.而在这篇文章中,我们将探讨如何为Hadoop集群构建高性能网络,这是对大数据进行处理分析的关键所在. 关于Hadoop "大数据"是松散的数据集合,海量数据的不断增长迫使企业需要通过一种新的方式去管理.大数据是结构化或非结构化的多种数据类型的大集合.而 Hadoop则是Apache发布的软件架构,用以分析PB级的非结构化数据,并将其转换成其他应用程序可

零基础搭建Hadoop大数据处理-初识

在互联网的世界中数据都是以TB.PB的数量级来增加的,特别是像BAT光每天的日志文件一个盘都不够,更何况是还要基于这些数据进行分析挖掘,更甚者还要实时进行数据分析,学习,如双十一淘宝的交易量的实时展示. 大数据什么叫大?4个特征: 体量化 Volume,就是量大. 多样化 Variety,可能是结构型的数据,也可能是非结构行的文本,图片,视频,语音,日志,邮件等 快速化 Velocity,产生快,处理也需要快. 价值密度低 Value,数据量大,但单个数据没什么意义,需要宏观的统计体现其隐藏的价

0基础搭建Hadoop大数据处理-初识

在互联网的世界中数据都是以TB.PB的数量级来增加的,特别是像BAT光每天的日志文件一个盘都不够,更何况是还要基于这些数据进行分析挖掘,更甚者还要实时进行数据分析,学习,如双十一淘宝的交易量的实时展示. 大数据什么叫大?4个特征: 体量化 Volume,就是量大. 多样化 Variety,可能是结构型的数据,也可能是非结构行的文本,图片,视频,语音,日志,邮件等 快速化 Velocity,产生快,处理也需要快. 价值密度低 Value,数据量大,但单个数据没什么意义,需要宏观的统计体现其隐藏的价

大数据处理——Hadoop解析(一)

概述 这个时代被称之为大数据时代,各行各业生产的数据量呈现爆发性增长,并且基于这些爆发性增长的数据做深层次的数据挖掘.分析.处理.因此,我们可以很容易的感觉到,在这样一个大数据的时代,我们很多做事情的方法正在发生了改变.例如,基于大数据分析可以做疾病预测控制;基于大数据分析可以做交通流量预测控制;基于大数据分析可以做大型系统故障诊断预测;基于大数据分析可以做客户消费推荐.可以说,大数据时代可以解决很多以前非常难以解决的问题.可以这样讲,在这样一个时代,大数据可以让我们的生活变得更加美好. 突如其

大数据处理平台——hadoop能为企业带来什么?

现在,"大数据"这个概念在IT行业是越来越流行了.美国国家海洋与大气管理局NOAA利用"大数据"进行各种分析.<纽约时报>使用大数据对于新闻分析和WEB信息进行挖掘.迪斯尼则利用主题公园.商店以及WEB资产进行客户http://www.aliyun.com/zixun/aggregation/9850.html">行为分析. "大数据"不单单只是适用于大型的企业,而且还可以应用于各个不同规模的,不同杨业的企业.比如通过