Hadoop 具备出色的大数据集处理能力,在获取、存储、管理和分析数据方面远远超越传统的数据库软件工具。随着来自各种来源的数据日益增长,如何有效地利用这一信息成为了很多组织面临的一个难题。Hadoop 经常在构建大数据解决方案时被用作基础构架软件。
大数据:是通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据概念可以从四个维度去解,即三个V和一个C。三个V分别指的是数据量大、数据种类多和数据增长速度快,最后一个C指的是处理、升级或利用大数据的分析手段比处理结构化数据要复杂的多。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
大数据的多样性和复杂性让现在的关系型数据库无法适应大数据带来的挑战,关系型数据库由于自身架构的局限性,不能进行横向扩展,一味的向上扩展只会降低节点的工作效率。
大数据需要的是横向扩展,无分享的架构。利用大规模的分布式软件运行在上千台独立的服务器上面。通过将计算移至数据存储处来带到数据的高性能和高可用性。
HIBENCH是一个全新的完整的一套Hadoop标准测试集合,可以进行微基准测试,网络搜索算法测试,机器学习算法测试,分析查询算法测试。
通过对数据的比较,由应用特征决定数据的优化方法应用决策树思想来帮助获取具有混合属性的数据集的“规则聚类区域” ,利用“异类数据点子集相离,同类子聚类相紧”的原则来交替优化有序属性的权重和无序类别属性的权重,得到一种名为基于决策树划分的特征权重优化方法。这种方法在一定程度上解决了有效地获取数据点集的子聚。
HiTune是一个最新的Hadoop性能分析工具,可以从每个节点上分布收集性能数据,并且可以将这些数据进行汇总,生产图形化的报告。让客户可以迅速明白那个节点出了问题,进而迅速调整。
这就是一份Hitunne对Hadoop运行时行为的深入分析,这个结果表示copier线程中80%的时间处于空闲状态,等待memory merge线程。这个问题可以利用LZO压缩算法解决。