克服大数据集群的挑战

数据存储曾经是大数据的最大挑战。由于云计算基础设施的进步,存储数据不再是关键问题。如今,数据科学家所面临的最大问题是数据收集。

集群化使得大数据分析更容易。然而,集群也给数据工程师带来了必须解决的问题。

什么是数据集群?

数据集群的概念可追溯到至少20年前。美国俄亥俄州立大学计算机科学和工程系教授Anil Kumar Jain博士在他的白皮书之一中对这一术语进行了很好的描述:

“集群是模式(观察,数据项或特征向量)到组(集群)的无监督分类。集群问题在许多领域和许多学科的研究人员那里都得到了解决;这反映了其广泛的吸引力和实用性,作为探索性数据分析的步骤之一。然而,集群的组合是一个困难的问题,不同社区的假设和背景差异使得有用的通用概念和方法的传递变得缓慢。“

换句话说,数据工程师使用集群来识别原始数据中的趋势和模式。他们需要将其分解成群集。

数据集群的主要挑战是什么?

自从大数据的概念诞生以来,集群一直是一个挑战。这个问题源于数据量和处理限制。拉巴特大学列出了大数据集群的首要关注点。

(1) 数量

大多数网络上存储的数据量呈指数级增长。随着数据量的增加,提取数据变得更加困难。备份数据也可能放大这些问题。

(2) 速度

数据生成的速度是数据科学家面临的另一个集群挑战。这个问题不仅限于网络上的数据量。当网络以前所未有的速度生成新数据时,他们将很难实时地提取它。

造成的问题是双重的:

  • 新的模式将不断地从已知的数据集涌现。数据分析师可能认为他们很难从数据中得出准确的结论,而事实上,他们的分析更能代表他们所建模的问题。他们可能不知道什么时候分析他们现有的数据集,以及何时等待收集更多的数据。
  • 如果数据的创建速度比提取的它速度快,那么当他们试图收集数据时,趋势可能会发生变化。

随着网络使用物联网(IoT)从更多的设备收集数据,他们能够以更快的速度收集数据,问题将会越来越严重。

(3) 品种

集群数据存储在许多不同的表单中,这使得很难进行精确的比较。有些数据以结构化格式存储,而其他数据集可能是完全非结构化的。

如何解决这些问题?

有各种各样的工具和策略可以简化抽取和分析集群数据的过程。

(1) K均值集群

K均值集群方法是一种基于分组的解决方案,需要网络将对象分配给一个集群。这消除了单个对象可能通过出现在多个数据集中而偏离分析的担心。

(2) 无监督分类算法

无监督分类算法是基于预定义参数合并非常大的数据集的数据挖掘工具。这是处理日益增长的数据量的一个很好的解决方案,特别是使用强大的Hadoop工具。

(3) COALA

COALA使用实例级约束来避免类似分组引起的问题。不需要满足100%的约束条件。

(4) 降低维度

每个数据有两个维度:

  • 变量
  • 实例

随着变量数量的增加,总数据量呈指数增长。可以通过使用降低维度策略(也就是所谓的降维变换)来缓解问题。

确定数据集群挑战的新解决方案

数据集群是解决存储大量结构化和非结构化数据所带来的许多问题的解决方案。然而,这不是一个可靠的解决方案,因为数据仍然需要尽可能快速准确地被访问和分析。幸运的是,有一些很好的工具和方法可以简化流程。

本文作者:Ryan Kh

来源:51CTO

时间: 2024-07-30 12:20:04

克服大数据集群的挑战的相关文章

大数据集群部署与管理

一.大数据集群技术的概述 让我们从有趣的 "啤酒与尿布" 故事说起,在美国沃尔玛连锁超市,人们发现了一个特别有趣的现象:尿布与啤酒这两种风马牛不相及的商品居然摆在一起,但这一奇怪的举措居然使尿布和啤酒的销量大幅增加了.这并非一个笑话,而是一个真实案例. 原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒.这个发现为商家带来了大量的利润,但是如何从浩如烟海却又杂乱无章的数据中,发现啤酒和尿布这个看似不相干的

PPTV之大数据集群容器化研究

本文讲的是PPTV之大数据集群容器化研究[编者的话]如何统一调度两个集群的物理资源,有效节约成本? 背景 PPTV作为国内视频领域的领先者,对于大规模流媒体的存储.处理.分发及应用,有着迫切的要求.容器技术及微服务模式的出现,使大规模的研发交付效率大为提高.因此我们基于Docker技术打造了DCOS.集群物理资源的调度用Mesos,容器编排用Marathon,并以此为核心,结合Docker和Nginx,开发了DCOS管理控制台,权限管理模块,统一日志管理模块,IP池管理模块,存储管理模块,并与持

大数据集群环境ambari支持集群管理监控,供应hadoop+hbase+zookeepe

Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应.管理和监控.Ambari目前已支持大多数Hadoop组件,包括HDFS.MapReduce.Hive.Pig. Hbase.Zookeper.Sqoop和Hcatalog等.   Apache Ambari 支持HDFS.MapReduce.Hive.Pig.Hbase.Zookeper.Sqoop和Hcatalog等的集中管理.也是5个顶级hadoop管理工具之一.   Ambari主要取得了以下成绩:

大数据的安全挑战

大数据架构和平台算是新事物,而且还在以一种非凡的速度不断发展着.商业和开源的开发团队几乎每月都在发布其平台的新功能.当今的大数据集群将会与将来我们看到的数据集群有极大不同.适应这种新困难的安全工具也将发生变化.在采用大数据的生命周期中,业界仍处于早期阶段,但公司越早开始应对大数据的安全问题,任务就越容易.如果安全成为大数据集群发展过程中的一种重要需求,集群就不容易被黑客破坏.此外,公司也能够避免把不成熟的安全功能放在关键的生产环境中."大数据"一词常被误解.事实上,使用频率太高反而使它

《大数据集成(1)》一1.2 大数据集成:挑战

1.2 大数据集成:挑战 为了更好地理解大数据集成带来的各种挑战,我们给出5个最近的案例研究,实验性地检查大数据集成中的Web数据源的各种特征,以及对这些特征自然分类的维度. "当你能度量你所说的,并能将它表示成数字,那么你就认识它一些了." --Lord Kelvin 1.2.1 "V"维度 大数据集成在多个维度上不同于传统数据集成,类似于大数据不同于传统数据库的维度. 1.海量性(Volume) 在大数据时代,不仅数据源包含大量的数据,而且数据源的数目也增长到千

Apache Storm源码阅读笔记&OLAP在大数据时代的挑战

 <一>Apache Storm源码阅读笔记 楔子 自从建了Spark交流的QQ群之后,热情加入的同学不少,大家不仅对Spark很热衷对于Storm也是充满好奇.大家都提到一个问题就是有关storm内部实现机理的资料比较少,理解起来非常费劲. 尽管自己也陆续对storm的源码走读发表了一些博文,当时写的时候比较匆忙,有时候衔接的不是太好,此番做了一些整理,主要是针对TridentTopology部分,修改过的内容采用pdf格式发布,方便打印. 文章中有些内容的理解得益于徐明明和fxjwind两

大数据面临的挑战:当大数据遭遇云计算

本文讲的是大数据面临的挑战:当大数据遭遇云计算,据IDC的报告,未来十年全球大数据将增加50倍.仅在2011年,我们就将看到1.8ZB(也就是1.8万亿GB)的大数据创建产生.这相当于每位美国人每分钟写3条Tweet,而且还是不停地写2.6976万年.在未来十年,管理数据仓库的服务器的数量将增加10倍以便迎合50倍的大数据增长. 毫无疑问,大数据将挑战企业的存储架构及数据中心基础设施等,也会引发云计算.数据仓库.数据挖掘.商业智能等应用的连锁反应.2011年企业会将更多的多TB(1TB=1000

浪潮张东:大数据时代,挑战与解决之道

第五届中国云计算大会于2013年6月5-7日在北京国家会议中心拉开帷幕.本次大会以国际视野,洞悉全球云计算发展趋势,并从应用出发,探讨云计算与大数据.云计算与移动互联网.云安全及云计算行业应用等焦点话题.大会还特别设立了云计算服务展示区域,交流国际云计算最新研究成果,展示国内云计算试点城市发展成就,分享云计算发展经验,促进全球云计算创新合作. 浪潮集团系统软件总监.云计算产品部总经理 张东 在第五届云计算大会第二天的演讲上,浪潮集团系统软件总监.云计算产品部总经理张东给我们带来了名为<大数据时代

数据结构实践——大数据集上排序算法性能的体验

本文是针对[数据结构基础系列(9):排序]的实践项目. [项目 - 大数据集上排序算法性能的体验] 设计一个函数,产生一个至少5万条记录的数据集合.在同一数据集上,用直接插入排序.冒泡排序.快速排序.直接选择排序.堆排序.归并排序.基数排序等算法进行排序,记录所需要的时间,经过对比,得到对复杂度不同的各种算法在运行时间方面的感性认识. 提示1:这一项目需要整合多种排序算法,可以考虑先建设排序算法库,作为我们这门课算法库的收官之作: 提示2:本项目旨在获得对于复杂度不同算法的感性认识,由于数据分布