为什么在大数据处理中Cassandra与Spark如此受欢迎?

为什么在大数据处理中Cassandra与Spark如此受欢迎?

说起Cassandra的用途时,我们可以将其理解为一套理想的客户系统实现方案——其能够保证各类应用始终可用,包括产品目录、物联网、医疗系统以及移动应用。Cassandra于2010年成为Apache软件基金会的顶级项目,而且至今仍拥有极高人气。Cassandra专业知识能够帮助我们在人才市场上获得赏识。我们不禁要问——为什么这一开源项目能够大受欢迎?

随着现代云应用对正常运行时间及性能水平的要求逐步提高,已经有越来越多用户开始将注意力集中在Apache Cassandra数据库身上。

那么,为什么要选择Apache Cassandra?这套分布式OLTP数据库能够带来高可用性与线性可扩展能力。在说起Cassandra的用途时,我们可以将其理解为一套理想的客户系统实现方案——其能够保证各类应用始终可用,包括产品目录、物联网、医疗系统以及移动应用。这类项目一旦遭遇停机,企业可能面临严重的营收损失甚至失去忠诚的用户。Netflix公司早在2008年就开始使用这套开源数据库,而其做出的大力推动也真正让Cassandra引起了公众的重视。

Cassandra于2010年成为Apache软件基金会的顶级项目,而且至今仍拥有极高人气。Cassandra专业知识能够帮助我们在人才市场上获得赏识。我们不禁要问——为什么这一开源项目能够大受欢迎?

Cassandra能够利用Amazon发布的Dynamo论文中所提到的独特设计成果,从而保证硬件与网络出现大规模故障时继续保证可用性。利用点对点模型,其消除了单点故障可能性,从而帮助我们在机架故障甚至是网络整体下线的情况下得以幸存。我们能够在无需影响用户体验的情况下,顺利处理整体数据中心故障。只有能够应对故障的分布式系统才是一套拥有出色设计水平的分布式系统,而在Cassandra的帮助下,我们能够承受各类意外状况,并将应对机制纳入数据库架构及功能当中。

但大家可能要问,“不过,我之前只使用过关系型数据库,过渡过程是否非常艰难?”这个问题无法一概而论。Cassandra使用的数据模型对于关系数据库管理员来说并不陌生,我们同样使用表进行数据建模,并通过CQL——Cassandra查询语言——查询数据库。不过与SQL不同,Cassandra支持更为复杂的数据结构,例如嵌套与用户定义类型。例如,相较于为某张图片创建独立的存储表,我们可以直接将该数据存储在集合中以实现更为快速的查询速度。这种作法在CQL当中非常自然,而对应的图片表中则包含其名称、URL以及喜爱该图片的用户信息。

在高性能系统当中,毫秒级别的差异可能决定用户的实际体验与去留。然而,资源成本高昂的JOIN操作限制了我们的向外扩展通彻。通过对数据进行非规范化处理,我们能够尽可能降低请求数量,从而大幅降低磁盘空间成本并实现可预测的高性能应用。

当然,我们能够存储的绝不仅仅是图片数据。Cassandra针对高写入吞吐量进行了优化,这意味着其能够完美地处理大数据应用。时间序列与物联网用例的快速增长要求我们不断寻求新的方法以收集数据并改进数据的应用技术。

这就带来了新的问题:我们已经能够以现代化且具备成本效益的方式存储数据,但如何进一步提升处理能力?换言之,在数据收集完成后,我们该如何加以运用?我们如何有效分析数百TB数据?我们又该如何以秒为单位实时利用信息进行决策?Apache Spark正是问题的答案。

Spark可谓大数据处理的下一场革命。Hadoop与Mapreduce属于第一代革命性项目,它们让我们得以立足于大数据层面实现数据收集。而Spark则能够大幅提高性能并降低代码计算的复杂性,从而实现前所未有的数据分析能力。在Spark的帮助下,我们可以完成大量批处理计算,针对数据流处理结果进行反应并通过机器学习机制做出明智决策,最终利用遍历与递归理解复杂的信息。其目标不光是为客户提供更为快速可靠的应用连接能力(这部分效果由Cassandra负责实现),同时也需要利用信息做出业务决策地更好地满足客户需求。

大家可以点击此处查阅 Spark-Cassandra Connector方案说明 (开源),我们也强烈建议各位在DataStax Academy上查找免费的自学教程。

希望大家能够享受这段技术学习之旅!如果大家希望了解更多,也可参阅我们的OSCON教程,其中包含大量与Cassandra与Spark相关的内容。

本文转自d1net(转载)

时间: 2024-10-27 14:04:02

为什么在大数据处理中Cassandra与Spark如此受欢迎?的相关文章

《Spark与Hadoop大数据分析》一一1.2 大数据科学以及Hadoop和Spark在其中承担的角色

1.2 大数据科学以及Hadoop和Spark在其中承担的角色 数据科学的工作体现在以下这两个方面:从数据中提取其深层次的规律性创建数据产品要从数据中提取其深层次的规律性,意味着要使用统计算法提炼出有价值的信息.数据产品则是一种软件系统,其核心功能取决于对数据的统计分析和机器学习的应用.Google AdWords或Facebook里的"你可能认识的人"就是数据产品的两个例子.1.2.1 从数据分析到数据科学的根本性转变 从数据分析到数据科学的根本转变的根源,是对更准确的预测和创建更好

《Spark与Hadoop大数据分析》——1.2 大数据科学以及Hadoop和Spark在其中承担的角色

1.2 大数据科学以及Hadoop和Spark在其中承担的角色 数据科学的工作体现在以下这两个方面: 要从数据中提取其深层次的规律性,意味着要使用统计算法提炼出有价值的信息.数据产品则是一种软件系统,其核心功能取决于对数据的统计分析和机器学习的应用.Google AdWords或Facebook里的"你可能认识的人"就是数据产品的两个例子. 1.2.1 从数据分析到数据科学的根本性转变 从数据分析到数据科学的根本转变的根源,是对更准确的预测和创建更好的数据产品需求的不断增长. 让我们来

一个关注大数据治理中的“数据”的框架

大数据治理是更广泛的信息治理计划的一部分,通过调整多个功能的目标制定与大数据优化.隐私和货币化相关的策略.然而,若不了解基础http://www.aliyun.com/zixun/aggregation/18278.html">数据类型,大数据治理则毫无意义. 图 1. 大数据治理的一个 3 维框架 图字:行业和功能.大数据类型.信息治理 本文提供一个大数据治理框架.如图 1 所示,该矿框架由 3 个维度构成: 大数据类型 大数据可分成 5 类:Web 和社交媒体.机器到机器(M2M).大

专访携程李亚锋:大数据技术融合下的Spark更具魅力

大数据"作为当下最火热的IT行业词汇,在主流的数据处理工具当中Hadoop和Spark都被大家所熟悉.不过,目前基于内存计算的Spark适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性,已经逐渐获得很多企业的支持.这是否意味着我们应该彻底抛弃Hadoop?在前不久的北京Spark亚太峰会上 ,记者有机会专访到携程大数据平台高级经理李亚锋,为大家分享如何通过Spark与Hadoop大数据技术间的融合,实现优势互补,引导企业发现用户的潜在需求. 李亚锋,携程大数据平台高级经理,负

大数据计算架构Hadoop、Spark和Storm 三者技术比较

短短几年时间,大数据这个词便已家喻户晓.但在大数据这个名词被命名之前,人类对数据的搜集与分析已有着悠久的历史.从人工统计分析到电脑/大型机再到今天的分布式计算平台,数据处理速度飞速提高的背后则是整体架构的不断演进.今天大数据架构最火热的莫过于Hadoop,Spark和Storm这三种,而Spark和Storm这两个后起之秀更是抢了不少Hadoop的风头,也让网上逐渐开始有一种声音说Hadoop的日子已经快到头了.但究竟这三者之间是什么关系,未来大数据架构究竟该走向何方呢? 分布式计算架构鼻祖Ha

大数据时代到来 百度大规模机器学习算法受追捧

"我在机器学习领域已经超过10年了,今天主要跟大家分享一下,百度是通过什么技术来容纳百亿数据特征,并且让学习效率提升千倍.让模型分钟更新.将模型训练算法速度提升十倍的." 3月15日,百度联盟大数据机器学习技术负责人夏粉在第48期百度技术沙龙现场上说. 机器学习是人工智能研究领域中一个重要的方向,在现今大数据背景下,面向大数据量的机器学习,通常需要做分布式的算法,来容纳上亿特征和数据.本期的百度技术沙龙,夏粉为大家分享了大规模机器学习和数据挖掘方面的话题和研发成果. 百度联盟大数据机器

大数据系列之并行计算引擎Spark介绍

  Spark: Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎. Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark拥有Hadoop MapReduce所具有的优点:但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法. Spark 是一种与

大数据欲立法 众专家把脉规则建立

互联网时代,海量数据聚集和挖掘的商业价值不言而喻,然而商业价值和个人隐私保护之间如何平衡,这是所有人都将面对的问题.随着大数据相关应用的日益普及和深入,更多的各类应用程序.更多的数据采集正在不知不觉.随时随地侵入民众的工作和生活. 面对大数据汹涌而来,在顺应市场应用的热潮背后,大数据挖掘与应用的红线在哪里?作为国内在大数据领域先行先试的省份,2015年12月25日,贵州省在北京召开了大数据立法咨询会,邀请全国行业界.法律界.管理界知名专家学者为<贵州省大数据发展应用条例(草案)>把脉,率先启动

IBM李永辉:Watson大数据与分析平台

[CSDN现场报道]2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办,以推进大数据科研.应用与产业发展为主旨的2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014)暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店盛大开幕. 2014中国大数据技术大会首日全体会议上,IBM 大中华区系统与科技事业部杰出工程师李永辉发表了演讲"IBM Watson 大数据与分