盘点九种引人瞩目的开源大数据技术

本文讲的是盘点九种引人瞩目的开源大数据技术,越来越多的公司开始聚焦于大数据技术领域,而开源恰恰是大数据技术的灵魂。以下将为您介绍九大引人注目的开源大数据技术,请拭目以待:

1.Apache Hadoop

Apache hadoop是一个开源的分布式计算框架,最初由Doug为支持其开源Web搜索引擎Nutch所创立。通过集成MapReduce技术,Hadoop将大数据分布到多个数据节点上进行处理。Hadoop遵循Apache 2.0许可证,可以轻松处理结构化、半结构化和非结构化数据,一举成为现在非常流行的大数据解决方案,

2.R语言

R语言是一种开源编程语言,专门为数据统计和数据可视化而设计。R语言最初由Ross Ihaka和Robert Gentleman在奥克兰大学设计出来,之后迅速成为大数据领域的重要工具。R语言遵循GPL许可证。

3.Cascading

Cascading是一个针对Java开发人员的应用框架,可以快速、轻松地基于Apache Hadoop开发数据分析和数据管理应用。Cascading是Hadoop的抽象层,可以屏蔽MapReduce的复杂性,支持任何基于JVM的编程语言在Hadoop集群上执行数据处理任务。Cascading最初由Chris Wensel开发,用于作为MapReduce的替代API。Cascading遵循GNU许可证,一般用于广告定位、日志分析、Web数据挖掘和ETL应用。

4.Scribe

Scribe于2008年发布,是一个由Facebook开发的日志聚合服务器软件,用于实时从大量服务器汇集日志数据。Scribe遵循Apache 2许可证,扩展性极佳,每天可应对数百亿日志记录的挑战。

5.ElasticSearch

ElasticSearch是一款由Shay Banon开发,遵循Apache许可证的开源搜索服务器。ElasticSearch基于分布式计算,对于实时搜索可以提供很好的可扩展性解决方案。许多公司已经对ElasticSearch表示认可,比如StumbleUpon和Mozilla。

6.Apache HBase

Apache HBase是一个使用Java语言编写的、以谷歌BigTable技术为基础的开源非关系型列式分布数据库,可运行在HDFS文件系统之上。HBase提供了很好的存储容错能力和快速访问大量稀疏文件的能力。HBase遵循Apache 2许可证。

7.Apache Cassandra

Cassandra是由Facebook开发的另一个开源NoSQL数据库,遵循Apache 2许可证。由于对HBase的喜爱,Facebook开始逐渐放弃使用Cassandra,但许多公司,如Netflix依然使用Cassandra数据库为其后端流媒体服务提供动力。

8.MongoDB

MongoDB是一个基于分布式文件存储的数据库,由C++语言编写。旨在为Web应用提供可扩展的高性能数据存储解决方案。MongoDB是非常流行的JSON文档式NoSQL数据库,许多公司都非常认同MongoDB。MTV Networks、craigslist和迪斯尼互动传媒集团,纽约时报以及Etsy都是MongoDB的客户。MongoDB遵循GNU Affero通用许可证,语言驱动遵循Apache许可证,10gen公司提供商业化的MongoDB许可证。

9.Apache CouchDB

CouchDB也是一个流行的开源NoSQL数据库,它以文档方式(JSON)存储数据。CouchDB使用JavaScript语言作为查询语言,集成MapReduce技术。IBM Lotus Notes的开发人员Damien Katz在2005年构建了CouchDB,用于大规模对象的数据存储系统。CouchDB遵循Apache 2许可证,英国广播公司(BBC)使用CouchDB存储动态内容,瑞士瑞信银行(Credit Suisse)的商品部也采用了它。

作者: Thor Olavsrud

来源: IT168

原文标题:盘点九种引人瞩目的开源大数据技术

时间: 2024-09-20 16:09:17

盘点九种引人瞩目的开源大数据技术的相关文章

开源大数据技术专场(下午):Databricks、Intel、阿里、梨视频的技术实践

开源大数据技术专场下午场在阿里技术专家封神的主持下开始,参与分享的嘉宾有Spark Commiter.来自Databriks的范文臣,HDFS committer.Intel 研发经理郑锴,逸晗网络科技大数据平台负责人杨智,Intel技术专家毛玮,以及阿里云技术专家木艮. Databricks范文臣:Deep Dive Into Catalyst--Apache Spark 2.0's Optimizer 在本次演讲中范文臣首先重点介绍了Catalyst.在Spark中,DataSet以及Dat

时下最热开源大数据技术TOP10

文章讲的是时下最热开源大数据技术TOP10,眼下大数据成为最热技术,并且呈现爆炸式增长.全世界的新项目雨后春笋般的出现.对于这些新的公司.项目来说,利好就是所有可用的技术是开放源代码的,直接采用. 海外开发者Tim做了一个整理,小编最快速为大家呈现.(ps:不足之处,请来信指正,我的微信就在文章最下方)以下是十大热门开源的大数据技术: 1.Hadoop 特点高可用,能够为你的数据存储项目提供所需的YARN.HDFS和基础架构,并运行关键的大数据服务和应用程序. 2.Spark 易使用.支持所有重

开源大数据技术专场(上午):Spark、HBase、JStorm应用与实践

16日上午9点,2016云栖大会"开源大数据技术专场" (全天)在阿里云技术专家封神的主持下开启.通过封神了解到,在上午的专场中,阿里云高级技术专家无谓.阿里云技术专家封神.阿里巴巴中间件技术部高级技术专家天梧.阿里巴巴中间件技术部资深技术专家纪君祥将给大家带来Hadoop.Spark.HBase.JStorm Turbo等内容. 无谓:Hadoop过去现在未来,从阿里云梯到E-MapReduce 阿里云高级技术专家 无谓  从开辟大数据先河至现在,风雨十年,Hadoop已成为企业的通

盘点最受欢迎的十个开源大数据技术

大数据已然成为当今最热门的技术之一,正呈爆炸式增长.每天来自全球的新项目如雨后春笋般涌现.幸运地是,开源让越来越多的项目可以直接采用大数据技术,下面就来盘点最受欢迎的十大开源的大数据技术. 1.Hadoop--高效.可靠.可伸缩,能够为你的数据存储项目提供所需的YARN.HDFS和基础架构,并且运行主要的大数据服务和应用程序. 2.Spark--使用简单.支持所有重要的大数据语言(Scala.Python.Java.R).拥有强大的生态系统,成长迅速,对microbatching/batchin

认识数据湖——拥抱开源大数据技术的前提

世界对数据湖的兴趣依然在不断增长,但如果说对数据湖的宣传都是烟雾弹的话,这就贬低了数据湖真正的能力."数据仓库"和"大数据"等概念都逐渐深入人心,但"数据湖"仍然是让IT和业务相关者头疼的一件事情. 随着人们对于数据湖的清晰定义.使用案例.最佳实践等信息的需求不断增长,IT专业人士需要一则明确的数据湖指南,回答以下问题:数据湖是什么?我们应该如何利用它?数据湖又将如何改变大数据呢? 1.定义及观点 数据湖成为了核心数据架构中发展得很快的一环,但I

开源大数据平台实施和使用中的难点

开源大数据技术是一种新一代技术和构架,它以成本较低.以快速的采集.处理和分析技术,从各种超大规模的数据中提取价值.大数据技术不断涌现和发展,让我们处理海量数据更加容易.更加便宜和迅速,成为分析和挖掘海量数据价值的一个利器,甚至可以改变许多行业的商业模式. 庞大的开源大数据技术体系,使得大数据平台在实施和使用的过程中遇到很多难点,Think Big团队总结了在开源大数据平台设施的整个过程及花费的时间,如下图所示: 大数据平台的优化和运维 大数据平台的优化和运维应该是开源大数据平台实施的难点.也是构

开源大数据平台实施的难点

开源大数据技术是一种新一代技术和构架,它以成本较低.以快速的采集.处理和分析技术,从各种超大规模的数据中提取价值.大数据技术不断涌现和发展,让我们处理海量数据更加容易.更加便宜和迅速,成为分析和挖掘海量数据价值的一个利器,甚至可以改变许多行业的商业模式. 庞大的开源大数据技术体系,使得大数据平台在实施和使用的过程中遇到很多难点,Think Big团队总结了在开源大数据平台设施的整个过程及花费的时间,如下图所示: 1大数据平台的优化和运维 大数据平台的优化和运维应该是开源大数据平台实施的难点.也是

开源大数据周刊-第31期

阿里云E-MapReduce实践 专注年轻一代,基于E-MapReduce梨视频推荐系统 在2016杭州云栖大会的"开源大数据技术专场"上,梨视频大数据负责人杨智带来了<基于E-MapReduce梨视频推荐系统>的精彩分享.分享中,他重点介绍了梨视频中基于阿里云的数据处理系统和梨视频推荐系统,精彩不容错过. 资讯 上海社科院惠志斌:数据生态治理要啃硬骨头 数据生态治理面临一场艰巨的战役,长期来看,这场战役的成败将决定移动互联网时代下公民的权利.企业的利益和社会的信任,更关系

开源大数据周刊-第26期

阿里云E-Mapreduce动态 E-Mapreduce团队 1.6.0版本 交互式查询(支持hive.spark) 资讯 开源大数据技术专场(上午):Spark.HBase.JStorm应用与实践 阿里在09年就开始尝试使用Hadoop技术,先后包括Hadoop.Spark.Hbase及JStorm,这些开源技术在不同的业务线广泛使用,推动阿里业务的发展. 开源大数据技术专场(下午):Databircks.Intel.阿里.梨视频的技术实践 本论坛第一次聚集阿里Hadoop.Spark.Hba