开源大数据平台实施的难点

开源大数据技术是一种新一代技术和构架,它以成本较低、以快速的采集、处理和分析技术,从各种超大规模的数据中提取价值。大数据技术不断涌现和发展,让我们处理海量数据更加容易、更加便宜和迅速,成为分析和挖掘海量数据价值的一个利器,甚至可以改变许多行业的商业模式。

庞大的开源大数据技术体系,使得大数据平台在实施和使用的过程中遇到很多难点,Think Big团队总结了在开源大数据平台设施的整个过程及花费的时间,如下图所示:

  1大数据平台的优化和运维

大数据平台的优化和运维应该是开源大数据平台实施的难点、也是构建大数据平台对人员的技术和经验要求最高的阶段,贯穿整个大数据平台实施过程。

2大数据平台的数据整合、数据治理和数据湖

对于传统的企业使用大数据平台,数据整合、数据治理和数据湖也是非常重要和比较困难的阶段,全公司不同数据源之间的数据整合面临:数据的一致性、数据的完整性、数据的准确性、数据的安全等问题如何解决,当然还有不同数据(如:冷数据、温数据和热数据)怎么来存放,进而实现高效的数据存储和分析。这些都是我们在大数据实施过程中需要花很多时间和经验来实现的,很多的公司基本上都在直接或间接的使用大数据技术,有可能感觉大数据整合、治理、数据湖没有那么重要,把功能实现了,就觉得把大数据平台用的非常好了,其实不然,就像我上面提到的那张图,功能的实现只占大数据平台实施的一小部分。

3大数据平台上面的数据建模

由于大数据平台面临数据的一致性、数据的完整性、数据的准确性等问题所以导致大数据平台上面的建模变得比较困难,此外还有不同行业面临的大数据平台建模问题各不相同。传统行业在大数据上面的建模面临的挑战还是非常多的,有的模型甚至不适合在开源大数据平台上面建模,不要一味的去和互联行业大数据平台上面的应用做比较,因为,互联网的业务比传统的业务模型简单很多。

4数据挖掘和算法的实现

大数据平台的数据挖掘技术有Hadoop的Mahout、Spark的Mllib、SparkR等,这个现有的挖掘库存在很多问题,如:分布式计算。对整个团队的人员要求非常的高。

5应用开发(类似于传统EDW的BI功能)

类似于在Hadoop上面实现一个传统的EDW的功能,常见用的比较多的就是SQL on Hadoop技术,如:Hive、Impala、Tez、Presto、Kylin、SparkSQL等。

6大数据平台的选择和搭建

主要是Apache Hadoop、Hortonworks HDP和Cloudera CDH的选择,Apache Hadoop是纯开源的,Hortonworks HDP是开源Hadoop生态系统的管理,Cloudera CDH是开源Hadoop生态系统的增强。

本文转自d1net(转载)

时间: 2024-08-22 15:09:58

开源大数据平台实施的难点的相关文章

开源大数据平台实施和使用中的难点

开源大数据技术是一种新一代技术和构架,它以成本较低.以快速的采集.处理和分析技术,从各种超大规模的数据中提取价值.大数据技术不断涌现和发展,让我们处理海量数据更加容易.更加便宜和迅速,成为分析和挖掘海量数据价值的一个利器,甚至可以改变许多行业的商业模式. 庞大的开源大数据技术体系,使得大数据平台在实施和使用的过程中遇到很多难点,Think Big团队总结了在开源大数据平台设施的整个过程及花费的时间,如下图所示: 大数据平台的优化和运维 大数据平台的优化和运维应该是开源大数据平台实施的难点.也是构

浅谈开源大数据平台的演变

浅谈开源大数据平台的演变 2015-04-16 腾讯大数据一说到开源大数据处理平台,就不得不说此领域的开山鼻祖Hadoop,它是GFS和MapReduce的开源实现.虽然在此之前有很多类似的分布式存储和计算平台,但真正能实现工业级应用.降低使用门槛.带动业界大规模部署的就是Hadoop.得益于MapReduce框架的易用性和容错性,以及同时包含存储系统和计算系统,使得Hadoop成为大数据处理平台的基石之一.Hadoop能够满足大部分的离线存储和离线计算需求,且性能表现不俗:小部分离线存储和计算

中国电信与国务院扶贫办共建大数据平台 实施“互联网+精准扶贫”

1月7日,国务院扶贫办与中国电信集团公司在北京签署<"互联网+精准扶贫"行动推进合作协议>.双方将充分利用各自资源,建设全国扶贫开发信息系统,构建扶贫大数据平台,共同推进扶贫领域信息与通信的融合,进一步提升扶贫开发信息化的水平.国务院扶贫办主任刘永富.中国电信集团公司总经理杨杰出席签约仪式. "十三五"期间,农村贫困人口脱贫成为全面建成小康社会一项重要而艰巨的任务.在去年11月召开的中央扶贫开发工作会议上,习近平总书记指出:"消除贫困.改善民生

Talend为Hadoop更新开源大数据平台,性能大幅提高

开源大数据供应商 Talend 已经推出了自己的http://www.aliyun.com/zixun/aggregation/13607.html">数据集成平台5.5 版本.超快的速度是这个新版本的突出功能,它可以将Hadoop 的性能在原有基础上增加45%. 公司几乎视Talend 5.5版的大数据平台为"传输所有Hadoop分布上的最高性能的最新的集成平台".该公司称,根据22个标准 TPC-H 测试结果显示,新版本能够将Hadhoop的性能和可扩展性提高45%

从小数据分析到大数据平台,这十几年来大数据开源技术是如何演进的?

首先,介绍两个使用案例. 第一个是OLTP流程,主要指的是整个商业应用和流程.我们会收集交易数据,在业务过程当中收集数据,比如要销售一些网上产品,可能希望把每一单都能够记录下来. 第二个主要案例是OLAP,主要指的是分析数据,我们让所有收集的数据能够有意义,可以帮助我们生成报告,根据数据分析,进行业务决策.这个应用场景下,我们会把一些数字,比如说收益,将整个数据维度Dimensions以及Measures和数据整合在一起. Small Data Analytics 在一个小数据里可以做以上两个应

为什么选择这样的大数据平台架构?

当前BAT基本公开了其大数据平台架构,从网上也能查询到一些资料,关于大数据平台的各类技术介绍也不少,但在那个机制.那个环境.那个人才.那个薪酬体系下,对于传统企业,可借鉴的东西也是有限的. 技术最终为业务服务,没必要一定要追求先进性,各个企业应根据自己的实际情况去选择自己的技术路径. 与传统的更多从技术的角度来看待大数据平台架构的方式不同,笔者这次,更多的从业务的视角来谈谈关于大数据架构的理解,即更多的会问为什么要采用这个架构,到底能给业务带来多大价值,实践的最终结果是什么. 它不一定具有通用性

2015 Bossie评选:最佳开源大数据工具

Bossie奖是知名英文IT网站InfoWorld针对开源软件颁发的年度奖项,根据这些软件对开源界的贡献,以及在业界的影响力评判获奖对象.本次InfoWorld评选出了22款最佳的开源大数据工具,像Spark.Storm都名列榜单之上. InfoWorld在分布式数据处理.流式数据分析.机器学习以及大规模数据分析领域精选出了2015年的开源工具获奖者,下面我们来简单介绍下这些获奖的技术工具. 1. Spark 在Apache的大数据项目中,Spark是最火的一个,特别是像IBM这样的重量级贡献者

剖析大数据平台的数据处理

无论是采集数据,还是存储数据,都不是大数据平台的最终目标.失去数据处理环节,即使珍贵如金矿一般的数据也不过是一堆废铁而已.数据处理是大数据产业的核心路径,然后再加上最后一公里的数据可视化,整个链条就算彻底走通了. 如下图所示,我们可以从业务.技术与编程模型三个不同的视角对数据处理进行归类: 业务角度的分类与具体的业务场景有关,但最终会制约技术的选型,尤其是数据存储的选型.例如,针对查询检索中的全文本搜索,ElasticSearch会是最佳的选择,而针对统计分析,则因为统计分析涉及到的运算,可能都

从存储、实时、安全的角度谈如何建立完整可用的企业大数据平台

要建立一个大数据系统,我们需要从数据流的源头跟踪到最后有价值的输出,并在现有的 Hadoop 和大数据生态圈内根据实际需求挑选并整合各部分合适的组件来构建一个能够支撑多种查询和分析功能的系统平台.这其中既包括了对数据存储的选择,也涵盖了数据线上和线下处理分离等方面的思考和权衡.此外,没有任何一个引入大数据解决方案的商业应用在生产环境上承担的起安全隐患. 1. 计算框架篇 大数据的价值 只有在能指导人们做出有价值的决定时,数据才能体现其自身的价值.因此,大数据技术要服务于实际的用途,才是有意义的.