RMDB与hadoop的实时整合

一、MySQL的Hadoop Applier

实现原理是：把hadoop作为MYSQL 的slave，实时把数据同步到hadoop,支持apache hadoop

通过分析MYSQL的binlog日志,在hdfs产生一个目录（同表名），所有的表记录都存储在一个文件中，用户的操作如插入，更新，删除都会产生一笔记录追加到文件末尾.

但如何利用hdfs上的这个数据，需要用户自己定义逻辑，把表中的数据插入到hbase表

详见：http://dev.mysql.com/tech-resources/articles/mysql-hadoop-applier.html

二、GoldenGate的HDFS Adapter

Oracle GoldGate's 也有类似的工具，通过分析Trails File把数据实时同步到hadoop

ORACLE官方网站提供了Hdfs Adapter，但不提供服务支持
详见：https://blogs.oracle.com/dataintegration/entry/streaming_relational_transactions_to_hadoop

时间： 2024-09-30 10:06:38

RMDB与hadoop的实时整合的相关文章

SAP发布新版HANA 可与各Hadoop发行版整合

ZDNet至顶网软件频道消息:在法国尼斯召开的SAPinsider大会上,SAP推出了最新版本的HANA平台HANA SPS10,新平台可与物联网和最新的Hadoop版本进行整合.SAP称,新版HANA将在旗下各种软件套件上实施,包括SAP S/4HANA和各种云产品. 从数据仓库到由Hadoop驱动的Data lake等各类大数据分析网格都是新版HANA的用武之地. 新版HANA的一些主要特点: 远程数据同步功能,可将HANA和远程数据源(如传感器和其他终点设备)连在一起. 可与各种Hadoo

Splunk 软件将与 Apache(TM) Hadoop(TM) 进行整合

领先的运营情报软件供应商 Splunk Inc. 今天宣布,该公司将对 Splunk Enterprise 软件与 Apache Hadoop 进行整合.命名为 Splunk Enterprise with Hadoop 的新软件包将同时惠及计划配置 Hadoop 的 Splunk 用户和企业. 现职 Battery Ventures 企业家.雅虎全球云计算团队前首席构架师 Todd Papaioannou 表示:"从庞大的机器数据中交付经营情报的市场中,Splunk 已经证明其领导地位,而 H

Hive已为Hadoop带来实时查询机制

Apache Hive是一款以Hadoop为基础打造而成的工具,其专长在于利用类SQL语法对大规模非结构化数据集进行分析,从而帮助现有商务智能及企业分析研究人员对Hadoop内容进行访问.作为由Facebook工程师们开发.受到Apache基金会认可并贡献的开源项目,Hive目前已经在商用环境下的大数据分析领域取得了领先地位. 与Hadoop生态系统中的其它组成部分一样,Hive的发展速度同样非常迅猛.在今天的评测文章中,我们将以0.13为目标--该版本解决了其它前续版本中的一些缺陷.0.13版

Cloudera Impala：基于Hadoop的实时查询开源项目

正在纽约进行的大数据技术会议Strata Conference + Hadoop World传来消息,Cloudera发布了实时查询开源项目Impala 1.0 beta版,称比原来基于MapReduce的Hive SQL查询速度提升3-90倍(详情可以参考此文中的"How much faster are Impala queries than Hive ones, really?"部分),而且更加灵活易用.Impala是高角羚的意思,这种羚羊主要分布在东非. 同时,这个项目也将以Cl

Kafka在行动：7步实现从RDBMS到Hadoop的实时流传输

对于寻找方法快速吸收数据到Hadoop数据池的企业, Kafka是一个伟大的选择.Kafka是什么? 它是一个分布式,可扩展的可靠消息系统,把采取发布-订阅模型的应用程序/数据流融为一体. 这是Hadoop的技术堆栈中的关键部分,支持实时数据分析或物联网数据货币化. 本文目标读者是技术人员. 继续读,我会图解Kafka如何从关系数据库管理系统(RDBMS)里流输数据到Hive, 这可以提供一个实时分析使用案例. 为了参考方便,本文使用的组件版本是Hive 1.2.1,Flume 1.6和Kafk

以更加智慧的方式整合至Hadoop平台

如果您认为 Hadoop 百分百准备好作为您的"单一版本事实"综合存储库,那么请三思而后行. 诚然,Hadoop 现已迅速发展成为大部分企业http://www.aliyun.com/zixun/aggregation/14294.html">的大数据战略核心组件.但它还不够成熟,无法完全取代企业数据仓库 (EDW).由于 Hadoop 的所有优势均集中作为非结构化数据集成层,因而绝大多数 Hadoop 环境缺乏强劲的安全性.可用性和治理性,而这些恰好是成熟 EDW 的

Hadoop系统如何应对实时任务避免延迟？

在Apache Hadoop的起步阶段,主要支持类似搜索引擎的功能.如今,Hadoop已经被数十个行业采用,它们依靠大数据计算来提升业务处理性能.政府.制造业.医疗保健.零售业和其他部门越来越多的从经济发展和Hadoop计算能力中受益,然而受到传统企业解决方案限制的公司将会发现竞争变得越来越残酷. 选择一个合适的Hadoop发行版和在业务中应用Hadoop一样有必要.最终,你会发现选择哪种Hadoop发行版取决于主机的规格,尽管性能和扩展性才是你应该仔细检查的两个主要特性.让我们了解一下一些具体

Hadoop专业解决方案-第1章大数据和Hadoop生态圈

一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章大数据和Hadoop生态圈小组已经翻译完成,在此对:译者:贾艳成 QQ:496830205 表示感谢. 二.意见征集: 本章节由<Hadoop专业解决方案群:313702010>翻译小组完成,为小组校验稿,已经通过小组内部校验通过,特此面向网络征集意见,如果对本章节内容有任何异议,请在评论中加以说明,说明时,请标明行号,也可以以修订的方式,发送

Hadoop专业解决方案-第13章 Hadoop的发展趋势

一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第13章 Hadoop的发展趋势小组已经翻译完成,在此对:hbase-深圳-18361.旅人AQUARION表示感谢. 二.意见征集: 本章节由<Hadoop专业解决方案群:313702010>翻译小组完成,为小组校验稿,已经通过小组内部校验通过,特此面向网络征集意见,如果对本章节内容有任何异议,请在评论中加以说明,说明时,请标明行号,也可以以修订的方