如何克服云端数据仓库数据迁移问题?

云计算和数据仓库是合理的一对。云存储可以按需扩展,云可以将大量服务器贡献于某一具体任务。数据仓库通用功能是本地数据分析工具,受到计算和存储资源的限制,同时也受到设计者考虑新数据源集成的能力的限制。如果我们可以克服一些数据迁移的挑战,将一个数据仓库以及其数据分析工具从数据中心中的专用服务器转移到基于云的文件系统和数据库就可以解决这个问题。

云端数据管理通常牵扯到在分布式文件系统中加载和维护文件,像Hadoop分布式文件系统(HDFS),随后用类似MapReduce这样的工具处理数据。对于数据仓库和其他的分析人物,像Hive这样的数据库工具在分布式文件系统之上提供了类SQL的功能。

尽管传统关系型数据库管理系统和云端非关系型数据库之间可以并行描述,但是在两个片段之间转移数据时,不同的运行方式会导致问题。抽取、转换和加载流程甚至会造成更多挑战。

数据迁移工具辅助向云端迁移

从数据库抽取数据很容易,从数据库中有效挖掘大容量数据确是一项挑战。如果由于数据量的增长,数据仓库面临性能或者存储问题,可能就是时候考虑使用运资源了。下面提供了一些工具来协助从关系型数据库加载数据到云文件系统和数据库。

专业工具,像Sqoop(SQL-to-Hadoop)生成代码从关系型数据库抽取数据,并将其拷贝到HDFS或者Hive。Sqoop使用JDBC驱动,同多种类型的关系型数据库工作,但是通过JDBC推出大量数据导致了性能成本。

为了迁移到云端,从关系型数据库抽取数据时,你可能需要进行数据转换。如果你所工作的所有数据来自于单一数据库,就可以在源数据库中进行转换。如果从两个分离的系统合并数据,在抽取之后再转移数据源更有效。然而,你应该在加载数据到最终数据存储库之前做这些。Cascading数据处理API可以协助这项任务的进行。

Cascading提供了运行在Hadoop之上的功能,像工作流处理、计划和调度。就比如说,它同管道过滤器工作;数据应用过滤器通过管道从一个源流到目的源。其他功能像grouping可以应用于数据流。Cascading用Java实现,在MapReduce工作中调用转换API。

如果你正在同MySQL共事,Sqoop介意使用MySQL转储功能绕离JDBC并更加有效地抽取数据。Sqoop也可以生成Java类,这个类可以用于操纵加载数据并将其直接导入Hive。HIHO (Hadoop Input and Output)从关系型表抽取数据并提供一些基本的转换服务,像去重以及合并输入流。

当生成文件在将其加载到HDFS文件系统或者Hive数据仓库之前,要求最小化转换,你就能直接加载文件了。在确定目标表和分割规格后,Hive有一个命令来加载数据。Pig是数据分析程序的一种高水平语言,尤其是和Java中的MapReduce编码对比的时候。它提供了一种基本的统计函数,你可以在关系型数据库中找到(像min、max、count),在数学和字符串处理功能中也能找到。Pig支持架构化和非结构化文本文件的压缩。

云计算资源补充了数据仓库基础架构。然而,为将数据仓库转移到云端的利益最大化,适当结构化数据并使用正确的数据分析工具很重要。

时间: 2024-08-04 08:24:16

如何克服云端数据仓库数据迁移问题?的相关文章

如何让数据迁移到云端更加容易

如今,许多企业都在采用"云优先"的策略,并建议IT团队评估云存储是否是一个可以接收所有请求的可行选项.实施这种策略是可以理解的,因为云计算提供了许多好处,包括促进协作工作,提高灵活性和弹性,提供具有成本效益的数据存档,更不用说可以节省更多的成本.事实上,调研机构Gartner的Sid Nag报告说,"公共云的增长得到了支持,采用公共云的组织可以节约14%的预算." 然而,"云优先"政策的实施仍然很慢,因为Nag还指出:"使用云服务的愿望

云端数据迁移最佳操作指南

参与Gartner咨询公司市场调查的IT高管们把云计算称之为2011年势在必行的头等技术,企业正在不断发挥想象力,扩大预算范围,从经济和业务角度来影响云的效益.云存储功能,尤其在数据备份和恢复功能方面正获得着广泛的认可.在当今IT共同体中,没有任何一个市场模式能比云计算更为突出.对于IT产业来说,云存储或许很流行,但并非人人都懂得如何将传统的人工数据转移到基于云的数据备份和恢复中,至少他们必须依靠云服务供应商做一些迁移工作.许多公司越来越多地将其关键业务数据迁移到云环境中,他们毫不犹豫地这样做是

云存储中的数据迁移分析

如今, 由于数据成本的不断飙升.技术管理人员的水平参差不齐等原因,云存储已经成为了各个机构数据存储的重要举措和发展方向.云存储作为云中的一项重要服务, 它通过集群应用.网格技术或分布式文件系统等将各种存储设备通过应用软件集合起来, 对外提供数据存储和业务访问.对于数据存储, 当我们从一个物理环境和单个阵列过渡到完全虚拟化的.高度动态的的存储环境时,需要面对很多问题.而数据迁移作为采用云存储方案中最为基础.关键的步骤.它将历史数据进行清洗,转换, 并装载到新系统,它是保证数据系统平滑升级和更新的重

MaxCompute跨Region数据迁移指导手册

概述 大数据计算服务(MaxCompute,原名ODPS)是一种快速.完全托管的 GB/TB/PB 级数据仓库解决方案.MaxCompute 为用户提供了完善的数据导入导出方案以及多种经典的分布式计算模型,能够更快速的解决海量数据计算问题,有效降低企业成本,并保障数据安全. 随着MaxCompute的多Region部署,一些用户可能需要把MaxCompute的应用从老的Region上迁移到和自己的业务系统相同的Region上来,从而在数据传输上获得更好的性能并减少数据传输费用.本指导手册主要聚焦

PgSQL · 最佳实践 · 云上的数据迁移

title: PgSQL · 最佳实践 · 云上的数据迁移 author: 义从 背景 大多数使用云产品作为 IT 解决方案的客户同时使用多款云产品是一个普遍现象. 用户在多款云产品之间转移数据成为一个基础的需求. 例如 1. 用户把线下机房中的 Oracle 数据库中的数据 迁移到云上 RDS PPAS 中. 2. 使用 RDS MYSQL 做为数据库支撑交易型业务场景,同时使用 HybridDB for PostgreSQL 作数据仓库解决方案. 3. 把 ODPS 中的大量数据导入到 Hy

微信聊天记录删除怎么恢复?iOS安卓数据迁移

因为手机系统的不同,当我们更换手机的时候,怎么样在Android和iOS之间进行数据迁移,也是一个让众多用户头疼的事情.因为数据互传的一个繁琐情况,现在进行数据的迁移,大多都是借助云端备份.第三方软件备份,现在就为大家介绍一些轻松简单的iOS和Android数据迁移技巧. 一.iOS/Android照片/视频互传 准备工具:豌豆荚或其他同类型软件,iTools 1.先将手机连接到电脑上,开启USB调试模式.打开电脑上的豌豆荚软件,确定豌豆荚提示手机已经与电脑连接. 2.点击左栏中的"我的照片&q

阿里云提供服务器免费数据迁移 数据量高达1T

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 近日,阿里云推出了一项免费数据迁移服务,在8 月1 日到9 月30日期间,一次性购买阿里云服务器时长超过6 个月的用户均可免费享受数据迁移服务.近期,阿里云发布"站上云端"计划,以帮助中小网站迁移到云服务器上,并紧接着推出了云服务器的团购活动,以促进用户的购买.此次免费数据迁移服务是为了进一步降低用户迁移到云服务器的成本,

谷歌云存储磁盘服务:云数据迁移“So easy”

导读:如果你想把数据存放在云端,但是又担心带宽问题,现在随时可以邮寄这些数据了.谷歌上周发布了一款硬盘驱动运输服务,此项服务作为谷歌云存储的一部分. 如果你想把数据存放在云端,但是又担心带宽问题,现在随时可以邮寄这些数据了. 谷歌上周发布了一款硬盘驱动运输服务,此项服务作为谷歌云存储的一部分.利用这个脱机硬盘导入功能,企业可以通过邮件快速的将大型数据集转移到云端,而不必再通过互联网传输. 此项服务目标客户是那些期望在http://www.aliyun.com/zixun/aggregation/

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

免费开通大数据服务:https://www.aliyun.com/product/odps  想用阿里云数加·大数据计算服务(MaxCompute),但是现在数据还在hadoop上,怎么办? 大数据计算服务(MaxCompute) 快速.完全托管的TB/PB级数据仓库解决方案,向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全. 了解更多   别烦恼,跟着我们走,来一次MaxCompute零基础数据迁移之旅-Let'