小白用户MaxCompute数据同步初体验

作为一个运营人员,工作中经常性地需要对大量业务数据进行分析,使用阿里云的MaxCompute可以非常方便的进行海量数据的处理。基于工作的特殊性,日常处理的都是CSV/TXT等碎片化的文件(比如用OSS存储的生产数据),如何将大文本文件写入到MaxCompute(原ODPS)是一件很头疼的事情。好在,阿里云大数据开发套件提供了非常强大的数据同步的工具。

 

近期体验了一下阿里云的数据同步工具,发现非常简单易用,同时又十分强大。作为非技术同学,借助文档,基本实现了从OSS到ODPS以及从OSS到本地自建FTP的数据同步,期间也碰到了许多问题。本文主要介绍自己作为一个小白用户,在使用过程中遇到的问题以及解决办法。

要解决的问题:OSS对象存储文件定时同步到ODPS

应用到的阿里云产品:OSS 数据同步组件 MaxCompute

1. 阿里云的数据同步为向导模式和脚本模式两种方式。向导模式是可视化操作,非常方便,不过有些类型的数据同步不支持。脚本模式通过Json脚本实现,功能更强大。OSS数据同步到ODPS,两种方式是均支持的。分为数据源读取、数据传输、写入目标数据三部分。具体操作,先添加数据源后,按照向导可一步步操作,不在赘述。

2. 数据同步的调度任务,无法自动识别OSS是否有文件增加,因此,如果OSS中的Object是不断增加的,调度任务需要设定为分钟或者小时级别的周期调度。

3. OSS的读取支持形如example*的通配符匹配:

同时,OSS的文件名可以用日期时间命名,这样调度任务可以通过时间参数来读取最新写入的Object。

4. 调度任务执行的时候,数据源Object必须已经存在,可以调整时间参数的先后关系,例如:

该例子是延时一小时的。

    5. 阿里云的文档非常详尽,基本可能遇到的问题通过查找文档都可以解决。数据同步文档

时间: 2024-08-03 16:13:45

小白用户MaxCompute数据同步初体验的相关文章

电脑小白的宽带上网助手初体验

近几年来随着互联网的普及,上网的用户越来越多,但会上网不一定就是网络高手.层出不穷的上网问题总是使不少电脑小白在想,要是有一款宽带http://www.aliyun.com/zixun/aggregation/18871.html">自助服务软件就好了! 近日,由中国电信股份有限公司福建分公司推出的宽带上网助手软件v6.3版,为用户提供宽带自助服务,专注于解决用户上网烦恼,为小白用户带来了福音,身为电脑小白大军一员的小编就亲自体验了一番! 估计大家也会碰到这样的问题,"宽带无法连

阿里云大数据利器Maxcompute学习之--数据同步任务常见日志报错总结

在使用大数据开发套件时最常用的就是数据同步模块,工单里最常见的问题就是其中数据同步的问题,这里总结一些常见一些从Maxcompute到其他数据源的同步任务报错案例,主要是日志中出现数据回滚写入的问题.   那首先看下日志中数据回滚的原因,当数据写入rds或者hybridDB等一些支持事务的数据库中,数据批量写入,一旦由于各种原因没有写入成功,这个批次的数据会回滚重新写入,如果再次写入失败,就会报脏数据的错误导致任务失败.数据写入失败可能是以下原因导致回滚.1,脏数据(数据值超过数据类型最大范围,

【AWS移动开发公开课】第二讲:用户状态(USER-STATE)数据同步

假设你有一个100个关卡的游戏,如果游戏要求你在换设备时需要重新闯关,相信对你来说这将是件很痛苦的事情.开发者可以通过使用Cognito同步所有设备上的关卡,实现可随时在任何设备上继续上次中断的功能,从而解决数据同步的问题. 创建身份池 第一步是创建身份池,所有用户的身份都在这个身份池里,每个终端用户都有自己的身份.通常,身份池跟某一个移动应用有关,但为了弥补不同应用间的数据同步问题,最好是只创建一个身份池而不是每个应用创建一个身份池.如果你还没有创建过身份池,请参见亚马逊官方资料:Amazon

mysql-关于2个表的用户数据同步问题

问题描述 关于2个表的用户数据同步问题 我有2个数据库(A,B),A,B分别在不同的服务器上,A表代表的是商城数据库,B表代表的是另外一个商城的数据库,A,B分别有一个用户表.2个表的字段是不一致的, 现在业务上需要的是,同一个用户名可以登陆2个商城,请教下,应该怎么做 解决方案 想来遇到这种困难的话,程序一定不是你写的,源码也不在手中了,想正常修改程序也自然是不可能了 而两台数据库之间互通,比如通过VPN连接的话,自然也是困难重重的 这种情况我曾经遇到过类似的 我当时的解决方法是修改两个数据库

asp.net用户中心,单位和用户数据同步思路

问题描述 目前有3个系统,1个是用户中心,只用来存储用户信息,2个子系统,1:子系统的用户信息都从用户中心的接口来获取,但是数据量有点大.2:数据中心不能操作子系统的数据库,所以不能做成实时的增删改接口.3:子系统获取用户中心的数据时,希望只获取用户中心有修改过的数据.希望各种能提供一些好的建议和思路. 解决方案 解决方案二:关于数据同步,那就是ETL的解决方案了.1.SSIS2.SQLserver的数据同步3.kettle数据工具太多了.关键是需要根据你们的数据库类型和业务的分配.解决方案三:

基于DataIDE数据集成实现香港ECS上的MySQL数据同步到数加MaxCompute

最近有朋友问,客户在香港ECS上搭建的MySQl,大概有100GB以上的数据,能否通过MaxCompute做海量数据分析,我的回答是YES! 但客户担心香港与大陆之间数据连通性问题,我的回答依然是YES! 为了让更多个客户不再困扰,笔者做了一份教程,可以通过大数据开发套件中的经典网络进行同步数据,有图为证! 准备工作 1.注册并开通阿里云账号.Access id.Access Key:开通方法:https://help.aliyun.com/document_detail/47703.html?

Kotlin 初体验:主要特征与应用

Kotlin 是一种针对 Java 平台的新编程语言.它简洁.安全.务实,并且专注于与 Java 代码的互操作性.它几乎可以用在现在Java 使用的任何地方 :服务器端开发.Android 应用,等等.本文我们将详细地探讨 Kotlin 的主要特征. 本文选自<Kotlin实战>. Kotlin初体验 让我们从一个小例子开始,来看看 Kotlin 代码长什么样子.这个例子定义了一个 Person 类来表示"人",创建一个"人"的集合,查找其中年纪最大的人

小米的网络文学探索:小白用户争夺战

中介交易 SEO诊断 淘宝客 云主机 技术大厅 新浪科技 孟鸿 从盒子到电视,小米多看团队在大屏幕领域吸引的聚光灯,有时让外界忽略了多看起家的业务--电子阅读.如今在这个领域,多看正尝试一次新的冒险. 七千到十万 今年8月16日,小米没有如期发布米3,但推出另一个活动:七个小时里,用户在游戏.主题.图书三类产品上消费多少米币,就能返回等额的米币礼券.这场促销效果明显,直接拉动多看阅读的图书日销售额升抵50万元水平. 50万元是个什么概念?多看阅读现有的图书日销售额约在5-6万元,而在一年前这个数

GoodSync文件数据同步工具使用教程

  GoodSync利用创新的同步算法,可以有效防止文件误删除,数据意外丢失,并消除重复的文件.GoodSync已经从用户和媒体获得许多衷心的赞扬和高度评价.本产品所具备的强大技术能力,使它表现出显著地操作易用性,同时也是目前唯一实现真正双向数据同步的解决方案. GoodSync如何方便地设置和使用,这些都需要你来亲身体验.接下来,我们的介绍将让你了解如何快速进行设置和自动同步数据. 基础设置 步骤 1: 点击两侧 浏览 按钮以选定需要同步的双方文件夹. 步骤 2: 点击 分析 按钮GoodSy