通过LogShipper对接数据仓库

日志服务LogShipper功能可以便捷地将日志数据投递到OSS、TableStore、MaxCompute等存储类服务,配合E-MapReduce(Spark、Hive)、MaxCompute进行离线计算。

数仓(离线计算)

数据仓库+离线计算是实时计算的补充,两者针对目标不同:

模式 优势 劣势 使用领域
实时计算 快速 计算较为简单 增量为主,监控、实时分析
离线计算(数据仓库) 精准、计算能力强 较慢 全量为主,BI、数据统计、比较

目前对于数据分析类需求,同一份数据会同时做实时计算+数据仓库(离线计算)。例如对访问日志:

  • 通过流计算实时显示大盘数据:当前PV、UV、各运营商信息
  • 每天晚上对全量数据进行细节分析,比较增长量、同步/环比,Top数据等

互联网领域有两种经典的模式讨论:

  • Lamdba Architecture: 数据进来后,既支持流式处理、同时存入数仓。但用户发起查询时,会根据查询需求和复杂度从实时计算、离线计算拿结果返回
  • Kappa Architecture: kafka based Architecture。弱化离线计算部分,数据存储都在Kafka中,实时计算解决所有问题

日志服务提供模式比较偏向Lamdba Architecture。

LogHub/LogShipper一站式解决实时+离线场景

在创建Logstore后,可以在控制台配置LogShipper支持数据仓库对接,当前支持如下:

  • OSS(大规模对象存储):

    • 说明文档
    • 操作步骤
    • OSS上格式可以通过Hive处理,推荐E-MapReduce
  • TableStore(NoSQL数据存储服务):
    • 操作步骤
  • MaxCompute(大数据计算服务):
    • 说明文档:

LogShipper提供如下功能:

  1. 准实时:分钟级进入数据仓库
  2. 数据量大:无需担心并发量
  3. 自动重试:遇到故障自动重试、也可以通过API手动重试
  4. 任务API:通过API可以获得时间段日志投递状态
  5. 自动压缩:支持数据压缩、节省存储带宽

典型场景

场景1:日志审计

小A维护了一个论坛,需要对论坛所有访问日志进行审计和离线分析

  • G部门需要小A配合记录最近180天内用户访问情况,在有需求时,提供某个时间段的访问日志
  • 运营同学在每个季度需要对日志出一份访问报表

小A使用日志服务(LOG)收集服务器上日志数据,并且打开了日志投递(LogShipper)功能,日志服务就会自动完成日志收集、投递、以及压缩。有审查需要时,可以将该时间段日志授权给第三方。需要离线分析时,利用E-MapReduce跑一个30分钟离线任务,用最少的成本办了两件事情。

场景2:日志实时+离线分析

小B是一个开源软件爱好者,喜欢利用Spark进行数据分析,他的需求如下:

  • 移动端通过API收集日志
  • 通过Spark Streaming对日志进行实时分析,统计线上用户访问
  • 通过Hive进行T+1离线分析
  • 将日志数据开放给下游代理商,进行其他维度分析

通过今天LOG+OSS+EMR+RAM组合,可轻松应对这类需求。

时间: 2024-09-23 15:51:55

通过LogShipper对接数据仓库的相关文章

存储与计算分离:OSS构建表 + 计算引擎对接

看到标题,可能有用户要问:OSS不是用来存图片.视频.及文件的吗,还可以在上面建表.数仓?计算效率和经济性表现怎么样? 本文先给出基本结论: OSS是什么? 对象存储(Object Storage Service,简称OSS)是基于阿里云飞天分布式系统的海量.安全和高可靠的云存储服务,是一种面向互联网的大规模.通用存储,提供RESTful API,具备容量和处理的弹性扩展能力. 基于OSS是否可以创建数据表? 既然可以把摄像头推流接到OSS,建表属于小Case了.并且2016年在亦龙大神的帮助下

【漫谈数据仓库】 如何优雅地设计数据分层

一.文章主题 本文主要讲解数据仓库的一个重要环节:如何设计数据分层!其它关于数据仓库的内容可参考之前的文章. 本文对数据分层的讨论适合下面一些场景,超过该范围场景 or 数据仓库经验丰富的大神就不必浪费时间看了. 数据建设刚起步,大部分的数据经过粗暴的数据接入后就直接对接业务. 数据建设发展到一定阶段,发现数据的使用杂乱无章,各种业务都是从原始数据直接计算而得. 各种重复计算,严重浪费了计算资源,需要优化性能. 二.文章结构 最初在做数据仓库的时候遇到了很多坑,由于自身资源有限,接触数据仓库的时

基于Hadoop的数据仓库Hive基础知识

Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理.特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行. 一.概述 1-1 数据仓库概念 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented).集成的(Integrated).相对稳定的(Non-Volatile).反应历史变化(Time Variant)的数据集合,用于支持

星环大数据助银行数据仓库全面升级

文章讲的是星环大数据助银行数据仓库全面升级,去年九月,银监会发布了39号文,中心思想要求银行信息技术"安全可控".它要求2015年起,各银行业金融机构对安全可控信息技术的应用以不低于15%的比例逐年增加,直至2019年达到不低于75%的总体占比.虽然没有明确指出,但是"安全可控"的要求显然对国产IT产品更有利.事实上,39号文提出的指导方向,包括"优先选择愿意在核心知识和关键技术领域进行合作的机构,避免对单一产品或技术的依赖,""有序推

数据仓库建模方法初步

一.前言 数据仓库得建模方法同样也有很多种,每一种建模方法其实代表了哲学上的一个观点,代表了一种归 纳,概括世界的一种方法.目前业界较为流行的数据仓库的建模方法非常多,这里主要介绍范式建模法,维度建模法,实体建模法等几种方法,每种方法其实从本质 上讲就是从不同的角度看我们业务中的问题,不管从技术层面还是业务层面,其实代表的是哲学上的一种世界观.我们下面给大家详细介绍一下这些建模方法. 二.3NF范式建模方法 范式建模法其实是我们在构建数据模型常用的一个方法,该方法的主要由 Inmon 所提倡,主

做网站前台和后台是怎么对接的?

问题描述 做网站前台和后台是怎么对接的? 想学做网站,但是不知道网站的一整套流程是怎样的?有知道的朋友可以给点建议 解决方案 光知道流程毫无用处,编程是脑力劳动,不是装配电视机.不是按照说明书操作完每个动作程序就出来了. 要不然富士康完全转型做软件去了,多赚钱. 即便你看清楚程序员每次鼠标和键盘操作,以及每个屏幕显示,你背下来你也成不了程序员. 程序员的工作我说了,就是学习.思考.创造,这个"流程"你能看见么? 解决方案二: 通常来说,不论为BS还是CS结构,都分为后台和前台. 拿目前

link环境下制作一款《订餐软件》,会员菜肴配送,实现对接通讯录短信通知怎么实现?

问题描述 link环境下制作一款<订餐软件>,会员菜肴配送,实现对接通讯录短信通知怎么实现? link环境下制作一款<订餐软件>,会员菜肴配送,实现对接通讯录短信通知怎么实现? 解决方案 买个短信猫.自己通过短信猫来发短信什么的.要不就买第三方的短信接口或者运营商的短信接口,需要一定的费用 解决方案二: 要发短信的话,是要跟运营商申请短信接口的,还挺贵的得上万,节省成本的话建议可以用飞信或者是微信来发信息.

gps-link环境下制作一款《订餐软件》,如何动态显示外卖快递倒计时?如何对接&amp;amp;quot;GPS&amp;amp;quot;?

问题描述 link环境下制作一款<订餐软件>,如何动态显示外卖快递倒计时?如何对接"GPS"? link环境下制作一款<订餐软件>,如何动态显示外卖快递倒计时?如何对接"GPS"? 解决方案 不知道你的环境呢?如果是网页,可以用定时器哦. gps如果是html5,可以参考:http://www.w3school.com.cn/html5/html_5_geolocation.asp 解决方案二: 打开位置跟踪功能即可 解决方案三: 这个很简单

平台-有没有1688网站对接magento后台的软件呢

问题描述 有没有1688网站对接magento后台的软件呢 现在有针对以下两点需求的成熟软件吗?或者那家公司可以开发?需要的功能: 1.将各种淘宝数据包(例如1688平台店铺的产品数据包)导入该系统编辑.可以编辑产品的尺寸,图片,价格,库存.2.将编辑好的产品导入magento后台. 解决方案 网站对接比较麻烦,需要认证,而且应用都需要一些个性化需求,成熟的比较少