通过LogShipper对接数据仓库

日志服务LogShipper功能可以便捷地将日志数据投递到OSS、TableStore、MaxCompute等存储类服务，配合E-MapReduce（Spark、Hive）、MaxCompute进行离线计算。

数仓（离线计算）

数据仓库+离线计算是实时计算的补充，两者针对目标不同：

模式	优势	劣势	使用领域
实时计算	快速	计算较为简单	增量为主，监控、实时分析
离线计算（数据仓库）	精准、计算能力强	较慢	全量为主，BI、数据统计、比较

目前对于数据分析类需求，同一份数据会同时做实时计算+数据仓库（离线计算）。例如对访问日志：

通过流计算实时显示大盘数据：当前PV、UV、各运营商信息
每天晚上对全量数据进行细节分析，比较增长量、同步/环比，Top数据等

互联网领域有两种经典的模式讨论：

Lamdba Architecture: 数据进来后，既支持流式处理、同时存入数仓。但用户发起查询时，会根据查询需求和复杂度从实时计算、离线计算拿结果返回
Kappa Architecture: kafka based Architecture。弱化离线计算部分，数据存储都在Kafka中，实时计算解决所有问题

日志服务提供模式比较偏向Lamdba Architecture。

LogHub/LogShipper一站式解决实时+离线场景

在创建Logstore后，可以在控制台配置LogShipper支持数据仓库对接，当前支持如下：

OSS（大规模对象存储）:
- 说明文档
- 操作步骤
- OSS上格式可以通过Hive处理，推荐E-MapReduce
TableStore(NoSQL数据存储服务):
- 操作步骤
MaxCompute(大数据计算服务):
- 说明文档：

LogShipper提供如下功能：

准实时：分钟级进入数据仓库
数据量大：无需担心并发量
自动重试：遇到故障自动重试、也可以通过API手动重试
任务API：通过API可以获得时间段日志投递状态
自动压缩：支持数据压缩、节省存储带宽

典型场景

场景1：日志审计

小A维护了一个论坛，需要对论坛所有访问日志进行审计和离线分析

G部门需要小A配合记录最近180天内用户访问情况，在有需求时，提供某个时间段的访问日志
运营同学在每个季度需要对日志出一份访问报表

小A使用日志服务（LOG）收集服务器上日志数据，并且打开了日志投递（LogShipper）功能，日志服务就会自动完成日志收集、投递、以及压缩。有审查需要时，可以将该时间段日志授权给第三方。需要离线分析时，利用E-MapReduce跑一个30分钟离线任务，用最少的成本办了两件事情。

场景2：日志实时+离线分析

小B是一个开源软件爱好者，喜欢利用Spark进行数据分析，他的需求如下：

移动端通过API收集日志
通过Spark Streaming对日志进行实时分析，统计线上用户访问
通过Hive进行T+1离线分析
将日志数据开放给下游代理商，进行其他维度分析

通过今天LOG+OSS+EMR+RAM组合，可轻松应对这类需求。

时间： 2024-09-23 15:51:55

通过LogShipper对接数据仓库的相关文章

存储与计算分离：OSS构建表 + 计算引擎对接

看到标题,可能有用户要问:OSS不是用来存图片.视频.及文件的吗,还可以在上面建表.数仓?计算效率和经济性表现怎么样? 本文先给出基本结论: OSS是什么? 对象存储(Object Storage Service,简称OSS)是基于阿里云飞天分布式系统的海量.安全和高可靠的云存储服务,是一种面向互联网的大规模.通用存储,提供RESTful API,具备容量和处理的弹性扩展能力. 基于OSS是否可以创建数据表? 既然可以把摄像头推流接到OSS,建表属于小Case了.并且2016年在亦龙大神的帮助下

【漫谈数据仓库】如何优雅地设计数据分层

一.文章主题本文主要讲解数据仓库的一个重要环节:如何设计数据分层!其它关于数据仓库的内容可参考之前的文章. 本文对数据分层的讨论适合下面一些场景,超过该范围场景 or 数据仓库经验丰富的大神就不必浪费时间看了. 数据建设刚起步,大部分的数据经过粗暴的数据接入后就直接对接业务. 数据建设发展到一定阶段,发现数据的使用杂乱无章,各种业务都是从原始数据直接计算而得. 各种重复计算,严重浪费了计算资源,需要优化性能. 二.文章结构最初在做数据仓库的时候遇到了很多坑,由于自身资源有限,接触数据仓库的时

基于Hadoop的数据仓库Hive基础知识

Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理.特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行. 一.概述 1-1 数据仓库概念数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented).集成的(Integrated).相对稳定的(Non-Volatile).反应历史变化(Time Variant)的数据集合,用于支持

星环大数据助银行数据仓库全面升级

文章讲的是星环大数据助银行数据仓库全面升级,去年九月,银监会发布了39号文,中心思想要求银行信息技术"安全可控".它要求2015年起,各银行业金融机构对安全可控信息技术的应用以不低于15%的比例逐年增加,直至2019年达到不低于75%的总体占比.虽然没有明确指出,但是"安全可控"的要求显然对国产IT产品更有利.事实上,39号文提出的指导方向,包括"优先选择愿意在核心知识和关键技术领域进行合作的机构,避免对单一产品或技术的依赖,""有序推

数据仓库建模方法初步

一.前言数据仓库得建模方法同样也有很多种,每一种建模方法其实代表了哲学上的一个观点,代表了一种归纳,概括世界的一种方法.目前业界较为流行的数据仓库的建模方法非常多,这里主要介绍范式建模法,维度建模法,实体建模法等几种方法,每种方法其实从本质上讲就是从不同的角度看我们业务中的问题,不管从技术层面还是业务层面,其实代表的是哲学上的一种世界观.我们下面给大家详细介绍一下这些建模方法. 二.3NF范式建模方法范式建模法其实是我们在构建数据模型常用的一个方法,该方法的主要由 Inmon 所提倡,主

做网站前台和后台是怎么对接的？

问题描述做网站前台和后台是怎么对接的? 想学做网站,但是不知道网站的一整套流程是怎样的?有知道的朋友可以给点建议解决方案光知道流程毫无用处,编程是脑力劳动,不是装配电视机.不是按照说明书操作完每个动作程序就出来了. 要不然富士康完全转型做软件去了,多赚钱. 即便你看清楚程序员每次鼠标和键盘操作,以及每个屏幕显示,你背下来你也成不了程序员. 程序员的工作我说了,就是学习.思考.创造,这个"流程"你能看见么? 解决方案二: 通常来说,不论为BS还是CS结构,都分为后台和前台. 拿目前

link环境下制作一款《订餐软件》，会员菜肴配送，实现对接通讯录短信通知怎么实现？

问题描述 link环境下制作一款<订餐软件>,会员菜肴配送,实现对接通讯录短信通知怎么实现? link环境下制作一款<订餐软件>,会员菜肴配送,实现对接通讯录短信通知怎么实现? 解决方案买个短信猫.自己通过短信猫来发短信什么的.要不就买第三方的短信接口或者运营商的短信接口,需要一定的费用解决方案二: 要发短信的话,是要跟运营商申请短信接口的,还挺贵的得上万,节省成本的话建议可以用飞信或者是微信来发信息.

gps-link环境下制作一款《订餐软件》，如何动态显示外卖快递倒计时？如何对接&amp;quot;GPS&amp;quot;？

问题描述 link环境下制作一款<订餐软件>,如何动态显示外卖快递倒计时?如何对接"GPS"? link环境下制作一款<订餐软件>,如何动态显示外卖快递倒计时?如何对接"GPS"? 解决方案不知道你的环境呢?如果是网页,可以用定时器哦. gps如果是html5,可以参考:http://www.w3school.com.cn/html5/html_5_geolocation.asp 解决方案二: 打开位置跟踪功能即可解决方案三: 这个很简单

平台-有没有1688网站对接magento后台的软件呢

问题描述有没有1688网站对接magento后台的软件呢现在有针对以下两点需求的成熟软件吗?或者那家公司可以开发?需要的功能: 1.将各种淘宝数据包(例如1688平台店铺的产品数据包)导入该系统编辑.可以编辑产品的尺寸,图片,价格,库存.2.将编辑好的产品导入magento后台. 解决方案网站对接比较麻烦,需要认证,而且应用都需要一些个性化需求,成熟的比较少

猜你喜欢

傲游新式玩法精彩内容异地收集两妙招

许多上网场所不太固定的朋友,比如需要在学校机房或网吧上网的在校生,他们进行网页内容的收集就不是那么方便.其实还有像需要移动办公的商务人士等,他们在上网的过程中往往是最需要随手将浏览到的精彩网页内容 ...

Windows Server 2016 配置指南之安装 PHP redis 拓展

前文安装 Redis3.0 介绍了服务器安装 Redis3.0,但是就像我们安装了 Mysql 依旧需要然后对应的 php 驱动拓展一样,redis 也是.这里就讲一下如何安装 Redis 的 ph ...

一起学习ASP缓存类

当你的web站点采用asp技术建立的初期,可能感觉到的是asp动态网页技术带来的便利性,以及随意修改性.自如的http控制.但是,随着访问量的增加,你一定会发现自己的站点访问速度越来越慢,IIS重 ...

纵观近日360动作不是卖萌是卖力

2012年360搜索一推出就吃下了10%左右的流量份额,算是搜索界非常大的一个波动,但是之后就没有多大的动作了,我也觉得它也就那样了,很难对百度造成威胁.很久都没有关注360的相关新闻,今天听到 3 ...

在电子邮件中插入FLASH动画

flash动画|插入在网络日益普及的今天,朋友之间互发一个Email是司空见惯的事,让朋友在阅读邮件的同时,能听一听优美的音乐,欣赏一下精彩的FLASH动画,不是很爽吗?如果说Email中可包含声音 ...

整理10个最好的中国大学网站设计

关于是否发表这篇文章,我内心斗争了好久.昨天晚上看了几百个大学的网站,从中好不容易挑出了这10个最好的.当然,也有可能某个大学的网站设计的很不错,而我没有发现,如果是这样的话,请在评论中告诉我们,我们 ...

利用Word的版本功能巧妙隐藏文档内容

想隐藏Word文档的内容有很多种方法.利用"版本"功能暗中改变文档内容,将垃圾信息展示给偷窃者,效果甚佳.如果想隐藏部分图片和文字,该怎么办呢? 我们可以利用Word的" ...

Ubuntu Gnome 13.04安装过程截图

Ubuntu13.04昨天发布了,伴随而来的Ubuntukylin.Ubuntu Gnome让人眼前一亮.今天在看了Ubuntu13.04的特性介绍后,决定上手Ubuntu Gnome.安装的启动界面 ...

Fireworks实例水晶樱桃的制作教程

很多朋友都曾经讨论过如何在Fireworks中制作水晶樱桃,该文章教程以图片的形式对水晶樱桃的制作进行了讲解,更清楚的传达给每个学习者,下面是Fireworks实例水晶樱桃的制作具体操作,希望大家喜欢 ...

oppo r7 plus多少钱

屏幕:6英寸SuperAmoled屏 OPPO R7 Plus配备了一块6英寸的SuperAmoled屏幕,分辨率为1920X1080.更大尺寸的屏幕带来更有冲击力的视觉观感,适合于不满足于5英寸 ...

【JAVA大数训练】大明A+B

大明A+B Time Limit: 3000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Total Subm ...

学生成绩管理系统【c】

#include<stdio.h>#include<stdlib.h>#include<string.h>#include<conio.h>#defin ...

海量数据 "写入、共享、存储、计算" 最佳实践

标签 PostgreSQL , 冷热分离 , 数据共享 , 打破孤岛 , 无盘工作 , 存储计算分离 , 行为数据 , 轨迹数据 , 金融数据 , 监控数据 , 物联网 , GIS , 范围 , 数组 ...

vsm-利用java建立VSM模型时，矩阵太大应该怎么办？普通的增大内存都不管用了！！请高手赐教

问题描述利用java建立VSM模型时,矩阵太大应该怎么办?普通的增大内存都不管用了!!请高手赐教利用java建立VSM模型时,矩阵太大应该怎么办?普通的增大内存都不管用了!!请高手赐教解决方案 ...

手把手教你如何在阿里云服务器上搭建PHP环境？

购买阿里云服务器前,请先到阿里云官网领取幸运券,然后再购买,除了价格上有很多优惠外,还可以参与抽奖.详见:https://promotion.aliyun.com/ntms/act/ambassado ...

【erlang】erlang几种生成随机数的方法

erlang有三个生产随机数的办法 random:uniform(). 这个函数是erlang库random模块提供的.一般都采用这个. 1> random:uniform(). 0.44358 ...

与WebSphere MQ断开连接时测试WebSphere JMS应用程序

这一配置能够让您在开发生命周期的早期识别和http://www.aliyun.com/zixun/aggregation/7432.html">解决问题,而无需安装本地队列管理器或等待 ...

Graphic2D 和 BufferedImage 有什么区别？

问题描述 Graphic2D 和 BufferedImage 有什么区别? BufferedImage.CreateGraphic2D()表示什么? 解决方案引用BufferedImage 子类描述 ...

一份html文档怎么能够区分是html4编写的还是html5

问题描述一份html文档怎么能够区分是html4编写的还是html5 一份html文档怎么能够区分是html4编写的还是html5?或者说某一个标签怎么判断它使用的是html4标准还是html5标准 ...

oracle 数据库字符集研究上篇

一.什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系.ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储,处理,检索数 ...

[C算法]一元二次方程求根

// // main.c // 一元二次方程求解 // // Created by 丁小未 on 13-7-9. // Copyright (c) 2013年 dingxiaowei. All rig ...

轮廓追踪与C#实现

原文:轮廓追踪与C#实现轮廓追踪是图像处理中常见的方法,主要目的是追踪二值图像中目标物体的外轮廓,所得结果为单像素闭合轮廓. 流程: ...

jdk 报错

问题描述 ## A fatal error has been detected by the Java Runtime Environment:## EXCEPTION_ACCESS_VIOLATIO ...

進階DataSnap回叫功能

進階DataSnap回叫功能(李维) Delphi/C++Builder 2010加入了回叫機制, 我也在2009年的部落格文章中說明了如何使用Delphi/C++Builder 2010的回叫功. ...

动网防恶意广告比较有效的办法附asp代码_应用技巧

1. 进入后台,风格界面模板总管理,page_login,template.html(13) <TR> <TD class=tablebody1><B>密码问 ...

Android输入法弹出时覆盖输入框问题的解决方法_Android

当一个activity中含有输入框时,我们点击输入框,会弹出输入法界面,整个界面的变化效果与manifest中对应设置的android:windowSoftInputMode属性有关,一般可以设置的 ...

JavaScript学习笔记之获取当前目录的实现代码_javascript技巧

复制代码代码如下: function GetCurrentDirectory() { var curHref = location.href; var curArray = locHref.spli ...

C#中ConcurrentDictionary&amp;lt;TKey, TValue&amp;gt; 类中Tkey键是否排序和支持索引下标搜索

问题描述小白一个,在程序中只用ConcurrentDictionary<TKey,TValue>来存储判读结果,然后需要取出ConcurrentDictionary集合中第一条数据.发现 ...

CCTV质疑竞价排名的路还能继续走下去吗

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅这里是新闻30分的视频不好意思有 ...

自由测试人Jarod的一天

宇宙中心接任务上午10:05 五道口漫咖啡,Jarod摆弄着新淘来的Nexus5手机,时而饮一口桌上的焦糖拿铁,间或偷眼瞄一下邻桌的长腿妹子. 上午10:30 Allison如约而至,开始为Jaro ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.022 s.