汪振平:基于Hadoop日志交易平台的架构及挑战

  上海宝信高级工程师汪振平从金融行业入手,从背景、需求与目标、问题、系统架构及其它Hadoop相关知识5个方面对基于Hadoop的日志
交易平台进行深度分享:

  背景

  使用场景:信用卡消费的延时、交易失败和失败的原因及类型、不规范交易机构和商户的
寻找与产生原因。

  数据特征:在数据量上,每天近3亿笔交易日志;在数据状态上,目前仅存储拟合后的交易,对原始交易日志不可用。

  需求与目标:交易日志的秒级查询、交易失败分析、不合规交易分析、用户自助分析、与其它数据结合,找出交易失败原因及分析报告、报表。

  打造的挑战:如何
获取日志对生产系统影响最小、如何快速将每天3亿+条交易日志转译并存储到Hadoop集群、
大量的作业如何管理及如何实现秒级查询。

  系统的打造及架构

  系统的打造就是一个发现问题和解决问题的过程,基于需求和背景,对问题逐个击破,汪振平分享了他的宝贵经验:

  1. 将数据收集影响降到最低:总体上讲,
无非就是基于业务选择
合适的时间点和方式,这里的实际情况是:每天上午1:00~5:00之间,由于数据以二进制方式存储在本地文件中,且涉及多台机器,同时也为了能快速获取数据,采用了客户端与同业务数据源一一对应关系,每个客户端可以依据配置,能同时获取不同业务系统数据。

  2. 快速将3亿+条交易日志转译并存储到hadoop集群

  在这里汪振平弃用了MapReduce,选择了自主研发主要是因为:HDFS对文件进行切割分布,而文件又是以2进制形式进行存储。基于文件切割、报文之间分界、不完整报文等因素,而且对日志在解析过程中可用性不可控,同时也由于日志解析规范的
复杂性决定。

  3. 大量作业的管理

  上图为其公司内部的作业管理架构,主要涉及到4个组件:作业编排器,主要负责编排作业;作业管理器,主要负责作业调度;作业状态管理器,用于审计并发现问题所在;作业触发器,触发作业,触发依赖性作业或者是其它作业。

  秒级查询:汪振平通过Hbase存储、二级索引、ParallelRegionQuery、支持数据区间查询、针对HBase访问API封装,提高开发效率及对集群调优实现了妙级的查询。

  最后汪振平还分享了上海宝信的集群状态、Hadoop相关知识以及Hadoop个人的使用及学习相关经验,在使用经验上他
认为初期要做好规模、网络、服务器硬件配置运行环境等的规划,而使用过程中则要
注重集群的监控、运行日志的收集和分析及操作系统的共同调优,其中应急流程更是必不可少的一环。而在学习方面,他认为多读源码、
深入了解系统运行原理是非常必要的,但无需在早期进行代码修改。

时间: 2024-07-30 05:34:32

汪振平:基于Hadoop日志交易平台的架构及挑战的相关文章

[文档]基于Hadoop/Hive的web日志分析系统的设计

基于Hadoop/Hive的web日志分析系统的设计 刘永增,张晓景,李先毅 利用Hadoop.Hive设计了一个用于处理web日志分析的系统,既充分利用了Hadoop的海量数据处理的能力,又降低了开发的难度.通过与单机实验的对比,证明系统是有效的和有价值的. 关键词:web日志:云计算:Hadoop:Hive [下载地址]http://bbs.chinacloud.cn/showtopic-12968.aspx

基于Hadoop平台下的Canopy-Kmeans高效算法

基于Hadoop平台下的Canopy-Kmeans高效算法 赵庆 介绍了Hadoop平台下MapReduce的编程模型;分析了传统聚类Kmeans和Canopy算法的优缺点,并提出了基于Canopy的改进Kmeans算法.针对Canopy-Kmeans算法中Canopy选取的随机性问题,采用"最小最大原则"对该算法进行改进,避免了Cannopy选取的盲目性.采用MapReduce并行编程方法,以海量新闻信息聚类作为应用背景.实验结果表明,此方法相对于传统Kmeans和Canopy算法有

[文档]基于Hadoop 平台的数据分析方案的设计应用

基于Hadoop 平台的数据分析方案的设计应用 姜文,辛阳,陈林顺 摘要:面对互联网上的海量数据,单台主机已无法满足其存储和计算要求,分布式存储和分布式计算的应用成为必然的趋势.其中Hadoop 是应用较多的分布式存储和计算框架之一.本文在该平台下,通过对国内某搜索引擎两个月内的上千万条用户搜索日志进行数据统计分析,给出相应Map/Reduce 程序的设计思路和实例,并提出Map/Reduce 分布式程序的部分设计和性能优化方法,实验结果表明,本文提出的这些方法能简化Map/Reduce 程序设

基于Hadoop大数据分析应用场景与实战

为了满足日益增长的业务变化,京东的京麦团队在京东大数据平台的基础上,采用了Hadoop等热门的开源大数据计算引擎,打造了一款为京东运营和产品提供决策性的数据类产品-北斗平台. 一.Hadoop的应用业务分析 大数据是不能用传统的计算技术处理的大型数据集的集合.它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域. 目前主流的三大分布式计算系统分别为:Hadoop.Spark和Strom: Hadoop当前大数据管理标准之一,运用在当前很多商业应用系统.可以轻松地集成结构化.半结构化甚至非结

基于Hadoop的数据仓库Hive基础知识

Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理.特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行. 一.概述 1-1 数据仓库概念 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented).集成的(Integrated).相对稳定的(Non-Volatile).反应历史变化(Time Variant)的数据集合,用于支持

基于Hadoop平台的分布式ETL研究与实现

基于Hadoop平台的分布式ETL研究与实现 东华大学  何刚 本文作者主要研究和实现的工作如下第一,分布式ETL框架的设计.分析Hadoop平台下的MapReduce工作机制和作业调度,以数据仓库中维度建模的理论为依据,设计了一个包括维度和事实的并行处理和HDFS数据块分配的分布式ETL框架.第二,事实并行处理的研究.从事实表查找代理键和多粒度事实预聚合两个角度着手,提出了在渐变维度表上的多路并行查找算法和在不同粒度上对事实数据进行聚合的算法.实验结果表明,与Hive数据仓库相比,两种算法在并

开创产业互联新时代, 访正邦互联网总裁黄振平

农村电商应该更多地是从生产端切入,运用电子商务促进农业生产转型升级,将电子商务渗透到农业研发.生产.加工.流通.金融等环节,提升农业产业链价值. 农村电商应该更多地是从生产端切入,运用电子商务促进农业生产转型升级,将电子商务渗透到农业研发.生产.加工.流通.金融等环节,提升农业产业链价值. 2016年中国饲料工业展览会正邦集团互联网总裁黄振平做互联网主题报告 各位来宾, 上午好.欢迎大家光临正邦集团展厅,也很荣幸能借本次合肥中国饲料工业展览会与大家分享正邦互联网的进展与未来规划.我本次分享主题是

ZFS在基于Hadoop的视频存储系统中的应用

ZFS在基于Hadoop的视频存储系统中的应用 高煜红 陈清华 方路平 随着视频点播技术的不断发展,视频数据呈现出爆炸式增长,对文件存储及其扩容性方面提出了苛刻的要求.该文首先简单地描述了数据存储服务集群及该集群主要采用分布式平台Hadoop,使用ZFS动态文件系统作为后端存储文件系统.接着简单介绍了ZFS的特性,其次着重介绍ZFS在HDFS上的集成设计,最后通过相应的实现和ZFS性能比较测试,证明ZFS文件系统在视频文件存储中具有很好的应用价值. ZFS在基于Hadoop的视频存储系统中的应用

基于Hadoop的微博热点话题挖掘系统研究与设计

基于Hadoop的微博热点话题挖掘系统研究与设计 陆瑶  李振婷 本文首先介绍了Web数据挖掘理论.Hadoop技术理论及国内外微博热点话题挖掘领域研究现状.在此基础上对传统微博热点话题挖掘方法进行综合及改进,旨在研究与设计基于Hadoop的微博热点话题挖掘系统. 关键词:Hadoop:数据挖掘:微博:热点话题 基于Hadoop的微博热点话题挖掘系统研究与设计