WOT2016黄慧攀:海量日志处理可以不用Hadoop或Spark

如今,随着云计算、移动互联网、物联网、大数据等技术的快速发展,企业逐渐认识到,数据的价值,对数据的挖掘分析能力已经成为企业的核心竞争力。对于互联网企业,最有价值的数据都蕴藏在网站的日志中。从日志中,我们可以知道网站的访问量,应用的使用量、用户的相关数据,使用偏好等关键信息,从而更好的改善服务质量,更好的满足用户的需求。

但是随着企业的用户规模不断扩大,以及数据量的爆炸式增长,日志的管理和分析变得越来越具有挑战性。近日,51CTO记者采访了【WOT2016互联网运维与开发者峰会】特邀讲师,又拍云CTO黄慧攀,就海量日志处理系统架构进行探讨。

黄慧攀是2010年加入又拍云,现任又拍云 CTO。他是 aLiLua Web 开发框架的作者,拥有 14 年互联网从业经验,技术经验涵盖范围比较广,早期以前端 Web 开发为主,后期逐步转到底层研发方向,在高性能网络服务、分布式存储系统等方面有较深入的研究。随着公司发展,团队不断扩大,相应职责细分,目前主要做技术规划和团队建设的工作。

黄慧攀此次将会在WOT 2016互联网运维与开发者峰会上带来主题为《海量日志处理系统架构》的演讲。那么海量日志对于企业来说为何如此重要呢?黄慧攀认为,日志的可挖掘价值确实非常多,比如广告领域可以通过日志回溯到某个具体的用户对什么产品或服务感兴趣,从而驱动给该用户投放什么类型的广告。这也是现在很热门的大数据领域中很重要的一项。而日志对于又拍云来说,重点是在分析平台整体性能,并在这些数据的基础上做系统优化。另外一个部分则是为给客户提供便利而做的统计分析工作。

那么在信息爆炸的时代,处理海量日志的挑战又有哪些呢?海量日志的日志数据量非常大,大到单台服务器无法存储和处理的量级。目前,又拍云现在每天收集到的访问日志就超过4TB的压缩数据,如果解压出来高达120TB文本数据。黄慧攀表示,处理如此庞大的数据量确实面临很多挑战,光收集存储这些原始日志都会成为问题,后续的处理和统计的难度就更大了。

现在,业界在处理海量日志采用比较流行的Hadoop或Spark等分布式计算系统,这样的开源技术无需考虑系统架构。黄慧攀强调,如果要针对特定的业务场景,企业自己研发日志处理系统则需要一定的经验,比如如何规范数据,如何做数据分布处理和汇总数据等等。

虽然Hadoop和Spark都是业界比较流行的开源技术,但是面向特定的业务场景很难做到尽善尽美。为此,又拍云独辟蹊径,开发了海量日志处理系统,来解决日处理TB级的压缩日志数据的方法。至于使用了哪些技术,黄慧攀则卖起了关子,感兴趣的用户可以关注在WOT 2016互联网运维与开发者峰会第二天上午的 【大数据与运维】专场中黄慧攀的有趣分享。

本文作者:鸢玮

来源:51CTO

时间: 2024-08-23 14:26:53

WOT2016黄慧攀:海量日志处理可以不用Hadoop或Spark的相关文章

阿里云MVP Meetup:《云数据·大计算:海量日志数据分析与应用》之《数据分析展现:可视化报表及嵌入应用》篇

实验背景介绍 本手册为阿里云MVP Meetup Workshop<云计算·大数据:海量日志数据分析与应用>的<数据分析展现:可视化报表及嵌入应用>篇而准备.主要阐述如何使用Quick BI制作报表,将前面几个实验处理分析得来的数据进行有效的展现和洞察. <数据加工:用户画像>实验中的结果表数据已经事先导入RDS中,表名为rpt_user_info_all_d.该表包含了:用户id.地区.性别.年龄范围.星座.访问设备.PV 等访问信息. 实验目标 承接前述实验加工好的

大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据加工:用户画像》篇

阿里云MVP Meetup:<云数据·大计算:海量日志数据分析与应用>之<数据加工:用户画像>篇 实验背景介绍 本手册为阿里云MVP Meetup Workshop<云计算·大数据:海量日志数据分析与应用>的<数据加工:用户画像>篇而准备.主要阐述在使用大数据开发套件过程中如何将已经采集至MaxCompute上的日志数据进行加工并进行用户画像,学员可以根据本实验手册,去学习如何创建SQL任务.如何处理原始日志数据. 实验涉及大数据产品 大数据计算服务 Max

阿里云MVP Meetup 《云数据·大计算:海量日志数据分析与应用》Workshop-入口

阿里云MVP Meetup 大数据Workshop入口 <云数据·大计算:海量日志数据分析与应用> 欢迎大家扫码加入阿里云数加MaxCompute交流群,后续相关项目支持都可以进行群里提问,数加小二也第一时间帮助解决. 数据采集:日志数据上传 数据加工:用户画像 数据分析展现:可视化报表及嵌入应用 该课程是基于大数据时代日志分析的基础需求的基础上,告知用户如果通过阿里云数加大数据解决方案来实现自己网站日志的用户画像.包括数据采集.数据加工以及数据最终的展现. 专场议程介绍 在大数据时代,无论是

日志易:IT 运维分析及海量日志搜索的实践之路(上)

内容简介: IT运维分析(IT Operation Analytics, ITOA)是近年兴起,其把大数据技术应用于分析IT运维产生的大量数据,数据来源主要有日志.网络流量.植入代码.布点模拟监控等.过去使用数据库处理日志无法支持大数据量,后来出现了使用Hadoop/Storm/SparkStreaming等开发框架来处理日志,及最新的使用实时搜索分析引擎来对日志进行实时处理.现如今使用Hadoop/Storm/SparkStreaming等开发框架来处理日志已经在各大公司被广泛的运用,本次演讲

关于举办“天德π客”创业论坛——“基于阿里云的大数据实践—海量日志分析”的通知

随着互联网.云计算.物联网.社交网络等技术的兴起和普及,全球数据的增长快于任何一个时期,可以称作是爆炸性增长.收集大量数据,并在数据中发现趋势,能使企业能够更快.更平稳.更有效地发展.然而,大数据对许多企业和数据专业人员来说,它仍然很难理解,那么,什么是大数据分析?如何利用阿里云数加平台进行海量数据分析,帮助企业更好地利用数据资源?"天德π客"众创空间特举办本期论坛--"基于阿里云的大数据实践--海量日志分析",邀请华北电力大学电力系统及其自动化博士,阿里云大数据高

Flume开源的海量日志收集系统使用指南

BigInsights 将实时日志收集体统 Flume 整合为产品的一部分,支持对 flume 极其相关组件 hadoop.zookeeper 的组合安装,用可视化界面为用户部署实时日志收集系统:另外 BigInsights flume 通过 flume runtime toolkit 支持快速的添加日志收集节点,无需配置,轻松实现日志收集系统的可扩展性. Flume 是开源的海量日志收集系统,支持对日志的实时性收集.初始的 flume 版本是 flume OG(Flume original g

SLS:海量日志数据管理利器

SLS:海量日志数据管理利器 日志是大规模集群管理系统中非常关键的部分,服务器上的各种日志数据(如访问日志.应用日志等)可以帮助我们回答如运维.开发.运营.客服.安全等各种问题,例如: 运维:服务是否正常,流量和QPS是多少: 开发:线上有没有异常和错误发生: 运营:多少账号开通了服务,其中开通失败原因是什么: 客服:系统登录不上了,是客户的问题还是系统的问题: 安全:谁访问了不该访问的数据. 然而要想从日志中获取这些信息,通常需要开发大量脚本和工 具,从头到底搭建端对端系统,并且为了保证服务可

(案例篇)日志易:IT运维分析及海量日志搜索的实践之路(下)

本文为日志易创始人兼CEO陈军,在2016年GOPS全球运维大会.深圳站的演讲实录,主要讲述日志易产品在金融机构.运营商.电网的应用案例. 客户案例 案例一:某大型综合金融机构 这是一个大型的综合金融机构,总部就在深圳,也是中国最大的.他们之前需要逐台去登录服务器:没有办法集中查看日志;没有办法对海量日志进行挖掘和用户行为分析; 而且没有办法做多维度的查询,比如时间段.关键词.字段值;而且没有办法进行日志的业务逻辑分析和告警. 使用日志易产品后:建起日志云,在内部建立了一个私有云来处理日志,已经

IT运维分析与海量日志搜索

    陈军 日志易创始人兼CEO 拥有17年IT及互联网研发管理经验,曾就职于Cisco.Google.腾讯和高德软件,历任高级软件工程师.专家工程师.技术总监.技术副总裁等岗位. 负责过Cisco路由器研发.Google数据中心系统及搜索系统研发.腾讯数据中心系统和集群任务调度系统研发.高德软件云平台系统研发及管理,对数据中心自动化运维和监控.云计算.搜索.大数据和日志分析具有丰富的经验. 他发明了4项计算机网络及分布式系统的美国专利,拥有美国南加州大学计算机硕士学位.   演讲实录