从Hadoop实践到基于业务的分析

Hadoop、google 3大论文的开源实现,让开发者可以在商用服务器上做海量数据处理,其批处理方式虽然不适用于实时场景,但却可以让用户以更低廉的成本做离线数据分析,这也是为什么当下流处理框架林立,Hadoop仍然被广泛使用及讨论的原因。本期活动将从Hadoop开始,为大家打开基于业务的数据分析之门。

首先上场分享的是来自九城技术部负责Hadoop的架构师,周诚。他同时也是我们CSDN高性能计算板块Hadoop板块的板主,网名是撸大湿 ,相信经常登录论坛的同学都会有所了解。今天周诚带来的主题是“Hadoop大数据分析”,主要分享九城搭建的一个以Hadoop为基础的大数据平台,同时还分享了相关的具体案例。

Hadoop是一个能够对大量数据进行分布式处理的软件框架。Hadoop 依赖于低端的服务器,因此它的成本比较低,任何人都可以使用 ,在企业级的大数据应用中起到了关键作用。同时在Hadoop的可靠性、高效性、可升缩性也是我们选择的它的一个理由。在Hadoop引擎的驱动下,轻松驾驭大数据不再是遥不可及的梦想。

周诚分享了一个九城团队做过的简单实验,拿一台小机和Hadoop去做运算比较,用小机可能会花费超过百万,但是用一些廉价的机器,通过部署只需要三四十万就可以达到和小机同样的运算的效果,同时可以保障存储更靠谱,这也是分而治之、HDFS等后面讲到的模式。紧接着周诚分享了Hadoop的架构问题和Hadoop分析工具。现在讲Hadoop,讲大数据,最后我们总是要回归到分析工具上。这块他主要讲了Mahout,Mahout是Hadoop系统里面很重要的分析工具以及预测性工具,同时也分享了九城游戏中如何使用这些工具来做数据统计的案例。

接下来周诚分享了九城的商品定向推荐功能,什么叫定向推荐?定向推荐就是根据用户的行为习惯,行为特征,以及用户的一些特殊属性,或者群体类属性为用户推荐一些用户可能需要的系统预测,可能会需要的商品。这就叫商品定向推荐,这个和一般电商的推荐又有所不同。紧接着周诚展示了九城是如何实现定向推荐的,周诚表示首先需要建立数据矩阵,通过真实的数据ETL划分经纬度,利用余弦相似度公式来计算,得出一个简单的数据。这些其实都很简单,只要有数据模型通过HIVE来计算都可以实现。但是有一些比较困难的数据就需要Hadoop通过两个算法来实现:UserCF和ItemCF。UserCF和ItemCF是协同过滤中最为古老的两种算法,在top-N的推荐上被广泛应用。这两个算法之所以重要,是因为这两个算法使用了两个不同的推荐系统基本假设。UserCF认为一个人会喜欢和自己有相同爱好的人喜欢的东西,而ItemCF认为一个人会喜欢和自己以前喜欢的东西相似的东西,这两个算法确有相似的精度。所以说,这两个算法是很互补的。

最后周诚介绍了九城的SkyNet,他表示SkyNet从技术方面来说第一个作用是业务框架,第二个是协处理器的分布式计算,在数据量小的情况下,可以做一些实时的报表;从业务方面来说SkyNet有实时数据查询、实时分析报表、在线数据监控和在线数据挖掘的作用,这就是SkyNet可以做到的业务结构。同时周诚还有更多精彩内容分享,详情可参考下面的PPT:

接下来进行主题分享的是来自于携程旅行网负责网站运营中心容量平台的周海燕,她带来的主题分享是“ctrip的web容量分析办法”。主要介绍了ctrip的容量规划任务,通过使用当前性能作为基线数据,评估以及预测系统需要什么资源,什么时候需要更多的资源。其中包括,基于周期性季节指数预测法的业务量预测,基于回归分析的web容量预测等。

首先周海燕从容量和性能上来做对比,她表示性能的优化没有固定的时间,也没有固定的计划,不可能说是规定一个星期内,把这个集群上的这套应用优化,然后性能要达到从70%降到50%。但是容量不同,容量是企业做了一个周期性的有计划的进行,包括每个季度的容量采购。所有的公司都希望自己的业务增长,业务增长带来的就是所有的网站的资源,都需要增长的,都需要不断的扩充,不断的采购,这样的公司都会有一个季度或者是半年,一个采购计划,就是从容量分析中来。

周海燕总结道:再扩容分析中第一步应该了解当前的基础设施工作状况。第二步制定容量健康标准。第三步,持续监控与采集容量相关的指标,数据源持续不断的监控与采集容量相关的指标。 第四步,建立自己的容量模型。第五步,建立趋势预测模型。最后那步不断的重复、迭代、校准容量规划。这样等到你真的要做你的计划的时候,你就会拥有最准确的数据。有些人问做这样的容量分析,容量规划有什么用呢?最直接的就是不会宕机了!周海燕还分享了容量分析的指标以及容量计算的公式,以及携程自己的扩容案例,以及携程的CTRIP自动化容量分析平台等等,更多内容分享详情可参考下面的PPT:

时间: 2024-09-20 19:34:00

从Hadoop实践到基于业务的分析的相关文章

《Oracle数据库性能优化方法论和最佳实践》——2.5 基于资源瓶颈分析的优化方法论

2.5 基于资源瓶颈分析的优化方法论 2.5.1 基于资源瓶颈分析优化方法论简述 Oracle要做优化,大部分人首先会想到瓶颈在哪里?资源瓶颈分析是如此之普及,以至于无论懂还是不懂的人都知道"瓶颈"这个术语,都知道性能优化首先要找到这个瓶颈,然后消除这个瓶颈.数据库系统的资源主要包括:CPU.内存和虚拟内存.I/O子系统.网络子系统. 绝大部分开发人员在写程序的时候都假设资源是无限的,CPU是无限快,内存是无限多,磁盘无限大并且像内存一样快,网络带宽无限并且像光速一样运行.事实上,大家

[文档]基于Hadoop/Hive的web日志分析系统的设计

基于Hadoop/Hive的web日志分析系统的设计 刘永增,张晓景,李先毅 利用Hadoop.Hive设计了一个用于处理web日志分析的系统,既充分利用了Hadoop的海量数据处理的能力,又降低了开发的难度.通过与单机实验的对比,证明系统是有效的和有价值的. 关键词:web日志:云计算:Hadoop:Hive [下载地址]http://bbs.chinacloud.cn/showtopic-12968.aspx

《Oracle数据库性能优化方法论和最佳实践》——第2章 Oracle性能优化方法论的发展 2.1 基于局部命中率分析的优化方法论

第2章 Oracle性能优化方法论的发展 Oracle数据库在开发和使用过程中对数据库的性能优化极为重视,几乎在每个版本的更新中都会对可优化的数据库做出改善.不仅如此,Oracle数据库还会使用优化方法来指导性能优化,会不断推出新的性能优化方法论,并依据优化方法论持续完善其可观察的性能优化体系.从Oracle 6到现在的Oracle 12c,经历了Oracle 7.Oracle 8.Oracle 8i.Oracle 9i & R2.Oracle 10gR1 & R2.Oracle 11gR

基于用户行为分析的关联推荐

我们会发现很多网站都具备了内容推荐的功能,不仅是像B2C电子商务类的卓越的图书推荐,也包括兴趣类网站像豆瓣的豆瓣猜等.这类功能无疑在帮助用户发现需求,促进商品购买和服务应用方面起到了显著性的效果.那么这类的推荐是怎么得到的呢?其实跟网站数据分析不无相关,我们可以来简单看一下它的原理和实现. 关联推荐在营销上被分为两类: 向上营销(Up Marketing):根据既有客户过去的消费喜好,提供更高价值或者其他用以加强其原有功能或者用途的产品或服务. 交叉营销(Cross Marketing):从客户

基于业务的信息系统选型七步法

企业信息化的道路充满荆棘,这固然和中国企业本身http://www.aliyun.com/zixun/aggregation/14054.html">信息技术人才缺乏,信息技术素质低,中国管理软件市场处于成长的混乱期,厂商更多注重短期利益等原因有直接关系,但是未尝就不和企业本身对信息技术选择.实施的方法论有关. 我在1997-2006年期间,有幸参加多家大型企业集团的技术信息化与管理信息化项目建设,对于这段工作的经历,我总结成功的系统选型是面向业务的选型方法论.基于业务的软件选型方法可以很

基于动态联机分析的审计信息系统

1 引 言 从世界范围来看,基于动态联机分析http://www.aliyun.com/zixun/aggregation/20795.html">处理技术(On-Line Analytical Processing,OLAP)的审计信息系统在加拿大等西方国家得到了迅速的发展,取得了巨大的经济及社会效益.由于审计领域业务的特殊性,我国无法直接照搬国外的基于OLAP审计信息系统,而且对此类软件多处于理论探讨阶段,导致与国外该领域的差距有日益扩大的趋势. 从我国对联机分析审计信息系统的内在需求

sql 报表设计-基于RFM客户分析的月报表设计

问题描述 基于RFM客户分析的月报表设计 设计合理的年度KPI指标: 按RFM进行客户细分: 将年度KPI分别按细分客户群.月份.和地区三个维度进行分解: 按三个维度和对应的KPI体系设计月报表: 生成两个月的月报表. 解决方案 https://www.baidu.com/link?url=WaEQiQ_4H0djI4W6uFEobCPjsRmV1NHYIZOUMh0yhj32X2GbKv-BtNyPmqKth4kqUZfb62ojq28PRA0Q8xw46K&wd=&eqid=e7aa5

SQLServer · 最佳实践 · 开发基于.NET CORE的LINUX版本的数据库应用

title: SQLServer · 最佳实践 · 开发基于.NET CORE的LINUX版本的数据库应用 author: 石沫 背景 最近有客户在基于.NET CORE的LINUX版本连接数据库的应用程序,在开发中,会遇到一些问题,客户会错误地将原因定位到我们的SQL SERVER,陆续收到一些工单,因此,我们需要有计划增强这个方面的能力,同事正确引导用户使用SQL SERVER. 部署环境 1. 服务器版本:ubuntu 14.04 2. .NET CORE 版本:1.0 3. 安装过程 3

基于数据包分析的大数据技术解决网络安全问题

1.网络攻击简介 网络攻击是利用网络存在的漏洞和安全缺陷对网络系统的硬件.软件及其系统中的数据进行的攻击.网络信息系统所面临而对威胁来自很多方面,而且会随着时间的变化而变化.从宏观上看,这些威胁可分为人为威胁和自然威胁. 自然威胁来自于各种自然灾害.恶劣的场地环境.电磁干扰.网络设备的自然老化等.这些威胁是无目的性的,但会对网络通信系统造成损害,威胁通信安全. 而人为威胁是对网络信息系统的人为攻击,通常是通过寻找系统的弱点,以非授权方式达到破坏.欺骗和窃取数据信息等目的.两者相比,精心设计的人为