【独家科普】揭秘大数据的分析方法

 

  编注:“大数据文摘”的很多读者亲友,一些纯粹的大数据爱好者,甚至有一部分企业管理者经常在后台向我们建议,希望我们能把大数据的分析系统做一个简单的介绍,不要“只见案例,不见原理”。于是Larry就自告奋勇来为大家做一个科普,带领读者亲友们一探究竟,让我们来揭开大数据推荐系统神秘的面纱!

 

  说到大数据,神马根据数据进行精准营销啊,神马更了解你的客户啊,神马啤酒尿布超市推送商品预测怀孕亚马逊预测式发货等等,你谷歌百度搜狗有道一气,都是说推荐系统如何如何牛逼的,但是没人介绍推荐系统到底是啥样的。今天来八一八。过年了,干货全当送礼。

  先看看系统架构吧。大多推荐系统架构基本是这样的:

  架构图看了,那就分别细说一下。

   先说数据底层。或者叫基础数据层。这一层基本是在做数据的整合和批量处理。数据整合主要是整合产品系统的用户行为、日志等数据和相关运营监控系统的数据。一般是以客户的id为主键或key,形成一个大宽表。之后通过算法的批量计算进行聚类,分类等操作。形成的数据结果反馈至中间计算层。

   中间计算层通过基础数据层的结果进行实时的小批量计算,将结果推送到进线计算层。

   进线计算层结合中间计算层的结果和用户的实时使用和反馈进行结合。实时给出结果。

   呵呵,是不是和看绕口令一样?那看下面的例子。

   你要听歌。打开一个app,app里面就会有“今日推荐”,这个基本上是中间计算层的数据。还有一个就是猜你喜欢。“猜你喜欢”基本上是进线计算层的数据。还有就是音乐类型啊,场景啊,这个基本上就是基础数据层的批处理跑出来的。

   上面的内容权作科普。基本上告诉了大家推荐系统的架构是怎样的。

   下面来点真正的干货!


 1.推荐系统依赖全量数据。以一个音乐app产品为例。用的人多,反馈越多,可用作分析的用户数据就越多。数据越多,那些原本的数据挖掘算法,就会基于你的这个app训练得更好。或者说更适合于你自己的产品。所以说,你要想做一个好的app,花钱做推广吧。

2.算法很重要,但是需要逐步完善。算法是一个工具,工具用的好需要好的工匠。工程师作为工匠要快速的进行算法的完善,以便能够符合app的长期运营战略。以音乐app产品为例,短期的算法改进可能会让你有大量的用户,但是由于多种因素变化,某个或某些算法可能存在“半衰期”--就是说基于这个算法,你改进了很多次,但是计算结果用户都不喜欢。这个其实就是需要一个长期的稳健的规划。如何设计和改进你的算法策略和算法计划很关键。

3.了解你的产品。不管你的推荐系统是应用的电商网站,还是用于音乐app,还是其他。了解你的产品本身很重要。例如音乐类app产品,在应用中,用户对音乐场景的选择粘度要远高于对音乐类型的选择粘度--“忧伤时候必须听的歌”,“失恋必听30首”这样的歌单的点击会高于“R&B;最牛100首”,“史上重金属经典50首”这样的歌单。这种情况下其实算法是帮不了你的,只能通过你对产品的感情了。




原文发布时间为:2014-01-25






本文来自合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

时间: 2024-12-26 04:23:25

【独家科普】揭秘大数据的分析方法的相关文章

大数据处理与分析方法解读

越来越多的应用涉及到大数据,这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以,大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素.基于此,大数据分析的方法理论有哪些呢? 大数据分析的五个基本方面 PredictiveAnalyticCapabilities(预测性分析能力) 数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断. DataQualityandMaster

盘点:55个最实用大数据可视化分析工具

文章讲的是盘点:55个最实用大数据可视化分析工具,近年来,随着云和大数据时代的来临,数据可视化产品已经不再满足于使用传统的数据可视化工具来对数据仓库中的数据抽取.归纳并简单的展现.传统的数据可视化工具仅仅将数据加以组合,通过不同的展现方式提供给用户,用于发现数据之间的关联信息.新型的数据可视化产品必须满足互联网爆发的大数据需求,必须快速的收集.筛选.分析.归纳.展现决策者所需要的信息,并根据新增的数据进行实时更新.因此,在大数据时代,数据可视化工具必须具有以下特性: (1)实时性:数据可视化工具

《大数据分析原理与实践》——2.1 大数据分析模型建立方法

2.1 大数据分析模型建立方法 大数据分析模型可以基于传统数据分析方法中的建模方法建立,也可以采取面向大数据的独特方法来建立.为了区分这两种模型建立方法,我们分别简称其为传统建模方法和大数据建模方法.由于这两种模型建立方法存在一些交集(如业务调研.结果校验等),我们采取统一框架来进行介绍,在介绍时区分两种建模方法的不同之处. (1)业务调研 首先需要向业务部门进行调研,了解业务需要解决的问题,将业务问题映射成数据分析工作和任务.对业务的了解无疑是传统建模方法和大数据建模方法都需要的. (2)准备

《大数据分析原理与实践》一一2.1 大数据分析模型建立方法

2.1 大数据分析模型建立方法 大数据分析模型可以基于传统数据分析方法中的建模方法建立,也可以采取面向大数据的独特方法来建立.为了区分这两种模型建立方法,我们分别简称其为传统建模方法和大数据建模方法.由于这两种模型建立方法存在一些交集(如业务调研.结果校验等),我们采取统一框架来进行介绍,在介绍时区分两种建模方法的不同之处.传统数据分析建模方法与大数据分析建模方法从大数据这个概念提出开始,就有"大数据分析方法与传统数据分析方法同与异"之辩.有的观点认为,传统分析是"因果分析&

服务供应商预测SMB大数据云分析需求

本文讲的是服务供应商预测SMB大数据云分析需求,编者按:在对云计算中大数据分析的系列报道的第一部分中,几位云计算供应商们讨论了他们在中型企业云计算大数据分析中看到的新兴机遇. 服务供应商们对于宣称大数据分析将是云计算发展的下一个驱动因素还是犹豫不决,但是他们还是认为云计算与大数据的交叉还是产生了一些机遇.资源池.无障碍接入以及成本节省的组合使得云计算成为大数据应用一个极具吸引力的中心,几位云计算供应商在近期于纽约召开的Cloud Expo 2012贸易展览会上做出了上述表述. "为了大数据分析应

中国式大数据与分析的现状和未来趋势

"大数据"时代到来了吗? 潮流是一股可笑又可敬的力量:今天,如果打开任何媒体,要是不提"大数据",恐怕都不好意思出版.这股潮流,铺天盖地,连国家领导人都不例外.问题在于:为什么人人言必称大数据? 数据的价值,随着数据量的几何级数增长,已经不再能够通过传统的图表得以显现,这正是为什么商业智能还没来得及流行,便已被"数据分析"挤下舞台.因为,价值隐藏在数据中,需要数据分析方可释放这些价值. 数据分析能力的高低,决定了价值发现过程的好坏与成败.可以说,

数据实践之美:31位大数据专家的方法、技术与思想. 导读

  数据实践之美:31位大数据专家的 方法.技术与思想 天善智能 著   前 言 朝阳门和小笼包 2016年3月5日,天善智能在北京举办"数据为王·互联网大数据沙龙"活动.在活动开始前的3月2日,我在家里收到了几本有关大数据相关的书籍,当时还没有弄清楚是怎么回事,后来打电话问梁勇(天善智能创始人之一)才知道这几本书是机械工业出版社华章分社的副总编杨福川寄过来的,代表华章支持我们的线下沙龙活动. 3月5日之后的某一天晚上,我约了杨总编出来以当面表示感谢.3月份的北京还比较冷,那两天风也比

2017CCF大数据学术会议大数据智能分析分论坛成功举办

2017年10月13日-15日,第5届CCF大数据学术会议在深圳举行,大会期间,10月15日上午举行了大数据智能分析分论坛,论坛由北京邮电大学杜军平教授主持,复旦大学计算机科学与技术学院院长王晓阳教授.兰州大学信息科学与工程学院院长胡斌教授.山东大学计算机学院与软件学院院长陈宝权教授.中科院自动化所副总工程师张文生研究员.北京交通大学计算机学院计算机科系主任于剑教授.湖南大学大数据研究中心主任秦拯教授分别做论坛特邀报告.          (图1 论坛现场) (图2 主持人和报告嘉宾合影) (图

利用大数据和分析来发展业务,您准备好了吗?

许多企业已经发现,他们的内部数据访问和整合系统面临基于云的信息和大数据所带来的新挑战.如今的企业通常使用多个数据管理平台来完成内部分析和运营工作.由于平台增加和数据分散在不同的地理位置,许多企业发现数据虚拟化对其成功至关重要.数据虚拟化使企业能够提供远程数据访问,避免以物理方式转移数据,从而助力他们打造更加灵活敏捷的 IT 基础架构,节省时间和资金,改进复杂数据环境的管理.   广泛使用的标准数据管理方法,通常也被称为"提取.传输和加载"(ETL)流程. 数 据整合是拥有多平台的企业所