如何用Kiji构建实时和个性化的推荐系统

现在网上到处都有推荐。亚马逊等主流电子商务网站根据它们的页面属性以各种形式向用户推荐产品。Mint.com之类的财务规划网站为用户提供很多建议,比如向用户推荐他们可能想要办理的信用卡,可以提供更好利率的银行。谷歌根据用户搜索历史记录的信息优化搜索结果,找到相关性更高的结果。

这些知名公司使用推荐提供情境化的、有相关性的用户体验,以提高转化率和用户满意度。这些建议原来一般由每天晚上、每周或每月生成新推荐的批处理作业计算提供。

然而对于某些类型的推荐,响应时间有必要比批量处理作业所需的时间更短,比如为消费者提供基于地理位置的推荐。比如电影推荐系统,若用户先前看过动作片,但现在要找一部喜剧片,批量推荐很可能会给出更多动作片,而不是最相关的喜剧片。本文将会介绍如何使用Kiji框架,它是一个用来构建大数据应用和实时推荐系统的开源框架。

Kiji,以实体为中心数据和360度视角

要构建实时推荐系统,首先需要一个能存储360视角客户的系统。此外,我们需要具备迅速获取与指定用户相关数据的能力,以便在用户与网站和移动应用交互时做出推荐。 Kiji是一个构建实时应用的模块化开源框架,它收集,存储和分析这类数据。

一般情况下,一个360度视图所需的数据可以被称为以实体为中心的数据。一个实体可以是任意数量的东西,比如客户、用户、帐户,或者POS系统或移动设备之类更抽象的东西。

一个以实体为中心的存储系统要能在一行数据中存储与某个特定实体有关的一切信息。这对传统的关系型数据库来说是个挑战,因为这些信息可能既有状态型数据(如姓名,电子邮件地址等)又有事件流(如点击)。传统的系统需要把这些数据存放在多张表中,处理时再把这些表联接起来,这使得它很难做到实时处理。为了解决这个问题,Kiji用了Apache HBase,它在四个维度 - 行、列族、列标识和时间戳-存储数据。借助时间戳维度和HBase存储多个版本Cell的能力,Kiji能够存储有更多状态的缓慢变化的事件流数据。

HBase是Apache Hadoop使用的一个键-值存储系统,它构建在HDFS之上,为大数据解决方案提供了必需的可扩展性。在HBase上开发应用程序面临的巨大挑战是,它要求所有进出系统的数据都是字节数组。为了解决这个问题,Kiji的最终核心组件是Apache Avro,被Kiji用来存储易于处理的数据类型,如标准字符串和整数,以及由用户定义的更复杂的数据类型。 读写数据时,Kiji为应用程序做必要的序列化和解序列化处理。

开发用在实时中的模型

Kiji为开发模型提供了两套API,Java和Scala,两套API都支持批量和实时组件。如此划分的目的是将模型执行划分为不同阶段。批量阶段是训练阶段,是一个典型的学习过程,在该过程中,将使用完整的数据集来训练模型。该阶段的输出可能是线性分类器的参数,或者聚类算法的群集位置,或在协同过滤系统中相互关联条目的相似性矩阵。实时阶段被称为评分阶段,取得经过训练的模型,并将它与实体数据相结合产生衍生信息。关键是这些衍生数据被当作一等公民,也就是说它可以存回到实体所在的行中,用于推荐,或作为后续计算的输入。

Java API被称为KijiMR, 而Scala API构成了KijiExpress工具的核心。 KijiExpress利用Scalding库提供API来构建复杂的MapReduce工作流,同时避免了大量Java冗余代码,以及串联MapReduce作业所必需的任务调度和协作。

个体与总体

之所以要划分出批量训练和实时评分两个阶段,是因为Kiji观察到总体趋势变化缓慢,而个体趋势的变化迅速。

比如一个包含上千万次购买记录的用户总体数据集。多一次购买不太可能对总体趋势的好恶造成重大影响。但对于一个只有10次购买记录的特定用户而言,第11次购买将对系统判断用户兴趣产生巨大影响。鉴于这种主张,应用程序只需在收集到足以影响总体趋势的数据时再重新训练它的模型。但对于特定用户而言,我们可以通过实时响应用户的行为来改善推荐的相关性。

实时给模型评分

为了做到实时评分,KijiScoring模块提供了一个惰性计算系统,应用程序可以只为经常与其交互的活跃用户生成最新推荐。通过惰性计算,Kiji应用程序不必为那些不经常光顾或再没回来过的用户生成推荐。这还有些额外的好处,Kiji可以在推荐时考虑像移动设备的位置之类的情境信息。

KijiScoring的主要组件叫Freshener。Freshener实际上是另外两个Kiji组件的组合:ScoringFunctions和FreshnessPolicies。正如前面提到的,一个模型包括训练和评分两个阶段。ScoringFunction是一段代码,描述了如何把经过训练的模型和单一实体的数据组合起来产生一个分数或建议。FreshnessPolicy定义数据变得陈旧或过时的时间。比如说,普通的FreshnessPolicy会指出超过一个小时后数据就过期了。更复杂的策略可能会在实体经历过一定次数的事件后将其标记为过期,比如点击或产品访问等事件。最后,ScoringFunction和FreshnessPolicy被附着在Kiji表中特定的列上,在必要时被触发来刷新数据。

进行实时评分的应用程序中包含一个服务器层,被称为KijiScoring服务器,它是负责刷新陈旧数据的执行层。当用户与应用程序交互时,请求将被传递到KijiScoring服务器层,它直接与HBase集群通信。KijiScoring服务器将会请求数据,并且在获取到数据后根据FreshnessPolicy检查数据是否是最新的。如果是最新的数据,它将其直接返回给客户端。如果是过时的数据, KijiScoring服务器将为发出请求的用户运行指定的ScoringFunction。你需要掌握的要点是它只为发出请求的用户刷新数据或推荐;而不是执行批处理操作,刷新所有用户的数据。这样Kiji就可以只是做那些有必要做的工作。数据刷新完成后会被返回给用户,同时写回HBase以备后用。

一个典型的Kiji应用程序将包括一定数量的KijiScoring服务器,它们是可以向外扩展的无状态Java进程,并能够运行使用单一实体的数据作为输入的ScoringFunction。Kiji应用程序通过KijiScoring服务器过滤客户端请求,由它决定数据是否是最新的。若有必要,它会在把所有推荐传回客户端之前运行ScoringFunction进行刷新,并将重算后的数据写到HBase中,以备后用。

时间: 2024-08-21 17:01:39

如何用Kiji构建实时和个性化的推荐系统的相关文章

如何从零构建实时的个性化推荐系统?

这些知名公司使用推荐提供情境化的.有相关性的用户体验,以提高转化率和用户满意度.这些建议原来一般由每天晚上.每周或每月生成新推荐的批处理作业计算提供. 然而对于某些类型的推荐,响应时间有必要比批量处理作业所需的时间更短,比如为消费者提供基于地理位置的推荐.比如电影推荐系统,若用户先前看过动 作片,但现在要找一部喜剧片,批量推荐很可能会给出更多动作片,而不是最相关的喜剧片.本文将会介绍如何使用Kiji框架,它是一个用来构建大数据应用和 实时推荐系统的开源框架. Kiji,以实体为中心数据和360度

如何从零构建实时的个性化推荐系统?

作者介绍 刈刀(程君杰),曾就职于阿里巴巴移动事业部,数据技术专家.主要负责业务数据分析挖掘系统架构和设计,包括大规模数据采集.分析处理.数据挖掘.数据可视化.高性能数据服务等.   前言  在移动互联网迅速发展的今天,信息量爆发性增长,人们获取信息的途径越来越多,如何从大量的信息中获取我们想要的内容,成为了推荐系统研究的重点. 随着大数据产业的不断壮大,推荐系统在企业也越来越重要,从亚马逊的"猜您喜欢",到阿里双十一手机淘宝的"千人千面",无一不彰显着推荐系统至关

如何基于Spark Streaming构建实时计算平台

1.前言 随着互联网技术的迅速发展,用户对于数据处理的时效性.准确性与稳定性要求越来越高,如何构建一个稳定易用并提供齐备的监控与预警功能的实时计算平台也成了很多公司一个很大的挑战. 自2015年携程实时计算平台搭建以来,经过两年多不断的技术演进,目前实时集群规模已达上百台,平台涵盖各个SBU与公共部门数百个实时应用,全年JStorm集群稳定性达到100%.目前实时平台主要基于JStorm与Spark Streaming构建而成,相信关注携程实时平台的朋友在去年已经看到一篇关于携程实时平台的分享:

如何用 Flexbox 构建一个新闻网站布局

本文讲的是如何用 Flexbox 构建一个新闻网站布局, 你将要创建的东西 在你刚接触 Flexbox 的时候没有必要理解关于 Flexbox 的 所有 方面.在这篇教程中,我们将介绍 Flexbox 的一些新特性.同时设计一种新的.像 The Guardian 一样的布局方式. 我们使用 Flexbox 是因为它提供了许多强大的特性: 我们可以通过简单的方式来实现响应式的纵列 我们可以使列等高 我们可以把内容塞入容器的 底部 我们开始吧! 1. 用两个列开始 在 CSS 中创建列一直是一个挑战

【Spark Summit East 2017】使用Kafka, Spark, and Kudu构建实时BI系统

本讲义出自Ruhollah Farchtchi在Spark Summit East 2017上的演讲,主要介绍了在面对处理实时流数据时的一个关键性挑战就是被捕获到的数据的格式不是查询中的最佳解析格式,那么如何构建实时的商业智能系统就成为了一个挑战,本讲义介绍了如何使用Kafka, Spark, and Kudu构建实时BI系统.

Snackr:实时收听个性化的音频新闻

据国外媒体报道,Snackr是一个让你实时收听个性化音频新闻的iPhone应用,可以为你播放最新消息以及商业.娱乐.高科技和初创企业等类别的音频流. 除了提供新鲜的音频新闻之外,Snackr还有一个很酷的"每日欢迎"功能,可以告诉你当前的天气,你朋友的生日,你最喜欢的球队的最新消息等等. 一位试用过Snackr的业界人士表示,BuzzVoice应用也可以帮你读出RSS内容源,但它的售价为 3.99美元,如果你想要使用它的无广告版,那么你每月还要交3.99美元.而且BuzzVoice机器

使用 HTML5 WebSocket 构建实时 Web 应用

在 IBM Bluemix 云平台上开发并部署您的下一个应用. 开始您的试用 作为下一代的 Web 标准,HTML5 拥有许多引人注目的新特性,如 Canvas.本地存储.多媒体编程接口.WebSocket 等等.这其中有"Web 的 TCP "之称的 WebSocket 格外吸引开发人员的注意.WebSocket 的出现使得浏览器提供对 Socket 的支持成为可能,从而在浏览器和服务器之间提供了一个基于 TCP 连接的双向通道.Web 开发人员可以非常方便地使用 WebSocket

【Spark Summit East 2017】 使用Kafka Connect和Spark Streaming构建实时数据管道

本讲义出自Ewen Cheslack Postava在Spark Summit East 2017上的演讲,主要介绍了面对使用Spark Streaming构建大规模实时数据管道的挑战,Kafka项目最近推出了新的工具-- Kafka Connect,该工具将帮助简化从Kafka导入和导出数据,Ewen Cheslack Postava分享了如何使用Kafka Connect和Spark Streaming构建实时数据管道.

【Hadoop Summit Tokyo 2016】使用Hadoop来构建实时和批数据的数据质量服务

本讲义出自Alex Lv与Amber Vaidya在Hadoop Summit Tokyo 2016上的演讲,主要分享了构建于Spark和Hadoop上的开源数据质量平台Griffin,Griffin可以用于处理批量数据.实时数据和非结构化的数据,并且构建了统一的过程来检测无效或者不准确等DQ问题,讲义中介绍了eBayGriffin的技术架构.以及用例等.