B2C网站设计理论:推荐商品页面的建立

推荐系统广泛应用于各类网站,电子商务中的商品推荐、博客网站的文章推荐,以及帮助人们寻找音乐和影片的各类应用。但如何才能从无到有的给网站配备一个推荐系统呢?针对这个问题,我在搜索引擎中遍寻多时,但始终没有找到满意的答案。这期间我也加入了国内推荐系统高手聚集的推荐系统邮件列表,其中不乏当当、卓越亚马逊、豆瓣等业内在推荐系统上领先的产品、技术高手,但浸淫多日却始终无法在脑海中形成一个以内容推荐为最终目的的产品框架或产品路线图。这种状态一直持续到我购买了集体智慧编程(Programming Collective Intelligence)后才得以改观,现在我将此书的部分读书笔记予以整理,希望能给同样对推荐系统感兴趣的朋友整理出一个可操作的、适合内容型网站推荐系统产品框架。

——————–正文分割线——————–

我们知道,要想了解内容网站的推荐信息,最没有技术含量的方法莫过于向朋友询问。我们也知道,这其中有一部分人的品位会比其他人的高一些,通过观察这些人是否通常也和我们一样喜欢同样的东西,可以逐渐对这些情况有所了解。不过随着选择越来越多,要想通过询问一小群人来确定我们想要的东西,将会变得越来越不切实际,因为他们可能并不了解所有的选择。这就是为什么人们要发展出一套被称为协同过滤(collaborative filtering)的技术。从实际的情况看,目前我们所能接触到的领先推荐系统,包括Netfilx、豆瓣、Amazon等等都是利用协同过滤技术来实现的。协同过滤又分成几种:基于用户的协同过滤、基于项目的协同过滤、基于模型的协同过滤。

那么到底什么是协同过滤?它需要产品设计者做哪些事情才能实现?(为了让问题简化,这里着重介绍基于用户的协同过滤)

一个基于用户的协同过滤过滤算法通常的做法是对一大群人进行搜索,并从中找出与我们品位相近的一小群人。算法会对这些人所偏爱的其他内容进行考察,并将它们组合起来构成一个经过排名的推荐列表。因此产品设计者需要理解你的网站需要依次做以下这几件事情:

1.搜集偏好(Collecting Preferences)

要搜集偏好意味着要寻找一种表达不同人及其偏好的方法。例如,豆瓣会要求用户对每部电影用1到5颗星来评分,以此来体现包括本人在内的每位影评者对某一给定影片的喜爱程度。假如你正在设计一个购物网站,那不妨用数字1来代表有人过去购买过某件商品,用数字0来代表未曾购买过任何商品。而对于一个新闻故事投票网站,我们可以分别用数字-1、0和1来表达“不喜欢”、“没有投票”、“喜欢”。不管偏好如何表达的,你要做的是建立一种方法来使得你的用户来参与表达,并把他们表达的内容对应到数字以形成相应的数据集合。

2.寻找相近的用户(Finding Similar Users)

有了人们偏好的数据集后,我们需要有一种方法来确定人们在品位方面的相似程度。为此,我们可以将每个人与所有其他人进行对比,并计算他们的相似度评价值。有若干种方法可以达到此目的:欧几里德距离(Euclidean Distance Score)皮尔逊相关度(Person Correlation Coefficient)余弦相似性(Cosine-based Similarity)、调整余弦相似性(Adjusted Cosine Similarity)、Jaccard系数曼哈顿距离算法等。请记住,各种相似度的计算方法各有所长,要根据具体的应用场景来选取一种或几种综合使用。

下面以实际例子简单介绍两种:

欧几里德距离(Euclidean Distance Score):它以经过人们一致评价的物品为坐标轴,然后将参与评价的人绘制到图上,并考察他们彼此间的距离远近。x轴、y轴分别代表电影Dupree和Snake,而在第一象限偏好空间里的则是每个人对这两部电影的评分。

不难发现,Toby对Snakes和Dupree这两部电影的评分是4.5和1.0,而LaSalle的则是4.0和2.0。按照欧几里德距离的结论,偏好越相似的人,其在偏好空间的距离就越短。至于如何计算两者的距离,运用你初中学的几何知识就行,计算两点每个坐标的差值,求平方后再相加,最后对总和取平方根。值得一提的是此方法对于数量多于两项的评分也同样适用。因此,你可以设计一个函数来计算2个用户间的相似度,当然前提是两者需要有一定重合的评分项。

皮尔逊相关度(Pearson Correlation Score):它的原理是通过判断两组数据与某一直线拟合程度来判断相似度。它在数据不是很规范(normalized)的时候,如影评者对影片的评价总是相对于平均水平偏离很大时,会倾向于给出更好的结果。

如下图是Mick LaSalle和Gene Seymour分别对5部电影的评分(与上图不同,x轴和y轴对应的是两个人),虚线被称为最佳拟合线(best-fit line),其绘制原则是尽可能地靠近图上的所有坐标点。如果两位评论者对所有影片的评分情况都相同,那么这条直线将成为对角线,并且会与图上所有的坐标点都相交。

下图展示了一个有着更高相关系数的例子,这意味着Lisa Rose和Jack Matthews在这几部电影上有着更高的相似度(各点更靠近最佳拟合曲线)。

采用皮尔逊方法可以修正“夸大分值(grade inflation)”的情况。在上图中,虽然Jack总是倾向于给出比Lisa更高的分数,但最终的直线仍然拟合度较高,这是因为他们两者有着相对近似的偏好。也就是说,如果某人总是倾向于给出比另一人更高的分数,而两者的分差又始终保持一致,则他们依然可能会存在很好的相关性。而此前提到过的欧几里德距离评价方法,会因为一个人的评价始终比另一个人更为“严格”(从而导致评价始终相对较低),而得出两者不相近的结论,即使他们的品位很相似也是如此。而这一行为是否是我们想要的结果,取决于具体的应用场景。

皮尔逊的相关度算法首先会找出两位评论者都曾评价过的物品,然后计算两者的评分总和和平方和,并求得评分的乘积之和。最后,利用这些计算结果计算出相关系数:

PS:公式能看懂,但我还未能从数学上去理解此公式的推导过程,惭愧-_-

3.为评论者打分(Ranking the Critics)

理解了上一步后,这步就简单了。现在只需根据指定的人员对每个人进行打分,找出最接近的匹配结果,也即所谓该人的最近邻。回到上面的例子,我们的目的是要寻找与自己品位相似的影评者,那么所需要做的就是以你自己为基准,计算每个人和你的相似度,然后排序输出前几项即可。现在假设你是Toby,那么经过这一步的计算你会得到一个你的最近邻列表,也就是说你可能会知道Lisa、Mick和Claudia可能是和你品位最相近的3个人。

4.推荐物品(Recommending Items)

找到一位和你趣味相投的影评者固然不错,但我们的最终目的是一份影片的推荐列表(上面提到过的以内容推荐为最终目的)。当然,简单的做法是查找与自己品位最相近的人,并从他所喜欢的影片中找出一部自己还未看过的影片,但这样做有些随意或者是粗糙。因为如果该人还未对某些影片做过评论,但这些影片也许就是我们所喜欢的。又或者另外的一种情况就是推荐给你某人特别热衷的一部影片,但有其他可靠数据表明所有的其他评论者都不看好这部影片。

为了解决上述问题,我们需要一个经过加权的评价值来为影片打分:

上图中Critic列是与Toby进行相似度对比的人名,Similarity列表示他们与Toby的相似度系数。Night、Lady和Luck都是电影名,所在列是这些人对这些电影的评分。S.x打头的那几列给出了相似度系数和评分后相乘的结果。如此一来,相比于我们不相近的人,那些与我们相近的人将会对整体评价拥有更多的贡献。

那有人会问为什么不直接采用Total这行,而需要Total/Sim.Sum?这是因为,一部受更多人评论的影片会对结果产生更大的影响,因此我们必须要除以Sim.Sum,它代表了所有对这部电影有过评论的评论者的相似度之和。就像Night这部电影,Total为12.89,有5个人为其评分,而Lady为8.38,4个人评分。假设电影Night有和当前相同的Total分数却多了一倍的人为其评分,那最后的结果也未必一定比电影Lady的Total/Sim.Sum更好。

好了,我们现在已经得到了一个经过排名的影片列表了,你可以决定自己究竟要不要观看其中的某一部,或者干脆什么也别看。其实,有时候什么都不推荐也是一种推荐。

最后我用lovelycharts画了这张流程图(用的时候才现不支持中文噢)。如果你想要设计一个推荐系统,现在应该大概清楚要做哪几件事情了吧:)

时间: 2024-10-27 07:55:23

B2C网站设计理论:推荐商品页面的建立的相关文章

B2C网站商品页设计理论:相关商品推荐设计

文章描述:B2C网站商品详情页如何设计相关商品推荐? 为什么要做相关商品推荐? 商品详情是可能挖出金子的岛屿,我们都知道. 于是我们使了各种招式,终于让用户来到了商品详情页.我们悄悄念起魔鬼的咒语,恨不得用户马上去点全页最醒目的那个"加入购物车"或"立刻购买".可是,绝大部分B2C商详页的UV转化率不超过5%(何况是PV!),绝大部分用户最终是不会购买这个商品的,有可能他是被大胸的模特图骗进来的,有可能价格不合适,有可能商品细节不喜欢,有可能大多数的好评里有一个让他

国外网站设计资源推荐

国外网站|设计|设计资源 CSS库 做设计的时候总是容易没有灵感.到CSS库去看看别人做得设计也许会帮你找到不少灵感.如果你的设计足够优秀让这些CSS库收录的话,那么这还会为你带来很多访问者 Unmatchedstyle cssBeauty cssvault Stylegala CSS Drive css thesis Styleboost CSSElite CSS Import Web Creme CSS Mania DesignShack  Web标准 遵守Web标准来编写代码会使你的代码干

网站设计实例分享:页面简单内容丰富获用户青睐(一)

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 网站设计包涵了从程序设计到网站美观及全站优化,随着技术水平的不断提什与专业知识的不断融合,越来越多的具备优化技术与专业设计人员融入了互联网中,于是一大批具备美观.优化的网站诞生了,今天就用实例来说明页面简单但内容丰富的网站是如何登上搜索引擎的舞台的. 我们来看这个网站的栏目,总共栏目分为了19个小类,采用的是五号字体,栏目分类下面具备了四大新

B2C网站设计:你的网站需要使用TAB栏?

TAB栏是适合多内容页面排版的最好方法之一,它可以在不增加页面长度或者打乱页面排版基础上美化页面,并且这几年逐渐成为电子商务网站越来越常用的方法–特别是产品页面上的使用. 但是我在浏览这些使用TAB栏的站点时一直关心这个问题–TAB栏是否被顾客注意到?它们是否太不明显了? 我最近在研究的一个站点,它的交叉销售和鼓励销售的产品附加点击率很低.罪魁祸首就是产品推荐被隐藏在了一个基本上没人点击的TAB栏上了. 以下是一些电子商务网站的TAB栏范例: 主页/导航 TAB栏是适合多内容页面排版的最好方法之

SNS化初步尝试:零售巨头Kmart公司B2C网站设计简析

多次挤进世界零售业排行榜前三的Kmart公司上周最近发布了 重新设计的B2C站点Kmart.com.这个 新的B2C站点的UI改版所展示的一些特点,值得我们国内B2C同行学习学习一下. &http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; Kmart.com改版的核心目标是让购物者以最快的速度找到想要的产品,以提升网站转换率.此次改版的最大特点是被称之为"流体版面设计(liquid layout)"

B2C网站设计体验:购物车中的胡萝卜

针对性销售是指内容交付,并基于您对不同站点访客和客户的了解提供给他们相应的内容.您可以将针对性销售的规则应用在主页的特色商品上,在产品页上采取cross-sells/upsells(个人理解:交叉推销,让客户购买相关产品的营销手法/升格推销,让客户买更贵.更高级产品的营销手法),在主页或搜索结果页甚至在购物车页上采取Banner促销. 您会发现在购物车摘要页上最常见的提议是"you are $X away from free shipping"(XX元免运费),免运费促销信息往往都是出

B2C网站设计:用户注册登录流程和购买流程设计

网络购物网站根据买家和卖家的不同形态,主要分为三类商业模式:B2B  B2C  C2C ,这三种商业模式在传统的线下也有相对应的典型形态:  B2B 对应专业的批发市场  B2C 对应购物超市  C2C对应个体摊位组成的市场.所以说网络购物网站并不是完全意义上模式创新,它只是利用了新的媒介和新的平台来承载卖家和买家的商业活动,因此其网络购物购物流程和传统的是一样的,还是有借鉴意义的. 我们可以画出下面这个用户网络购物的基本流程图 这几个步骤是用户网络购物的基础环节,每个网站根据不同的需要增加相应

如何从b2c网站上拿到商品价格数据?

问题描述 如题,有点头疼的问题.首先我得到一个网页地址,然后根据这个地址发起HTTP操作,取得商品信息.可是发现现在很多的网站比如京东新蛋什么的产品价格那个位置放了张图片图片格式的价签不知道是不是故意这么干的....图像识别的话太慢了,而且怕不准,求问有什么号得策略么?

网站优化不可忽视的404页面设计

当网站的用户和搜索引擎访问网站上不存在的页面时,服务器终端会返回404错误页面,如果站长没有给网站设计人性化的404页面,那服务会默认返回错误信息页面,用户并不能通过错误页面进入其他页面,这样的网站建设方法,在SEO的角度来看,是不利于用户体验和蜘蛛抓取的.网站优化时不可忽视对网站404页面的设计,笔者给大家说说几点404页面的设计. 正确返回错误代码 当网站中有不存在的页面时,用户访问时会返回404代码,有的站长为了省去404页面,并会把错误代码返回到200状态码,或是直接301跳转到网站首页