数据挖掘与数据化运营实战. 3.6 信息质量模型

3.6 信息质量模型

信息质量模型在互联网行业和互联网数据化运营中也是有着广泛基础性应用的。具体来说,电商行业和电商平台连接买卖双方最直接、最关键的纽带就是海量的商品目录、商品Offer、商品展示等,无论是B2C(如当当网、凡客网),还是C2C(如淘宝网),或者是B2B(如阿里巴巴),只要是以商业为目的,以交易为目的的,都需要采用有效手段去提升海量商业信息(商品目录、商品Offer、商品展示等)的质量和结构,从而促进交易。在同等条件下,一个要素齐备、布局合理、界面友好的网上店铺或商品展示一定比不具备核心要素、布局不合理、界面不友好的更加容易达成交易,更加容易获得买家的好感,这里揭示的其实就是信息质量的重要价值。

为让读者更加直观了解信息质量的含义,下面通过某网站的截图来举例说明什么是信息质量好的Offer效果,如图3-1和图3-2所示。

不难发现,相对于图3-2来说,图3-1中有更多的商品要素展示,包括付款方式、产品品牌、产品型号等,另外在详细信息栏目里,所包含的信息也更多更全。也就是说,图3-1中商品Offer的信息质量要明显好于图3-2。

互联网行业的信息质量模型所应用的场合主要包括商品Offer质量优化、网上店铺质量优化、网上论坛的发帖质量优化、违禁信息的过滤优化等,凡是涉及信息质量监控和优化的场景都是适用(或借鉴)信息质量模型的解决方案的。

构建信息质量模型所涉及的主要还是常规的数据挖掘技术,比如回归算法、决策树等。但是对于信息质量模型的需求,由于其目标变量具有一定的特殊性,因此它与目标客户预测(响应)模型在思路和方法上会有一些不同之处,具体内容如下。

任何模型的搭建都是用于响应特定的业务场景和业务需求的,有时候搭建信息质量模型的目标变量是该信息(如商品Offer)是否在特定的时间段产生了交易,此时,目标变量就是二元的,即是与否;更多的时候,信息质量模型的目标变量与是否交易没有直接关系(这其实很容易理解,因为影响成交的因素太多),甚至有些时候信息质量本身是主观的判断,在这种情况下,没有明确的来自实际数据的目标变量。那如何定义目标变量呢?专家打分,模型拟合是一个比较合适的变通策略。

对于专家打分,模型拟合的具体操作,下面以“商品Offer的星级划分”项目为例来进行具体的解释和示范。商品Offer其实就是网上交易中,卖家针对每种出售的商品展示具体的商品细节、交易条款、图片细节等,使其构成的一个完整的页面,一般来说买家浏览了某种具体的商品Offer以后,只要点击“加入购物车”就可以进行后续的购买付费流程了。在某次“商品Offer的星级划分”项目中,目标变量就是专家打分,由业务专家、行业专家基于行业的专业背景知识,针对商品Offer构成要素的权重进行人为打分,这些构成要素包括标题长度、图片数量、属性选填的比例、是否有分层价格区间、是否填写供货总量信息、是否有混批说明、是否有运营说明、是否支持在线第三方支付等。首先抽取一定数量的样本,请行业专家对这些样本逐个打分赋值,在取得每种商品Offer的具体分数后,把这些分数作为目标变量,利用数据挖掘的各种模型去拟合这些要素与总分数的关系,最终形成一个合适的模型,该模型比较有效地综合了专家打分的意见并且有效拟合Offer构成要素与总分数的关系。为了更加准确,在专家打分的基础上,还可以辅之以客户调研,从而对专家的打分和各要素的权重进行修正,最后在修正的基础上进行模型的搭建和拟合,这属于项目的技术细节,不是项目核心,故不做深入的讲解。

信息质量模型是电子商务和网上交易的基本保障,其主要目的是确保商品基本信息的优质和高效,让买家更容易全面、清楚、高效地了解商品的主要细节,让卖家更容易、更高效地展示自己的商品。无论是C2C(如淘宝),还是B2B(如阿里巴巴),抑或是B2C(如当当网、凡客网),都可以用类似的方法去优化、提升自己的商品展示质量和效果,有效提升和保障交易的转化率。

时间: 2024-09-09 20:14:46

数据挖掘与数据化运营实战. 3.6 信息质量模型的相关文章

数据挖掘与数据化运营实战. 3.10 信用风险模型

3.10 信用风险模型 这里的信用风险包括欺诈预警.纠纷预警.高危用户判断等.在互联网高度发达,互联网技术日新月异的今天,基于网络的信用风险管理显得尤其基础,尤其重要. 虽然目前信用风险已经作为一个独立的专题被越来越多的互联网企业所重视,并且有专门的数据分析团队和风控团队负责信用风险的分析和监控管理,但是从数据分析挖掘的角度来说,信用风险分析和模型的搭建跟常规的数据分析挖掘没有本质的区别,所采用的算法都是一样的,思路也是类似的.如果一定要找出这两者之间的区别,那就得从业务背景考虑了,从风险的业务

数据挖掘与数据化运营实战

大数据技术丛书 数据挖掘与数据化运营实战:思路.方法.技巧与应用 卢辉 著 图书在版编目(CIP)数据 数据挖掘与数据化运营实战:思路.方法.技巧与应用 / 卢辉著.-北京:机械工业出版社,2013.6 (大数据技术丛书) ISBN 978-7-111-42650-9 I. 数- II. 卢- III. 数据采集 IV. TP274 中国版本图书馆CIP数据核字(2013)第111479号 版权所有·侵权必究 封底无防伪标均为盗版 本书法律顾问 北京市展达律师事务所     本书是目前有关数据挖

数据挖掘与数据化运营实战.导读

 本书是目前有关数据挖掘在数据化运营实践领域比较全面和系统的著作,也是诸多数据挖掘书籍中为数不多的穿插大量真实的实践应用案例和场景的著作,更是创造性地针对数据化运营中不同分析挖掘课题类型,推出一一对应的分析思路集锦和相应的分析技巧集成,为读者提供"菜单化"实战锦囊的著作.作者结合自己数据化运营实践中大量的项目经验,用通俗易懂的"非技术"语言和大量活泼生动的案例,围绕数据分析挖掘中的思路.方法.技巧与应用,全方位整理.总结.分享,帮助读者深刻领会和掌握"以业

数据挖掘与数据化运营实战. 2.4 互联网行业数据挖掘应用的特点

2.4 互联网行业数据挖掘应用的特点 相对于传统行业而言,互联网行业的数据挖掘和数据化运营有如下的一些主要特点: 数据的海量性.互联网行业相比传统行业第一个区别就是收集.存储的数据是海量的,这一方面是因为互联网的使用已经成为普通人日常生活和工作中不可或缺的一部分,另一方面更是因为用户网络行为的每一步都会被作为网络日志记录下来.海量的数据.海量的字段.海量的信息,尤其是海量的字段,使得分析之前对于分析字段的挑选和排查工作显得无比重要,无以复加.如何大浪淘沙挑选变量则为重中之重,对此很难一言以蔽之的

数据挖掘与数据化运营实战. 2.3 数据挖掘的主要成熟技术以及在数据化运营中的主要应用

2.3 数据挖掘的主要成熟技术以及在数据化运营中的主要应用 2.3.1 决策树 决策树(Decision Tree)是一种非常成熟的.普遍采用的数据挖掘技术.之所以称为树,是因为其建模过程类似一棵树的成长过程,即从根部开始,到树干,到分枝,再到细枝末节的分叉,最终生长出一片片的树叶.在决策树里,所分析的数据样本先是集成为一个树根,然后经过层层分枝,最终形成若干个结点,每个结点代表一个结论. 决策树算法之所以在数据分析挖掘应用中如此流行,主要原因在于决策树的构造不需要任何领域的知识,很适合探索式的

数据挖掘与数据化运营实战. 1.2 数据化运营的主要内容

1.2 数据化运营的主要内容 虽然目前企业界和学术界对于"数据化运营"的定义没有达成共识,但这并不妨碍"数据化运营"思想和实践在当今企业界尤其是互联网行业如火如荼地展开.阿里巴巴集团早在2010年就已经在全集团范围内正式提出了"数据化运营"的战略方针并逐步实施数据化运营,腾讯公司也在"2012年腾讯智慧上海主题日"高调宣布"大数据化运营的黄金时期已经到来,如何整合这些数据成为未来的关键任务". 综合业界尤其

数据挖掘与数据化运营实战. 2.2 统计分析与数据挖掘的主要区别

2.2 统计分析与数据挖掘的主要区别 统计分析与数据挖掘有什么区别呢?从实践应用和商业实战的角度来看,这个问题并没有很大的意义,正如"不管白猫还是黑猫,抓住老鼠才是好猫"一样,在企业的商业实战中,数据分析师分析问题.解决问题时,首先考虑的是思路,其次才会对与思路匹配的分析挖掘技术进行筛选,而不是先考虑到底是用统计技术还是用数据挖掘技术来解决这个问题. 从两者的理论来源来看,它们在很多情况下都是同根同源的.比如,在属于典型的数据挖掘技术的决策树里,CART.CHAID等理论和方法都是基于

数据挖掘与数据化运营实战. 1.3 为什么要数据化运营

1.3 为什么要数据化运营 数据化运营首先是现代企业竞争白热化.商业环境变成以消费者为主的"买方市场"等一系列竞争因素所呼唤的管理革命和技术革命.中国有句古语"穷则思变",当传统的营销手段.运营方法已经被同行普遍采用,当常规的营销技术.运营方法已经很难明显提升企业的运营效率时,竞争必然呼唤革命性的改变去设法提升企业的运营效率,从而提升企业的市场竞争力.时势造英雄,生逢其时的"数据化运营"恰如及时雨,登上了大数据时代企业运营的大舞台,在互联网运营的

数据挖掘与数据化运营实战. 3.3 运营群体的活跃度定义

3.3 运营群体的活跃度定义 运营群体(目标群体)的活跃度定义,这也是数据化运营基本的普遍的要求.数据化运营与传统的粗放型运营最主要的区别(核心)就是前者是可以准确地用数据衡量,而且这种衡量是自始至终地贯穿于数据化运营的全过程:而在运营全过程的衡量监控中,活跃度作为一个综合的判断指标,又在数据化运营实践中有着广泛的应用和曝光.活跃度的定义没有统一的描述,一般都是根据特定的业务场景和运营需求来量身订做的.但是,纵观无数场景中的活跃度定义,可以发现其中是有一些固定的骨架作为基础和核心的.其中最重要.