牛奶搭配销售关联算法

在数据挖掘过程中，由于数据存在分散性和偶然性，因而在底层的数据关联上很难准确挖掘出强关联规则，进而也很难为我们决策提供参考。通常的解决的方案通常是引入概念层次，在较高的层次上，我们就可以通过“支持度和置信度”的框架来挖掘多层关联规则。

从一家公司的销售记录中我们找到以下8条消费记录，并以3作为最小支持度，也就是说出现频率在3次以下的记录是被我们所忽略的。

所有满足最小支持度3的1项频集如下，其中的支持度是指该产品在整个数据集中出现的次数。比如牛奶出现了5次，而冰淇淋出现了3次。

递归执行，所有满足最小支持度3的2项频集如下，这其中出现最多的频集是｛牛奶，面包｝和｛面包，果酱｝，各自出现了4次。

再次递归执行，所有满足最小支持度3的3项频集只剩下一条：

那么｛牛奶，果酱，面包｝就是我们要的满足最小支持度3的3项频集，也就是说牛奶、果酱和面包这三个商品是最经常被一起购买的。

概念层次的数据挖掘

在研究挖掘关联规则的过程中，许多学者发现在实际应用中，对于很多应用来说，由于数据分布的分散性，数据比较少，所以很难在数据最细节的层次上发现一些强关联规则。要想在原始的概念层次上发现强的（strong）和有意义的（interesting）关联规则是比较困难的，因为好多项集往往没有足够的支持数。

当我们引入概念层次后，就可以在较高的层次上进行挖掘。虽然较高层次上得出的规则可能是更普通的信息，但是对于一个用户来说是普通的信息，对于另一个用户却未必如此。所以数据挖掘应该提供这样一种在多个层次上进行挖掘的功能。

概念层次在要挖掘的数据库中经常是存在的，比如在一个超市中会存在这样的概念层次：蒙牛牌牛奶是牛奶，伊利牌牛奶是牛奶，王子牌饼干是饼干，康师傅牌饼干是饼干等。

如果我们只是在数据基本层发掘关系，｛蒙牛牌牛奶，王子牌饼干｝，｛蒙牛牌牛奶，康师傅牌饼干｝，｛伊利牌牛奶，王子牌饼干｝，｛伊利牌牛奶，康师傅牌饼干｝都不符合最小支持度。不过如果我们上升一个层级，会发现｛牛奶，饼干｝的关联规则是有一定支持度的。

我们称高层次的项是低层次项的父亲层次（parent），这种概念层次关系通常用一个DAG（directed acyclic graph，有向无环图)来表示。所谓有向无环图是指，任意一条边有方向，且不存在环路的图。这样我们就可以在较高的概念层次上发现关联规则。

支持度的设置策略

根据规则中涉及的层次和多层关联的规则，我们可以把关联规则分为同层关联规则和层间关联规则。多层关联规则的挖掘基本上可以沿用“支持度—置信度”的框架。不过，在支持度设置的问题上有一些要考虑的东西。

同层关联规则可以采用两种支持度策略：

统一的最小支持度。对于不同的层次，都使用同一个最小支持度。这样对于用户和算法实现来说都比较容易，但是弊端也是显而易见的。

递减的最小支持度。每个层次都有不同的最小支持度，较低层次的最小支持度相对较小。同时还可以利用上层挖掘得到的信息进行一些过滤的工作。层间关联规则考虑最小支持度的时候，应该根据较低层次的最小支持度来定。

以上我们讨论的基本上都是同一个字段的值之间的关系，比如用户购买的物品。换句话说就是在单维或者叫维内的关联规则，这些规则很多都是在交易数据库中挖掘的。

但是对于实际应用来说，多维的关联规则可能是更加有价值的。

同时，在挖掘维间关联规则和混合维关联规则的时候，还要考虑不同的字段种类，是分类型数据还是数值型数据等等。

原文发布时间为：2013-09-18

时间： 2024-08-11 17:53:09

牛奶搭配销售关联算法的相关文章

B2C网站商品销售排行榜设计的思考

在当当上买书,买了自己想要的书后,想再挑选几本其他领域(例如银行会计学原理)的经典图书看看.对于自己熟悉领域内的图书挑选相对容易,基本上通过朋友间推荐.Blog.Twitter.SNS.专业论坛等的口碑方式较容易得知那些图书被大家所推荐.但对于自己并不熟悉领域的图书的优劣就无从判定了.通过豆瓣.关联推荐.关键词搜索等方式找了半天也没找到合适的图书,闲逛时候方向了当当的"当当榜",使用了一下,效果还不错,找到了几本不错的图书. 一般来说,我对图书的选购都是通过如下一些方法:

微博背后的大数据算法探寻：微博推荐算法简述

在介绍微博推荐算法之前,我们先聊一聊推荐系统和推荐算法.有这样一些问题:推荐系统适用哪些场景?用来解决什么问题.具有怎样的价值?效果如何衡量? 推荐系统诞生很早,但真正被大家所重视,缘起于以"facebook"为代表的社会化网络的兴起和以"淘宝"为代表的电商的繁荣,"选择"的时代已经来临,信息和物品的极大丰富,让用户如浩瀚宇宙中的小点,无所适从.推荐系统迎来爆发的机会,变得离用户更近: 快速更新的信息,使用户需要借助群体的智慧,了解当前热点.信息

探寻微博背后的大数据原理：微博推荐算法简述

一文总览数据科学全景：定律、算法、问题类型...

2016年,英国数学家,乐购俱乐部构架师Clive Humbly提出"数据是新能源"这样一个说法.他说: "数据是新能源.它拥有极高的价值,却需要经过提炼才能使用.就像石油一样,必须被转化为气体.塑料或者化学品等,才能发挥出其实际的作用: 因此,数据只有被分解和分析之后才具备价值." iPhone革命,移动经济的增长,为大数据技术的发展创造了一个完美的契机.在2012年,HBR(Harvard Bussiness Review)发表过一篇文章,将数据科学家推到了风口

淘宝产品如何做好关联营销？利用流量资源降低推广成本

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅如果在参加活动的同时,再配合策划一些关联营销进行导流.分流,提高转化率和客单价,就能够充分利用流量资源,有效降低推广成本. 文/特邀作者淘宝岚姐姐对于商家来说,每一个流量都是宝贵的,因为我们都知道,这些流量都是花钱买来的,所以,每一次直通车和钻展的投放,我们都会特别关注点击率.转化率和跳失率的变化,但对于官方活动这种一次性"批发

java使用hadoop实现关联商品统计_java

最近几天一直在看Hadoop相关的书籍,目前稍微有点感觉,自己就仿照着WordCount程序自己编写了一个统计关联商品. 需求描述: 根据超市的销售清单,计算商品之间的关联程度(即统计同时买A商品和B商品的次数). 数据格式: 超市销售清单简化为如下格式:一行表示一个清单,每个商品采用 "," 分割,如下图所示: 需求分析: 采用hadoop中的mapreduce对该需求进行计算. map函数主要拆分出关联的商品,输出结果为 key为商品A,value为商品B,对于第一条三条结果拆分结

电子商务网站销售排行榜设计思考

在当当上买书,买了自己想要的书后,想再挑选几本其他领域(例如银行会计学原理)的经典图书看看.对于自己熟悉领域内的图书挑选相对容易,基本上通过朋友间推荐.Blog.Twitter.SNS.专业论坛等的口碑方式较容易得知那些图书被大家所推荐.但对于自己并不熟悉领域的图书的优劣就无从判定了.通过豆瓣.http://www.aliyun.com/zixun/aggregation/8699.html">关联推荐.关键词搜索等方式找了半天也没找到合适的图书,闲逛时候方向了当当的"当当榜&q

广州香满楼牛奶致俩男童喝后发烧腹泻

■"喝完牛奶四岁男童发烧"追踪厂家已将同批次的包装常温奶送检,表示"会有满意的答复"新快报讯记者苏中阳报道本报5月5日A03版报道了四岁男童饮用香满楼牛奶后发烧急送医的消息,见报当日,市民谢女士报料称,其儿子于前一天饮了一盒香满楼牛奶之后,同样出现了发烧和腹泻情况,"也太巧了吧?"香满楼方面表示,目前两单投诉都处于调查阶段,"如果最后的调查结果证明确实是我们公司的责任,将会对客户和社会有一个满意的答复"."喝

《BI那点儿事》数据挖掘各类算法——准确性验证

原文:<BI那点儿事>数据挖掘各类算法--准确性验证准确性验证示例1:--基于三国志11数据库数据准备: 挖掘模型:依次为:Naive Bayes 算法.聚类分析算法.决策树算法.神经网络算法.逻辑回归算法.关联算法提升图: 依次排名为: 1. 神经网络算法(92.69% 0.99)2. 逻辑回归算法(92.39% 0.99)3. 决策树算法(91.19% 0.98)4. 关联算法(90.60% 0.98)5. 聚类分析算法(89.25% 0.96)6. Naive Bayes 算法(87

猜你喜欢

Response.redirect实现页面重定向

redirect|response|页面用 Redirect 方法可将浏览器重定向到另一个 URL,而不是将内容发送给用户.例如,如果您想确认用户是否已从主页进入了您的应用程序,以便能收到一个客户 ...

十三则Dreamweaver使用快技法

dreamweaver 1.灵活运用样式熟悉网页设计的网友就知道,调用Style的方法很多,我们可以单击鼠标右键选择Custon Style来调用Style标准,也可以在状态栏中的元素列表上单击右键 ...

PHP、JAVA及.NET三种技术的区别

有朋友在问这方面的问题,整理一下给大家帖出来,供初学者在选择技术时有一个参考. 三种编程技术各有优势,我们大概可以从语言.平台这二点来区分: 一.语言: PHP:PHP产生与1994年,其语法混合了C ...

ASP.NET 2.0数据教程之六十七：在TableAdapters里创建新的存储过程

返回"ASP.NET 2.0数据教程目录" 导言: 本教程的Data Access Layer (DAL)使用的是类型化的数据集 (Typed DataSets).就像我们在第一章 ...

Python 的 Socket 编程

这篇文章最初发布的时候标题是"Python的WebSocket编程",坦白来说有点文不对题.我们在这里打算讨论的仅仅是常规的socket编程.尽管 Web Socket 和常规s ...

tp842+路由器怎么设置l2tp vpn

tp842+路由器设置l2tp vpn的方法某公司需要为出差员工提供VPN接入,保证出差员工可以通过VPN 隧道安全访问内网服务器资源.分析用户需求,可以通过L2TP VPN功能满足该需求.以下 ...

如何给Ubuntu 安装Vmware Tools

选择虚拟机菜单栏--安装VMware tools 然后在Ubuntu系统中弹出的VMware tools窗口中找到VMwaretools-9.6.0-1294478.tar.gz 然后右击--复 ...

如何做一个只搜索本网站的引擎？

searchfiles.html <html> <head> <title>撼雪喷云之本网搜索引擎</title> </head> &l ...

PPT幻灯片中插入Flash动画

现在很多学科经常要做一些研究性学习或者调查报告,使用Powerpoint是个不错的主意. 而很多时候,我们需要添加一些flash动画来使我们的幻灯片更加生动.美观和具有说服力.但是Powerpoint ...

Win8系统如何打开任务管理器?

在遇到程序卡死等状况时大家一般都会开启任务管理器来关闭进程,同时任务管理器中的"性能"选项卡还能提供有关计算机如何使用系统资源(例如随机存取内存 (RAM) 和中央处理器 (C ...

Mac安装最新显卡驱动教程

日前,网友noerhsu分享了一个在Mac设备上使用最新的显卡驱动的教程,该网友表示,这个教程能够将设备的性能提升30%以上,下面我们一起来了解一下. - 下载mXDriver 16.4.2和Di ...

java-安装jdk时出现以下错误，请问什么原因

问题描述安装jdk时出现以下错误,请问什么原因电脑是win10 64位的解决方案我也遇到了你的问题, 换个版本74吧.jdk-8u74-windows-x64.exe.8u73不知道为什么.h ...

centos网卡错误Device eth0 does not seem to be present

在使用vmware及VirtualBox迁移linux系统过程中,发现部署后的linux系统无法启动网卡报错为 Bringing up interface eth0: Device eth0 doe ...

最新发布：数据库防火墙技术市场调研报告

自2015年8月至9月,数据库安全专业提供商安华金和与第三方社区合作,共同面向广大IT从业人员进行数据库防火墙市场认知度调研,期望真实获取来自用户的反馈,把握客户需求和体验,从而进行数据库防火墙产品的 ...

流量战争：中国互联网的新一轮上山下乡运动

今年已是移动互联网发展的第7个年头,世道要变了. 线上流量的价格不断走高,红利消耗殆尽,大量的互联网从业者被昂贵的流量压得喘不过气.在"上山"的路几无多利的情况下,更多的选择&qu ...

关于打印机驱动字体设置的问题

问题描述关于打印机驱动字体设置的问题 HOOK截获打印数据,BOOL APIENTRY OEMTextOut( SURFOBJ *pso, STROBJ *pstro, FONTOBJ *pfo, ...

CSS 基础点集锦一：盒子模型、浮动、清除浮动

1.盒子模型: 示意图(图片来自w3school): 说明:上图中,由内而外依次是元素内容(content) 内边矩(padding-top.padding-right.padding- botto ...

《ADOBE AFTER EFFECTS CS5标准培训教材》——1.2 After Effects的发展

1.2 After Effects的发展 After Effects是Adobe公司推出的基于Windows和苹果(Macintosh)平台开发的专业级影视合成软件,它拥有先进的设计理念,可以制作丰富 ...

关于easyui: 如何设置dialog中textbox不可编辑

问题描述关于easyui: 如何设置dialog中textbox不可编辑 //$('#xzscore').attr("disabled", "disabled" ...

御泥坊创始人吴立君猝死书写淘宝店主死亡笔记

硅谷网讯有消息称,淘品牌御泥坊前董事长.可滋泉品牌缔造者吴立君于7月15日下午突发脑疾于长沙去世,年仅36岁.今日中午,可滋泉官方微博对此消息予以了确认,"吴立君先生因长期辛劳,7月8日突 ...

FB工程和产品副总裁巴多斯将离职

[导读]巴多斯已经在Facebook工作四年,是5位直接向扎克伯格接汇报工作的产品副总裁之一. 腾讯科技悦潼 9月22日编译Facebook主管工程和产品等业务的副总裁格莱格·巴多斯(Greg B ...

多线程中的死锁举例与分析（转）

1. 一个特殊构造的程序考虑下面这个专门为说明多线程中的死锁现象而构造的程序: import java.util.LinkedList; public class Stack { public s ...

【直播ing...】12.18怎么过？24小时必备攻略【此处高能，全程无尿点】

问题描述今天晚上0:00就是12.18了!你的电脑姿势摆好了吗?电费.网费充足了吗?人品攒够了吗?身为智慧与正义化身的IT弄潮儿,一定要有条不紊,提前弄清楚每个时间点该对什么下手,不错过任何一项优惠 ...

增强现实？先不要指望那些眼镜了

在2014年年中,有家叫Magic Leap的公司精心编辑了一段视频:视频中一只逼真的小象在我们的掌中玩耍.Magic Leap承诺这个令人兴奋的增强现实技术很快会实现,并颠覆性地改变娱乐和计算行业. ...

《循序渐进学Spark》一2.2　Spark程序模型

2.2 Spark程序模型下面给出一个经典的统计日志中ERROR的例子,以便读者直观理解Spark程序模型. 1)SparkContext中的textFile函数从存储系统(如HDFS)中读取日志文 ...

jquery上传插件fineuploader上传文件使用方法(jquery图片上传插件)_jquery

特点: 1.不依赖与jquery 2.而且,好看些吧..支持很多实例,上传成功后.会有一个回调函数.比如缩略图地址显示出来用法: 复制代码代码如下: <link href=" ...

从命令行快速操作注册表(图)_注册表

每一个熟悉Windows的人都相信,通过注册表几乎可以做到任何事情,真正的问题是怎样迅速找到正确的注册键. 绝大多数情形下,操作注册表意味着找到某个特定的子键:偶尔地,可能需要修改一下子键的名称(例如 ...

MySQL和SQLServer的比较_Mysql

转自: http://www.qqread.com/mysql/z442108305.html 对于程序开发人员而言,目前使用最流行的两种后台数据库即为MySQL和SQLServer.这两者最基本的相 ...

Oracle9i的全文检索技术开发者网络Oracle_oracle

正在看的ORACLE教程是:Oracle9i的全文检索技术开发者网络Oracle.介绍:细处着手,巧处用功.高手和菜鸟之间的差别就是:高手什么都知道,菜鸟知道一些.电脑小技巧收集最新奇招高招,让你轻松 ...

傲游云浏览器：玩转跨设备云中体验

步入移动互联网时代,多数网友均拥有2个至多个智能终端设备,不同设备会应用在不同的场景,但终端之间资料及信息的同步和分享成为大问题,如何借助第三方功能将不同终端无缝连接?傲游云浏览器给了我们一个绝佳 ...

热搜