1、前 言
近年来,零售业特别是连锁超市发展迅速,行业竞争不断加剧,行业整体利润下降。因此,在现有的市场条件下,">零售企业必须在保证产品质量与服务品质的同时,大力加强成本管理,使商品在质优价廉的情况下获取适当的利润,以增强企业的市场竞争力。
通过将先进的数据挖掘技术引入到零售企业成本管理领域,可以从大量的销售历史数据中获得潜在的规律和发展趋势,以指导采购、库存、促销及核定商品销售价格等。这些潜在的信息包括:为什么某一种商品的利润较低是由于库存量过大还是物流的费用过高或是损耗较大引起;哪些商品库存较大利润较低适合作为促销商品;哪几种商品的销量较大利润较高应给予重视等。
2、零售企业成本分析数据集市的建立
数据挖掘和决策支持需要将来自各种异种源的数据统一,产生高质量、纯净和集成的数据。不能简单地在一般事务数据库上进行数据挖掘,需要建立为数据挖掘和决策分析提供支持的数据集市或数据仓库。
数据集市按照某一特定部门的决策支持需求组织起来,是针对一组主体的应用系统;数据仓库是面向主体的、集成的、稳定的、时间各异的数据集合。数据集市和数据仓库相比,数据仓库实施周期长、成本巨大、见效慢;而数据集市则是一种更小、更集中的数据仓库,它是为企业提供一条部门级的分析商业数据的廉价途径。
2.1 零售企业的成本分析
零售企业的问题都要围绕着如何控制成本来思考。如何控制成本呢?成本通常由三部分构成:成本=采购成本+经营成本+销售成本。
采购成本是零售业成本控制的关键,要取得较低的采购成本,必须大批量进货、大批量销售,享受价格上的批量折扣优惠,充分发挥现代大商业的规模效应。经营成本主要在于物流配送和库存控制,快捷的信息反馈和高效的物流管理系统,可以使商品库存量大大降低,减少库存成本,加快资金周转速度,企业成本自然降低。销售成本包括管理费用和商品损耗等,应努力提高管理水平,引入科学的管理体系,开源节流尽可能的减少管理费用。损耗是不可避免的,损耗的高低直接影响到商品的销售成本,但是可以通过管理上的措施将其控制在正常的或较低的水准。
由于采购成本的控制涉及到企业规模的问题,不在本文分析之列。本文主要通过建立成本分析数据集市,对不同的商品类别的库存及损耗对商品利润的贡献差异进行数据挖掘。
2.2 数据集市的实现过程
零售企业成本分析数据集市模型采用星型关系模式,星型关系模式的关键是确定事实表和各数据维之间的联系,并针对各个维做了大量的预处理,如按照维进行预先的统计、分类、排序等。分析零售企业成本核算的相关信息,确定通过商品信息事实表将各数据维联系起来,维表主要有商品类别、库存、商品损耗、销售信息、利润分析、门店信息、时间等。
无论是数据仓库还是数据集市都是服务于数据挖掘和决策支持,因此从数据源抽取数据时,一般都要经过清理、转换、集成等处理。在构建零售企业成本分析数埃集市的过程中,主要包括对数据源的数据进行聚集、转换、导入和最后装人数据集市等几个过程。
数据聚集简单地说就是对原始数据进行汇总,在聚集的过程中要考虑到数据集市的划分粒度,粒度的划分将直接影响数据仓库中的数据量和所适合的查询类型。数据仓库的主要功能是面向决策支持,绝大部分查询都是基于一定综合程度之上,只有极少的查询涉及到细节。
如表1所示在零售企业成本分析数据集市基础上对某零售企业A门店一月份的商品信息进行汇总,从而构造训练数据集也就是准备被挖掘的数据。为描述方便将商品类别简单的分为5类,食品、酒水饮料、水果蔬菜、日用百货和家用电器。
表1 某零售企业A门店2006年12月上旬商品汇总表
数据转换是将数据转换为适合于数据挖掘的形式。在数据集市中,对于实际成本和标准成本的比较结果,不是采用“盈”或“亏”来存储,而是将它们分别转换为“1”或“0”,这样就提高了数据集市的存储和访问性能,增强了数据挖掘的简便性。
数据导入过程就是将数据源中一些不需要转换而又必不可少的信息直接拷贝到数据集市中。零售企业原事务数据库中存储了一些静态的数据信息,如商品分类信息、损耗标准信息、库存标准信息和利润标准信息等,这些数据可直接导入数据集市。
3、建立基于决策树的分类模型
3.1 决策树算法
决策树算法是一种常用的数据挖掘算法,它是从机器学习领域中逐渐发展起来的一种分类函数逼近方法。决策树学习的基本算法是贪心算法,采用自顶向下的递归方式构造决策树。
在决策树的各种算法中,最有影响的是Quinlan于1979年提出的以信息熵的下降速度作为选取测试属性的标准的ID3算法。该算法通过在树的每一个节点上使用信息增益度量来选取测试属性,选取具有最高信息增益的属性作为当前节点的测试属性。该属性使得对结果划分中的样本分类最小,并反映最小划分中的随机性和“不纯性”。这种信息论方法使得对一个对象的分类所需的期望测试数目达到最小,并确保能够找到一棵简单的决策树。
设S是训练样本集,它包含n个类别的样本,这些类别分别用C1,C2,…,Cn表示,设Si是类Ci的样本数,那么S的熵(entropy)或者期望信息为
式中,Pi为任意样本属于Ci的概率。这里的对数以2为底,因为信息用二进制编码。
设属性A将S划分成m份,根据A划分的子集的熵或期望信息由下式给出:
其中,Si表示根据属性A划分的S的第i个子集,|S|和|Si|分别表示S和Si中的样本数目。信息增益用来衡量熵的期望减少值,因此,使用属性A对S进行划分获得的信息增益为:
gain(S,A)=entropy(S)-entropy(S,A)
gain(S,A)是指因为知道属性A的值后导致的熵的期望压缩。gain(S,A)越大,说明选择测试属性A对分类提供的信息越多。因为熵越小代表节点越纯,按照信息增益的定义,信息增益越大,熵的减小量也越大,节点就趋向于更纯。
算法计算每个属性的信息增益,具有最高信息增益的属性作为集合S的测试属性。创建一个节点,并以该属性标记,对属J性的每个值创建分支,并据此划分样本。
算法计算每个属性的信息增益,具有最高信息增益的属性作为集合S的测试属性。创建一个节点,并以该属性标记,对属性的每个值创建分支,并据此划分样本。
3.2 决策树的应用
某零售企业A门店在2006年12月上旬共销售产品500种,每种10天的累计销量、库存额以及商品损耗如表1所示。运用ID3算法,将商品类别以及库存和损耗作为分类属性,将成本差异作为挖掘目标。初始时刻根据每一种商品成本差异是否符合要求分为两类:一类是有利差异(实际成本小于标准成本);另一类是不利差异(实际成本大于或等于标准成本)。
所以初始时刻的熵值为:
如果选取商品类别属性作为测试属性,则条件嫡为0.632,计算公式如下:
如果选取库存为侧试属性,则条件嫡为0.676,计算公式如下:
如果选取损耗为测试属性,则条件嫡为0.61,计算公式如下:
可以看出entropy(S,LB)最小,因此gain(S,LB)=0.730-0.632=0.098。商品类别属性具有最高信息增益0.098 bit,即有关商品类别的信息对分类有最大的帮助,选择商品类别进行划分得到决策树,如图1所示。图中每种商品的有利差异和不利差异用Y和N表示,库存及损耗数量小于阀值则为其有利差异用F表示和大于阀值则为其不利差异U表示。
图1 零售企业成本分析决策树
现将 决策 树的分类规则整理详细叙述如下:
规则1 If库存数量<库存阀值AND损耗数量<损耗阀值Then商品成本差异为Y。
规则2 If库存数量>库存阀值AND损耗数量>损耗阀值Then商品成本差异为N。
规则3 If库存数量>库存阀值AND损耗数量<损耗阀值Then商品成本差异为Y的概率较高。
规则4 If库存数量<库存阀值AND损耗数量>损耗阀值Then商品成本差异为N的概率较高。
可以看出,水果蔬菜和家用电器这两类商品的有利差异的概率比较低,因此要对这两类商品加强管理,控制各个环节的费用,此外还要加强对库存和损耗的分析和控制。
4、结束语
基于数据仓库(数据集市)的挖掘是一个具有广泛用途的领域,本文将其引入到零售企业成本分析领域取得了良好的效果,为数据仓库和数据挖掘技术在零售企业成本分析中的应用提供了宝贵的的经验。