菜鸟—需求预测与分仓规划冠军——“商品小A”团队赛后总结

在菜鸟—需求预测与分仓规划比赛上，“商品小A”团队获得了冠军。队长袁光浩分享了“商品小A”团队的数据探索以及算法实现过程。

零售数据分析的职责是根据客户的数据做客户的数据分析报告，客户可以基于报告得到的结论对商业决定做修正。

赛题背后的商业需求

按照官方的说法，对未来商品需求进行准确的预测，可以帮助商家自动化很多供应链过程中的决策。这些以数据驱动的供应链能够帮助商家大幅降低运营成本，提升用户的体验，对整个行业的效益提升起到一定作用。此时，大家可能有一个疑问，销售的带链呢？货品如果是很少的，意味着商家失去了销售的机会，这其实是一种隐性的损失。

数据探索

比赛提供的数据中，最引人注目的是，在20万商品里面最后出现的日期中最早的那一个，即2015年12月21日，这意味着这个商品在整个数据集里面是有效的，我们需要预测其在2016年年初的销量。根据销售时间和总量的分析，删除促销热的数据之后，发现其是递增的。这些数据为方案的决策起到了一定的作用。

其中，有一个商品A，经过2015年春节之后它就不再销售了，经过在同一个供应商找与A商品类似的商品，但是并没有找到，这在实际的应用中比较罕见。但是为什么出现这样的情况呢？这说明了数据脱敏做的非常好，商家将数据隐藏起来保障其权益，其他人难以通过数据追踪商家运营模式。最初的思路是按照我们的工作习惯，去寻找其主流商品，找到其搭配的商品，但是这种方法是基本做不到的。

另外一种情况，有一些商品的生命周期比较长，在2014年的年末和2015年的年末走势是比较相近的，我们可以利用这个特征来预测其下一年的销售情况。

数据分析预测

通过上述的数据探索，我们大致可以了解数据的构成。大部分商品是从2015年开始销售的，在2014年并没有留下太多对我们有用的信息。对于大量的数据，我们怎么挖掘信息？首先，可以通过时间序列来探测，但是可能损失一些重要的特征，比如相同种类的商品（同一商品，或者不同商家的）竞争关系就会丢失掉。

更优的做法是采用机器学习的方法。具体的做法是通过近期的销量情况，去研究此后两周销量总量的影响情况。我们需要建立预测模型，利用回归分析方法进行预测。我们需要专门针对数据集做一个分类，因为对于主力商品，商品的规划会特别关注商品的销售曲线，这些都人为可以控制的（通过价格等因素）。所以对于找出规律的这些商品，需要单独拿出来，因为剩下的大部分数据中还会有很多的噪声，如果一起训练的话会影响这部分商品的预测。对两部分商品分别做回归预测过程中，对双十一这种特殊的销售情形需要做一定的过滤。

特征曲线确定好之后，开始做数据深层的准备。在这个阶段同时进行的还有数据的处理，比如把缺失的数据用非聚划算销量算法补齐，过滤算法也是在这个阶段完成的。为什么要过滤掉具有波峰的数据？因为经过双十一之后，商家在一月初二月初做促销的可能性就会降低，虽然这不一定正确，但是在缺乏商家有效信息的情况下，选择一个保险的策略是正确的。

可以利用滑动窗口的方法创建训练集和验证集。创建验证集可以让我们有快速的方法验证我们的思路。我们把最后14天的非计划的数量值作为目标值，把之前14天的各种数据计算出来作为特征值，向前滑动14天。以此类推，做10个窗口。并且，还需要对任务空间产生的数据集做一次处理。首先对训练集进行训练，得到模型之后对验证集做一次预测。然后把预测不准的窗口从训练集删除，重新将其和验证集合并，对线上的测试指标做真正的预测。

最终采用的模型是线性回归和xgboost模型。分别建模、运算，然后对运行的结果做一个合并，根据验证集改变模型的权重。把分仓和母仓分别建模，因为有些商户做活动的时候是全国所有的仓库一起升一起降，有些商户是依次出现的，有些则是没有规律的，因此分别建模会比较好。

总结

如果有更丰富的数据，比如商家的计划、库存，那么我们可以做更好的预测。如果对业务越了解，建立的模型就越接近真实情况。并且，组合不同的算法往往是更有效的。

时间： 2024-09-24 05:08:44

菜鸟—需求预测与分仓规划冠军——“商品小A”团队赛后总结的相关文章

菜鸟—需求预测与分仓规划亚军——“天亮”团队赛后总结

在菜鸟-需求预测与分仓规划比赛上,"天亮"团队获得了亚军."天亮"团队主要分享了团队的特征分析以及方案实现过程. 背景介绍此次比赛希望选手利用大数据技术预测商品的未来需求来优化整个菜鸟物流的供应链.比赛给出的数据包括商品的销量.价格品牌等信息,预测后两个星期的销量. 特征分析通过观察一件商品的时序图,我们可以发现一件商品有上架时间,在双十一.双十二会有销量的突增,这些突增在时序的最后端,会对接下来两周的预测产生干扰.此次,训练样本采用滑窗法,主要有13个窗口,每

菜鸟—需求预测与分仓规划季军——“我们为R代言”团队赛后总结

在菜鸟-需求预测与分仓规划比赛上,"我们为R代言"团队获得了季军.在分享中,"我们为R代言"团队主要对赛题进行了分析,提出了选择机器学习的理由,介绍了团队线下解决方案实现过程. 赛题分析赛题主要是根据过去一年的销量来预测未来14天的销售情况.这个赛题相对于其他问题有比较明显的特点:赛题提供的数据量非常多,除了销量之外还有其他很多数据,怎么使用这么多的数据来提高精度?成本是一个非线性的数据,补多补少是不一样的两种情况,怎么根据成本来进行优化?全国仓和区域仓的问题,理

菜鸟超级进口大仓618首度亮相！跨境商品也能当日次日达

6月12日下午3点40分,来自南京的一名用户收到了由宁波保税仓发出.圆通速递配送的雀巢咖啡,这距离他在天猫国际上下单仅过去4小时. 天猫618在昨日迎来进口日,进口销量火爆上升.作为国内最为先进的跨境进口仓,菜鸟超级大仓在本次大促中首度登场亮相,并联合EMS等合作伙伴首次在中国提供跨境生鲜食品等高端物流服务.部分消费者在当日或次日便能收到大促购买的商品,南京的这位用户就是其中之一. 菜鸟超级大仓位于宁波慈溪,是全国第一个专业服务于跨境进口商品的超级仓库园区.本次进口日的大量商品都将从此发货. 消

恒安电商明年三步走战略：减品分仓拓渠道

[http://www.aliyun.com/zixun/aggregation/32866.html">亿邦动力网讯] 12月26日,恒安电子商务总经理杨斌对亿邦动力网透露,2013年,电子商务被恒安集团定为战略发展目标之一,销售目标为1亿元,并通过严格控制SKU数量.建立分仓和开拓新渠道三方面入手. 亿邦动力网了解到,恒安于今年6月份正式开展线上业务,由独立的电子商务部门运营.目前恒安在天猫上拥有两家店铺,其中恒安天猫旗舰店"恒安生活馆"经营母婴.个人护理.家居生活

星晨急便：分仓发货的践行者

作者: 姜蓉 3月29日,陈平神采奕奕地出现在阿里集团战略投资北京星晨速递有限公司(简称星晨急便)北京新闻发布会上. 星晨急便在快递行业只是个小字辈企业,但是公司董事长陈平却算得上这个行业的元老级风云人物.离开一手创办的宅急送后,陈平二次创业,仅一年时间就收到马云伸过来的橄榄枝,获得阿里集团的战略投资.虽然发布会上合作双方对投资金额及所占的股份讳莫如深,但在民营快递企业普遍寻找买家的大背景下,陈平无疑是幸运的. 业内认为,在快递业摸爬滚打多年的陈平,此次创业,利用星晨急便这个品牌专门针对电子商务

冲规模输业绩华泰柏瑞基金大量分仓还旧债

烟花散尽.去年,华泰柏瑞成为基金业内最瞩目的公司,凭借2012年5月成立的华泰柏瑞沪深300ETF,公司管理总规模从一季度末的125.72亿元,一跃升至二季度末的367.19亿元,华泰柏瑞的整体行业排名也随之从第40名升至第23名.但在荣耀的背后,是对等的代价."在发行沪深300ETF的时候,为了拉冲量资金,公司会承诺券商一些交易量."业内人士告诉记者,尤其是在资金紧张的时候,往往会承诺大量的交易分仓."一般而言,基金公司的交易分仓由市场部和投研分别掌控一定的比例,前者主要用

[★ 急 100 分 ] asp.net 购物车商品列表页面和付账页面的关系？

问题描述如图:点击商品列表后面的购买,进入到付账页面,付账页面显示1条商品信息,此时你可以结账,也可以继续购物,点击返回继续购物,再次选择商品购买时,进入付账页面,就会有2条商品信息.依次列推.?2个页面之间,我该如何保存数据.????思路?或代码?我看过petshop4.0但是里面的profile不是很懂,代码也是用工具生成的. 解决方案解决方案二:刷新那表格的数据不可以????/解决方案三:你的意思是,我点击订阅之后,保存到数据库,在另外一个页面重新加载...好像不是这样做的.解决方案四

【菜鸟】网页分栏的问题，请大家帮帮忙告诉我

问题描述我想把网页分成几个部分:上面是一个总的横栏,横栏下面分左.中.右三栏,且(这个很重要)左.右栏的宽度固定,中栏随窗口的大小变化,我是个新手,想问问各位大侠该怎么做?我设置网页width百分比也不行,因为左.右栏是固定的,中栏需要变化,然后用<frame>也不会上面一个总栏,下面左中右再分栏,请大家帮帮忙,感谢了!! 解决方案解决方案二:试一下,让上面的栏宽度为100%左右2栏设置好固定高度然后让中间的栏设置一个min-width:解决方案三:好心人能不能给我代码啊?我的代码不熟,帮

菜鸟做淘宝客1月半小有收获经验谈

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅在淘宝客这个行业里,我还是一个很菜很菜的菜鸟.看一下淘宝客龙虎榜就知道自己到底有多菜.接触淘宝客是在去年的5月份,但是真正做起淘宝客还是在一个半月前.去年在网络上寻找网专知识和网赚的时候,发现淘宝客很赚钱,而且很多人都赚到了钱,于是自己也想尝试着去做.当时自己什么都不会,更不用说是建设一个独立域名的网站,甚至不知道去哪里购买域名和空间,怎么搞

猜你喜欢

ASP.NET页面间数据传递的9种方法

本文我们将讨论的是ASP.NET页面间数据传递的几种方法,对此希望能帮助大家正确的理解ASP.NET页面间数据传递的用处以及便利性. 0.引言 Web页面是无状态的, 服务器对每一次请求都认为来自不同 ...

FSO组件之文件夹操作

操作完驱动器,接着就是来操作文件夹了.其中包括:提取文件夹信息.创建文件夹.删除文件夹.复制文件夹.移动文件夹等.下面就具体来看. 一.fso.GetFolder 一看就明白,是提取文件夹了.那具体是 ...

AE内插件打造太极动画效果

动感逼真,栩栩如生,具有东方神韵的太极动画表达了中国人民对奥运成功举办的信心,Beijing,I am coming(北京,我来了!)表达全世界优秀青年对奥运盛会的期待和渴望.让我们先看看动画效果图. ...

linux磁盘分区、静态分区和LVM

1.虚拟内存技术,windows通过交换文件来实现,linux通过交换分区来实现.所以windows只有一个分区,而安装linux至少两个分区,其中一个就是交换分区,虚拟内存一定程度上可以解决内存不够 ...

android 单选按钮 RadioButton 自定义图片左边距

当我们自己设定一个单选图片的时候,一般都会设置 paddingLeft 让文字接在单选按钮图片的右边. 这样因为分辨率不同,会出现文字便宜不正常,解决方法就是:我们需要动态计算paddingLeft, ...

Google浏览器CSS居中兼容问题完美解决方法

在IE内核浏览器或者firefox浏览器中都能居中,没有居中的可以用其特殊标签来设定居中可是在谷歌浏览器查看时就出现无法居中的BUG,下面的解决方法有类似情况的朋友可以参考下 div做的界面时,又 ...

php实现屏蔽掉黑帽SEO的搜索关键字

我给大家一个方法我的思路思路就是这样的那些大佬们想做这个东西大部分还是要留QQ或者电话号码那么我就匹配里面的规则找出搜索里面的数字然后判断数字字符串的长度进而去判断是否为垃圾搜索奉 ...

Win7如何关闭打开文件时弹出的安全警告提示

1.按Win+R键,打开运行,输入"gpedit.msc",点击确定; 2.在打开的本地组策略编辑器窗口页面中,依次展开到用户配置--管理模块--Windows组件--附件管理 ...

什么是等离子显示器

等离子体显示器又称电浆显示器,是继CRT(阴极射线管).LCD(液晶显示器)后的最新一代显示器,其特点是厚度极薄,分辨率佳.从工作原理上讲,等离子体技术同其它显示方式相比存在明显的差别,在结构和组 ...

c-用C语言实现在键盘输入两个十进制数，然后在屏幕输出这两个数中较大的那个数

问题描述用C语言实现在键盘输入两个十进制数,然后在屏幕输出这两个数中较大的那个数我是这样写的: #include #include void main() { scanf("%d,%d& ...

一图抵万言：信息图的五大用途

大数据是2013年被热炒的概念,但即使在专业人群中,能弄明白大数据的人并不多.而信息图(Infographics)不同,作为当今最流行的数据可视化展示方式,信息图是向非专业人士展示数据分析结果的最直观 ...

使用Yii整合的pjax（pushstate+ajax）实现无刷新加载页面_AJAX相关

Pjax是啥? Pjax = history.pushState + Ajax = history.pushState + Async JS + XML(xhr?) BOM对象history被增强了一 ...

Packer 3.0 JS压缩及混淆工具下载_javascript技巧

一个加密JAVASCRIPT的开源工具PACKER2.0.2 这是一个并非很复杂的编码工具,编码过后可以被浏览器直接识别.新浪在用.比如:http://comment4.news.sina.com.c ...

使用JNA实现Java对C的调用

jna coding C #include <stdio.h> int add(int x, int y) { return x+y; } Java import com.sun.jna. ...

【Android开发】用户界面设计-使用XML和Java代码混合控制UI界面

效果图: res/layout/main.xml: <LinearLayout xmlns:android="http://schemas.android.com/apk/res/an ...

FBX文件解析出3d模型和动画信息

问题描述 FBX文件解析出3d模型和动画信息最近在弄3d模型,研究fbx文件,因为该文件不是开源的,谁有比较全面的介绍fbx文件的读取解析的文档?

UNIX/LINUX 平台可执行文件格式分析

可执行文件格式综述相对于其它文件类型,可执行文件可能是一个操作系统中最重要的文件类型,因为它们是完成操作的真正执行者.可执行文件的大小.运行速度.资源占用情况以及可扩展性.可移植性等与文件格式的 ...

使用Charles进行移动APP抓包分析

一.简介 Charles是目前最强大最流行的http抓包调试工具,Mac.Unix.Windows各个平台都支持.特别是做APP开发,调试与服务端的通信,Charles是必备工具. 目前Charles ...

html5 图片字透明-HTML5的div标签在图片上设置背景为透明的字

问题描述 HTML5的div标签在图片上设置背景为透明的字给定了一张图片,用HTML5在图片的下方放置一行字(注意:字是在图片上的),而且字的背景是透明的(注意:图片不是透明的,也不要透明).最终 ...

ios-oc语言初始化遇到的问题

问题描述 oc语言初始化遇到的问题为什么老报错啊,构造方法初始化父类那错了,求大神解答,急!开发oc语言教程"> 解决方案 initWith试试看,你的好像小写了解决方案二: in ...

058_《突破Delphi7.0编程实例五十讲》

<突破Delphi7.0编程实例五十讲> Delphi 教程系列书籍 (058) <突破Delphi7.0编程实例五十讲> 网友(邦)整理 EMail: shuaihj@16 ...

redis-缓存初始化数据库里数据量过大

问题描述缓存初始化数据库里数据量过大如果数据库里有十万条数据,redis初始化时,怎么样才能更高效将数据加入缓存? 解决方案把不是必须的数据弄成延时加载解决方案二: 只加载一部分,按一定优先级 ...

jsp-MySQL获取图片路径在JSP显示图片问题

问题描述 MySQL获取图片路径在JSP显示图片问题从数据库获取的图片路径放到jsp中,当访问页面时却没有图片,只有这么个东西,实在不知道怎么解决,求大神指点! jsp代码如下: <%@pag ...

Codeforces 550 C. Divisibility by Eight

C. Divisibility by Eight time limit per test 2 seconds memory limit per test 256 megabytes input sta ...

php session 预定义数组_php基础

复制代码代码如下: <?php session_start(); $_SESSION['username']="zhuzhao"; ?> 复制代码代码如下: < ...

在网页中使用document.write时遭遇的奇怪问题_javascript技巧

在前些日子的对Razor模板引擎向JavaScript移植进行研究的过程中,我发现如果使用document.write输出的内容中包含了调用外部的JavaScript的<script>标记 ...

ASP.NET设计FTP文件上传的解决方案_实用技巧

如果要用ASP来作一个FTP文件上传的页面,我想很多人立刻就会想到要用第三方开发的组件,利用第三方的组件,虽然开发起来相对比较容易.但一般来说,免费下载的第三方的组件都有某些方面的功能限制,若要购买正 ...

webapp-$(document).ready兼容性问题

问题描述 $(document).ready兼容性问题形如$(document).ready(function(){ js代码 }) 在苹果手机中不执行js代码,在安卓手机中可以但是换成 wind ...

定制T恤成交激增451%

商报图形王若静制又到一年毕业季,毕业生们如何纪念这最后的时光?昨日,淘宝网发布相关数据显示,在全国116所"211"大学中,近两月有25万毕业生网购过,共花费8.64亿元,平 ...

依靠百度风云榜，轻松获得数千IP方法

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅我现在有个习惯就是每天都观看百度的 ...

热搜