2016大数据创新大赛——机场客流量的时空分布预测模型解析

在大数据创新大赛上,来自浙江大学的SeaSide团队带来了关于机场客流量的时空分布预测的解决方案。SeaSide团队主要从时序模型、乘机流程、事件驱动、维度灾难四个方面介绍了团队的算法设计。

背景介绍

SeaSide团队所要解决的问题是利用机场大量的数据去预测每个时刻、每个无线AP的连接人数,这个结果可以很好的反映机场的客流时空分布。可用的数据可以分为四个方面:

历史连接:包含每个无线AP的名称、时间戳、连接人数;

地理位置:包括登机口、无线AP所在的区域、无线AP的坐标、楼层、组号;

航班排班:包括航班起降的排班信息、预计时间、实际时间;

旅客行为:包括值机、安检及离开。

算法设计

时序模型

最初的想法是基于历史值去预测当前值。上图左边是多天的真实值和三轴历史均值,真实值一直围绕历史均值上下波动。三轴历史均值在不同的情况下各有优缺点,把历史均值扩展为更多的聚合指标之后,在聚合窗口上就得到了基础模型。在计算聚合模型的过程中,有三种方式:同点、同时段、同组。最直接的方式就是计算同一AP点在同一历史数据点的聚合值。为了减少时间维度的噪声,可以计算同时段同一AP点的历史数据聚合值。为了减少空间维度的噪声,可以计算同组历史数据聚合值。

乘机流程

整个乘机的流程表明,其在值机、安检、候机、行李提取处的旅客较为密集。所以,航班的起降会对这些区域造成很大的影响。

事件驱动

比如,某个航班预计在某个时间起飞,可以从左上图看到大家一般会提前一个半小时安检,进入候机区等待。基于这些观察统计了右边的信息,预测时间点后面多个时间窗口上起飞航班的数量,根据这些信息可以得知每个时间段旅客起飞的人数。针对航班晚点情况,预测了滞留旅客人数。

除了起飞信息,SeaSide团队还预测了到达信息(该时间点前/后到达航班数,对接机区、中转区、取行李区影响比较大)、地理位置信息(区分特殊区域)以及时间信息(区分特殊时段,比如夜间、节假日)。

维度灾难

上述算法利用一个模型对所有的区域进行了预测,包含了五个方面的很多特征,然而,特征越多越好吗?特征数量和预测效果的关系图如左图所示,过了临界点之后,增加特征点会使预测效果变差。现在的模型有1472个特征,需要引入合理的先验知识来有效降低维度。

首先,起飞降维方面,把机场分为四个区域,对于不同区域,并不是所有起飞登机口的信息都有用。比如,对于候机区,只需要为每个AP点获取其最近的6个登机口。其余区域的降维方法如上图所示。

其次,对于时间特征,其实有序变量,与线性回归不同,它是基于高维空间划分的预测回归模型,可以对有序变量根据训练数据对其进行合理的区间划分,因此,可以看做是1维的整数。对于位置特征,分区域之后只考虑本区域组号。

从左图可以看出,多个无线AP在一段时间内连接数是趋于稳定的,所以在预测更短期的连接数的时候更加准确。

总结展望

模型的基础是基于历史连接数据的时序模型,加入事件驱动、降低维度进一步提升了模型。更精确的航班信息、坐标信息可以进一步提升算法。本算法可以提升网络服务、机场服务的质量。

时间: 2024-08-03 02:41:44

2016大数据创新大赛——机场客流量的时空分布预测模型解析的相关文章

挖掘数据金矿 领军协同创新 曙光荣膺“2016大数据创新应用领袖企业”称号

11月8日,中国大数据产业应用协同创新峰会暨第一届大数据联盟理事会在京召开.来自大数据领域产.学.研等多层面近200名与会嘉宾针对大数据产业应用中深层次协同创新的政策.方向以及成果落地等问题进行深入探讨.中科曙光凭借其在大数据领域的一系列创新型行业应用成果,荣膺"2016大数据创新应用领袖企业"称号:同时,曙光荣幸受邀成为中国大数据产业应用协同创新联盟(以下简称"联盟")副理事长单位,助力我国大数据产业创新发展. 中国大数据产业应用协同创新联盟是全国性非盈利组织,自

2016“数据引领 飞粤云端”广东航空大数据创新大赛亚军:大熊座epsilon

广东航空大数据创新大赛中,大熊座epsilon的同学们分享了比赛成果.首先从数据预处理.数据反映规律开始讲起,确定了工作流程,重点解释了方案设计,包括二段式模型和时序回归方法,最后对算法优势和应用作了总结.一起来了解下吧.   问题&数据 数据预处理--选择与清洗 本场赛题共有六张表的数据:a.连接WIFI AP (Access Point)的人数表 airport_gz_wifi_ap,b.安检旅客过关人数表 airport_gz_security_check,c.旅客进入-离开机场的行程表

阿里云联合广东办政务数据创新大赛 用人工智能接管卫星做国土监察

11月22日,在云栖大会·广东分会上,阿里云天池宣布了广东政务数据创新大赛的最终成绩.北京邮电大学团队和浙江大学团队分别获得"土地智能监管"赛题和"数字城市可视化"赛题的冠军. 阿里云天池广东政务数据创新大赛获奖选手合影 这场为期75天的大赛吸引了来自全球的3677支队伍报名参赛.大赛聚焦如何用人工智能实现政务创新,赛题分为智能算法赛"土地智能监管"和应用创新赛"数字城市可视化". 在智能算法赛中,要求选手利用机器视觉技术,对

大数据创新生态体系,引燃新的产业突破与高校转型

理解大数据创新生态体系的战略布局,首先要从数据中国"百校工程"开始. 按照国家<促进大数据发展行动纲要>和<"十三五"国家战略性新兴产业发展规划>决策部署,不难看出,大数据的出发点是数据强国,通过数据整合分析和深度挖掘,发现规律.创造价值,进而推动国家创新驱动发展战略.创造性的落实大数据产业发展战略,高校责无旁贷.只有在探索校企合作新模式和新机制,加快培养大数据产业人才的基础上,才可能真正理解大数据创新生态体系的战略意图. 大数据时代,线上与

第八届中国云计算大会寻找双创明星:云计算大数据创新创业评选正式启动

近年来,国内云计算大数据领域的技术创新成果不断涌现,创业项目层出不穷,正成为创新创业的重要领域和方向.为了更好地推动云计算大数据创新创业健康发展,由中国云计算技术与产业联盟.中国大数据专家委员会和中国电子学会云计算专家委员会主办的"2016云计算大数据创新创业评选"活动,于2016年3月正式启动,并将在5月19日的第八届中国云计算大会(http://ciecloud.org/2016)上发布评选结果.   "2016云计算大数据创新创业评选" 一经推出就获得了广泛关

2016大数据企业排行榜揭示中国数据发展

文章讲的是2016大数据企业排行榜揭示中国数据发展,7月14日,首席数据官联盟在京发布了2016年<中国大数据企业排行榜>.据悉,本次排行榜由北京大学电子政务研究院.中国新一代IT产业推进联盟共同指导,由首席数据官联盟专家组依据大数据企业评价指标体系对国内大数据企业进行综合评定而成. ▲现场出席专家以及企业代表合影 据了解,此次<中国大数据企业排行榜>得到业界的大力支持,发布会由中华网.中关村智能硬件产业联盟.北京优智活孵化器协办.机械工业信息中心处长白涌如.北京大学电子政务研究院

2016大数据产业峰会报道:大数据——工业转型升级的核心驱动力

核心提示: 随着两化融合的发展,信息技术快速渗透到工业产业链的各个环节,互联网.移动互联网及物联网等技术在企业中的应用,工业逐渐成为数据资源最为丰富的领域.对工业大数据进行分析应用,能够优化运营效率,降低运营成本,感知客户需求,加速产品创新,助推服务化转型,创新商业模式. 中国IDC圈3月24日报道,随着两化融合的发展,信息技术快速渗透到工业产业链的各个环节,互联网.移动互联网及物联网等技术在企业中的应用,工业逐渐成为数据资源最为丰富的领域.对工业大数据进行分析应用,能够优化运营效率,降低运营成

中关村建设全球大数据创新中心

中关村管委会<关于加快培育大数据产业集群推动产业转型升级的意见>19日正式对外公布,中关村将坚持把大数据产业作为战略性新兴产业发展的突破口,以大数据应用和商业模式创新为重点,全力建设全球大数据创新中心. 培育形成具有全球影响力的大数据产业集群,<意见>提出,到2016年,中关村大数据对产业的带动规模超过1万亿元,培育500家大数据企业和一批领军企业,建成10个以上行业大数据应用平台,具备大数据应用能力的企业数量超过5000家. 围绕市场需求,<意见>提出,率先在智慧城市

BOT大数据应用大赛启动,首个专业AI大赛两大赛题解读

2016年7月19日,上海BOT大数据应用大赛正式拉开帷幕,来自海内外人工智能领域的高手们将聚焦"人工智能聊天机器人商业应用"和"计算机视觉识别"两大主题,上演超级大脑巅峰对决. 本次大赛为期 4 个月,赛程设置分为初赛.复赛和决赛三个阶段. 大赛聚焦「人工智能聊天机器人商业应用」和「计算机视觉识别」两大热门领域,将推动人工智能产业应用落地,打造人工智能新的生态圈. 大数据文摘作为合作伙伴,为您还原赛题解读现场,以下为华院数据的首席科学家尹相志先生对赛题内容的解读: