2016“数据引领 飞粤云端”广东航空大数据创新大赛亚军:大熊座epsilon

广东航空大数据创新大赛中,大熊座epsilon的同学们分享了比赛成果。首先从数据预处理、数据反映规律开始讲起,确定了工作流程,重点解释了方案设计,包括二段式模型和时序回归方法,最后对算法优势和应用作了总结。一起来了解下吧。

 

问题&数据

数据预处理——选择与清洗

本场赛题共有六张表的数据:a.连接WIFI AP (Access Point)的人数表 airport_gz_wifi_ap,b.安检旅客过关人数表 airport_gz_security_check,c.旅客进入-离开机场的行程表
airport_gz_departure,d.航班排班表airport_gz_flights,e.机场登机口区域表airport_gz_gates,f.  机场WIFI接入点坐标表
airport_gz_wifi_coor考虑到要预测未来两天的WIFI AP 连接数量,连接WIFI AP (Access Point)的人数表无疑是最有利用价值的一张表,而安检旅客过关人数表和旅客进入-离开机场的行程表对于预测未来几个小时内的很有价值,但是对于预测未来两天这样长的时间段应该作用不大。
航班排班表与WIFI AP连接情况尤其是登机口附近的WIFI AP相关性很大,配合机场登机口区域表和机场WIFI接入点坐标表应该能较好地从时间和空间上预测WIFI AP的连接情况。所以,我们选用a,d,e,f这四张表来进行建模。

我们来预测10月11、12号两天的WiFi的每十分钟平均连接数和实际值差的平方和。在这个过程中我们进行了一定的数据清理,再得出相应的模型。

数据预处理主要包含:1,连接WIFI AP (Access Point)的人数表存在缺失数据情况,对于个别时间段的数据缺失,可以利用填充0或者前后几天均值来进行填充,对于大段时间段的数据缺失,我们考虑以天为单位删除数据,不予利用。2,航班排班表中的计划起飞时间和实际起飞时间与其他表的时间有八小时误差,我们进行了处理。3,机场WIFI接入点坐标表中WIFI AP 坐标没有办法直接和登机口联系起来,我们先将这些点的坐标回归拟合成经纬度坐标,然后可以和登机口经纬度坐标联系起来。

数据反应规律

在对数据进行清理的过程中,会发现有些规律性的东西。第一,整个WiFi的连接具有一定的周期性;第二,相邻的WiFi具有非常高的相关性;第三,一个WiFi点的连接数跟它周围的登机口的信息具有非常强的相关性。当然,实际过程中有个别的WiFi点是非常特殊的,因为在机场里会有小吃店、书店等会对整体有一定的影响。

在比赛过程中,我们对数据进行了整体的可视化研究,可以看到整个区域都进行了拆分可视化,里面的红点、蓝点、绿点实际上是每一个WiFi点波动值的情况,每个区域都有不同的特点,T1区wifi和所有登机口的航班相关,WC和EC区wifi和某一区域登机口的航班相关,W123,E123区wifi和邻近登机口的航班相关。

工作流程

我们整体的工作流程是,在线下建立测试集和训练集,然后在线下做自己的线下评分,每天会进行多次来保证模型的稳定性和选择相对最优的模型进行线上提交,然后根据线上的分数反馈,调整线下模型,使模型变得更加精准稳定。我们也不断地进行特征选择、特征优化、模型调参,包括最后的模型融合。

 

方案设计

整体解题方案

整体预测模型首先要先分区域,我们发现这个模型只应用一张表,即WiFi的连接表对整体进行相应预测。而这个模型的预测效果并不是特别好,我们又找到单WiFi残差学习模型。

整体预测模型

我们采用的方案原理是wifi连接数的周期性规律,考虑因素包括距离当前天的远近、星期、月出月末、白天中午晚上半夜,使用线下回归来做。

我们的特征选择包括:

  • 最近1,2,3…天同时段10分钟wifi平均连接数;
  • 最近1,2,3…天同时段30分钟wifi平均连接数;
  • 最近1,2,3…天同时段60分钟wifi平均连接数;
  • 最近的周一,周二…同时段10分钟wifi平均连接数;
  • 两周内同时段wifi平均连接数最大值,最小值,中位数。

整体预测,每个WIFI AP的在某一时间段的连接数具有很强的时间周期性,所以用历史数据来进行回归预测对于绝大多数AP来说就已经能很好地拟合,而且过拟合的情况不严重。

WiFi残差学习模型

单WiFi残差学习模型采用的方案原理是wifi连接数和登机口航班起降的相关性,需要考虑wifi点附近有哪些登机口及其航班起降情况,采用线性回归来做。

WiFi的连接数跟航班信息是有非常强的相关性的,它与周围能影响Wifi登机口的航班具有非常强的关联性,这样,我们就打通了非常多的表,包括航班区域表、AP WiFi表、人流表,

然后将航班信息标注出来,我们学习的是在预测值和线下建立的测试集中间天数的差值,再将差值与实际预测值进行相加,得出最终模型。

该模型的特征选择包括:

  • 过去三小时,过去一小时,过去半小时,过去十分钟……附近登机口有多少个航班起降;
  • 最近三小时,最近一小时,最近半小时,最近十分钟……附近登机口有多少个航班起降;
  • 未来三小时,未来一小时,未来半小时,未来十分钟……)附近登机口有多少个航班起降;
  • 距离该WIFI AP的最近的登机口在过去,最近,未来的飞机起飞情况;
  • 距离该WIFI AP的第二近的登机口在过去,最近,未来的飞机起飞情况。

通过整体预测,大部分的WIFI AP已经得到了一个相对较优的预测值,但是对于一些AP,尤其是在登机口附近的WIFI AP由于受到飞机航班起降的影响非常严重,预测地不是很好,需要进一步进行修正学习。我们将第一步的预测值和实际值作为一个残差,学习并预测这个残差,就可以进一步提高预测的精度,而每一个WIFI AP附近的登机口是不同的,而且由于其他空间因素的影响,不同WIFI AP之间的数据几乎无法互相利用,所以需要对于每个WIFI AP单独建模,回归出残差。对于E1,E2,E3,W1,W1,W3这六个区域的WIFI AP,是直接的候机休息区,会直接收到距离其很近的登机口的航班起落影响,于是我们根据WIFI AP和登机口的经纬度坐标,计算距离,求出每个WIFI AP可能会受到那几个登机口的影响,进一步提取特征,训练模型。对于EC和WC区域,是走向候机区的通道,会受到某一个区域所有航班的影响,我们将其细分成了六个区域,分别提取特征,每个WIFI AP单独训练,预测各自残差。

时序回归方法

我们认为航班的等待人数和AP的连接数是成正相关的,于是我们通过已知航班排班表和航班登机人数,来学习得到一个函数,利用这个函数关系,做线性回归。在所有区域学习的时候,实际上是用最优化的方程,用粒子群优化来做整体的函数求解。

利用转化函数f(),可以利用航班表信息,平均延误时间,平均登机人数计算每个登机口前的大致等待人数的时序信息。

以上两个模型在线上验证成立后,发现两个方案结果相关度不高,有融合提高空间。我们将两个模型进行加权融合,并进行线上提交,结果有了很大提升。

 

比赛总结

算法优势

  • 两段式学习:通过两段式学习方案,将不同来源,不同价值的信息都学到;
  • 多路并行线性回归:并行的简单模型,避免了不同数据源的相互影响,增强算法稳定性;
  • 可视化分析:通过地图可视化来帮助进行特征选择,还有助于发现新规律。

算法应用

  • 通过航班表可以快速预测机场内的人流密度分布,作为排班优化的重要依据;
  • 旅客wifi接入率低,分布不均匀,wifi的资源利用率有提升空间;
  • 为机场其他设施的改进提供依据。

 

时间: 2024-09-20 06:20:47

2016“数据引领 飞粤云端”广东航空大数据创新大赛亚军:大熊座epsilon的相关文章

Hadoop峰会:南航航空大数据技术应用

文章讲的是Hadoop峰会:南航航空大数据技术应用,2013年11月22-23日,作为国内唯一专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行.来自国内外各行业领域的近千名CIO.CTO.架构师.IT经理.咨询顾问.工程师.Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举. Hadoop中国技术峰会由China Hadoop Summit专家

广东移动大数据助力“互联网+政务服务”发展

今年的政府工作报告提出"要大力推行互联网+政务服务",实现部门间数据共享".记者获悉,广东移动积极发挥通信大数据优势,为各级政府部门提供大数据决策支撑,有效助力"互联网+政务服务"发展. 随着手机普及率的提升,广东移动等运营商的通信大数据样本量更大.信息更全面精确,具有广泛的应用场景.据介绍,在春运期间,广东移动通过对手机用户信令数据挖掘,可实时掌握火车站.汽车站.机场等重点交通枢纽的人流量和停留时长,从而能为交通管理部门提供实时热点区域的客流疏导方案.在

蓝点数据携手北京大数据产业人才实训基地培养大数据人才

10月20日,北京市科委授予北京宏福大数据基地为北京大数据产业人才实训基地,授牌仪式暨大数据人才培养计划新闻发布会在宏福大厦隆重召开.在新闻发布会上,代表产业的宏福大数据基地和蓝点大数据,与有深厚科研学术背景的北京大数据研究院,签订了在大数据的产业发展促进.科研成果转化.企业项目研发.学术交流.校企合作.高端人才培养等领域的三方战略合作协议,会上发布了<大数据人才培养计划>. 未来,在政府的大力支持下,将充分利用北京大数据人才实训基地的产业背景优势,整合政府.企业.科研和院校的教育资源与实训资

以数据,成就未来:做中国大数据产业合伙人

今天,紫光集团旗下紫光股份与美国西部数据举行紫光西部数据有限公司成立庆典活动.紫光西部数据有限公司(以下简称紫光西部数据),是由紫光股份持股比例为51%,西部数据持股比例为49%共同成立,其总部及研发中心位于南京,市场及销售总部位于北京.紫光西部数据将通过本地研发团队,结合西部数据和紫光集团在技术研发.设计生产.市场推广等方面的领先优势,为各行业客户提供更加符合中国市场需求的大数据存储解决方案及服务. 紫光集团董事长赵伟国与西部数据全球首席执行官Steve Milligan宣布紫光西部数据成立

大数据之父舍恩伯格:大数据的核心要义在于共享

8月25日,2016IEBE(上海)国际电子商务博览会暨互联网+科创应用展"智享生态联接未来"高峰论坛在上海举行.大数据之父舍恩伯格出席了本次论坛,他与参会者探讨了大数据时代电子商务未来的发展趋势.他表示:"电子商务是更高效的交易,让两个交易方进行更高效的撮合.大数据给我们最核心的好处是让我们再回到买方和卖方的场景,帮助我们修正对世界的认识." 他同时还提到了大数据时代的一个问题:当数据和数据分析本身被我们进行分析的时候,有的时候,时间成本会更高.此时我们应该怎么办

【大数据新手上路】“零基础”系列课程--如何通过大数据开发套件Data IDE玩转大数据

免费开通大数据服务:https://www.aliyun.com/product/odps 老板每天都要出这些业务数据(销售总额.总交易量.总点击次数.总加入购物车次数.总加入收藏夹次数...),我得想个一劳永逸的方法了- 幸好,我有数加神器大数据开发套件Data IDE,搞定业务工作流调度,每日定时自动执行任务,分分钟输出计算结果. 妈妈再也不用担心我焦头奋战了-- 本教程是一个大数据开发套件Data IDE零基础教程,通过Data IDE将多源异构的数据集导入云端MaxCompute,进行计

Wikibon:公有云大数据收入至2026年将占大数据市场的24%

根据最新的Wikibon分析资料,2015年公有云里的大数据市场为11亿美元(占大数据收入的5%),至2026年该市场将增至218亿美元(占整个大数据收入的24%).2015年里大数据对公有云总收入的贡献为1.4%,而在2016年里大数据对公有云总收入的贡献为4.4%.   云里大数据分析的运行相对简单,而且颇为灵活,这些将吸引企业用户, Wikibon分析师Ralph Finos博士建议他们多考虑各种选择.Finos最近在他的一篇名为" Wikibon对2016年大数据的预测"的分析

福建发布首批大数据和VR应用服务需求 将打造大数据产业发展聚集区

大数据应用和"小数据"应用有何不同?怎样实现大数据产业发展?今日,福建省发改委对日前出台的<福建省人民政府促进大数据发展实施方案(2016-2020年)>作出了解读. 5年打造国家东南部大数据产业聚集区 <实施方案>明确了福建大数据产业发展的5年目标.到2020年,政务工作.公共事业.城市运行.商事服务和生产生活等重点领域大数据应用基本建成,以大数据为核心要素.以大平台为营运支撑的产业集群初步形成,福建省也将成为国家东南部大数据产业发展聚集区. 要实现这个目标,

2017大数据标准化论坛发布了第一批大数据系统测试结果,阿里云数加获得了大数据系统测试证书。

2017年3月18日, 2017大数据标准化论坛在北京成功召开.本次论坛由工业和信息化部信息化和软件服务业司和国家标准化管理委员会工业标准二部指导,中国电子技术标准化研究院和全国信标委大数据标准工作组共同主办.全国信标委大数据标准工作组组长梅宏院士.工信部信软司李冠宇副司长.国家标准化管理委员会工业二部刘大山副处长.大数据标准工作组高林秘书长.工信部信软司孙文龙处长,贵州.上海.四川.宁夏等产业主管部门领导,以及全国范围内的产.学.研.用300余位代表参加了会议,围绕大数据标准化工作.大数据技术