南方航空:大数据与移动应用

    在“从大数据中挖掘大价值”为主题的“第二届中国大数据应用论坛”上,中国南方航空股份有限公司信息中心技术总监龙庚先生做了“大数据移动应用”的演讲。他为大家介绍了南方航空在大数据移动应用方面的实践,特别是基于微信的服务;并为大家分享了南航移动化、社区化、开源化和虚拟化的技术方向。内容如下:

   首先特别荣幸能站在这里给大家分享南航大数据的应用。上午的会议,邬院士提到南航787每飞一趟来回产生的数据就是几个TB,380数据有30亿行代码,每30分钟就产生10TB的数据。南航除了飞机会产生巨量的数据,还有很多方面,包括一万多名的空姐,她们的排班组合也是数据的应用,以及飞行人员,还有一两万人地面人员的排班数据。另外,南航每一种新技术基本都是最开始引领做的,也产生了大量数据。今天我要分享的是,我们是怎么结合各个服务节点以及最新的移动应用,以及信息化研究的策略,怎么来把大数据用得更好。过去,这些数据就存在那里,但是我们没有把它用好。因此今天就讲几个例子,看看我们是怎么来利用南航的大数据

   首先,简单介绍南航信息化的情况。

   南航在飞机架数上国内领先,第一位,在世界上排第五,我们第一引进380、787的航空公司。旅客运输量位居世界前五名,在全国排名第一,在这两个方面来讲,南航是最大的航空公司。我们自身的研发力量也是有着不小的队伍,我们有1200人专业的IT队伍来研究IT系统、数据利用。同时,特别成立了信息公司,面向市场化运作的,解决原来国企的效率问题。我们新成立的信息公司有两年左右,现在有500多名研发人员,信息中心以及47个分/子公司,还有全国各个地方的维护人员。我们新成立的公司,主要是集中在南航企业的,ERP,包括企业CRM等等这些的利用,以及电子商务、运行等等,目前我们的主要精力还是面对南航,但是逐渐也跟其他航空公司进行合作。在技术上,我们特别关注开源、大数据、移动、微信方面的方案。

   对我们来说,在新技术上一直希望把它转变成数字化的方式,所以南航也是第一个发明“电子客票”的公司,所以现在大家不需要拿纸票可以值机,包括电子值机等也是我们最先推向市场的。南航信息化工作有“一二三四五”策略。我这里主要强调四和五,我们强调的技术方向,包括移动化、社区化、开源化、虚拟化。五大数据核心,南航有一百多个系统,我们通过建立数据核心的方式把所有数据集中写到这个核心当中,我们也学习淘宝开源化的架构解决大规模的读写、分析、研究问题,所以我们提出大数据核心,南航就建立了“五大数据核心”,包括跟飞机相关的,飞机每个部件故障维修,包括COD、SVC(所有旅客资料库)、CBD(所有南航旅客行为数据,每个旅客坐过我们的飞机、享受过我们的服务,我们都会记录下来),还有我们的产品,将南航所有营销的航线、产品都会放在产品数据库里,以及财务数据库。这对我们来讲,我们的数据存储就是通过这种方式。

   以上的部分让大家了解南航信息化的思路。第二个部分,讲一下我们怎么将服务跟大数据、移动化结合起来。今天上午嘉宾分享的观点让我很振奋。我要分享的是,从我自己亲身经历来分享现在面临的大数据跟前面有什么区别。我是比较喜欢玩新的移动工具,包括微信。最早,比如说智能手机出来的时候,我就参与过桌面插件、菜单部门的研究。后来我们也参与黑霉的,到现在苹果出来彻底改写移动化的世界,大家在上面可以用到很多的Apps。三星现在N9的系统很快超过了苹果的发展,这就代表着开放手机平台以及封闭平台之间的竞争。接下来,我们还有很多的平板,比如说两年前我们做移动系统的时候,当时平板很少,只有苹果的平板我看得上,其他一律看不上。而现在各个公司出的平板特别多,包括英特尔前两天给我送了两台测试机,X86的平板,速度也是非常的快。

   其实好多人也非常关心健康。现在手环包括佩戴在身上的检测仪器,我估计将来体检都不用跑到医院去。这是一个非常火的手环,它每时每刻收集的数据也非常多。包括Google眼镜,戴着眼镜就可以随便拍照,可以通过声音来控制它。移动设备产生的数据真的是非常巨大。以前我只要几十兆流量就可以了,而现在我有三张卡,每个月每个卡消耗3个G。包括移动用户已经超过了桌面互联网的用户。特别是在中国,移动互联网、微信包括用户数就已经超过了美国。前两年我还在开玩笑说,我一个朋友做微信,他说把研发中心放在硅谷了,我就在想,我们中国做微信会更好,为什么要把研发中心放在那边。我觉得我们从移动互联网来讲一点不落后于美国,包括我们的一些移动设备,像华为把很多通信供应商抛在后面了。所以为什么刚才胡会长也说到,为什么美国没有那么热而中国那么热,这是因为在这个方面中国已经走在前头了,并不是说美国不关心这个东西,而是我们中国现在产生的数据,比如淘宝、华为,还有微信这类的数据,因此中国会更加关注大数据

   人、设备、感应器产生了大量的数据,产生的数据可以从几个维度看,一个是结构化的、一个是半结构化的、一个是非结构化的。传统讨论更多的是结构化的数据领域。刚才也讲到了,数据量大、价值密度低,其实我想强调的是,我们更加要想到一个方面是,这么多的数据怎么将它挖掘出来。从另外两个维度也可以给大数据分类,一个是对大交易数据的处理,一个是大交互数据的处理。这两者完全不一样。大部分企业对于交易数据有BI,但是对于大交互数据没有太多解决方案。另外一个方面是,我们在利用大数据的时候,其实有很大的一点是,我们讲的大数据的集成与融合,再多的数据放在备份里不用,对你也没有价值。还有各个系统,比如我们有一百个系统,这些系统不集成整合起来是没有用的。因此南航这三四年干了一个很大的事,就是把原来很多采购系统全部重建,重建之后建立五大数据库,把这些大数据整合起来、融合起来,接下来才谈到大数据的处理与分析。

我先讲一下交易类大数据的处理趋势。

   主要以互联网为首,特别是淘宝、天猫、阿里集团。还有中国移动,他们也开始采用一些新的技术。在过去,主要是移动门户,包括:新浪、百度,特别是淘宝、京东这些巨头。像淘宝最早用的是Oracle,后来它的数据超过60个PB,连Oracle都解决不了它的问题,后来他们就采用其他的方法。可能传统企业还没有这种体会。我们是一直在研究这块,有些方面也取得了一些成果。以前,交易类数据主要是分析、事务、互联网,OldSQL。而很长一段时间谈NoSQL。为什么NoSQL走进不了传统企业?一个是传统企业在解决能力方面偏低,另外就是很多的东西要保证它的事务性比如说买一个票进行支付,这些事务如果断裂的话对旅客、航空公司都是损失,所以一直解决不了这个问题。而现在有一种新的SQL出来,叫做NoSQL。目前支付这块还是用Oracle。但是他们研究了新东西,这些特点都具备,来解决他们的问题。

   NoSQL,最早用的最多的是Key/Value,从缓存到又可以结合磁盘方式缓存,所以它的查询特别快,提高附载,特别是在日志上的应用。另外就是列式存储,它可以横向无限扩展,代表的是GoogleBigTable、HBase,查找速度快,可扩展性强,更容易进行分布式扩展,典型应用包括汇总统计和数据仓库。其他的还有文档式存储,比如说产品描绘维度、变化,包括会员,不同渠道它的维度不一样,那么我们就用MongoDB,处理结构化和半结构化之间的数据。还有一些是图形的,这块我们研究的少一点。

   像现在的市场上,这个(PPT)有点老,我们用到的Mongo都是一些新的技术。现在NewSQL也有一些新的产品,包括HBase,扫描速度都是非常惊人的。国外也有一些产品,都推出了基于现代交易型数据的解决方案。NoSQL主要是BigTable、HBase为代表。

   接下来我们看交互性数据的处理。

   现在给南航的服务评价渠道就有很多。有的人在微博上发表、有人用微信。我们也要去监控、了解这些数据。这些数据就是对交互性数据、非结构化数据的处理。现在也有很多技术,比如这有一个例子,它可以通过一段文字、网页进行中文分词的处理,然后进行打标签进行序列分析、趋势分析等等。就像把我们官网用户所有的点击集中起来之后可以把它序列化,比如说用户从进来到退出都做了什么东西,他的思路流程是怎么样的。现在有一些开源技术,有一个叫UIMA,就可以对非结构化数据,分析出主谓宾,看你是正面抱怨还是负面抱怨。这有一个例子,分析互联网上的舆情来看大家对于汽车的抱怨,我们可以分析出来哪个时间段、哪个品牌汽车抱怨是最多的,还可以分析出某一个时间段之内人家抱怨集中在哪个部件,比如说是发动机还是轮胎。这就是对于内容的挖掘,从互联网的舆情来进行分析的例子。

   另外,我们也在研究对超大型、巨型数据的处理。包括基于Hadoop的数据处理。今天上午邬院士也讲到一些,包括超大数据存储,还包括基于Reducers的分布式计算,对于大数据也有一整套方案,而且现在越来越趋向于开源大数据平台。

  讲了那么多的理论、技术,下面讲一下南航在大数据这块的策略。

   南航到现在为止对交易性数据做的多一点,所以我们前期策略,一个是将大数据打通、整合到一块,利用商业智能通过移动化设备把这些数据,包括数据分析,直接传递到移动端,从而提高服务和营销。

   对于非结构化的,我们也再做研究。我们还成立了开源实验室去研究这些数据。举个例子,比如以前发展会员,都是在机场问人家是否要加入我们的会员。因为有了数据之后,比如我们坐飞机的时候,他会告诉你,欢迎您乘坐南航的飞机,以前可能您坐其他航空飞机多一些。我们通过这些旅客的数据分析看这个是不是我们的潜在客户,然后有针对性的发展。同时我们对每个旅客都有“价值模型”,定义旅客的价值,比如你是普通旅客、潜在会员还是活跃会员、精英会员,我们针对精英会员有一些特定的措施,针对活跃会员有一些促销手段,等等。这就是对于旅客每次乘机情况进行分析得出来的。

   这个例子,我们可以分析旅客乘机的总数是多少。消费金额多少次,对南航贡献有多少。也许您没有搭过我们的飞机,但是我们可以搭建虚拟帐号,进行里程、价值估算,如果您达到某个程度我们会送个金卡会员或者其他卡会员给你。这是精准营销的例子。

   我们后台有多个服务系统来收集信息,比如您在买票的时候、客舱情况、基本资料等等,我们会将这些信息集中起来。这个例子就是我们的客舱移动服务系统。我们的空姐、机长,给他们都发了iPad,这个可以了解到所有旅客信息,照片也有,包括他的生日以及他过去的消费历史,我们会根据这个来跟旅客进行接触。特别是头等舱,我们乘机长面对的都是不认识的VIP,我们怎么跟他拉近距离呢。同时我们还做了一些好玩的东西,有利于乘机长跟头等舱乘客拉近距离。这就是通过移动方式把精准化的服务信息放在iPad上,同时对每个高端旅客还有服务单的方式,比如说给这个旅客送生日礼物,在iPad上都可以看到服务的工单给到空姐。

这个系统2008年就做了,当时没有iPad,我们用的是惠普的PDA,2009年改用昂达的,后来就大规模推广iPad,其中推广比较大的是三星N9出来之后。现在这个系统就有15300台在投入使用。而我们公司实际上发的只有3300台,剩下的都是BYOD的方式。

   我们提供的信息包括旅客头像,这个照片是在安检时拍的。还有中转信息,比如说中转下一个航班差多久,空姐就可以看得到,我们会把一些相关信息传递上去,这样有利于空姐跟地面直接联系,把我们的旅客安排好。

   这是我们在移动端利用大数据的例子,当然还有很多方面了。下面我再举一个后台运作的例子。我们建立了一个SCC的系统,主要是基于被动式服务模式向基于工单主动服务模式转变。因为靠计算机还是有很多东西不一定是自动就完成、做得到的,所以我们专门有个团队,对于计算机判断生成工单位,有些是基于人工判断,比如说他们收集旅客在各个环节的一些数据,然后会生成一些工单,员工可以拿着移动设备看到这些工单。这就是SCC要做的事。为此我们改组了这些环节上的所有软件,为了配合SCC。

   我们还有HCC,就是飞机进场、维修等等,也是基于数据中心来分析。SCC要做的事,一个是外部数据采集,比如说通过百度可以搜索到一些客户信息,我们要了解你,点一个键就可以把你所有的数据拿出来,就知道你的职位等相关信息。第二就是解放方案中心,就是个性化定制化服务流程,对客户一对一进行服务。比如说他是回族的国务院领导,那我们一定要在各个环节对他的服务,以及对于服务单的下发还有反馈、考核。另外就是内部信息的整合、维护,包括客户档案、客户行为、航班详细信息、中转信息维护。这是我们在后端对于大数据人工参与在服务流程上的改造。

   接下来讲一下南航的技术思路。我们成立了开源实验室,开源实验室负责研究南航的开源技术架构,同时也对Hadoop等大数据架构进行研究,我们现在有四百多个人,他们的研发都是使用开源的技术,包括我们也通过这个节省了大批的License采购费用。到2012年节省了2400多万。主要是中间件、操作系统,我们采用Linux。还有规则引擎也做了改进。这是测试出来的结果,我们用的是两台MySQL写,三台MySQL读,远超过小型机出来的性能。8月份在三亚的IPv6会还会对这个做演示,如果去到那边的朋友可以看看性能的对比。

   现在我们形成了一套体系,包括Linux等开源架构。以前很多数据备份到磁带上,需要的时候才会去管。我们跟淘宝、天猫、腾讯经常交流,也会请淘宝的架构师给我们搭建、建立大数据的环境。另外还专门成立了研究院,这个研究院级别比较高,是我们CIO亲自担任院长。比如说我们会分析每一个航班信息,通过对数学模型研究,攻破了民航业界运筹学经典难题--机组自动排班和机组自动搭班。因为有些航班是大家不愿意飞的,有的是大家抢着分的,我们要充分体现公平性,也要考虑到大家的休息时间。这些都通过研究院研究。这个研究院从一些大学请到了算法研究的博士进行研究。这是对网络造成巨量数据的分析和预测的处理。这个算法模型还申请了国家专利。以前都是汉莎才有这些技术,要买他的会非常昂贵,现在我们用这套技术已经全部替换掉了。

   这里还要说到移动化跟大数据的结合。我讲的主题是移动化和大数据,所以有一个专题我再快速过一下移动化这块的东西。

   首先讲一下南航最新推出的微信。如果去搜“南航微信”,我想这个案例最近是比较火热的,因为我们也是最早做这块的企业。最早在1月30号之前就在推广它,到1月31号正式对外发布。现在的粉丝数已经达到60万左右。推出的服务也囊括很多,包括订票、办理登机牌、货单查询等等。如果大家上这个网,可以看到腾讯把我们排到第一页来做介绍。当然早期腾讯也给了我们很多支持。

   我们推出来了一段时间,用户数还不是很多,因为微信不太强调用户数,更强调的是用户黏性。当时南航决定做这个,也是由于微信的广阔用户数,这是一个重要的移动门户的入口。对于今天的南航而言,微信的重要程度,等同于15年前南航的官网。

   同时我们在服务平台也做了很多工作。第一个就是官网,已经有十几年了。还有“95539”,后面有一个智能引擎,电话一打进来,如果你是会员,所有信息就会调出来。如果你不是会员,我们也会从网上抓取介绍,给到呼叫中心的人员去看。第三个平台就是短信。你可以直接输入一个自然语言,比如说“明天我从广州到北京有没有空位”,我就会自动解析识别语言,给你回复。还有我们推出了移动应用,苹果一来中国的时候我们就推出苹果版,Windows8发布的时候,我们也跟微软同时发布,微软推广时也讲到我们南航的移动应用。还有三星,他们也在不同场合展示跟我们一起做的应用。接下来就是微信,微信是这半年特别火的。我在上个月和这个月讲了很多微信专题的分享会。

   南航对于微信的定位是这样的,从6月5号曾鸣说“微信不是一种营销工具”。我们一直没有怎么做营销,更重要的是把它当做工作和服务的方式。如果大家没有加过我们的微信,可以通过扫描二维码加入。对于服务来讲,我们把南航选座位的服务放在微信上,还有把所有官网和移动应用上能够在微信上做的一些应用都逐步的移到微信上,同时提供。比如说沟通的方式,你加了之后可以通过语音方式跟它语音对话,我问北京的天气或者里程数或者展示会员卡信息,都可以通过文本、语言方式跟账号进行沟通。我们还有一个有意思的应用叫做“南航西西”,以前要通过登陆10个系统了解信息,现在通过微信就可以知道,比如说有哪些航班,一起飞的有哪些空姐。还有开会的时候,在微信上说两句分配工作。管理人员都在微信上接收任务。

   我们当时用了30天时间把微信这块的工作开发出来,这是我们的开发团队。如果大家想体验一下,可以拿起手机来扫一下我们的二维码加入。或者搜索“南方航空”,加入。“扫一扫”功能非常强。微信5.0,“扫一扫”把所有东西都吃遍了。

   另外一块是移动应用。前面有很多的数据都没有用好,但是在移动化的时代我感觉完全变了。我们以前的老板,我们信息中心做个什么系统他根本不会提太多意见,因为他没有什么时间待在电脑前用你的系统。我们现在开发一个移动应用,我们老板坐飞机之前会给你发一对指导,就是随时随地把碎片时间利用上了,所以现在我们做了很多移动应用,包括办公系统、商务移动化、客舱移动化、货运移动化、服务移动化、飞行移动化。

   这是我们旅客的一个应用,直接可以购票。这是我们推出各种版本的系统,基本所有设备都能兼容。我们的客户端推出来,今年我们感觉是在爆炸式的增长,现在每一天在手机上订票的用户,每天销售额就是一百多万。装机量达到一百多万。地面工作的人员,以前都要去看液晶屏看航班时刻,而现在通过移动设备就可以看到飞机的状况。另外一个是机长,他们以前要扛好多资料上去,但是以后就拿iPad就可以了。允许iPad在起降时用它,不用关机。以前这些数据有几个资料室来装,这只是一架飞机。还有高端客户经理,我们也会推送相关的数据,通过高端客户经理,只要你一买票,他就知道了,然后就会安排相应的接待,包括你什么时候到机场。还有OA,我们不仅结合了移动应用,通过短信审批都可以。

   我的分享就到这里,也欢迎大家来体验我们的新技术以及我们新型的飞机,包括787梦想飞机,还有A380宽体飞机(可以乘坐500人)。谢谢各位!


原文发布时间为:2013-11-26


时间: 2024-08-22 14:43:07

南方航空:大数据与移动应用的相关文章

2013 Teradata大数据峰会:演绎数据价值

文章讲的是2013 Teradata大数据峰会:演绎数据价值,4月24日消息,第13届Teradata Universe峰会(亦称2013 Teradata大数据峰会)在北京国际饭店正式举办.本届峰会是国内最大规模的数据分析峰会,聚焦于数据仓库.数据探索和大数据分析应用,帮助中国客户建立大数据分析能力,赢得决胜未来的核心竞争力. 本届峰会为期2天,以"数据价值,极致演绎"为主题,吸引了全球1000多名数据分析领域的专业人士.企业及政府用户.合作伙伴.技术专家.行业分析师和媒体共聚一堂,

消失的马航 大数据告诉你航空安全现状

http://www.aliyun.com/zixun/aggregation/38399.html">马来西亚航空公司编号MH370客机飞行途中失联的事件发生至今已超过24小时.马航9日早上9点在吉隆坡举行最新发布会,马航表示目前仍未找到任何残骸证据.观察者网将继续追踪报道最新消息. 3月9日09时,马来西亚飞机失踪最新消息:马来西亚航空公司编号MH370客机飞行途中失联的事件发生至今已超过24小时.马航9日早上9点在吉隆坡举行最新发布会,马航表示目前仍未找到任何残骸证据.观察者网将继续

消失的马航 大数据告诉你真实的航空安全现状

马航失联事件,牵动着每个人的心,全世界都变成了接机人,而最新消息,@央视新闻:[扩散:客机失联54小时最新消息]①我国将派由外交部.公安部等组成的联合工作组赴马;②首批中国乘客家属将乘坐马航赴吉隆坡;③我海军再派一导弹驱逐舰.一两栖船坞登陆舰赶赴救援;④我国"南海救115"预计今天18时抵达疑似失事海域;⑤国际刑警组织称发现"更多可疑护照".祈祷 3月9日09时,马来西亚飞机失踪最新消息:马来西亚航空公司编号MH370客机飞行途中失联的事件发生至今已超过24小时.马

南航率先加入综合交通出行大数据开放云平台

中国南方航空公司宣布,南航将率先加入交通运输部"综合交通运输出行大数据开放云平台"项目,贯彻落实国家"互联网+"战略,打造"南航e行",以旅客需求为导向,提供全方位一站式的出行信息及运输服务. 南航是首个加入国家综合交通运输出行大数据开放云平台的航空企业. 据了解,南航与百度的合作涵盖了基于地理位置信息的出行服务.互联网营销.线上线下业务互补.云计算与大数据.新型技术探索.用户挖掘等多个领域的内容,双方将共同推进用户权益活动.大数据营销.个性化产

微软新一代数据库平台 决战大数据时代

2012年被称为大数据之年,越来越多的企业投入大数据的怀抱,相关厂商也不断推出新产品.据国内有关机构初步预算,未来中国大数据潜在市场规模有望达到近2万亿元.IDC报告也指出,2011年,全球被创建和复制的数据总量达1.8ZB,不仅现有数据量的规模几近于人类已知的物理宇宙中的星辰数量,而且全球信息总量每两年,便会增长一倍.这意味着,大数据这个机遇已摆在了市场面前. 为了抓住大数据的市场机遇,微软发布支持大数据功能的SQL Server 2012.作为微软最新一代的数据平台,SQL Server 2

阿里巴巴大数据学院落地成都,计划5年培养2000名高端专业人才

在5月23日的云栖大会·成都峰会上,成都信息工程大学与阿里云联合宣布共建"成都信息工程大学·阿里巴巴大数据学院",组建立足四川.面向全国.放眼全球的新型示范性大数据学院.   阿里云重视对云计算.大数据及人工智能整体产业的培育.这是全国第三所由阿里巴巴与高校联合冠名的大数据人才培养学府,是全国第一所同时开展本科生与硕士研究生培养的大数据学院.   成都信息工程大学由四川省和中国气象局共建,是四川省重点发展.以信息学科和大气学科为重点的多科性大学,入选了中国首批"卓越工程师教育

大数据技术在发展 挑战与机遇并存

大数据技术是在传统数据处理手段无法应对海量数据的实时需求的情况下,采用新的信息技术来应对大数据爆发进行数据处理的技术.大数据技术一般可以包括基础架构支持.数据采集.数据存储.数据计算和数据展现交互等. 大数据技术的分类 大数据技术涵盖的范围十分广阔.基础架构支持方面主要包括了支撑大数据处理的基础架构级数据中心管理.云计算平台.云存储设备及技术.网络技术.资源监控等技术.而为了处理数据,则需要有大规模物理资源的云数据中心和具备高效的调度管理功能的云计算平台的支撑. 数据采集技术方面包含了数据采集的

合理利用大数据 助力中国各产业加速发展

随着物联网的应用及智慧产业的爆发,"大数据"这个词汇再次高频度地出现在人们的视线中,围绕大数据做文章也相应催生出了农业大数据.工业大数据.健康大数据.旅游大数据等一批行业领域的大数据概念.作为各行各业智能化变革的重要组成部分,"如何利用大数据"成为传统企业和新兴互联网厂商争相涌入的新一片蓝海. 合理利用大数据助力中国各产业加速发展 智慧产业的应用简单来说,需要依托传感前端的智能感知或者数据采集,经过数据筛选.分析等处理,最终根据业务需求提供服务应用的一个过程.其中,

115期:在线大数据技术峰会回顾合集!

本期头条   票选最美云上大数据暨大数据技术峰会上,阿里云飞天一部计算平台高级专家无庸为大家带来题为"高可用大数据计算服务如何持续发布和演进"的演讲.本文先对MaxCompute架构进行了介绍,接着重点介绍在大数据计算服务下,高可用服务持续改进和发布的工具,包括Playback工具.Flighting工具和灰度上线.细粒度回滚等,点击查看. • [资料合集]在线大数据技术峰会:讲义PDF+活动视频! • 提速1000倍!阿里率先采用Intel Optane SSD • 东京见闻:快速走