国庆期间,全国各处景点人满为患,水泄不通。然而一些景点却在爆冷门:10月1日五台山人数比去年同期减少近3成,黄山全天游客人数只与双休日水平 相当。如果假期到来前,有相关数据预测各地景点人流量,大家即可提前做好准备,错峰出行。事实上,在国庆假期之前,艺龙、同程等旅游网站已根据机票、酒店、景点门票预订量出具相应的数据分析报告:热门出游目的地中三亚最火爆,客流量最扎堆的城市是北京——大数据正悄然在我们身边发挥着作用。
1. 传统行业中的大数据应用
1)啤酒与尿布
美国沃尔玛超市里,啤酒与尿布总被摆放在同一个区域,方便“奶爸”购物;类似的情况还有出现在同一货架的方便面和火腿肠、口香糖和避孕套。这些贴心安排 无不得益于超市供货人员对客户习惯的深刻解读,也得益于大数据在大型商超、购物中心中的使用。在传统购物中心向商业综合体转变的过程中,利用大数据对用户 喜好和用户行为进行分析成为至关重要的一环。通常购物中心需要外部第三方数据来分析时下受欢迎的品牌、某地区人民的饮食口味、消费水平;同时内部数据,如 相应时段的人流量、POS机的消费数据、cctv监控数据、购物产品清单数据等也显得至关重要。
2)余额宝
余额宝自2013年6月上线后,仅用了半年的时间就使背后的天弘基金规模增长40倍。截止2014年3月,余额宝的用户数量已经达到8100万,超过整 个中国股市中的活跃帐户数。货币基金资产主要投资于短期货币工具,大规模的基金投资追求高收益,也要规避风险。通过大数据的支持,余额宝能够预测到流动性 的趋势,适时做好流动性需求支持,合理规避风险。基金公司能通过支付宝提供的余额宝资金流动情况,通过模型预估流动趋势,安排投资。而传统行业没有大数据支持,自然就失去了这样的能力。
2. 大数据在传统行业落地难
1)相关人员稀缺。既懂业务又懂数据的人,在互联网行业中不难找到。而传统行业中,数据和业务的结合通常非常松散。具备大数据专业知识的专家,显然这个 角色在传统行业以往的运作过程中是缺失的。传统行业的技术人员通常觉得大数据很潮很热,但回答不了以下问题:能拿到什么数据? 这些数据有什么用? 怎样用这些数据?
2)技术积累不足。在互联网行业中应用非常广泛的技术,传统行业的技术人员却接触很少。在大数据的实际实施中,像hadoop、消息队列、storm等这些大数据处理技术,传统行业还只是停留在初步了解阶段,能真正应用的比较少。
3)成本资金消耗。一些传统企业在准备独立做大数据应用的时候,发现实施的成本非常巨大,整个的IT方面预算的开支增加了1个甚至2个数量级,而这些投入是否能达到预期效果还不敢肯定。
3. UCloud云平台的针对性解决方案
对于人员稀缺的问题,除了积极的引入相关人才和内部技术人员的培养,传统企业也可以寻求外部合作。目前已经有很多企业在这些专业的领域内提供成熟的解决 方案。UCloud,作为国内最为专业的基础云计算服务商,也针对性地开发了大数据产品UDDP (UCloud Distributed Data Processor) 能够帮助用户轻松、快速地处理TB甚至PB级的海量数据。目前,UDDP正被应用于数字营销、数据分析、商业智能、科学模拟等领域。
对于技术积累不足的问题,UCloud所提供的大数据产品服务可以有效帮助企业用户降低技术门槛,规避掉复杂的技术细节。同时,UCloud的专业技术负责人也会为客户有针对性的提供培训课程,并不时在实际实施中进行技术指导,帮助用户快速消除技术短板。
资金成本问题就更为简单,使用云计算服务是降低综合成本非常有效的方式。传统企业通过使用云服务,复用资源,可以大规模降低大数据应用的成本。例如,使用UCloud的大数据产品,按每天计算数据在10TB来估算,每个月的成本大概也就在数千元。
4. UCloud大数据产品系统设计
在UCloud大数据产品的整体系统框架中,最下层是数据采集的接口,通过摄像头、传感器、各种日志、数据库等采集数据,存储在HDFS上。在存储之上,我们支持两种分布式计算框架,SPARK和MapReduce,针对不同习惯用户使用。同时也会提供列式存储HBase。
在数据之上,会有很多的工具支持,如基于Spark的Spark SQL、Spark Streaming、Spark Mlib等,以及基于MapReduce的Hive、Pig等。计算后的数据可以继续存回HDFS,也可以输出到DB或其它地方用作其它用途,在此之上建 立各种业务模型使用。
在集群内,我们会对数据分析任务进行调度,充分利用集群资源。同时对集群进行监控,对任务失败进行及时恢复,及时发现问题,并提供信息给集群日常维护。
UCloud大数据产品系统设计
5. 大数据在传统行业中应用的未来
1)智能视频监控
如今,智能视频监控已经应用到很多地方。比如奥林匹克公园内设的智能计数和密度分析系统,可以全天候的对入口区域、人流通道等重要区域的人流状况进行实时密度分析统计。
智能视频监控,核心就是将采集来的视频数据,按帧提取出来,应用到特征模型中进行匹配。然后将这些特征全部存储下来,添加标识、索引,在需要的时候再进 行检索、或进行更深层次的分析。在这个过程中,我们需要视频原始数据能很快能够转换成特征模型,同时也需要海量存储去保存这部分视频数据。技术的核心在于 特征模型的选取、转换的算法、海量数据的实时和离线分析能力。
特征模型的 选取,可以通过和一线工作人员沟通把模型建立起来,也可以寻求一些模型库。很多开发者社区里则有转换算法的分享。UCloud对一些开发者社区提供资金、 资源的支持,目的就是帮助开发社区沉淀经验,以便为更多人提供帮助。而海量数据的实时和离线分析能力可以在内部搭建,也可以考虑使用专业的大数据服务,比 如UCloud的UDDP。这样智能视频监控应用将会很容易落地。
2)医疗健康系统
未来的医疗健康系统或可借鉴身份证采集的模式,拍摄照片上传到指定网站,然后办理个人医疗证件。无论到大型医院就医,还是到社区医院体检,相关检查数据 都可以被传输到医疗系统。后续就医时,医生可以根据前期的体检数据直接开药,或者以这些数据为基础为病人诊断。这样即可大大提高医生的工作效率,有助解决 就医难的问题。另外,这些检查数据汇聚在一起后,可以供卫生防疫部门来做分析,提供更为完善的公共健康服务。也可以由个人委托商业机构追踪个人生理情况,做事先预防、调养。
当然,医疗健康行业有一定特殊性,需要体制改革支持。需要在信息化上解决现有医院个人医疗信息的孤岛,再引申出来和大数据结合的个人、公众医疗健康服务。
时代变革,从一开始就不可逆。互联网诞生时,有人说过这样一句话“在网络上,没人知道你是一条狗”。然而在大数据时代,我们不但知道你是一条狗,而且知道你是一直羞涩、前腿短的柯基,不爱吃狗粮爱吃肉,最喜欢粉色的小外套……■