八大行业Hadoop大数据应用回顾和展望

任何新技术的发展都会经历一个从被公众了解到最终普遍应用的过程。大数据技术作为一个新兴的数据处理技术,经过了近十年的发展,刚刚开始在各个行业得到应用。但从媒体和公众视野中,大数据技术总是带有神秘的色彩,似乎有着挖掘财富和预测未来的神奇力量。广泛流传的大数据应用案例包括Target超市根据女孩的购物历史判断是否怀孕,信用卡公司根据用户在不同时空的购物行为预测客户的下一个购买行为,等等。大数据技术也为我们描绘了一个个如“智慧城市”,“智慧交通”和“智慧医疗”等等的美好梦想。这些描述让大家对大数据技术充满了憧憬和美好预期。

我从2014年的大数据应用中总结了两个重要的现象或者说应用趋势。第一个现象是大数据技术优先应用在采用SQL进行结构化数据处理上,来解决数据量增大带来的处理能力的挑战;这与很多人宣传的大数据技术最适合处理非结构化数据(而不适合结构化数据处理)相反。我们发现企业面临两方面的挑战,一方面是累积的数据量越来越大,从GB增长到了TB(拥有PB级的企业客户也有,但是少数),另一方面,随着应用的增多和复杂化,计算能力越来越不能满足要求。大多数企业多年来根据业务需求在传统的关系数据库如DB2或者Oracle上开发自己的应用,数据量和应用的数量都在快速增加,传统数据库运行这些应用花的时间越来越长,即使只有1TB的数据,由于业务逻辑的复杂性,在传统关系数据库上运行统计业务,也从以前的日报(每日统计)降低到只能做现在的周报了。这样的时效性已经大大限制了企业的生产力。在IT系统日益成为企业业务本身的大趋势下,IT系统效率的低下严重影响了企业的竞争力。这些待处理的数据都是企业的结构化业务数据,现有的应用也都是基于SQL的。这是分布式的SQL on Hadoop技术发展的客观原因,也是星环科技致力于提升SQL运行性能和SQL支持完整程度的一个现实需求。

第二个现象或者需求是对实时时序数据的处理需求日益强烈,特别是随着传感器和监控设备等电子仪器的普及,企业有越来越多的实时数据。传统处理方法是将电子仪器产生的数据存入数据库后再统一分析。随着设备的增多和数据的增长,传统方案的延时越来越高。利用流处理技术在数据产生的时候就进行实时处理可以极大地提高企业的反应速度和工作效率。2014年星环科技部署了较多的流处理集群,来处理从用户产生的实时数据到传感器产生的数据。

这两个应用趋势我认为在2015年会变得更加强烈。下文简单总结了过去一年中在运营商、金融、物流、工商、交通、能源、广电和电商等多个领域中的大数据应用。

电信运营商

移动互联网时代的运营商面临着许多新挑战。微信等手机通讯APP的出现侵蚀了运营商的语音和短信收入,流量业务显得更加重要。另一方面,无线网络服务是运营商的核心竞争力。近年来,运营商正在投入大量资金建设网络来大力发展4G。4G网络的覆盖率不高或者质量不高导致的4G回落到3G或者2G会大大降低客户满意度。

经过最近一两年的探索,运营商在大数据平台建设方面总结了两个方向,一是利用大数据技术来提升运营效率,同时探索新的商业模式和数据运营方式。在过去的一年中,大数据在运营效率提升方面得到验证,而新的商业模式仍然在探索中。我们在广东移动的经营数据分析中应用星环的内存计算技术成功地将800多个指标的计算从原先Oracle的30小时减少到了4小时,在上海移动成功地将流量经营系统从DB2完整地迁移到了星环的TDH上,运行效率比原先的集群有5倍左右的提升。我们对SQL的完整支持使得应用系统迁移成为可能,而之前合作伙伴曾经尝试过将应用系统迁移到某知名Hadoop发行版上但没有成功。我们正在参与某省电信和某直辖市移动的4G网络优化项目,在这些项目中,我们的合作伙伴在用更高性能的星环TDH代替传统MPP数据库进行网络优化模型的建立和高速的模型运算,一方面发现网络中存在的问题,例如信号回落的问题,帮助运营商快速找出有问题的区域。另一方面通过TDH提供的完整SQL结合统计和机器学习算法,找到最佳的优化模型和参数,对网络进行细粒度的精确调整,以提高网络的覆盖度以及信号的质量。

金融

在2013年到2014年间,国有银行以及部分股份制银行或多或少地进行了大数据技术应用方面的探索,但是早期的应用局限在简单的历史交易查询以及非结构化数据的存储和检索上,并没有对银行的关键业务产生影响。而大数据技术在银行的应用前景被广泛传播,通过综合处理银行自有结构化交易数据以及外部互联网/政府数据,可以提升精细化客户管理水平以及进行大数据征信降低风险等。这些远景在2014年没有成为现实,2015年预计将是应用探索的一年。但我们在2014年在银行中实践了一些务实的应用。在这些应用中,TDH作为数据仓库的补充,用于提升数据分析的效率。同样受益于我们对SQL的完整支持,某股份制银行开始把一些复杂的贷款风险控制逻辑迁移到TDH Hadoop平台上进行运算。这些风控模型客户此前在多个MPP数据库和Hadoop发行版上进行过尝试,性能或者功能都没能满足他们的要求。从技术角度来看,这些分析涉及的数据量只有几个TB,但是分析业务极其复杂,涉及到近百张事实表和维度表,有些表的宽度甚至超过了几万字节。这个案例说明传统关系型数据库或者MPP数据库对于大数据场景下的复杂计算变得越来越捉襟见肘,银行需要一个更高效的数据处理工具。

快递

快递行业IT系统产生的数据量和承载的压力过去一直没有得到大家的关注。近年来,快递行业的规模随着电子商务的高速发展出现了快速的扩张。巨大的市场需求给快递公司带来了前所未有的挑战,每年的“双十一”会给快递公司的处理能力施加远高于平时的压力。因此,怎样缓解“双十一”的爆仓、避免快件变“慢件”是每个快递公司的难题。

如何通过大数据的分析对快递流程进行改善和优化成为一个值得研究的问题,也是快递业提高竞争力的一个重要手段。快递的每一个生产环节都会产生的大量数据,监控这些数据进而对全国各处理中心的收寄和运载能力、出班投递计划做实时优化调整,公司就能降低成本。分析这些数据来对业务发展的趋势做出预测,公司就能做好准备应对暴涨的需求。然而,快递生产环节中的数据具有数据量大、并发性高、类型复杂的特点,上层应用对实时性要求很高,传统数据库在这样的情况下捉襟见肘。

我们和华胜天成合作一起为中国邮政EMS速递部门部署了大数据平台,对它在全国的揽投部、处理中心和集散中心的数据(包括已接收、留存件、已下段、未下段、已投递、未投递、揽收员、地址、已封发、已发运、未发运等等)进行处理。大数据平台将ESB(企业生产总线)流来的数据实时动态加载进流处理集群以及实时数据库,进行实时统计和指标监测,并且实现实时数据查询。这次部署给了客户简单易用的工具来对业务的每个环节实时监控,使得他们在海量的快递业务中都可以快速精准地发现问题,如快件的积压、遗失、破损等,从而提高服务质量。这个大数据平台平稳支撑了2014年“双十一”的数据处理压力。未来该平台也可根据最新的生产数据帮助快递公司调整和优化投递计划,为公司降低成本。

工商

工商部门在建设国家的“经济户籍库”积累了大量的市场主体信息、年检情况、执法数据和12315投诉等数据。对这些数据的统计分析可以帮助工商部门理解市场与经济形势。

大数据技术的其中一个简单应用是用在数据质量管理和统计分析上。由于是人工录入数据,不可避免存在一定出错的概率,虽然概率不大。同时企业和个人的基本信息被分散在几十张关系表中,信息存在一定程度的交叉关联。通过对数据进行大规模交叉比对和统计,可以发现数据中隐藏的错误并及时得到更正。这个应用使用了星环的内存计算技术,全量数据的校验和统计可在十分钟内完成,极大提高了工作效率。

另外,大数据技术也用于市场主体信息的查询系统中,可以应对上亿用户并发查询并在几百毫秒内就返回查询或搜索结果。对企业历史快照的查询可以让用户跟踪企业变更信息,掌握企业生命周期的变化规律。在解决了存储和查询问题的基础上,我们还帮助客户利用图计算引擎快速发现企业之间和企业相关人员之间的关联。通过对全库数据进行扫描,确认这些企业基于股权、任职等方面的关联关系,建立企业关联关系信息库。

电力

随着电力企业信息化快速建设和智能电力系统的全面建成,电力数据的增长速度将远远超出电力企业的预期。从发电侧为例,电力生产自动化控制程度的提高,对诸如压力、流量和温度等指标的监测精度,频度和准确度更高,对海量数据采集处理提出了更高的要求。就用电侧而言,一次采集频度的提升就会带来数据体量的“指数级”变化。电力数据量的增长已经远远超过某电力部门原先使用的关系数据库的处理能力。

我们在2014年主要帮助电力部门处理用电侧的数据。我们意外地发现电力数据的统计分析涉及非常复杂的SQL运算,从技术角度来看,大量使用了Oracle的PL/SQL扩展语法,包括存储过程/控制流/异常处理/增删查改/事务处理等。从应用角度来看,这些SQL逻辑主要用于用电量的历史统计和用电趋势的分析,以及对线路损耗的计算。我们协助客户通过机器学习的方法进行分析,发现用电量跟宏观经济走势以及气候有一定的相关性,同时也跟每个行业以及每个企业的经营状况密切相关。通过对企业用电量的统计以及它所处行业的用电水平的对比,可以发现企业的节能情况,通过对用电历史数据的分析,可以发现企业生产活动的变化或者节能措施的效果。某南方供电局采用TDH的平台统计找出节能环保的企业和用电大户,并对节能环保的企业给予补贴,目的是对全社会节能减排观念进行引导,推动工业由高耗能的粗放发展方式向低耗能、高效率的绿色和谐发展方式转变。

我们还为某电力部门部署了一个试验性的故障处理系统,我们和合作伙伴建立了统一的配电网供电拓扑模型,利用图数据库存储从用户到变电站的整个供电拓扑网络数据,利用流处理系统进行实时告警,并实时查询电网拓扑图,快速研判停电事故发生的地点以及影响的范围。在此基础上,可以将停电事件通知抢修班组,及时恢复供电。同时可以主动告知用户,加强与用户互动,全面且直观的掌握全网的停电分布情况。

交通

随着经济迅猛发展,机动车辆不断增加,全国性的交通拥堵现象也越来越严重,如何通过信息化手段提高交通管理水平和保障道路安全已经成为一个重要的课题。

目前常用的方式是在道路卡口部署数字监控设备,这些设备7×24小时不间断捕获图像和视频数据,并进行识别,一个省或直辖市每日产生的过车数据有几千万条记录。这些数据主要用来为交通管理部门提供实时的路况信息,这些信息未来可以发布给公众作为出行的参考信息。同时协助管理部门进行交通管理,包括对重点营运车辆的监控,违法车辆的识别和布控,区间测速、套牌分析等实时性的分析应用。 我们和合作伙伴为某省公安厅交通管理部门部署了全省范围的交通监控系统,采用分布式队列实时采集全省各个交通卡口的车辆信息,使用流式计算集群对过车记录进行实时统计和监测,并实现上述多种实时分析应用,系统处理信息的端到端延时在2秒以内,较好地提高了交通管理的效率。

当然,交通行业的大数据应用还处于起步阶段,刚刚开始或者即将完成大数据的集中收集。利用大数据技术的强大分析和挖掘能力,未来可以显著提高交通信息的实时透明度,提升交通和拥堵管理的水平,降低事故的发生率,并为城市规划提供参考。

广电

在中国,广电系统正经历着数字化浪潮的冲击,基于网络化的影视播放给传统广电运营商很大挑战。在此背景下,华数传媒敏锐意识到,要想获得未来网络化传媒的生存与竞争优势,现在就必需向用户倾斜,打造“精准型”广电内容及传播运营商。华数传媒需要的数据基础架构需要能够满足海量、多来源、多样性数据的存储、管理要求,支持平台硬件的线性扩展,并提供快速实时的数据分析结果,迅速作用于业务。华数传媒选择了我们为其部署了大数据平台,在其之上开发了数字电视分析系统。该系统可以提供基于全量数据的实时榜单。以时间(小时/天/周)、用户等维度,对点播节目、直播节目、节目类别、搜索关键词等进行排名分析、同比环比分析、趋势分析等。系统还可以从时间、频道、影片类型、剧集等维度,根据在看数量、新增数量、结束观看数量、完整看完等分析用户走向。另外,通过对用户行为数据的采集分析,华数传媒可以对客户进行精准画像,使用智能推荐引擎,系统可以先于观众知道他们需求,预知将受到追捧的电视,为每一个用户量身定做推荐节目,以提高了产品的到达率,增强用户忠诚度。另外,系统还可通过观众对演员、情节、基调、类型等元数据的标签化,来了解受众偏好,从而进行分析观测,为后续的影视制作等内容开发做好准备。得益于基于大数据平台的数字电视分析系统,华数传媒正在进行从内容传输到内容制造的“华丽转身”。

电子商务

在电子商务领域,大数据可以说已经成为业务支撑的关键技术,在营销推广、客户关怀等众多环节发挥重要作用。我们和锦江电商合作,利用大数据平台为该电商打造了产品推荐系统。我们基于大数据平台建设了客户标签体系。依托该电商大量的会员和访客,深度学习和挖掘客户的行为数据,依据RFM模型和客户信息,形成客户消费喜好、客户年龄、家庭状况、甚至星座、属相、消费频次、金额、出行方式等等信息计入客户标签。再将客户标签聚类分析,形成客户分群。如此,便能精准获取客户群体,实施精准营销。同时,我们还协助客户建设了产品标签体系。依据酒店与旅游等各类型产品特征,建设和挖掘产品标签,并经过一定的机器学习挖掘过程,将客户标签和产品标签对接,根据各类标签分析权重,建设智能化推荐系统。

该推荐系统可以智能化推荐产品,正逐步成为针对电商的会员关怀体系和精准服务体系中重要的基础环节。

总结和展望

总结了一下2014年的Hadoop大数据行业应用,有些应用可能是大家之前没有预想到的简单应用,有些则是复杂的数据分析和挖掘类应用。大数据技术本身是一个全新的数据处理和分析技术,拥有超过现有技术的强大处理能力和深度挖掘数据的能力,然而技术本身带来的价值需要通过上层应用来展现,因此如何应用这些能力来解决现实的问题是各个行业都在探索的课题。在2015年预计会有大量的基于大数据技术的创新应用涌现出来。

同时在过去的一年中,大数据技术已经证明可以大幅提升运营效率,我们预计将来的一年内,利用SQL on Hadoop技术解决企业面临的数据量大难算的难题会成为一个普遍的应用趋势,随着SQL支持程度的不断完善和性能的不断提升,企业应用大数据技术进行结构化数据处理,以提升运营效率和解放生产力,将得到立竿见影的效果。

2014年是大数据技术开始落地的一年,我们看到了市场对大数据技术和产品的巨大需求。我们对2015年和以后的大数据发展都十分看好。大数据快速发展的趋势会持续很长一段时间,数据中还有太多价值没有被挖掘出来,会有越来越多的企业、政府机构和公益组织需要大数据解决方案。普及优秀的大数据产品帮助大众解决数据处理的难题,让我们共同努力!

(责任编辑:mengyishan)

时间: 2024-09-20 02:32:28

八大行业Hadoop大数据应用回顾和展望的相关文章

2012年数据库与大数据领域回顾与展望

本文讲的是2012年数据库与大数据领域回顾与展望,2012注定是不平凡的一年,玛雅人将世界末日定在这一年的12月21日,然而这一天也许并不意味着结束,而是重生.正如2012对于大数据的意义一样,经过一年的历练,IT业界将在2013年迎来大数据元年. 一.2012年度回顾:大数据蓄势待发迎接元年 (一)2012年大数据呈现新特征 大数据不是刚刚出现的概念,"大数据"最早可以追溯到Apache的开源项目Nutch,当时大数据用来描述更新网络搜索索引所需批量处理或分析的大量数据集.随着谷歌M

打破TPCx-BB测试记录又怎样,会玩Hadoop大数据应用吗?

随着移动互联网的快速发展,数据量急剧膨胀,新经济模式下,如何从积累的海量数据中挖掘出新的价值,支撑企业及社会发展,是当前大数据大热的内在驱动力.大数据应用所需要的IT设施的计算资源.存储资源越来越大,但目前很多处于探索期的大数据应用能否最终挖掘出价值也需持续的投入与不断尝试,如何以更快.更省的方式捕捉到大数据的业务商机,是大数据应用企业不得不考虑的现实问题. 大数据应用一般采用Hadoop数据库,主要得益于其在数据提取.转换和加载(ETL)方面上的天然优势.Hadoop的分布式架构,将大数据处理

除Hadoop大数据技术外,还需了解的九大技术

除Hadoop外的9个大数据技术: 1.Apache Flink 2.Apache Samza 3.Google Cloud Data Flow 4.StreamSets 5.Tensor Flow 6.Apache NiFi 7.Druid 8.LinkedIn WhereHows 9.Microsoft Cognitive Services Hadoop是大数据领域最流行的技术,但并非唯一.还有很多其他技术可用于解决大数据问题.除了Apache Hadoop外,另外9个大数据技术也是必须要了

HADOOP,大数据,c++开发环境搭建问题

问题描述 HADOOP,大数据,c++开发环境搭建问题 各位大侠....我现在用c++来开发hadoop,现在服务环境已经搭建好了,我想再搭建一个用c++开发.编译hadoop的环境 c++的开发工具有eclipse和vs2010,请问各位大侠,我该怎么下手,怎么搭建 解决方案 http://blog.csdn.net/jin123wang/article/details/39012255http://blog.csdn.net/zwx19921215/article/details/19896

通信行业做好“大”数据,安全是必过的门槛

引言: 在全球新一轮科技革命与产业革命浪潮席卷下,移动互联网.云计算.大数据.下一代通信技术.物联网等新一代信息技术应用不断深入,加剧了众多行业变革.随着通信技术的迅速发展,通信数据量正呈现爆炸式增长.数据的大量聚集增加了数据泄密的可能,导致信息安全面临威胁.据介绍,大数据到来之后,从2013年有5.52多亿人口的个人信息被泄露,超过2012年的四倍,而2014年.乃至2015年数据泄露的数据依然在翻新,安全问题成为通信行业之心腹大患. 安全可控是通信行业应对"大数据"第一要求 信息通

能源行业进入大数据时代

<2013年中国能源行业信息化建设与IT应用趋势研究报告>显示,2012年中国能源行业的IT投资规模为357.1亿元人民币比2011年增长11.8%,依然保持着稳步高速增长的态势.2012年尽管经济增速放缓,能源行业大型央企的IT支出受影响相对较小.以电力行业为例,在智能电网的推动下,2012年电网侧的信息化需求依然强劲,国家电网和南方电网"十二五"期间都在进行更大规模的信息化投资,国家电网"SG-ERP"项目已完成试点工作,进入全面推广阶段:发电侧的五

Microsoft发布基于Azure之上Hadoop大数据服务第二预览版

Microsoft在最新发布的SQL Server 2012中,更新了基于Microsoft Azure之上的Hadoop.在上周Microsoft发布最新版本SQL Server的同时,Microsoft同时宣布其基于Windows Azure之上的Hadoop大数据服务第二个预览版.Micrsoft在SQL Server 2012中的许多新功能和新服务都是基于Microsoft客户的,这些客户专注于混合的IT环境,并将传统数据中心部署在私有云和公共云的环境之中. Microsoft的Hado

物流行业的大数据发展与应用

随着大数据时代的到来,大数据技术可以通过构建数据中心,挖掘出隐藏在数据背后的信息价值,从而为企业提供有益的帮助,为企业带来利润.面对海量数据,物流企业在不断增加大数据方面投入的同时,不该仅仅把大数据看作是一种数据挖掘.数据分析的信息技术,而应该把大数据看作是一项战略资源,充分发挥大数据给物流企业带来的发展优势,在战略规划.商业模式和人力资本等方面做出全方位的部署. 所谓物流的大数据,即运输.仓储.搬运装卸.包装及流通加工等物流环节中涉及的数据.信息等.通过大数据分析可以提高运输与配送效率.减少物

英特尔展示体育行业与大数据技术应用

ZDNet至顶网服务器频道 06月19日 新闻消息: 为解析体育领域大数据的创新应用模式.进一步挖掘和验证大数据推动社会和经济发展的价值,主题为"赛场内外大数据 商业变革芯洞察"的英特尔体育行业与大数据技术应用媒体沟通会6月18日在京举办.与会的英特尔技术专家.体育行业从业者.体育营销领域专家及体育资深媒体代表从不同维度分享了大数据技术在其细分领域中的应用模式及其产生的独特价值,并对未来大数据分析在体育领域的进一步应用进行了展望. 无论是赛场上运动员的表现.教练的战术布置.裁判的执法,