“中关村大数据产业联盟”推出“大数据100分”论坛,每晚9点开始,于“中关村大数据产业联盟”微信群进行时长100分钟的交流、探讨。
【大数据100分】何鸿凌:电信行业大数据应用案例的实践及思考
文:何鸿凌
主持人:中关村大数据产业联盟 副秘书长 陈新河
主讲人:何鸿凌
承办:中关村大数据产业联盟
何鸿凌,中国移动集团公司业务支撑系统部项目经理,高级工程师。1978年生人,2001年获得重庆邮电大学计算机应用学士学位,2014年获得重庆大学软件工程硕士学位。工信部和人社部认证的高级程序员、系统分析师、网络分析师。CCF大数据专委会成员、TDWI会员。2001年进入重庆移动负责经营分析系统建设、维护、运营和应用。2006年进入中国移动集团公司,负责全网经营分析系统的规划、规范和技术架构。现在负责中国移动大数据平台的规划和大数据技术应用。在DW/BI和大数据领域有十余年的工作经验,曾主持欠费风险预警、用户离网预警等多个分析项目。曾担任DB2数据仓库系统DBA,熟悉Oracle、Teradata等其他传统数据仓库系统和BIEE、Tableau、SPSS、MicroStrategy等数据可视化工具。在数据仓库的构建、维护、运营方面有丰富的实践经验,对数据分析方法和数据挖掘方法有深刻的理解。08年以后主要精力放在大数据技术以及大数据应用方面,主导引入Greenplum、Vertica、Gbase8a等MPP技术,以及Hadoop、流处理和Spark等技术来搭建运营商的大数据平台,并探索大数据对内和对外的商业应用。
以下为分享实景全文:
一、中国移动的数据情况
可以说,除了CRM和计费系统产生的用户资料和话单数据之外,中国移动还有很多其他的数据源,比如应用市场、手机阅读、手机游戏等平台产生的数据,还有更多的是网络设备上产生的海量数据。
我们现在大数据平台还在演进的过程中。目前形成的是集团一级和各省公司的1+31套系统。总的数据容量大约在10+PB。
但是其实这还很不够,一是数据不全面,光Gn接口的网络访问数据粗加工以后就有400多个TB/每日,4G全面铺开以后更大;二是数据存储周期过段,一般的数据为6个月,日志信令等更短,基本不存;三是分析挖掘不够,很多有价值的信息没有转换为智慧。所以我们现在正在做更优化的技术架构演进和组织架构演进。
贴一张简要的图说明一下中国移动的数据构成和增长情况。
这张图展示了两个信息,那就是挑战和机遇并存。超过摩尔定律的增长要求技术架构必须做出革新,必须高效低成本。另一方面能,数据是资产,我们的资产在快速的增值,当然前提是能将其转为会盈利。
二、中国移动大数据的指导原则
由此,我们最近几年在大数据方面的指导原则就是:
1、利用大数据技术,竭尽可能收集整理数据,竭尽可能关联数据,竭尽可能保存数据,将数据视作企业核心资产
2、充分发挥大数据价值,竭尽可能使得现有商业模式更加具有竞争力;竭尽可能发掘新的商务模式,直接将数据变成价值
我认为应用大数据的关键是一个思维模式的改变,一定要Thinking inBigData,否则还是传统BI和报表。要将循数管理的思想贯穿到企业上下,要有无数据毋宁死的想法才可以。《大数据时代》中那句话我觉得特别好:除了上帝,任何人都必须用数据说话。
三、中国移动大数据应用情况
接下来的时间分享大数据在运营商中的应用。下面我分享的一些案例有的是中国移动已经实现的,有的是正在上马的,另外还有一些是其他国际运营商的,他们在大数据应用方面走得较快。
应用方面我分三方面介绍:一是让运营商现有商业模式更加有竞争力;二是发掘新的商业模式,让别的行业运转更顺畅;三是承担社会责任发挥大数据社会价值。
对内的大数据应用方面,运营商已经比较成熟了,我们的DW/BI系统运转已经有十多年的时间,大数据主要应用在客户洞察,市场营销、客户服务和运营管理四个方面。每个方面我举一个案例来说明吧。
客户洞察就是根据各种各样的数据(例如消费、通话、位置、浏览、使用)通过各种各样的算法(比如分类、聚类、标签、RFM、Pagerank)形成的客户360度视图。比如客户的交往圈,就是利用各种联系记录形成社交网络来丰富对用户的洞察。我们用图挖掘的方法来发现各种圈子、分析影响力,分析关键人员,然后用来进行家庭、政企客户的识别,用来发现重入网客户,用来发现关键客户的异动情况。
接着说市场营销吧。这个就太多了,随便举一个终端营销的例子。大家知道吗?去年中国移动卖出的终端有1.5亿部。一下子就把世界上T制式的智能终端和W以及C制式智能终端的稳固比例打破了。现在TD-SCDMA芯片已经是主流了。今年的计划销售是2.3亿部,所以各个公司压力都很大。一般来说有几种方法,最霸道的就是贴营销成本了,这个无往而不利。但是大家知道移动的利润去年就开始下降了,所以这个路越来越窄,一些公司就开始用大数据来做终端销售。其实这个很早就开始做,但是不是太被重视而已。
方法是分析用户的终端偏好和消费能力,比如有的喜欢三星,有的喜欢苹果,看看他历史使用过的终端和交往圈中人用的终端就知道了。然后看换机时机,一般终端有一个生命周期,合约机也有到期时间。最后就是捕捉最近的特征事件然后通过短信、外呼、营业厅等渠道推送到用户手中。我们最好的分公司能做到几乎不消耗营销成本就完成了全部定制机的任务,而且全部通过电子渠道进行销售,这对中国移动来说很难得,因为终端价格拿得很高的。
客户服务方面举一个语义分析的吧。大家知道我们购买了科大讯飞一部分股份。现在我们的10086热线可以自动分析来话内容,进行归类,并识别其中的热点问题,如果是网络、资费等可能造成批量投诉的情况,还要及时地预警。这里面涉及到语音转文字、文本分析等多种技术。目前做得还不够好,至少我觉得需要做到智能呼叫路由,根据客户最可能咨询的问题优化自动语音的流程。另外也应该测量一下用户的情绪及其改变。
最后是运营管理方面,我说说我们利用数据分析来实现4G基站和WLAN热点的精确选址吧。我们分析话单和信令中用户的流量在时间周期和位置特征方面的分布。然后对于2G、3G的高流量区域提出布设4G基站和WLAN热点,这就是我们通常说的精确建站。另外我们还建立评估模型对已有基站的效率和成本进行评估,发现了一些建设上存在的问题,例如为了完成指标将基站建设在人际罕至的地方等。当前我们的基站资源还不能像云计算那样动态调度,有一些已经实现RAN的运营商,比如德电,做到了根据时间预测基站的容量,可以给CBD白天配备多一些无线资源,三里屯晚上配置多一些,这样让无线网络的运行效率而不只是建设效率更高。
以上谈到的是大数据在电信行业对内应用的四个方面。这也是国内电信运营商主要的应用方向。虽然大数据的外部性应用更加有趣,能发展新的商业模式,但是有数据所有权、隐私、体制等诸多因素,所以国内似乎目前只有看到电信在将固网的一些数据用来做RTB的互联网广告,除此之外看到的所有对外的商业应用基本都来自国际运营商。这里我想讲几个我们做的发挥社会价值方面的尝试。
第一个是利用大数据帮助旅游景区了解游客来源、分布等信息。比如大家在北京市旅游局的网站上可以看到景点的舒适指数,这个就是我们根据位置信令来分析景区用户数量得出的。在江苏,这个做成了一个行业应用,帮助一些景点进行精确的游客分析。要实现精确,就必须在网路上做一些改动,在关键位置安装几个不承担话务,只记录信令的微蜂窝基站,大约10米的范围。这些行业应用是由我们和合作伙伴共同完成的。
第二个就是在交通方面。帮助一些高速公路公司和交通厅估算通过率,发现拥塞和事故。比如在成渝高速,以及南京的智慧城市项目。这需要一些模型来进行评估,比如识别同行的人等等。在定位方面,无线定位准确度不高,所以只是作为一些辅助的数据。交通管理部门还有线圈数据、出租车的采集数据等,哪些数据精确度更高,是GPS级别,我们的数据覆盖更广。
第三是零售。帮助一些大的零售商分析顾客来源和各商铺、展位的人流情况。有点类似西班牙电信的Smart Steps。这个我们还没有真正实现,因为商务模式,定位精度等问题。我倒是知道现在有一些做WLAN运营的公司做这个,比如在万达广场。因为WLAN的覆盖范围更小一些,精度更高,同时也提供了营销和服务的渠道。
其余的就包括安全和反恐,当然这个不是我们做,我们只是提供数据,某些部门基于这些数据来分析人群驻留等,这个不多说。
我想举几个国外运营商大数据商业化的案例,比如AT&T;的Adworks,用大数据来实现精确的广告推送,覆盖电视、邮件、手机和电脑,当然是在AT&T;自己的渠道上。还有Verizon辅助第三方做精确营销,比如帮助NBA球队找到球迷所在等。Sprint利用大数据为行业客户提供消费者和市场洞察(人口、行为等分析)、季节性分析等。
四、中国移动大数据技术实施情况
应用方面介绍完毕,接下来介绍中国移动在大数据技术方面的实践。目前我们的大数据参考架构是MPP和Hadoop混搭,加上原有利旧的数据仓库系统,如下图。
传统DW做高价值数据的加工,MPP做长期结构化数据的存储和自助分析,Hadoop做数据处理、挖掘和历史存储。
先说MPP。MPP是将传统分布式数据库的理论运行在X86上的实践,用列存、内存和副本等进行了优化。MPP基本可以替代传统DW,但在大数据时代,还是有挑战。那就是由于它精确地进行数据分布的原因,可扩展性和高可用比较难以达到。大家都知道CAP理论,一种系统不可能什么都追求。我们现在看到国内较大的MPP集群也就几十个节点,国际上可以看到100、200的。但是这离我们的目标还有差距,我们经过估算,最起码也需要300到400个节点,而且还要满足未来的扩展性。
之前也讲了,大数据主要是要应用,而现在很多的应用都不是由IT开发的,是自助的,这就需要MPP中要提供沙盒,让业务部门或第三方能自助地分析和开发。我们当然不希望每个沙盒都是物理的MPP集群,这样不仅安装维护复杂,而且会造成数据重复。所以我们希望的是让MPP的能力像云计算那样对外提供按需服务,实现虚拟化,其实DBaaS或者DWaaS的概念已经有人提,AWS的RedShift就是类似的产品。因此我们的MPP要求很大,这就对他的可扩展性和高可用带来了挑战,当然同样的挑战还有负载管理、计费、监控和安全等等。
Hadoop的扩展性会很好,而MPP就很难,这主要是由于两者存储机制上的差异造成的,我之前有一篇文章中有详细分析。详细的可以参考这个。http://labs.chinamobile.com/mblog/52251_189687。
关于MPP的高可用的挑战和应对,可以见这个。http://labs.chinamobile.com/mblog/52251_204166。
我觉得MPP未来的方向,是:多Master设计、虚拟化、软定义分布。
接着说说Hadoop,可以说Hbase和Hdfs都是很好的东西,但是MapReduce真心很差劲。社区也看到这一点,在2.0中MapReduce已经不再是唯一的执行框架,而缩减为Yarn框架下的一个应用了。当然再差也比我们原来在数据仓库内进行数据处理廉价,不过效率也比不上的(同等计算能力下)。这主要不是计算,而是刚刚说的数据分布的策略造成的,这也是我们要选择MPP作为混搭的原因。简单的说一个策略,一次写一次读的,应该用MapReduce;一次写多次读的结构化数据,那就应该用MPP,非结构化用Hbase。
刚刚说的Hadoop的技术难点主要是在MapReduce的作业中间和各个作业之间都需要落地到HDFS上,这个效率会很差,而且没有全局优化。我们很高兴地看到Spark解决了所有的问题,包括用内存做缓存、流水线和全局优化,所以我们现在正在试点将MapReduce替换为Spark作为处理引擎。
对于Hadoop还有一点,那就是现在在“计算”方面,Hadoop和MPP已经很像了,各种SQLOver Hadoop的方案借鉴了数据库的理论和方法,MPP数据库上也可以执行MapReduce,这是因为代码的迁移总是很容易的。但是数据不一样。Hadoop和MPP数据分布的不一样决定了两者的适用范围。因此,我们下一步准备将长期的数据放到Hadoop上做自助查询,这样既能缩小MPP的规模,也能降低成本,当然这样的查询效率就不如在MPP上了。
为了实现大数据的第三个V,速度。我们正在试点流处理来实现实时数据加工和服务,这个目前还没有太多的经验可以分享。
总结一下,在大数据技术方面,我觉得发展路径是这样的。
计算资源已经发展得很完善了,但是由于存储资源还不能软件定义,还不能统一管理,所以我们还需要混搭,也许过几年,这个问题也解决了,比如内存的革命。
五、这几年探索大数据的感受。
大数据很重要,但不能停留在商业炒作的层面,其实现在谈的大数据的应用,与以往DW/BI并无本质不同,我们当然可以借由此来申请资源,重新设计架构,但是自己要保持清醒的头脑,让大数据为我所用。
我理解大数据中数据是基础,如果双方互相沟通交流大数据,必定要先问有什么数据,怎么来的,数据质量,数据所有权是如何的,这个数据是否是有竞争力的。这里就衍生一个概念,数据是企业的核心资产,要将这个思路观测到企业的商业过程中,竭尽可能收集数据,竭尽可能保存数据,我觉得这是大数据给我们带来的一个改变。因为数据的应用很多是设想不到的,是外部性的,传统DW/BI采用的需求驱动的数据采集和获取方法就不合适了。
第二点感受就是大数据中,应用是关键。说得好不如做得好,所以最近看到一个说法真正的大数据公司从来不说自己是大数据公司。这里又衍生一个概念,就是数据驱动,一切管理循数而行,一切运营依数决策。这是大数据带给我们的第二个改变。必须把这个思想观察到一切生产经营活动中,这才能充分发挥数据的价值。eBay有一个提法是Measure Everything,所有的决策必须给出对比数据。我觉得这点很关键,这才能证明数据的价值。我看过很多说大数据应用的,都没有给出A/B测试来说明价值到底有多大,无法量化的结果可能淹没在多种因素之中。长期来看伤害了企业对大数据的信心和作用。
最后一点,谈谈在大数据方面的难点。毫无疑问,这肯定不是指技术,而是指隐私和数据所有权。这也是国内运营商长期停留在大数据应用对内产生价值阶段的原因,有数据不敢用,因为不能证明这个数据可以用。这也不是运营商的独有问题,几乎所有运用大数据的公司都有这问题。腾讯也在分析用户的交谈、分享,但是腾讯有权用它们来做内部营销嘛?可以做广告吗?可以做信用征信?这是一个通常的问题。我觉得这个问题要政府、企业、社会多方合作才能得出,当然,现在国际运营商和其他行业可以提供给我们很好的参考。从企业的角度,我觉得至少要做到下面几件事情:首先要解决数据所有权,这个或许要通过不同的商业模式,比如免费或让利(Kindel的广告版那样)和用户签订契约,一些国际运营商已经开始这样做了。第二要明确告知数据收集的内容和用途,特别主要有一些用途,比如征信,是需要用户授权才可以做的。第三要通过技术手段保证数据的隐私(至少不能像携程这回这样明文存储),我们在数据去隐私方面做了很多努力,也申请了一些专利技术和算法。
互动内容:
Q1武新:你们现在扔掉多少数据?
何鸿凌:扔掉的数据无法估计数量的,只有采集了的数据,才能估计量。
Q2张存勇:中国移动我们的首要客户,真想听下集团的想法
何鸿凌:@张存勇 我是做技术的底层人员。
张存勇:@何鸿凌-中国移动中国移动人也有发展压力啊
何鸿凌:@张存勇 压力很大,去年利润下滑5点多。今年上马4G,大投资。
Q3张涵诚:@何鸿凌 400Tb 和苹果的app—log 差不多!
何鸿凌:涵诚,400T只是Gn口粗加工后的数据,还不包括4G
张涵诚:可以做全客户生命周期管理啊。
何鸿凌:@涵诚,客户生命周期管理我们是在做的
Q4袁昕:但我是移动超过10年的用户了,我好象很少收到移动这类主动营销的信息
何鸿凌:@袁昕 你是不是设置了免打扰,有这个标致就不会外呼了
袁昕:哪有啊,什么也没设置,而且我两年前也开始用双卡了,上了联通的号
Q5颜苑:@何鸿凌-中国移动 在移动医疗的应用有例子吗?
何鸿凌:医疗的目前没有,中国电信去年和一个法国的医疗公司合作,不知道近况如何。另外,我们研究院搞过穿戴式计算,但是也没有商用。
Q6董健:国家旅游局和运营商在基于位置的大数据上合作过不少,故宫、长城都利用运营商额外的探针基站获取用户信息,从而调整门票销售策略,并且调整营销策略,不知道是不是移动。
何鸿凌:是的,就是移动。北京移动。因为移动用户基数大,所以估算起来,更加准确。所以我们希望的是让MPP的能力像云计算那样对外提供按需服务,实现虚拟化,其实DBaaS或者DWaaS的概念已经有人提,AWS的RedShift就是类似的产品。
董健:室内部分基于wifi的效果更好,比较经典的例子就是银泰百货,后来万达全部上马,那些都是非运营商的企业和商家做的,效果较好,基于LBS的大数据业务这些企业走在了运营商的前面。
何鸿凌:因此我们的MPP要求很大,这就对他的可扩展性和高可用带来了挑战,当然同样的挑战还有负载管理、计费、监控和安全等等。是的,我见过一些做WIFI定位和应用很好的公司。就像我刚说的,WIFI好处在于同时提供了接触用户的渠道。而且数据可以和商家自己的会员卡数据关联,这数据一关联,价值就海了去了。
武新:@何鸿凌 建议MPP用fat server,这样可大大减少节点数量。
何鸿凌:武总,我们现在节点已经256G,24块盘啦。我觉得MPP未来的方向,是:多Master设计、虚拟化、软定义分布。这个之前和武总讨论过,呵呵。
武新:@何鸿凌 最近我们给一个金融客户规划,2PB用50台fat server 就可搞定。当然列存储的压缩比很高是关键。
Q7董健:@何鸿凌您刚才说的自助式应用完全同意。大数据的一个重要特点就是价值是未知的,因此通过固定的数据模型来分析得出结果的办法有太多局限性,不说数据挖掘,光数据分析就可能得出太多之前根本想不到的数据价值。所以我们的数据分析系统就强调一切数据分析的方法完全灵活定制,而且是由业务人员来定制,甚至是在线的,跟你说的沙箱意思很像。我们一直认为DaaS,DAaaS(A是Analytics),把数据和数据分析的原语变成乐高模块,完全虚拟化,让业务人员随意折腾。我们通过对社会化媒体中的数据分析后才惊人的发现,明星的影响力和事件的影响力相比起来是那么的脆弱,后来通过数据分析结合心理学,发现很有道理。但在数据分析之前很难想到这点。这也是大数据时代数据中的价值会慢慢凌驾在专家经验之上的案例吧。
何鸿凌:@董健 是的。去年我在CCF上做的报告的主题就是分析即服务。AaaS哈哈。未知的才是有价值的,除非想要证明自己。为了实现大数据的第三个V,速度。我们正在试点试点流处理来实现实时数据加工和服务,这个目前还没有太多的经验可以分享。你说这个,我似乎在哪儿见过。就是微博中的影响力分析,结果发现影响力并不是想想中那样分布。不是你写的吧!我看了深有感触啊!很多事情并不像原来所想的那样。所以我们要用数据而不是直觉做决策。
董健:我给政府做过几次培训,应该不是我写的,不过道理是类似的。我曾经提过背板+刀片的软件架构来解决虚拟化,解决数据分析和具体业务,就是期望把数据分析和具体的业务能够完全和硬件解耦,并充分利用计算和存储资源,也根据这个理念实现了产品,曾经被某个国内知名厂商剽窃后在云计算大会上大肆宣扬。
董健:@张涵诚 没关系,理念可以剽窃,具体做出来太难了,所以很多人期待他们的产品后,下一届的云计算大会上人家就哑火了,就当他们替免费宣传了。
Q8 innovate511:@何鸿凌数据驱动,我一直觉得这个提法有待商榷,因为数据发现问题或者帮助决策解决问题,都得基于商业价值的分析和判断
何鸿凌:@吴君,不是说数据直接驱动商业,而是说,要以数据辅助来驱动决策,每个决策都要用数据做出。但是创意不是。就像AB测试那样,也许客户喜欢的,并不是设计大师设计的那些。
innovate511:@何鸿凌 作为分析师的角色,必须有自己的创意,稍微有所不同,哈哈
何鸿凌:@吴君 现在的确有两种路线。比如纸牌屋。另外一些大牌导演就觉得还是直觉更加重要。
innovate511:@何鸿凌 创意领域,很难说大数据能有多大绝对价值,但是在标准化商业模式下,大数据价值就是决定性作用了,但是应用还很难说清楚价值。例如推荐,在每天10万单的业务里增加几百单,如何证明是推荐的价值?就因为用户经过推荐去下单的么?太难说清楚!
何鸿凌:@吴君 你说这个可以通过独立变量测试得出。
皇上:@innovate511 我们主要还是依据A/B测试,这样对于其他不理解数据的业务人员来说,更容易理解,因为同等数据级别,确实我们优化的效果销售效果比例更高。
innovate511:@皇上 这个太难说,如果有人质疑,可以说客人如果本来有意愿买,不通过推荐也能下单。ABtest很难说得清楚微量订单带来的变化的原因,唯一的办法就是大家都认同的逻辑来推测。但是这种对业务没本质改变的大数据项目,我认为不是大数据应用的未来
皇上:@innovate511那只能说预测模型做的还不成熟了。因果关系的解释是没有办法去衡量的,我们也可以解释这个客户的购买就是因为我们判断他的时间点、消费或频次等变量达到一个适宜节点上,这也是一种因果
innovate511:@皇上 所以我说推荐主要功能是讲故事,我认为价值被夸大了。
何鸿凌:@innovate511 不用太纠结于细节,只要数据对经营有改善,哪怕1%,都很好。刚刚那位专家说的,一步一步优化嘛。
innovate511:@皇上 我一直提倡大数据分析专家应着眼最接近核心竞争力的,例如,如何划算的价格战?如何提升供应链效率?如何降低客户费力度提升客人决策效率?我认为那么多人扎堆推荐,唯一解释是这个项目是最不需要业务功底的应用!
Q9董健:@何鸿凌 “必须把这个思想观察到一切生产经营活动中,这才能充分发挥数据的价值。” 不能同意更多,大数据的核心就是让数据价值应用运营的所有环节,前天的分享中说的小米就是这个例子,现在大多人就是把数据用于营销。IT很早有个理念就是Mashup,比如CRM的销售数据和财务报表中的费用明细放在一起看才知道这个单子对公司的价值。大数据的应用方面,电商进展的还是更加深入一些,包括数据驱动的A/B测试,同时数据应用后的效果再作为新的数据反哺回来,才能形成闭环。
何鸿凌:@董健,完全同意。
Q10武新:@何鸿凌 目前信令中的Location数据可以开放给第三方吗?
何鸿凌:@武新 这个就是我刚刚说的,没有解决所有权和告知的问题。
Q11金耀星:@何鸿凌-中国移动:谢谢精彩分享。我有个问题:你们对原始数据作主数据的降维处理吗?
何鸿凌:@金耀星 运营商做法类似,清洗,转换。保留稳定下来的数据。以前明细存得不长。现在要越来越长。
董健:数据脱敏后,表面看没有隐私信息了,但是通过数据分析有的时候还是能针对到具体的一小群或者一个人,因为多个特征收窄后定位范围越来越小
Q12张存勇:@何鸿凌-中国移动你刚才谈到的LBS结合流量数据辅助做营销对策,这对移动利用GB口信令数据很容易做,技术链不长,但对社会化ICT大数据应用似乎就不太给力了
何鸿凌:@张存勇 你说的是M2M的吧?
Q13张涵诚:@何鸿凌 移动的打电话功能能否做成开放平台,第三方插件到其中,我们天天用这个,那个,烦,我只想一个通信工具,如:微信做为交友插件在我电话功能内,微博做为展示等等,我就问这个问题。
何鸿凌:@涵诚,你说这个就是能力开放平台。三家都在做的。比如沃+,电信的叫什么忘记了,我们也有。不但电话了,以后短信、计费、认证等能力都能调用。英国的O2早就是这样的了。
张涵诚:@何鸿凌 做为用户,我们期望移动 把ux做好,我们期待电话本,沟通记录,在线服务,缴费更多的,更好的升级。移动让生活更美好。
Q14皇上:@何鸿凌我们也存在去隐私化的问题,但是这个隐私很多时候是个双刃剑,明确很多隐私实际上对丰富数据有着很好的支持和帮助,但是很多又不敢随便用,直接用,太过隐私还需要去隐私处理,确实两难。
何鸿凌:@皇上 AB测试是个好东西,现在中国移动在这方面还属于起步,我们倡导要依据数据做决策。可是这有点挑战领导的权威啊,哈哈哈。
皇上:@何鸿凌 是的,我们也在按照这个方向努力,但是在一线业务层,有时候沟通确实比较辛苦,确实大家还习惯业务专家决策的方式,挑战领导权威的时候,他更多会质疑数据,而且现在很多使用方法还是我们常提到的已给定一个思路,然后希望用数据来辅证观点,我对这种尤其头疼。
Q15回到北京-Brian Lai:@何鸿凌如果外部使用数据,CDR没有电话号码,还涉及隐私吗?
皇上:@回到北京-Brian Lai 用户隐私不止有号码这一项的,涉及到用户个体方面的变量其实都涉及隐私。
Q16张存勇:@何鸿凌-中国移动听说移动评估过,政府要移动先自建覆盖全省移动本身能耗平台,政府全租用机房、服务器、线路及整个平台,补贴数百万,但移动自己要搭起整个平台要耗资数千万,移动在犹豫
何鸿凌:@张存勇 这个有可能,现在我们要投点资,难啊。全给4G了。
Q17武新:@何鸿凌 问个具体问题:目前省份公司用SMP或TD做的最大的经分系统数据量是多大?
何鸿凌:@武新 哪里有SMP的?这玩儿除了事务处理系统用,似乎没有在我们这里见到。TD最大的200到300T。传统数据仓库中最大的是广东移动,10台595的DB2,裸数据量上PB。我们现在做的集中化经分,数据量是5到6个PB,非裸数据哦。这个就要用MPP和HADOOP 了
Q18 Dowson Liu (刘睿民):@何鸿凌 300TB TD的升级费用非常的高,移动今后如何规划呢?
何鸿凌:@刘睿民。刚刚不是说了么。我们以后大数据参考架构是MPP+Hadoop,山西已经在做了。
Q18赵清:这些数据分析都是移动自己在做么?有开放一部分么?上次去一家公司调研,他们说在和中移动合作,做手机上网数据分析。
何鸿凌:@赵清 应该说不上是合作,是委托开发。因为无法解决应用合法性的问题,所以无法对外。
Q19皇上:我举一个简单的例子,我们的电销中心规模500人,实际上是一个比较大的成本中心了,只要能优化1%的销售,对电销来说就是非常大的支持,对用户来说也确实可以减少一些“骚扰”,有形价值可以计算,但无形价值也并不低廉。所以我才觉得,这样的推荐系统也是值得一做的,我跟其他有的朋友也这样说过:在一个企业中,数据思维很难推行的时候,就用这样简单易行,但在一线业务中见效快的方式处理,顶在最一线的业务人员发现真好用,无法离开你的时候,就可以继续向上一级渗透,直到刚才您所提到的:可以让大数据,发挥大价值。
何鸿凌:@皇上 你这个思路,有点和我们在客服系统上做的大数据应用异曲同工。我们也是提供了很多便利给客服人员,这样他们再换到其他家去,就会觉得系统很不懂他们。
皇上:@何鸿凌 我也和我们客服的负责人谈过这样的数据应用,除去优化销售数据外,还可以增加客服人员的数据应用体系,从入职筛选、到离职预警,全方位通过数据提升成本中心的效率,提升利润,听后负责人双眼直放光。
何鸿凌:@皇上 离职预警更多是有趣,还要解决根本嘛。
皇上:离职其实和消费一样,也是一个综合问题,人员为什么离职,原因有很多,实际上有几个关键变量,比如收入、工作内容的变化或沟通的负面情绪等等,我们可以从中总结出一些关联关系,在达到一些阀值时,可以通过某种提前干预,来达到降低人员流动的目的;在这种人员流动超大的部门,多一个月工作经验,能够提供的平均产出就完全不同。
原文发布时间为:2014-03-30