近日,T11 2017 暨 TalkingData 智能数据峰会在京举办。本届大会以“知机识变,有唐之盛”为主题,有来自不同行业的数据科学家、分析师、企业管理者参与,共同探讨大数据与行业结合的技术趋势、场景应用、前沿案例,助力传统企业转型为数据驱动型企业和,推进行业生态建设。
其中,在智能数据服务分会场,电信云大数据事业部副总经理吴章先分享了电信云在开放共享、共建数据生态方面的经验。
在天翼大数据方面,吴章先表示,在建构大数据能力上有以下三个方面较为关键:
第一,分布式数据中心。所建的大数据分析节点需要区域化,甚至有多个节点,不同层级。
第二,数据层面。所有应用服务提供商或行业数据能力提供商,他们的数据维度一般是依托于生态链或应用服务产品。运营商数据源基本上覆盖了广泛领域,但在数据方向的深度还需要进行挖掘。
第三,建立数据平台。由于电信运营商的特点是整个数据产生的节点分散、规模巨大、种类多,所以要有卓越的数据治理和平台运营能力。
而在构建数据生态上,在他看来,“在大数据开放合作领域里,这两年我们看到从整个行业生态上,离真正数据打通还比较远;其次,如何通过平台赋能,来实现真正数据的开放融合也是目前难以解决的问题。”,这些挑战都需要在未来引起重视并找到有效解决方案。
以下为吴章先演讲内容,雷锋网(公众号:雷锋网)做了不改变原意的编辑:
在三年前,我参加中国营商大会,听了 Google 一位总经理介绍大数据领域里面土豪的时候,画了四个象限,把三个运营商划到了土豪象限里面,就是拥有数据,不怎么会玩。
经过这三年时间,我们在逐步摸索,利用运营商已有的一些数据成果,去想怎么更好的服务社会。在这当中,我们也发现整个数据如果不进行打通,或者仅仅以某一个企业自有数据去做很多服务时,都会或多或少碰到一些问题。
首先,给大家介绍一下天翼大数据的情况,第二,站在平台角度看一下我们如何构建数据生态。
天翼大数据发展概况
大家最早用固话,都是用电信的固定号码,现在也有一些移动,以及在很多家庭里面用的 IPTV,包括酒店里面用很多内容的机顶盒,都使用的是电信的服务。所有这些服务里面都脱离不了最重要的基础,很多企业在大数据领域的经验,他们所做的所有应用,所有大数据分析能力,实际上都要构架在一个基础设施上面,而中国电信拥有全球最大规模的大数据基础。
从我们目前跟很多行业专家、行业技术团队沟通时,发现有几个方向可能在未来在建大数据能力方面是比较关键的:
第一,分布式数据中心。可能我们所建的大数据分析节点需要区域化,甚至多个节点,不同层级,包括我们今年跟国家几个部委沟通时,都发现有这样的需求。电信的“2+31+X”的技术机构,再加上我们已经在数据中心专门承建 DCI 网络,能够满足大家的需求。如果大家了解的话,应该知道中国电信最早 163 到企业 CN2,到现在 DCI,有三张底层的骨干网支撑大家的基础能力。
第二,数据层面。所有应用服务提供商或行业数据能力提供商,他们的数据维度一般是依托于生态链或应用服务产品。运营商数据源基本上覆盖了广泛领域。从接入层面来讲,不管是家里的宽带,通过移动网、IPTV以及其他一些设施在接入运营商服务还是其他行业服务时,都会有大量数据产生,这也是我们运营商本身在数据源的优势。整个覆盖层面,不管是在时间空间上,还是本身使用场景上,都是比较全面的。
现在在数据领域里,运营商的数据具备数据面比较广,但是它的数据在某一个方向深度不够的特点。目前,天翼云已经累计超过 30 个 PB 的数据,日处理量超过 200T。
第三,要处理这些数据,就需要有一个能力强大的平台。我们有卓越的数据治理和平台运营能力,因为电信运营商的特点是整个数据产生的节点分散、规模巨大、种类多,所以我们在数据治理、数据平台运营上积累了很多经验。
经过这三年的治理,我们形成了一个非常稳定的数据生产线,在很多行业,目前尤其跟我们比较类似的一些部委,如卫计委,他们的数据跟我们特点非常相似,需要有一整套设施来帮助进行处理。
此外,依托这些数据,已经形成了非常多的产品和解决方案。我们在三年里有 4+1 产品体系,十大行业解决方案。从我个人经验来看,在 2015 年刚发生上海踩踏事件时,利用我们的数据帮助政府做人流热图,2015 年开始,我们发现在景区旅游,依托运营商数据可以做很多事情。
今年我们发现通过一些数据打通,包括我们在景区里面跟 TalkingData 进行合作,把一些互联网数据和运营商数据结合,通过更好的数据模型能够更精准预测或分析出景区人群整个情况。现在,我们还在更宏观的一些领域和更微观的领域有了更好的发展。
4+1 产品体系里,现在有一个底层 PaaS 大数据分析平台,叫飞龙平台,是云数一体的大数据平台。这里不仅仅是云端,大家可以利用这个数据平台进行相应数据分析,进行数据产品化,进行数据对外输出,这个大数据飞龙平台也可以提供给相应企业、相应合作方,部署到他们自有的企业IT设施里进行业务的支撑。
如何构建数据生态
回到今天的主题,我觉得一下几个观点非常正确。首先,现在在大数据开放合作领域里,目前就我个人来看,还是处于非常初级的摸索阶段。我们都非常希望数据流通、数据安全、数据隐私等等问题能够通过很好的方法来解决,但实际上,这两年我们看到从整个行业生态上来看,离真正数据打通还比较远。我们看到几个重要的问题里,从能力支撑到平台,到数据,到安全,可能首先要从基础的能力上去解决,这也是我们今天在第二部分里面给大家去分享的。
其次,如何通过平台赋能,来实现真正数据的开放融合。用区块链的技术,能不能解决在数据分享里数据流通性、安全性问题,因为数据本身是可复制的,一旦进入流通环节,数据价值马上会以指数级别消减。这个问题我们看到所有拥有数据的公司非常关注,这也是难以解决的问题。
在过去三年时间里,我们对数据,通过平台来进行相应的安全性加固、安全性运营,同时我们也跟很多行业合作伙伴进行了相应尝试。通过在平台功能上、规则上、管理上的措施,已经看到了怎么能够真正把数据流通做下去。
目前,我们在天翼云整个云端平台上提供了一个一站式开放服务,包括给数据提供方、产品开发者、客户提供了完整的一整套业务支撑体系。我们坚持一个原则,数据拥有方对数据加工、数据开放、数据的运营,拥有绝对的权力。也就是说数据拥有方在我们平台上上传数据,对这个数据进行加工操作,都是数据拥有方自己去处理的。在上面,我们也提供一整套完整的,包括开放运营、安全的整套机制。
在平台保障上,通过运营商强项,在运营服务上给我们的合作伙伴、数据合作方提供相应完整的服务,不仅仅是有运营服务,还有平台能力服务,还有一些产品开放策略。过去三年,中国电信天翼云针对我们的数据,已经形成了一整套机制,形成了相应服务能力,给我们的合作伙伴进行开放。
在策略上,我们在整个平台里形成了五分一统,很多数据拥有方,尤其是党政企业,还有国企,他们的数据本身在数据IT能力上面略弱,我们通过整套机制,从分类、分级、分型、分布、分权已经把数据整个加工、数据处理、数据开放形成一整套管理手段。在对外输出时,通过统一出口,使得我们数据应用方在对外服务的时候,能够实现可管、可控、安全可靠,能够使得我们通过这个开放平台,快速的把数据合作、数据共赢、数据融合做下去。
运营保障体系上,通过完善大数据的开放运营,从业务切入详细去帮助应用需求看它对数据的分析,在运营闭环上,通过各个不同数据环节,我们在审计安全上,在日常运营维护上,是否可靠,是否正常。我们在对外服务方面,也有很多不同的方式,不管是云托管方式还是私有系统方式。在底层,我们有弹性的成长过程,数据从一个节点到另外一个节点,甚至多节点服务,依托中国电信云网融合的方式都可以很方便、很快速的支撑。
我在过去交流所有场合里,大家最担心的还是安全问题。对有一些企业来讲,安全性问题意味着财富,意味着资产流失,对有一些企业或政府来讲,安全性问题意味着他头上的乌纱帽或屁股下面的位子,大家非常关注,每一次决策都非常谨慎。我们在整个天翼云大数据开放平台上,平台赋能很关键是在安全上提供全生命周期的安全保障,不仅仅是从I层,从物理安全保障、网络安全保障、主机级安全保障、应用级安全保障方面,提供整个安全服务能力。
此外,我们对应用的全周期也是提供相应安全服务。这种安全服务不仅是在技术上进行体现,同时也从我们管理机制,同我们整个对数据加工的分级分权,以及数据加工一整套安全流程去保障。
进行了所有安全加固以后,会带来一个问题,我们在数据分析时,冗余度或灵活度去哪里了?中国电信大数据平台上,有一个有效的机制,通过互信融合,当我们需要对比较原始的数据进行融合分析时,比如 A 客户数据和 B 客户数据要在一起进行分析,然后产生最后的分析结果,这个时候怎么办?
我们会在平台上分配一个临时空间,临时空间里不能够进行数据的对外输出。它可以在临时空间里面对相应数据进行融合分析,分析完的结果通过审计以后再输出,输出只是分析结果,一旦分析结果输出完以后,这个空间我们就会把它销毁掉,所以所有用户原始数据都不存在流失和被盗风险。所有操作我们也会通过日志和审计功能,让数据拥有方能看得到。
我们前面说五分一统,数据分析灵活的机制,是确保这个平台上数据可以进行共享融合,能够进行分析的。
安全保障领域里,我们有相应的安全合规功能,从隔离、脱敏、标识、授权、审计五大方面,帮助云公司自己,还有我们的客户进行整体安全后的保障。从隔离中,按功能分类,从数据敏感区域里给客户提供相应的工具,然后到脱敏、标识、授权、审计,有一整套完善的流程。
下面说一个案例。在整个平台上,我们跟一个 AI 公司一起做的流程是这样的。它有一些外面金融行业的数据,在我们平台上用云公司自有数据,通过构建一套 AI 组件,来进行整个融合分析。通过这种分析,一方面我们避免了大量各种不同产品需要专家进行设计、建模,而是通过 AI 方式,帮我们通过机器解决,来真正实现业务场景的输出功能。从实际效果来讲也非常好,从千分之二提升到千分之五的用户转化率。
最后希望通过构建一个完善的,比较强大的平台,通过应用驱动数据的模式,构建这个数据生态。我们希望可以跟所有业内企业、业内客户一起在这里共同构建完整的大数据生态,真真正正把大数据的价值对行业的影响能够做到最好。
本文作者:王金许
本文转自雷锋网禁止二次转载,原文链接