博鳌直击 | 大数据开发的最大障碍是什么?

雷锋网3月26日报道,今日第16届博鳌亚洲论坛2017年年会在海南继续进行中。据雷锋网了解,在日前的数据价值分论坛上,腾云天下CEO崔晓波、微软全球资深副总裁洪小文、Palantir副总裁kevin KAWASAKI、联合利华公司前董事长Michael TRESCHOW、平安普惠副总裁兼首席市场官CMO徐汉华、碳云智能CEO王俊参与了主题为“大数据开发的最大障碍”讨论。主持人是上海第一财经传媒有限公司首席顾问张力奋。

以下与雷锋网(公众号:雷锋网)一起围观论坛精彩发言吧:

张力奋:现在大数据开发面临很多障碍,中国地方政府想建设智慧城市,但是要整合政府内部数据源的话,几乎是不可能的事情。如果数据源的问题不解决的话,大数据的开发几乎是无法完成的。

在你们看来,目前是什么阻碍着数据价值开发?最大的障碍在哪?

微软全球资深副总裁洪小文:未来大数据的挑战,一在于政府内部,二是数据安全问题,特别是消费者的隐私权。各公司持有不同的数据,举个例子,信用卡公司有人的消费记录,而买什么是不知道的,但是每一个柜台知道,这些数据是不是可以串起来,但问题是谁有这个权利说这个数据可以用,这牵扯到法律。第三,我担心在数据闭环之后,社会多样性会减少。就像今日头条,你喜欢什么我就多给你一些,难免就囿于这个圈子。所以我们需要倾听不同的声音,比如听分析大数据后那些非主流的意见。不去思考就全盘接受,我认为这可能是未来大数据发展中必须要面对的一个课题。

平安普惠副总裁兼首席市场官CMO徐汉华:今天搜集数据很容易陷入一个局面,强调数据之“大”,忽视了数据的有用性。很多大数据公司与我们合作时表示,他们有很多数据和用户信息,但问题是他们的数据跟我的目标的关系何在,这才是最重要的。

第二点,需要的数据依然短缺,如何收集需要的数据是个问题。比如说中国真正有信用记录不到4个亿,还有许多人没有信用记录。有些互联网公司声称他们有很多客户的数据,这些数据可能会是某人上个礼拜买了双鞋,这礼拜去了肯德基消费,但问题是这些数据对于信贷没有任何的帮助。这背后的逻辑其实与洪院长所说相同。

第三,我很赞同陆金所董事长计葵生先生的观点,他认为数据不是断开的,数据是连接的。断开的数据不足以支持准确的判断,历史数据可以提高准确度,我们需要持续地累积数据,这是让数据更有效的方法。

此外,也是数据安全问题。现在黑客众多,如何保密,如何合法合理地使用数据都是处理数据时需要考虑的问题。

张力奋:Palantir公司是如何解决数据源问题的?你们跟数据源提供者是否有着怎样的共识或者契约?这个问题我想也是中国很多公司面临的问题。

Palantir副总裁 Kevin KAWASAKI:我们不提供数据,也不存储数据,我们帮助客户使用他们自有或者从第三方获取的数据,使之成为重要资产。我们面临的挑战之一就是世界始终在变化,我们不知道明天会有什么样新的数据源,怎样的新问题,所以我们需要不断地适应,要能够不断地整合新生数据到现有的模型当中来,不断解决新问题。

张力奋:我问一下王俊先生,涉及跟个人生命健康有关的隐私问题时,当时的华大基因,现在的碳云智能是如何来收集数据的?有没有你们说的基本准则?

碳云智能CEO王俊:这其中有两个问题需要考量,第一是数据的所有权。比如我们去医院抽血、看病,医院获得了我的数据,那么这个数据是属于医院还是我的?再比如其他健康数据,运动手环,微信运动记步,这个数据是属于微信还是我的?数据所有权的归属非常重要,而毫无疑问数据属于个人,这是我们生命体产生的数据自然归属于个人,这是最基本的权利。

张力奋:从伦理角度来看,这个答案是很清楚的。那从法律角度来说,作为一个普通公民也是数据提供者,我们能够得到法律的保护吗?

王俊:这涉及到第二问题——数据价值。每个人愿意分享数据的意愿和他能获得的价值有很大关系。比如说我已经病入膏肓了,一个药厂表示若我能把数据共享给他们,他们可能开发新药品治愈我。我相信99%的人都愿意共享数据。退一步讲,不说疾病,举个例子问个人是否愿意参与科学研究,而这科研成果会对世人的生活产生长远的影响,很多人可能也会愿意。从我的价值观来说,如果把我的数据放到一个公众的可供科学研究使用的地方,我是非常愿意的。

曾经我在丹麦做过演讲,议题是与会者是否愿意测试基因并贡献个人基因数据。当我第一次问大家分享基因数据是用来看自己的父亲是不是真正的父亲时,举手的不到10%。我问了五次,在第五次举手前我讲了一个案例,全球5%—6%儿童有出生缺陷,基因疾病可能有上万种。比如说渐冻症也是一种基因疾病,有这个基因却不发病的人占拥有这种基因的十分之一,如果把这个人找出来,搞清楚基因,那么就可以找到治愈病人的方法,你愿意不愿意做帮助别人的人,然后所有的人都举手了。所以我觉得事情的做法取决于个人价值观,取决于你用什么方式来对待这个数据。

张力奋:我想问Michael一个问题,在您担任联合利华总裁的时候,你在公司推行怎样的数据政策,哪些能做,哪些不能做?

联合利华公司前董事长Michael TRESCHOW:数据政策肯定是以个人的安全性为第一位,因为数据牵扯到每个人的安全,你必须确保不会泄露任何的个人身份信息。

另外一个越来越重要的事情就是需要区分哪些数据可以自己留着,哪些东西可以分享。开源其实是一个好东西,但从另一个角度来说,在知识产权受数据驱动的现在,特别是我们在研发产品的时候,你要决定哪些是专属的数据,哪些是可以与其他人共享的,这是特别有意思的一点。

第三涉及到跨国情况。不同的国家对于这些事情有不同的看法和政策。比如说医疗方面,在我的国家甚至都不能泄露医院挂号信息,如果说你去了另外一个医院,他们根本都不知道你的病史。所以对我们来说,我们需要找到一个方式,使得立法者、监管者不会特别恐慌,并帮助他们知道,哪些可以分享,哪些不可以分享。譬如工程、艺术等,这是可以分享的。

相关文章:

博鳌直击 | 基于区块链、分布式账本的数字货币是否代表了货币的未来?

博鳌直击 | 大数据在哪个行业最有价值?

本文作者:伊莉

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-10-09 01:41:21

博鳌直击 | 大数据开发的最大障碍是什么?的相关文章

Spark修炼之道(基础篇)——Linux大数据开发基础:第一节、Linux介绍、安装及使用初步

本节主要内容 Linux简史 Linux系统整体介绍 Ubuntu Linux安装 Linux使用初步 1. Linux简史 要讲述大名鼎鼎的Linux,必然要先从UNIX系统谈起,下面这幅图给出了Unix系统的进化图: 图片来源:http://baike.baidu.com/link?url=QfoqWtWGs-BjpnfEy_AUk7Bm3XHuf6JbN92HCOoUBfFfj8BuSDkbwmldtmUEmGRDUwqsQMIV4jCKHvdkSPr3Lq 从进化图中可以看到,目前所有的

【大数据新手上路】“零基础”系列课程--如何通过大数据开发套件Data IDE玩转大数据

免费开通大数据服务:https://www.aliyun.com/product/odps 老板每天都要出这些业务数据(销售总额.总交易量.总点击次数.总加入购物车次数.总加入收藏夹次数...),我得想个一劳永逸的方法了- 幸好,我有数加神器大数据开发套件Data IDE,搞定业务工作流调度,每日定时自动执行任务,分分钟输出计算结果. 妈妈再也不用担心我焦头奋战了-- 本教程是一个大数据开发套件Data IDE零基础教程,通过Data IDE将多源异构的数据集导入云端MaxCompute,进行计

大数据 学习 编程-大数据开发师该如何去学习?

问题描述 大数据开发师该如何去学习? 本人大二了,对大数据比较感兴趣,以后想成为一位 大数据研发师 ,大一学了C++和SQL还有一点Linux,请问接下来还需要学些什么呢?各位大大能不能给一条比较清晰的 学习路线 ,我学的有点迷茫了,感觉学的好杂

【大数据开发套件调度配置实践】——调度任务各种周期配置和调度形态

数加·大数据开发套件目前支持任务调度周期有五种:天.周.月.分钟.小时.本文将介绍这五种周期的配置和调度形态. 调度规则--调度任务是否能运行起来要满足的条件: 上游任务实例是否都运行成功.若所有上游任务实例都运行成功则触发任务进入等待时间状态. 任务实例定时时间是否已经到.任务实例进入等待时间状态后会check本身定时时间是否到,如果时间到了则进入等待资源状态: 当前调度资源是否充足.任务实例进入等待资源状态后,check当前本项目调度资源是否充足,若充足则可以运行起来. 天调度任务 天调度任

大数据开发套件—调度运维常见问题

我们在进行大数据开发过程中,会遇到各种问题,本文将定期收集整理一些在使用阿里云数加 大数据开发套件 时遇到的常见问题,供大家参考~ Q. 如果之前提交的任务修改后再次提交,是否会影响当天的任务调度? A. 根据修改的内容来确定是否会影响:如果修改的只是 sql 语句,则不会影 响:如果修改自定义参数和调度配置以后重新提交的,都会影响当天的任 务调度 . Q. 创建一个新的工作流任务,如果保存后没有提交任务,是否可以进行测试? A. 仅保存后没有提交,sql 任务可以在本地运行,但不可以提交测试

大数据开发套件—数据集成常见问题

我们在进行大数据开发过程中,会遇到各种问题,本文将定期收集整理一些在使用阿里云数加 大数据开发套件 过程中遇到的常见问题,供大家参考~ Q: 配置数据同步任务,在选择数据源时,出现下图中的错误,该怎么办? A: 建议您刷新页面,清空缓存,重新登录. Q:数据同步时,如何进行增量同步? A: 具体操作可参考 数据增量同步 文档 . Q:新增数据源时,RDS 数据源测试连通性不通怎么办? A:当 RDS 数据源测试连通性不通时,需要到自己的 RDS 上添加数据同步机器 IP 白名单: 10.152.

SAP开发负责人:HANA担起大数据开发重任

文章讲的是SAP开发负责人:HANA担起大数据开发重任,在一年一度的开发者与技术大会上,SAP公司公布了其在SAP HANA数据平台编程领域所取得的切实进步以及深层细节.更具体地讲,开发者关系负责人Thomas Grassl宣布在最近于加利福尼亚州举办的Code Jam编程挑战赛上,已经有各种类型.各个级别的程序开发人员着手尝试基于SAP HANA的应用程序与代码流. Grassl指出,“SAP HANA为开发人员们提供全新机遇,由其带来的改变使我们能够实现大数据应用程序的设计.创建以及投付生产

【大数据开发套件调度配置实践】——不同周期任务依赖配置

大数据开发过程中常遇到不同运行周期的任务进行依赖,常见 天任务依赖小时任务. 小时任务依赖分钟任务 .那么如何通过大数据开发套件开发这两种场景呢? 本文将从这两个场景出发,结合调度依赖/参数/调度执行等,介绍不同周期调度依赖的最佳操作实践. 再此之前,我们先明确几个概念: 业务日期:业务数据产生的日期,这里指完整一天的业务数据.在大数据开发套件里任务每天能处理的最近的完整一天业务数据是昨天的数据,所以业务日期=日常调度日期-1天. 依赖关系:依赖关系是描述两个或多个节点/工作流之间的语义连接关系

从0-1体验大数据开发

        觉得裸用MaxCompute(原ODPS)门槛较高?想做数据开发,却苦于没有好的管理工具?        想体验下数加(阿里云大数据)推出的Data IDE,却苦于: 开通云账号-实名认证-购买MaxCompute-创建AK-创建/绑定项目, 经过5步,最后终于能开始体验了,是不是瞬间:        想从开通云账号后立即进入体验吗? 为此,我们提供了大数据开发免费体验环境,点击进入:https://data.aliyun.com/experience 我们还提供了使用教程,手把