大咖 | 车品觉:我们为什么要认识数据的本质

时下仿佛大家都在谈人工智能,就像当年人人都在谈大数据一样。在不同场合上,阿里巴巴的马云、百度的李彦宏及腾讯的马化腾分别谈过自己对人工智能的看法和观点。这种对话有点儿像金庸小说中的华山论剑。到底是气宗( 大数据)还是剑宗(人工智能)更有战略意义?我认为,两者是相辅相成的。经历了互联网20年的发展,我们已经积累了足够多的数据去驱动一场“智能盛宴”,以大数据为核心的人工智能渐露端倪。

有一天晚上准备睡觉时,听到隔壁传来女儿跟苹果智能语音助手Siri对话的声音。我太太问我,这样正常吗?我告诉她不用担心,这是目前的趋势。根据不久前美国“用户普及率调查”的结果,语音助手的使用已经达到引爆点,并在走向大规模普及的阶段。

前段时间,我在美国旧金山就拜访了Semantic Machines 的创始人兼CEO 丹· 罗斯(Dan Roth),这家公司的成员很多都是Siri和Echo的幕后功臣。如今,罗斯领导着一个汇集了自然语言处理、语义理解、会话计算等领域专家的顶级团队,目标是攻破人机对话领域这个老大难的题目。

罗斯把他们正在研发的革命性技术称为对话式人工智能(Conversational AI)。与Siri相比,这种技术能够更真实地了解用户本人的意图,哪怕用户从一个话题跳到另一个话题,又或者说的话不完整、不连贯,而这些正是人类对话的自然特点。这些特点正是目前这类技术的难点所在,相信了解破解自然语言难度的人都清楚,这项研究一旦成功,必然会改变世界。

2010 年,“数据科学家”这个称谓的发明者帕蒂尔(D.J.Patil)和杰夫· 哈默巴赫(Jeff Hammerbacher)认为,一切应该以产品为中心,从数据获取、数据清洗、搭建和管理数据设施、原型开发、产品设计等方面,去实践数据的价值。我在阿里就经历了从“数据产品”到“数据作为产品”的阶段,后者其实才是大数据的真正产物,也是人工智能的源泉。

《决战大数据》《数据的本质》作者:车品觉

谁掌握“完美信息”,谁就将拥有整个世界

刚开始进入数据行业时,我一直秉承着这样一个理念:在“假设数据都是可获取的”基础上,思考问题。随着整个社会数据化程度的进一步加深,以及人与物之间的高度互联,以前很多信息的盲点被快速解开。由不同领域积累下的数据形成的“完美信息”渐露端倪,这其实是一个数据从量变到质变的过程。这一“完美信息”具有无限潜能,足以让人工智能所向披靡,催生各种智能场景,并让其如潮涌至。智能时代,秉承“假设数据都是可获取的”这一思维方式,才可让你比别人更胜一筹,从而做到心中有数。

我在阿里时就曾参与设计了一款智能营销工具 “Look-Alike”。通过机器学习,我们可以利用过去积累的客户消费特征(每个客户有高达上万个标签),作出精准推送广告的决策。有别于过去的广告规划,我们不会问广告主如何描述其目标客户群,而是让广告主给出500个喜欢某品牌的用户名单,我们就可以帮他找出5000个,甚至5万个类似的客户。这种方法可以在几个小时之内快速“扫描”出最有效的营销方案。通过这项技术,我们基本可以实现让广告主喜出望外的精准广告投放效果。但问题是,这种产品真的能为广告业及阿里带来新的价值吗?这还只是大数据革命的开端,大家可以拭目以待!

现实中,我们从数据收集、整合、判断,以至行动、再到反馈的过程并不完美,而形成数据闭环系统的阻力往往是人为因素居多。谷歌无人驾驶汽车项目的伟大之处正是给了我们重要的启发,让我们意识到自动化及智能化所需要的数据闭环系统是如何做到了既封闭又开放,其中的里应外合正是未来的发展趋势。我在阿里就经历了4个不同阶段:数据驱动决策、数据驱动流程、数据驱动产品、数据驱动业务。在此过程中,你会发现,数据驱动的目标越模糊、数据越零散、人的互动环节越多,智能项目开展起来就越吃力。

从数据战略到数据治理,别让数据成为累赘

如前所述,数据资源的积累是发展数字经济的前提。企业在向往智能时代所带来的机遇的同时,更要为企业的未来目标制定数据战略。企业不仅要关注自己现在有什么数据,更要了解未来会欠缺什么。然后,再去探讨欠缺的部分有多少可以靠自己补充,有多少需要求助他人、与他人合作以实现补充。有人把数据比喻为电能,这个比喻很生动,但与电能不一样的是,数据是可以被重复使用的。

在阿里时,我是怎么处理部门间数据互通这件事情的呢?很简单,首先是找出大家有意愿共用的部分,我称其为企业内的公共数据,然后安排资源把这一部分先建设起来。选择公共数据也有一定的技巧,简单归类就是:各部门已经在高频率但低效率的单线流通的数据,被野蛮重复复制到各部门的相同数据,大家都有意愿首先标准化的数据。当这些带有公共性质的核心数据建立起来之后,大家就能更容易地感受到数据高质量流通的意义及好处。要保证这些数据的质量和新鲜度也相对变得容易了。

所以从战略意义上来说,第二使用权的合规性变得非常微妙。大数据背后的逻辑是数据积累越多越好,在过去两三年,很多企业都相信有了大量数据资源后,就能对企业的业务产生更大价值。

但人们往往很快就会发现,除了技术能力之外,如何妥当地管理、利用这些资源并非易事:安全合规是一方面,降低数据使用的阻力及风险也是困难重重。所以我一直倡议,数据治理不是数据部门的工作,而是公司总体的战略。这意味着,“本性纯善”的大数据也容易变成一个累赘。


数据是一种信仰,“善”用才是本质

2016 年,一场围棋大战让人类引以为傲的智力顶配瞬间被AlphaGo 践踏得体无完肤。而在我看来,这场大战其实不过是一帮人赢了另一帮人,而且大部分人仅注意到了智“能”,而忽略了它与智“慧”的差别:“能”是能力的表现,而“慧”是心除杂念,将智能用在具有普世价值的地方。同样的科技能力是被善用还是被滥用只有一线之差。

2016 年在英国伦敦召开的一场数据大会上,有人预测:英超联赛莱斯特城足球俱乐部的中场球员里亚德· 马赫雷斯(RiyadMahrez)将成为值得关注的球员。当时他在演讲中说:“根据我们的数据,目前马赫雷斯不仅是英国最好的中场球员,也是欧洲最好的中场球员之一。我敢说,在本赛季结束时,他的价值将非常巨大。”其数据显示,马赫雷斯在各类足球比赛期间,先后出场35 次,总体评分1118 分,在欧洲排名第6 位,仅次于1 635 分的“阿根廷球王”梅西等5 位球员。

结果,莱斯特城足球俱乐部2017 年1 月爆出超级大冷门,首次获得英超联赛冠军。表现神勇的马赫雷斯不但是最大功臣,更荣膺英超联赛最佳球员,即“足球先生”,成了第一位获此荣誉的非洲球员。

这位堪称“ 神预测” 的仁兄叫瓦莱里· 博利埃(ValeryBollier),是一家体育运营商Oulala 的联合创始人兼CEO,其公司以其复杂精妙的数学矩阵闻名。他们的系统包含了70 个取决于球员位置(守门员、后场、中场、前锋等)的不同标准,总共能够衍生出275 种或得分或丢分的方式。这些方式多种多样,从进球和助攻,到具体射中球门和成功阻截等,尽量量化了接近比赛的真实情况。

为什么博利埃能够未卜先知,竟在年前就作出如此准确的预测?其实答案就是大数据和信息。球队的班主、教练和星探等,都被这种量化管理震惊。他们难免开始担忧,在大数据领域落后了怎么办?那就等着被淘汰吧。

几千年来,人类习惯了生存在信息稀缺的年代,大数据与人工智能则为人们带来了曙光,同时也引发了担忧。暂且撇开我们会不会被机器人侵略这个问题,人类真的已经充分利用了自己的潜能了吗?数据是一种信仰, 我们应该善用这个宝藏, 为人类创造更美好的世界。


原文发布时间为:2017-11-3

本文作者:车品觉

时间: 2024-08-25 16:54:50

大咖 | 车品觉:我们为什么要认识数据的本质的相关文章

优易数据研究院院长车品觉:如何形成大数据生态链的闭环

5月26日,优易数据研究院院长车品觉在数博会"大数据创新生态体系论坛"上发表<如何形成大数据生态链的闭环>的主题演讲. 生态一词,是个复杂的系统;由于系统复杂,就需要协同分工.车品觉指出,谈到大数据,就会想到大数据科学家,但如果想把这件事做好,需要做数据工程的人.做数据算法的人和产品经理的共同努力. 另一个与生态有关的,是将大量的数据转化为企业的行动力.企业走向全面数据化,可以遵循以下步骤:一是关注决策的过程,加强数据分析能力;二是建立数据资源,整理数据标准;三是形成管理规

阿里车品觉:大数据时代的若干新思考

大数据究竟是什么?大数据未来将走向何妨?美好的大数据理想与现实之间还有多少距离?目前实践了些什么?遇到哪些困难?这些问题值得我们去思考.为此,阿里巴巴数据委员会联合阿里研究院<阿里商业评论>举办了一场大数据思想沙龙.邀请多位在商业世界数据第一线的实战领军人物,就以上问题展开深入的探讨. 车品觉,<决战大数据>作者.阿里巴巴集团副总裁.数据委员会会长. 不同状态的企业,对于数据的关注点不同 我们要非常注意企业所处的状态,包括企业状态和数据状态.一个企业处在不同的状态之下,对于数据的关

车品觉:它是抓捕本·拉登的幕后英雄,只服务100家客户,估值却高达200亿美元!

2011年2月15日,美国海关的一名年仅32岁的情报人员杰米· 萨帕塔,在墨西哥的一条高速公路上被一群毒贩射杀. 尽管他开着防弹的SUV并且亮明了自己外交官的身份,但是15名手持自动来福枪的毒贩依然果断开枪.与萨帕塔同行的另一位探员维克多·阿维拉幸免于难,逃回华盛顿. 美国禁毒署(U. S. Drug Enforcement Administration,DEA) 虎躯一震,勃然大怒,誓死要报仇雪恨.然后却无从下手,当时毒贩手脚麻利,留下的证据太少. 他们很快求助了一家数据公司,并展开了名为Op

阿里副总裁车品觉:无数据不成活

大家好!我是车品觉. 我从6岁开始就喜欢看风水:13岁开始就跟着我家人疯狂的学习看风水.因为我希望自己能成为先知! 我心目中的先知,是表现得我先比别人知道很多事,而不是神话传说里面的那种先知. 我觉得哪怕就早三秒钟比别人知道得多一点,这都能产生价值.可惜的是,我用了二十几年的时间才知道,原来算命和风水都是大骗局. 那时我开始意识到,中国社会里最大的骗局,就是用一个非常小的样本数据,来试图判断每一个人未来的命运.这是不可能的,不管哪一个术数名家,他一生能看的房子风水都是有限的,没有办法完全概括整体

车品觉:数据与金钱的交易鲜有存在,但数据确实正在催生的新经济

相比之下,数据交易几乎无迹可寻,至少,数据与金钱的交易鲜有存在.这跟它"新兴资产类别"这一称号很不相称.在2011年发布的一份报告中,世界经济论坛(WEF;达沃斯的会议组织机构兼智囊)就给数据冠以这一称号,隐含的意思是,构成数据经济的,将是欣欣向荣的数据信息市场.但从当前的情况来看,数据经济基本上是一个个相互孤立的"谷仓"集合体. 交易市场缺失的原因,也是相应企业产生的原因.由于市场交易携带的各种"交易成本"--搜寻信息.谈判交易.执行合同等等,

车品觉:大数据这三年

  1.大部分人已经开始停止讲大数据了 今年我们去美国的大数据的时候,你会发现大部分人已经开始停止讲大这个词了,那创造了一个词叫Data,这个词是非常有意思的,我们把数据工程化,里面必须要有一个标准要出现,而且在有标准要出现之后,还有一些楼层要出现.那么Data我自己的想法是什么呢?我没有跟马总沟通过,我们这个Data要泛化更多的人要用,更多的人去用上数据,就好象20年前我们让每一个人用上科技,那今天的数据就是要给更多的人用.   2.大数据让决策变得相对很容易做到 其实今天我们已经进入了一个拐

车品觉——数据的本质就是还原

数据的本质就是还原,这是收集元数据的关键方法. 当我们在进行用户的场景还原时,必须认清数据收集的领域是什么.在不同的领域里收集到的数据,可以找到与其所在领域里不同的东西,比如,搜索引擎和社交网络(SNS)得到的数据就是不一样的.而企业首先要做的是,确认用户是不是同一个人,比如在SNS里涉及的很多信息主要都是聊天内容,如果我是做 SNS 的,我就会更多地去寻找这个人和其他人的关系.他今天跟张三聊了 3 分钟,明天跟李四聊了 5 分钟,这项数据在 SNS 领域里可以获得.但当我们要真实地还原整个人的

车品觉:对于大数据未来趋势的判断

光阴荏苒,2015年在跌跌荡荡中成了过去式,对于大数据的产业来说过去这一年冒出了很多新的名词.但在我看来,真正的大数据应用和市场才刚刚开始萌芽,所以我希望大家先认清一个关键,那就是所有的数据都是基于应用而产生,而数据经过釆集及整合后又再落实到自身或其他应用情境中,大数据的创新价值可以来自新连接的数据.算法或者产品本身. 过去两年大数据的成长和智能手机的有着紧密的关系,发挥了媒体.通信.社交及传感器于一体.同时IOT的浪潮又正在酝酿之中,online与offline的接合带来了更深度的数据关联,触

车品觉——忘掉大数据

忘掉大数据 我们正处在历史的转折点上,数据技术在快速变革.大数据成了人们竞相争议的热词,但鲜有人提及这巨大变革中需要具备的能力.无数的企业及个人望"数"兴叹:"大数据与我何干?"未来是大数据的时代,未来的竞争就是数据的竞争.也许,我们早该忘掉那些华而不实的喧嚣,让大数据真正从"看" 到"用",真正"活"起来.大数据的力量来自触类旁通的关联,我们以前总是用数据来证明或企图说服工作上的盲点.而如今的数据不再成为