【巨头升级寡头】AI产业数据称王,GAN和迁移学习能否突围BAT垄断?

AI时代,数据为王让巨头越来越难以被打败

上周,谷歌和 CMU 的一项合作研究,为拥有大数据优势的技术巨头们带来了喜讯:在不调整现有算法、只是给模型多得多的数据的情况下,图像识别结果取得了较大提升。

这一波人工智能的兴起主要有三大因素推动——计算力、数据和算法。而谷歌和 CMU 的这项合作研究可能会将“数据”这一项进一步高亮显示。

据 Wired 报道,研究结果一方面印证了通过给模型喂食多得多的数据,同样的算法也能显著提升性能,另一方面,这也是对拥有海量数据的技术巨头的喜讯。无论是谷歌、Facebook 还是微软,都会更加坚信自己手中的数据是决胜的王牌。虽然从 1 百万扩充到 3 百万数据集,对象检测的结果只提高了 3 个百分点,但研究者表示,他们相信如果对软件进行调整,使其更适应于超大数据集,那么优势还将扩大。退一万步说,即使没有扩大,这 3 个百分点也足以形成和小公司、初创公司的天堑。举例来说,在自动驾驶中,准确率的每一点点提升都至关重要,有可能带来数以亿计的回报。

以 AI 为中心的公司,早就建立了自己的数据壁垒。谷歌、微软等巨头,会开源大量软件,甚至硬件设计,但对能这些工具真正发挥效用的数据却视若珍宝,绝不轻易开放。他们有时确实也会释放数据:去年,谷歌放出了从 7 百万 YouTube 视频中提取的数据集,Salesforce 也开源了从维基百科抽取的数据集,以帮助算法更好地处理自然语言。

然而正如 Luke de Oliveira (AI development lab Manifold 合伙人、Lawrence Berkeley National Lab 的访问学者)所说:“这种开放对竞争来说没什么价值。这些数据集都是对该公司产品的未来市场地位没什么影响的东西。”

在不久前的百度开发者大会上,百度公布了“Apollo 资源共享时间表”。其中各种细化数据非常有吸引力。

 巨头笼罩下,小数据学习会为初创公司带来一线生机吗?

有人说科技公司的生态越来越讲求创新和快速反应,这似乎对小公司、初创公司更为有利。但机器学习和 AI 浪潮却彻底地凸显了大数据的重要性,仅此一点,就让小公司“杀死”巨头的任务难上加难。

 

谷歌和 CMU 的研究者在论文中表示:“我们真诚的希望,(他们的研究)将激发视觉界不要低估数据的价值,并形成共同的努力来构建更大的数据集。”研究的参与者之一、CMU 的 Abhinav Gupta 表示,选择之一就是和 Common Visual Data Foundation 合作。而这个 Foundation 正是由曾发布过公开图像数据集的 Facebook 和微软资助的非盈利组织。

 

在数据方面拙荆见肘的公司,如果想在这个数据比金子还贵的时代生存,只能盼着自己的算法更聪明。初创公司 DataRobot 的 CEO JeremyAchin 猜测,随着机器学习变得日益流行,小公司利用小数据做出的模型,比如保险业中用于风险预测的模型,在大公司用大数据打造的模型前可能会抵挡不住。

 

有一种研发趋势,是在让机器学习较少地依赖数据,比如小数据学习。这一类研究会阻挡 AI 的数据经济吗?Uber 去年曾收购了一家公司,就是以此为研发方向。

针对数据量匮乏的问题,有一项技术非常有价值:生成对抗网络(Generative Adversarial Networks,简称GAN)。

生成对抗网络依赖于两个模型:

生成模型(Generative Model),即借助于学习、模拟、仿照、以及数据扩增等技术自动生成数据的模型;

判别模型(discriminative model),即判别生成数据是否符合预期的模型。

生成对抗网络首先会基于生成模型来生成数据样本,再用判别模型来鉴别这个自动生成的样本是否符合预期。通过这样的双方对抗网络,实现互相博弈,共同提升。

另一种思路是迁移学习。迁移学习基于标签数据量大的领域,做特征、参数权重的预训练(pre-train),再通过迁移当前领域可复用的特征、参数、或者是领域知识、通用知识,对目标领域进行半监督、无监督学习。

Fast.ai 的联合创始人 Rachel Thomas 认为,初创公司应该努力开拓新的疆域,在互联网巨头的地盘以外寻找应用机器学习的场景,比如农业。她表示:“即使是巨头也不是无处不在,在很多特定领域,数据还没有被任何人收集过。”即使是巨人也有盲点,这也许才是小公司的机会。

数据重要还是算法重要——百度的答案仍是算法

在中国国内市场,BAT 垄断了大部分的数据。关于算法重要还是数据重要,他们的看法如何?

李彦宏曾在重庆举行的联盟峰会上说过:我们百度的工程师总结出来一句话,叫‘数据秒杀算法’,但是我后来跟他们讲,真正推动社会进步的是算法,而不是数据。

在之后的数博会上,李彦宏再次表达过类似的意思:工业时代最宝贵的东西不是煤,是蒸汽机这样的技术革命、革新,而人工智能时代最宝贵的也不是数据,是因为数据带来的技术的创新。

让我们简单看一下百度大数据的“家底”,其实用两个短语就可以概括:万亿级搜索数据,百亿级定位数据。

试以语音相关的数据为例。作为百度 ALL IN AI 的两大发力方向之一(自动驾驶和智能语音),百度如此展示自己在相关数据上的肌肉:

网上流传一句话,说百度是“数据为重,不为上。” 作为很可能是 BAT 三家中数据量最大的公司,百度的优势在于数据最全面,数据样本比较复杂,数据的广度和多样性上比较强。而问题在于,百度的数据,较之阿里和腾讯,其变现能力可能是最弱的。

作为一家技术驱动的公司,百度在数据挖掘技术和 AI 人才的储备上优势明显,但其优势的应用出口较少。也正是在这种背景下,李彦宏在数博会上发言:我觉得这个数据确实重要,没有数据训练的话人工智能走不到今天的,但是数据是不是根本呢?数据不是根本,数据有点像新时代的能源,像燃料,那么推动时代进步的是技术,是创新,不是这些资源......所以工业时代最宝贵的东西不是煤,是蒸汽机这样的技术革命、革新,而人工智能时代最宝贵的也不是数据,是因为数据带来的技术的创新。而且过去一年就有这么多的创新,有大幅度的提升,连我在这个领域的人都要觉得要改变心态,适应这种环境,适应各种各样的可能性。

阿里、腾讯等多家巨头:数据+场景才最重要

阿里的大数据是基于淘宝天猫业务而诞生的电商数据、信用数据。阿里的核心业务在电子商务上,数据比较聚集,更容易做分析。这种数据类型的优势在于,更容易变现,挖掘出商业价值。正如马云在数博会上所说:“我们对世界的认识将会提升到一个新的高度,大数据会让市场变得更加聪明。”

而腾讯的大数据是基于微信、QQ 诞生的社交数据、关系数据,以及游戏数据,相对较杂,但场景化极高。很自然的,马化腾在数博会上强调了场景的意义:“有了应用场景,有了市场,数据自然会产生,也会驱动技术发展。”“就好像今天BAT三家分别在社交、电商和搜索有各自的主战场和场景;滴滴、摩拜有交通出行的场景;微信、支付宝有支付场景。”腾讯的大数据是其自身各类产品(尤其是游戏)成功的坚实基础。

对于场景化的数据,我们还很容易想到滴滴出行和小米,它们分别在各自的场景中收集并利用其数据优势。

滴滴出行基于大数据的路径规划系统

滴滴研究院副院长叶杰平曾在北大 AI 公开课上透露:下面说一下我们的大数据......我们每天大概2000万单,平台的每一辆在开着的车,每几秒钟就会给我们传递 GPS 信息。现在滴滴每天新增的数据量是 70TB,这个数据应该是几个月之前的,现在应该更大了。我们平台在做很多的预测和模型,每天处理的数据是2000TB。每天的路径规划是 90亿,这个数据量特别大。然后是定位数据,我们必须要知道乘客在哪,司机在哪,所以定位是非常重要的,这个数据不光要精确,而且要快速。定位数据每天是 130亿.....”

小米科技联合创始人黄江吉在北大 AI 公开课上也曾透露:“小米全部产品加起来,每天产生的数据量一天是300T。为了存储这个300T,每天我们付出的存储成本是天文数字。为什么我们要存储大量昂贵的数据?其实我们等 AI 这个弯道已经等了很久,终于在去年迎来爆发点。现在,我们有可能利用最前沿的技术,比如深度学习、对抗性网络来取得进一步发展。现在技术发展是以周计算。这对于我们都是好消息。因为技术发展到这个点的时候,我们已经准备了很多大数据。这些技术可以用来验证算法是否靠谱,可以把我们的产品变得更智能化,真正实现闭环。大数据其实讲了很多年。我刚进入微软的第二年,就开始做data warehouse,当时已经存了海量数据,都觉得大数据很有价值......我们对于数据增长很开心,并不在意成本。"

从这个角度来说,大数据对 AI 的赋能,确实是从应用场景中来,到应用场景中去的。

 10亿+数据集,谷歌的大数据野心

过去十年中,在计算机视觉领域,虽然计算力(GPU)和模型大小不断增长,数据集的规模一直停步不前。

这项研究(【10亿+数据集,ImageNet千倍】深度学习未来,谷歌认数据为王),用了 50 颗 K80 GPU(计算等于 8.3 GPU 年),花了整整两个月,在 300M 标记图像的海量数据集上进行图像识别训练。这个名叫“JFT-300M”的内部数据集,含有 18291 个类别,是 ImageNet 的 300 倍。这一研究项目的初衷是看在不调整现有算法、只是给模型多得多的数据的情况下,能否取得更好的图像识别结果。

 

在 JFT-300M 不同子集上的预训练后,进行物体检测的性能。x 轴表示对数刻度的数据集大小,y 轴是 COCO-minival 子集中 mAP@[0.5,0.95]中的检测性能。

答案是可以。研究人员发现,随着数据增长,模型完成计算机视觉任务的性能直线上升。即使在 300 倍 ImageNet 这么大规模的情况下,性能都没有遭遇平台。谷歌研究人员表示,构建超大规模的数据集应当成为未来研究的重点,他们的目标是朝 10 亿+ 级别的数据进发。

文章转自新智元公众号,原文链接

时间: 2024-10-26 00:21:46

【巨头升级寡头】AI产业数据称王,GAN和迁移学习能否突围BAT垄断?的相关文章

金山云智能营销平台再升级,AI 投放助力游戏厂商精准到达;微医发布 AI 解决方案,提升县域医疗服务能力

微医发布互联网+AI云化解决方案,提升县域医疗服务能力 10月21日,第四届中国县域卫生发展论坛暨全国首届医联体建设大会在成都召开.会上,智能医疗云平台--微医发布了基于睿医云技术开发的"县域医联体云化解决方案",致力于以互联网+AI技术提升县域医联体服务能力和建设效率.来自全国1000多位县域医疗管理者及专家.学者共同见证了方案发布. 提升县域医疗服务能力是完善中国医疗服务体系.构建分级诊疗制度的关键之举.微医发布的"县域医联体云化解决方案",是基于睿医云大数据.

AI产业核心研究:芯片四大流派论剑,中国能否弯道超车

  编者按:本文来自微信公众号"腾讯研究院"(ID:cyberlawrc),作者张孝荣.殷竹馨:36氪经授权发布.  随着AI产业快速突破,各大公司在AI领域的人才动向也在引起极大关注,你来我往.归去来兮,AI江湖上大有一片血雨腥风之势.当然,AI领军人物的变动,会对具体公司业务造成影响.但从整个行业来看,人才流动的频繁,反倒有可能促进产业的整体进程. 不信你翻翻历史.AI这门功夫自1956年问世以来,至今已经历60年风风雨雨,一直是流派众多,难学难练,没有大成. 难学,是因为必须要掌

腾讯研究院发布《中美两国人工智能产业发展全面解读》:中国AI产业将迎来泡沫?(附全文PDF下载)

雷锋网AI科技评论按:谈起AI,中国有理由感到自豪,在人工智能领域发表的论文数量排名世界第一:在数理基础研究领域,集聚了大量人才:在语音识别.人脸识别,以及自然语音识别等技术,我们已经走在了世界前列.但这些已经够了么? 当下,中美两国虽同属AI领域第一梯队,但美国AI整体实力却是公认的全球第一.中国和美国的差距又是在哪里? 顶层战略和美相似,基础研究和应用落后 美国和中国政府都把人工智能当作未来战略的主导,出台发展战略规划,从国家战略层面进行整体推进.美国人工智能报告体现了美国政府对新时代维持自

全球市场规模将破3000亿美元 巨头加速布局云计算产业

4月20日,阿里巴巴旗下阿里云与SAP.埃森哲宣布达成合作,联合为企业提供云计算服务.同时,阿里云发布物联网.专有云.混合云.视频云四大解决方案,以及存储.数据库.安全.云市场等多个领域的数十款云计算服务新品. 业内普遍认为,作为下一代信息技术的核心应用之一,云计算市场前景正日趋明朗.阿里此番在云计算业务上的"大手笔",是目前行业巨头加速布局云计算产业的缩影.随着市场需求不断放量,云计算产业市场规模将水涨船高,更多的企业也会因云计算产业巨大的市场前景而投身其中. 近年来,云计算产业发展

芯片巨头三国杀:AI加剧芯片厂商间竞赛,英特尔、英伟达、AMD竞相发力

随着智能手机和个人电脑销售数量减少,芯片厂商正在竞相开发人工智能产品,以推动业绩增长. 英伟达.英特尔.AMD和一大批初创公司正在研发新的处理器,以开拓人工智能软硬件市场.据IDC公司调查,AI软硬件市场每年增长率达50%. 据IDC估计,全球人工智能相关软硬件支出可能从今年的120亿美元扩大到2021年的576亿美元.其中,相当一部分支出来自数据中心,到2020年预计有四分之一的支出将用于与人工智能相关的计算. 近年来,一些人工智能技术已经成为核心能力,例如帮助亚马逊的Echo智能扬声器理解口

蓝牙、WiFi 版树莓派发布;日韩三巨头联手推出 AI 语音助手 Clova | AI 开发者头条

▲ 内容预览: 树莓派也有蓝牙和 Wifi 啦! 日韩三巨头联手,推出 AI 语音助手 Clova 微软发布 Azure Stack  第三技术预览版本 每日推荐阅读 14 步教会你用 Python 掌握机器学习 █ 树莓派也有蓝牙和 Wifi 啦! 初代树莓派的诞生已经过去五年.前天,也就是 2 月 28 日,应该是树莓派的五岁生日--而作为庆祝,Raspberry Pi Zero W 在这一天发布. (冷知识:为什么说"应该是"?因为初代树莓派发布于 2012 年 2 月 29 日

摩拜AI大数据平台“魔方”发布黄金周骑行预测,加州开发 AI 智能公寓

AI大数据平台"魔方"发布黄金周骑行预测 8天长假前,摩拜通过大数据人工智能平台"魔方",对假期全国各地的骑行特征与趋势做了一次预判. 据"魔方"预测,由于海量休闲观光需求的释放,预计"十一"期间的日均骑行量将增长25%:相应地,人均骑行距离将从平均不足2公里增加至近3公里:骑行速度将降低15%,每公里骑行将多花1分钟时间.与工作日的明显早晚双高峰不同,小长假期间的骑行将呈现午前小高峰.下午2点到5点大高峰.晚间8-9点第二小

10家机构共同发起AI大数据加速器,这些投资人已经抓住了未来

有人预测,人工智能将会是比移动互联网大一千倍的市场,下一个BAT级的公司相信就从人工智能里面产生. 2016年10月26日下午, 英诺天使基金 . 真格基金 .臻云创投联合混沌AI成长营.中科创星 .天天投.硬科技创新联盟. 极客帮创投 .清华数据创新基地.中欧创投营等10家机构协会共同宣布发起AI大数据加速器. AI大数据加速器将重点围绕人工智能.大数据.以及AR/VR.ADAS.无人机.机器人.IOT及航空航天等科技领域的创业项目做加速服务,凝聚行业最优质的资源,助力AI及大数据领域的创新创

聚焦数字营销 看中美巨头如何玩转大数据

大数据已经算不上新事物,它已经从根本上改变了诸多行业--比如音乐.报纸.电影.零售等等.在数字营销领域,依托新技术的大数据所带来的改变更是颠覆性的. 聚焦数字营销看中美巨头如何玩转大数据 争夺数据资源巨头们开疆辟土 互联网广告曾被谷歌占据:亚马逊称霸在线零售:社交网络的巨头是脸书:而苹果公司则建立了交互式硬件设备的行业标准,被称作"人们数字生活的遥控器". 这也是美国互联网市场的现状.你可能认为四家公司能够很好地诠释市场细分,在零售.广告.硬件和社交网络各显其能,然而这并不是全部.这仅