深度学习如何改变数据科学范式?

深度学习正在改变一切。正如电子和计算机改变了人类所有的经济活动一样,人工智能将重塑零售业、交通运输业、制造业、医药、电信业、重工业……甚至数据科学本身。而且,像AlphaGo这种人工智能超越人类的领域及其应用在不断增长。在Schibsted,Manuel Sánchez Hernández看到了深度学习所提供的机会,他们很高兴为此而出力。

Manuel Sánchez Hernández在最近的NIPS 2016(Neural Information Processing Systems,神经信息处理系统)会议上,听取了Andrew Ng分享的一些关于深度学习的想法。Manuel Sánchez Hernández做了一则笔记,经作者授权,InfoQ翻译并整理本文,以飨读者。

Manuel Sánchez Hernández是位于伦敦的Schibsted Product & Technology的数据科学家。

深度学习的第一大优势是它的规模。Andrew总结如下图:

当数据量增加时,深度学习模型表现得更好。不仅如此,神经网络越大,对于更大的数据集,会做得更好。不同于传统的模型,一旦性能达到一定的水平,往模型里增加更多的数据或者改变算法的复杂度,并不能带来性能的提升。

深度学习模型之所以如此强大的另一个原因是它们拥有端到端学习的能力。传统模型通常需要显著的特征工程。例如,一个模型能够转录一个人可能需要做许多中间步骤输入的声音,找到音素,正确链接,为每个链接分配相应单词。

深度学习模型通常不需要这样的特征工程。你通过为模型展示大量实例进行端到端的训练,该技术工作并不是被应用到转换特征,而是进入模型的架构。数据科学家需要决定和尝试他想要的神经元类型、层数以及如何连接它们等等。

构建模型的挑战

深度学习模型有他们自己的挑战。许多决策必须在其构建过程中进行。如果采取错误的路径,将浪费大量的时间和金钱,那么数据科学家如何才能做出明智的决定?确定为了改善他们的模型下一步需要做什么?Andrew向我们展示了他用于开发模型的经典决策框架,但这次他将其扩展到其他有用的案例中。

让我们从基础开始:在一个分类任务(例如,从扫描做诊断),对于来源如下的错误,我们应该有一个好的想法。

人类专家训练集交叉验证(CV)集(也称为开发或开发集)

一旦我们有了这些错误,数据科学家可以遵循基本流程去发现模型模型构建中的有效决策。首先问你的训练错误高吗?如果是这样,那么说明该模型不够好;它可能需要更丰富(例如,更大的神经网络)和不同的架构,或者需要更多的训练。重复该过程直到偏差减小。

一旦训练集错误减少,CV集的低错误率是必要的。否则,分歧高,意味着需要更多的数据,更多的正则化或新的模型架构。重复该过程,直到模型在训练和CV集中表现良好。

这些过程并没有什么新事物。然而,深度学习已经在改变这个过程。如果你的模型不够好,总有一个“出路”:增加你的数据或使你的模型更大。在传统模型中,正则化用于调整这种权衡,或者产生新的特征——这点看着容易做着难。但是,自从有了深度学习之后,我们有了更好的工具,以减少这两个错误。

改进人工数据集的偏差/分歧过程

事实上并没有那么多大量的可用样本,那么还有另一种方法是建立自己的训练数据。一个很好的示例可以是语音识别系统的训练,通过对同一个声音添加噪声可以创建人工训练样本。然而,这并不意味着训练集将具有和实集相同的分布。对于这些情况下的偏差/分歧权衡需要不同的框架。

想象一下,对于语音识别模型,我们有50,000小时的生成数据,但只有100小时的真实数据。在这种情况下,生成的集将是训练集,真正的集应分割成CV和测试集。否则,在CV和测试集之间将有不同的分布,一旦模型“完成”,将会注意到这些差异。问题由CV集指定,因此它应该尽可能接近实集。

在实践中,Andrew建议将人工数据分为两部分:训练集及其一小部分,我们称之为“训练/CV集”。这样,我们将估量以下错误:

因此,(1)和(2)之间的区别是偏差,(2)和(3)之间的区别是分歧,(3)和(4)之间的区别是由于分布不匹配,(4)和(5)之间的区别是因为过度拟合。

考虑到以前的工作流程应该像这样修改:

如果分布误差高,修改训练数据分布,使其尽可能类似于测试数据。对偏差/分歧的正确理解,能提高机器学习的效率。

人类水平的表现

了解人类的表现水平非常重要,因为这将指导决策。事实证明,一旦一个模型超越人类的表现,通常是很难改善的。因为我们越来越接近“完美的模型”,即没有模型可以做得更好(“贝叶斯率”)。这不是传统模型原有的问题——它的表现已经超越人类水平,但在深度学习领域这个问题变得越来越普遍了。

因此,当构建一个模型时,以人类专家组的表现误差为参考将是“贝叶斯率”的代表。例如,如果一组医生比一位专家医生做得更好,则使用医生组测量的误差。

怎样才能成为更好的数据科学家?

阅读许多论文和复现别人的结果是成为一个更好的数据科学家的最佳和最可靠的路径。这是Andrew已经从他的学生身上看到的模式,我对此也十分认同。

即使几乎你做的全都是“苦活”:清洁数据、调整参数、调试、优化数据库等,不要停止阅读论文和验证模型,在验证别人模型的过程中,你将得到启发。

 

  

本文转自d1net(转载)

     

时间: 2024-09-30 00:11:39

深度学习如何改变数据科学范式?的相关文章

智能时代,深度学习和大数据成了密不可分的一对儿

人工智能时代,深度学习和大数据成了密不可分的一对儿.深度学习可以从大数据中挖掘出以往难以想象的有价值的数据.知识或规律.简单来说,有足够的数据作为深度学习的输入,计算机就可以学会以往只有人类才能理解的概念或知识,然后再将这些概念或知识应用到之前从来没有看见过的新数据上. <智能时代>的作者吴军博士说:"在方法论的层面,大数据是一种全新的思维方式.按照大数据的思维方式,我们做事情的方式与方法需要从根本上改变." 谷歌的围棋程序AlphaGo已经达到了人类围棋选手无法达到的境界

语音识别的前世今生 | 深度学习彻底改变对话式人工智能

CNET科技行者 8月21日 北京消息:"语音识别"的终极梦想,是真正能够理解人类语言甚至是方言环境的系统.但几十年来,人们并没有一个有效的策略来创建这样一个系统,直到人工智能技术的爆发. 在过去几年中,人们在人工智能和深度学习领域的突破,让语音识别的探索跨了一大步.市面上玲琅满目的产品也反映了这种飞跃式发展,例如亚马逊Echo.苹果Siri 等等.本文将回顾语音识别技术领域的最新进展,研究促进其迅猛发展进程的元素,并探讨其未来以及我们距离可以完全解决这个问题还有多远. 背景:人机交互

Mellanox智能网络助力美团点评深度学习和大数据平台

9月13日(北京)高性能计算.数据中心端到端互连方案提供商Mellanox今日宣布,国内最大的生活服务电商平台美团点评现已在其人工智能和大数据平台部署 Mellanox 端到端25GbE以太网络. 近来随着移动互联网的飞速发展,通过线上完成消费决策及交易,线下实际消费的O2O模式也吸引了越来越多的用户.作为国内最大的生活服务电商平台,美团点评已经为6亿注册用户.超450万合作商户提供各类生活娱乐相关的服务.美团点评通过对海量数据的挖掘及分析提供个性化的服务,更快满足用户需求;并借助美团云深度学习

资源总结——七步学习数据挖掘与数据科学

想知道如何学习数据挖掘和数据科学吗?本文概述了七个步骤,指出的资源能让你成为一名数据科学家. 作者为Gregory Piatetsky,是一名数据挖掘与数据科学方面的专家. 以下为7个步骤用于学习数据挖掘和数据科学.虽然有编号顺序,你也可以并行或以不同的顺序学习: 1 语音:学习R.Python以及SQL语音: 2 工具:了解如何使用数据挖掘和可视化工具: 3 教材:阅读介绍性的教科书,了解基础知识: 4 教育:观看网络研讨会,参加课程,考虑获得数据科学中的证书或学位: 5 数据:检查可用的数据

深度学习与大数据解析

深度学习的概念于2006年提出,是机器学习研究中的一个新的领域,其动机在于建立.模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像.声音和文本,已被应用于许多领域,如人脸识别.语音识别等.深度学习已成为人工智能领域研究的热点. 随着人工智能的迅速发展,通过深度学习,用计算机来模拟人的思考.推理.规划等思维过程和智能行为取得了长足进步.人工智能的重要特征就是拥有学习的能力,也就是说系统的能力会随着经验数据的积累不断演化和提升.近年来,正是得益于深度学习为大数据处理开辟了有效途径,

工智能、大数据与深度学习之间的关系和差异

网络上从不缺乏对数据科学术语进行比较和对比的文章.文笔各异的人写出了各式各样的文章,以此将他们的观点传达给任何愿意倾听的人.这几乎是势不可挡的. 所以我也记录一下,对于那些疑惑此文是否也是雷同的帖子.对,是这样的. 为什么再来一帖?我是这样想的,尽管可能有很多分散观点在定义和比较这些关联术语,但事实上是,这些术语中的大部分是流动变化的,并不完全约定俗成,坦率地说,与他人观点一同暴露是测试和优化自己的观点的最好方法之一. 所以,虽然大家可能不会完全(甚至是极低限度地)同意我对这些术语的大部分看法,

人工智能、大数据与深度学习之间的关系和差异

网络上从不缺乏对数据科学术语进行比较和对比的文章.文笔各异的人写出了各式各样的文章,以此将他们的观点传达给任何愿意倾听的人.这几乎是势不可挡的. 所以我也记录一下,对于那些疑惑此文是否也是雷同的帖子.对,是这样的. 为什么再来一帖?我是这样想的,尽管可能有很多分散观点在定义和比较这些关联术语,但事实上是,这些术语中的大部分是流动变化的,并不完全约定俗成,坦率地说,与他人观点一同暴露是测试和优化自己的观点的最好方法之一. 所以,虽然大家可能不会完全(甚至是极低限度地)同意我对这些术语的大部分看法,

六招教你用Python构建好玩的深度学习应用

导读 深度学习是近来数据科学中研究和讨论最多的话题.得益于深度学习的发展,数据科学在近期得到了重大突破,深度学习也因此得到了很多关注.据预测,在不久的将来,更多的深度学习应用程序会影响人们的生活.实际上,我认为这种影响已经开始了. 如果你站在圈外的角度,深度学习可能看起来让人望而生畏. 像TensorFlow,Keras,基于GPU的计算等专业术语可能会吓到你. 但是,悄悄告诉你 – 深度学习并不难! 紧追前沿的深度学习技术的确需要花费时间和精力,但应用它们解决日常生活中的问题还是很容易的. 有

干货 :六招教你用Python分分钟构建好玩的深度学习应用

[导读]深度学习是近来数据科学中研究和讨论最多的话题.得益于深度学习的发展,数据科学在近期得到了重大突破,深度学习也因此得到了很多关注.据预测,在不久的将来,更多的深度学习应用程序会影响人们的生活.实际上,我认为这种影响已经开始了. 如果你站在圈外的角度,深度学习可能看起来让人望而生畏. 像TensorFlow,Keras,基于GPU的计算等专业术语可能会吓到你. 但是,悄悄告诉你 – 深度学习并不难! 紧追前沿的深度学习技术的确需要花费时间和精力,但应用它们解决日常生活中的问题还是很容易的.