你知道数据模型需要多少训练数据吗?

毫无疑问机器学习是大数据分析不可或缺的一部分,在使用机器学习技术的时候工程师除了要选择合适的算法之外还需要选择合适的样本数据。那么工程师到底应该选择哪些样本数据、选择多少样本数据才最合适呢?来自于Google的软件工程师Malay Haldar最近发表了一篇题为《数据模型需要多少训练数据》的文章对此进行了介绍。

训练数据的质量和数量通常是决定一个模型性能的最关键因素。一旦训练数据准备好,其他的事情就顺理成章了。但是到底应该准备多少训练数据呢?答案是 这取决于要执行的任务,要满足的性能,所拥有的输入特征、训练数据中的噪音、提取特征中的噪音以及模型的复杂程度等因素。而找出这些变量之间相互关系的方 法就是在不同数据量的训练数据上训练模型并绘制学习曲线。但是这仅仅适合于已经有一定数量的训练数据的情况,如果是最开始的时候,或者说只有很少一点训练 数据的情况,那应该怎么办呢?

与死板地给出所谓精确的“正确”答案相比,更靠谱的方法是通过估算和具体的经验法则。例如本文将要介绍的实证方法:首先自动生成很多逻辑回归问题。 然后对生成的每一个问题,研究训练数据的数量与训练模型的性能之间的关系。最后通过观察这两者在这一系列问题上的关系总结出一个简单的规则。

生成一系列逻辑回归问题并研究不同数据量的训练数据所造成的影响的代码可以从GitHub上获取。相关代码是基于Tensorflow实现的,运行这些代码不需要任何特殊的软件或者硬件,用户可以在自己的笔记本上运行整个实验。代码运行之后生成的图表如下:


其 中,X轴是训练样本的数量与模型参数数量的比率。Y轴是训练模型的得分(f-score)。不同颜色的曲线表示不同参数数量的模型。例如,红色曲线代表模 型有128个参数,曲线的轨迹表明了随着训练样本从128 x 1到 128 x 2并不断增长的过程中该模型的得分变化。

通过该图表,我们能够发现模型得分并不会随着参数规模的变化而变化。但是这是针对线性模型而言,对于一些隐藏的非线性模型并不适合。当然,更大的模 型需要更多的训练数据,但是对于一个给定的训练模型数量与模型参数数量比率其性能是一样的。该图表还显示,当训练样本的数量与模型参数数量的比率达到 10:1之后,模型得分基本稳定在0.85,该比率便可以作为良好性能模型的一种定义。根据该图表我们可以总结出10X规则,也就是说一个优秀的性能模型 需要训练数据的数量10倍于该模型中参数的数量。

10X规则将估计训练数据数量的问题转换成了需要知道模型参数数量的问题。对于逻辑回归这样的线性模型,参数的数量与输入特征的数量相等,因为模型会为每一个特征分派一个相关的参数。但是这样做可能会有一些问题:

特征可能是稀疏的,因而可能会无法直接计算出特征的数量。

由于正则化和特征选择技术,很多特征可能会被抛弃,因而与原始的特征数相比,真正输入到模型中的特征数会非常少。

避免这些问题的一种方法是:必须认识到估算特征的数量时并不是必须使用标记的数据,通过未标记的样本数据也能够实现目标。例如,对于一个给定的大文 本语料库,可以在标记数据进行训练之前通过生成单词频率的历史图表来理解特征空间,通过历史图表废弃长尾单词进而估计真正的特征数,然后应用10X规则来 估算模型需要的训练数据的数据量。

需要注意的是,神经网络构成的问题集与逻辑回归这样的线性模型并不相同。为了估算神经网络所需要的参数数量,你需要:

如果输入是稀疏的,那么需要计算嵌套层使用的参数的数量。参照word2vec的Tensorflow教程示例。

计算神经网络中边的数量

由于神经网络中参数之间的关系并不是线性的,所以本文基于逻辑回归所做的实证研究并不适合神经网络。但是在这种情况下,可以将10X规则作为训练数据所需数据量的下限。

尽管有上面的问题,根据Malay Haldar的经验,10X规则对于大部分问题还是适用的,包括浅神经网络。如果有疑问,可以在Tensorflow的代码中插入自己的模型和假设,然后运行代码进行验证研究。

本文作者:Malay Haldar

来源:51CTO

时间: 2024-09-08 10:05:42

你知道数据模型需要多少训练数据吗?的相关文章

利用TFRecord和HDFS准备TensorFlow训练数据

本系列将利用阿里云容器服务的机器学习解决方案,帮助您了解和掌握TensorFlow,MXNet等深度学习库,开启您的深度学习之旅. 第一篇: 打造深度学习的云端实验室 第二篇: GPU资源的监控和报警,支撑高效深度学习的利器 第三篇: 利用TFRecord和HDFS准备TensorFlow训练数据 数据准备和预处理是一个深度学习训练过程中扮演着非常重要的角色,它影响着模型训练的速度和质量. 而TensorFlow对于HDFS的支持,将大数据与深度学习相集成,完善了从数据准备到模型训练的完整链条.

苹果机器学习博客姗姗来迟,不过第一篇文章就给紧缺训练数据的研究者们发糖

雷锋网(公众号:雷锋网) AI 科技评论按:苹果一出手就要解决人工智能的瓶颈问题,野心不可谓不大,但是效果也不可谓不好,最近的一篇机器学习方面的论文就巧妙地解决了训练数据收集方面的大问题,不仅已经被CVPR2017收录,刚刚上线的Apple Machine Learning Journal(机器学习日记)网站上的第一篇博文也就是这篇论文的介绍. 7月19日刚刚上线的"苹果机器学习日记"网站,相比其它硅谷IT公司的 AI 研究院 Blog 可谓是姗姗来迟,大家等待苹果正式加入知识开放.动

深度学习的核心:掌握训练数据的方法

       Hello World!今天我们将讨论深度学习中最核心的问题之一:训练数据.深度学习已经在现实世界得到了广泛运用,例如:无人驾驶汽车,收据识别,道路缺陷自动检测,以及交互式电影推荐等等. 我们大部分的时间并不是花在构建神经网络上,而是处理训练数据.深度学习需要大量的数据,然而有时候仅仅标注一张图像就需要花费一个小时的时间!所以我们一直在考虑:能否找到一个方法来提升我们的工作效率?是的,我们找到了. 现在,我们很自豪的将Supervisely令人惊叹的新特性公诸于世:支持AI的标注工

代码备份:处理 SUN397 的代码,将其分为 80% 训练数据 以及 20% 的测试数据

处理SUN397 的代码,将其分为80% 训练数据以及20% 的测试数据 2016-07-27 1 %% Code for Process SUN397 Scene Classification 2 % Just the a part : 24 kinds and 6169 images total 3 % used for train a initial classifier and predict the additional dataset. 4 clc; 5 impath = '/hom

金融大数据模型理念,一切数据皆为信用数据

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;   到目前为止,在大数据领域当中的投资已经越来越热,而且做得公司越来越多.有多少公司到底真正使用的是大数据?我相信几乎没有太多. 大数据在美国金融当中最直接的场景,就是所谓的信用评估体系.美国的信用体系评估很简单,就几样东西:债务历史.债务.信用历史时间.相关的其他因素.这些东西全部加起来形成了美国现有的评分体系. 一般来说,如果变量放得太多了,模型处理起来就会比较

U15青训首次引入体育大数据 欢呼吧体育助力中国足球数据革命

每届中国足球的国家队或青少队选拔,教练们总会因为具体人选和球队表现等问题产生各种争议.降低经验的权重转向依托体育大数据选拔队员,能给中国足球发展带来突破性改变么? 日前,中国足协 NIKE针对 U15青少队首次引入体育大数据模型,将训练数据和具体表现作为入选U15青少国家队的重要依据.实际上,体育大数据来辅助训练及队员选拔,在全球范围内已是大势所趋. 为了挑选出最好的一届U15"足球小将",中国足协联合体育巨头NIKE,从各省150名青少年球员中精选出来50名,近日在山东鲁能足校这些青

【玩转数据系列十二】PAI平台深度学习Caffe框架实现图像分类的模型训练

PAI平台深度学习Caffe框架实现图像分类的模型训练 背景 我们在之前的文章中介绍过如何通过PAI内置的TensorFlow框架实验基于Cifar10的图像分类,文章链接:https://yq.aliyun.com/articles/72841.使用Tensorflow做深度学习做深度学习的网络搭建和训练需要通过PYTHON代码才能使用,对于不太会写代码的同学还是有一定的使用门槛的.本文将介绍另一个深度学习框架Caffe,通过Caffe只需要填写一些配置文件就可以实现图像分类的模型训练.关于P

《数据库基础及实践技术——SQL Server 2008》一1.3 数据和数据模型

1.3 数据和数据模型 本节介绍如何理解现实世界.如何将之"信息化"以及如何描述现实世界的信息结构等内容. 1.3.1 数据和数据模型概述 数据 为了了解世界.研究世界和交流信息,人们需要描述各种事物.用自然语言来描述虽然很直接,但过于烦琐,不便于形式化,而且也不利于用计算机来表达.为此,人们常常只抽取那些感兴趣的事物特征或属性,作为事物的描述.例如,一个学生可以用如下记录来描述:(张三,9912101,1981,计算机,应用软件),单凭这样一条记录人们一般不容易知道其准确含义,但如果

数据不够怎么训练深度学习模型?不妨试试迁移学习

深度学习大牛吴恩达曾经说过:做AI研究就像造宇宙飞船,除了充足的燃料之外,强劲的引擎也是必不可少的.假如燃料不足,则飞船就无法进入预定轨道.而引擎不够强劲,飞船甚至不能升空.类比于AI,深度学习模型就好像引擎,海量的训练数据就好像燃料,这两者对于AI而言同样缺一不可. 随着深度学习技术在机器翻译.策略游戏和自动驾驶等领域的广泛应用和流行,阻碍该技术进一步推广的一个普遍性难题也日渐凸显:训练模型所必须的海量数据难以获取. 以下是一些当前比较流行的机器学习模型和其所需的数据量,可以看到,随着模型复杂