简化论述没有免费午餐定理(NFL)

No Free Lunch Theoren 定理 ,没有免费的午餐定理,简称NFL定理,由美国斯坦福大学的Wolpert和Macready教授提出。
在机器学习算法中的体现为在没有实际背景下,没有一种算法比随机胡猜的效果好
首先,我们假设一个算法为a,而随机胡猜的算法为b,为了简单起见,假设样本空间为χ和假设空间为H都是离散的。令
P(h|X,a)表示算法a基于训练数据X产生假设h的概率,再令f代表我们希望的真实目标函数。a的训练集外误差,即a
在训练集之外的所有样本上的误差为
Eote(a|X,f)=∑h∑x∈χ−XP(x)I(h(x)≠f(x))P(h|X,a),
其中I(⋅)是指示函数,若⋅为真则取值1,否则取值0.
考虑二分类问题,且真实目标函数可以是任何函数χ↦{0,1},函数空间为{0,1}|χ|(|χ|指样本空间χ中元素个数,对所有可能的f按均匀分布对误差求和,有
∑fEote(a|X,f)
=∑f∑h∑x∈χ−XP(x)I(h(x)≠f(x))P(h|X,a)
=∑x∈χ−XP(x)∑hP(h|X,a)∑fI(h(x)≠f(x))
=∑x∈χ−XP(x)∑hP(h|X,a)122|χ|
=2|χ|−1∑x∈χ−XP(x)∑hP(h|X,a)
=2|χ|−1∑x∈χ−XP(x)⋅1
可以看到总误差竟与算法无关!对于任何两个算法a和b都有
∑fEote(a|X,f)=∑fEote(b|X,f)
得证无论算法多好在没有实际背景情况下都不如随机胡猜。
所以,NFL定理最重要意义是,在脱离实际意义情况下,空泛地谈论哪种算法好毫无意义,要谈论算法优劣必须针对具体学习问题。

时间: 2024-09-24 19:37:49

简化论述没有免费午餐定理(NFL)的相关文章

为什么要用深度学习?

为何深层学习 深层学习开启了人工智能的新时代.不论任何行业都害怕错过这一时代浪潮,因而大批资金和人才争相涌入.但深层学习却以 "黑箱" 而闻名,不仅调参难,训练难,"新型" 网络结构的论文又如雨后春笋般地涌现,使得对所有结构的掌握变成了不现实.我们缺少一个对深层学习合理的认识. 神经网络并不缺少新结构,但缺少一个该领域的 很多人在做神经网络的实验时会发现调节某些方式和结构会产生意想不到的结果.但就我个人而言,这些发现并不会让我感到满足.我更关心这些新发现到底告诉我们

第五届CCF大数据学术会议下月开幕,你将遇见哪些大牛?

第五届CCF大数据学术会议将于2017年10月13日-15日在深圳举行,这是我国大数据领域的旗舰会议.届时雷锋网将作为协办单位,对此次会议进行全面报导. 近几年,大数据是各界高度关注.积极布局的热点方向,它已经成为全球IT行业最强劲的发展动力,正在引起各行各业的业务变革与产业升级. 此次会议由中国计算机学会(CCF)主办,CCF大数据专家委员会.深圳大学承办,旨在交流大数据研究与应用的成果和经验,探讨产业化所面临的关键性挑战问题和研究方向.大会组委会邀请到多位学界业界领军人物,覆盖多个层面,将与

《中国人工智能学会通讯》——6.24 智能、知识和学习

6.24 智能.知识和学习 人工智能,为什么会在之前的几十年中遇到了很多阻碍?原因是,我们对世界的绝大部分认知,都并不会通过书面语言清清楚楚地.像一系列任务一样描述出来--而这恰恰是编写计算机程序所必需的步骤.这就是为什么我们还无法直接让计算机完成很多人类可以轻而易举完成的事情--不论是理解演讲.图像.语言还是驾驶汽车.而类似的尝试--在详尽数据库中组织事实集,为计算机注 入 智 能(organizing sets of facts in elaboratedatabases to imbue

《 线性代数及其应用 (原书第4版)》——1.2 行化简与阶梯形矩阵

1.2 行化简与阶梯形矩阵 本节我们将1.1节中的方法进一步精确化,变成行化简算法(也称行消去法),它可用来解任意线性方程组. 1而应用算法的第一部分,我们可以回答1.1节中提出的基本存在与唯一性问题. 这种算法可用于任意矩阵,不管它是否为某一方程组的增广矩阵. 所以本节的第一部分讨论任意矩阵. 首先我们引入两类重要的矩阵,它们包含1.1节中的"三角"矩阵,在以下的定义中,矩阵中非零行或列指矩阵中至少包含一个非零元素的行或列:非零行的先导元素是指该行中最左边的非零元素. 定义 一个矩阵

2017CCF大数据学术会议大数据智能分析分论坛成功举办

2017年10月13日-15日,第5届CCF大数据学术会议在深圳举行,大会期间,10月15日上午举行了大数据智能分析分论坛,论坛由北京邮电大学杜军平教授主持,复旦大学计算机科学与技术学院院长王晓阳教授.兰州大学信息科学与工程学院院长胡斌教授.山东大学计算机学院与软件学院院长陈宝权教授.中科院自动化所副总工程师张文生研究员.北京交通大学计算机学院计算机科系主任于剑教授.湖南大学大数据研究中心主任秦拯教授分别做论坛特邀报告.          (图1 论坛现场) (图2 主持人和报告嘉宾合影) (图

联想高级架构师分享:架构之道-规划、简化和演化

架构这个概念,和计算机科学(包括近几年才成为一级学科的软件工程)的其他术语类似,都是从传统学科借用来的.这是因为计算机科学太年轻.发展太快,来不及形成自己特有的术语和名词.因此,在学习和思考方法上,常常推荐类比法,尝试用一些耳熟能详的事物去理解和解释计算机科学领域的概念,以求"老妪能懂"的效果. 这里介绍的一些内容,大多是个人在学习和实践过程中的一些思考和体会,以及平时的一些学习笔记整理而成,还很不成体系,还有很多需要继续推敲的地方.我会在未来的工作实践中更加深入思考,广泛参考领域内的

论述了产业资本与VC/PE的不同

我们主要论述了产业资本与VC/PE的不同,那产业资本在对企业进行并购的时候是如何考虑企业的估值的呢? 我认为从长期和大样本统计数据来看,一个企业是否有价值取决于它是否能够直接或间接产生未来的现金流.至于是否有能力产生现金流又取决于这个企业是否掌握着某种特定资源,包括人力资源,企业的管理能力,采购的议价能力以及销售员的销售能力等等多种因素.我们在做并购案时常说的Stand Alone Value (企业独立估值) 就是目前企业这种能力的综合体现.以我的经验来看,并购案的估值要比创建投资 (Gree

[实变函数]5.6 Lebesgue 积分的几何意义 $\bullet$ Fubini 定理

1 本节推广数学分析中的 Fubini 定理. 为此, 先引入 (1)(从低到高) 对 $A\subset \bbR^p, B\subset\bbR^q$, $$\bex A\times B=\sed{(x,y);x\in A, y\in B} \eex$$ 称为 $A$ 与 $B$ 的直积 (direct product). (2)(从高到低) 设 $E\subset \bbR^{p+q}$, $x\in \bbR^p$, 则称 $$\bex E_x=\sed{y\in\bbR^q;(x,y)

MapReduce:免费午餐还没结束?

微软著名的C++大师Herb Sutter在2005年初的时候曾经写过一篇重量级的文章:"The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software",预言OO之后软件开发将要面临的又一次重大变革-并行计算. 摩尔定律统制下的软件开发时代有一个非常有意思的现象:"Andy giveth, and Bill taketh away.".不管CPU的主频有多快,我们始终有办法来利用它