《数值分析(原书第2版)》—— 1.4 牛顿方法

1.4 牛顿方法

牛顿方法,也被称为牛顿拉夫逊方法,通常比我们前面看到的线性收敛方法快得多.牛顿方法对应的几何图如图1.8所示.为了找到函数f(x)=0的根, 图1.8 牛顿方法中的一步.从x0开始,画出函数y=f(x)的切线.和x轴的交点记做x1,这是对于函数根的下一个近似给定一个初始估计x0,画出函数f在x0点的切线.用切线来近似函数f,求出其与x轴的交点作为函数f的根,但是由于函数f的弯曲,该交点可能并不是精确解.因而,该步骤要迭代进行.
从几何图像中我们可以推出牛顿方法的公式.x0点的切线斜率可由导数f′(x0)给出.切线上的一点是(x0,f(x0)).一条直线的点斜率方程是y-f(x0)=f′(x0)(x-x0),因而切线和x轴的交点等价于在直线中令y=0:f′(x0)(x-x0)=0-f(x0)
x-x0=-f(x0)f′(x0)
x=x0-f(x0)f′(x0)求解x得到根的近似,我们称之为x1.然后,重复整个过程,从x1开始,得到x2,等等,进而得到如下的迭代公式:

例1.11 找出用于方程x3+x-1=0的牛顿方法公式.
由于f′(x)=3x2+1,公式如下xi+1=xi-x3i+xi-13x2i+1=2x3i+13x2i+1从初始估计x0=-0.7开始,迭代公式得到x1=2x30+13x20+1=2(-0.7)3+13(-0.7)2+1≈0.1271
x2=2x31+13x21+1≈0.9577这些步骤在图1.9中以几何的方式显示.更多的步骤如下表所示:

仅仅6步之后,根就包图1.9 牛顿方法中的三步.例1.11的图示.从x0=-0.7开始,沿着切线方向画出牛顿方法的迭代.该方法看起来会收敛到根含8位正确的数字.关于误差以及它们变小的速度还有很多值得进一步描述.在表中我们注意到一旦确定收敛,xi中正确的数位在每一步中近似翻倍.我们在后面会看到,这就是“二次收敛”方法的一个特征.

1.4.1 牛顿方法的二次收敛

例1.11中的二次收敛,比我们前面在二分法和不动点迭代中看到的线性收敛速度要快.现在需要如下一个新的定义.
定义1.10 令ei表示一个迭代方法第i步后得到的误差.该迭代是二次收敛,如果满足下式M=limi→∞ei+1e2i<∞  定理1.11 令f是二阶连续可微函数,f(r)=0.如果f′(r)≠0,则牛顿方法局部二次收敛到r.第i步的误差ei满足limi→∞ei+1e2i=M其中M=f″(r)2f′(r)证明 为了证明局部收敛,注意到牛顿方法是不动点迭代的一个特殊形式,其中g(x)=x-f(x)f′(x)该函数的导数g′(x)=1-f′(x)2-f(x)f″(x)f′(x)2=f(x)f″(x)f′(x)2因为g′(r)=0,根据定理1.6牛顿方法局部收敛.
为了证明二次收敛,51
 ~
53我们使用另一种方式导出牛顿方法,并仔细观察在每步中生成的误差.从误差中,我们想看到真实根和当前最优估计之间的差异.
定理0.8中的泰勒公式告诉我们在给定点和另一个近邻点之间的函数值的差异.对于这两个点,我们使用根r和当前在第i步时的估计xi,第i步后,取两项后面的余项:f(r)=f(xi)+(r-xi)f′(xi)+(r-xi)22f″(ci)这里,ci在xi和r之间.由于r是根,因此,0=f(xi)+(r-xi)f′(xi)+(r-xi)22f″(ci)
-f(xi)f′(xi)=r-xi+(r-xi)22f″(ci)f′(xi)假设f′(xi)≠0.通过重整等式,我们可以比较下一步的牛顿迭代结果和根:xi-f(xi)f′(xi)-r=(r-xi)22f″(ci)f′(xi)
xi+1-r=e2if″(ci)2f′(xi)
ei+1=e2if″(ci)2f′(xi)(1.24)在方程中,我们定义了第i步的误差是ei=xi-r.由于ci在r和xi之间,它会如同xi一样收敛到r,limi→∞ei+1e2i=f″(r)2f′(r)上面的式子满足二次收敛的定义.
我们推导的误差公式(1.24)可被看做ei+1≈Me2i(1.25)其中M=f″(r)/2f′(r),基于假设f′(r)≠0.由于估计结果xi向r移动,并且由于ci在xi和r之间,随着牛顿方法收敛,该近似也会越来越好.对于线性收敛方法,这个误差公式应该和ei+1≈Sei进行比较,FPI方法中S=g′(r),二分法中S=1/2.
尽管S的值对于线性收敛方法很关键,但是M的值并不那么重要,这是由于误差公式中包含了上一步误差的平方.一旦误差远小于1,平方会带来进一步的减小;只要M不是太大,根据式(1.25)可以知道,误差也会进一步下降.
回到例1.11,分析输出结果的表来验证这个误差率.根据牛顿方法,误差公式(1.25)右边一列表示这个比率是ei/e2i-1,当迭代收敛到根,该误差率趋近M.对于f(x)=x3+x-1,导数为f′(x)=3x2+1与f″(x)=6x;最后在xc≈0.6823处得到M≈0.85,这和表右列中的误差率一致.
有了对于牛顿方法的新的理解,我们可以更加全面地解释例1.6中的平方根计算.令a是一个正数,考虑利用牛顿方法寻找方程f(x)=x2-a的根.对于任意a,迭代如下xi+1=xi-f(xi)f′(xi)=xi-x2i-a2xi=x2i+a2xi=xi+axi2(1.26)
54这是例1.6使用的方法.
为了研究其对应的收敛性,计算在根a的位置上的导数f′(a)=2a
f″(a)=2(1.27)由于f′(a)=2a≠0,收敛率为ei+1≈Me2i(1.28)牛顿方法是二次收敛方法,其中M=2/(2·2a)=1/(2a).

1.4.2 牛顿方法的线性收敛

定理1.11并不意味着牛顿方法总能二次收敛.回忆一下,我们需要除去f′(r)得到二次收敛.这个假设十分重要.下面的例子显示了一个牛顿方法不能二次收敛的实例.
例1.12 使用牛顿方法找到f(x)=x2的实根.
这看起来像是个小问题,因为我们知道有一个实根:r=0.但是常常对于一个我们透彻理解的例子使用一个新方法有启发意义.牛顿方法公式如下xi+1=xi-f(xi)f′(xi)=xi-x2i2xi=xi2令人惊讶的是,牛顿方法被简化到仅仅每步除2.由于根是r=0,我们有如下的牛顿迭代的表,其中初值x0=1:

牛顿方法收敛到了根r=0.误差公式是ei+1=ei/2,因而收敛是线性的,收敛速度和常数S=1/2成比例.
对于xm也有相似的结果,其中m是正整数,如下面例子所示.
例1.13 使用牛顿方法寻找f(x)=xm的一个根.
牛顿公式如下:
xi+1=xi-xmimxm-1i=m-1mxi55  收敛 方程(1.28)和(1.29)表示在牛顿方法中,到根r的两个不同的收敛率.在单根位置上f′(r)≠0,并具有二次收敛速度,或者更快的收敛,该收敛遵从式(1.28).在多重根位置上f′(r)=0,收敛是线性的,并遵从式(1.29).在后者问题的线性收敛中,更慢的收敛速度使得牛顿方法和二分法以及FPI处于同一类.
唯一根为r=0,因而定义ei=xi-r=xi得到ei+1=Sei其中S=(m-1)/m.
这是牛顿方法在多重根上的一般情形的例子.注意到多重根定义1.9和f(r)=f′(r)=0等价.正好是在这种情况下,牛顿方法的误差公式中的导数失去了效力.对于多重根有不同的误差公式.我们已经见到的单项式的多重根模式代表了一般情况,下面的定理1.12对此进行总结.
定理1.12 假设在区间[a,b]上,(m+1)阶连续可微函数f在r点有一个m阶多重根,则牛顿方法局部收敛到r,第i步误差ei满足limi→∞ei+1ei=S(1.29)其中S=(m-1)/m.
例1.14 函数f(x)=sinx+x2cosx-x2-x的重根r=0,计算多重性,并估计利用牛顿方法精确到小数点后6位的收敛所需要的步数(使用x0=1).
很容易验证f(x)=sinx+x2cosx-x2-x
f′(x)=cosx+2xcosx-x2sinx-2x-1
f″(x)=-sinx+2cosx-4xsinx-x2cosx-2并且以上所有式子在r=0的值都为0.而且三阶导数f(x)=-cosx-6sinx-6xcosx+x2sinx(1.30)满足f(0)=-1,所以根r=0是一个三重根,意味着多重性m=3.
使用定理1.12,牛顿方法会线性收敛ei+1≈2ei/3.
使用初始估计x0=1,得到e0=1.在收敛值附近,误差在每一步中会下降2/3.所以,精确到小数点后6位,或者误差小于0.5×10-6,所需步数的粗略估计通过求解下式可以得到23n<0.5×10-6
n>log10(0.5)-6log10(2/3)≈35.78(1.31)

56大约需要36步.表中显示了前面的20步.

我们注意到右列中的误差收敛率和预测的2/3一致.
如果我们预先知道重根,牛顿方法的收敛可以通过少量的改进得到改善.
定理1.13 如果在[a,b]区间上f 是 (m+1)阶连续函数,包含m>1的多重根,则改进的牛顿方法xi+1=xi-mf(xi)f′(xi)(1.32)收敛到r,并具有二次收敛速度.
回到例1.14,我们使用改进的牛顿方法得到二次收敛速度.5步之后,会收敛到根r=0,精确到小数点后8位:

在这张表中有几处需要注意.首先,直到第4步,在每一步中得到近似精确的数位翻倍,可以观测到收敛到近似根的速度为二次.而在第6、7…步中的精确数位的个数和第5步相同.牛顿方法不能收敛到机器精度的原因和1.3节相似,对于这点我们很熟悉.57我们知道0是重根.当使用牛顿方法得到的后向误差在εmach附近的时候,前向误差等于xi,在数量级上要比后向误差大得多.
牛顿方法如同FPI,可能不会收敛到根.下面的例子是一种可能不收敛的情况.
例1.15 对函数f(x)=4x4-6x2-11/4使用牛顿方法,初始估计x0=1/2.
由于函数是连续函数,在x=0时取负值,并且对于x的大的正数和负数则取无穷大的正值,因此一定存在根.但是如图1.10所示,对于初始估计x0=1/2则找不到根.牛顿公式xi+1=xi-4x4i-6x2i-11416x3i-12xi(1.33)通过替代得到x1=-1/2,进一步x2=1/2.牛顿方法在这个例子中,迭代的结果在1/2和-1/2之间变化,但是二者都不是根,所以求解根的过程失败.

牛顿方法还有其他可能失败的方式.如果在任何迭代步中出现f′(xi)=0,显而易见,该方法就不能继续.还有其他的例子中迭代会发散到无穷(见习题6)或者模仿随机数生成(见编程问题13).尽管不是所有的初始估计都会收敛到根,定理1.11和定理1.12保证在每个根近邻中的初始估计收敛到根.
1.4节习题
1.应用牛顿方法迭代两步,初始估计x0=0.

(a) x3+x-2=0(b) x4-x2+x-1=0(c) x2-x-1=0
2.应用牛顿方法迭代两步,初始估计x0=1.
(a) x3+x2-1=0(b) x2+1/(x+1)-3x=0(c) 5x-10=0
3.使用定理1.11或定理1.12,在利用牛顿方法收敛到给定根的过程中通过前一项的误差ei估计误差ei+1.收敛速度是线性的还是二次的?58
(a) x5-2x4+2x2-x=0;r=-1,r=0,r=1(b) 2x4-5x3+3x2+x-1=0;r=-1/2,r=1
4.参照习题3估计误差ei+1.
(a) 32x3-32x2-6x+9=0;r=-1/2,r=3/4(b) x3-x2-5x-3=0;r=-1,r=3
5.考虑方程8x4-12x3+6x2-x=0.对于两个解x=0和x=1/2,不进行计算,试确定二分法和牛顿方法哪一个会收敛更快(例如,精确到小数点后8位).
6.画出一个函数f以及对应的初始估计,使得对应的牛顿方法发散.
7.令f(x)=x4-7x3+18x2-20x+8.牛顿方法是否会二次收敛到根r=2?确定limi→∞ei+1/ei,其中ei表示第i步的迭代误差.
8.证明:对于函数f(x)=ax+b应用牛顿方法,会在一步中收敛.
9.证明对f(x)=x2-A应用牛顿方法,会得到习题1.6中的迭代结果.
10.找出对函数f(x)=x3-A应用牛顿方法得到的不动点迭代.参看习题1.2.10.
11.使用牛顿方法构造二次收敛方法,计算正数A的n阶根,其中n是正整数.证明二次收敛性.
12.假设牛顿方法应用于f(x)=1/x.如果初始估计是x0=1,找出x50.
13.(a)函数f(x)=x3-4x其中一个根r=2.如果使用牛顿方法第4步后的误差ei=xi-r是e4=10-6,估计e5.(b)使用与(a)相同的方程,应用到另一个根r=0.(注意:常用公式在这里没有用.)
14.令g(x)=x-f(x)/f′(x)表示函数f的牛顿方法迭代.定义h(x)=g(g(x))是牛顿方法相邻两步的结果,则根据微积分的链式法,h′(x)=g′(g(x))g′(x).(a)如习题1.15,假设c是h的不动点,但是c不是g的不动点.请证明,如果c是函数f(x)的拐点,即f″(x)=0,则不动点迭代h局部收敛于c.而且对于初始估计c,牛顿方法本身并不收敛到f的根,而会得到一个振荡的序列{c,g(c)}.(b)验证(a)中的稳定振荡在例1.15中也出现过.编程问题14将详细研究这个例子.
1.4节编程问题
1.每个方程有一个根.使用牛顿方法求近似根,精确到小数点后8位.
(a) x3=2x+2(b) ex+x=7(c) ex+sinx=4
2.每个方程有一个实数根.使用牛顿方法求近似根,精确到小数点后8位.
(a) x5+x=1(b) sinx=6x+5(c) lnx+x2=3
3.使用牛顿方法尽可能精确地找到唯一根,并确定根的多重性.然后使用改进牛顿方法二次收敛到根.报告每个方法中最优近似的前向和后向误差.
(a) f(x)=27x3+54x2+36x+8(b)f(x)=36x4-12x3+37x2-12x+159
4.对下面问题实施编程问题3中的步骤.
(a)f(x)=2ex-1-x2-1(b)f(x)=ln(3-x)+x-2
5.由一个高为10m的圆柱构成的发射井的顶部是一个半球,体积400m3.确定发射井底部的半径,精确到小数点后4位.
6.一个10cm高的圆锥盛有60cm3的冰淇淋,其顶部是一个半球.确定冰淇淋半球的半径,精确到小数点后4位.
7.在区间[-2,2]上考虑函数f(x)=esin3x+x6-2x4-x3-1.在这个区间上画出函数,找出所有的三个根,精确到小数点后6位.确定哪一个根是二次收敛,并找出线性收敛的根对应的多重性.
8.对下面问题进行编程问题7中的步骤,区间为[0,3],计算f(x)=94cos3x-24cosx+177sin2x-108sin4x-72cos3xsin2x-659.使用牛顿方法找出函数f(x)=14xex-2-12ex-2-7x3+20x2-26x+12在区间[0,3]上的根.对于每个根,打印对应的迭代序列,误差ei,和收敛到非0极限的相关误差率ei+1/e2i或者ei+1/ei.把该极限和由定理1.11中得到的期望M或者定理1.12中得到的S进行匹配.
10.设f(x)=54x6+45x5-102x4-69x3+35x2+16x-4.在区间[-2,2]上画出函数,使用牛顿方法找出该区间上所有的5个根.对于哪些根,牛顿方法线性收敛?对于哪些根,二次收敛?
11.对于低温和低压中的气体的理想气体定律是PV=nRT,其中P是压强(单位atm),V是体积(单位L),T是温度(单位K),n是气体的摩尔数,R=0.0820578是气体的摩尔常数.下面的van der Waals方程P+n2aV2(V-nb)=nRT涵盖了该假设不能成立的非理想情况.使用理想气体定律计算一个初始估计,然后使用牛顿方法求解van der Waals方程找出1摩尔氧气在320K温度,15atm压强下的体积.对于氧气a=1.36L2-atm/mole2,b=0.003183L/mole.写出你的初始估计和具有3个有效数字的解.
12.使用编程问题11中的数据找出1mole苯蒸气在700K温度,20atm压强下的体积.对于苯蒸气,a=18.0 L2-atm/mole2,b=0.1154L/mole.
13.(a) 找出函数f(x)=(1-3/(4x))1/3的根.(b) 使用牛顿方法,初始估计在根的附近,画出前50步的迭代.这是另外一种通过生成混乱的轨迹使得牛顿方法可能失败的情形.(c) 为什么定理1.11和定理1.12失效?
14.(a) 固定实数a,b>0,并使用选择的值画出函数f(x)=a2x4-6abx2-11b2的图.由于a=2,b=1/2对应情况在例1.15已经出现,所以不要使用a=2,b=1/2.(b) 使用牛顿方法找出f(x)的正根和负根.然后找出正的初始估计区间[d1,d2],其中d2>d1,对于哪一个牛顿方法:(c) 收敛到正根,(d) 收敛到负根,(e) 不收敛到任何根.你的区间中不能包含任何初始估计f′(x)=0,这是由于此时牛顿方法没有定义.60

时间: 2024-09-20 06:16:26

《数值分析(原书第2版)》—— 1.4 牛顿方法的相关文章

Java核心技术 卷Ⅰ 基础知识(原书第10版)

Java核心技术系列 Java核心技术 卷Ⅰ 基础知识 (原书第10版) Core Java Volume I-Fundamentals (10th Edition) [美] 凯S.霍斯特曼(Cay S. Horstmann) 著 周立新 陈 波 叶乃文 邝劲筠 杜永萍 译 图书在版编目(CIP)数据 Java核心技术 卷Ⅰ 基础知识(原书第10版) / (美)凯S. 霍斯特曼(Cay S. Horstmann)著:周立新等译. -北京:机械工业出版社,2016.8 (Java核心技术系列) 书

ROS机器人程序设计(原书第2版).

机器人设计与制作系列 ROS机器人程序设计 (原书第2版) Learning ROS for Robotics Programming,Second Edition 恩里克·费尔南德斯(Enrique Fernández) 路易斯·桑切斯·克雷斯波(Luis Sánchez Crespo) 阿尼尔·马哈塔尼(Anil Mahtani) 亚伦·马丁内斯(Aaron Martinez) 著 刘锦涛 张瑞雷 等译 图书在版编目(CIP)数据 ROS机器人程序设计(原书第2版) / (西)恩里克·费尔南

《Java核心技术 卷Ⅱ 高级特性(原书第10版)》一导读

前 言 致读者 本书是按照Java SE 8完全更新后的<Java核心技术 卷Ⅱ 高级特性(原书第10版)>.卷Ⅰ主要介绍了Java语言的一些关键特性:而本卷主要介绍编程人员进行专业软件开发时需要了解的高级主题.因此,与本书卷Ⅰ和之前的版本一样,我们仍将本书定位于用Java技术进行实际项目开发的编程人员. 编写任何一本书籍都难免会有一些错误或不准确的地方.我们非常乐意听到读者的意见.当然,我们更希望对本书问题的报告只听到一次.为此,我们创建了一个FAQ.bug修正以及应急方案的网站http:/

《JavaScript和jQuery实战手册(原书第3版)》---第1章 编写第一个JavaScript程序 1.1 编程简介

本节书摘来自华章出版社<JavaScript和jQuery实战手册(原书第3版)>一书中的第1章,第1.1节,作者David Sawyer McFarland,姚待艳 李占宣 译,更多章节内容可以访问"华章计算机"公众号查看. 第1章 编写第一个JavaScript程序 HTML自身并没有太多智能:它不能做数学运算,不能判断某人是否正确填写了一个表单,而且不能根据Web访问者的交互来做出判断.基本上,HTML让人们阅读文本.观看图片或视频,并且单击链接转向拥有更多文本.图片

《机器学习与R语言(原书第2版)》一2.3 探索和理解数据

本节书摘来自华章出版社<机器学习与R语言(原书第2版)>一书中的第2章,第2.3节,美] 布雷特·兰茨(Brett Lantz) 著,李洪成 许金炜 李舰 译更多章节内容可以访问"华章计算机"公众号查看. 2.3 探索和理解数据 在收集数据并把它们载入R数据结构以后,机器学习的下一个步骤是仔细检查数据.在这个步骤中,你将开始探索数据的特征和案例,并且找到数据的独特之处.你对数据的理解越深刻,你将会更好地让机器学习模型匹配你的学习问题. 理解数据探索的最好方法就是通过例子.在

《Unity着色器和屏幕特效开发秘笈(原书第2版)》一2.7 创建透明材质

本节书摘来自华章出版社<Unity着色器和屏幕特效开发秘笈(原书第2版)>一书中的第2章,第2.7节,作者 [英]艾伦朱科尼(Alan Zucconi) [美]肯尼斯拉默斯(Kenneth Lammers),更多章节内容可以访问"华章计算机"公众号查看 2.7 创建透明材质 到现在为止,我们见到的着色器都有一个共同点-都用在实心材质上.如果你想提升游戏视觉效果,某些时候透明材质是个不错的选择,比如火焰效果或者窗户玻璃等.透明材质的制作相对复杂一点.在渲染实心物体之前,Uni

《面向对象的思考过程(原书第4版)》一1.1 基本概念

本节书摘来自华章出版社<面向对象的思考过程(原书第4版)>一书中的第1章,第1.1节,[美] 马特·魏斯费尔德(Matt Weisfeld) 著 1.1 基本概念 本书主要目标是让你学会思考如何将面向对象概念应用于面向对象的系统设计中.历史上定义面向对象的语言拥有以下特点:封装(encapsulation).继承(inheritance)和多态(polymorphism).因此,如果设计一门语言时没有完全实现以上特性,那么通常我们认为该语言不是完全面向对象的.即使实现了这三点,我也往往会加入组

《用户至上:用户研究方法与实践(原书第2版)》一1.1 什么是用户体验

本节书摘来自华章出版社<用户至上:用户研究方法与实践(原书第2版)>一书中的第1章,第1.1节,作者 Understanding Your Users: A Practical Guide to User Research Methods, Second Edition凯茜·巴克斯特(Kathy Baxter)[美]凯瑟琳·卡里奇(Catherine Courage) 凯莉·凯恩(Kelly Caine)更多章节内容可以访问"华章计算机"公众号查看. 第1章 用户体验入门

《机器学习与R语言(原书第2版)》一1.6 总结

本节书摘来自华章出版社<机器学习与R语言(原书第2版)>一书中的第1章,第1.6节,美] 布雷特·兰茨(Brett Lantz) 著,李洪成 许金炜 李舰 译更多章节内容可以访问"华章计算机"公众号查看. 1.6 总结 机器学习起源于统计学.数据库科学和计算机科学的交叉.它是一个强大的工具,能够在大量的数据中找到可行动的洞察.然而,人们仍需持谨慎的态度,避免现实生活中机器学习的普遍滥用. 从概念上讲,机器学习涉及把数据抽象为结构化表示,并把这个结构化表示进行一般化从而推广到

《Unity着色器和屏幕特效开发秘笈(原书第2版)》一2.4 给着色器添加纹理

本节书摘来自华章出版社<Unity着色器和屏幕特效开发秘笈(原书第2版)>一书中的第2章,第2.4节,作者 [英]艾伦朱科尼(Alan Zucconi) [美]肯尼斯拉默斯(Kenneth Lammers),更多章节内容可以访问"华章计算机"公众号查看 2.4 给着色器添加纹理 在模拟现实效果方面,纹理可以让着色器迅速生动起来.为了高效使用纹理,我们需要理解二维图像是如何映射成三维模型的.这个映射过程称为纹理映射.为了进行纹理映射,我们需要在着色器和想要应用纹理的三维模型上