《C++编程规范:101条规则、准则与最佳实践》——2.3编程中应知道何时和如何考虑可伸缩性

2.3编程中应知道何时和如何考虑可伸缩性

摘要
小心数据的爆炸性增长:不要进行不成熟的优化,但是要密切关注渐近复杂性。处理用户数据的算法应该能够预测所处理的数据量耗费的时间,最好不差于线性关系。如果能够证明优化必要而且非常重要,尤其在数据量逐渐增长的情况下,那么应该集中精力改善算法的O(N)复杂性,而不是进行小型的优化,比如节省一个多余的加法运算。

讨论
本条款阐述了第8条“不要进行不成熟的优化”和第9条“不要进行不成熟的劣化”之间的一个重要的平衡点。所以,这个条款非常难写,不小心就可能将其错误地解释成“不成熟的优化”了。请注意,我们绝不是这个意思。

这一问题的背景和缘起是这样的:内存和硬盘空间一直在以指数速度增长。例如,从1988年到2004年,硬盘空间每年增长112%(差不多每10年增长1900倍),然而即使是摩尔定律也不过是每年增长59%(每10年100倍)。这种现象所导致的一个显然的结果就是,无论今天你的代码如何,明天它都会被要求处理更多的数据——多得多的数据。一个算法如果具有恶性(差于线性)的渐近行为,那么再强大的系统也迟早会在其面前臣服:只需扔给它足够的数据就行了。

防范可能的未来,也就是说我们要避免设计中含有面对更大的文件、更大的数据库、更多像素、更多窗口、更多进程和更多线路上传输的数据时会出现的性能陷阱的现象。C++标准库能够成功防范未来的重大因素之一,就是它已经保证了STL容器操作和算法的性能复杂性。

如何取得平衡呢?使用不够清晰的算法,为永远都不会成为现实的大数据量做好准备,这样的不成熟的优化显然是错误的。但是,对算法复杂性——O(N)复杂性,即计算的代价是所处理数据的元素量的函数故意视而不见,这样的不成熟劣化显然也同样是错误的。

这一问题的建议可以分为两部分。首先,即使不知道数据量是否会大到成为某个特定计算的问题,默认情况下也应该避免使用不能很好地应付用户数据量(可能增加)的算法,除非这种伸缩性不好的算法有明显的清晰性和可读性方面的好处(见第6条)。在这方面,我们遇到的意外情况简直是太多了:编写10段代码,满以为它们永远不会处理巨量的数据集合,而且对于其中的9段代码而言,情况也确实如此,但是第10段代码就让我们遇到了性能陷阱——我们都碰到过这种情况,而且我们知道你们也都会碰到,也许已经碰到了。当然,我们可以进行修补,然后给客户发布补丁,但最好还是能避免这样的尴尬和返工。既然所有事物都是平等的(包括清晰性与可读性),那么应该预先做这些事情。

使用灵活的、动态分配的数据,不要使用固定大小的数组。那种“比我所需要的最大数组还要大”的数组,在正确性和安全性方面都存在严重问题(见第77条)。只有在编译时大小固定不变的数组才是可接受的。
了解算法的实际复杂性。要留心那些不易发觉的陷阱,比如看似线性的算法实际上要调用其他线性操作,结果算法实际上是二次的。(见第81条中的例子。)
优先使用线性算法或者尽可能快的算法。常数时间复杂性的算法,比如push_back和散列表查询,是最完美的(见第76条和第80条)。O(logN)对数复杂性的算法,比如set/map操作和带有随机迭代器的lower_bound和upper_bound,也不错(见第76条、第85条和第86条)。O(N)线性复杂性的算法,比如vector::insert和for_each,也可以接受(见第76条、第81条和第84条)。
尽可能避免劣于线性复杂性的算法。例如,如果面对的是一个O(NlogN)或者O(N2)算法,就必须花费精力寻找替代方案,这样代码才不至于在数据量显著增长的情况下陷入深度激增的性能深潭。例如,这是在第81条中建议使用范围成员函数(通常是线性的)而不是反复调用单元素替代函数的主要原因(后者会很容易在一个线性操作要调用另一个线性操作时变成二次复杂性的,见第81条中的例1)。
永远不要使用指数复杂性的算法,除非你已经山穷水尽,确实别无选择。在决定接受指数算法之前,必须尽力寻找替代方案,因为对于指数算法来说,即使是数据量的有限增加,也会使算法的性能急剧下降。
其次,如果有测试数据表明优化非常必要而且重要,尤其是在数据量不断增加的情况下,那么应该集中精力改善O(N)复杂性,而不是把精力花在节省一个多余加法这样的微观优化上。

总而言之,要尽可能优先使用线性(或者更好的)算法。尽可能合理地避免使用比线性算法差的多项式算法。竭尽全力避免使用指数算法。

参考文献
[Bentley00]§6,§8, Appendix 4 ● [Cormen01] ● [Kernighan99]§7 ● [Knuth97a] ● [Knuth97b] ● [Knuth98] ● [McConnell93]§5.1-4, §10.6 ● [Murray93]§9.11 ● [Sedgewick98] ● [Stroustrup00]§17.1.2

时间: 2024-11-03 16:09:45

《C++编程规范:101条规则、准则与最佳实践》——2.3编程中应知道何时和如何考虑可伸缩性的相关文章

《C++编程规范:101条规则、准则与最佳实践》——第2章设计风格设计风格 C++编程规范:101条规则、准则与最佳实践 复杂性啊,愚人对你视而不见,实干家受你所累。 有些人避而远之。惟智者能够善加消除。 ——Alan Perlis 我知道,但是却又忘记了Hoare的至理名言:不成熟的优化是程

第2章设计风格 C++编程规范:101条规则.准则与最佳实践 复杂性啊,愚人对你视而不见,实干家受你所累. 有些人避而远之.惟智者能够善加消除. --Alan Perlis 我知道,但是却又忘记了Hoare的至理名言:不成熟的优化是程序设计中的万恶之源. --Donald Knuth[1] The Errors of TeX[Knuth89] 完全区分设计风格与编码风格是非常困难的.我们将一般在实际编写代码时才用得到的条款留到下一部分介绍. 本部分集中讨论适用面比一个特定的类或者函数更广的原则和

《C++编程规范:101条规则、准则与最佳实践》——第一章组织和策略问题1.1不要拘泥于小节 (又名:了解哪些东西不应该标准化)

第一章组织和策略问题 C++编程规范:101条规则.准则与最佳实践如果人们按照程序员编程的方式修建房屋,那么一只啄木鸟就能毁灭整个文明. --Gerald Weinberg[1] 为了遵从C和C++的伟大传统,我们从0开始编号.首要的指导原则,也就是第0条,阐明了我们认为对编程规范而言最为基本的建议. 接下来,这个导论性部分的其他条款将主要讲述几个精心选择的基本问题,这些问题大多数与代码本身并没有直接关系,它们讨论的是编写坚实代码所必需的工具和技术. 本部分中我们选出的最有价值条款是第0条:"不

《C++编程规范:101条规则、准则与最佳实践》——导读

前言 C++编程规范:101条规则.准则与最佳实践尽早进入正轨:以同样的方式实施同样的过程.不断积累惯用法.将其标准化.如此,你与莎士比亚之间的唯一区别将只是掌握惯用法的多少,而非词汇的多少. --Alan Perlis[1]} 标准最大的优点在于,它提供了如此多样的选择. --出处尚无定论 我们之所以编写本书,作为各开发团队编程规范的基础,有下面两个主要原因. 编程规范应该反映业界最久经考验的经验.它应该包含凝聚了经验和对语言的深刻理解的公认的惯用法.具体而言,编程规范应该牢固地建立在大量丰富

机器学习规则:ML工程最佳实践----rules_of_ml section 1【翻译】

作者:黄永刚 机器学习规则:ML工程最佳实践 本文旨在指引具有机器学习基础知识的工程师等人,更好的从机器学习的实践中收益.介绍一些应用机器学习需要遵循的规则,类似于Google C++ 风格指南等流行的编程指南.如果你已经上过机器学习相关课程或者正在从事相关的工作,那你已经满足阅读本文所需的背景知识了. Before Machine Learning Rule: #1: 不要害怕开发没有应用机器学习技术的产品 Rule: #2: 设计评价指标并设立优先级 Rule: #3: 先使用复杂的启发式规

Delphi面向对象编程的20条规则之一

问题描述 前言 大多数Delphi程序员都像使用VisualBasic那样使用他们手头上开发工具,而丝毫没有意识到Delphi的强大功能,更谈不上使用这些功能了.(写到这里,编辑惶恐的举起了手,怎么可能呢?)Delphi和VisualBasic不同,Delphi完全建立在面向对象结构上,这不仅影响到VCL的结构,而且影响到使用Delphi开发的每一个程序. 在本文中,我不想涉及到面向对象编程(OOP)的所有理论,只是提出一些简单的经验规则.希望这些规则能够帮助改善你的程序结构.无论你开发的是何种

《PostgreSQL服务器编程》一一1.8 程序设计最佳实践

1.8 程序设计最佳实践 开发应用程序软件是复杂的.一些有助于管理复杂性的方法非常流行,以至于它们被赋予容易记忆的首字母缩略词.接下来,我们就会介绍一些这样的规则,并介绍如何在服务器程序设计时更好地遵守这些规则.1.8.1 KISS--尽量简单(keep it simple stupid)成功的程序设计的一个重要技术就是编写简单的代码.也就是,你编写的代码3年以后仍然可以很容易理解,并且其他人也可以理解.这种方式并不一定总是行得通,但是尽可能用最简单的方法编写代码总是有意义的.由于各种原因,比如

【译】11条Java异常处理的最佳实践

本文翻译自Top 11 Java Exception Best Practices 在之前关于Java异常的文章中,已经探讨过suppressed exceptions和Java Exceptions Tutorial两个方面的内容.要想在实际项目中正确处理Java异常,你应该熟练掌握一些Java异常处理的最佳实践. Java 异常处理的最佳实践 不要 在catch语句块中压制异常 public class ExceptionExample { public FileInputStream te

《C++编程规范:101条规则、准则与最佳实践》——2.8懂得何时和如何进行并发性编程

2.8懂得何时和如何进行并发性编程 摘要 安线全程地[4]:如果应用程序使用了多个线程或者进程,应该知道如何尽量减少共享对象(见第10条),以及如何安全地共享必须共享的对象. 讨论 线程处理是一个大课题.之所以撰写本条,是因为这个课题很重要,需要明确地予以阐述,但是单凭一个条款显然无法做出公允的评价,所以我们只简单地概述几个要点.更多的细节和具体技术,参阅本条的参考文献.其中最重要的问题是避免死锁.活锁(livelock)[5]和恶性的竞争条件(包括加锁不足导致的崩溃). C++标准关于线程未置

《C++编程规范:101条规则、准则与最佳实践》——2.5 不要进行不成熟的劣化

2.5 不要进行不成熟的劣化 摘要放松自己,轻松编程:在所有其他事情特别是代码复杂性和可读性都相同的情况下,一些高效的设计模式和编程惯用法会从你的指尖自然流出,而且不会比悲观的替代方案更难写.这并不是不成熟的优化,而是避免不必要的劣化(pessimization). 讨论避免不成熟的优化并不意味着必然损害性能.所谓不成熟的劣化,指的就是编写如下这些没有必要的.可能比较低效的程序. 在可以通过引用传递的时候,却定义了通过值传递的参数(见第25条).在使用前缀++操作符很合适的场合,却使用后缀版本(