1.4 本书的内容
基于大数据的定义、大数据算法的定义以及大数据算法的特点,本书按照如下方式组织:
第一部分是亚线性算法,包括时间亚线性算法(第2章)和空间亚线性算法(第3章),其中包括如何利用近似算法和随机化算法设计思想来设计和分析亚线性算法。
第二部分是外存算法,将讨论如何面向外存来设计I/O有效的算法,包括外存算法概述(第4章)、外存查找结构(第5章)和外存图数据算法(第6章)。
第三部分是并行算法,由于并行算法的内容非常广泛,本书仅介绍数据密集型并行算法,包括MapReduce算法概述(第7章)、MapReduce算法例析(第8章)和超越MapReduce的并行大数据处理(第9章)。
最后,第10章介绍众包算法,讨论如何利用众包解决问题,使用众包时有哪些算法设计问题。
由于本书篇幅有限,覆盖的内容偏广,每一部分算法的例子有限,如果读者想进一步了解更多的例子,请阅读相应的文献。
习题
1.1 谈谈对“大数据”这个词的理解,以及对业界竞争关系的分析和未来发展方向的判断。
1.2 请举出需要亚线性算法的实例,并说明何种问题需要何种资源的亚线性。
1.3 请针对你所了解的推荐系统,讨论推荐系统中需要哪些大数据算法。
1.4 请说出你所接触过的最大数据量,以及在这种大数据量的数据上进行了何种计算,运用了何种大数据算法。
时间: 2024-10-25 10:26:38