前 言
Storm技术内幕与大数据实践
本书意在介绍实时大数据的各个方面,分享我们在设计实时应用过程中遇到的一些问题,让一些从零开始构建实时计算平台的公司少走弯路。我们力图使不同背景的读者都能从其中获益。
如果你从事基础架构方面的工作,可以着重阅读以下几章:在第1章中,我们整理了国内主要互联网公司在Storm应用方面的一些情况;在第2章中,我们介绍了实时平台的总体架构,随后引入了大众点评和1号店目前实时平台的一些基本情况;在第4章中,我们给出了源码剖析,为了让不懂Clojure语言的读者也能容易地理解Storm的内部原理,我们配了很多顺序图来描述调用逻辑;在第5章中,我们分享了一些在实践中总结出来的监控Storm应用的常用方法;在第6章中,我们介绍了在Storm上如何做一些扩展,方便更好地维护和管理集群;在第10章中,我们主要分享了Storm的一些小技巧和性能优化的经验。
如果你是大数据产品的开发和架构人员,可以着重阅读后面的几章,其中分享了我们一年来遇到的一些瓶颈。
如果你是算法工程师,可以着重了解第8章和第9章,里面的用户生命周期模型、实时推荐系统的算法和架构、千人千面架构等不少内容来自于我们的生产实践。设计严谨的模型在实时系统上往往会遇到比较大的性能问题,数据量、实时和算法的精准性是相互制约的,提高某一方面,往往不得不牺牲另外两个指标。在实际推荐系统的生产环境中,关联规则和协同过滤的推荐效果往往比较好,被广泛采用,而利用用户画像,结合地域、天气等上下文信息,可以进行一些更加精准的推荐。目前基于用户画像和上下文内容做个性化推荐和搜索、精准化运营和广告营销等提高交易额等转换率,也是很多公司尝试的方向。
对于网上有的或者其他书中介绍过的内容,为适应不同读者的需求,我们会简单提及以做一点点过渡。
尽管我们投入了大量的精力来写这本书,但因为水平所限,书中的内容存在不足和疏漏也在所难免,恳请读者批评指正。如果读者对本书有什么建议,欢迎发送邮件至邮箱xiaochen_0260@qq.com,期待得到真挚的反馈。
目 录
第1章 绪论
1.1 Storm的基本组件
1.2 其他流式处理框架
第2章 实时平台介绍
第3章 Storm集群部署和配置
第4章 Storm内部剖析
第5章 Storm运维和监控
第6章 Storm的扩展
第7章 Storm开发
第8章 基于Storm的实时数据平台
第9章 大数据应用案例
9.1 实时DAU计算
9.2 实时推荐系统
9.3 广告投放的精准化
9.4 实时意图和搜索
第10章 Storm使用经验和性能优化