书单推荐 | 数据挖掘和统计科学自学十大必备读物

本文讲的是书单推荐 | 数据挖掘和统计科学自学十大必备读物

还有什么比免费的机器学习和数据科学读物更适合用来享受秋天的呢?

下面的免费书单中从统计学基础知识,到机器学习的基本概念,再到更重点的大框架内容,对于高深的话题也有所涉猎,最后以一本总结性的书结尾。既有经典名著,也有当代的作品,希望你能在其中找到一些有趣的新内容。

1.用统计学的方式思考

Think Stats: Probability and Statistics for Programmers
作者:Allen B. Downey

《用统计学的方式思考》是为python的程序员设计的一本概率论和数理统计知识的入门书籍。

本书主要介绍了剖析真实数据集和解决有趣问题的简单方法。这本书的案例使用的是美国国家卫生研究院的数据,并鼓励读者使用真实的数据集做项目。

地址:
http://www.greenteapress.com/thinkstats/

2.概率编程与贝叶斯方法
Probabilistic Programming & Bayesian Methods for Hackers
作者:Cam Davidson-Pilon

一本介绍贝叶斯方法和概率编程的入门教程,主要是从对编程的理解出发,数学知识其次。

贝叶斯方法是概率推理中一种很实用的方法,在这本书当中,贝叶斯方法一直隐藏在一章章慢慢的数学分析的背后。贝叶斯推理的典型内容包含两到三章概率论知识,然后再介绍贝叶斯推理。可惜的是,由于大多数贝叶斯模型的数学难度太高,这本书中只为读者介绍了简单和虚构的例子。这会让读者小看贝叶斯推理。而事实上,这是因为作者自己的偏好导致的。

来源:
http://camdavidsonpilon.github.io/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers/

3.理解机器学习
Understanding Machine Learning: From Theory to Algorithms
作者:Shai Shalev-Shwartz and Shai Ben-David

机器学习是计算机科学中发展最快的领域之一,有着深远的实际应用。这本书有条理的介绍了机器学习,以及相关的典型算法。这本书既介绍了机器学习的一些基本概念,也介绍了将这些概念转化为实际算法的数学推导。在介绍了基本概念之后,这本书也覆盖了一些之前的教科书中所没有涉及过的重要主题,包括模型算法的复杂度和凸性,稳定性的概念;重要的算法范例包括随机梯度下降法,神经网络模型,和机构化预测法;还有新兴的理论概念比如PAC-贝叶斯法和compression-based bounds(压缩界限法)。

来源:
http://www.cs.huji.ac.il/~shais/UnderstandingMachineLearning/

4.统计学习精要
The Elements of Statistical Learning
作者:Trevor Hastie,Robert Tibshirani,etc

这本书用常用的概念框架解释了统计领域中的重要概念。虽然是用的统计学方法,但是重点在概念的解读而不是数学运算。书中给出了很多例子,也用了很多彩图。对数据挖掘感兴趣的人和统计学家来说都会是很有价值的资源。这本书涵盖的知识很广,从监督学习到非监督学习都有涉猎。众多的话题中包括神经网络模型,支持向量机,以及最全面关于分类树及推算话题的介绍。

来源:
http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf

5.统计学习及其在R中的应用
An Introduction to Statistical Learning with Applications in R
作者:GarethJames,DanielaWitten,etc

这本书介绍了一些统计学习的方法,是为非数学专业高水平的本科生,研究生和博士生设计的。这本书也包含了一些R语言的练习题和如何在现实中应用统计模型的详细说明,对于新入行的数学科学家来说是非常有价值的资源。

来源:
http://www-bcf.usc.edu/~gareth/ISL/

6.数据科学基础
Foundations of Data Science
作者:Avrim Blum, John Hopcroft,etc

虽然计算机科学的传统领域依然很重要,未来,更多的研究者会集中于用电脑从应用的大量数据中提取有用信息,而不是只是解决一些确定的问题。考虑到这一点,我们在这本书中涵盖了未来40年可能会有用的理论,就像自动控制原理,算法和相关主题在过去的40年给予学生的巨大帮助一样。

来源:
https://www.cs.cornell.edu/jeh/book.pdf

7.给程序员的数据挖掘指南:
数字迷宫的艺术
A Programmer's Guide to Data Mining: The Ancient Art of the Numerati
作者:Ron Zacharski

这本书奉行的是边干边学的方法论。我希望你能用我提供过的Python代码实践书中的练习和实验,而不仅仅是被动的阅读。我希望你会积极主动的尝试不同的数据挖掘方法。这本书由一系列互相贯通的小分支组成,当你读完这本书的时候,你就为理解数据挖掘技术奠定了夯实的基础。

来源:
http://guidetodatamining.com

8.大数据·互联网大规模
数据完觉与分布式处理
Mining of Massive Datasets
作者:Jure Leskovec, etc
这本书是基于斯坦福大学的计算机科学课程 cs246(海量数据挖掘)和 CS345A (数据挖掘)而撰写的。

这本书,正如这门课程一样,是为计算机科学的本科生设计的,并没有任何先修课程的要求。为了鼓励读者进行更深的探索,绝大部分的章节后面都补充了参考文献以供深层次的阅读。

来源:http://mmds.org

9.深度学习
Deep Learning
作者:Ian Goodfellow, Yoshua Bengio and Aaron Courville
《深度学习》这本书是为了帮助学生和相关从业人员进入一般而言的机器学习领域,尤其是深度学习而设计的。这本书的在线版本现已完结,并会长期免费开发。

来源:
http://www.deeplearningbook.org

10.对机器学习的渴望
Machine Learning Yearning
作者:Andrew Ng
人工智能,机器学习和深度学习正在改变着数不胜数的行业。但是建立一个机器学习系统需要你在实际中做出下面的决定:

应该要收集更多的训练数据吗?
应该使用端对端的深度学习吗?
如何处理与测试集不对应的训练集?
……

在以前,做出上述战略性决定的唯一方法是花几年时间去读研究生或者去公司里学习。我写这本书的目的是帮助你快速掌握做上述决定的能力,使你可以在人工智能系统方面做得更好。

时间: 2024-08-30 07:36:09

书单推荐 | 数据挖掘和统计科学自学十大必备读物的相关文章

AI、大数据、和数据科学的十大类算法

AI正在改变我们的职业.我们的工作方式和我们的企业文化.AI让我们得以专注于那些真正关键的技术,让人力资源得以充分发挥他们的长处.但在工作场景中应用AI确实会让事情变得复杂,因为有各种不同层级的算法可以用于实现AI,每一类的使用和影响都有差别.为了更好地平衡人力资本和AI资本,本文作者介绍了用于实现AI.大数据.和数据科学的十大类算法,以及它们分别擅长的任务. 算法正在取代我们的工作吗?是...是的...但算法是个好东西. 算法是一系列包含能够帮助人解决问题.完成目标任务的规则的步骤.用正确的方

【榜单】你需要了解的国内外十大生鲜电商top10

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;  [编者按]关于生鲜电商话题引起国内外媒体广泛关注,讨论十分火热.据国内外媒体报道,在经历了连续数年的悄然发展之后,亚马逊正筹划大力扩展生鲜电商服务AmazonFresh,将在其他20座城市推出AmazonFresh服务,其中将包括部分海外国家的城市.笔者认为这是电商中的蓝海,生鲜电商这个行业将彻底引爆,本次整理了国内外十家独具特色的生鲜电商,以供参考. 一.国内五

2017 OWASP十大安全趋势榜单变化解析

OWASP十大安全趋势榜单会根据当权安全形式不时对内容进行调整,旨在更好地反映现实情况的具体变化. 而作为内容调整的核心议题,可以看到越来越多从业者意识到应用程序安全性必须立足于软件开发流程. 应用程序与API的安全威胁格局正在不断变化,促成这种演变的关键性因素则包括新型技术的快速普及(包括云计算.容器与API).软件开发流程(如敏捷开发与DevOps)的加速与自动化.第三方库及框架的爆炸式增长外加攻击者自身的技术水平提升.这些因素的出现往往会增加分析应用程序与API的难度,同时亦给安全格局造成

福利|热门技术看什么?这份书单告诉你!(内含PDF链接)

这份书单源自网络.虽然所列图书都是免费提供的,但如果您有深入学习的打算,我还是推荐您购买纸质版书籍.作者花费大量时间整合这些资源,希望得到您的支持与喜爱! 数据科学概论 An Introduction to Data Science Jeffrey Stanton, 2013 School of Data Handbook School of Data, 2015 Data Jujitsu: The Art of Turning Data into Product DJ Patil, 2012

IT人的前沿技术书单:学不到老,就活不到老

从农耕时代到工业时代到信息时代,技术力量不断地推动人类创造新的世界.而今天,互联网.云计算.大数据以及人工智能等新技术,正以改变一切的力量,在全球范围掀起一场影响人类所有层面的深刻变革,人类正站在一个新的时代到来的前沿.在这个变革的时代,各种颠覆性技术不断涌现出来,互联网赋予每一个人无限的可能,让个人力量增强.个人价值释放.互联网让普通的个人越过几百年塑造的专业屏障.权威评价和路径依赖,获得平等而充分的展现机会,个人和个人力量的汇聚释放出以往不曾有过的创造力与自我价值. 而云计算与大数据技术的飞

php-PHP学习书籍(期望推荐一下比较好的自学书籍)

问题描述 PHP学习书籍(期望推荐一下比较好的自学书籍) 本人之前学过一些.net 的基础只是,现在想学一学php,但是不知道什么书好一些,想请教一下,也请给点意见,希望大家推荐一下关于学习php的书籍 解决方案 我刚开始自学的时候,是直接下载完w3school文档. 不过建议去网上搜索一下笔记.等熟悉之后,就找一些习题去做.我主要学得框架是thinkPHP和ci也结合smarty一起用.至于为了开发方便,你也可以了解二次开发,像ecshopdedecms,wordpress这些都很好用.能帮助

交互设计师可看的书单

  简单说下读原版和中文版的区别: 1,原版原汁原味,价值最高.翻译必然导致信息和意义流失. 2,设计师无论如何还是得练习下英文,不妨选择一个短一些的书籍看原版. 3,看中文版速度会快一些,也达意. 4,看中文版还有一个好处,就是在国内工作和同事沟通方便. 以下的书我读的是原版,买了几本中文版在家还没看完.所以推荐的中文版购买链接,我不太了解翻译质量,不过在我看过的几个翻译版本中,内容翻译的都不错,所以应该是可以的,设计书毕竟不是哲学书.:) 另外也有朋友希望我把书单分类,让不同层次的设计师看对

程序员必读书单(转)

  原文链接:http://lucida.me/blog/developer-reading-list/ 关于 本文把程序员所需掌握的关键知识总结为三大类19个关键概念,然后给出了掌握每个关键概念所需的入门书籍,必读书籍,以及延伸阅读.旨在成为最好最全面的程序员必读书单. 前言 Reading makes a full man; conference a ready man; and writing an exact man. Francis Bacon 优秀的程序员应该具备两方面能力: 良好的

北大和人大两年整理出来的阅读书单(收藏)

货币金融学-------------------米什金第七版(人大)金融学----------------------(PDF)-兹维•博迪.罗伯特•默顿(机械工业出版社)(主要讲的是财务管理方面的内容,很实用,推荐!)人大黄达经济学----------------------萨缪尔森.曼昆.斯蒂格雷茨(人大).平犹克投资学---------------------兹维•博迪.威廉•夏普(人民大学出版社,是上下两册)(清华大学出版社)(不过个人认为博迪的投资学理论性更强一些,而夏普的更加注重实践