1.5 小结
在本章中,我们学习了将数据挖掘工具箱扩展到大师级别所需要做的工作。首先,我们从作为数据库知识发现(KDD)过程一部分的数据挖掘历史开始,对该领域进行了全面的介绍。还比较了数据挖掘其他类似的领域,如数据科学、机器学习和大数据等。
接下来,概述了KDD过程中大部分专家认为最重要的工具和技术,特别关注挖掘和分析步骤中最频繁使用的技术。为了真正精通数据挖掘,重要的是要关注和简单的教科书示例不同的问题。因此,我们将致力于更独特的数据挖掘技术,如生成摘要和寻找离群值,并关注更加不同寻常的数据类型,如文本和网络。
在本章的最后,我们组合了一个健全的数据挖掘系统。我们的工作空间以强大的全功能编程语言Python及其许多实用数据挖掘程序包(如NTLK、Gensim、Numpy、Networkx和Scikit-learn)为中心,辅之以易于使用的免费数据库MySQL。
现在,通过以上对软件包的讨论使我们想到:你是否对哪些程序包最经常一起使用感到疑惑?是较为常见的NTLK和Networkx组合,还是相对不常见的程序包搭配?在下一章中,我们将解决这一类问题。在第2章中,我们将学习如何生成经常发现的配对、三元组、四元组等的列表,然后根据找出的模式作出预测。
时间: 2024-09-13 16:29:10