第1章
导入分析数据
1.1 引言
如果没有大量数据是无法进行数据分析的,因此任何项目的第一步都是评估有什么样的数据和需要什么样的数据。一旦知道需要什么样的数据,就要想办法得到它。
本章和本书中的许多方法使用Incanter(http://incanter.org/)导入数据并规定使用Incanter数据集。Incanter是Clojure中完成统计分析和图形化显示的库,其作用类似于R。Incanter可能并不适用于所有任务(后面将使用Weka库进行聚类和机器学习),但它仍是在Clojure中进行数据分析的重要工具。本章介绍如何收集数据和使数据适用于Clojure。首先来看一下如何创建一个新的项目。我们将从以逗号分隔值(Comma-Separated Value,CSV)的简单数据格式开始,然后学习使用JDBC从关系数据库中读取数据。最后考虑更复杂的数据源,例如从网络上抓取的数据和链接数据(RDF)。
时间: 2024-08-29 18:53:24