1.2 创建数据表
另一种方法是通过直接写入数据来生成数据表。Excel中直接在单元格中输入数据,R中通过下面的代码来实现。数据表一共有7行数据,每行有5个字段。在数据中我们特意设置了一些NA值和有问题的字段,例如包含空格和重复值等。后面将在数据清洗步骤进行处理。后面我们将统一以DataFrame的简称df来命名数据表。
#手动创建数据表
df<-data.frame(id=c(1001,1002,1003,1004,1005,1006,1006),
city=c(" Beijing","SH"," guangzhou","shenzhen "," shanghai ","BEIJING","BEIJING"),
age=c(23,44,54,32,34,32,32),
category=c("100-A","100-B","110-A","110-C","210-A","130-F","130-F"),
price=c(1200,NA,2133,5433,NA,4432,4432))
这是刚刚创建的数据表,我们没有设置索引列,price字段中包含有NA值,city字段中还包含了一些脏数据。最后一行包含了重复值。
时间: 2024-10-24 07:57:42