2.6 变量分段
在将连续变量纳入模型之前,需要对其进行处理。以Cars93数据集中的油箱容量为例,基于油箱容量,我们可以创建一个分类变量,值为高、中和低、低中:
油箱容量的值域为9.2~27。根据逻辑,使用分类差4(也即每个分类之间相差4)完成分类。这些分类定义了变量中的每一个值被分配到每一组的方式。最后的输出表显示有4个组,最高的油箱容量组只有4辆车。
变量分段或离散化不仅有助于建立决策树,在做logistic回归和其他形式的机器学习模型时也会用到。
时间: 2024-09-18 05:22:25