3.4 模型估计
在上一节完成了特征集选择,接下来需要评估模型参数。我们可以使用MLlib或者R语言进行评估,并准备分布式的计算。
为了简化操作,我们使用Databricks的作业特性。具体来讲,在Databricks环境中,前往“Job”菜单,创建作业,如下图所示:
接着,用户可以选择notebook来运行,指定集群并且调度作业。一旦作业被调度,用户可以监视作业的执行,并收集结果。
在3.2节,我们为选择的3个模型准备了一些代码。现在,需要修改这些代码和上一节讨论的最终特征集,以创建最终的notebook。
换句话说,我们有1个因变量和通过PCA和特征选择得到的17个特征。因此,我们需要将这些变量插入到我们第2节开发的代码中,以建立我们的notebook。然后,我们将使用Spark作业特征以分布式的方式执行这些notebook。
3.4.1 MLlib实现
首先,我们为使用线性回归的因变量s1和使用逻辑回归的因变量s2,以及决策树准备数据。然后,将17个选择的特征加入进去形成可以使用的数据集。
对于线性回归,我们使用如下代码:
对于逻辑回归,我们使用如下代码:
对于决策树,我们使用如下代码:
3.4.2 R notebook实现
为了便于对比,将线性回归和SEM方法写在同一个R notebook中,将逻辑回归和决策树写在同一个R notebook中。
然后,主要的工作是为每个工作节点调度估算进程,使用Databricks环境中的JOB特征来收集计算结果。
对于线性回归和SEM方法,执行下面的代码:
对于逻辑回归和决策树方法,执行下面的代码:
我们为每个产品执行了模型的估计。为了简化讨论,我们聚焦在一个产品上完成模型评估和部署方面的讨论。
时间: 2024-10-08 11:07:28