机器学习预测农民是否可以得到贷款

通过最佳实践帮助您实现上述案例效果

Step1:数据导入MaxCompute

1.1 创建需要上传的本地数据

贷款预测表:(今年申请贷款者)

字段名

含义

类型

描述

id

数据唯一标识符

string

name

用户名

string

region

用户所属地区

string

从北到南排列

farmsize

拥有土地大小

double

土地面积

rainfall

降雨量

double

降雨量

landquality

土地质量

double

土地质量数值越大越好

farmincome

收入

double

年收入

maincrop

种植作物

string

种植作物的种类

claimtype

贷款类型

string

两种

claimvalue

贷款金额

double

贷款金额

源数据:farm_claim_predict

贷款训练表:(历史贷款数据)

字段名

含义

类型

描述

id

数据唯一标识符

string

name

用户名

string

region

用户所属地区

string

从北到南排列

farmsize

拥有土地大小

double

土地面积

rainfall

降雨量

double

降雨量

landquality

土地质量

double

土地质量数值越大越好

farmincome

收入

double

年收入

maincrop

种植作物

string

种植作物的种类

claimtype

贷款类型

string

两种

claimvalue

贷款收回金额

double

贷款金额

源数据:farm_claim_train

1.2 创建MaxCompute表

1.2.1 开通MaxCompute

阿里云实名认证账号访问https://www.aliyun.com/product/odps ,开通MaxCompute,选择按量付费进行购买。

https://img.alicdn.com/tps/TB1TxkNOVXXXXaUaXXXXXXXXXXX-1124-472.png" width="836">

https://img.alicdn.com/tps/TB1qRw3OVXXXXX_XFXXXXXXXXXX-1243-351.png" width="836">

https://img.alicdn.com/tps/TB1gvgQOVXXXXXUXVXXXXXXXXXX-1208-337.png" width="836">

1.2.2 数加上创建MaxCompute project

操作步骤:

步骤1: 进入数加管理控制台,前面开通MaxCompute成功页面,点击管理控制台,或者导航产品->大数据(数加)->MaxCompute 点击“管理控制台”。

http://docs-aliyun.cn-hangzhou.oss.aliyun-inc.com/assets/pic/49126/cn_zh/1487754370705/a1.png" width="836">

步骤2: 创建项目。付费模式选择I/O后付费,输入项目名称:

步骤3: 创建MaxCompute表。进入大数据开发套件的数据开发页面:

以开发者身份进入阿里云数加平台>大数据开发套件>管理控制台,点击对应项目操作栏中的进入工作区

1.2.3 创建表

点击菜单数据管理,右上新建表

1.2.4 填写信息配置

在新建表页面中填写基础信息的各配置项,点击下一步

在新建表页面中填写字段和分区信息的各配置项

1.2.5 点击提交

新建表提交成功后,系统将自动跳转返回数据表管理界面,点击我管理的表即可看到新建表

1.3 导入本地文件

进入大数据开发套件控制台,点击对应项目的进入工作区,点击菜单数据开发-->导入-->导入本地数据

选择目标表,并选择字段匹配方式,点击导入

文件导入成功后,系统右上角将提示文件导入成功,同时可以执行select语句查看数据

Step2:机器学习中的数据准备

进入机器学习管理控制台,点击对应项目的进入机器学习

选择需要的租户及工作空间,点击“提交”

进入机器学习页面后,右击我的实验点击新建空白实验,输入实验名和实验描述

切换到组件栏,向画布中拖入读数据表,点击读数据表,在右侧表选择栏填入你的MaxCompute表

切换到字段信息栏,可以查看输入表的字段名、数据类型和前100行数据的数值分布

Step3:数据探索流程

实验流程图:

3.1 特征工程

将一些字符串类型的数据,根据他们的含义映射成数字。比如说region字段,我们将其中的north、middle、south按照从北到南的顺序分别映射成0、1、2。然后通过类型转换将字段转换成double类型,这样就可以进行下面的回归计算了。

3.1.1 SQL脚本

向画布中拖入工具-->SQL脚本,将贷款训练集和贷款预测集的数据分别输入到SQL脚本,点击SQL脚本,在右侧分别输入如下SQL语句

select id,(case region when '"north"' then 0 when '"midlands"' then 1 else 2 end) as region_num,farmsize,rainfall,landquality,farmincome,(case claimtype when '"decommission_land"' then 1 else 0 end) as claimtype_num,claimvalue from  ${t1};

右击SQL脚本点击执行后,查看结果

3.1.2 数据视图

向画布中拖入统计分析-->数据视图,将SQL脚本的结果输入到数据视图中,点击数据视图,在右侧选择字段

贷款训练集字段选择:

贷款预测集字段选择:

右击数据视图点击执行后,查看分析报告

贷款训练集分析报告:

贷款预测集分析报告:

3.2 回归及预测

线性回归组件对于历史数据训练并生成回归模型,在预测组件中利用回归模型对于预测集数据进行了预测。通过合并列组件将用户ID、预测值、申请的贷款值合并。预测值表示的是用户的还贷能力(预期可以归还的金额)。

3.2.1 线性回归

向画布中拖入机器学习-->回归-->线性回归,将贷款训练集转换后的数据输入到线性回归中,点击线性回归,在右侧选择字段和标签列

右击线性回归点击执行后,查看分析报告

3.2.2 预测

向画布中拖入机器学习-->预测,将线性回归的输出和贷款预测集的数据视图分别输入到预测中,点击预测,在右侧设置字段

右击预测点击执行后,查看数据

3.2.2 SQL脚本

向画布中拖入工具-->SQL脚本,将预测结果输入到SQL脚本中,点击SQL脚本,在右侧输入SQL语句

select * from ${t1};

右击SQL脚本点击执行后,查看结果

3.2.3 合并列

向画布中拖入数据预处理-->数据合并-->和并列,将SQL脚本输出和贷款预测集中数据视图转换后的数据分别输入到合并列的关联左表和右表,点击合并列,在右侧选择字段

右击合并列点击执行后,查看数据

3.3 回归模型评估

通过回归模型评估组件对于回归模型进行评估。

向画布中拖入机器学习-->评估-->回归模型评估,将预测的结果输入到回归模型评估中,点击回归模型评估,在右侧选择原回归值

右击回归模型评估点击执行后,查看分析报告

下图是对分析报告中字段的解释

3.4 过滤与映射

通过过滤与映射组件筛选出可以获得贷款的人,这里的业务逻辑是针对每个客户,如果他被预测得到的还款能力大于他申请贷款的金额,就对他发放贷款。

向画布中拖入数据预处理-->采样与过滤-->过滤与映射,将合并列的关联节点输出到过滤与映射中,点击过滤与映射,在右侧选择字段并填写过滤条件

prediction_score-claimvalue>=0;

右击过滤与映射点击执行后,查看数据

3.5 全表统计

向画布中拖入统计分析-->全表统计,将过滤与映射的结果输出到全表统计中,右击全表统计点击执行后,查看数据

时间: 2024-10-24 09:54:23

机器学习预测农民是否可以得到贷款的相关文章

在 Airbnb 使用机器学习预测房源的价格

本文讲的是在 Airbnb 使用机器学习预测房源的价格, 原文地址:Using Machine Learning to Predict Value of Homes On Airbnb 原文作者:Robert Chang 译文出自:掘金翻译计划 本文永久链接:github.com/xitu/gold-m- 译者:lsvih 校对者:TobiasLee, RichardLeeH, reid3290 位于希腊爱琴海伊莫洛维里的一个 Airbnb 民宿的美好风景 简介 数据产品一直是 Airbnb 服

《Python机器学习——预测分析核心算法》——导读

前言 Python机器学习--预测分析核心算法 从数据中提取有助于决策的信息正在改变着现代商业的组织,同时也对软件开发人员产生了直接的影响.一方面是对新的软件开发技能的需求,市场分析师预计到2018年对具有高级统计和机器学习技术的人才需求缺口将达140000-190000人.这对具有上述技能的人员来说意味着丰厚的薪水和可供选择的多种有趣的项目.另一方面对开发人员的影响就是逐步出现了统计和机器学习相关的核心工具,这减轻了开发人员的负担.当他们尝试新的算法时,不需要重复发明"轮子".在所有

《Python机器学习——预测分析核心算法》——第1章 关于预测的两类核心算法

第1章 关于预测的两类核心算法 Python机器学习--预测分析核心算法 本书集中于机器学习领域,只关注那些最有效和获得广泛使用的算法.不会提供关于机器学习技术领域的全面综述.这种全面性的综述往往会提供太多的算法,但是这些算法并没有在从业者中获得积极的应用. 本书涉及的机器学习问题通常是指"函数逼近(function approximation)"问题.函数逼近问题是有监督学习(supervised learning)问题的一个子集.线性回归和逻辑回归是解决此类函数逼近问题最常见的算法

《Python机器学习——预测分析核心算法》——第2章 通过理解数据来了解问题

第2章 通过理解数据来了解问题 Python机器学习--预测分析核心算法新数据集(问题)就像一个包装好的礼物,它充满了承诺和希望.一旦你能解决它,你就收获了喜悦.但是直到你打开它,它都一直保持着神秘.本章就是告诉你怎么"打开"新的数据集,看清楚里面都有什么,知道如何处置这些数据,并且开始思考如何利用这些数据构建相应的模型. 本章有两个目的:一是熟悉这些数据集,这些数据集被用来作为解决各种类型问题的例子,主要是利用第4章和第6章介绍的算法:另一个目的就是展示Python中分析数据的工具包

《Python机器学习——预测分析核心算法》——1.1 为什么这两类算法如此有用

1.1 为什么这两类算法如此有用 有几个因素造就了惩罚线性回归和集成方法成为有用的算法集.简单地说,面对实践中遇到的绝大多数预测分析(函数逼近)问题,这两类算法都具有最优或接近最优的性能.这些问题包含:大数据集.小数据集.宽数据集(wide data sets)[1].高瘦数据集(tall skinny data sets)[2].复杂问题.简单问题,等等.Rich Caruana及其同事的两篇论文为上述论断提供了证据. 1."An Empirical Comparison of Supervi

《Python机器学习——预测分析核心算法》——2.4 基于因素变量的实数值预测:鲍鱼的年龄

2.4 基于因素变量的实数值预测:鲍鱼的年龄 探测未爆炸的水雷数据集的工具同样可以用于回归问题.在给定物理测量值的情况下,预测鲍鱼的年龄就是此类问题的一个实例.鲍鱼的属性中包括因素属性,下面将说明属性中含有因素属性后与上例有什么不同. 鲍鱼数据集的问题是根据某些测量值预测鲍鱼年龄.当然可以对鲍鱼进行切片,然后数年轮获得鲍鱼年龄的精确值,就像通过数树的年轮得到树的年龄一样.但是问题是这种方法代价比较大,耗时(需要在显微镜下数年轮).因此更方便经济的方法是做些简单的测量,如鲍鱼的长度.宽度.重量等指

《Python机器学习——预测分析核心算法》——1.5 构建预测模型的流程

1.5 构建预测模型的流程 使用机器学习需要几项不同的技能.一项就是编程技能,本书不会把重点放在这.其他的技能用于获得合适的模型进行训练和部署.这些其他技能将是本书重点关注的.那么这些其他技能包括哪些内容? 最初,问题是用多少有些模糊的日常语言来描述的,如"给网站访问者展示他们很可能点击的链接".将其转换为一个实用的系统需要用具体的数学语言对问题进行重述,找到预测所需的数据集,然后训练预测模型,预测网站访问者对出现的链接点击的可能性.对问题用数学语言进行重叙,其中就包含了对可获得的数据

《Python机器学习——预测分析核心算法》——2.3 对“岩石vs.水雷”数据集属性的可视化展示

2.3 对"岩石vs.水雷"数据集属性的可视化展示 可视化可以提供对数据的直观感受,这个有时是很难通过表格的形式把握到的.此节将介绍很有用的可视化方法.分类问题和回归问题的可视化会有所不同.在有鲍鱼和红酒数据集的章节中看到回归问题的可视化方法. 2.3.1 利用平行坐标图进行可视化展示 对于具有多个属性问题的一种可视化方法叫作平行坐标图(parallel coordinates plot).图2-2为平行坐标图的基本样式.图右边的向量([1 3 2 4])代表数据集中某一行属性的值.这

《Python机器学习——预测分析核心算法》——1.4 算法的选择

1.4 算法的选择 这2类算法的概要比较如表1-4所示.惩罚线性回归的优势在于训练速度非常快.大规模数据集的训练时间可以是小时.天,甚至是几周.要获得一个可以部署的解决方案往往需要进行多次训练.过长的训练时间会影响大数据问题的解决进度及其部署.训练所需时间当然越短越好,因此惩罚线性回归因其训练所需时间短而获得广泛使用就是显而易见的了.依赖于问题,此类算法相比集成方法可能会有一些性能上的劣势.第3章将更深入地分析哪类问题适用于惩罚回归,哪类问题适用于集成方法.即使在某些情况下,惩罚线性回归的性能不