【玩转数据系列一】人口普查统计案例

产品地址：https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2

一、背景

感谢大家关注玩转数据系列文章，我们希望通过在阿里云机器学习平台上提供demo数据并搭建相关的实验流程的方式来帮助大家学习如何通过算法来挖掘数据中的价值。本系列文章包含详细的实验流程以及相关的文档教程，欢迎大家进入阿里云数加机器学习平台体验。实验案例请在新建实验页签查看，如下图。

二、数据集介绍

数据源： UCI开源数据集Adult
针对美国某区域的一次人口普查结果，共32561条数据。具体字段如下表：

字段名	含义	类型
age	年龄	double
workclass	工作类型	string
fnlwgt	序号	string
education	教育程度	string
education_num	受教育时间	double
maritial_status	婚姻状况	string
occupation	职业	string
relationship	关系	string
race	种族	string
sex	性别	string
capital_gain	资本收益	string
capital_loss	资本损失	string
hours_per_week	每周工作小时数	double
native_country	原籍	string
income	收入	string

三、数据探索流程

选中人口统计demo，从模型生成实验，如下图：

使用方式：

-用户通过从左边列表拖拽组件到试验区域搭建实验流程

-在配置区域对每个组件的参数进行设置

1.数据导入

机器学习平台的底层计算式阿里云分布式计算系统MaxCompute（原名ODPS），所以实验数据需要先导入到ODPS表里，用户可以通过读ODPS表（图中的数据源-人口统计）组件导入数据。上传成功后，右键组件可以查看数据，如下图：

2.理解数据

数据导入后就可以对数据进行分析了，整个实现从纵向看分为三个部分。

其中全表统计和数值分布统计是帮助用户更好的理解一份数据，理解一份数据是符合泊松分布或是高斯分布,连续或是离散的对之后的算法的选择会有一定帮助（具体的对照关系在之后的文章会详细介绍）。阿里云机器学习的每个套件都提供了可视化显示结果的功能，下图是数值统计的直方图组件结果，可以清楚地看到每个输入数值的分布情况。

3.统计不同学历的人员的收入情况

每个人都想增加收入，都想知道哪些因素对收入的影响最大。这些问题都可以通过提取特征，利用机器学习算法训练来得到。本文主要目的是简单介绍一下机器学习平台的使用方法，这里简单的针对不同学历的人员的收入做一下统计。

(1)数据的预处理

我们看到在收入统计的这条线上，数据流入的第一个组件是SQL脚本（如下图），机器学习平台提供SQL脚本对于数据进行处理。这里是将string型的income字段转换成二值型的0和1的形式。0表示年收入在50K以下，1表示年收入在50K以上。这种将文本数据数值化是机器学习特征处理的常用方式，以后会经常用到这种方式。

(2)过滤与映射

这一步主要是通过过滤与映射组件将数据按照学历分为三部分，分别是博士、硕士和学士。过滤与映射底层是SQL语法，支持where过滤条件，用户通过在右边的配置栏填写过滤条件即可。

(3)统计结果

通过每个百分位组件就可以方便的得到每个分类下的收入比例。下图是调成折线图的展示效果,结果中为0的点也就是年收入在50K以下的人群占比例百分之25左右。

结合三个百分位组件就可以得到如下图结果。

学历	年收入>50K比例
博士	75%
硕士	57%
学士	42%

四、其它

作者微信公众号(与作者讨论)：

免费体验：阿里云数加机器学习平台

下期预告：利用机器学习算法预测患者是否患有心脏病

时间： 2024-07-29 04:37:52

【玩转数据系列一】人口普查统计案例的相关文章

【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类

伴随着今日阿里云机器学习PAI在云栖大会的重磅发布,快来感受下人工智能的魅力. 一.背景随着互联网的发展,产生了大量的图片以及语音数据,如何对这部分非结构化数据行之有效的利用起来,一直是困扰数据挖掘工程师的一到难题.首先,解决非结构化数据常常要使用深度学习算法,上手门槛高.其次,对于这部分数据的处理,往往需要依赖GPU计算引擎,计算资源代价大.本文将介绍一种利用深度学习实现的图片识别案例,这种功能可以服用到图片的检黄.人脸识别.物体检测等各个领域. 下面尝试通过阿里云机器学习平台产品,利用深度

【玩转数据系列十二】PAI平台深度学习Caffe框架实现图像分类的模型训练

PAI平台深度学习Caffe框架实现图像分类的模型训练背景我们在之前的文章中介绍过如何通过PAI内置的TensorFlow框架实验基于Cifar10的图像分类,文章链接:https://yq.aliyun.com/articles/72841.使用Tensorflow做深度学习做深度学习的网络搭建和训练需要通过PYTHON代码才能使用,对于不太会写代码的同学还是有一定的使用门槛的.本文将介绍另一个深度学习框架Caffe,通过Caffe只需要填写一些配置文件就可以实现图像分类的模型训练.关于P

【玩转数据系列十三】机器学习算法基于信用卡消费记录做信用评分

机器学习算法基于信用卡消费记录做信用评分背景如果你是做互联网金融的,那么一定听说过评分卡.评分卡是信用风险评估领域常用的建模方法,评分卡并不简单对应于某一种机器学习算法,而是一种通用的建模框架,将原始数据通过分箱后进行特征工程变换,继而应用于线性模型进行建模的一种方法. 评分卡建模理论常被用于各种信用评估领域,比如信用卡风险评估.贷款发放等业务.另外,在其它领域评分卡常被用来作为分数评估,比如常见的客服质量打分.芝麻信用分打分等等.在本文中,我们将通过一个案例为大家讲解如何通过PAI平台的金

【玩转数据系列十四】如何通过PAI实现云端实时心脏状况监测

背景我们通过之前的案例已经为大家介绍了如何通过常规的体检数据预测心脏病的发生,请见https://yq.aliyun.com/articles/54260.通过前文的案例我们可以生成一个算法模型,通过向这个模型输入用户实时的体检数据就会返回用户患有心胀病的概率.那么我们该如何搭建这套实时监测用户健康情况的服务呢?PAI最新推出的在线预测服务帮您实现.目前,机器学习PAI已经支持实验模型一键部署到云端生成API,通过向这个API推送用户的实时体检数据,就可以实时拿到反馈结果,做到心脏状况的云端的

【玩转数据系列六】文本分析算法实现新闻自动分类

(本文数据为虚构,仅供实验.本实验拟在介绍文本类组件,具体有意实现效果的提升请联系我们,我们提供完整解决方案和商业合作.) 产品地址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2 一.背景新闻分类是文本挖掘领域较为常见的场景.目前很多媒体或是内容生产商对于新闻这种文本的分类常常采用人肉打标的方式,消耗了大量的人力资源.本文尝试通过智能的文本挖掘算法对于新闻文本进行分类.无需任何人肉打标,完全由机器

【玩转数据系列二】机器学习应用没那么难，这次教你玩心脏病预测

产品地址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2 一.背景心脏病是人类健康的头号杀手.全世界1/3的人口死亡是因心脏病引起的,而我国,每年有几十万人死于心脏病. 所以,如果可以通过提取人体相关的体侧指标,通过数据挖掘的方式来分析不同特征对于心脏病的影响,对于预测和预防心脏病将起到至关重要的作用.本文将会通过真实的数据,通过阿里云机器学习平台搭建心脏病预测案例. 二.数据集介绍数据源: UC

【玩转数据系列四】听说啤酒和尿布很配？本期教你用协同过滤做推荐

(本文数据为虚构,仅供实验) 产品地址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2 一.背景数据挖掘的一个经典案例就是尿布与啤酒的例子.尿布与啤酒看似毫不相关的两种产品,但是当超市将两种产品放到相邻货架销售的时候,会大大提高两者销量.很多时候看似不相关的两种产品,却会存在这某种神秘的隐含关系,获取这种关系将会对提高销售额起到推动作用,然而有时这种关联是很难通过理性的分析得到的.这时候我们需要借助

【玩转数据系列八】机器学习算法的离线调度实现-广告CTR预测

机器学习实验部署和调度产品地址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2 (因为模板功能限制,本实验需要用户自行上传分区表数据.) (本文数据为虚构,仅供实验.本实验拟在介绍阿里云机器学习与大数据开发调度的配合.) 一.背景本文实现的场景是广告的CTR预测.广告CTR预测是广告行业的典型应用,通过历史数据训练预测模型,对于每天的增量数据进行预测,找出广告的CTR符合标准的样本进行投放.整套实

【玩转数据系列七】有娃的注意了，机器学习教您如何提高孩子学习成绩

(本文数据为实验用例) 产品地址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2 一.背景母亲是老师反而会对孩子的学习成绩造成不利影响?能上网的家庭,孩子通常能取得较好的成绩?影响孩子成绩的最大因素居然是母亲的学历?本文通过机器挖掘算法和中学真实的学生数据为您揭秘影响中学生学业的关键因素有哪些. 本文的数据采集于某中学在校生的家庭背景数据以及在校行为数据.通过逻辑回归算法生成离线模型和学业指标评估报

猜你喜欢

IE浏览器中打印网页时网页版面太大或太宽打印不全

方法一:修改打印格式的边界设定这个方法比较常用,但一些超宽的网页可能无效. 1.打开IE 浏览器,在打开需要打印的网页.然后点击菜单栏的「文件」 ,在选择「页面设置」项,如下图所示: 注意:如 ...

在Photoshop中创建岩浆热文字效果

效果一览第1步首先打开"背景纹理"用Photoshop,然后使用文字工具(T),写你的文字.在本教程中我使用的Helvetica字体LT标准,但你可以应用这些技术,使用任何其他 ...

PS合成颓废的星空美女图片

效果图构成的元素不是很多,有背景.人物.装饰素材等几部分.合成的时候先把背景做好,然后加入人物并调整好颜色,最后加入一些装饰及高光素材即可. 最终效果 1.首先新建一个1920 * 1080px的画布 ...

如何优化dedecms让你的网站流量最大化

很多站长在做站时首选的CMS大多是DEDECMS,我的网站浏览器评测网用的CMS也是DEDECMS.既然这么多站长选择它做网站,肯定是有它自己的优势的.我用DEDE也多年了,每次新做一个站,都要先对模 ...

.net的几个重要问题

问题开门见山,这里是一些入门的问题,我觉得知道这些问题的答案对了解 asp.net 比较有帮助.问题本身不一定严谨,甚至可能不太对,但我想只要对了解 asp.net 有帮助就可以了. 1. Page ...

heartbeat 3.0集群知识（3）heartbeat配置

对HA的配置分为两个部分,配置heartbeat和pacemaker,与heartbeat版本相对应,配置文件也有两个版本,即为heartbeat1.x的1.x style版本和heartbeat2. ...

解析PHP 使用curl提交json格式数据

本篇文章是对PHP中使用curl提交json格式数据的实现方法进行了详细的分析介绍,需要的朋友参考下复制代码代码如下: $data = array("name" => ...

PowerPoint怎么插入公式

解决方法:在需要插入公式的幻灯片中,执行"插入→对象"命令,打开"插入对象"对话框,在"对象类型"下面选中"Microsoft ...

jQuery调用ajax请求的常见方法汇总

这篇文章主要介绍了jQuery调用ajax请求的常见方法,实例汇总了三种常见的jQuery调用Ajax的技巧,具有一定参考借鉴价值,需要的朋友可以参考下本文实例汇总了jQuery调用aja ...

win7电脑中如何将Power键禁用？

Power键,应该算是最新win7系统下载的键盘中比较隐蔽的一个键了吧,可能很多朋友都没有注意到,特别是使用台式电脑的朋友,对于这个键更是没怎么留心,那么这个Power键到底有什么厉害之处呢?其实 ...

动手为PE加上驱动

首先在您正常的系统中使用GetPeDriver,在软件列出的设备中选择您想备份的驱动,然后双击[分析INF](上述操作也可以通过双击显示的设备来完成). 双击[分析INF]后会转入INF优化页,默认已 ...

Win7安装显卡驱动就一直重启的解决方案

有使用Win7旗舰版的用户反馈,安装了显卡驱动后,系统就不停的重启,而到安全模式卸载显卡驱动后就正常,不知道这样的情况是怎么回事,下面我们来分析一下. 1.显卡驱动版本和显卡不兼容,显卡驱动版本非 ...

发现Office系列中还有款财务管理软件Accounting

一直以为Office就只有那么几个产品.从最常用的word.excel.powerpoint和outlook到不是很常用的infopath.Visio.Publisher再到与开发相关的Access和 ...

CodeBlocks问题解决

问题一:使用unordered_map错误问题描述包含头文件#include <unordered_map>后编译器报错,错误信息为: This file requires compi ...

ajax 请求参数为空请求是json,有参数就变成HTML 导致请求失败

问题描述 ajax 请求参数为空请求是json,有参数就变成HTML 导致请求失败如题: $.ajax({ type : "post", url : url, dataType ...

ASP.NET MVC 音乐商店 - 10. 完成导航和站点的设计

转自 http://www.cnblogs.com/haogj/archive/2011/11/20/2255680.html 我们已经完成了网站的大部分工作,但是,还有一些添加到站点的导航功能,主页 ...

nhibernate-NHibernate缓存的问题

问题描述 NHibernate缓存的问题问题是这样的,关于一个新增model的方法,代码如下: ISession session = null; try { session = NHibernate ...

jira 审批功能报错求助，麻烦各位牛人指点

问题描述上周在jira官网试用ScriptRunner插件,实现了并联审批功能.电子流的设计http://www.xuebuyuan.com/2018423.html这个网页上学习的.今天使用审批功 ...

基金电商遭遇新型犯罪

每经记者徐皓陆慧婧发自上海近期,一些基金公司悄然进行了系统升级,纷纷提升了安全标准.一些公司暂停了异卡进出的功能,一些公司则关闭了部分附加服务的应用场景."公司最近正在抓网络系统安全 ...

C++11多线程教学（一）

本篇教学代码可在GitHub获得:https://github.com/sol-prog/threads. 在之前的教学中,我展示了一些最新进的C++11语言内容: 1. 正则表达式(http://s ...

电信与网易合作IM产品“易信”内测版曝光

腾讯科技郭晓峰 8月14日报道种种迹象显露,距离中国电信与网易联合推出IM产品的日子是越来越近了.据可靠人士向腾讯科技透露,双方合作的产品已开始进行内部测试,应用名称为腾讯科技早先独家曝光过的&q ...

《SAS 统计分析与应用从入门到精通（第二版）》一1.2 SAS for Windows的安装和启动

1.2 SAS for Windows的安装和启动 SAS 统计分析与应用从入门到精通(第二版) SAS的安装盘一般包括SAS Setup Disk.Software Disk 1.Software ...

PostgreSQL 10 GIN索引锁优化

标签 PostgreSQL , gin , 倒排索引 , 全文检索 , 性能优化背景 PostgreSQL gin索引接口常被用于多值列的检索,例如全文检索类型.数组类型. 有兴趣了解更多索引接口的 ...

我们找了 4 家大数据公司技术 Leader，聊了聊算法和数据挖掘工程师的机会和选择

当话题转向「算法工程师的招聘」时,TalkingData 首席数据科学家张夏天不免面露难色起来.而在此之前,谈论起算法和数据挖掘等具体业务时,他还滔滔不绝.兴致勃勃. 不只是张夏天,自去年 10 月以 ...

C#编程实现动态改变配置文件信息的方法_C#教程

本文实例讲述了C#编程实现动态改变配置文件信息的方法.分享给大家供大家参考,具体如下: 配置文件实际上就是一个XML文件,所以我们可以使用XmlDocument来进行操作. 代码如下: static ...

PHP网站在线人数

刚用PHP写了一个网站在线人数的程序,请大家进来指点下! 我是用PHP+MYSQL来写的,原理:网站在线人数的程序代码+后台有MYSQL数据库支持,可以直接统计出网站当前的在线人数. 首先我创建MYS ...

mysqlhotcopy 正则使用小技巧_Mysql

mysqlhotcopy 是MySQL的热备工具,详细请看手册 ,为了安全起见我们给热备分配个用户: grant select, reload, lock tables on *.* to 'hotc ...

2个Codeigniter文件批量上传控制器写法例子_php实例

例子一: /** * 多文件上传 * * @author Dream <dream@shanjing-inc.com> */ public function multiple_upload ...

php开发中的页面跳转方法总结_php技巧

页面跳转可能是由于用户单击链接.按钮等触发的,也可能是系统自动产生的.页面自动跳转在WEB开发中经常用到,而且根据需求可以采用不同的跳转方式,比如提示操作信息后延时跳转等, 本文总结了WEB开发中常见 ...

发送-Exception in thread &amp;quot;iothread-2&amp;quot;

问题描述 Exception in thread "iothread-2" 各位前辈:今天我用ZeroMq发送数据的时候,出现了如题所示的异常.之前一直是正常发送的,但不知道为什么 ...

热搜