干货 | 从菜鸟到老司机,数据科学的 17 个必用数据集推荐

编者按:数据集可谓是数据科学的练兵场,不管是对菜鸟入门还是老司机上路,能找到一个好用的数据集无异于如虎添翼。以下是雷锋网(公众号:雷锋网)整理编译的 17 个常用数据集,并列举了适用的典型问题,从菜鸟到老司机,总有一款适合你。

菜鸟入门

1. Iris 数据集

在模式识别文献中,Iris 数据集恐怕是最通用也是最简单的数据集了。要学习分类技术,Iris 数据集绝对是最方便的途径。如果你之前从未接触过数据科学这一概念,从这里开始一定没错,因为该数据集只有 4 列 150 行。

典型问题:在可用属性基础上预测花的类型。

2. 泰坦尼克数据集

泰坦尼克数据集也是全球数据科学殿堂中出镜率最高的数据集之一。借助一些教程和指导,泰坦尼克数据集可以让你深入了解数据科学。通过对类别、数字、文本等数据的结合,你能从该数据集中总结出最疯狂的想法。该数据集更重视分类问题,共有 12 列 891 行。

典型问题:预测泰坦尼克号上生还的幸存者人数。

3. 贷款预测数据集

在所有行业中,最为倚重数据分析技术的就是保险业。贷款预测数据集可以让保险公司对即将面对的挑战、选择的应对方式和影响有一个清晰的认识。与泰坦尼克数据集相同,它也是一个分类问题,该数据集共有 13 列 615 行。

典型问题:预测贷款申请能否得到批准。

4. 大市场销售数据集

零售业也是数据分析技术的重度使用者之一,它们可以利用分析数据来优化整个商业流程。利用数据科学技术,管理人员可以准确的完成产品分配、库存管理、供货和打包等复杂流程。这一数据集的名字已经透露出了它的属性,它就是商店的交易记录,主要解决回归问题。该数据集共有 12 列 8523 行。

典型问题:预测销售情况。

5. 波士顿数据集

该数据集也是模式识别文献中的典型数据集,该数据集得名是因为波士顿的房地产行业,同时它也是一个回归问题。该数据集共有 14 列 8506 行。因此,即使你手上的笔记本电脑性能较弱也能 Hold 住该数据集。

典型问题:预测房屋售价的中间值。

进阶级别

1. 人类活动识别

该数据集是由 30 个受试人智能手机内置的传感器收集的。许多机器学习课程中该数据集是学生联手的重要助手。该数据集属于多标记分类问题,共有 561 列 10299 行。

典型问题:预测人类活动的类别。

2. “黑五”数据集

该数据集主要是由零售店的交易记录组成的,它在数据集界资格很老,可以帮助商家了解自己商店每天的购物体验。“黑五”数据集也是个回归问题,它共有 12 列 550069 行。

典型问题:预测消费者购物量。 

3. 文本挖掘数据集

该数据集包含航空公司飞行数据中关于航空安全问题的报告,属于多标记分类的高维问题,雷锋网了解到它共有 30438 列 21519 行。

典型问题:根据标签为文档分类。

4. 访问历史数据集

该数据即来源于美国的一个单车分享服务,想掌握它,你必须拥有专业的数据整理技巧。该数据集 2010 年第四季度开始每季度都会总结出一个新文档,每个文档则拥有 7 列。它属于典型的分类问题。

典型问题:预测用户的类型。

5. 百万歌曲数据集

是不是觉得很新奇,原来这项技术还能用在娱乐业啊。该数据集能帮你完成回归问题,它包括 515345 个观察值和 90 个变量。不过,这还只是百万首歌曲数据库中的一个小子集。

典型问题:预测发行歌曲的最佳年份。

6. 人口收入数据集

该数据集属于非平衡数据分类和机器学习问题。众多周知,机器学习在解决非平衡问题上效果显著,它可以执行癌症和欺诈检测等任务。该数据集共有 14 列 48842 行。

典型问题:预测美国人的收入阶层。

7. 电影镜头数据集

利用该数据集,你能搭建一个推荐引擎。同时,该数据集也是数据科学行业的老兵之一,它可运用在许多领域。它数据相当庞大,共有 4000 部电影和 6000 多位用户发出的超过 100 万个评分。

典型问题:为用户推荐新电影。

老司机级别

1. 数字定义数据集

该数据集能让你学习、分析并认识图片中的各种元素,它就是相机中图片和面部识别的技术基础。该数据技术与数字识别问题,共有 28x28 大小的图片 7 千张,大小为 31MB。

典型问题:在图片中定义数字。

2. Yelp 数据集

该数据集诞生于著名的 Yelp 数据集挑战赛第 8 轮。它由 20 万张图片组称,3 个 json 文档的大小都达到了 2 GB。这些图片包含了 4 个不同国家 10 大城市本地企业的信息,你需要通过文化、季节、数据挖掘、社交图挖掘和类别推断等方式来洞察复杂的数据。

典型问题:从图片中找亮点。

3. ImageNet 数据集

ImageNet数据集可以运用在多种问题中,包括目标检测、定位、分类和屏幕解析。眼下,其图片引擎中共有 1419 万多张图片,容量达到了 140GB ,你可以任选图片并围绕其打造自己的项目。

典型问题:问题的解决要围绕下载的图片展开。 

4. KDD 1999 数据集

说到数据集,KDD Cup 这一大名可不能不提,它是世界上首个国际知识发现和数据挖掘竞赛。KDD 1999 数据集属于分类问题,它共包含 48 列和 400 万行,文档体积约为 1.2GB 。

典型问题:判断网络入侵探测器是否完成了任务。

5. 芝加哥犯罪数据集

如今,能否 Hold 住大型的数据集已经是检验数据专家是否合格的试金石了。许多数据分析公司不再依靠简单的模型,它们开始使用完整的数据。通过该数据集,你能掌握大量在自己电脑上分析大型数据集的经验。想解决这一问题不难,但学会数据管理并不容易。芝加哥犯罪数据集中共有 600 万个观察值,属于典型的多标记分类问题。

典型问题:预测犯罪的类型。

via  Analytics Vidhya

推荐阅读:

干货 | 如何从零学习人工智能?最好的资源都在这里了

神经网络初学者指南:基于Scikit-Learn的Python模块

本文作者:大壮旅

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-11-02 11:31:24

干货 | 从菜鸟到老司机,数据科学的 17 个必用数据集推荐的相关文章

从菜鸟到老司机,数据科学的17个必用数据集推荐

数据集可谓是数据科学的练兵场,不管是对菜鸟入门还是老司机上路,能找到一个好用的数据集无异于如虎添翼.以下是雷锋网整理编译的 17 个常用数据集,并列举了适用的典型问题,从菜鸟到老司机,总有一款适合你. 菜鸟入门 1. Iris 数据集 在模式识别文献中,Iris 数据集恐怕是最通用也是最简单的数据集了.要学习分类技术,Iris 数据集绝对是最方便的途径.如果你之前从未接触过数据科学这一概念,从这里开始一定没错,因为该数据集只有 4 列 150 行. 典型问题:在可用属性基础上预测花的类型. 2.

数据科学在明年呈现哪四大趋势?物联网和未来医疗是香饽饽

雷锋网(公众号:雷锋网)按:数据科学.大数据和物联网正在以令人炫目的速度发展和演进,而商业界正以缓慢的速度将更多来自不同渠道的数据整合起来,并能从中洞察更多信息.本文是 Andrew Dipper 对数据科学行业2017年的展望,并列举了四大重要趋势,雷锋网编译,未经许可不得转载. 大数据技术的崛起 在过去一年,我们已经见证了大数据技术惊人的成长,但随着大数据技术在企业界中被广泛接受,下一年留给大数据技术的预算会快速增加.大多数企业已经确认需要在业务的数据方向上进行改进,这转而会需要更多的数据科

数据科学入门难?老司机为你盘点 24 门精品课程

本文盘点了 24 个高品质的在线数据科学入门教程,原作者 David Venturi,他获有化学工程和经济学的双学位,热衷于数学.数据科学和统计学,同时也是一位编程爱好者.更具传奇色彩的是,他本来就读于一所名校的计算机科学专业,但觉得对数据科学更感兴趣--于是果断退学,从 Coursera.edx.Udemy 等慕课平台开始自学,终迈入专家行列. 他的经历说来也并不特别,世界上又多了一个慕课代言人而已.但雷锋网认为,他的经历具有两点价值:首先,最好的教学资源已经在那儿了--很多还是免费的,取不取

【技术干货】Docker精华学习资料集锦,老司机快上车

Docker是一个开源的应用容器引擎,提供了一种在安全.可重复的环境中自动部署软件的方式,允许开发者将他们的应用和依赖包打包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化.容器完全使用沙箱机制,相互之间不会有任何接口.几乎没有性能开销,可以很容易地在机器和数据中心中运行.重要的是,它不依赖于任何语言.框架或包装系统. 正如Docker的logo一样,Docker的思想就是源于集装箱,集装箱解决了各种型号.规格的货物在各种运输工具上进行运输的问题,而集装箱和集装箱之间

【干货】林漳希:新兴中的数据科学与工程

我先谈谈如何重新认识大数据,接着我要分别强调一下数据科学和数据工程,这是这个报告的要点,我想从一个具体的案例分析说起,最后一点谈谈如何重构大数据的价值. 我们对大数据的认识,如同一个人在成长过程中对人生的认识,可以用德国文学家歌德的著名短篇小说"少年维特之烦恼"来比喻.在2010年起的短短几年中经历了觉察.憧憬.定义.实践等过程,在读过少年青春期的躁动之后,现在开始进入价值实现的时期. 现在大数据的领域面临一个现实的大问题,我们开发了那么多技术,有那么多好算法,囤积了那么多数据,那么我

院长齐聚,答疑解惑 | 清华-青岛数据科学研究院“院长接待日”成功举办

首先,工业工程系的王明哲同学代表学生大数据研究协会(以下简称:协会),就一年来数据院学生社团工作向院长们做了详细的汇报.协会结合学生大数据知识技能参差不齐.课堂学习效果需要补充.资源交互共享少等现状,制定了以学生为主要服务对象,由学生作为组织者和推进者的"大数据菜鸟进阶之路".希望,依托清华高水平的人才供应,团结一大批热爱数据科学的同学,以逐步完善的制度保证活动质量,以老带新的机制激发长效动力,配合数据院共同完成"顶天.立地.育人"的终极目标. 学生代表汇报工作情况

关于数据科学的那些事

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 请收下这份关于人工智能的根目录--博客整理系列(一) 关于数据科学的那些事--博客整理系列(二) 机器学习必备手册--博客整理系列(三) 扩展眼界的都在这--博客整理系列(四) 深度学习必备手册(上)--博客整理系列(五) 深度学习必备手册(下)--博客整理系列(六) 随着科技的发展,人类社会拥有数据的规模增长很快,每时每刻.从天到地都有大量数据被产生和存储下来.这些数据被积累下来,到底怎么样使用才能创造出我

独家分析 | 借贷宝被拖库导致裸条泄露?黑客老司机解析10G“资源”背后故事

   事情还要从微博说起,某微博用户爆料女大学生遭遇裸贷威胁,裸条信息被兜售.当时"裸贷"等字眼并不熟悉,然而却涉及一个大家所熟知的借贷平台--借贷宝. 裸条是怎么产生的? 接触过信用贷款或者高利贷的人也许了解,由于普通大学生的还款能力不高,很多情况下无力偿还贷款,一般情况下贷款放贷是不会给大学生放贷.然而大学生群体又确确实实是缺钱的一批人,于是就有人借机想出了一个怪招 --"裸贷". [网上流传的裸条图片] 他们信奉的是"你还不起没关系,我想办法逼着你家

杨曦:老司机谈混合云的接入正确姿势

混合云的接入正确姿势 在今年的双11场景下,混合云产品很好的支撑集团大促业务,而在混合云的实践过程中,如何将传统的IDC机房接入公共云,并使两者非常好的配合起来工作,这是一个非常重要的话题,可以说,关系到混合云的成败. 不仅仅是双11,混合云未来会应用在各种各样的场景中,今天的老司机是阿里云的网络大牛杨曦,今年已经是杨曦参加的第五个双11,老司机将和大家谈谈混合云接入的正确姿势和那些年遇到过的坑. 谈谈混合云的两个关键: 第一个坑是安全,业务搬到公共云上第一个遇到挑战的就是安全问题,如果没有正确