适合入门的8个趣味机器学习项目

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud

谈到机器学习,相信很多除学者都是通过斯坦福大学吴恩达老师的公开课《Machine Learning》开始具体的接触机器学习这个领域,但是学完之后又不知道自己的掌握情况,缺少一些实际的项目操作。对于机器学习的相关竞赛挑战,有些项目的门槛有些高,参加后难以具体的实现,因此造成自己对机器学习的热情逐渐衰减。大部分都经历过这个过程,一直想找一些练手的项目,最典型的练手项目比如手写体识别等,但这类的项目成熟得不能再成熟了,参考别人的网络模型跑一下实验,结果的准确率都快达到100%,学习调参的机会比较少,因此都想找一些适合初学者的项目练手。那么在本指南中,将给大家带来8个适合初学者学习的有趣的机器学习项目。

将自己的时间花在项目上是最好的一种投资方式,在项目中你会享受学习、保持积极性并取得更快的进展。没有任何理论可以代替实践,虽然教材和课程能让你掌握一些基本原理,但在尝试应用时,你会发现具体操作起来比较困难。因此项目有助于提高应用机器学习的技巧,此外在找工作中也会给自己增添一些筹码。

以下将具体介绍这8个项目,其中的任何一个项目都能在一个周末完成,如果你喜欢的话,可以对其进行相关的扩展。

本文目录

  •  机器学习的角斗士
  •  扮演“点球成金”
  •  预测股票价格
  •  教会神经网络阅读的笔迹
  •  调查安然事件
  •  从Scrath开始写机器学习算法
  •  挖掘社交情绪
  •  改善卫生保健

1.机器学习的角斗士

这个项目被称为“机器学习的角斗士”,但它不是新的。这是围绕机器学习建立实际直觉最快的一种方式。目标是将现成模型应用到不同的数据集。本项目主要有3个原因令人感叹:

首先,你会根据直觉为问题找到对应的模型。该模型是否对数据丢失具有鲁棒性、该模型适合处理哪种类别特征?这都可以通过挖掘教材找到答案,但如果通过实践的话能学习得更好。

其次,本项目将教会你快速设计初始模型的技能。在实际应用中,如果不简单尝试的话难以知道哪些模型表现最好。

最后,这个练习可以帮助你掌握建模的流程。例如:

  • 导入数据
  • 数据清洗
  • 将数据集拆成训练/测试或交叉验证集
  • 预处理
  • 变换
  • 特征工程

因为使用现成的模型,这促使你有更多的机会专注于学习上述的这些关键步骤。

通过以下教程可以练习回归、分类和聚类算法。

教程

数据源

2.扮演“点球成金”

点球这本书中,奥克兰通过善于分析球员的球探,建立了一个有竞争力的阵容,但只需要支付只有1 / 3的纽约洋基队支付的工资。

首先,如果你还没读过这本书,你应该看看。

幸运的是,体育界有很多的数据可以玩,这些数据(球队、比赛、成绩和球员信息)都是可以免费获取。

有很多有趣的机器学习项目适合初学者。例如:

  • 体育博彩——在每场球赛之前根据给出的数据预测得分;
  • 人才搜索——利用高校统计数据预测哪些球员会拥有最好的职业生涯;
  • 一般管理——基于球员各自的优势创建集群,建立一个全面的团队。

体育也是一个很好的实践数据可视化探索性分析的领域,你可以使用这些技巧来帮助你决定在你的分析中应包含哪些类型的数据。

数据源

  • 体育统计数据——体育运动和历史数据包含许多专业的体育比赛等,从网络上非常容易抓取这些信息。
  • 体育参考——另一种体育统计数据库。更杂乱的界面,但个别表可以导出为CSV文件。
  • cricsheet.org——国际棒球和IPL板球比赛的数据,IPL和T20国际比赛的CSV文件可以被获取。

3.预测股票价格

股票市场对于任何数据科学家们都很感兴趣。

首先,你有很多类型的数据,比如价格、全球宏观经济指标、波动率指数等。

其次,数据是非常精细的。你可以很容易地花费很少时间就能得到每一个公司的数据,这允许你可以创造性地思考交易策略。

最后,金融市场普遍存在反馈周期短的特点。因此,可以快速验证新的数据。

一些对于初学者友好的机器学习项目如下所示:

  • 定量的价值投资——根据公司的季度报告预测6个月的价格走势。
  • ——对三角洲之间的隐含和实际波动率建立时间序列模型,甚至递归神经网络。
  • 统计套利——基于价格变动及其它因素寻找相似的股票,并寻找价格分歧的时机。

免责声明:构建交易模型在实践中的机器学习是简单的,但使他们的盈利是非常困难的。入市需谨慎,投资有风险

教程

数据源

  • Quandl——数据市场,提供免费的金融和经济数据。
  • Quantopian——定量金融社区,开发交易算法提供了一个免费的平台。
  • 美国基础档案文件——5000多家美国公司5年的基本数据。

4.教会神经网络阅读笔迹

神经网络和深度学习是现代人工智能的成功故事,他们促使了图像识别的重大进展,文本自动生成甚至自动驾驶汽车等。

MNIST手写数字分类的挑战是经典的切入点,该数据集对于初学者是友好的,并且足够小以至于适合在大多数的计算机完成这个挑战。

首先,建议阅读下面的教程第一章。它会教你如何建立一个神经网络,并以高精度的结果完成MNIST挑战。

教程

数据源

  • MNIST——包含70000个标记的手写体数字图像。

5.调查安然事件

安然事件造成有史以来最大的公司破产。在2000年度,安然是美国最大的能源公司,然而被揭露舞弊后,它在一年内就破产了。

幸运的是,我们已经有安然的电子邮件数据库,它包含150名前安然员工之间的50万封电子邮件,主要是高级管理人员。这也是唯一的大型公共的真实邮件数据库,这使得它更有价值。

事实上,数据科学家已经使用这个数据集进行多年的教育和研究。

初学者可以尝试的机器学习项目例子包括:

  • 异常检测——按照小时发送和接收的电子邮件分布尝试检测异常行为导致公众丑闻的异常行为。
  • 网络分析——建立员工之间的网络图模型来寻找关键人物。
  • 自然语言处理——结合电子邮件元数据分析正文消息,并根据其目的对电子邮件进行分类。

数据源

6.Scratch开始写机器学习算法

从Scratch开始写机器学习算法的原因主要有两个:

首先,没有更好的办法来建立对其机制的真正理解。你将不得不考虑每一步,从而真正掌握这些机制。

其次,你将会学到如何将数学指令工作翻译成公众代码。

开始时,建议你选择一种不太复杂的算法;在适应构建简单的算法后,尽量扩展他们以获得更多的功能;最后,如果你的算法不比那些现有的数据包快,不要气馁,因为这些数据包是多年的发展成果!

教程

7.挖掘社交情绪

由于大量用户生成的内容,社交化媒体已经几乎成为“大数据”的代名词。挖掘这些丰富的数据可以发现舆论、前沿和公众情绪的趋势。

脸书、推特、微信等一系列社交平台让人应接不暇。此外,每一代都比他们的前辈在社交媒体上花费更多的时间,这意味着社交媒体数据和市场营销、品牌及商业更相关。

虽然有许多流行的社交媒体平台,但推特是练习机器学习经典的切入点

使用推特数据,你会得到一个有趣的混合数据(推特内容)和元数据(位置、标签、用户、转发等),因此有很多方式对其进行分析。

教程

数据源

  • 推特API——推特API是流媒体数据的经典来源。
  • Stock Twits API——Stock Twits是一个社交投资平台,类似于一个交易者和投资者之间的推特,可以通过将时间戳和股票代码符号加入到时间序列数据集中扩展此数据集。

8.改善卫生保健

由于机器学习而经历快速变化的另一个行业是全球健康与保健。

在大多数国家,成为一个医生需要多年的教育,这是一个要求很高的领域,长时间、高风险以及一个很高的门槛。

因此近年来,在机器学习的帮助下减轻了医生的工作量,提高了医疗系统的整体效率。

用例包括:

  • 预防保健——预测对个人和社区层面的疾病爆发。
  • 诊断服务——图像数据的自动分类,如扫描、X射线等。
  • 保险——根据公开的风险因素调整保险费。

随着医院患者的病例现代化的发展,当我们收集更多的健康数据时,数据科学家将会有很大的可能去改善现存的医疗体系。

教程

数据源

作者信息

EliteDataScience,一个关于数据科学和机器学习的博客网站。

文章原标题《8 Fun Machine Learning Projects for Beginners》,作者: EliteDataScience,译者:海棠,审阅:阿福

文章为简译,更为详细的内容,请查看原文

 

时间: 2024-10-29 11:46:23

适合入门的8个趣味机器学习项目的相关文章

8个带你快速入门的趣味机器学习项目(附数据源、教程)

抽时间做项目是最好的一种投资方式,在项目中你会享受学习.保持积极性并能获得更快的进展.没有任何理论可以代替实践,虽然教材和课程能让你掌握一些基本原理,但在尝试应用时,你会发现具体操作起来比较困难. 因此项目有助于提高应用机器学习的技巧,此外在找工作中也会给自己增添一些筹码. 以下将具体介绍这八个项目,每个项目都能在一个周末完成,如果你喜欢的话,可以对其进行相关的扩展. 本文目录 机器学习的角斗士 扮演"点球成金" 预测股票价格 教会神经网络阅读的笔迹 调查安然事件 从Scrath开始写

构建你的数据科学作品集:机器学习项目

数据科学公司在决定雇佣时越来越关注你在数据科学方面的作品集Portfolio.这其中的一个原因是,这样的作品集是判断某人的实际技能的最好的方法.好消息是构建这样的作品集完全要看你自己.只要你在这方面付出了努力,你一定可以取得让这些公司钦佩的作品集. 构建高质量的作品集的第一步就是知道需要什么技能.公司想要在数据科学方面拥有的.他们希望你能够运用的主要技能有: 沟通能力 协作能力 技术能力 数据推理能力 动机和主动性 任何好的作品集都由多个项目表现出来,其中每个都能够表现出以上一到两点.这是本系列

机器学习项目中的数据预处理与数据整理之比较

要点 在常见的机器学习/深度学习项目里,数据准备占去整个分析管道的60%到80%. 市场上有各种用于数据清洗和特征工程的编程语言.框架和工具.它们之间的功能有重叠,也各有权衡. 数据整理是数据预处理的重要扩展.它最适合在可视化分析工具中使用,这能够避免分析流程被打断. 可视化分析工具与开源数据科学组件之间,如R.Python.KNIME.RapidMiner互为补充. 避免过多地使用组件能够加速数据科学项目.因此,在数据准备步骤中利用流式获取框架或流式分析产品会是一个不错的选择. 机器学习和深度

5 个很适合在课堂上演示的树莓派项目

5 个很适合在课堂上演示的树莓派项目 1. 我的世界: Pi 源于 Raspberry Pi 基金会. CC BY-SA 4.0 "我的世界"是世界上几乎每一个青少年都特别喜欢的一款游戏,而且它成功抓住了年轻人眼球,成为目前最能激发年轻人创造力的游戏之一.这个树莓派版本自带的我的世界不仅仅是一个具有创造性的建筑游戏,还是一个具有编程接口,可以通过 Python 与之交互的版本. 我的世界:Pi 版对于老师来说是一个教授学生解决问题和编写代码完成任务的好方式.你可以使用 Python A

超全!基于Java的机器学习项目、环境、库...

你是一名希望开始或者正在学习机器学习的Java程序员吗? 利用机器学习编写程序是最佳的学习方式.你可以从头开始编写算法,但是利用现有的开源库,你可以取得更大的进步. 本文介绍了主要的平台和开放源码的机器学习库.你可以使用这些机器学习库. 环境 本节描述了用于机器学习的Java环境或工作域.它们提供了用于执行机器学习任务的图形用户界面,还提供了用于开发自己应用程序的Java API. WEKA 怀卡托环境知识分析(Weka)( https:// www.cs.waikato.ac.nz/ml/we

盘点·GitHub最著名的20个Python机器学习项目

我们分析了GitHub上的前20名Python机器学习项目,发现scikit-Learn,PyLearn2和NuPic是贡献最积极的项目.让我们一起在Github上探索这些流行的项目! Scikit-learn:Scikit-learn 是基于Scipy为机器学习建造的的一个Python模块,他的特色就是多样化的分类,回归和聚类的算法包括支持向量机,逻辑回归,朴素贝叶斯分类器,随机森林,Gradient Boosting,聚类算法和DBSCAN.而且也设计出了Python numerical和s

28款GitHub最流行的开源机器学习项目(二):TensorFlow排榜首

推荐:28款GitHub最流行的开源机器学习项目(一):TensorFlow排榜首 15. XGBoost XGBoot是设计为高效.灵活.可移植的优化分布式梯度 Boosting库.它实现了 Gradient Boosting 框架下的机器学习算法.XGBoost通过提供并行树Boosting(也被称为GBDT.GBM),以一种快速且准确的方式解决了许多数据科学问题.相同的代码可以运行在大型分布式环境如Hadoop.SGE.MP上.它类似于梯度上升框架,但是更加高效.它兼具线性模型求解器和树学

28款GitHub最流行的开源机器学习项目(一):TensorFlow排榜首

1. TensorFlow TensorFlow 是谷歌发布的第二代机器学习系统.据谷歌宣称,在部分基准测试中,TensorFlow的处理速度比第一代的DistBelief加快了2倍之多. 具体的讲,TensorFlow是一个利用数据流图(Data Flow Graphs)进行数值计算的开源软件库:图中的节点( Nodes)代表数学运算操作,同时图中的边(Edges)表示节点之间相互流通的多维数组,即张量(Tensors).这种灵活的架构可以让使用者在多样化的将计算部署在台式机.服务器或者移动设

TensorFlow学习笔记之三——适合入门的一些资源

Github上除了有TensorFlow的源码库之外,还有一些很不错的适合入门的资源.现在将目前已经接触到的资源整理出来,和大家分享. 1.TensorFlow源码库 https://github.com/tensorflow/tensorflow 2.TensorFlow中文文档 https://github.com/jikexueyuanwiki/tensorflow-zh 3.TensorFlow入门例子库1,每个例子都有对应的Notebook说明. https://github.com/