机器学习项目到底怎么做?以及部分资料分享

很久没有更新图形图像处理方面的博客了,最近在培训数据发掘方面的技术,就把学到的东西和大家分享下。


1. 压箱底的资料

还有一些平时收集 的压箱底的资料拿出来和大家分享下:

IPOL —-经典计算机视觉算法的c实现

http://www.ipol.im/?utm_source=doi

https://www.codecademy.com/ —-编程语言自学成才

我的python就是在这个网站自学的,基本上把python的基本数据结构,list,dist等等介绍了一遍,只要一周左右甚至更短的时间就可以基本掌握一门全新的语言

在线处理网站

https://www.processon.com/

如果没有visio这是最好的选择!

一些大牛的博客

刘未鹏
http://mindhacks.cn/
http://mindhacks.cn/2011/11/04/how-to-interview-a-person-for-two-years/
http://mindhacks.cn/2012/08/27/modern-cpp-practices/

写技术博客的选择

在csdn耕耘了8年有余,一直很喜欢这里,然而不知道为何身边的朋友高手就是github,stackoverflow

后面我也准备尝试一些其他的平台


2. Transwarp 机器学习培训

转型机器学习方向的过程是痛苦的。最近在上海花了一周时间参加transwarp的数据分析师培训,这是我时隔7年之后再次踏上魔都的土地。上次来这里还是7年前来看上海世博会,不同的是此处上海之行是由北京启程。我乘坐的是最早一班复兴号列车,由于很多外国人都在新奇 的拍照,这一路风驰电掣的路过祖国的大好河山,让我也怀揣着满满的民族自豪感惊异于祖国 的发展速度。2010年那会来上海一趟多难呀,尤其要买个卧铺,真是难上加难。

非常感谢单位领导给予的宝贵培训机会,之前说实话并未有全面系统的学过机器学习内容。但最重要的还是不知道:真实,工业级,业务上究竟怎么开展机器学习与业务的结合工作。这次培训基本给了我答案。transwarp 通过

推荐其支持托拉拽的机器学习产品sophon,让我直观的感受了整套机器学习工具平台的使用过程,以及机器学习模型的建模套路。其中之前我一直不太注重的有以下两点:

1.特征工程,归一化,字符串索引
2.评价指标,roc,方差和等

机器学习的算法

到底如何衡量业务是否需要机器学习?

  1. 业务问题是否适用机器学习算法?
  2. 如何选择模型
  3. 设计开发节奏
  4. 最终产品的检验

完整的数据发掘建模流程

特征工程

特征工程是机器学习的决定性因素是机器学习成功的关键

“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”
纵观Kaggle、KDD,阿里天池等国内外大大小小的比赛,每个竞赛的冠军其实
并没有用到很高深的算法,大多数都是在特征工程这个环节做出了出色的工作,
然后使用一些常见的算法,比如Linear Regression(线性回归),就能得到出色的
性能。

领域特定知识( domain specific knowledge),

最近还看到公众号上面一些好的文章,整取领悟以后分享出来

可视化托拉拽机器学习产品

KNIME https://www.knime.com/

对于机器学习和数据科学的初学者来说,最大的挑战之一是需要同时学习太多知识,特别是如果你不知道如何编码。你需要快速地适应线性代数、统计以及其他数学概念,并学习如何编码它们,对于新用户来说,这可能会有点难以承受。

如果你没有编码的背景并且发现很难学习下去,这时你可以用一个GUI驱动的工具来学习数据科学。当你刚开始学习的时候,可以集中精力学习实际的项目。一旦适应了基本的概念,你就可以在以后慢慢学习如何编写代码。

在今天的文章中,我将介绍一个基于GUI的工具:KNIME

sophon

星环还通过Transwarp Sophon来帮助数据工程师开发数据挖掘的应用。Sophon提供了可视化界面工具Midas 用于创建模型,用户只需通过拖拽数据源对象和运算符就能完成模型设计,然后将设计的模型在TDH集群上训 练或预测分析。

此外,Sophon还整合了深度学习框架Tensorflow,使用户可以通过拖拽生成各种神经网络模型,灵活调参和训练,将大数据和人工智能结合起来推动业务创新。

未完待续。。。。

时间: 2024-09-16 03:25:26

机器学习项目到底怎么做?以及部分资料分享的相关文章

构建你的数据科学作品集:机器学习项目

数据科学公司在决定雇佣时越来越关注你在数据科学方面的作品集Portfolio.这其中的一个原因是,这样的作品集是判断某人的实际技能的最好的方法.好消息是构建这样的作品集完全要看你自己.只要你在这方面付出了努力,你一定可以取得让这些公司钦佩的作品集. 构建高质量的作品集的第一步就是知道需要什么技能.公司想要在数据科学方面拥有的.他们希望你能够运用的主要技能有: 沟通能力 协作能力 技术能力 数据推理能力 动机和主动性 任何好的作品集都由多个项目表现出来,其中每个都能够表现出以上一到两点.这是本系列

机器学习项目中的数据预处理与数据整理之比较

要点 在常见的机器学习/深度学习项目里,数据准备占去整个分析管道的60%到80%. 市场上有各种用于数据清洗和特征工程的编程语言.框架和工具.它们之间的功能有重叠,也各有权衡. 数据整理是数据预处理的重要扩展.它最适合在可视化分析工具中使用,这能够避免分析流程被打断. 可视化分析工具与开源数据科学组件之间,如R.Python.KNIME.RapidMiner互为补充. 避免过多地使用组件能够加速数据科学项目.因此,在数据准备步骤中利用流式获取框架或流式分析产品会是一个不错的选择. 机器学习和深度

28款GitHub最流行的开源机器学习项目(二):TensorFlow排榜首

推荐:28款GitHub最流行的开源机器学习项目(一):TensorFlow排榜首 15. XGBoost XGBoot是设计为高效.灵活.可移植的优化分布式梯度 Boosting库.它实现了 Gradient Boosting 框架下的机器学习算法.XGBoost通过提供并行树Boosting(也被称为GBDT.GBM),以一种快速且准确的方式解决了许多数据科学问题.相同的代码可以运行在大型分布式环境如Hadoop.SGE.MP上.它类似于梯度上升框架,但是更加高效.它兼具线性模型求解器和树学

28款GitHub最流行的开源机器学习项目(一):TensorFlow排榜首

1. TensorFlow TensorFlow 是谷歌发布的第二代机器学习系统.据谷歌宣称,在部分基准测试中,TensorFlow的处理速度比第一代的DistBelief加快了2倍之多. 具体的讲,TensorFlow是一个利用数据流图(Data Flow Graphs)进行数值计算的开源软件库:图中的节点( Nodes)代表数学运算操作,同时图中的边(Edges)表示节点之间相互流通的多维数组,即张量(Tensors).这种灵活的架构可以让使用者在多样化的将计算部署在台式机.服务器或者移动设

8个带你快速入门的趣味机器学习项目(附数据源、教程)

抽时间做项目是最好的一种投资方式,在项目中你会享受学习.保持积极性并能获得更快的进展.没有任何理论可以代替实践,虽然教材和课程能让你掌握一些基本原理,但在尝试应用时,你会发现具体操作起来比较困难. 因此项目有助于提高应用机器学习的技巧,此外在找工作中也会给自己增添一些筹码. 以下将具体介绍这八个项目,每个项目都能在一个周末完成,如果你喜欢的话,可以对其进行相关的扩展. 本文目录 机器学习的角斗士 扮演"点球成金" 预测股票价格 教会神经网络阅读的笔迹 调查安然事件 从Scrath开始写

超全!基于Java的机器学习项目、环境、库...

你是一名希望开始或者正在学习机器学习的Java程序员吗? 利用机器学习编写程序是最佳的学习方式.你可以从头开始编写算法,但是利用现有的开源库,你可以取得更大的进步. 本文介绍了主要的平台和开放源码的机器学习库.你可以使用这些机器学习库. 环境 本节描述了用于机器学习的Java环境或工作域.它们提供了用于执行机器学习任务的图形用户界面,还提供了用于开发自己应用程序的Java API. WEKA 怀卡托环境知识分析(Weka)( https:// www.cs.waikato.ac.nz/ml/we

网友微博公开质问乐视CEO贾跃亭手机到底还做不做

摘要: 12月29日消息,一位自称为资深乐迷. 乐视网 股民,网名为jino_218的网友,通过微博公开质问乐视CEO贾跃亭手机到底还做不做 请贾跃亭给乐迷 一个 交代,希望贾跃亭能给乐迷一个交代 12月29日消息,一位自称为资深乐迷. 乐视网 股民,网名为jino_218的网友,通过微博公开质问乐视CEO贾跃亭"手机到底还做不做 请贾跃亭给乐迷 一个 交代",希望贾跃亭能给乐迷一个交代,同时该条微博引起诸多网友和股民的转发.热议. 为此,针对该网友质疑,贾跃亭进行了及时回应,称&qu

A5营销:浅析企业站到底需要做什么样的外链才可以

中介交易 SEO诊断 淘宝客 云主机 技术大厅 其实,企业网站外链建设是一个老生常谈的话题,很多企业站长对企业外链建设非常擅长也非常精通,但对于一些新手站长来说却是一个怎么也想不通的问题和烦恼,根据不完整数据显示, 现阶段大部分的企业站长都没有搞明白自己的网站外链到底该怎么做外链,做什么样的外链,什么样的外链适合他们的企业网站,每天都会有站长发生这样的问题,也因此这些企业网站优化了很久都没有好的排名和权重.然而对于这个老生常谈的话题是一个新手企业站长特别想看到的,因为他们正在寻找企业网站外链建设

“磁碟机”病毒侵入我们的计算机后到底都做了些什么

"磁碟机"病毒侵入我们的计算机后到底都做了些什么? 在C盘根目录下释放驱动NetApi000.sys,卸掉杀毒软件的钩子,使其监控失效. 从以下网站下载新病毒: http://www.***.**/*.htm http://js.k***.**/**.asp http://js.k0****.**/**.asp http://js.***.**/***.asp http://js.***.**/****.gif删除注册表启动项键值,使病毒外的所有软件无法自启动.例如QQ.msn等可以自