【机器学习调查】脏数据最棘手,逻辑回归最常用

数据科学社区Kaggle的最新调查显示,机器学习和数据科学研究者在被问到工作中面临的最大障碍时,最常见的回答是“脏数据”,其次是缺乏该领域的人才。此外,他们最常用的方法是“逻辑回归”,而神经网络只排在第4位。

想象一下机器学习研究者的生活,你可能会觉得很令人向往。你会给自动驾驶汽车编程,在科技界的巨头公司工作,而你编写的软件甚至可能导致人类的灭亡。太酷了!但是,正如最近一项针对数据科学家和机器学习研究者的调查所显示的,这些期待需要调整,因为这些职业面临的最大的挑战是一些相当平常的事情:清洗脏数据。

这是来自数据科学社区Kaggle(今年早些时候被谷歌收购)的一项调查。该网站130万会员中,约有16700人回答了问卷调查,当被问及工作中面临的最大障碍时,最常见的回答是“脏数据”(dirty data),其次是缺乏该领域的人才。


“工作中遇到的最大障碍是什么?”,接近一半被调查者回答“Dirty data”

但是究竟什么是脏数据,为什么会出现这样的问题呢?

数据是数字经济的新石油,这是不言而喻的,但在机器学习之类的领域尤其如此。现代的人工智能系统一般都是通过示例来学习的,也就是说如果你展示给AI系统一大堆“猫”的图片,随着时间的推移,它会开始识别构成“猫”的特征。这就是为什么像谷歌和亚马逊这样的公司能够建立起如此有效的图像和语音识别平台的原因:它们拥有大量来自用户的数据。

但AI系统仍然只是计算机程序,这意味着如果你在错误的时间按下错误的按钮,它们很容易出现故障。这种不灵活性包括他们要学习的数据。这些程序就像那些挑食的婴儿,除非香蕉搅碎了,否则他们不吃。AI领域的研究员虽然不用处理香蕉,但是要梳理数以万计条目的数据集,追踪丢失的值,删除任何的格式错误。

“有一个笑话是,数据科学中80%的工作是数据清洗,另外20%是抱怨数据清洗。”Kaggle的创始人兼首席执行官 Anthony Goldbloom 在 The Verge 的邮件采访中说道。“在现实中,不同情况数据清洗的工作量有所不同。但是数据清洗在数据科学工作中的比例要高于外界的想象。实际上,训练模型通常只占机器学习研究者或数据科学家工作的一小部分(不到10%)。”

Kaggle 这个网站最著名的是竞赛,任何公司都可以在上面发布一个特定的数据相关的挑战赛,然后付钱给提出最佳解决方案的人。(钱虽然不多,但这是赢得雇主注意的一种很好的方式。)这意味着Kaggle本身也成为了一个有趣的数据集的库,用户可以用它们做研究。数据集的范围很广,从22000份高中论文,到肺癌的CT扫描,再到大量的鱼类图片(美国一家环保NGO发布的,希望能吸引到更好的识别鱼类的AI)。

Kaggle的调查也不仅与数据有关,还包括其他有趣的信息。例如,被调查者中受教育程度最普遍的是硕士学位(其次是学士学位,然后是博士学位)。Python是最常用的编程语言,也是他们向想要进入该领域的人推荐的语言的第一名。同样值得注意的是,尽管人们将注意力集中在像神经网络这样的新数据工具上,但大多数从业者更多依赖那些较老的、不那么吸引人的统计学方法。

例如,在“工作中使用什么数据科学方法”这个问题中,“逻辑回归”的回答最多(63.5%),而神经网络只排在第4位(37.6%)。作为一种数学工具,逻辑回归方法已经存在几个世纪了,它被用来发现任何给定数据集的某个点属于某个特定类别的概率。Goldbloom认为,它之所以受欢迎的原因之一是,它是大学课程的基础知识,并且在各种各样的领域都可使用。

他说:“每一个本科有统计学相关课程的学生都会学到线性回归和逻辑回归,包括机器学习,计量经济学,心理学,生物信息学,等等。”Goldbloom说,作为一种数学工具,它可能“不是非常强大”,但学术和行业的惯性意味着它不会很快消失。正如Kaggle的一位排名高的“grandmaster”在调查回答中说:“30万年后,地球上仍将存在石头、蟑螂和逻辑回归。”

与此同时,最受关注的是神经网络,因为这类方法特别适合于涉及图像、视频和音频数据的任务。(这些正是现在AI变得很酷的方向。)不过,对于文本和数字信息,较老的方法更合适。因此,如果你打算尽快入门机器学习或数据科学,准备好开始清洗数据吧!

原文发布时间为:2017-11-5

本文作者:马文

原文链接:【机器学习调查】脏数据最棘手,逻辑回归最常用

时间: 2024-09-24 13:24:59

【机器学习调查】脏数据最棘手,逻辑回归最常用的相关文章

大数据下的逻辑回归训练模型方法论

在数据膨胀的当今社会里,http://www.aliyun.com/zixun/aggregation/13584.html">海量数据中蕴含价值日渐凸显出来.如何有效的挖掘海量数据中的有效信息已经成为各个领域面临的共同问题.以互联网企业为代表的科技公司依据自身的实际需求,开始大量的应用机器学习.数据挖掘以及人工智能等算法获取海量数据中蕴含的信息,并且已经取得了很好的效果. 当今社会已经从过去的信息匮乏,转变为信息泛滥的时代.由于网络以及相关应用的不断普及,网络数据逐渐呈现着"海

机器学习算法的python实现之逻辑回归的实现(LogicalRegression)

1.背景知识 在刚刚结束的天猫大数据s1比赛中,逻辑回归是大家都普遍使用且效果不错的一种算法. (1)回归 先来说说什么是回归,比如说我们有两类数据,各有50十个点组成,当我门把这些点画出来,会有一条线区分这两组数据,我们拟合出这个曲线(因为很有可能是非线性),就是回归.我们通过大量的数据找出这条线,并拟合出这条线的表达式,再有数据,我们就以这条线为区分来实现分类.下图是我画的一个数据集的两组数据,中间有一条区分两组数据的线. 本栏目更多精彩内容:http://www.bianceng.cnht

机器学习之——归一化线性回归与归一化逻辑回归

之前的博客里,跟大家分享了归一化(Regularization)的概念:保留所有的特征,但是减小参数的大小(Magnitude). 这一次捏,跟大家讨论讨论,归一化线性回归模型和归一化逻辑回归模型. 首先跟大家明确一件事,为什么有些机器学习的模型需要用到归一化这个方法呢?答案有两条: 归一化能够加快梯度下降的步伐,也就是获得最优解的速度 归一化能够提交模型的精度 具体的分析我们可以后续来讨论,这里就不赘述了. 归一化线性回归模型(Regularized Linear Regression) 我们

机器学习之——判定边界和逻辑回归模型的代价函数

判定边界(Decision Boundary) 上一次我们讨论了一个新的模型--逻辑回归模型(Logistic Regression),在逻辑回归中,我们预测: 当hø大于等于0.5时,预测y=1 当hø小于0.5时,预测y=0 根据上面的预测,我们绘制出一条S形函数,如下: 根据函数图像,我们知道,当  z=0时,g(z)=0.5  z>0时,g(z)>0.5  z<0时,g(z)<0.5 又有: 所以 以上,为我们预知的逻辑回归的部分内容.好,现在假设我们有一个模型: 并且参数

【机器学习算法-python实现】逻辑回归的实现(LogicalRegression)

(转载请注明出处:http://blog.csdn.net/buptgshengod) 1.背景知识       在刚刚结束的天猫大数据s1比赛中,逻辑回归是大家都普遍使用且效果不错的一种算法.   (1)回归                先来说说什么是回归,比如说我们有两类数据,各有50十个点组成,当我门把这些点画出来,会有一条线区分这两组数据,我们拟合出这个曲线(因为很有可能是非线性),就是回归.我们通过大量的数据找出这条线,并拟合出这条线的表达式,再有数据,我们就以这条线为区分来实现分类

机器学习基础(四)逻辑回归

从这节算是开始进入"正规"的机器学习了吧,之所以"正规"因为它开始要建立价值函数(cost function),接着优化价值函数求出权重,然后测试验证.这整套的流程是机器学习必经环节.今天要学习的 话题是逻辑回归,逻辑回归也是一种有监督学习方法(supervised machine learning).逻辑回归一般用来 做预测,也可以用来做分类,预测是某个类别^.^!线性回归想比大家都不陌生了,y=kx+b,给定一堆数据点, 拟合出k和b的值就行了,下次给定X时,就

机器学习之——逻辑回归

在讨论逻辑回归问题(Logistic Regression)之前,我们先讨论一些实际生活中的情况:判断一封电子邮件是否是垃圾邮件?判断一次交易是否是欺诈交易?判断一份文件是否是有效文件?这类问题,我们称之为分类问题(Classication Problem).在分类问题中,我们往往尝试去预测的结果是否属于某一个类(正确活错误). 我们从二元的分类问题开始讨论,即问题是正确或错误的. 我们将因变量(Dependent Variable)可能属于的两个类分别称为负向类(Negative Class)

【机器学习】逻辑回归

[机器学习]逻辑回归 优点:计算代价不高,易于理解和实现: 缺点:容易欠拟合,分类精度可能不高. 我们想要的是接收所有的输入,然后预测出类别.在两个类的情况下输出0或者1.这种性质的函数,也许原来你接触过,叫做Heaviside step function,即单位阶跃函数.但是这种瞬间的跳跃实际中很难处理.所以,这里我们采用Sigmoid函数. g(z)=11+e?z 为了实现Logistic回归分类器,我们在每个特征上乘以一个回归系数,再讲所有的结果相加,将这个总和带入Sigmoid函数中,得

机器学习-逻辑回归-分类

1. 逻辑回归 监督学习中另一个问题为分类问题,常见的分类问题例子有 邮件是否是垃圾邮件,0表示垃圾邮件,1表示正常邮件 在线交易是否会欺骗用户,0表示会欺骗,1表示不会 患肿瘤患者是良性还是恶性,0表示恶性,1表示良性 这些问题,可以归之于二分类问题,y表示因变量,取值0和1,可以定义如下 其中0表示负例,1表示正例 同理,对于多分类问题来说,因变量y的值可以取{0,1,2,3 ... n} 我们先从二分类问题入手,理解什么是逻辑回归模型 逻辑回归(Logistic Regression)是一