外媒:清理数据成数据科学家最大挑战

文章讲的是外媒:清理数据成数据科学家最大挑战,科学家面对的最耗费时间的工作是什么?有什么样的工具能扫除这些障碍?

  数据分析师花费一半以上的时间清理和转换数据,而不是从中提取商业智能,这并不稀奇。数据储存的规模不断增大,数据类型也在激增。新一代的工具蜂拥而至,并承诺把复杂的工具送到不依赖数据的科学家的手上。

  技术领域最热门的职位之一是数据科学家,或许只有最新出现的首席高管职位:首席数据科学家能超越他们。显而易见,人们对这种趋势一直存在质疑,来自美国科技网站InfoWorld的 Yves de Montcheuil曾引用过一则笑话,数据学家就是住在加利福尼亚州的商业分析师。

  每个公司都需要把公司的数据转换为商业智能,这并不是什么有趣的事,这就是数据科学家承担主导责任的时候。但随着数据数量和种类的激增,数据科学家发现,他们大部分的时间都花费在清理和转换数据,而不是分析数据,并把它们告诉给企业经理。

  最近,IT项目众包公司CrowdFlower的数据科学家进行了一项调查(需要注册可查看)。调查发现,三分之二的分析人员认为清理和组织数据是它们最费时的工作,52%称他们最大的障碍是数据质量差。受访者说出了在它们工作中使用的48种不同的技术,最受欢迎的是Excel(55.6%),其次是开源语言研究(43.1%),和Tableau数据可视化软件(26.1%)。


▲来源:CrowdFlower公司

    数据科学家认为它们最大的挑战是清理数据花费时间,数据质量差,缺少分析时间,以及无效的数据建模。

  是什么抑制了数据分析的发展?被调查的数据科学家列举出,包括缺少有效满足他们工作需要的工具(54.3%),组织没有清楚地说明目标和宗旨(52.3%),以及培训投资不足(47.7%)。


▲来源:CrowdFlower公司

    缺乏工具,目标不明确,不注重培训被报告为影响数据科学家效率的主要障碍。

  承诺将满足大数据分析师需要的新工具

  在技术领域有一个基本的课题:早期只有少数精英需要理解和使用知识、工具,随着时间的推移,产品日益改进,价格降低,企业适应,技术逐渐成为了主流。新的数据分析工具蜂拥而至,承诺把技术的效益带给非科研人员。

  2014年8月17日,Steve Lohr在纽约时报上刊登了几种产品的简介。例如,ClearStory Data公司的软件结合多个来源的数据,并转换成图表、地图和其他图形。在数据准备问题上Paxata公司采取了不同方式,他们的软件通过各种可视化工具对数据进行检索、清理,和混合用于分析。

  这家不以营利为目的的知识开放实验室,号称是一个为“公民骇客、数据管理者,以及对技术和资讯结合的可能性产生兴趣的普通公民”提供的社区。这个组织正在招募“数据管理员”志愿者,来维护核心数据集,例如国内生产总值和ISO代码。空军总司令部的Rufus Pollock于2015年1月3日对该项目进行了描述。


▲来源:知识开放实验室

    知识开放实验室正在寻找志愿者程序员,策划核心数据集并作为零阻力数据计划的一部分。

  没有比使用Morpheus更简单和直接的方式来管理异构MySQL、MongoDB、Redis和ElasticSearch数据库。仪表板上的一次单击,Morpheus能使你在混合云上无缝提供、监控和分析SQL、NoSQL和内存数据库。你创造每个的数据库实例都包括一个内置的容错和故障的完整副本集。

作者:胡晴编译 

来源:IT168

原文链接:外媒:清理数据成数据科学家最大挑战

时间: 2024-09-12 15:26:31

外媒:清理数据成数据科学家最大挑战的相关文章

外媒:滴滴大数据惠利城市智慧交通

CNET科技资讯网 5月4日 北京消息:导语:近日滴滴智慧交通负责人章文嵩接受媒体采访,详细介绍了滴滴在大数据领域和智慧交通体系方面的深入探索,以下为外媒报道全文: "滴滴交通信息平台"北京道路交通热力图 滴滴的门禁非常严格,记者发现每位访问者都要在前台详细登记,并且需要公司内部人员全程陪同.访问者进出公司大楼,保安人员都会确认其是否持有访客证.滴滴对数据安全日益重视,公司还会定期对员工进行有关数据安全的培训. 滴滴出行是中国最大的移动出行平台.2012年创立至今,从最初单一的出租车召

外媒:华为成了苹果设计风格的跟随者

硅谷网讯 据Patently Apple6月23日报道,作为热销产品,iPadMini在去年 第四季度推出了新款设计.而在上周香港知识产权局官方授予苹果iPadMini保护套SmartCover四项设计专利.华为 认为,苹果在市场中的占有率正在下滑,苹果此举是为了超越LG占据专利排行第三的位置.然而,事实是华为也在通过模仿苹果的设计原理获得发展. 华为不再单一模仿苹果 据悉SmartCover设计符合新颖的要求,报道将一 项专利注册表以及设计特点图片展示 如下: 专利注册表以及设计特点图片 专利

外媒:中国用大数据预测恐袭 央企开发安全软件

英国路透社3月9日报道,原题:中国称,将走中国特色国家安全道路 中国领导人周三表示,在制定包括反恐怖主义等在内的一系列新法律时,将走中国特色国家安全道路.这是对西方批评声音的有力回击.相关法律将赋予政府广泛权力来打击威胁,包括覆盖全面的审查制度和强化对特定技术的控制. 中国全国人大常委会委员长张德江在全国人大会议上表示,中国已"为加快构建国家安全体系.走中国特色国家安全道路夯实了法律基础."他说,在当前国际国内反恐怖形势严峻复杂的背景下,加强反恐怖主义工作尤为重要.完善反恐怖主义相关法

一加创始人接受外媒采访:所有数据都储存在亚马逊服务器上

一加手机12月12日消息,一加联合创始人Carl Pei接受了<华尔街日报>的电话采访,在谈及近期热议的手机用户隐私话题时,他表示,一加手机的所有数据都储存在美国的亚马逊服务器上.以下为<华尔街日报>提供的 对话内容:一加的商业模式是什么?Pei:我们基本上是以 成本价销售手机,我们每台设备只赚一点点的钱,而且我们希望通过这样做来赢得许多用户.站稳脚跟,然后我们可以改变这些用户,通过软件和服务来实现货币化.我们的思路是,硬件日益成为了软件的分销载体.为什么你们在中国也才刚刚起步就面

外媒称中国成全球最大生产国美走下110年宝座

环球网记者李宗泽 据<爱尔兰时报>3月14消息称,就生产量计算,中国已经成为全球最大的生产国.报道认为,中国正回归19世纪时的"王位",并终结美国110年来最大生产国的历史. 报道称,美国咨询公司"IHS环球透视"的一项研究揭示了中美位置变更的事实.按照这项研究,中国2010年占据全球生产总量的19.8%,略高于美国的19.4%.对此,英国牛津大学下属的纽菲尔德学院的专家罗伯特•艾伦认为,中国回归第一标志着"500年世界经济循环历史的终结&qu

外媒:大数据会伤害弱势群体

 4月11日消息,据<大西洋月刊>报道,从宏观角度来看,大数据绝对是个好东西,它能解决许多人脑处理不了的复杂问题.它可以帮助公司削减开支,帮助市政人员规划城市,帮助情报机构追查恐怖分子,帮助卫生部门预测传染病爆发,甚至能帮助警方预知犯罪的发生.决策者越来越依靠大数据,这一复杂的算法成了推动历史发展的重要一环. 大数据也有副作用 但如果这些数据是关系到人的,尤其是社会上缺少话语权的弱势群体的话,这一算法就会产生不少的副作用.对许多美国穷人来说,这些覆盖了他们生活各个角落的数据会成为他们脱贫致富的

天龙八部:一张图告诉你如何8步炼成数据科学家

如何成为一个数据科学家?不少刚刚接触这个领域的探索者都在寻找一条尽可能正确的道路. OK, 这条道路确实不是无迹可寻的.虽然并不简单,但是,通过科学的规划和足够的时间投入,数据科学家可以通过很少的花费炼成. 接下来的这张精美的可视化长图从什么是数据科学家说起,然后详细介绍炼成数据科学家的8个步骤.拿好不谢~ 首先,什么是数据科学家?数据科学,是一个多学科知识的交集,甚至包括黑客技巧.数据科学家,是比软件工程师更擅长统计学,比统计学家更擅长软件工程的人.目前,数据科学家的典型教育背景是:高中5%,

外媒:BAT浏览器用户数据极易破解 BAT均称已修复问题

3月29日消息,据国外媒体报道,加拿大研究所Citizen Lab今日发布报告称,腾讯QQ浏览器在向其服务器传输用户数据时,要么使用易于破解的加密方法,要么不加密.加上此前曝光的阿里巴巴旗下UC浏览器和百度浏览器,BAT三家网络浏览器的数据安全隐患已然不容小觑.     外媒:BAT浏览器用户数据极易破解 BAT均称已修复问题 对此,腾讯表示,公司已经调查并解决了Citizen Lab提出的QQ浏览器问题."我们重视用户的隐私,对收集的任何数据都进行了小心谨慎地处理,"腾讯在一份电邮声

外媒:阿里手执大数据赴美上市有难度 中央或干预

中介交易 SEO诊断 淘宝客 云主机 技术大厅 外媒:阿里手执大数据赴美上市有难度 中央或干预 凤凰财经综合讯 据星岛日报报道,准千亿新股阿里巴巴赴美上市之路,随时更难行.美国财经媒体CNBC引述消息称,中国政府或会出手过问,因阿里巴巴掌控了全国电子商贸数据命脉,身分极其敏感,在美挂牌未必符合中国利益.有传阿里的目标是明年首季登场,集资超过150亿美元(约1125亿港元). 阿里巴巴与香港证监会谈不拢,放弃申请来港集资,可理解为单纯的市场监管分歧,但其赴美上市大计,随时衍生更多"更复杂.更政治&