10个2017的预测:数据科学、机器学习和物联网

近日, Vincent Granville在Data Science Central上撰文对2017的数据科学、机器学习和物联网进行了预测。

以下为译文

又到了分享对2017年的预言的时候了,这里抛砖引玉,也希望各位发表自己的观点。

1. 数据科学和机器学习将变得更为主流,特别在以下领域:能源业、金融业(银行、保险)、农业(精耕)、运输业、城市规划、医疗保健(定制治疗),甚至是政府方面。

2. 某些数据科学的门外汉想要创建合法的,有关如何分析数据、算法怎样运转的体系,并打算强制公开算法的秘诀。我相信他们会失败的,奥巴马医改就是一个例子,其中利用的预测算法,忽略了年龄性别来计算溢价,导致了人们需要承担更高的保费。

3. 传感数据崛起。也就是说,物联网将带来数据膨胀,但数据质量、数据相关性及数据安全仍是至关重要的。

4. 随着物联网的崛起,依赖于人工智能、深度学习和自动数据科学的机器或设备间通信的算法 ,更多的过程将实现自动化(如驾驶、医疗诊断和治疗)。我最近也在编写文章来描述机器学习、物联网、人工智能、深度学习和数据科学之间的差异。你可以在DSC进行注册,防止错过该文。

5. 人工智能、物联网、数据科学、机器学习、深度学习和运筹学之间的界限将变得模糊。而统计工程会越来越多地出现在应用程序、机器学习、人工智能和数据科学领域。

6. 许多系统仍然无法正常运转。其解决方法在于人而不是算法。我的文章《为何如此多的机器学习实现都以失败告终》中有提及,一个典型的例子就是“谷歌分析”。谷歌分析不能捕捉到大量明显且又基本的机械交通流,而这种任务对于人来说,根本不需要任何统计和数据科学知识来过滤或拦截。虽然人们发明了基本的方案来解决这些问题,但它却有增无减。虚假评论、新闻,推特上未检测出的仇恨言论,谷歌搜索上未检测到的剽窃行为,都属于同一类别。最终,它为新玩家留下了可以进入和构建实际工作系统的空间。

7. 对公共数据和公共新闻的依赖将会面临更仔细的审查。有人说预测选举的失败是数据科学的失败。但在我看来这是一种不同类型的失败,它未能意识到媒体的偏见(他们发布的都符合他们自身议程预测),甚至那些做调查的都是有偏差的(充满谎言)。同时它也没有意识到选举中的高波动性以及日常的巨大变化。任何能够计算出包含历史数据的良好的置信区间的人,都认为这是不可靠的预测结果。最后,我一直都认为获胜者最擅长玩把戏,包括操纵黑客与贿赂媒体。

8. 越来越多的数据清理、预处理和探索性数据分析将变得自动化,我们也将面对更多的非结构化数据,当然,也会用一些方法来使它们变得结构化。多个算法和模型逐渐混合在一起,来提供效果最好的模式识别和预测系统,以提高精度。

9. 在领先的从业者带领的大学课程的引导下,数据科学教育将不断发展,通过数据科学营找工作的人会更少。许多这种类型的训练营不会培训你成为数据科学家,而是让你变成一个只知晓经典的、基本的、甚至过时且危险的统计知识的Python/R/SQL码农。因此,数据营不得不改善,否则将冒成为另一种凤凰城大学的风险。

10. 对有关数据的基础建设的攻击将会从窃取或清除转变为修改数据。如果安全漏洞没有被修缮,某些攻击将从物联网设备开始。

原文链接:10 Data Science, Machine Learning and IoT Predictions for 2017

时间: 2024-11-01 18:29:42

10个2017的预测:数据科学、机器学习和物联网的相关文章

《Python机器学习实践指南》——1.1 数据科学/机器学习的工作流程

1.1 数据科学/机器学习的工作流程 打造机器学习的应用程序,与标准的工程范例在许多方面都是类似的,不过有一个非常重要的方法有所不同:需要将数据作为原材料来处理.数据项目成功与否,很大程度上依赖于你所获数据的质量,以及它是如何被处理的.由于数据的使用属于数据科学的领域,理解数据科学的工作流程对于我们也有所帮助:整个过程要按照图1-1中的顺序,完成六个步骤:获取,检查和探索,清理和准备,建模,评估和最后的部署. 在这个过程中,还经常需要绕回到之前的步骤,例如检查和准备数据,或者是评估和建模,但图1

2017年安全数据科学领域的4个趋势

安全数据科学正在蓬勃发展,有报告显示安全分析市场将在2023年达到八十亿美元的价值, 26%的增长率.这要感谢不屈不挠的网络攻击.如果你想要在2017年走在不断涌现的安全威胁的前面,那么投资在正确的领域是很重要的.在2016年3月,我写了一篇<2016年需要注意的4个趋势>.而2017年的文章由我与来自Netflix的Cody Rioux合作,带来他的平台化视角.我们的目标是帮助你为2017年的每一个季度形成一个计划(例如,4个季度有4个趋势).对于每一个趋势,我们都提供了一个短小精悍的理论基

了解人工智能之分类和预测 - 数据科学中的预测,分类和回归分析

在上一篇中,我概括地解释了一些主要的人工智能概念,包括机器学习,神经网络和深度学习.也概述了当前人工智能背后的基本原理,提及了从大量样本中学习的机器学习系统,解释了深度学习系统能够更丰富地展现这些样例.那接下来我们就来说说利用这些人工智能系统我们今天可以做些什么,有哪些用途,以及现在的研究领域与方向. 总的来说,我们可以从两个方面来利用当前的人工智能系统: 完成更出色的数据科学工作 我们长期以来使用传统统计方法或软件工程来处理下面这些数据科学领域的工作.但是在有了机器学习系统以后,我们可以做得更

【Spark Summit East 2017】大数据赋能机器学习

本讲义出自Jiao Wang与Yiheng Wang在Spark Summit East 2017上的演讲,在今天的互联网应用和新兴智能系统中,人工智能扮演着非常重要的角色,这驱动着需求的扩展以及分布式大数据分析能力与深度学习的能力的提升.在演讲中Jiao Wang与Yiheng Wang分享了Intel以及用户使用开源的Apache Spark分布式深度学习库BigDL构建的大数据机器学习应用.

2017 Gartner数据科学魔力象限出炉,16位上榜公司花落谁家?

雷锋网按:2017年Gartner数据科学平台(在2016年被称作"高级分析平台")的魔力象限报告于近期出炉了.今年的报告对16个数据分析公司进行了15个标准的评估,并基于前瞻性(Completeness of Vision)和执行能力(Ability of Execute),将他们按评分放置在四个象限中(魔力象限的横坐标表示的是前瞻性,纵坐标表示的则是执行能力). 尽管像Python和R这种开源的平台在数据科学市场发挥着重要的作用,但是Gartner研究方法论不涉及它们,因此本报告只

关于数据科学的那些事

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 请收下这份关于人工智能的根目录--博客整理系列(一) 关于数据科学的那些事--博客整理系列(二) 机器学习必备手册--博客整理系列(三) 扩展眼界的都在这--博客整理系列(四) 深度学习必备手册(上)--博客整理系列(五) 深度学习必备手册(下)--博客整理系列(六) 随着科技的发展,人类社会拥有数据的规模增长很快,每时每刻.从天到地都有大量数据被产生和存储下来.这些数据被积累下来,到底怎么样使用才能创造出我

Oracle预测:2017年大数据的10大可能

文章讲的是Oracle预测:2017年大数据的10大可能,2017年已经到来,大数据在飞速成长.无论是物联网还是云计算方面,企业技术都在上升,促进了市场的巨大变革.许多公司正在接受将大数据作为这个时代的竞争优势.在这篇文章中,我们将讨论Oracle对大数据2017年及其未来的一些预测. 1.拥抱机器学习的时代 机器学习以前只限于数据科学家,但2017年将全面开放.无论是谷歌的最新排名算法或卓越的电子产品,机器学习都能找到一个立足点.2016年的大数据已经相当庞大了,预计今后将继续增长,机器学习也

IDC公布2017年亚太地区数据中心10大预测

IDC亚太区发布了最新题为<IDC FutureScape:2017年全球数据中心预测:APeJ影响>的报告,强调数据中心内一系列成熟的技术,对于那些寻求数字化转型的企业机构来说至关重要.未来"DX经济"需要一个高度精确.完全自动化的无人数据中心,利用预测分析减少停机时间.这是一项承诺,但是目前对很多老旧组织机构来说,现实是数据中心环境中仍然存在明显的技术复杂性,尽管云改善了效率和敏捷性. "这次谈论重点放在数字化转型的业务方面,忽略技术型数据中心环境的复杂性.现

2017数据科学与机器学习行业现状调查 Python是最受欢迎的语言

今年,Kaggle有史以来第一次对人工智能领域进行了深度调查,旨在全面了解数据科学和机器学习的概况.本次调查收到了 16000 多份答卷,庞大的调查数据为我们提供了有关从业者.业界最新动态以及如何进入该行业的数据支撑.以下报告包括本次调查的几个主要结果,其中包括: 尽管Python很可能是机器学习最常用的编程语言,但统计学家使用最多的是 R 语言. 数据科学家的平均年龄在 30 岁左右,但是这个数字在不同的国家有所不同.例如,印度受访者的平均年龄要比澳大利亚的小 9 岁. 被调查者教育程度最多是