机器学习领域中的六大误区

误区

机器学习已经不再仅限于科幻电影——从Siri与Alexa语音识别到Facebook的照片自动标记,再到Amazon与Spotify商品推荐,机器学习技术开始越来越多地融入日常生活。目前,众多企业渴望着利用机器学习算法以改进自身网络效率。

与任何技术一样,机器学习如果未经正确实施,同样有可能对网络造成严重危害。因此在采取这项技术之前,企业应当了解机器学习可能引发的问题,同时尽量加以避免。在今天的文章中,瞻博网络公司安全智能软件得Roman Sinayev列举了以下六种机器学习领域的认识误区。

忽视意料外的变量行为

有些事物计算机认为很重要,而人类却会瞬间将其判断为毫无价值。正因为如此,部署机器学习算法之前,必须尽可能考虑更多相关变量与潜在结果。

以模型训练为例,我们假定需要帮助算法区图片中的两类载具——卡车与轿车。如果所有卡车图片皆拍摄于夜间,而全部轿车图片皆拍摄于白天,那么这套模型就会认为夜间出现的一定是卡车。

处理关键性变量及结果将有助于降低解决方案出现不必要及意外行为的可能性。

忽略数据作业

为了构建起一套训练有素的统计模型,我们必须了解被分析数据的来源与集合。这部分信息很可能给算法性能、变量以及潜在结果带来至关重要的影响。

另外,如果模型对数据进行了错误分类,很可能是因为其没有利用具备理想解的最佳代表性数据进行训练。

开发、测试,而后发布模型

模型的实用性来源于训练数据的结构与质量。在将机器学习方案在企业内发布之前,数据科学家会利用数据集进行算法模型测试,从而确保其性能及结果符合要求。这部分数据必须认真加以可视化处理,同时监控整个新数据训练流程。如果数据科学家急于完成测试,或者未能为模型提供充足的数据作为变量加权素材,那么这些数据集恐怕无法表达算法在现实世界中可能遇到的情况。

最重要的是提供充足的数据作为变量加权。在测试阶段当中,提供更多数据有助于大幅提升模型质量,并确保其在生产环境中能够真正发挥作用。

忽略潜在失误

项目的最终目标很可能会带来新的障碍,并引发潜在失误。某家大型企业就曾经推出一款社交媒体机器人,旨在利用其模仿青少年的语言模式,从而实现顺畅交互。然而,用户向机器人提出大量有争议性的话题,导致其因此调整自身学习方式——最终,该公司在不到24个小时内就撤回了这套聊天机器人。

并非每个机器学习项目都应进行公开或者允许用户访问并操纵其数据,意识到算法所处的环境将有效避免此类失误。

选择更多数据

当测试模型的性能与预期结果不符时,我们拥有两种选择——设计一套更出色的学习算法,或者收集更多数据。添加更多数据有助于工程师们了解当前模型的性能限制。如果收集更多数据的作法更易于实现,那么请继续将其馈送至算法当中,看看能否得出更具实际意义的结果。

不要忽略整体性的意义

最近在实际应用当中获得普遍成功的算法类型为集合学习——即通过多套模型组合以解决计算智能问题。集合学习的典型示例包括堆叠简单分类器,例如逻辑回归。这些集合学习方法相较于其中各类独立分类器能够显著改善预测性能。

本文作者:核子可乐

来源:51CTO

时间: 2024-11-26 08:19:10

机器学习领域中的六大误区的相关文章

人工智能和机器学习领域中10个开源项目

GraphLab GraphLab是一种新的面向机器学习的并行框架.GraphLab提供了一个完整的平台,让机构可以使用可扩展的机器学习系统建立大数据以 分析产品,该公司客户包括Zillow.Adobe.Zynga.Pandora.Bosch.ExxonMobil等,它们从别的应用程序或者服务中抓 取数据,通过推荐系统.欺诈监测系统.情感及社交网络分析系统等系统模式将大数据理念转换为生产环境下可以使用的预测应用程序.( 详情 ) 项目主页: http://graphlab.org/ Vowpal

SEO诊断:企业新站推广中存在的六大误区

A5站长网SEO诊断团队在给企业网站诊断的时候经常遇到,很多的企业新站在内容什么都还没完善的情况下就已经在做外部推广了,在搜索引擎收录之后网站却连标题都还没,网站内容最基础的优化也都还没做,这样的网站又怎么能够受到搜索引擎的青睐呢?下面A5站长网SEO诊断团队(http://seo.admin5.com/seozhenduan/)和大家浅谈下企业新站推广中存在的六大误区: 内容未充实 急于推广 内容永远都是网站永恒的话题,只有稍微了解一点的站长都明白,一个新站最重要的是内容,网站内容都没做好,就

Python vs R : 在机器学习和数据分析领域中的对比

  为了鼓励新工具的出现,机器学习和数据分析领域似乎已经成了"开源"的天下.Python 和 R 语言都具有健全的生态系统,其中包括了很多开源工具和资源库,从而能够帮助任何水平层级的数据科学家展示其分析工作. 机器学习和数据分析之间的差异有些难以言明,但二者最主要的不同就在于,比起模型的可解释性,机器学习更加强调预测的准确性;而数据分析则更加看重模型的可解释性以及统计推断.Python ,由于更看重预测结果的准确性,使其成为机器学习的一把利器. R ,作为一种以统计推断为导向的编程语言

企业网站做SEO优化应避免陷入六大误区

现在大多数企业在建设网站之初并没有考虑到有关SEO优化,而且SEO优化也是最近这几年才兴盛起来的,所以之前那些没有做过SEO优化的网站,现在基本上都已经死翘翘了,如果没有做百度推广,那基本上是看不到这些网站的影子,怎么办,难道就要企业承受这种昂贵的百度推广费用吗?我们能不能够现在痛改前非,从新拿起SEO优化的武器让自己的网站再重新开始呢?其实这是可以做到的,当然个人来做是非常困难的,所以大部分还是需要专业的SEO优化公司来给你量身定做SEO优化方案,从而保证你的网站起死回生! 可是对于企业网站的

产品用户在硬件防火墙测评中的常见误区

不是什么事都可成功的,都有失败的记录.比如硬件防火墙测评,本文尝试着整理了产品用户在硬件防火墙测评中的常见误区,将于大家进行探讨. 误区一:误信含糊实验条件的惊人数字 亲阅过无数防火墙产品广告,一个个白纸黑字标称的4G吞吐量让人炫目,但如果把"64字节小包"."线速"."坚持几分钟"之类字眼抛出来,销售人员就会对吞吐量自己先变的吞吞吐吐起来.所以不能轻信厂商提供的各项数据,必须拿标准实验条件的测试结果来比对,或者重新搭建环境亲自来测试. 误区二:

安全领域中的大数据分析

企业定期收集几TB与安全相关的数据(比如网络事件.软件应用程序事件,以及人员活动事件), 用来作合规性和事后取证分析.据估计,不同规模的大型企业每天发生的事件在上百亿到上千亿之间.随着企业启用的事件记录源越来越多,雇用的员工越来越多,部署的设备越来越多,运行的软件越来越多,这些数值还会继续增长.不幸的是,这种数据量和多样性会迅速变成骆驼背上的稻草.现有分析技术无法应对大规模数据,通常都会产生很多误报,因此功效被削弱了.随着企业向云架构迁移,并且收集的数据越来越多,这个问题进一步恶化了. 大数据分

电脑防毒杀毒的六大误区

  我们电脑随时都会受到病毒的侵害,防毒杀毒则成为我们电脑用户需要做的事情之一.可是在很多情况下,我们对防毒杀毒的理解是存在错误.误区的. 小编在这里整理几种我们的误区. 常见的防毒杀毒六大误区: 误区1:有了杀毒软件我就可以什么毒都不怕. 真的有了杀毒软件就什么毒也不怕吗?答案肯定是不行的. 病毒是不断有新的出现的,而且它的出现往往无法预料,杀毒软件也要不断史新,不断升级才能对付新出现的病毒,即使这样,有很多时候杀毒软件升级到最新也不能杀掉全部的病毒,升级到最新,只是能让您的电脑拒绝更多的病毒

人工智能和机器学习领域的一些有趣的开源项目

http://www.cnblogs.com/zengdan-develpoer/p/4380057.html 1.GraphLab GraphLab是一种新的面向机器学习的并行框架.GraphLab提供了一个完整的平台,让机构可以使用可扩展的机器学习系统建立大数据以分析产品,该公司客户包括Zillow.Adobe.Zynga.Pandora.Bosch.ExxonMobil等,它们从别的应用程序或者服务中抓取数据,通过推荐系统.欺诈监测系统.情感及社交网络分析系统等系统模式将大数据理念转换为生

浅谈地方网站运营的六大误区

中介交易 SEO诊断 淘宝客 云主机 技术大厅 2010年可以说是地方站的发展元年,19楼.化龙巷等地方站杀出三大山的重围,在2010年中国互联网本来就亮点不多的情况下,实现盈利并跟扎地方影响 力日渐扩大,成为人们生活中不可或缺的日常品.同时,三座大山中的两座,阿里和腾讯先后对社区通用软件phpwind和discuz完成了收购,社区从来 没有过如此得到互联网大佬们的如此重视.完成收购后的phpwind和discuz都非常重视地方站的开发,地方站在垃圾站被群歼后草根得一片欣欣向荣. 然而,众多的草