机器学习是大数据能够给组织带来智能运营的关键组成部分。尽管机器学习算法趣味无穷,但技术本身很快就会变得复杂起来。所有人不可能都成为数据科学家,但IT专业人士需要了解我们的机器是如何学习的。
揭开神秘的算法
我们越来越多地看到机器学习在实用和可实现的目标上的价值,例如针对数据寻找可用的模式然后进行预测。通常,这些预测模型用于操作流程以优化决策过程,但同时它们也可以提供关键的洞察力和信息来报告战略决策。
机器学习的基本前提是算法训练,提供特定的输入数据时预测某一概率区间内的输出值。请记住机器学习的技巧是归纳而非推断——与概率相关,并非最终结论。
构建这些算法的过程被称之为预测建模。一旦掌握了这一模型,有时就可以直接对原始数据进行分析,并在新数据中应用该模型以预测某些重要的信息。模型的输出可以是分类、可能的结果、隐藏的关系、属性或者估计值。
机器学习技术通常预测的是绝对值,比如标签、颜色、身份或者质量。比如,某个主题是否属于我们试图保留的用户?用户会付费购买吗?用户会积极响应邀约吗?
如果我们关心的是估算值或者连续值,预测也可以用数字表示。输出类型决定了最佳的学习方法,并会影响我们用于判断模型质量的尺度。
谁对机器学习方法进行监督?
机器学习方法可以是有人监督也或者是无人干预的。区别不在于算法是否可以为所欲为,而是是否要从具备真实结果的训练数据中学习——预先确定并添加到数据集中以提供监管——或者尝试发现给定数据集中的任何自然形态。大多数企业使用预测模型,对训练数据使用监督方式,而且通常旨在预测给定实例——邮件、人员、公司或者交易是否属于某个有趣的分类——垃圾邮件、潜在买家、信用良好或者获得后续报价。
如果在开始之前你不是很清楚在寻找什么,那么无人干预的机器学习方法能够提供全新的洞察力。无人干预的学习还能够生成集群与层次结构图,显示数据的内在联系,还能够发现哪些数据字段看起来是独立的,哪些是规则描述、总结或者概括。反过来,这些洞察能够为构建更好的预测方法提供帮助。
构建机器学习模型是一项反复练习的过程,需要清理数据和动手实验。目前市场上正在涌现一些自动和有向导的模型工具,它们承诺降低对数据科学家的依赖性,同时在常见领域获得最高的投资回报率。然而这里面真正的差别很可能需要你自己去发现。
原文发布时间为:2015年07月31日