机器学习已成为大数据的基石

  机器学习几乎无处不在,即便我们没有专程调用它们,它们也经常出现在大数据应用之中。我曾经在博客中描述了一些典型的大数据使用案例。换句话说,这些应用都能够在“极端情况下”提供最佳的结果。在结尾部分,我还提到了拍字节级数据容量、实时数据速度和/或多结构数据多样性的结合。

  当时我还列出了一个应用列表,在收集过程中刻意避开了“机器学习分析”。主要原因是,尽管在这些使用案例中机器学习即便不是主要的,也是一个常用的工具,但是它们自身并不是一个使用案例。换句话说,它们不是一个凭借自身力量而形成的特殊应用域。出于同样的原因,我也没有像大数据使用案例那样列出模式设计、元数据管理或数据整合。但与机器学习一样,它们也都为实现大数据分析应用的价值做出了自己的贡献。

  机器学习对大数据应用投资回报的贡献主要体现在两个方面:一是促进数据科学家们的多产性;二是发现一些被忽视的方案,有些方案甚至遭到了最好的数据科学家们的忽视。这些价值来自于机器学习的核心功能:即让分析算法无需人类干预和显式程序即可对最新数据进行学习。解决方案允许数据科学家们根据典型数据集创建一个模型,然后利用算法自动概括和学习这些范例和新的数据源。

  许多情况下,机器学习是大数据创新的最佳投资回报。对机器学习的投资能够深化任何对企业定制的大数据案例。这是因为机器学习算法在容量、速度和类型(即大数据的3个V特性)中正变得日益高效。正如Mark van Rijmenam在近期有关机器学习的文章中所说的那样:“处理的数据越多,这种算法就越能体现出优势。”他认为,包括语音与面部识别、点击流处理、搜索引擎优化、推荐引擎在内,许多机器学习应用可能被描述为意会分析法(sense-making analytics)。

  意会分析法需要对从数据流中推断出来的用户语义方式、内容和重要性进行持续监控。为了支持意会的自动化,机器学习算法必须要经常性地处理一些极为复杂的东西。这其中包括组成对象或环境中隐藏的语义分类,这需要通过多种不同的数据流实时收集整体含义。这些数据流必须包括不同的对象,例如数据、视频、图像、语音、表情、动作、地理信息和浏览器点击等元素。通过机器学习从这些数据流中自动提取出来的含义,可能会混合有认知、情感、感觉和意志特征。

  为了在这些素材当中找到线索,“深入学习”(deep learning)成为了大数据科学家的机器学习指令系统中的一个重要工具。正如van Rijmenam所说的那样,利用神经网络开展的深入学习有助于从这些数据流中提取感知能力,因为这些数据流可能涉及组成对象之间语义关系的层次结构安排。“深入学习能够打破数据中具有不同特点的组成成分之间的隔阂,利用这些特点从中找出不同的特征组合,从而搞清楚它们看到了什么或者是正在做什么。”van Rijmenam说。

  显然,对于创建能够感知和处理动态分布式方案的环境来说,机器学习一个基础性工具。人类对实时威胁和恐怖主义活动、自然灾难、飓风等其他威胁的侦测与应对能力,取决于对海量数据中的信息进行自动筛选、分类和关联。如果没有这种能力,那么人类就有被“淹死”在大数据海洋之中的危险。

  36大数据知识图谱:关于机器学习

  机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

  它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

时间: 2024-10-30 04:11:41

机器学习已成为大数据的基石的相关文章

Apache Hadoop已成为大数据行业发展背后的驱动力

随着互联网技术的发展,当今网络中每天都在产生海量的信息,这其中包括半结构化和非结构化的数据.组织可以通过对海量信息的分析了解到他们客户真正需要的以及为什么需要的原因.如今Apache Hadoop已成为大数据行业发展背后的驱动力. Facebook的工程师相信他们运行着最大的基于Hadoop的数据收集平台.Facebook基础设施工程副总裁Jay Parikh表示Facebook大多数的网站数据存储在单一的集群之中,容量可达100PB,Facebook的集群相比于其他公司的集群可谓是独树一帜.

Gartner:42%IT主管已投资大数据

3月22日消息,据国外媒体报道,国际研究暨顾问机构Gartner表示,2013年是企业大规模采用大数据的一年.根据Gartner针对全球IT主管进行的调查,42%的受访者表示已投资于大数据,或者将于未来一年内进行相关投资. Gartner研究副总裁Doug Laney表示,目前多数企业仍处于采用大数据的早期阶段,仅少数已将其运用至企业层面,或是能认知大数据对其基础架构.企业与产业所产生的全面影响. 市场破坏力使得新兴数据类型和新式信息处理方式不断产生并且增加需求,企业处于快速变迁的科技环境下亦着

互联网已死-大数据的未来在哪里?

一.大数据的未来在哪里 1.互联网已死 大数据的未来在哪里?以BAT为代表的互联网公司之外是否还会有新的互联网巨无霸诞生,基于技术和资本两方面的考虑,几无可能,未来的互联网世界只能是一个几家独大,行业细分的市场,新生互联网公司的机会在于细分,而不在于挑战传统互联网巨无霸.具体到大数据应用来讲,大数据在互联网行业的应用也必将是一个行业细化的过程,而BAT的触角几乎无处不在,新公司的崛起任重而道远,大数据发挥价值的空间也就变成了BAT手中的玩具. 2.传统行业才是大数据的春天 大数据向传统行业的渗透

马云已在大数据应用上确定了两个方针

阿里的未来将由"云计算+大数据"组成.阿里正在建设一个大数据环境,让数据变成工程,围绕数据提供一整套的精细化服务.马云在整个数据应用上确定了哪两个方针?它的大数据的打法和战术以及面临的问题是什么?有哪些值得你去借鉴和思考的?仔细看看这篇记者"潜入"阿里写出的阿里最近的秘密-- 在阿里IT深入采访第一天中,阿里人提到最多的两件事:一是长腿欧巴李敏镐,二是马云最近一封内部邮件.3月8日,李敏镐空降杭州银泰将手机淘宝三八节的火热推向顶点:而马云的内部信件则明确了阿里的未来

摩根大通机器学习与金融大数据指南——未来的华尔街大亨|大数据+机器学习+金融工程师

更多深度文章,请关注:https://yq.aliyun.com/cloud 金融服务工作流行得快.过时得也快.2001年互联网公司的股权研究风靡一时:2006年,对担保债务凭证(CDOs)有着偏爱:2010年,信贷交易商很受欢迎:2014年,又轮到了合规专家:而在2017年,这是关于机器学习和大数据的时代,如果你能涉足该领域,那么你的未来将会有所保证. 摩根(J.P.Morgan)的定量投资和衍生策略团队发布了关于金融服务领域大数据和机器学习的最全面的报告,报告称,"大数据和人工智能(AI)战

百度基础架构部刘炀:开放云——大数据的基石

2014百度世界大数据论坛在北京大饭店举行,百度基础架构部高级总监刘炀对百度在开放云这个领域的进展情况进行了介绍. 刘炀 以下为百度高级总监刘炀演讲实录 刘炀:各位嘉宾下午好,非常高兴今天有机会在这里给大家汇报一下百度在开放云这个领域的一些进展.大家都知道,今天有几个特别热的词语:创新,互联网,大数据,这些几乎是所有公司今天都在追求的,不管是创新公司还是传统企业,都在追求这样的创新:怎么样跟互联网进行结合,怎么样跟大数据结合,运用大数据来提升整个公司的能力.这也是我们为什么要做开放云的原因. 三

专访邓中亮:位置信息是大数据的基石(图)

想在北京的街道里开一家门脸超过5米的商店,而不被数字地图公司记录在案,绝非易事:想在北京开车出门吃一顿饭,不被摄像头记录也不是一件容易的事情.在http://www.aliyun.com/zixun/aggregation/9204.html">基于位置服务的社交网络上,人们也许会发现今天你先进入"为民刻字部", 然后去了"李记削面馆".而这些所 有的位置信息汇聚起来就形 成了大数据. 3721.html">2014年1月20日,北京

百度高级总监刘炀:开放云——大数据的基石

2014百度世界大数据论坛在北京大饭店举行,百度基础架构部高级总监刘炀对百度在开放云这个领域的进展情况进行了介绍. 刘炀 以下为百度高级总监刘炀演讲实录 刘炀:各位嘉宾下午好,非常高兴今天有机会在这里给大家汇报一下百度在开放云这个领域的一些进展.大家都知道,今天有几个特别热的词语:创新,互联网,大数据,这些几乎是所有公司今天都在追求的,不管是创新公司还是传统企业,都在追求这样的创新:怎么样跟互联网进行结合,怎么样跟大数据结合,运用大数据来提升整个公司的能力.这也是我们为什么要做开放云的原因 三个

探秘阿里:马云已在大数据应用上确定了两个方针

(导读)阿里的未来将由"云计算+大数据"组成.阿里正在建设一个大数据环境,让数据变成工程,围绕数据提供一整套的精细化服务.马云在整个数据应用上确定了哪两个方针?它的大数据的打法和战术以及面临的问题是什么?有哪些值得你去借鉴和思考的?仔细看看这篇记者"潜入"阿里写出的阿里最近的秘密-- 在阿里IT深入采访第一天中,阿里人提到最多的两件事:一是长腿欧巴李敏镐,二是马云最近一封内部邮件.3月8日,李敏镐空降杭州银泰将手机淘宝三八节的火热推向顶点:而马云的内部信件则明确了阿