自动洞察:大数据的下一个重大转折

为了跟随大数据的发展以及提高我们对信息的使用,我们需要具有洞察力的应用,可以在连接洞察与操作的时候快速且低廉地提取相关性。

我坚持认为具有洞察力的应用是帮助企业高效探究大数据的关键,可以提高决策效率和解决重大问题。为了更好的理解和重视我们开发该应用的重要性,有两件事是很重要的,一是了解大数据大体上发生了什么,二是评估我们使用商业智能系统的经验如何促进我们思考这个应用。

因为我认为具有洞察力的应用是大数据的下一个变化(可以看看最近IBM沃森平台使用的一些应用),我会发表系列博客进一步探究这个问题。在第一篇博 客里,我将通过我的观察展示25年来数据分析是怎样发展的,特别是到了大数据阶段,发展具有洞察力的应用是必须的。第二篇,我会更加详细的描述这些应用, 并给出早期的一些例子。第三篇和最后一篇,我会讨论投资者对这些应用的兴趣,还有讲下我最近对相关创新企业的投资。在这些文章中,我作为两家分析应用创新 企业的创办人,我将提到我如何将过去30年的工作经验和15年风险投资经验运用到这些企业中。

数据分析25年来的发展

数据量在过去25年一直在增长,用于决策的数据完整性促进了两个步骤的行程,即创建数据仓库和了解数据仓库的容量。

数据仓库及其他特殊变形–企业数据仓库,数据集市等等-,是精选数据的基础。

数据可能来自单独的数据源(如:一个CRM应用的数据库)或者由许多数据源整合而来(如:一个CRM应用的数据库整合,数据库内含有CRM数据库里的每位客户的社交媒体互动)。

数据可能是结构化的(如:描述客户支付金额的数据),也可能是非结构化的(如:自由文本里客户与工作人员的互动备注),也可能是半结构化的(如:网 络路由器生成的日志文件数据)。被捕捉到的精选数据都是已经自动被清洗干净,被标签和分析好了的,减少了人们的人工思考的时间。

这些年,随着开源软件,云计算和商用服务器硬件的使用,我们减少了数据仓库的费用,也提高了我们管理更多不同高速产生的数据的能力。我们的收支状态 已经发生改变,从为数据仓库花费几千万美元,转变为最大的公司并开始盈利,如金融服务组织花旗银行Citibank和大型零售商沃尔玛Walmart,从 仓库到中小型企业皆可支付的状态。最近,低成本服务提供商,如亚马逊 Redshift, 谷歌 BigQuery以及微软Auzre,已经将数据仓库转移到云。最终,数据仓库能被大众公司接受。

随着数据仓管的增加,数据报告的发表形式从打印到数字化。

数据完整性的第二步包括通过数据分析,理解数据仓库的内容。在商业环境中,通常是通过报告和相关联的可视化实现数据的完整性,有时也使用更多定制的 可视化和机器学习算法,比如人造神经网络。(机器学习不是新的内容,但是大家认为,它从数据仓库出现就一直被使用,作为数据储存和管理的工具。)

随着数据仓库被不同行业的大量企业采用,我们看到了报告形式的转变,它是可以被创造的,媒体可以提供分析学者和决策者报告,或者员工自己准备这些报 告。早期(80年代晚期,90年代初期),商业智能报告是由指定的IT职员负责的,在报告中对数据仓库的必要查询是有相关标准和主题的。这些报告通过电脑 用纸保存(如:报告可以被修改,但是只能由那位负责该报告的职员完成)和展示。后来,报告仍然可以保存,同时这些报告可通过指定的报告项目展示在PC上, 再后来,Web浏览器可运行在不同的设备上,包括智能手机和平板,所以报告也能在这些设备上展示。这些年来,创建查询和撰写报告的任务已经从IT员工转移 到企业用户。但是,当这些查询和相关报告可以更快的生成,更加灵活和广泛的使用时,这些报告的主要使用者-企业分析师-他们仍然在不断的,尝试在报告中得 出信息的最简单的模式。更重要是,这些用户在尝试基于这些信息采取相应的操作(图1)。

图1:复杂的数据模型和可视化的一些例子,图片授权自Evangelos Simoudis

随着更多的数据生成,我们已经可以更好更有效的管理它的费用,但是要想对数据进项有效分析,仍然不是件容易的事。

受网络全球广泛使用,以及网络支付的连接,还有如物联网等新领域得出大量我们从未见过的数据的驱使,发现我们的周围充斥着数据。快数据和慢数据,简单数据和复杂数据,以及全部一起出现的前所未有的海量数据。数据量可以有多大?

图表2:展示了生成非结构化数据从2005年到预计2020年的增长情况,图表授权来自互联网数据中心IDC,图表未经许可,不可使用。

在过去10年,数据变得更大,同时企业IT战略的核心实现了“事半功倍”。企业现在面临着数据仓库系统的两个难题。第一,有些系统不能有效管理捕捉到的大数据,导致不能有效使用那些应用。第二,费用高的离谱,对于系统而言可能会成为数据管理的挑战。

关于这些问题,出现了部分解决方案,是由科技巨头公司(如谷歌,雅虎等)开发的数据管理软件,去得到新的数据生成,如Hadoop。一开始,这个软 件是运行在商用服务器硬件,它是快速开源的,因此可以帮助一些企业用低廉的成本解决一些大数据的问题。比如像Cloudera, Hortonworks和一些其他提供开源软件服务的公司已经成为大数据非结构化领域的主要成员。我之所以说只是出现了部分解决方案,是因为,在管理数据 的时候,一些系统不具备解决复杂性问题的功能,专属的数据仓库管理系统只有一些企业拥有。这些新的系统擅长建立数据湖,通过低成本选择的方式替代和扩展数 据仓库,它是适应大数据环境的设施。

虽然我们提高了有效管理数据费用的能力,但是我们分析数据的能力和费用没有改善。

虽然大众媒体都宣布来自数据的洞察力将是“新石油”(“黄金”),但是市场研究公司互联网数据中心IDC则预测到了2020年,只有一小部分数据可以被收集和分析。我们需要分析更多捕捉到的数据和提取其中包含的信息。

我们在努力提高分析数据的能力,但是面临数据专业人员的短缺。

为了收集和分析更多的数据,包括报告里面的数据,我们开始通过机器学习和其他基于AI的数据分析技术,来广泛地使用自动信息提取方法。但是这些方法 只能由数据科学家使用,这是一种新的职业。虽然我们看到一大批数据科学家的涌现,但是我们需要更多。目前无法做到培养出满足需求数量的数据科学家,以及提 供我们生成足够的数据。McKinsey预计到了2018年,美国将将面临人才短缺,大概缺14到19万名掌握深入分析技巧,能够从收集的数据里提取洞察 的专业人才。

我们也面领着人才短缺,缺少大概15万名经理人,他们掌握着必要的定量技能,能基于数据科学家的大数据分析结果做出重要的商业决策。

机器学习提升了我们找到数据相关性的能力,恰好节省了决策时间,增加了数据效率。

商业智能作为一个领域已经发展了40年。统计分析和机器学习科技则使用了更久。这段时期,我们已经提高了确认数据集相关性的能力,这恰好减少了用在 决策上的时间和增加了数据的效率。比如,公司的财务官需要一个月才能做出财务预测,然而一个自动线上广告平台只需要10毫秒就能决定将他们的数字广告投放 给哪一位客户(图3)。还有,当财务官在根据几兆数据做出决策时,线上广告系统已经在利用TB级数据在工作,大部分数据是实时生成的。

图3:图表显示不同行业做出决策的平均时间。图表授权来自Evangelos Simoudis.

在某些应用领域,简单的确认数据集之间的关联性就足以做出决策。这其中又有一些领域可以实现高回报,这通常会让他们决定是否需要数据科学家或者其他 特定专业人才,从现有数据中提取信息。计算机安全威胁检测和信用卡盗刷侦测领域就是其中两个。在这些领域里,作出决策的时间非常短,“错误”决策的成本 (通常是保密的),但是至少一开始不是很高。而减少处理环节就跟安全侵入一样是诈骗行为(如:信用卡持卡人遇到了麻烦,那么系统管理者就应该要进行网络取 证)。但是,在一个已经建立好的行为模式里发现异常现象失败,造成的成本可能更高。

为了跟随大数据的发展以及提高我们对数据的使用,我们需要能够快速且廉价的提取相关性的应用,将洞察与操作联系起来。

预计将短缺大量掌握定量技能的数据科学家和商业用户,我们渴望能继续探究大量已经收集和管理起来的数据,我们会开发更好的分析应用,能生成洞察力和联系操作。这些应用,我称它们为具有洞察力的应用,远不止从数据里提取相关性那么简单。

就数据的完整性方面我们已经取得了不错的成绩。一方面我们减少了管理大数据的费用,另一方面,我们提高了分析和提取关键信息的能力。但是,大数据的 增长量太大了,以至于没办法跟得上大数据快速灵活的查询和报告。通过使用具有洞察力的应用,能低成本且快速地创造具有操作性的洞察。我将会在下一篇报道中 更深入的探讨这个问题。

作者简介: Evangelos Simoudis是富有经验的风险投资专家以及全球企业的高级顾问。他的投资事业开始于15年前,先后在安佰深集团和Trident Capital。如今,Evangelos主要是投资初期和成长期阶段的企业,这些企业主要是来自数据和分析领域,提供软件即服务的应用(Saas应 用),具有流动性。他是企业创新,大数据,云计算以及数字市场平台公认的思想领导者,他也是这些方面的积极发言人和贡献者。

原文发布时间为:2016年3月7日

本文作者:36大数据 

本文来自合作伙伴至顶网,了解相关信息可以关注至顶网。

时间: 2024-09-07 05:29:47

自动洞察:大数据的下一个重大转折的相关文章

IDG 李丰:大数据是下一个爆发点!

联想之星和创客总部举办了一个主题为"寻找下一个移动互联网爆发点"的小型沙龙.在这次会上,不仅宣布了由联想之星创业联盟成员企业和北大校友共同发起的创业孵化器创客总部成立,还邀请联想之星投资总监刘维.IDG资本合伙人李丰.天天动听CEO黄晓杰.墨迹天气CEO金犁等人进行了演讲,从不同角度对移动互联网的未来发展趋势和可能出现的爆发点进行讨论.其中 IDG资本合伙人李丰作为投资人代表做了发言,分别对当下移动互联网创业的几个热点如大数据.移动交易.软硬结合等进行了点评,以下内容整理自李丰在现场的

论证:为什么大数据是下一个浪潮?

数据成为 DT 时代的核心要素. 今年上半年互联网热出现一个新动向,就是入口和应用场景的争夺已到了短兵相接.贴身肉搏的激烈程度.巨头们争夺的最终目标是数据资源.数据已成为 DT(数据技术)时代的核心要素.世界经济论坛报告曾经预测: "未来的大数据 将成为新的财富高地,其价值可能会堪比石油",成为战略性资源. 被低估的影响:大数据将指引人类走向智能社会. 一方面大数据"量"和"质"的双提升奠定人工智能的基础,另一方面数据驱动颠覆传统计算机算法,导致

大数据的下一个五年:Hadoop将推动数据平民化

美国联合市场研究(Allied Market Research)机构近日预测,到2020年,Hadoop的市场价值会超过500亿.Hadoop技术发展至今,走过了近九个年头,乘着大数据的东风,它以低廉的存储和快速的处理能力迅速在中小企业蔓延开来.而据联合市场研究预测,五年后,Hadoop会得到更广泛的部署,不止局限在中小企业. 几年前,还有评论人士称,Hadoop只能应用于企业10%的数据.但今日一份名为<2014年数据库技术现状调查>的数据显示,13%的受访者已经将Hadoop应用于产品生产

大数据的下一个前沿是什么?

MGI(麦肯锡全球研究院)和麦肯锡商业技术办公室的报告显示,当今世界的信息量已呈爆炸式增长态势,大型分析数据集--即所谓的大数据,将成为引发新一轮生产力增长.创新及竞争的关键基础之一. 多媒体的崛起,社交媒体及物联网所捕捉到的.与日俱增的信息量,将会使数据在可预见的未来呈指数性增长. 麦肯锡研究了五大领域的大数据--美国医疗保健.欧洲公共部门.美国零售业.美国制造业及全球个人位置数据.对于每个领域,大数据都能创造价值. 例如,如果充分利用大数据技术,零售商就能使其营业利润率提高约60%以上.大数

德勤:大数据时代下的新商务战略

 "一旦我们决定主动采取行动而非被动反应,可能性将数不胜数." 乔治 ·萧伯纳          大数据蕴藏着各种可能性.但套用乔治·萧伯纳的上述名言,企业领导者应如何主动采取行动而非被动反应呢?追求价值最大化的过程中,企业应主动出击,未雨绸缪.在适当的时机,通过大数据能够及时洞察在小数据中难以发现的新兴趋势,使企业在制定战略时更具前瞻性.   大数据应用现状  大数据的发展空间  事实上,在竞争激烈的环境中,大数据可能会迫使企业采取行动,而非被迫做出反应.然而,假设企业已对大数据应用

大数据趋势下,服务风暴必将来临

关于大数据讨论沸沸扬扬,国外厂商齐发力,推出不少大数据产品.那么国内厂商该如何应对大数据的机遇和挑战呢? 近期,中国电子信息产业发展研究院(CCID)日前发布<2011年中国数据库软件市场研究报告>(以下简称<报告>).预测2012年中国数据库软件市场规模预计达到38.71亿元,将比2011年大幅增长20.6%,以人大金仓为首的国产数据库软件市场规模预计达到3.29亿元,比2011年增长26.5%,呈现爆炸式增长.报告指出预计到2020年,世界上的数据存储总额将达到35ZB,大数据

大数据背景下 个性化服务如何成功落地?

大数据的迅速增长及相关技术的发展,正在带来全新的商业机遇.大数据将怎样改变人们的生活?又将如何改变企业的生意?维克托·尔耶·舍恩伯格在<大数据时代:生活.工作与思维的大变革>中前瞻性地指出,大数据时代最大的转变就是放弃对因果关系的渴求,而取而代之关注相关关系.也就是说,只要知道"是什么",而不需要知道"为什么". 据有关机构预测,2015年,90%以上的企业主管都会把信息视为一种战略资产,但只有不到10%的企业主管能充分实现这些信息的经济价值.正因为如此

大数据背景下学生工作的理念变革与实践探索

随着互联网.移动通信技术.云计算的快速发展,大数据的话题被广泛传播,一个大规模生产.分享和应用数据的时代正在开启.正如英国大数据专家维克托·迈尔·舍恩伯格教授所言,大数据是人们获得新的认知.创造新的价值的源泉,我们的行为.位置,甚至身体生理数据等每一点变化都成为了可被记录和分析的数据.[1]大数据时代开启了一场生活.工作与思维的大变革,无独有偶,大数据也为高校学生工作无论从理念到方法,从思维到技术都带来了深刻的变革,在大数据背景下如何实现学生工作从精细化管理到精准化服务的变革应是新形势下学生工作

大数据视野下的语言学研究新趋势

大数据.云计算.智能化等新技术的不断涌现,为语言学研究注入了新的活力,语言学在社会科学中的地位越发凸显.4月22日,以"大数据视野下的语言学研究新趋势"为主题的第六届中国语言学研究方法与方法论问题学术讨论会在京召开.此次会议由会议的常设主办单位中国社会科学杂志社和合作单位北京语言大学联合主办.国内十多所高校.科研单位的30余名专家学者围绕大会主题展开研讨和交流. 语言学研究方法的新思考 "语言之学有两个关注,一是关注对语言本身的研究,一是关注对语言研究的研究."北京