大数据的真正价值在哪里?

看一看所有与大数据相关的活动,我们应该问一个问题:究竟有多少大数据在实际上是有用的。根据常识稍微思考一下,我们就会发现只有一小部分。

我已经与数据打交道超过40年。在前互联网的时代,我们经历了所谓的数据过载(dataoverload)。结果后来我们发现数据本身其实是没有价值的,只有一小部分被证明对实际商业决策有直接影响。铭记历史教训,现在最关键的问题已经变成了找到真正有用的数据。数据的量的确增加了,但值得注意的是:大部分的增长都来源于非结构化数据。

让我先根据Webopedia的定义来解释什么是非结构化数据。非结构化数据是指没有任何相同结构的数据。例如,图片、视频、电子邮件、文件和文本都被认为是一个数据集内的非结构化数据。

尽管每个单独的文档可能都包含基于其创建程序的特定结构或格式,非结构化数据也可以被认为是“结构松散的数据”,因为数据源其实是具有结构的,但数据集内的所有数据包含的结构可能不尽相同。与此相反,数据库则是一种常见的“结构化”数据。

所以回顾历史,我们现在讨论的除了数据超载还加上了一个新的变数——代表了大部分新增数据量的非结构化数据。非结构化数据代表着新的量的产生。我认为,具有强大的数据分析能力同时能很好地把握行业标准并遵守规则的公司可以提供精确的过滤解决方案,从而为用户鉴别出最有价值的数据。

多剥一点洋葱(Onion)

尽管有众多关于过滤和分析结构化数据的解决方案不断出现,例如Splunk企业版,它可收集、索引和处理所有应用程序、服务器和设备(物理、虚拟和云中)生成的可转移操作的机器数据。在讨论“Hadoop会带来什么”时,有很多人在争论其优缺点,在这里我就不多加讨论了。

我的观点是,真正的挑战是提供价格可取的,关于更复杂的过滤和实时分析非结构化数据的解决方案。虽然所有类型的数据总量预计在未来五年中将增长800%,其中80%将是非结构化数据。

我建议具备数据建模、分析、OCL、本体模型的数据挖掘等能力的公司,可以通过提供既针对结构化又针对非结构化数据的解决方案来获得一定优势。时至今日,仍然没有公司可以真正提供能在海量大数据中精确定位和寻找的“神器”。

本体论在大数据中扮演什么角色?

本体论

正规来说,本体论将知识表示为在一个领域内的分层结构,并通过一个共享的词汇表来表示这些概念的类型、性质和相互关系。

本体论是用于组织信息的结构框架,可作为一种知识展现用于人工智能、语义网、系统工程、软件工程、生物信息学、图书馆学、企业书签和信息架构。领域本体的创建也定义本体论和其企业组织架构方面应用的基础。

本体论为什么重要?

因为它使我们在寻找关键数据或趋势时不需要整合系统和应用程序。它是如何应用的,哪些是实现它功能的重要元素?

本体论结合了一个本质上非常灵活、基于图形的语义模型和语义搜索,从而降低复杂数据集成的时间尺度和成本。本体论正在重新思考后谷歌世界中数据采集、数据关联和数据迁移的项目。

为什么会有人想要发展本体论?

  • 开发本体的最常见的目标之一是共享人们或软件代理之间的对信息结构的相同理解。例如,假设几个不同的网站都包含医疗信息或提供医疗电子商务服务。如果这些网站共享和发布信息时所使用的术语背后潜在的本体论是相同的,那么计算机代理可以从这些不同的网站中提取和聚合信息。代理也可以使用这些聚合信息来回答用户查询或将其作为其他应用程序的输入数据。
  • 以一些明确的域假设作为具体实施的基础使我们可以在关于域的知识发生改变时很容易地改变这些假设。关于编程语言代码的硬编码假设使得这些假设不仅很难找到和理解,更加难以被改变,特别是对没有编程经验的人。此外,对于领域知识的明确阐述对于必须学会这些术语在领域内代表什么意思的新用户也是很有帮助的。

通常一个领域的本体本身并不是一个目标。开发一个本体就类似于定义一组数据以及供其他程序使用时的结构。解决问题的方法、域独立应用程序和软件代理都是将本体和基于本体的知识库作为数据来使用的。

分类法与本体论间的区别是什么?

在信息管理领域中,人们经常使用的两个术语就是“分类法”和“本体论”,但人们却往往不知道两者之间的区别是什么。

在技术方面,本体论意味着更广泛的信息范围。人们通常把一个分类法称为“树”,以此延伸,本体论则更像是“森林”。本体论可以包含许多种分类法,每个分类法都有其特定的组织方式。

分类法一般只局限于特定的专题范围,例如产品或医疗条件。当你想通过添加结构或上下文使非结构化信息更容易被搜索时,分类法是很有用的。例如,如果用分类法来标记搜索索引中的文件,那么当用户用关键字搜索该内容时,分类法就可以作为给终端用户的筛选选项显示在搜索结果的左侧。多种分类法可以结合起来作为过滤器来实现强效深度挖掘的搜索体验。这正是你所看到的许多大牌的电子商务网站如Amazon和Costco正在做的事情。

本体论可以被认为更像一个网络,包含了所有概念之间的不同类型的联系。本体可以包含无限种联系,在不同的主题域的概念之间创建联系相对更加容易。例如,你可以创建一个材料分类中的“木材”和产品分类中的“椅子”之间的联系。关系类型可以是“例子”、“目的”或“部分”。

如果要创建一个可能会被用于处理高级自然语言或者文本分析的更复杂的信息模型,就会用到本体论。本体论可以让你更好地理解在信息语料库中的概念和因果关系。本体论还可以让问题回答引擎更加强大:例如,如果我搜索“谁是第十六任总统?”引擎利用本体论就可以返回一个特定的结果:“亚伯拉罕-林肯”。

本体论最简洁的表述方式:

  • 什么是数据?
  • 这意味着什么?
  • 它哪里来?
  • 为什么我们需要它——一旦我们知道这些,我们就能找到真正需要的数据了。

    原文发布时间为:2015-12-23

时间: 2024-09-26 05:35:17

大数据的真正价值在哪里?的相关文章

汽车行业大数据的营销价值

笔者按: 有人在汽车设计制造出之前就能知道其品质好坏及市场营销效果. 有人在看到汽车行驶之前就能判断出其现在与将来的"二手车残值率". 有人在购买汽车之前就能知道汽车价格的涨跌范围-- 他们是怎么做到的? "大数据"时代给汽车营销带来新的契机.对于传统汽车企业来说,如何借大数据之势,建立智能.精准的营销网络系统,助力企业营销决策分析.精准定位目标客户人群.监控品牌影响力.提高产品质量.改进生产工艺,逐步提升市场销售额和完善售后服务质量.以上正是本文所着重阐述的. 术

易传媒郑靖伟解读大数据时代的价值营销

今天,广告正从单纯的广而告之向精准辐射转变,从一点到多点的传统传播,转变为多点互动的新型传播.伴随着移动互联网与社交网络兴起,互联网营销将在行为分析的基础上向个性化时代过渡.虽然大数据目前在国内还处于初级阶段,但是商业价值已经显现出来.手中握有数据的公司已站在金矿上,基于数据交易即可产生很好的收益,基于数据挖掘会有很多商业模式诞生.据统计,目前大数据所形成的市场规模在51亿美元左右,而到2017年,这个市场预计会上涨到530亿美元的规模. 而"大数据"时代下的网络营销能否颠覆传统?什么

互联网时代大数据的核心价值

都说现在是大数据时代,那么大数据是什么?大数据有什么用?大数据最核心的价值是什么呢?其实大数据的核心价值很简单,就是了解用户行为(更简单说就是了解用户行为习惯).今天我们就细说大数据的核心价值. 一.什么是元数据(Metadata)? 元数据是对数据本身进行描述的数据,或者说,它不是对象本身,它只描述对象的属性. 比如,一幅画本身,是数据.而这幅画的作者.完成时间.尺寸.价格.类型等等,就是它的元数据. 又如,你妈给你介绍个相亲对象,你并不认识他,但你妈告诉你他的年龄.身高.体重.体貌特征.家庭

如何让隐藏在大数据背后的价值发挥出来?

对于普通人来说,大数据离我们的生活很远,但它的威力已无所不在:信用卡公司追踪客户信息,能迅速发现资金异动,并向持卡人发出警示;能源公司利用气象数据分析,可以轻松选定安装风轮机的理想地点;瑞典首都斯德哥尔摩使用运算程序管理交通,令市区拥堵时间缩短一半--这些都与大数据有着千丝万缕的关系. 牛津大学教授维克托·迈尔-舍恩伯格在其新书<大数据时代>中说,这是一场"革命",将对各行各业带来深刻影响,甚至改变我们的思维方式,但同时它也引发"数据暴政"的担忧. 如今

专访崔崇彦:大数据的真正价值在于预测,而不是说明现状

在美国沃尔玛,啤酒和尿布两个货架被放在一起,因为买啤酒的爸爸一般都会拿一包尿布回家.先于大数据概念,大数据的逻辑就已经出现在商业领域. 如今,大数据和"互联网+"已经成为人人谈及的流行用词.但2015年,人们专注于技术层面的探讨--怎样获取,如何通过技术手段获取人流信息.购买信息等.2016年,突破设备壁垒后,怎样把这些数据进行分析.解读,将数据转化为运营价值,对自我和竞争对手进行考察,成为行业需要面临和探讨的一件大事. 2016年,大数据都经历了什么?未来的大数据能够做什么?今年的商

数造未来——探索大数据的应用价值

文章讲的是数造未来--探索大数据的应用价值,当全世界都还在热议大数据甚至有些质疑大数据的时候,早有一批大数据的先驱已经开始通过实际行动去证明,大数据的应用价值.甚至我们开始畅想,大数据会营造出一个怎样的未来世界? 12月12日,永洪科技在北京举办了一场"数造未来--永洪科技·2015年度用户大会",与500多位数据精英一起探讨数据创造的美好未来,深入剖析大数据分析和数据化运营对企业的应用价值. 关于大数据应用价值的探讨,这绝对不是第一次也一定不是最后一次.那么,这次由国内专注于大数据分

2013 Teradata大数据峰会:演绎数据价值

文章讲的是2013 Teradata大数据峰会:演绎数据价值,4月24日消息,第13届Teradata Universe峰会(亦称2013 Teradata大数据峰会)在北京国际饭店正式举办.本届峰会是国内最大规模的数据分析峰会,聚焦于数据仓库.数据探索和大数据分析应用,帮助中国客户建立大数据分析能力,赢得决胜未来的核心竞争力. 本届峰会为期2天,以"数据价值,极致演绎"为主题,吸引了全球1000多名数据分析领域的专业人士.企业及政府用户.合作伙伴.技术专家.行业分析师和媒体共聚一堂,

三位创业者解答:大数据创业的价值、模式和挑战

近几年来,大数据的应用场景扩展到几乎每一个垂直行业.在得到资本青睐的同时,也面临着如何将数据的价值最大化利用,如何面对信息监管等诸多问题. 在日前IT桔子·腾讯云沙龙"对话垂直行业大数据×创业"活动中,三位大数据方向的创业者解读了大数据创业者的动力和迷茫,也回答了诸多大家关心的问题. 本文根据现场提问环节整理,有删减. 大数据到底有哪些价值?如何通过产品和技术将这些价值最大化? 白冬立<热云数据>:我是三位当中,唯一一个专注在移动互联网用户行为的大数据创业者.我们有足够多用

占领大数据产业链的价值高地

当大家还没搞清楚PC时代的时候,互联网来了:还没搞清楚互联网的时候,移动互联网来了:还没搞清移动互联网的时候,大数据时代来了.在大数据时代,三分技术,七分数据,得数据者得天下的新经济模式逐渐凸显. 数据服务产业崛起 大数据是传统统计行业与互联网精神相结合的新领域,通过电子信息化大大降低了传统统计成本.经过多年的发展,由少量经典案例到广泛数据应用,新确定的第三数据服务产业地位渐渐清晰. 权威机构预测,2014年全球大数据技术服务支出将超过140亿美元,2018年市场年均复合增长率将达26%,支出增

《智能数据时代:企业大数据战略与实战》一1.2 大数据如何发掘价值

1.2 大数据如何发掘价值 提取出有价值的信息总是说起来容易,做起来难.从理念.技术到实践操作,任何一个环节都对我们发掘大数据的内在价值提出了挑战.我们可以通过四个维度来思考大数据,这四个维度的内容如下:1)体量(Volume).大数据的数据规模很大.企业里处处充满数据,很容易积累起兆级乃至PB级的数据信息.2)种类(Variety).除了结构化数据,大数据还包含各种各样的非结构化数据,如文本.音频.视频.点击流量.日志文件等.3)真实(Veracity).从大数据整合而来的大量数据信息会存在一