解决大数据挑战先回答三个问题

当今,大数据的到来,已经成为现实生活中无法逃避的挑战。每当我们要做出决策的时候,大数据就无处不在。大数据术语广泛地出现也使得人们渐渐明白了它的重要性。大数据渐渐向人们展现了它为学术、工业和政府带来的巨大机遇。与此同时,大数据也向参与的各方提出了巨大的挑战,首先是三个重要的技术问题:一、如何利用信息技术等手段处理非结构化和半结构化数据大数据中,结构化数据只占15%左右,其余的85%都是非结构化的数据,它们大量存在于社交网络、互联网和电子商务等领域。另一方面,也许有90%的数据来自开源数据,其余的被存储在数据库中。大数据的不确定性表现在高维、多变和强随机性等方面。股票交易数据流是不确定性大数据的一个典型例子。大数据刺激了大量研究问题。非结构化和半结构化数据的个体表现、一般性特征和基本原理尚不清晰,这些都需要通过包括数学、经济学、社会学、计算机科学和管理科学在内的多学科交叉来研究和讨论。给定一种半结构化或非结构化数据,比如图像,如何把它转化成多维数据表、面向对象的数据模型或者直接基于图像的数据模型?值得注意的是,大数据每一种表示形式都仅呈现数据本身的侧面表现,并非全貌。如果把通过数据挖掘提取“粗糙知识”的过程称为“一次挖掘”过程,那么将粗糙知识与被量化后主观知识,包括具体的经验、常识、本能、情境知识和用户偏好,相结合而产生“智能知识”过程就叫做“二次挖掘”。从“一次挖掘”到“二次挖掘”类似事物“量”到“质”的飞跃。由于大数据所具有的半结构化和非结构化特点,基于大数据的数据挖掘所产生的结构化的“粗糙知识”(潜在模式)也伴有一些新的特征。这些结构化的粗糙知识可以被主观知识加工处理并转化,生成半结构化和非结构化的智能知识。寻求“智能知识”反映了大数据研究的核心价值。二、如何探索大数据复杂性、不确定性特征描述的刻画方法及大数据的系统建模这一问题的突破是实现大数据知识发现的前提和关键。从长远角度来看,依照大数据的个体复杂性和随机性所带来的挑战将促使大数据数学结构的形成,从而导致大数据统一理论的完备。从短期而言,学术界鼓励发展一种一般性的结构化数据和半结构化、非结构化数据之间的转化原则,以支持大数据的交叉工业应用。管理科学,尤其是基于最优化的理论将在发展大数据知识发现的一般性方法和规律性中发挥重要的作用。大数据的复杂形式导致许多对“粗糙知识”的度量和评估相关的研究问题。已知的最优化、数据包络分析、期望理论、管理科学中的效用理论可以被应用到研究如何将主观知识融合到数据挖掘产生的粗糙知识的“二次挖掘”过程中。这里人机交互将起到至关重要的作用。三、数据异构性与决策异构性的关系对大数据知识发现与管理决策的影响由于大数据本身的复杂性,这一问题无疑是一个重要的科研课题,对传统的数据挖掘理论和技术提出了新的挑战。在大数据环境下,管理决策面临着两个“异构性”问题:“数据异构性”和“决策异构性”。传统的管理决定模式取决于对业务知识的学习和日益积累的实践经验,而管理决策又是以数据分析为基础的。大数据已经改变了传统的管理决策结构的模式。研究大数据对管理决策结构的影响会成为一个公开的科研问题。除此之外,决策结构的变化要求人们去探讨如何为支持更高层次的决策而去做“二次挖掘”。无论大数据带来了哪种数据异构性,大数据中的“粗糙知识”仍可被看作“一次挖掘”的范畴。通过寻找“二次挖掘”产生的“智能知识”来作为数据异构性和决策异构性之间的桥梁是十分必要的。探索大数据环境下决策结构是如何被改变的,相当于研究如何将决策者的主观知识参与到决策的过程中。大数据是一种具有隐藏法则的人造自然,寻找大数据的科学模式将带来对研究大数据之美的一般性方法的探究,尽管这样的探索十分困难,但是如果我们找到了将非结构化、半结构化数据转化成结构化数据的方法,已知的数据挖掘方法将成为大数据挖掘的工具。以上是我对大数据的三个重要技术问题进行研究的一些心得,也仅仅是一个研究大数据挑战的起点。除此之外,还有一些数据科学的问题,包括在获得数据和从数据中产生规则方面可能存在的公理体系,基于数据库的知识发现规则与基于开放数据源的知识发现规则以及大数据挖掘的整体和(或)局部解的存在性问题等等。在不久的将来,我相信这些问题都需要去仔细研究,以获得突破性科研与应用成果。

时间: 2024-07-29 00:09:38

解决大数据挑战先回答三个问题的相关文章

企业CIO解决大数据挑战 先回答三个问题

当今,大数据的到来,已经成为现实生活中无法逃避的挑战.每当我们要做出决策的时候,大数据就无处不在.大数据术语广泛地出现也使得人们渐渐明白了它的重要性.大数据渐渐向人们展现了它为学术.工业和政府带来的巨大机遇.与此同时,大数据也向参与的各方提出了巨大的挑战,首先是三个重要的技术问题: 一.如何利用信息技术等手段处理非结构化和半结构化数据 大数据中,结构化数据只占15%左右,其余的85%都是非结构化的数据,它们大量存在于社交网络.互联网和电子商务等领域.另一方面,也许有90%的数据来自开源数据,其余

企业部署大数据需要注意的三个陷阱

文章讲的是企业部署大数据需要注意的三个陷阱,大数据带来了巨大的机会,但是新手在部署大数据时经常出现一些问题,需要有经验的专业人士答疑解惑.根据Frost&Sullivan咨询公司的一份研究报告显示这些问题主要表现在以下三个方面:即不完整的数据收集.项目延期和资源匮乏. 事实上,这些问题已经非常普遍,同时给行业带来了巨大的风险,组织部署大数据急需专家的技术支持."相比企业自身解决,寻求专家的帮助将有效的帮助企业降低成本."Frost&Sullivan研究报告<The

小数据:解决大数据难题的“良药”

当前,随着大数据日渐炙手可热,大数据的应用也在逐渐深入,然而,围绕大数据的争论却从未停止过,依然非常激烈.其中一个原因就是,尽管前景美好.潜力巨大,但在"大体量"数据利用及实现商业价值的过程中往往充满挑战.非常棘手. 如首先,需要强大的机器和经验丰富的数据科学家将原始信息及庞大数据转化为洞察力.在这个过程中,如何去分配正确资源,并跨部门和学科去释义这些信息都非常困难.而当我们从数据中抽离出洞察见解之后,下一步该如何去利用这些洞察也一样充满困惑. 那么,在目前阶段,该怎么办呢?笔者认为解

解读大数据技术面临的三个重要技术问题

大数据技术面临的三个重要技术问题,我们一起来看看.当今,大数据的到来,已经成为现实生活中无法逃避的挑战.每当我们要做出决策的时候,大数据就无处不在.大数据术语广泛地出现也使得人们渐渐明白了它的重要性.大数据渐渐向人们展现了它为学术.工业和政府带来的巨大机遇.与此同时,大数据也向参与的各方提出了巨大的挑战,首先是大数据技术面临的三个重要问题:   一.如何利用信息技术等手段处理非结构化和半结构化数据 大数据中,结构化数据只占 15%左右,其余的 85%都是非结构化的数据,它们大量存在于社交网络.互

大数据技术面临的三个重要技术问题

大数据技术面临的三个重要技术问题,我们一起来看看.当今,大数据的到来,已经成为现实生活中无法逃避的挑战.每当我们要做出决策的时候,大数据就无处不在.大数据术语广泛地出现也使得人们渐渐明白了它的重要性.大数据渐渐向人们展现了它为学术.工业和政府带来的巨大机遇.与此同时,大数据也向参与的各方提出了巨大的挑战,首先是大数据技术面临的三个重要问题: 一.如何利用信息技术等手段处理非结构化和半结构化数据 大数据中,结构化数据只占 15%左右,其余的 85%都是非结构化的数据,它们大量存在于社交网络.互联网

单一平台不能解决大数据的所有需求 那么试试Teradata下一代大数据分析生态系统

ZD至顶网CIO与应用频道 05月06日 北京消息(文/王聪彬):今年的Teradata的大数据峰会又如期而至,每年探讨的主题当然也是围绕着大数据的价值,但是现在数据上也有了更多的新趋势,深度(更敏捷的数据).宽度(融合内外部资源).跨度(跨行业的脱敏数据使用).Teradata大中华区首席执行官辛儿伦也表示,为了更有效的满足这三个维度的需求,也就有了今年的新主题"数据仓库 开源融合 极致演绎".   Teradata大中华区首席执行官辛儿伦 辛儿伦同时总结了影响着大数据的使用的&qu

影响大数据投资回报率最大化的三个因素

文章讲的是影响大数据投资回报率最大化的三个因素,绝大多数部署大数据平台的企业期望从投资中获取显著的价值,但是将近一半的企业并没有实现其预计的价值和投资回报率(ROI).根据Wikibon最新的研究显示,对于大多数企业来说,大数据项目的投资回报率令人失望. Wikibon首席研究员Jeffrey F. Kelly在接受记者电话采访中表示,"从长远来看,企业期望的投资回报率是3-4倍.但是根据我们的分析,目前企业获得的平均投资回报率约为55%." Wikibon在总结多种信息源的基础上得到

CIO:物联网的大数据挑战

近日,2012第二届中国计算机技术大会在京召开,会上,IBM中国研究院沈晓卫提出了物联网的大数据挑战. 沈晓卫谈到,IBM认为,物联网不仅仅是传感器,物联网是提供支撑智慧地球的一个基础架构,物联网的存在使这种基于大数据的采集以及分析变成了一种可能,这面临着三项挑战. 1)物联网的边缘计算.大量的数据产生并不是所有的数据都要送到数据中心处理,这样可以减低企业对网络带宽的要求,提供更加实时的反映时间,增加系统的可靠性.如果上端的网络产生故障,我们具有边远计算的能力,底层系统还是可以得到及时的控制和反

处理大数据挑战:管理与监督

大数据挑战需要管理监督 对于一些组织来说,管理和分析超大规模数 据集的最大挑战之一就是搜索可以带来商业利益的有价值的信息,决定哪些数据 可以被丢弃. 例如:UPMC是一家总部位于匹兹堡的医疗保健网络机构,它 拥有20多家医院和超过五万名员工,该机构发现最近几年的数据存储突飞猛进地 增长.William Costantini是该公司综合业务中心的副主任,他认为很大程度上 是因为员工们不敢删除任何信息. Costantini说:"目前最大的问题是要 弄清楚哪些你可以清除,哪些你不能清除,因为每个人都