必备知识:大数据处理应遵循的原则

简约原则

这是牛顿创设的一条“极简主义”的节约规则。在牛顿看来,神奇的自然界在创设过程中选择的简单性和对繁琐的讨厌,使得人类也形成如下观念:“在用很少的东西就能够解决问题的情况下,决不劳力费神和兴师动众”;要始终体现大自然所遵循的简约性、精准性、合理性与有效性。欲达此目的,就需要在云计算或大数据处理中,遵循简约原则,选择有用数据,淘汰无用数据;识别有代表性的本质数据,去除细枝末节或无意义的非本质数据。要能够确识数据之间的巨大差距或差异;要能够鉴别和挑出那些“以一当十”的数据和信息。这种简约原则在大数据的收集、挖掘、算法和实施中的最有效途径,就是对“数据规约”的运用。所谓数据规约就是简化现有的数据集,使得一种小规模的数据就能够产生同样的分析效果。常用的数据规约策略有数据立方体聚集、维规约、数据压缩、数值压缩、离散化和概念分层等,而常用的数据规约方法则主要包含粗糙集、遗传算法、主成分分析、逐步回归分析、公共因素模型分析等。运用这些规约方法,就可以获取可靠数据,减少数据集规模,提高数据抽象程度,提升数据挖掘效率,使之在实际工作中,可以根据需要选用具体的分析数据和合适的处理方法,以达到操作上的简单、简洁、简约和高效。具体地说,当一位认知主体面对收集到的大量数据和一些非结构化的数据对象,如文档、图片、饰品等物件时,不仅需要掌握大数据管理、大数据集成的技术和方法,遵循“简约原则”和“数据集成原则”,学会数据的归档、分析、建模和元数据管理,还需要在大量数据激增的过程中,学会规约、选择、评估和发现某些潜在的本质性变化,包括对新课题、新项目的兴趣和开发。

综观原则

所谓综观,就是对认知对象进行综合性的观察、分析和探索;就是从总体上对认识对象、认识过程和认识结果进行抽象、概括或直觉,并通过具体的信息数据超越那涵盖于总体性中的局部或个别。这种综观既针对构成事物之个体的全部,也针对构成事物的诸要素组成的统一体,以及总体上显现的本质和规律。综观较整体观察更加辩证。它坚持从大处着眼,从总体上去“观其状,求其法,探其道”,以求得解决问题的策略和战略。它坚持整体的具体统一性,凸显认知对象的具体实在性。至于现实中,人们究竟如何对具体的认知对象进行综观,这里需要借助与综观紧密相关的大数据集合的理论与实践。因为大数据集成,既包括对存贮在结构化数据结构中的数据进行移动和集成,也包括对一大部分非结构化数据中的数据进行移动、调节和集成。比如面对复杂的信息和数据,人们就可以将“云架构、实时数据集成、数据虚拟化、数据集成建模”等先进技术用到具体问题的解决中,使用一种根据大数据制作的“可预测模型描述语言”(pmml),为其提供一种快速简便的程序和模型。此时,通过使用标准的xml(可扩展标记语言)解析器对pmml进行解析,应用程序就能够决定模型输入和输出的数据类型,及模型的详细格式,并会按照标准的数据挖掘术语来解释模型的结果。通过对大数据的综观、模型化和虚拟化,可以做到花最小气力,获最大效益。特别是数据虚拟化,不仅可以为数据使用者提供极具真实性、完整性和精准性的“实时集成的数据视图”,还可以将来自不同数源的数据信息整合为一,并转化成使用者所需要的图式和模型。因为有些对象,绝不是仅仅用数字就可以解释和认知的,比如人类复杂多变的面部表情,就很难用单纯的数据给予精确表达,只有通过数据集成、智能技术和虚拟技术将大数据虚拟化,使反映认知或实践对象的海量信息和数据,变成一种实时图像或视频供主体观察研究,他们才可能从中获得相关的认识、结论和决策。

解释原则

尽管数据集成、数据建模、云计算和数据虚拟化是大数据处理的一些主要形式,能够给认知主体以质、量和度等多方面的总体性的形象和认识,但面对“不能言语”的具体的数字、信息、图像和虚拟视频,还是需要认知主体进行能动的和创造性的解读与阐释。这不只因为包括数字、数码、文字和一切符号在内的语言“是存在的故乡”,即要认识客体或对象,总是需要利用语言给予建构、包装、说明和解释,还因为一切语言自身所拥有的价值和意义,也需要使用它和阅读它的主体所“赠予”。换句话说,这些摆在人们面前的大数据,究竟表达什么或意味什么,很大程度上,并不取决于由数据信息自身所标明的“客观实在性”,而是主要取决于认知主体对其解读时所拥有的整体上的解释力、构建力和知解力,取决于由数据构架起来的理论形态和实践目的。因为只有通过人的感悟、觉识、分析、推理、判断和阐释才能够赋予数据和信息以多重的或异乎寻常的结构和意义,才能够由表及里,揭示出深藏于内的隐蔽之物;进而通过各种解释之间的矛盾和冲突,获悉被解释的存在和本质。

智慧原则

尽管信息革命将人类带进大数据的春天,而且使越来越多的人确信“数据多多益善,即数据越多,分析越深入,所得的结论就越全面”,但面对“僵死的数据”,要想点石成金,还需依赖于人的智慧和学识。为此,在大数据处理过程中,真正的智者既要兼具数据分析、机器学习、数据挖掘以及数据统计的能力,也要具备应用算法和编写代码的经验。尤其是面对琳琅满目的大数据,不仅要关注海量数据的多样性、差异性、精确性和实效性,否则缺少其中任何一个性能,都可能使所获数据达不到预期的效果和目标;还要全面深入地挖掘各种类型的数据,并在此基础上运用数据建模和数据算法在不同的数据集成中分析不同的假设情境,建构不同的可视化图像,进而揭示数据集成的变化及其产生的效用。特别是今天,面对激烈的社会竞争,必须不断寻找新的数据处理方法,不断加快数据处理速度。要意识到各种数据都并非生而就有价值,只有通过主体智慧的挖掘,才能将其变为现实。

此外,还要善于从数据集成、数据建模和数据虚拟化中发现和解决问题;提升自己观察、思考、批判和扬弃的能力;锤炼自己的理性思维和逻辑思维;培养自己统筹决策、高瞻远瞩、见微知著的预见力和洞察力。当然,在大数据时代更需要掌握对已有的数据模型进行精练,以及利用新的训练数据对原有内容和规则集进行修改、操作和运行的技艺。在此过程中,要尽可能做到思想活跃,思维清晰,头脑开放,认识深远,能够不失时机地打破陈规旧套,抓住新机遇,尝试新途径,开辟新天地,以多元智能的理念来认知和实践,以便在大数据处理中,既不忽略任何一个未经深度分析的数据,也不丢弃任何一个异常数据。在许多情况下,异常数据往往比常规数据更有价值。这样,也就自然地要求认知主体工作上缜密细心,时时关注事件的每一个细节与数据,真正做到明察秋毫、细心研制,直至收获完美的认识和成功的实践。

本文作者:佚名

来源:51CTO

时间: 2024-09-15 02:19:46

必备知识:大数据处理应遵循的原则的相关文章

移动APP设计研究:手势设计应遵循的原则

文章描述:浅谈移动终端使用之手势操作的设计及研究. 手势是指人类用语言中枢建立起来的一套用手掌和手指位置.形状的特定语言系统. 手持设备中的手势是指,将一系列多点触摸事件综合成为一个单独的事件. 手势操作的优势 1. 直觉化--好的手势设计源于生活经验,易于理解,学习成本低. 2. 快捷高效--减少操作步骤,加快完成任务. 手势在平台上的异同 各平台上手势现状 通用手势能被广泛应用是源于对心理模型的匹配,以及大众对于先入为主的接受度. 基本通用的或其他的手势可发展, 需要遵循设计原则,需要注意的

习近平:构建国际互联网治理体系 应遵循这些原则

网络空间不是随心所欲的法外之地,它和现实世界一样需要规则和秩序.目前,世界互联网领域发展不平衡.规则不健全.秩序不合理等问题日益凸显,推进全球互联网治理体系变革的声音日益高涨.习近平顺应时代要求,适时提出构建全球互联网治理体系的中国主张,为构建全球互联网治理体系提供了基本遵循.在第三届世界互联网大会召开之际,请随"学习中国"小编一起学习. 一.遵循四项原则推进全球互联网治理体系变革如何进行?应该坚持什么原则?在第二届世界互联网大会上,习近平提出了推进全球互联网治理体系变革,应该坚持的四

ERP中的标准成本应用应遵循的七原则

主流的ERP产品均包括标准成本管理,也有企业单独采用第三方的成本管理系统.标准成本的管理依赖于标准的相对性和企业经营环境的复杂程度,对于经营环境多变的企业来说,差异的设定.计算和分析无疑是件痛苦的事情.标准成本的应用主要应遵循以下原则: 1.企业环境相对稳定 事实上随着竞争的加剧和风险的增加,企业的经营环境已经发生了巨大变化.无论http://www.aliyun.com/zixun/aggregation/8150.html">传统行业还是新兴行业都随时面临经营环境的变化.而国内企业受到

Web设计师应遵循的高效设计原则之亲密性

"亲密性"是"Web设计者应遵循的高效设计原则"中的最后一个.引导用户顺利浏览网站,合理使用空白间隔,把相似的内容放在一起,提供清晰的结构是"亲密性"设计标准的所有内容. 间隔与关联 图1Web设计的亲密性,即把相似或相关的元素组织在一起,对不相关或不相似的元素进行分离. 当元素之间发生重叠或接触,那最上层的元素就会获得主要的注意力.观看图1,你是否首先注意到"Proximity"这一部分?你的眼睛首先会被紫色部分吸引,之后向

Web设计师应遵循的高效设计原则之二:重复

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 摘要:<写给大家看的设计书>一书把复杂的设计原理凝炼为对比.重复.对齐和亲密性四大设计原则.本系列文章将分别详细阐述四个设计原则中的重点因素及辅助工具.本文为第二篇,讲述重复在网站设计中的重要作用. 主要针对酒店行业和联邦政府进行Web开发的Ryan Boudreaux针对四大设计原则写了一系列文章,本文为第二篇<Effec

Web设计师应遵循的高效设计原则之三:对齐

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 摘要:<写给大家看的设计书>一书把复杂的设计原理凝炼为对比.重复.对齐和亲密性四大设计原则.本系列文章将分别详细阐述四个设计原则中的重点因素及辅助工具.本文为第三篇,讲述对齐在网站设计中的重要作用及辅助工具. 主要针对酒店行业和联邦政府进行Web开发的Ryan Boudreaux针对四大设计原则写了一系列文章,本文为第三篇<

运用大数据处理技术 做好国有企业思想政治工作

在全面深化企业改革和互联网全面普及的新形势下,国有企业思想政治工作面临着许多新情况,国有企业要勇于挑战自我.求新达变,积极推进思想政治工作理念创新.手段创新,要善于运用计算机大数据处理技术,积极构建大数据思想政治工作管控体系,确保职工队伍稳定,使企业思想政治工作焕发出勃勃生机,为企业改革发展提供强有力的思想保障. 运用大数据搭建思想政治工作新平台 针对思想政治工作面临的新情况,国有企业要勇于创新,积极确立"用数据链筑牢生命线"的新理念新思路,立足企业内部网络,运用大数据处理技术,创新做

《深入理解大数据:大数据处理与编程实践》一一1.3 MapReduce并行计算技术简介

1.3 MapReduce并行计算技术简介 1.3.1 MapReduce的基本概念和由来 1.?什么是MapReduce MapReduce是面向大数据并行处理的计算模型.框架和平台,它隐含了以下三层含义: 1)MapReduce是一个基于集群的高性能并行计算平台(Cluster Infrastructure).它允许用市场上普通的商用服务器构成一个包含数十.数百至数千个节点的分布和并行计算集群. 2)MapReduce是一个并行计算与运行软件框架(Software Framework).它提

大数据处理系统是一个IT工具,还是业务系统呢?

对于企业的业务人员,特别是数据科学家人群来说,Informatica的Intelligent Data Platform不仅是一个智能化的大数据预处理工具,而且可以像业务系统一样为企业带来直接的价值. 互联网企业通常会强调细节和微创新,把产品的某一项功能做到极致,借此牢牢吸引大量用户.但是企业级厂商则不同,它们更倾向于将产品平台化.平 台化的好处是可以把尽量多的功能集成在一起,方便部署与管理,而且可以借平台屏蔽底层架构的复杂性.软件厂商尤喜平台化,比如数据保护厂商有数据保护和统 一管理平台,大数