大数据处理与分析方法解读

  越来越多的应用涉及到大数据,这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以,大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于此,大数据分析的方法理论有哪些呢?

  大数据分析的五个基本方面

  PredictiveAnalyticCapabilities(预测性分析能力)

  数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。

  DataQualityandMasterDataManagement(数据质量和数据管理)

  数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。

  AnalyticVisualizations(可视化分析)

  不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。

  SemanticEngines(语义引擎)

  我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。

  DataMiningAlgorithms(数据挖掘算法)

  可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。

  假如大数据真的是下一个重要的技术革新的话,我们最好把精力关注在大数据能给我们带来的好处,而不仅仅是挑战。

  大数据处理

  大数据处理数据时代理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。具体的大数据处理方法其实有很多,但是根据长时间的实践,笔者总结了一个基本的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助。整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,以及挖掘。

  采集

  大数据的采集是指利用多个数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

  在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

  统计/分析

  统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。

  导入/预处理

  虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。

  挖掘

  与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的K-Means、用于统计学习的SVM和用于分类的Naive Bayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,还有,常用数据挖掘算法都以单线程为主。

时间: 2024-09-20 15:00:42

大数据处理与分析方法解读的相关文章

IBM大数据处理与分析迈入认知计算时代

大数据处理自身复杂性给数据采集.存储.管理和分析带来了诸多挑战.如何发掘数据的潜在价值,如何实现类似人脑的认知和判断,发现数据间隐藏的关联,从而做出正确的决策,这在现代社会显得更加重要. 认知计算伴随大数据处理而来 在3月6日召开的IBM2014大数据新闻发布会上,IBM展示了其从大数据与分析全面向认知计算商业实践的大阔步发展.IBM再度升级其涵盖软件.硬件.服务.研发的全线大数据与分析能力,宣布在业界首个实现认知计算能力商业化,以全新认知分析助力企业加速实现大数据及分析能力.并宣布将其大数据分

解开非结构化大数据处理与分析的密码

用友UAP的数据平台具备了大数据处理与分析的能力,它主要依靠非结构化数据处理平台UDH(UAP Distribute for Hadoop)来完成.UDH包括分布式文件系统.列存数据库,涵盖分布式批处理.实时分析查询.流处理和基于内存的分布式批处理的分布式分析计算框架类,以及分布式数据挖掘. 在大数据备受关注的今天,企业不能盲从,而是应该明白大数据为什么会如此之热,为什么去关注它.其中一个重要原因就是,大数据不同于普通数据,它增加了很多半结构化数据和非结构化数据,并且其数量级和价值不可同日而语.

【云端大数据实战】大数据误区、大数据处理步骤分析

1.背景              首先感谢这次博客的主办方CSDN以及在初赛为我投票的网友们,你们的支持是Garvin前进的动力.本文思路的依据来源于本次天猫大数据竞赛长达三个月的参赛体验.博主作为一个在校的学生,可能如果不是这次比赛,很难能够拥有一套完整的云环境来对TB级的数据进行分析和实践.下面是博主的一点心得,在此抛砖引玉,希望能给大家在云端大数据处理方面带来一点启示. 2.对于大数据和云的一些误区     (1)误区一:云的计算能力是无穷的,不用考虑效率?               

【独家科普】揭秘大数据的分析方法

  编注:"大数据文摘"的很多读者亲友,一些纯粹的大数据爱好者,甚至有一部分企业管理者经常在后台向我们建议,希望我们能把大数据的分析系统做一个简单的介绍,不要"只见案例,不见原理".于是Larry就自告奋勇来为大家做一个科普,带领读者亲友们一探究竟,让我们来揭开大数据推荐系统神秘的面纱!   说到大数据,神马根据数据进行精准营销啊,神马更了解你的客户啊,神马啤酒尿布超市推送商品预测怀孕亚马逊预测式发货等等,你谷歌百度搜狗有道一气,都是说推荐系统如何如何牛逼的,但是没

大数据处理技术——python

python 处理大数据,有需要的朋友可以参考下. 最近大数据竞赛很火,本人python没学多久,想试着写一下,只是实现了数据的处理,主要用到了dict,list,file知识. 还有一点要说,我也用matlab实现了,但是运行完要差不多两分钟,但是python秒处理,有木有啊,足见python处理文本功能之强大. 文件里的数据格式: clientid shopingid num date 1111000 3873 2 4月5日 clientinfo = []shopinginfo = {}mo

用Apache Spark进行大数据处理—入门篇

文章讲的是用Apache Spark进行大数据处理-入门篇,Apache Spark 是一个围绕速度.易用性和复杂分析构建的大数据处理框架.最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一. 与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势. 首先,Spark为我们提供了一个全面.统一的框架用于管理各种有着不同性质(文本数据.图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求. Sp

面向大数据处理的集成简介

大数据处理和分析需求的背景 随着传感器.移动设备.网络.射频 ID 等的广泛使用,数据收集的自动化程度越来越高,数据产生的速度越来越快,数据量的爆炸式增长构成了显著的大数据问题.针对大数据的采集.传输.处理和应用发展出许多对应的相关技术.如何利用大数据处理技术, 对大量结构化.半结构化和非结构化数据进行处理,挖掘出其中潜在的规律和模式,从而作出有价值的商业预测和分析就显得尤为重要和迫切. IBM SPSS Modeler(以下简称 Modeler)是一款数据挖掘分析的行业软件,其采用数据流的方式

大数据分析与处理方法介绍

从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息.那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素.基于如此的认识,大数据分析普遍存在的方法理论有哪些呢? 一.大数据分析的五个基本方面 1. Analytic Visualizations(可视化分析) 不管是

大数据处理的业务分类

随着互联网.移动互联网以及物联网的迅速发展,我们已经进入了一个海量的大数据时代,而目前对于这些海量的数据分析处理已经成为了一非常紧迫而且大的需要. Hadoop的伸缩性.健壮性.计算性能和成本有着无法代替的优势,事实上已经作为了当今互联网企业最主流的大数据处理平台. 大数据处理的分析分类 Hadoop平台对于业务的针对性相当强,为了能够让你了解是否和你的业务符合,现在从几个角度来将大数据处理业务进行分类,根据需求的不同选择不同的数据分析架构. 根据数据分析的实时性,主要分为离线数据和实时数据分析