大数据研究常用软件工具与应用场景

如今,大数据日益成为研究行业的重要研究目标。面对其高数据量、多维度与异构化的特点,以及分析方法思路的扩展,传统统计工具已经难以应对。

工欲善其事,必先利其器。众多新的软件分析工具作为深入大数据洞察研究的重要助力, 也成为数据科学家所必须掌握的知识技能。

然而,现实情况的复杂性决定了并不存在解决一切问题的终极工具。实际研究过程中,需要根据实际情况灵活选择最合适的工具(甚至多种工具组合使用),才能更好的完成研究探索。

为此,本文针对研究人员(非技术人员)的实际情况,介绍当前大数据研究涉及的一些主要工具软件(因为相关软件众多,只介绍常用的),并进一步阐述其应用特点和适合的场景,以便于研究人员能有的放矢的学习和使用。

【基础篇】

1、传统分析/商业统计

Excel、SPSS、SAS 这三者对于研究人员而言并不陌生。

◆Excel作为电子表格软件,适合简单统计(分组/求和等)需求,由于其方便好用,功能也能满足很多场景需要,所以实际成为研究人员最常用的软件工具。其缺点在于功能单一,且可处理数据规模小(这一点让很多研究人员尤为头疼)。这两年Excel在大数据方面(如地理可视化和网络关系分析)上也作出了一些增强,但应用能力有限。

SPSS(SPSS Statistics)和SAS作为商业统计软件,提供研究常用的经典统计分析(如回归、方差、因子、多变量分析等)处理。

◆SPSS轻量、易于使用,但功能相对较少,适合常规基本统计分析

◆SAS功能丰富而强大(包括绘图能力),且支持编程扩展其分析能力,适合复杂与高要求的统计性分析。

上述三个软件在面对大数据环境出现了各种不适,具体不再赘述。但这并不代表其没有使用价值。如果使用传统研究方法论分析大数据时,海量原始数据资源经过前期处理(如降维和统计汇总等)得到的中间研究结果,就很适合使用它们进行进一步研究。

2、数据挖掘

数据挖掘作为大数据应用的重要领域,在传统统计分析基础上,更强调提供机器学习的方法,关注高维空间下复杂数据关联关系和推演能力。代表是SPSS Modeler(注意不是SPSS Statistics,其前身为Clementine)

SPSS
Modeler的统计功能相对有限,
主要是提供面向商业挖掘的机器学习算法(决策树、神经元网络、分类、聚类和预测等)的实现。同时,其数据预处理和结果辅助分析方面也相当方便,这一点尤其适合商业环境下的快速挖掘。不过就处理能力而言,实际感觉难以应对亿级以上的数据规模。

另一个商业软件Matlab
也能提供大量数据挖掘的算法,但其特性更关注科学与工程计算领域。而著名的开源数据挖掘软件Weka,功能较少,且数据预处理和结果分析也比较麻烦,更适合学术界或有数据预处理能力的使用者。

【中级篇】

1、通用大数据可视化分析

近两年来出现了许多面向大数据、具备可视化能力的分析工具,在商业研究领域,TableAU无疑是卓越代表。

TableAU的优势主要在于支持多种大数据源/格式,众多的可视化图表类型,加上拖拽式的使用方式,上手快,非常适合研究员使用,能够涵盖大部分分析研究的场景。不过要注意,其并不能提供经典统计和机器学习算法支持,因此其可以替代Excel,
但不能代替统计和数据挖掘软件。另外,就实际处理速度而言,感觉面对较大数据(实例超过3000万记录)时,并没有官方介绍的那么迅速。

2
、关系分析

关系分析是大数据环境下的一个新的分析热点(比如信息传播图、社交关系网等),其本质计算的是点之间的关联关系。相关工具中,适合数据研究人员的是一些可视化的轻量桌面型工具,最常用的是Gephi。

Gephi是免费软件,擅长解决图网络分析的很多需求,其插件众多,功能强且易用。我们经常看到的各种社交关系/传播谱图,
很多都是基于其力导向图(Force directed graph)功能生成。但由于其由java编写,限制了处理性能(感觉处理超过10万节点/边时常陷入假死),如分析百万级节点(如微博热点传播路径)关系时,需先做平滑和剪枝处理。 而要处理更大规模(如亿级以上)的关系网络(如社交网络关系)数据,则需要专门的图关系数据库(如GraphLab/GraphX)来支撑了,其技术要求较高,此处不再介绍。

3、时空数据分析

当前很多软件(包括TableAU)都提供了时空数据的可视化分析功能。但就使用感受来看,其大都只适合较小规模(万级)的可视化展示分析,很少支持不同粒度的快速聚合探索。

如果要分析千万级以上的时空数据,比如新浪微博上亿用户发文的时间与地理分布(从省到街道多级粒度的探索)时,推荐使用NanoCubes(http://www.nanocubes.net/)。该开源软件可在日常的办公电脑上提供对亿级时空数据的快速展示和多级实时钻取探索分析。下图是对芝加哥犯罪时间地点的分析,网站有更多的实时分析的演示例子

4、文本/非结构化分析

基于自然语言处理(NLP)的文本分析,在非结构化内容(如互联网/社交媒体/电商评论)大数据的分析方面(甚至调研开放题结果分析)有重要用途。其应用处理涉及分词、特征抽取、情感分析、多主题模型等众多内容。

由于实现难度与领域差异,当前市面上只有一些开源函数包或者云API(如BosonNLP)提供一些基础处理功能,尚未看到适合商业研究分析中文文本的集成化工具软件(如果有谁知道烦请通知我)。在这种情况下,各商业公司(如HCR)主要依靠内部技术实力自主研发适合业务所需的分析功能。

【高级篇】

前面介绍的各种大数据分析工具,可应对的数据都在亿级以下,也以结构化数据为主。当实际面临以下要求:亿级以上/半实时性处理/非标准化复杂需求
,通常就需要借助编程(甚至借助于Hadoop/Spark等分布式计算框架)来完成相关的分析。 如果能掌握相关的编程语言能力,那研究员的分析能力将如虎添翼。

当前适合大数据处理的编程语言,包括:

  • R语言——最适合统计研究背景的人员学习,具有丰富的统计分析功能库以及可视化绘图函数可以直接调用。通过Hadoop-R更可支持处理百亿级别的数据。
    相比SAS,其计算能力更强,可解决更复杂更大数据规模的问题。
  • Python语言——最大的优势是在文本处理以及大数据量处理场景,且易于开发。在相关分析领域,Python代替R的势头越来越明显。
  • Java语言——通用性编程语言,能力最全面,拥有最多的开源大数据处理资源(统计、机器学习、NLP等等)直接使用。也得到所有分布式计算框架(Hadoop/Spark)的支持。

前面的内容介绍了面向大数据研究的不同工具软件/语言的特点和适用场景。 这些工具能够极大增强研究员在大数据环境下的分析能力,但更重要的是研究员要发挥自身对业务的深入理解,从数据结果中洞察发现有深度的结果,这才是最有价值的。

时间: 2024-08-04 09:48:19

大数据研究常用软件工具与应用场景的相关文章

教育大数据研究综述

教育大数据不仅仅是大数据在教育领域应用,而且通过教育领域反向驱动大数据技术分化为独立的分支,从而带来了对传统教育技术领域长期研究问题解决的新途径,甚至可以跨越传统个性化学习的精确逻辑推理过程而直接分析全样本学习者特征.这样来促进教育管理科学化变革.促进教学模式改革.促进个性化教育变革.促进教育评价体系改革.促进科学研究变革等.这些主要依托于教育大数据的两项关键技术:教育数据挖掘和学习分析.但是我国的教育大数据研究与应用尚处于起步阶段,缺乏前期的规范化和系统化顶层设计,面临许多层次的挑战,如应用挑

美国的《联邦大数据研究与开发战略计划》

大数据有可能从根本上改善所有美国人的生活.为了从资源丰富的大数据中获得最大的效益,奥巴马政府于2012年3月29日推出了"大数据研究与开发计划".在此基础上,美国又于2016年5月发布了<联邦大数据研究与开发战略计划>(以下简称"计划"),其目标是对联邦机构的大数据相关项目和投资进行指导.该"计划"主要围绕代表大数据研发关键领域的七个战略进行,包括促进人类对科学.医学和安全所有分支的认识;确保美国在研发领域继续发挥领导作用;通过研发来

打开大数据研究的潘多拉魔盒

导语 近年来,大数据研究方法逐渐应用于社会学科领域,运用大规模用户数据,社科领域研究者得以从新的视角理解用户媒介使用习惯.语言.与情感.然而,在大数据研究不断普及的背景下,如何规范大数据研究的伦理准则,如何保证研究对象的隐私权,以及如何研究现有互联网公司的伦理问题,这些问题看似遥远,但是却直接影响大数据研究者的行为准则.此外,回答与大数据研究.实践相关的伦理问题,将有助于增加普通公众对大数据的了解.本期[大数据与社会]栏目将以案例讨论的形式梳理在大数据研究和实践中所涌现出的若干问题,解释大数据研

法律大数据研究与应用六大展望

<中华人民共和国国民经济和社会发展第十三个五年规划纲要>明确地把大数据战略提升为国家战略.大数据成为国家"基础性战略资源",对于推动着国家治理体系和治理能力走向现代化有着重要与深远的意义.<纲要>指出,把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新.国家将统筹布局建设国家大数据平台.数据中心等基础设施.研究制定数据开放.保护等法律法规,制定政府信息资源管理办法. 对于法学研究来说,大数据

大数据研究

大数据研究 严霄凤  张德馨 大数据是继云计算.物联网之后IT产业又一次颠覆性的技术革命. 大数据挖掘和应用可创造出超万亿美元的价值,将是未来IT领域最大的市场机遇之一. 大数据利用对数据处理的实时性.有效性提出了更高要求,需要根据大数据特点对传统的常规数据处理技术进行技术变革,形成适用于大数据收集.存储.管理.处理.分析.共享和可视化的技术. 文中介绍了大数据的概念及其关键技术,描述了大数据带来的机遇和挑战,概述了美国政府的"大数据研究和发展倡议". 大数据研究

基于大数据的精准营销与应用场景

基于大数据的精准营销与应用场景 2015年08月11日 大数据 大数据营销时代来临 营销学领域过去半个多世纪的发展让我们见证了从"以产品为中心"到"以客户为中心"的转变.随着近年来互联网.移动互联网.新社交媒体的发展,信息过载,数据爆炸.消费者个性化需求的凸显,消费者成为商业行为的主宰者:另一方面,大数据分布式存储.大数据分析及挖掘技术的发展使得对海量数据中收集.分析.整合并进行分析成为可能.基于大数据精准营销这个过程对企业的营销战略提出了很大的机会和挑战. 基于数

法律大数据研究与应用领域的六大展望

<中华人民共和国国民经济和社会发展第十三个五年规划纲要>(下称"<纲要>")明确地把大数据战略提升为国家战略,作为国家"基础性战略资源",这对于推动国家治理体系和治理能力走向现代化有着重要和深远的意义. <纲要>确定,把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新.国家将统筹布局建设国家大数据平台.数据中心等基础设施.研究制定数据开放.保护等法律法规,制定

大数据平台架构技术选型与场景运用

一.大数据平台 大数据在工作中的应用有三种: 与业务相关,比如用户画像.风险控制等; 与决策相关,数据科学的领域,了解统计学.算法,这是数据科学家的范畴; 与工程相关,如何实施.如何实现.解决什么业务问题,这是数据工程师的工作. 数据工程师在业务和数据科学家之间搭建起实践的桥梁.本文要分享的大数据平台架构技术选型及场景运用偏向于工程方面. 如图所示,大数据平台第一个要素就是数据源,我们要处理的数据源往往是在业务系统上,数据分析的时候可能不会直接对业务的数据源进行处理,而是先经过数据采集.数据存储

大数据大事业-白宫发布大数据研究和发展倡议

中云网独家报道    北京时间3月29日,奥巴马政府在白宫网站发布了<大数据研究和发展倡议>,提出将通过收集的庞大而复杂的数字资料,并从中获得知识和洞见以提升能力,并协助加速在科学.工程上发现的步伐,强化美国国土安全,转变教育和学习模式. 在发布这一倡议同时,6个美国联邦部门和机构承诺,将新提供超过2亿美元,将之用于大大改善从海量数据信息获得.组织和收集知识所必需的工具和技能.并透露多项正在进行中的联邦政府计划,以应对大数据时代以及大数据革命带来的机遇和挑战. 倡议提出联邦政府还希望与行业,科