工欲善其事必先利其器(大数据分析工具集)

大数据时代需要大数据挖掘,我习惯把大数据分成四个领域:数据科学、网络科学、空间地理科学和可视化技术;

最近的主要兴趣在空间地理领域,学习如何获取POI,Polygon,经纬度,空间匹配算法和可视化,一个全新领域有带来诸多大数据分析工具的思考和整合。

恰巧看到一篇国外博客列举了大数据领域的分析工具,俺的微信公号也曾经写过两篇:

数据工匠 | 工欲善其事必先利其器(数据分析工具集一)

数据工匠 | 工欲善其事必先利其器(数据分析工具集二)

今天就接着把数据分析主要是大数据挖掘的工具集三写下来:

顺势俺在总结一下:

我了解和喜欢的大数据挖掘工具主要分成:提取,存储,清洗,挖掘,可视化,分析和集成语言领域。

数据存储和管理

如果你要使用大数据,你需要考虑如何存储它。大数据个人一般玩起来常常是几百兆、或G;当然企业级就可能不是这个侧面了,T或P级,一个好的数据存储提供商应该为您提供一个基础架构,在其上运行所有其他分析工具以及存储和查询数据的地方。

Hadoop

Hadoop已经成为大数据的代名词。它是一个用于在计算机集群上分布式存储大型数据集的开源软件框架。这意味着可以上下扩展数据,而无需担心硬件问题。Hadoop为任何类型的数据提供大量的存储,巨大的数据处理能力和处理虚拟无限并发任务或作业的能力。Hadoop不适合数据初学者。要真正利用它,真的需要知道Java编程。

Cloudera

Cloudera本质上是一个Hadoop的品牌名称。它们可以帮助企业构建企业数据中心,以便您组织中的人员更好地访问您存储的数据。

虽然它是开源,Cloudera主要还是企业解决方案,帮助企业管理他们的Hadoop生态系统。基本上,利用它管理Hadoop很多艰苦的工作。还可提供一定量的数据安全性,如果您存储任何敏感或个人数据,这是非常重要的。

MongoDB

MongoDB的是现代,流行的非结构化数据库,但又可视为关系数据库的替代品。它适用于管理经常更改的数据或非结构化或半结构化的数据。

常见应用包括存储移动应用程序的数据,产品目录,实时个性化,内容管理和跨多个系统提供单个视图的应用程序。MongoDB也不适合数据新手,与任何数据库一样,您需要知道如何使用编程语言进行查询。

Talend

Talend是另一个伟大的开源数据库,提供了大量的数据产品。这里我们专注于他们的主数据管理(MDM-元数据管理)产品,它将实时数据,应用程序和过程集成与嵌入式数据质量和管理相结合。

它是开源的,Talend是完全免费的,Talend都是一个很好的选择。它可以节省您构建和维护自己的数据管理系统 ——这是一个非常复杂和困难的任务。

从头开始

如果你是大数据的新手,数据库可能不是最好的开始。它们相对复杂,并且需要一定量的编码知识来操作(与下面提到的许多其他工具不同)。

然而,如果你真的想在大数据中工作,那么知道数据库的基础知识并且能够智能地谈论它们是必须的。我们需要全面了解大数据的技术,包括数据库和存储的历史,关系数据库和文档数据库之间的差异,大数据的挑战和必要的工具,以及Hadoop的介绍。

不过从个人玩大数据的角度,我个人推荐:PostgreSQL、MySQL、以及JSON、GeoJSON等数据存储形式,当然个人主要是CSV格式的数据包或数据集。

特别强调,对于数据库来讲重要的是需要掌握SQL查询语言

数据清洗

在您可以真正挖掘所谓大数据并能获取洞察信息建模之前,您需要清理它。拥有或创造一个干净,结构良好的数据集有时是不可能的。数据集可以有各种形状和大小的(有些好,有些不太好!),特别是当你从网络上获得它。下面的数据清洗软件工具将帮助您细化数据并将其重塑为可用的数据集。(部分工具都有特征工程的技术)

OpenRefine

OpenRefine(原GoogleRefine)是一个开源工具,专门用于清理杂乱的数据。我们可以轻松,快速地探索巨大的数据集,即使数据有点非结构化。

就数据软件而言,OpenRefine是非常用户友好的。虽然,良好的数据清洗的原则和基础知识肯定有帮助。OpenRefine的好处是它有一个巨大的社区,有很多贡献者意味着软件不断变得越来越好。你可以问(非常有帮助和患者)社区的问题,如果你陷入困境。你可以看看他们的Github上库在这里你还可以找到OpenRefine维基。

DataCleaner

数据处理是一项长期而艰苦的任务。数据可视化工具只能读取结构良好,“干净”的数据集。DataCleaner为我们做艰苦的工作,并将凌乱的半结构化数据集转换为所有可视化软件可以读取的干净可读的数据集。

DataCleaner还提供数据仓库和数据管理服务。该公司提供30天免费试用,然后是每月订阅费。

说明:我主要用于清洗的工具是refine

数据挖掘

这里不要与数据提取(后面讨论)混淆,数据挖掘是在数据库中发现洞察,而不是将数据从网页提取到数据库中的过程。数据挖掘的目的是对你手头的数据进行预测、建模和决策。

RapidMiner

RapidMiner是预测分析一个奇妙的工具。它是强大的,易于使用,并有一个开源社区背后。甚至可以通过其API将自己的专用算法集成到RapidMiner中。图形界面,这意味着你不需要知道如何代码。

IBM SPSS Modeler

在IBM SPSS Modeler中提供了一整套专用于数据挖掘解决方案套件。这包括文本分析,实体分析,决策管理和优化。他们的五个产品提供了一系列先进的算法和技术,包括文本分析,实体分析,决策管理和优化。

SPSS Modeler是一个重型解决方案,非常适合大公司的需求。它可以运行在几乎任何类型的数据库,可以与其他IBM SPSS产品,如SPSS协作与部署服务和SPSS分析服务器集成。

KNIME

它也是一个开源的数据挖掘软件,主要推荐理由:1-开源,2-拥有60多个案例,3-有社区和Labs,4-能够集成R和Python等

商业上真正的数据挖掘工具都会融入Oracle、TeraData等数据库产品中。

Kaggle

如果你被困在一个数据挖掘问题,或想尝试解决世界上最棘手的问题,Kaggle是世界上最大的数据科学社区。公司和研究人员发布他们的数据和统计人员和来自世界各地的数据挖掘者竞争产生最好的模型。

我主要用的挖掘软件工具:Modeler和Knime

数据分析

尽管数据挖掘是挖掘先前未知的知识,是一种自下而上的发现知识的过程,也称为KDD。数据分析往往是自上而下的基于理论假设下的探索过程和推断未知。Google Analytics(分析)是关于提出具体问题并在数据中找到答案。可以问关于未来会发生什么的问题!

Qubole

Qubole简化,速度和规模与存储在AWS上(亚马逊云计算)、谷歌数据大数据分析工作云计算平台。一旦IT策略到位,任何数量的数据分析人员都可以随着Hive,Spark,BigQuery等众多数据处理引擎的强大功能自由协作“点击查询”。

Qubole是一个企业级解决方案,它们提供了一个免费试用。

BigML

BigML试图简化机器学习。它们提供了一个强大的机器学习服务,具有易于使用的界面,您可以导入数据并获取预测。您甚至可以使用他们的模型进行预测分析。

对模型的良好理解当然有帮助,但不是必要的,如果你想从BigML中获得分析,他们有一个免费版本的工具,允许您创建不到16mb的任务,以及有一个付费计划和虚拟私有云满足企业级的要求。

Statwing

Statwing将数据分析提高到一个新的水平,提供从美丽的视觉效果到复杂的分析。它使用起来很简单,你可以在5分钟内开始使用Statwing。

虽然它不是免费使用,定价计划是相当优雅。基本套餐是每月50美元,您可以随时取消。这允许您使用每个大小不超过50mb的无限数据集。还有其他企业计划,让您能够上传更大的数据集。

数据可视化

数据可视化公司将使您的数据变得生机勃勃。对于任何数据科学家面临的挑战的一部分是从传送的数据的洞察到你的公司的其他部门。对于大多数人来说,MySQL数据库和电子表格依然会用。但可视化是传达复杂数据洞察的一种明亮而简单的方法。大部分可视化都不需要任何编码!

Tableau

Tableau是一个主要专注于商业智能数据可视化工具。您可以创建地图,条形图,散点图等等,而无需编程。他们最近发布了一个Web连接器,允许您连接到数据库或API,从而使您能够在可视化中获取实时数据。

SILK

silk是一个简单得多的数据可视化和比的Tableau的分析工具。它允许您通过构建交互式地图和图表,只需点击几下鼠标,带来您的数据。Silk还允许您与任意数量的人员进行可视化协作。

像很多这个名单上的可视化的公司,Silk不要求你是一个专家程序员。如果你是新的可视化数据,这是开始,因为他们的地方最新的功能试图无需你做任何事情会自动显示数据。

CartoDB

CartoDB是一个地图数据可视化工具,专门制作地图。它们使任何人都可以轻松地可视化位置数据,而无需任何编码。CartoDB可以管理数据文件和类型无数,他们甚至有样本数据集,

如果你有位置数据,CartoDB绝对值得一看。它可能不是最简单的系统使用,但一旦你得到它的悬念,它是令人难以置信的强大。

Chartio

Chartio可以让你在浏览器中的数据源相结合,执行查询。您只需点击几下即可创建强大的仪表板。Chartio的视觉查询语言允许任何人从任何地方获取数据,而不必知道SQL或其他复杂的模型语言。它们还允许您计划PDF报告,以便您可以将PDF文件导出为仪表板并通过电子邮件发送给任何您想要的人。

Chartio的另一个很酷的事情是,它通常不需要数据仓库。这意味着您将更快地启动和运行,并且您的实施成本将更低,更可预测。

Plot.ly

如果你想建立一个图和嵌入程序中Plot.ly是不错的选择。您可以创造惊人的2D和3D图表,所有不需要编程知识。

免费版本允许您创建一个私人图表和无限公共图表,或者您可以升级到企业包以制作无限的私人和公共图表,以及为您提供矢量导出和保存自定义主题的选项。

DataWrapper数据包

我们最终的可视化工具是Datawrapper。它是一个开源工具,在几分钟内创建可嵌入的图表。因为它是开源的,它将不断发展,因为任何人都可以贡献。他们有一个真棒图表库,你可以检查出的那种东西的人都与Datawrapper做。

它有一个免费工具和一个付费选项,付费选项是一个预先设置,自定义的Datawrapper包。

说明:俺提建议主要用百度的开源产品Echarts,部分考虑D3.js

数据集成

数据集成平台是每个程序之间的粘合剂。如果你想连接你使用Import.io与Twitter中提取的数据,或者您希望在Facebook上分享你用的Tableau或丝绸自动进行可视化,下面是集成服务工具。

Blockspring

Blockspring是类似在熟悉的如Excel和谷歌sheet的方式。您只需撰写Google Sheet公式,即可连接到整个主机的第三方程序。您可以从电子表格发布社交博客,查看您的关注者关注者,以及连接到AWS,Import.io和Tableau等等。

Blockspring可以免费使用,但它们也有一个包,允许您创建和共享私有函数,添加自定义标签,以方便搜索和发现,并为您的整个组织一次性设置API令牌。

Pentaho

Pentaho提供大数据集成所需的零编码。使用简单的拖放UI,您可以集成许多工具与最小的编码。他们还提供嵌入式分析和业务分析服务。

Pentaho是一个企业解决方案。

数据语言

虽然今天的挖掘工具变得越来越强大和更容易使用,有时学会编程还是必要的,特别是工程和产品层面。即使你不是一个程序员,理解这些语言如何工作的基础知识将使你更好地了解这些工具有多少功能以及如何最好地使用它们。

R语言

R是用于统计计算和图形的语言。如果上面列出的数据挖掘和统计软件不能做你想要的,学习R是好方式。事实上,如果你打算成为一个数据科学家,知道R是必须的。

它可以在Linux,Windows和MacOS上运行,你可以下载开源R。有一个巨大的统计学家社区,人气很旺。

Python

另一种在数据社区越来越受欢迎的语言是Python。创建于20世纪80年代,从Monty Python的Flying Circus命名,它一直在世界排名前十的最流行的编程语言。如果数据收集工具无法获取他们需要的数据,许多记者使用Python编写自定义的爬虫。

人们喜欢它,因为与英语的相似之处。它使用诸如’if’和’in’这样的词语,你可以很容易地阅读脚本。

说明:俺主要用Jupyter或Ipython Notebook

RegEx

RegEx或正则表达式是一组可以操作和更改数据的字符。它主要用于与字符串的模式匹配,或字符串匹配。

XPath

XPath是一种查询语言,用于从XML文档中选择某些节点。而RegEx操纵和更改数据组成,XPath将提取准备好RegEx的原始数据。

XPath最常用于数据提取。

说明:如果你需要编写爬虫或者抓取web网页,都需要学习正则表达和xpath,同时学习json数据格式,还要有一定的API接口技术。

说明:最近年末各种活动太多,没时间写,当然主要是懒了,这篇文章不错学习后先google翻译了一下,稍微整理了下,写了几天。

本文作者:沈浩老师

来源:51CTO

时间: 2024-10-03 15:31:53

工欲善其事必先利其器(大数据分析工具集)的相关文章

最好用的实时威胁分析+大数据分析工具

文章讲的是最好用的实时威胁分析+大数据分析工具,随着网络技术的发展,扫描和筛选恶意软件的过程越来越复杂,大多数传统的反恶意软件工具只能解决非常表面的问题,使用简单的方法防护网络端点的安全已经过时了. 为了发现并阻止恶意软件的攻击,我们将为您介绍几款先进的端点响应和检测工具,这些工具能够高效的找到恶意软件并进行解决.在此之前,我们曾经介绍了一款尖端工具:科摩多端点保护v5.1,有的读者对这件软件并不满意,今天我们将介绍另外一款端点保护工具,Counter Tack Sentinel v5.5,喜欢

大数据分析工具采购指南

大数据分析工具使用户能够分析各种各样的信息--包括结构化事务数据和社交媒体帖子.Web服务器日志文件及其他形式的非结构化和半结构化数据.一旦组织决定要购买一个大数据分析工具,下一步就是制定一个流程,评估可用的产品,然后从中找到一个最适合你需求和要求的产品. 下面我们将介绍在评估各种大数据分析工具符合企业需求的程度时可能用到的必备特性和特定属性.然后,你再编写一个预案请求(RFP),说明使用这些工具将如何解决组织的需求. 评估标准 建模技术的广度与深度.供应商已经应用了不同级别的建模,并且相应地开

新手如何选择大数据分析工具

大数据火了!它带来了一个新的行业.一次新的机遇和一场新的挑战.不少目光长远的人已经着手准备"入水"大数据行业,这个过程中最重要的就是掌握一个或者多个数据分析工具.那么,面对众多的大数据分析产品,新手该如何选择呢? 需求放在第一位 不管是选择大数据分析工具还是其他工具软件,需求永远是我们的第一动机,简单而言就是我选择工具是用来做什么的.对于新手入门来说,是要优化报表,还是要收集.管理数据,亦或者是对接现有的数据库,对大数据进行分析和价值挖掘,这些动机需要首先确立. 确立了使用需求后,我们

给入门者,大数据分析工具的十条学习路径

虽然只有极少数人能够修炼成数据科学家这一21世纪最性感多金专业人士,但对于大多数非数据分析专业的IT人士来说,掌握对路的大数据工具同样意味着加薪和升值.鉴于市面上大数据分析工具琳琅满目日新月异,为了帮助大家少走弯路,我们为不同技术背景的IT专业人士整理了十条大数据分析工具的进修技术路径: 一.Excel起步 作为一个入门级工具,Excel是快速分析数据的理想工具,也能创建供内部使用的数据图.如果在众多数据分析工具中您只了解最基本的Excel,以下是最好的进阶路线: 二.SQL起步 如果你了解SQ

Hiptype:让出版商更懂读者的大数据分析工具

Hiptype:让出版商更懂读者http://www.aliyun.com/zixun/aggregation/14294.html">的大数据分析工具 电子书以其便捷.廉价.跨平台的特性,正越来越受到各方青睐.目前,几乎所有的收费电子书都会提供部分章节让读者试读,然后决定是否购买.这样一来,出版商需要弄清楚人们读到了哪里,读完后有没有购买,以及其他各种体验,才能卖出更多电子书.美国创业公司Hiptype开发了一套电子书阅读分析工具,试图解决这一难题. Hiptype自称"面向电

大数据分析工具要怎样适应企业需求

现在人人都在谈大数据,大数据已经从当初一个模糊的概念逐渐发展为一个成熟的行业.企业希望利用大数据来为自己寻求发展契机,于是部署大数据分析工具就成了当务之急.我们知道,没有最好,只有最合适,那么企业该如何选择适合自己大数据分析工具呢? 一. 根据业务选择 企业的业务不同,对大数据分析工具的要求也不同.如电商.零售业希望能及时地把握市场信息,了解用户画像:而制造业.航空产业则更希望了解行业内部的信息,特别是竞争对手的行为动态. 在大数据分析工具中,这一切都是在数据分析的前提下得出的,这就需要大数据分

NSA 将开源大数据分析工具 Nifi

NSA和开源软件并非水火不容.NSA本周宣布与Apache软件基金会合作,在Apache许可证下开源大数据分析工具Niagarafiles (Nifi).NSA称 Nifi 能在多个计算机网络中自动化数据流,即使数据格式和协议存在差异.目前关于Nifi的细节透露的不多.Nifi首席开发者 Joseph L Witt称,软件提供了一种方法更有效的区分数据流优先级,移除识别和传输关键信息的人为延迟.NSA技术转移项目负责人Linda L Burger说,他们使用开源的方法将技术从实验室转移到市场,使

10款超好用的开源大数据分析工具

考虑到现有技术解决方案的复杂性与多样化,企业往往很难找到适合自己的大数据收集与分析工具.然而,混乱的时局之下已经有多种方案脱颖而出,证明其能够帮助大家切实完成大数据分析类工作.下面我们将整理出一份包含十款工具的清单,从而有效压缩选择范畴. 数据已经成为现代化企业中最为重要的宝贵资源.一切决策.策略或者方法都需要依托于对数据的分析方可实现.随着"大数据分析"逐步替代其上代版本,即"商务智能",企业正面临着一个更加复杂.且商业情报规模更为庞大的新时代. 考虑到现有技术解

甲骨文推出云端大数据分析工具 Oracle Analytics Cloud

甲骨文早前刚召开了年度的全球年度大会 Oracle Openworld,刚卸任 CEO 一职的 Larry Ellison 在致辞中充分显示了甲骨文在进军云端市场的决心,并在大会上推出了多款全新软.硬件和云端企业方案.甲骨文近年积极开拓云端业务,在大会上推出了云端分析产品组合 Oracle Analytics Cloud,能够针对云数据.本地数据.传统数据和大数据来源进行数据分析. 横跨 DaaS.SaaS.PaaS 及 IaaS 等各领域的云端服务 Oracle Cloud 是甲骨文旗下多种公