大数据时代需要大数据挖掘,我习惯把大数据分成四个领域:数据科学、网络科学、空间地理科学和可视化技术;
最近的主要兴趣在空间地理领域,学习如何获取POI,Polygon,经纬度,空间匹配算法和可视化,一个全新领域有带来诸多大数据分析工具的思考和整合。
恰巧看到一篇国外博客列举了大数据领域的分析工具,俺的微信公号也曾经写过两篇:
数据工匠 | 工欲善其事必先利其器(数据分析工具集一)
数据工匠 | 工欲善其事必先利其器(数据分析工具集二)
今天就接着把数据分析主要是大数据挖掘的工具集三写下来:
顺势俺在总结一下:
我了解和喜欢的大数据挖掘工具主要分成:提取,存储,清洗,挖掘,可视化,分析和集成语言领域。
数据存储和管理
如果你要使用大数据,你需要考虑如何存储它。大数据个人一般玩起来常常是几百兆、或G;当然企业级就可能不是这个侧面了,T或P级,一个好的数据存储提供商应该为您提供一个基础架构,在其上运行所有其他分析工具以及存储和查询数据的地方。
Hadoop
Hadoop已经成为大数据的代名词。它是一个用于在计算机集群上分布式存储大型数据集的开源软件框架。这意味着可以上下扩展数据,而无需担心硬件问题。Hadoop为任何类型的数据提供大量的存储,巨大的数据处理能力和处理虚拟无限并发任务或作业的能力。Hadoop不适合数据初学者。要真正利用它,真的需要知道Java编程。
Cloudera
Cloudera本质上是一个Hadoop的品牌名称。它们可以帮助企业构建企业数据中心,以便您组织中的人员更好地访问您存储的数据。
虽然它是开源,Cloudera主要还是企业解决方案,帮助企业管理他们的Hadoop生态系统。基本上,利用它管理Hadoop很多艰苦的工作。还可提供一定量的数据安全性,如果您存储任何敏感或个人数据,这是非常重要的。
MongoDB
MongoDB的是现代,流行的非结构化数据库,但又可视为关系数据库的替代品。它适用于管理经常更改的数据或非结构化或半结构化的数据。
常见应用包括存储移动应用程序的数据,产品目录,实时个性化,内容管理和跨多个系统提供单个视图的应用程序。MongoDB也不适合数据新手,与任何数据库一样,您需要知道如何使用编程语言进行查询。
Talend
Talend是另一个伟大的开源数据库,提供了大量的数据产品。这里我们专注于他们的主数据管理(MDM-元数据管理)产品,它将实时数据,应用程序和过程集成与嵌入式数据质量和管理相结合。
它是开源的,Talend是完全免费的,Talend都是一个很好的选择。它可以节省您构建和维护自己的数据管理系统 ——这是一个非常复杂和困难的任务。
从头开始
如果你是大数据的新手,数据库可能不是最好的开始。它们相对复杂,并且需要一定量的编码知识来操作(与下面提到的许多其他工具不同)。
然而,如果你真的想在大数据中工作,那么知道数据库的基础知识并且能够智能地谈论它们是必须的。我们需要全面了解大数据的技术,包括数据库和存储的历史,关系数据库和文档数据库之间的差异,大数据的挑战和必要的工具,以及Hadoop的介绍。
不过从个人玩大数据的角度,我个人推荐:PostgreSQL、MySQL、以及JSON、GeoJSON等数据存储形式,当然个人主要是CSV格式的数据包或数据集。
特别强调,对于数据库来讲重要的是需要掌握SQL查询语言
数据清洗
在您可以真正挖掘所谓大数据并能获取洞察信息建模之前,您需要清理它。拥有或创造一个干净,结构良好的数据集有时是不可能的。数据集可以有各种形状和大小的(有些好,有些不太好!),特别是当你从网络上获得它。下面的数据清洗软件工具将帮助您细化数据并将其重塑为可用的数据集。(部分工具都有特征工程的技术)
OpenRefine
OpenRefine(原GoogleRefine)是一个开源工具,专门用于清理杂乱的数据。我们可以轻松,快速地探索巨大的数据集,即使数据有点非结构化。
就数据软件而言,OpenRefine是非常用户友好的。虽然,良好的数据清洗的原则和基础知识肯定有帮助。OpenRefine的好处是它有一个巨大的社区,有很多贡献者意味着软件不断变得越来越好。你可以问(非常有帮助和患者)社区的问题,如果你陷入困境。你可以看看他们的Github上库在这里你还可以找到OpenRefine维基。
DataCleaner
数据处理是一项长期而艰苦的任务。数据可视化工具只能读取结构良好,“干净”的数据集。DataCleaner为我们做艰苦的工作,并将凌乱的半结构化数据集转换为所有可视化软件可以读取的干净可读的数据集。
DataCleaner还提供数据仓库和数据管理服务。该公司提供30天免费试用,然后是每月订阅费。
说明:我主要用于清洗的工具是refine
数据挖掘
这里不要与数据提取(后面讨论)混淆,数据挖掘是在数据库中发现洞察,而不是将数据从网页提取到数据库中的过程。数据挖掘的目的是对你手头的数据进行预测、建模和决策。
RapidMiner
RapidMiner是预测分析一个奇妙的工具。它是强大的,易于使用,并有一个开源社区背后。甚至可以通过其API将自己的专用算法集成到RapidMiner中。图形界面,这意味着你不需要知道如何代码。
IBM SPSS Modeler
在IBM SPSS Modeler中提供了一整套专用于数据挖掘解决方案套件。这包括文本分析,实体分析,决策管理和优化。他们的五个产品提供了一系列先进的算法和技术,包括文本分析,实体分析,决策管理和优化。
SPSS Modeler是一个重型解决方案,非常适合大公司的需求。它可以运行在几乎任何类型的数据库,可以与其他IBM SPSS产品,如SPSS协作与部署服务和SPSS分析服务器集成。
KNIME
它也是一个开源的数据挖掘软件,主要推荐理由:1-开源,2-拥有60多个案例,3-有社区和Labs,4-能够集成R和Python等
商业上真正的数据挖掘工具都会融入Oracle、TeraData等数据库产品中。
Kaggle
如果你被困在一个数据挖掘问题,或想尝试解决世界上最棘手的问题,Kaggle是世界上最大的数据科学社区。公司和研究人员发布他们的数据和统计人员和来自世界各地的数据挖掘者竞争产生最好的模型。
我主要用的挖掘软件工具:Modeler和Knime
数据分析
尽管数据挖掘是挖掘先前未知的知识,是一种自下而上的发现知识的过程,也称为KDD。数据分析往往是自上而下的基于理论假设下的探索过程和推断未知。Google Analytics(分析)是关于提出具体问题并在数据中找到答案。可以问关于未来会发生什么的问题!
Qubole
Qubole简化,速度和规模与存储在AWS上(亚马逊云计算)、谷歌数据大数据分析工作云计算平台。一旦IT策略到位,任何数量的数据分析人员都可以随着Hive,Spark,BigQuery等众多数据处理引擎的强大功能自由协作“点击查询”。
Qubole是一个企业级解决方案,它们提供了一个免费试用。
BigML
BigML试图简化机器学习。它们提供了一个强大的机器学习服务,具有易于使用的界面,您可以导入数据并获取预测。您甚至可以使用他们的模型进行预测分析。
对模型的良好理解当然有帮助,但不是必要的,如果你想从BigML中获得分析,他们有一个免费版本的工具,允许您创建不到16mb的任务,以及有一个付费计划和虚拟私有云满足企业级的要求。
Statwing
Statwing将数据分析提高到一个新的水平,提供从美丽的视觉效果到复杂的分析。它使用起来很简单,你可以在5分钟内开始使用Statwing。
虽然它不是免费使用,定价计划是相当优雅。基本套餐是每月50美元,您可以随时取消。这允许您使用每个大小不超过50mb的无限数据集。还有其他企业计划,让您能够上传更大的数据集。
数据可视化
数据可视化公司将使您的数据变得生机勃勃。对于任何数据科学家面临的挑战的一部分是从传送的数据的洞察到你的公司的其他部门。对于大多数人来说,MySQL数据库和电子表格依然会用。但可视化是传达复杂数据洞察的一种明亮而简单的方法。大部分可视化都不需要任何编码!
Tableau
Tableau是一个主要专注于商业智能数据可视化工具。您可以创建地图,条形图,散点图等等,而无需编程。他们最近发布了一个Web连接器,允许您连接到数据库或API,从而使您能够在可视化中获取实时数据。
SILK
silk是一个简单得多的数据可视化和比的Tableau的分析工具。它允许您通过构建交互式地图和图表,只需点击几下鼠标,带来您的数据。Silk还允许您与任意数量的人员进行可视化协作。
像很多这个名单上的可视化的公司,Silk不要求你是一个专家程序员。如果你是新的可视化数据,这是开始,因为他们的地方最新的功能试图无需你做任何事情会自动显示数据。
CartoDB
CartoDB是一个地图数据可视化工具,专门制作地图。它们使任何人都可以轻松地可视化位置数据,而无需任何编码。CartoDB可以管理数据文件和类型无数,他们甚至有样本数据集,
如果你有位置数据,CartoDB绝对值得一看。它可能不是最简单的系统使用,但一旦你得到它的悬念,它是令人难以置信的强大。
Chartio
Chartio可以让你在浏览器中的数据源相结合,执行查询。您只需点击几下即可创建强大的仪表板。Chartio的视觉查询语言允许任何人从任何地方获取数据,而不必知道SQL或其他复杂的模型语言。它们还允许您计划PDF报告,以便您可以将PDF文件导出为仪表板并通过电子邮件发送给任何您想要的人。
Chartio的另一个很酷的事情是,它通常不需要数据仓库。这意味着您将更快地启动和运行,并且您的实施成本将更低,更可预测。
Plot.ly
如果你想建立一个图和嵌入程序中Plot.ly是不错的选择。您可以创造惊人的2D和3D图表,所有不需要编程知识。
免费版本允许您创建一个私人图表和无限公共图表,或者您可以升级到企业包以制作无限的私人和公共图表,以及为您提供矢量导出和保存自定义主题的选项。
DataWrapper数据包
我们最终的可视化工具是Datawrapper。它是一个开源工具,在几分钟内创建可嵌入的图表。因为它是开源的,它将不断发展,因为任何人都可以贡献。他们有一个真棒图表库,你可以检查出的那种东西的人都与Datawrapper做。
它有一个免费工具和一个付费选项,付费选项是一个预先设置,自定义的Datawrapper包。
说明:俺提建议主要用百度的开源产品Echarts,部分考虑D3.js
数据集成
数据集成平台是每个程序之间的粘合剂。如果你想连接你使用Import.io与Twitter中提取的数据,或者您希望在Facebook上分享你用的Tableau或丝绸自动进行可视化,下面是集成服务工具。
Blockspring
Blockspring是类似在熟悉的如Excel和谷歌sheet的方式。您只需撰写Google Sheet公式,即可连接到整个主机的第三方程序。您可以从电子表格发布社交博客,查看您的关注者关注者,以及连接到AWS,Import.io和Tableau等等。
Blockspring可以免费使用,但它们也有一个包,允许您创建和共享私有函数,添加自定义标签,以方便搜索和发现,并为您的整个组织一次性设置API令牌。
Pentaho
Pentaho提供大数据集成所需的零编码。使用简单的拖放UI,您可以集成许多工具与最小的编码。他们还提供嵌入式分析和业务分析服务。
Pentaho是一个企业解决方案。
数据语言
虽然今天的挖掘工具变得越来越强大和更容易使用,有时学会编程还是必要的,特别是工程和产品层面。即使你不是一个程序员,理解这些语言如何工作的基础知识将使你更好地了解这些工具有多少功能以及如何最好地使用它们。
R语言
R是用于统计计算和图形的语言。如果上面列出的数据挖掘和统计软件不能做你想要的,学习R是好方式。事实上,如果你打算成为一个数据科学家,知道R是必须的。
它可以在Linux,Windows和MacOS上运行,你可以下载开源R。有一个巨大的统计学家社区,人气很旺。
Python
另一种在数据社区越来越受欢迎的语言是Python。创建于20世纪80年代,从Monty Python的Flying Circus命名,它一直在世界排名前十的最流行的编程语言。如果数据收集工具无法获取他们需要的数据,许多记者使用Python编写自定义的爬虫。
人们喜欢它,因为与英语的相似之处。它使用诸如’if’和’in’这样的词语,你可以很容易地阅读脚本。
说明:俺主要用Jupyter或Ipython Notebook
RegEx
RegEx或正则表达式是一组可以操作和更改数据的字符。它主要用于与字符串的模式匹配,或字符串匹配。
XPath
XPath是一种查询语言,用于从XML文档中选择某些节点。而RegEx操纵和更改数据组成,XPath将提取准备好RegEx的原始数据。
XPath最常用于数据提取。
说明:如果你需要编写爬虫或者抓取web网页,都需要学习正则表达和xpath,同时学习json数据格式,还要有一定的API接口技术。
说明:最近年末各种活动太多,没时间写,当然主要是懒了,这篇文章不错学习后先google翻译了一下,稍微整理了下,写了几天。
本文作者:沈浩老师
来源:51CTO