进行数据挖掘的8个最佳开源工具

数据挖掘,又称为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤,是一个挖掘和分析大量数据并从中提取信息的过程。其中一些应用包括市场细分 - 如识别客户​​从特定品牌购买特定产品的特征,欺诈检测 - 识别可能导致在线欺诈的交易模式等。在本文中,我们整理了进行数据挖掘的 8 个最佳开源工具。

1、Weka

WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。

2、Rapid Miner

RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。

3、Orange

Orange 是一个基于组件的数据挖掘和机器学习软件套装,它的功能即友好,又很强大,快速而又多功能的可视化编程前端,以便浏览数据分析和可视化,基绑定了 Python以进行脚本开发。它包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功能。其由C++ 和 Python开发,它的图形库是由跨平台的Qt框架开发。

4、Knime

KNIME (Konstanz Information Miner) 是一个用户友好,智能的,并有丰演的开源的数据集成,数据处理,数据分析和数据勘探平台。

5、jHepWork

jHepWork是一套功能完整的面向对象科学数据分析框架。 Jython宏是用来展示一维和二维直方图的数据。该程序包括许多工具,可以用来和二维三维的科学图形进行互动。

6、Apache Mahout

Apache Mahout 是 Apache Software Foundation (ASF) 开发的一个全新的开源项目,其主要目标是创建一些可伸缩的机器学习算法,供开发人员在 Apache 在许可下免费使用。该项目已经发展到了它的最二个年头,目前只有一个公共发行版。Mahout 包含许多实现,包括集群、分类、CP 和进化程序。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。

7、ELKI

ELKI(Environment for Developing KDD-Applications Supported by Index-Structures)主要用来聚类和找离群点。ELKI是类似于weka的数据挖掘平台,用java编写,有GUI图形界面。可以用来寻找离群点。

8、Rattle

Rattle(易于学习的 R 分析工具)提供数据的统计和可视化摘要,将数据转换成容易建模的形式,从数据中构建无监督和监督模型,以图形方式呈现模型的性能,并得出新的数据集。

本文作者:佚名

来源:51CTO

时间: 2024-11-05 14:50:33

进行数据挖掘的8个最佳开源工具的相关文章

2015 Bossie评选:最佳开源大数据工具

Bossie奖是知名英文IT网站InfoWorld针对开源软件颁发的年度奖项,根据这些软件对开源界的贡献,以及在业界的影响力评判获奖对象.本次InfoWorld评选出了22款最佳的开源大数据工具,像Spark.Storm都名列榜单之上. InfoWorld在分布式数据处理.流式数据分析.机器学习以及大规模数据分析领域精选出了2015年的开源工具获奖者,下面我们来简单介绍下这些获奖的技术工具. 1. Spark 在Apache的大数据项目中,Spark是最火的一个,特别是像IBM这样的重量级贡献者

Bossies:最佳开源大数据工具

处理大数据可能会遇到各种各样的问题,目前没有任何工具可以完美地处理这一切--即便是Spark.在今年的 Bossie开源大数据工具中,你会发现最新最好的方法是利用大型集群进行索引.搜索.图形处理.流处理.结构化查询.分布式OLAP和机器学习,因为众多处理器和RAM可降低工作量级. Bossie奖是英文IT网站InfoWorld针对开源软件颁发的年度奖项,根据这些软件对开源界的贡献,以及在业界的影响力评判获奖对象.本次InfoWorld评选出了13款最佳开源大数据工具,Spark.Beam都名列榜

Bossies 2016:最佳开源大数据工具

处理大数据可能会遇到各种各样的问题,目前没有任何工具可以完美地处理这一切--即便是Spark.在今年的 Bossie开源大数据工具中,你会发现最新最好的方法是利用大型集群进行索引.搜索.图形处理.流处理.结构化查询.分布式OLAP和机器学习,因为众多处理器和RAM可降低工作量级. Bossie奖是英文IT网站InfoWorld针对开源软件颁发的年度奖项,根据这些软件对开源界的贡献,以及在业界的影响力评判获奖对象.本次InfoWorld评选出了13款最佳开源大数据工具,Spark.Beam都名列榜

Hadoop和大数据:60款顶级开源工具

虽然此文尽力做到全面,但难免遗漏,欢迎大家补充,点击文末右下角"写评论",分享你的观点. 说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱.弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,"100%的大公司"会采用Hadoop.Market Research的一份报告预测,到2011年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长:到2020年,市场产值会超过10亿美元.IBM更是非

荐六十款针对Hadoop和大数据顶级开源工具

说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱.弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,"100%的大公司"会采用Hadoop.Market Research的一份报告预测,到2011年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长:到2020年,市场产值会超过10亿美元.IBM更是非常看好开源大数据工具,派出了3500名研究人员开发Apache Spark,这个工具是Hadoop生态系统的一

2012云计算及数据中心最佳开源软件

云计算需要各个领域协作,而开源恰恰提供了这样的开放的环境.通过开源,创业企业得以低成本运营,通过社区也可以将成果让更多的开发者和企业享受.InfoWorld评出了云计算和数据中心领域16家最佳开源软件,能给活跃在一线的开发者以指导. OpenStack:被各大IT巨头投资的开源云平台,社区活跃度非常高. CloudStack:由Citrix推出的开源云平台,拥有非常好的Web UI,成熟度较高. Eucalyptus:这是一家初创公司纯粹的软件公司,今年与AWS深度合作,其API获得了AWS官方

Hadoop何以快速成为最佳网络安全工具?

本文讲的是Hadoop何以快速成为最佳网络安全工具?,Apache Hadoop 今年10岁了 这个以处理大量数据的实验做为开端的开源软件框架,已经稳步成长为以前所未有的方式解锁信息价值的成熟企业解决方案.今天,企业运用Hadoop解决各种各样的问题,从改善人类健康,到挖掘最大金融投资潜力,等等等等.10年间,业内见证了一个以Hadoop为中心的庞大生态系统的诞生和快速发展. 现代企业场景里,安全和风险从业者迅速认识到,数据洞见是理解.识别和解决企业威胁的关键. 我们开始意识到,网络安全,从很多

2012云计算及数据中心最佳开源软件:CloudStack等上榜

云计算需要各个领域协作,而开源恰恰提供了这样的开放的环境.通过开源,创业企业得以低成本运营,通过社区也可以将成果让更多的开发者和企业享受.InfoWorld评出了云计算和数据中心领域16家最佳开源软件,能给活跃在一线的开发者以指导. 2012云计算和数据中心最佳开源软件 OpenStack:被各大IT巨头投资的开源云平台,社区活跃度非常高. CloudStack:由Citrix推出的开源云平台,拥有非常好的Web UI,成熟度较高. Eucalyptus:这是一家初创公司纯粹的软件公司,今年与A

[Oracle]利用开源工具实现自己的TPC-C

oracle [Oracle] How to Use Open Source Tools to Implement Your Own TPC-C 作者:Fenng 日期:Mar 14 2004 (v0.13)站点:Http://www.dbanotes.net 本文简介 介绍如何利用开源工具实现Oracle数据库环境中的TPC-C.对DBA.开发人员.BI实施者有一定的参考价值. 引言描述 设想一下这样一种情况: 您正在负责公司的一个OLTP类型的数据库项目,面临数据库服务器选型的问题:如何选择