[转载]易上手的数据挖掘、可视化与机器学习工具: Orange介绍

标签

PostgreSQL , Orange3 , 可视化 , 时空数据


背景

可视化分析会是一个让枯燥的数据说话的快捷途径,降低可视化分析门槛,同时又保留它的编程能力,是非常重要的。

如今数据种类越来越多,除了常见的数值、文本,还有数组、K-V、图像、空间数据、波、基因 等等。对可视化分析软件的要求也越来越高。

原文

http://blog.just4fun.site/Orange-startup.html

之前陆续写过几篇介绍数据挖掘/可视化项目Caravel的文章:

如今直接去github搜索caravel已经搜不到它了。它最近换了新马甲,改叫superset,至于为何频繁改名(分别叫过Panoramix,Caravel,Superset),我猜核心作者早年混迹论坛,与人吵架,常换马甲:)

对数据可视化的兴趣一直未减,近期发现两个有趣的项目,其一就是这篇文章的主角:Orange,另一个是google发布的Embedding Projector(基于Tensorflow)

Orange初体验

现在,你可以直接在这里下载到最新的Orange软件,Orange发布了各个平台的安装包,选择你当前平台的安装包,双击安装即可,安装过程十分友好。

和许多数据分析的项目不同,其他项目多数面向数据分析从业人员、软件开发者。而Orange让各行各业对数据挖掘和可视化感兴趣的人都能参与其中,而不必有编程基础

安装完毕打开软件,跟着以下教程即可对它做大致了解

简介

官方首页对这个项目的介绍是:

Open source machine learning and data visualization for novice and expert. Interactive data analysis workflows with a large toolbox.

该项目源码开放,对新手友好,同时也胜任专业的数据分析工作。

Orange是一个基于组件的数据挖掘软件,它包含了一组数据可视化、探索、预处理和建模的技术。

它不但带有一个新手友好的用户界面,老司机们也可以把它用作Python的一个模块。

标签

如果要用一些简单的词描述它,我想到以下标签:

  • 开源
  • python
  • 数据可视化
  • 数据模式探索
  • 机器学习
  • 拖曳式
  • 积木化

特点

  • 交互式的数据可视化探索:你可以用它做简单的分析,诸如统计分布、箱形图(Box plot)、散点图。也可以做深入挖掘,诸如使用决策树、聚类、热图等。通过智能的属性选择,你可以在2维平面上探索多维数据
  • 可视化编程:图形化界面允许你专注于探索数据,而不是编码。你要做的事只是在画布上拖曳小部件、连接它们、加载数据集,如此便可获得数据洞察力!
  • 适合用于教学(jupyter出自生物学家之手,Orange似乎也和生物学领域有关,他们都让数据分析工作的协作交流变得简单有趣)
  • 附加扩展功能:通过使用各种插件,我们可以做各种各样的事:
 *  对外部数据源进行数据挖掘(数据库/网络)
 *  自然语言处理以及文本挖掘
 *  网络分析
 *  关联规则分析

优势

我折腾过的数据可视化工具多而杂, 以下是我偏好Orange的几个原因

  • 安装极其建议(二进制安装包)
  • 对新手友好,易于上手,许多操作凭直觉即可甚至不需要文档
  • 让普通用户能使用机器学习去发现数据模式,这项工作之前往往需要技术背景
  • 支持excel文件直接导入
  • 对中文支持良好(目前尚未遇到乱码)
  • 可视化的编程方式,用户无需编码,数据在各个组件里流动,通过拖曳组件即可开始探索数据
  • 交互式的探索过程,每一个组件叠加都能及时得到反馈。如同REPL(读取﹣求值﹣输出循环)般敏捷顺滑

不足

同时也简单列出我认为不足的地方

  • 对数据源的支持不够丰富,目前Orange3只支持PostgreSQL数据库,当然这是站在开发者的角度的挑刺,普通用户对此没有需求
  • 无法像tableau一样把探索结果作为网页发布。不过浏览了一遍官方源码库,他们似乎有这个计划。把它和superset整合在一起,指不定能折腾出一个商业应用

关于对数据库的支持,估计随着项目的推进,会慢慢完备起来,这块基本只是时间的问题。(PS:不过PostgreSQL, Greenplum实际上都非常强大,不仅仅能够完美的展现时空数据,还支持并行计算。)

后续

接下来有空我们分析下,这个项目在技术层面有哪些有趣的东西

此外我还有兴趣对它做些本地化改进,包括但不限于汉化,有兴趣的小伙伴可以一起来折腾,我已经fork了一份源码:orange3

参考

补充

这里有大量的例子:

http://blog.biolab.si/

时间: 2024-10-24 22:05:16

[转载]易上手的数据挖掘、可视化与机器学习工具: Orange介绍的相关文章

20个简单易上手堪称「神器」的可视化工具

  国外的可视化行业发展得相当成熟,这催生了不少在线信息图表制作工具,介绍比较好用的几个,利用它们,五分钟你就可以做出一张超屌的信息图表: 1]infogr.am 这是较早的一个在线制作工具,亮点是支持实时数据刷新,而且制作的信息图表支持在多终端展示. 2]Venngage 这款工具的亮点是自带超多免费模板,超多的版式选择,配色潮流大胆. 3]Piktochart 跟上一款非常相似,但免费模板不够多~ 用多了你会发现,这些傻瓜型工具的功能都大同小异,他们唯一的区别就是:各有各骚气的模板,各有各屌

真实可靠致富小项目,门槛低简单易上手,人人都能干

网上兼职做什么好,致富小项目还好赚钱 真实可靠致富小项目有什么?真实可靠致富小项目门槛高吗?相信很多创业者,对于最佳项目的期望值很高,可是往往事与愿违.真实可靠致富小项目,门槛低简单易上手,人人都能干.但是根据各地区的经济水平和消费水平,每个人所适合的项目不一样. 真实可靠致富小项目--做淘宝客,帮别人卖商品赚提成. 淘宝客成立时间有五年多了,现在成为网络最热门兼职项目,它的发展速度大家看得见,在未来的十年淘宝客还是个非常有前途的项目,不但适合个人还适合团队,企业去操作,小有小做,大有大做,第一

那些“简单粗糙易上手”的游戏,为什么能流行?

近一段时间,多款游戏突然在微信朋友圈火爆起来,比如<围住神经猫>.<别踩白块>等,相对于设计精美,关卡众多的游戏,这些游戏的特点是简单(甚至可能略显粗糙),易上手,且病毒性强,与上述游戏相比,它们可以称作是极简游戏. 当然这种极简游戏并不是今天才出现的,作为一种普遍的游戏设计思路,"极简主义"理念贯穿了游戏发展的历史,它们的成功也总有相似之处.今天寻空以几个代表游戏为例来探讨一下极简游戏流行的原因. 一.简单:<超级马里奥> 简单当然是极简游戏的首要

25 个 Java 机器学习工具和库

本列表总结了25个Java机器学习工具&库: Weka集成了数据挖掘工作的机器学习算法.这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用.Weka包括一系列的工具,如数据预处理.分类.回归.聚类.关联规则以及可视化. 2.Massive Online Analysis(MOA)是一个面向数据流挖掘的流行开源框架,有着非常活跃的成长社区.它包括一系列的机器学习算法(分类.回归.聚类.异常检测.概念漂移检测和推荐系统)和评估工具.关联了WEKA项目,MOA也是用Java编写的,其扩展性

Python机器学习工具:Scikit-Learn介绍与实践

本文讲的是Python机器学习工具:Scikit-Learn介绍与实践, Scikit-learn官方的解释很简单: Machine Learning in Python, 用python来玩机器学习. 什么是机器学习 机器学习关注的是:计算机程序如何随着经验积累自动提高性能.而最大的吸引力在于,不需要写任何与问题相关的特定代码,泛型算法就能告诉你一些关于数据的秘密. Scikit-learn的优点 构建于现有的NumPy(基础n维数组包),SciPy(科学计算基础包), matplotlib(

BlackHat2017热点之DefPloreX---大规模网络犯罪取证的机器学习工具

本文讲的是BlackHat2017热点之DefPloreX---大规模网络犯罪取证的机器学习工具, 前言 Black Hat USA 2017是在通过四天(7月22日-7月25日)的技术培训后才举办的会议,为期两天的会议是在7月26日-7月27日召开的. 在为期四天的培训中,培训者除了可以综合学习文件系统理论.应用分析.电子邮件.照片取证.事件日志审查等内容,还可以对Windows 8.Windows 10和其它操作系统的数字取证与事件响应方法进行了解.今天我们嘶吼就为大家具体剖析一下其中的一个

25个Java机器学习工具和库

1. Weka集成了数据挖掘工作的机器学习算法.这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用.Weka包括一系列的工具,如数据预处理.分类.回归.聚类.关联规则以及可视化. 2.Massive Online Analysis(MOA)是一个面向数据流挖掘的流行开源框架,有着非常活跃的成长社区.它包括一系列的机器学习算法(分类.回归.聚类.异常检测.概念漂移检测和推荐系统)和评估工具.关联了WEKA项目,MOA也是用Java编写的,其扩展性更强. 3.MEKA项目提供了一个面向多

机器学习经典书籍介绍

机器学习经典书籍小结 <数学之美>:作者吴军大家都很熟悉.这本书主要的作用是引起了我对机器学习和自然语言处理的兴趣.里面以极为通俗的语言讲述了数学在这两个领域的应用. <Programming Collective Intelligence>(中译本<集体智慧编程>):作者Toby Segaran也是<BeautifulData : The Stories Behind Elegant Data Solutions>(<数据之美:解密优雅数据解决方案背

数据科学和机器学习工具和语言最新动态

文章讲的是数据科学和机器学习工具和语言最新动态,第18届年度KDnuggets软件投票又一次受到了分析.数据科学界和软件生产商的热情参与.与去年相似,约有2900人参与了此次投票.最近几年,Python的使用增长率一直比R快,到今年,Python终于以微弱的优势超过了R的使用率 (52.6% Vs 52.1%).然而最大的惊喜应该是深度学习工具的广泛共享和使用.2017年深度学习有32%的使用率,而在2016年只有18%,2015年9%.谷歌Tensorflow迅速成为深度学习平台的领头者,以2