数据挖掘开源项目立项

项目背景

因为最近一直都在搞数据挖掘类的项目,且现在国内的大数据潮火热。在前几天与群里的几位兄弟聊天所以有了做一个开源项目的想法,以前也搞过一个开源的项目,当时只是想把权限集中化做一下,项目的名称和地址是:

http://www.cnblogs.com/skyme/archive/2012/02/07/2341364.html

但是后期实在工作太忙,就搁置在那里了。

所以现在又搞了一个,目前方向已经大致明确,下边介绍一下思路。

仿今日头条

java+新闻等+仿今日头条+大数据分析和挖掘(分类器+聚类分析+推荐系统等)

经过大家几天的讨论,项目方向已经基本确定!

在github上会发起新项目

这个是讨论的投票结果,结果见下图。

系统定位

所有的app都可以接入,不重点做app端,而是做个性化推荐这一块,在服务端。

项目目前的思路如下图所示:

目的是提供一个大众化的信息收集系统,让今日头条中所使用的技术不再神秘。

有想参与的可以一起进来讨论

群号 194338168 
想深度参与的加,不想参与的就别往里进了,现在需要的主要是开发和文档两类人。群会定期往出清人! (项目会开源出来)

时间: 2024-10-29 06:25:16

数据挖掘开源项目立项的相关文章

数据挖掘系列(5)使用mahout做海量数据关联规则挖掘

上一篇介绍了用开源数据挖掘软件weka做关联规则挖掘,weka方便实用,但不能处理大数据集,因 为内存放不下,给它再多的时间也是无用,因此需要进行分布式计算,mahout是一个基于hadoop的分 布式数据挖掘开源项目(mahout本来是指一个骑在大象上的人).掌握了关联规则的基本算法和使用 ,加上分布式关联规则挖掘后,就可以处理基本的关联规则挖掘工作了,实践中只需要把握业务,理 解数据便可游刃有余. 安装mahout 骑在大象上的侠士必然需要一头雄纠纠的大象,不过本文不解绍大象hadoop,所

为什么选择这样的大数据平台架构?

当前BAT基本公开了其大数据平台架构,从网上也能查询到一些资料,关于大数据平台的各类技术介绍也不少,但在那个机制.那个环境.那个人才.那个薪酬体系下,对于传统企业,可借鉴的东西也是有限的. 技术最终为业务服务,没必要一定要追求先进性,各个企业应根据自己的实际情况去选择自己的技术路径. 与传统的更多从技术的角度来看待大数据平台架构的方式不同,笔者这次,更多的从业务的视角来谈谈关于大数据架构的理解,即更多的会问为什么要采用这个架构,到底能给业务带来多大价值,实践的最终结果是什么. 它不一定具有通用性

35个大数据投资并购案例(近2月,超15亿美金)

做了个笨事, 整理了从9月下旬到现在差不多两个月的全球大数据方向的投资并购案例, 总共35个项目,超过15亿美元, 包括三起超过一亿美金的收购(Facebook 1.5亿美元收购移动数据分析服务Onavo, NoSQL数据库公司MongoDB获得1.5亿美元投资, Monsanto 9.3亿美元收购天气大数据公司Climate Corporation), 是否大数据投资将迎来一波高潮? 土匪做了一些详细的分析,这里将一些简单的结果分享下.按照主营业务大致分类了下: 大数据分析服务类项目:17 技

请问数据挖掘中hanlp开源包怎样用自定义词典分词?

问题描述 请问数据挖掘中hanlp开源包怎样用自定义词典分词? 如题:在用hanlp的java开源包分词时,不知道怎样使用自定义词典,虽然已经在词典目录里添加了自己的词典,但分出来效果并不明显,应该有些地方没有设置好,请指教.

Weka实践掌握开源数据挖掘工具的使用

为了满足这种需求,数据挖掘技术的得到了长足的发展,而分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多.本文主要侧重数据挖掘中分类算法的效果的对比,通过简单的实验(采用开源的数据挖掘工具 -Weka)来验证不同的分类算法的效果,帮助数据挖掘新手认识不同的分类算法的特点,并且掌握开源数据挖掘工具的使用. 分类算法是解决分类问题的方法,是数据挖掘.机器学习和http://www.aliyun.com/zixun/aggregation/12097.html">模式识别中一个重要的研究领

进行数据挖掘的8个最佳开源工具

数据挖掘,又称为资料探勘.数据采矿.它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤,是一个挖掘和分析大量数据并从中提取信息的过程.其中一些应用包括市场细分 - 如识别客户​​从特定品牌购买特定产品的特征,欺诈检测 - 识别可能导致在线欺诈的交易模式等.在本文中,我们整理了进行数据挖掘的 8 个最佳开源工具. 1.Weka WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理

一些开源的数据挖掘系统/软件

 Data Scientist Orange   Orange 是一个基于组件的数据挖掘和机器学习软件套装,它的功能即友好,又很强大,快速而又多功能的可视化编程前端,以便浏览数据分析和可视化,基绑定了 Python以进行脚本开发.它包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功能.其由C++ 和 Python开发,它的图形库是由跨平台的Qt框架开发. Orange 是一个基于组件的数据挖掘和机器学习软件套装,它的功能即友好,又很强大,快速而又多功能的可

领英开源企业级数据挖掘软件:WhereHows

开源从最初的"洪水猛兽",已经俨然成为一个名媛,备受各大企业喜爱.近日,领英(LinkedIn)宣布即将开源一个企业级的数据挖掘软件:WhereHows. 领英 数据挖掘,对于很多人来说已经不再陌生.大数据的崛起,DT时代的来临,数据挖掘对于企业来说显得越来越重要.而领英虽然成立时间仅有14年,但是在自己的领域有着很好的口碑. 当然,数据挖掘在其中的作用不言而喻.此次开源自己内部的应用软件WhereHows,主要目标是从分布式的多种元数据中进行挖掘. 据悉,WhereHows已经挖掘了

数据挖掘十大经典算法(详解)

数据挖掘十大经典算法  一. C4.5  C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法.   C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:  1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足:  2) 在树构造过程中进行剪枝:  3) 能够完成对连续属性的离散化处理:  4) 能够对不完整数据进行处理.  C4.5算法有如下优点:产生的分类规则易于理解,准确率较高.其缺点是:在构造树的过程中,需要对数据