《开源思索集》一28万个开源项目之番外篇

数据抓取
最初是打算使用openhub.net的Open API的，他们有不错的API，还在Github上放了一个开源项目。只可惜，他们的API，最多只能申请5个API Key，每个Key明天的访问请求数量不能超过1000次。当时我还不知道，其实openhub的数据只有28万多，还以为满打满算，至少得60多天才能全部抓完，顿时心就凉了。

后来有朋友介绍了一个很棒的直接抓取HTML页面，然后做DOM分析的工具，名叫noodle。

接下来，只要抓取： https://www.openhub.net/p?ref=homepage&q=&page={num} 就能够拿到所有项目的概要数据了。

当然，后续的331个项目的明细数据，还是得通过OpenHub的API来抓取。

数据分析
完全是土法上马：sqlite3+numbers+csv+ruby，反正各种手法，什么称手用什么。
数据展示
原本是打算在numbers里想想办法的，后来发现实在太弱。Excel也差不多，只能到网上搜索一些信息图制作的工具，后来找到了几个不错的在线工具，经过一番比较，最后决定用infogr.am来完成。的确非常不错。

二、释疑：项目大小与创建时间的关系
我与@云风在微博上有一小段讨论，起因还是我之前分析的一些观点：

是否使用Github，越是新的项目越愿意用，越是大的项目越没法用。
是否使用Github来管理项目的issue，越是新的项目越愿意用，越是大的项目越没法用。
这个结论，其实在用词上，是有些讲究的：按理说，新与老相对，小与大相对；愿意与不愿意相对，能用与没法用相对，我的两个结论，对仗都不公整。其实，确实故意为之。

于是，云风与我的对话如下。

云风：项目规模和项目历史本身有相关性吧。代码规模越大的项目历史很可能越久。
我：项目的规模，主要还是与项目本身的特性有关。原本复杂的项目，才可能越长越大。原本就是小项目，也未必就会稳定地逐年增长。
云风：这只能说明小项目可以历史久，不能说明大项目可以历史短啊。很少有新项目一开始就很大啊。代码也是一行行写出来的啊。
我：那就是成长速度不同了。比如OpenStack一开始就不小。
云风：一开始就不小只能说闭源开发过一段时间，或从别的地方搬迁过来的吧。你能想象不被版本管理工具管理的情况下，首次提交 10 万行以上的代码？看这个 link 提交日志写的 initial fork out of nova。

后来，我也没有再继续这个讨论，但是却一直在思考这个问题：“项目的大小与项目的创建时间，究竟有多少相关性？”

后来，我将两个数据，做了一个分析：Log（第一次提交代码，至今的天数）/Log（代码行数），大概得到如下一个图：

经过强大的Excel的计算，两个数据的相关系数，大约是0.203的样子，也就是说：大致上有较弱的正相关。

三、开源
目前，我已经将这个分析的相关数据，放在Github上开源了。简单介绍一下：

data.sqlite3.zip 是28万基础数据。
projects.sqlite3 是331个项目的详细数据。
projects.csv 是我用来做数据分析的大表格。

四、名单
331个一个开源项目，名单如下：

时间： 2024-07-30 04:52:42

《开源思索集》一28万个开源项目之番外篇的相关文章

《开源思索集》一“我们的开源项目”活动发起人——庄表伟专访

"我们的开源项目"活动发起人--庄表伟专访开源思索集 1. 先来个自我介绍吧! 庄表伟,盛大创新院高级研究员.1997年毕业至今,始终战斗在编程的"第一线",2009年加入盛大创新院.一直致力于推广并服务开源,热爱社区,热衷参与各种社区的交流活动.对于开源的事业贡献度很低,目前稍微能够拿得出手的项目,是一个正在进行中的写作计划:<借助开源项目,学习软件开发>. 为什么要发起"我们的开源项目"活动? 这个活动,最初是因为即将召开的QC

《开源思索集》一开放源码是开源软件吗？ - 简书

开放源码是开源软件吗? - 简书开源思索集开放源码和开源软件的不同是什么?开放源码不能叫做开源软件吗?所谓开源,仅仅是指符合OSI定义的Open Source吗?Open Source的来历1997年,埃里克·雷蒙(Eric Raymond)出版其著作<大教堂和市集>,探讨黑客社区与自由软件原则.1998年初,该论文受到极大的关注,成为促成网景通讯公司将其受欢迎的互联网套装软件<网景通讯家>(Netscape Communicator)释放成为自由软件的因素之一.这些代码即为今日

《开源思索集》一成功的开源软件都有什么样的特点

成功的开源软件都有什么样的特点开源思索集一.萌芽阶段1．解决实际问题,这是核心.不一定要特别创新,特别酷,当然如果有的话是加分项. 2．定期发布,及时接受反馈,不断满足用户需求,形成稳定预期. 二.成长阶段1．出色的宣传手段.引导传播的能力.很多不错的开源项目因为这一点不够,始终默默无闻 . 2．足够好的协作机制.虽然开源社区通常有较为成熟的玩法,但是做得不够好的项目比比皆是. 3．友好的参与引导.不断地吸引新人加入贡献(包括新手指南.开发文档.Demo等). 三.成熟阶段1．商业介入,获得资

《开源思索集》一导读

开放源码是开源软件吗? 当我们谈开源时,我们谈些什么? 如何更有效地学习开源项目的代码? 打开本书,为你解答有关开源的所有问题. "将开源与道德脱钩,既不以道德相标榜,也不以道德相指责.这是对于开源软件最好的态度!" "自由软件值得尊重:软件版权应该遵守:开源运动值得参与.专利说到底是个很糟糕的东西.而知识,蕴含在任何能够被读到的源代码里." "学习开源,就尽可能在代码里找答案,而不是在代码之外找答案,那些都是二手的,而且很可能是不准确的." &

《开源思索集》一Free Software vs. Open Source

Free Software vs. Open Source 开源思索集推荐一部电视剧很早以前看过一部港剧<龙兄鼠弟>,是万梓良.郑则仕和张卫健演的.其中万梓良饰演的雷文凤,在最后写了一本书,叫做<黑白灰>.大意是:这个世界,虽然存在黑白两色,绝大多数人,却都是灰色的.而他,却一定要坚持做一个纯白色的人.甚至在他看来,灰色的人较之黑色的人,更加罪恶. 最近刚刚读完了另外一本书<若为自由故>,则是一本Richard Stallman的传记.在这本书里,红帽公司总裁罗伯特

《开源思索集》一基于包管理工具的开源生态圈

基于包管理工具的开源生态圈开源思索集2005年,我还是一个典型的Java程序员.一个偶然的机会,我看到了一篇文章--<Ruby on Rails实践>. 在简单的试用之后,我于2005年05月27日在当年的JavaEye社区写了一篇热情洋溢的帖子:Java社群该向Ruby on Rails学习些什么? 当时的JavaEye站长Robbin回复到:"Python/Ruby是下一代的编程语言,Java是这一代的编程语言,要等到Python/Ruby流行,至少5年以后.正因为5年以后,所

《开源思索集》一如何看待陈皓在微博上对闭源和开源软件的评论？

如何看待陈皓在微博上对闭源和开源软件的评论? 开源思索集忍不住要深深地叹息一声,各位,这个观点真的一点都不新鲜,而且早就被批得一钱不值了. 在1998年,微软的万圣节文件被泄露,然后流到了Eric S. Raymond的手上,他是<大教堂与集市>的作者. ESR以极其尖锐的语言,点评了这批文件,我只打算摘录与陈皓观点相关的部分. 微软的文件中说:"当向JimAll描述这个问题的时候,它提供了漂亮的模拟"追逐后灯".要使一大批半组织的暴民合作,必须要向他们指出一个

《开源思索集》一我们都是干柴，期待烈火！

我们都是干柴,期待烈火! 开源思索集今天,整个上午我都在创智天地7号楼,参加一个社区经理的活动.社区经理培训活动之四 --"如何从0开始做一个很棒的社区" 来了很多朋友,大家都是8分钟快速演讲,给我留下最深刻印象的,是OpenERP社区的Jeff,还有ThinkLAMP社区的板子. Jeff的社区,做了很多很多的贡献,但是也有很多"苦逼"的数据.一个Wiki,非常非常多的内容,只有4个人撰写,而且其中90%的内容,还是他一个人写的.为了养活社区,Jeff在外面接活,

《开源思索集》一拥抱开源，从中受益

拥抱开源,从中受益开源思索集导读:盛大创新院高级研究员庄表伟近日编撰系列文章<借助开源项目,学习软件开发>活动,引起业界关注.庄表伟认为,通过编撰这些文章,希望更多开发者能够借助开源项目提高开发效率,减少重复劳动并从开源软件中受惠.同时,他呼吁更多开发者参与此项活动,通过分享过来人的经验教训,帮助那些初次接触开源的朋友.为此,CSDN记者就开源社区未来前景,开源所带来的机遇和开源是否受到企业青睐等几方面对庄表伟进行了采访. 以下是采访内容: CSDN记者:您为何如此重视开源? 庄表伟:随着科

猜你喜欢

翻页的存储过程

存储过程|翻页 CREATE PROC Turnpage @qCols varchar(200), --需要查询的列 @qTables var ...

上传的进度条实时反映上传情况

asp中使用组件上传时,有点麻烦就是不知道上传进度是多少,虽然有的提供了上传进度条,例如abcupload(下载地址:http://www.websupergoo.com)已经提供了显示当前上传状态的 ...

Visual Basic 6/VBScript 與Visual Basic.NET 的比較(下)

vbscript|visual 新的簡易設定(assignment)語法 Visual Basic.NET 提供新的簡易設定語法,當程式碼撰寫如下時 MyVal = 10 MyVal += 10 ...

Access中用Jet SQL语句删除表关系

如何用 jet sql 的 ddl 语句建立表和关系? 微软的 access 中包含 data definition language (ddl) 来建立删除表以及关系,当然了,这也可以用 dao 来 ...

oracle中如何调用存储过程

过程调用方式 declare realsal emp.sal%type; realname varchar(40); realjob varchar(40); begin //存储过程调用开始 r ...

《Programming WPF》翻译第5章 8.我们进行到哪里了？

样式支持你定义一个策略来设置可视化元素的依赖属性.属性的设置可以被命名以及手动或者编程方式地通过名称应用,或者使用元素类型样式来自动应用 .除了提供不变的依赖属性值之外,样式可以包含基于条件的属性值 ...

魔波病毒是什么

"魔波"病毒会自动在网络上搜索具有系统漏洞的电脑,并直接引导这些电脑下载病毒文件并执行.只要这些用户的电脑没有安装补丁程序并接入互联网,就有可能被感染.感染该病毒的计算机会自动 ...

php类声明和php类使用方法示例

这篇文章主要介绍了php类声明和php类使用方法示例,需要的朋友可以参考下代码如下: <?php /**php语言是支持面向对象编程的,对于面向对象的编程,学过java和C++ ...

电力三维GIS开发合作

问题描述有从事过电力三维GIS的售前,分析设计,开发的通知请速联系:QQ:150286820,注明电力三维GIS 解决方案解决方案二:我是做过,但不至于那么有空说一下你啥单位,想干啥吧解决方案三: ...

2016深度学习统治人工智能？深度学习十大框架

2015 年结束了,是时候看看 2016 年的技术趋势,尤其是关于深度学习方面.新智元在 2015 年底发过一篇文章<深度学习会让机器学习工程师失业吗?>,引起很大的反响.的确,过去一年的 ...

v-on 指令

v- 开头 1. v-on 两种修饰符 1)事件修饰符(4种) prevent,stop,capture,self 详细说明: prevent: preventDefault() 阻止事件的默认行为 ...

c语言-我用C编写dll截取文本文件内容并返还回但是无法获得文件内容

问题描述我用C编写dll截取文本文件内容并返还回但是无法获得文件内容 #include #define MAXLEN 16384 FILE *f; long offset=12345; long l ...

织梦样式-织梦后台备份数据提交时，显示为0记录，无法备份还原怎么办

问题描述织梦后台备份数据提交时,显示为0记录,无法备份还原怎么办织梦后台数据提交后,显示0记录,无法备份还原怎么办,求解织梦后台备份数据提交时,显示为0记录,无法备份还原怎么办,求解,红包报酬, ...

ueditor上传附件时发生io错误

问题描述 ueditor上传附件时发生io错误在一个服务器上可以正确上传,把项目部署到另一个服务器上时上传附件报io错误解决方案把报的错贴出来啊.......

c-在函数里面定义的 int a(); 这是什么意思？

问题描述在函数里面定义的 int a(); 这是什么意思? void main(){ int a();} 这样也可以编译通过.这是什么意思呢? 解决方案 int a()是声明的int型的函数,需要返 ...

datagridview-vb.net DataGridView列表头多种功能并存

问题描述 vb.net DataGridView列表头多种功能并存 vb.net DataGridView 控件列表头既可以实现选中整列,还可以实现排序功能

钓鱼网站新陷阱：上对花轿嫁错郎

N本报记者周锡银本报讯 2月13日下午,家住福州闽侯的卞先生在淘宝上买电脑时,遇到了一起网络诈骗,这起诈骗让他的1900元有去无回.据卞先生回忆,骗子的每个环节其实都有漏洞,但当时自己也不知道为什 ...

js关于命名空间的函数实例_javascript技巧

本文实例讲述了js关于命名空间的函数.分享给大家供大家参考.具体如下: var MYAPP = MYAPP || {}; MYAPP.namespace = function(ns_string){ ...

rmi 打包运行报错在eclipse运行jar没问题

问题描述 rmi 打包运行报错在eclipse运行jar没问题一个Java RMI 程序在ECLIPSE上运行没问题服务器端打包之后,客户端是连不上服务器.客户端报错为MalformedURL ...

json传值以及ajax接收详解_javascript技巧

一开始进入公司,做起项目来比较不知所措,现在一个月过去了,越来越得心应手,下面是json向前端传值以及前端ajax接收,给自己记下也分享给大家. 这是两个类型不同的json与ajax的数据交互(集合. ...

谷歌悬赏30万美金寻找能破解Nexus 6P和5X手机的黑客

谷歌悬赏30万美金寻找能破解Nexus 6P和5X手机的黑客责任编辑:editor007 作者:谭思编译 | 2016-09-18 22:08:24 本文摘自:腾讯科技如果你一直想成为一名黑客, ...

新思维不必对伟大的品牌恐惧

■文/本刊特邀研究员余不讳我愿意跟你打一个赌:两三年内,在中国手机市场,必将有一两个中国品牌跻身一线阵营,国产手机将再度占据一半以上的市场份额.而这种辉煌,不再是2003年到2004年那样的昙花一 ...

大数据知道你的心脏能不能跑马拉松

本文讲的是大数据知道你的心脏能不能跑马拉松1月2日,2016厦门国际马拉松赛在鹭岛开赛,获得了诸多运动爱好者的追捧.随着近年马拉松运动的兴起,越来越多的兴趣者加入其中.但是,是否所有人都适合这样的运动 ...

【干货】综合布线中如何规范跳线管理

对于综合布线来说,电信间及设备间是数据.语音.图像三类业务的汇聚地,其重要性不言而喻.但是对于它们的整体设计.设备定型.硬件配置.施工维护等各方面下足了功夫. 但是,施工方往往会忽略了电信间及设备间里 ...

fqueue初步分析

fqueue是国产的一个类似memcacheq,kestrel这样的支持memcached协议的轻量级开源MQ.它的项目主页:http://code.google.com/p/fqueue/do ...

Industroyer：自震网病毒以来对工控系统的最大威胁

位于斯洛伐克反病毒厂商ESET和美国马里兰州工业网络安全企业Dragos Inc.的安全研究人员们表示,他们发现了一种对关键的工业控制系统存在威胁并能够导致停电的恶意程序.ESET该恶意软件命名为&q ...

基于云的数据分析正在撬动商业格局

大数据文摘翻译:孙强校对:于丽君(转载请保留) 企业IT部门已经发现了大数据商业智能的价值,但中小企业和初创企业因为缺钱少人却得不到数据分析带来的好处.分析PB(petabytes)级和EB(exa ...

高克家：无线互联网如今处在拨号上网转宽带时代

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅速途网1月11日消息今日下午,在 ...

在线招聘行业现状分析：别只卖广告，请服务求职者

中介交易 SEO诊断淘宝客站长团购云主机技术大厅 [研究结论] 1. 在线招聘行业整体规模发展迅速,但思维模式依然较为传统; 2. 社交媒体招聘.猎头招聘和垂直领域招聘,在分食传统在线招聘市场; ...

快速提高网站关键词排名之关键词的选取

摘要: 大家好,我是木子成舟.之前很少谈到关于关键词的想法,看过很多站长分享的经验,感觉很多都非常的有道理,但是对于如何快速提高网站关键词的排名这个问题,我想大家肯定还是大家好,我是木子成舟.之前很 ...

热搜