谁是2017年度开源贡献之王?—— GitHub 数据分析报告

这位作者分析了 2017 年截至今天 GitHub 上所有的 PushEvents,对于每个 GitHub 用户都尽量分辨了他们属于哪个组织,并且只关注在 2017 年增长超过 20 个 star 的仓库(比如 Apache 目前在 GitHub 有超过 1500 个仓库,但只有 205 个在今年获得了 20 个以上的 star。因此,这里只分析这 205 个仓库的提交情况)。

各公司的贡献情况

按仓库 star 数排名

顶尖的贡献组织比较:

  • 微软大约有 1,300 名员工积极地将代码推送到 GitHub 上的 825 个顶级仓库
  • 谷歌大约有 900 名员工活跃于 GitHub,将代码推送到约 1,100 个顶级仓库
  • 亚马逊大约有 134 名员工活跃于 GitHub,仅将代码推送到 158 个顶级仓库
  • 谷歌员工贡献的代码仓库比微软的多了 25%,存储卡获得的 star 数也更多(530,000 vs 60,000)。亚马逊仓库 2017 的 star 总数为 27,000。

亚马逊远远落后于微软和谷歌,那夹在它们之间有什么公司? 根据贡献情况排名如下:RedHat,IBM,Pivotal,Intel 和 Facebook 也做出了突出贡献。

Facebook 和 IBM(US) 的 GitHub 用户数量与亚马逊的相似,但他们贡献的项目收获到了更多的 star(尤其是 Facebook):

紧接着的是 Alibaba, Uber, 和 Wix:

GitHub,Apache 和 Tencent:

Baidu, Apple 和 Mozilla:

更详细的内容可直接参看这个可交互的版本:The top contributors to GitHub (2017)

怎么做到的?

1. 数据来源:GitHub Archive

2. 怎么判断 Github 用户属于哪个公司?

这里主要通过用户提交记录中的邮件地址来进行判断。当然不是每个人都会用自己组织的邮箱地址,有很多人在 Github 上都选择如 gmail.com, users.noreply.github.com 或其他的邮箱,这种情况就没有办法了。

3. 所用工具:Google Big Query

4. 具体的 SQL 代码:

#standardSQL
WITH
period AS (
  SELECT *
  FROM `githubarchive.month.2017*` a
),
repo_stars AS (
  SELECT repo.id, COUNT(DISTINCT actor.login) stars, APPROX_TOP_COUNT(repo.name, 1)[OFFSET(0)].value repo_name 
  FROM period
  WHERE type='WatchEvent'
  GROUP BY 1
  HAVING stars>20
), 
pushers_guess_emails_and_top_projects AS (
  SELECT *, REGEXP_EXTRACT(email, r'@(.*)') domain
  FROM (
    SELECT actor.id
      , APPROX_TOP_COUNT(actor.login,1)[OFFSET(0)].value login
      , APPROX_TOP_COUNT(JSON_EXTRACT_SCALAR(payload, '$.commits[0].author.email'),1)[OFFSET(0)].value email
      , COUNT(*) c
      , ARRAY_AGG(DISTINCT TO_JSON_STRING(STRUCT(b.repo_name,stars))) repos
    FROM period a
    JOIN repo_stars b
    ON a.repo.id=b.id
    WHERE type='PushEvent'
    GROUP BY  1
    HAVING c>3
  )
)
SELECT * FROM (
  SELECT domain
    , githubers
    , (SELECT COUNT(DISTINCT repo) FROM UNNEST(repos) repo) repos_contributed_to
    , ARRAY(
        SELECT AS STRUCT JSON_EXTRACT_SCALAR(repo, '$.repo_name') repo_name
        , CAST(JSON_EXTRACT_SCALAR(repo, '$.stars') AS INT64) stars
        , COUNT(*) githubers_from_domain FROM UNNEST(repos) repo 
        GROUP BY 1, 2 
        HAVING githubers_from_domain>1 
        ORDER BY stars DESC LIMIT 3
      ) top
    , (SELECT SUM(CAST(JSON_EXTRACT_SCALAR(repo, '$.stars') AS INT64)) FROM (SELECT DISTINCT repo FROM UNNEST(repos) repo)) sum_stars_projects_contributed_to
  FROM (
    SELECT domain, COUNT(*) githubers, ARRAY_CONCAT_AGG(ARRAY(SELECT * FROM UNNEST(repos) repo)) repos
    FROM pushers_guess_emails_and_top_projects
    #WHERE domain IN UNNEST(SPLIT('google.com|microsoft.com|amazon.com', '|'))
    WHERE domain NOT IN UNNEST(SPLIT('gmail.com|users.noreply.github.com|qq.com|hotmail.com|163.com|me.com|googlemail.com|outlook.com|yahoo.com|web.de|iki.fi|foxmail.com|yandex.ru', '|')) # email hosters
    GROUP BY 1
    HAVING githubers > 30
  )
  WHERE (SELECT MAX(githubers_from_domain) FROM (SELECT repo, COUNT(*) githubers_from_domain FROM UNNEST(repos) repo  GROUP BY repo))>4 # second filter email hosters
)
ORDER BY githubers DESC

原文发布时间为:2017-10-27

本文作者:佚名

本文来自合作伙伴“51CTO”,了解相关信息可以关注。

时间: 2024-09-22 12:55:12

谁是2017年度开源贡献之王?—— GitHub 数据分析报告的相关文章

GitHub 开源贡献榜:微软超越 Facebook 排第一

在新任CEO萨蒂亚·纳德拉的领导下,封闭许久的微软已于过去几年在变得更加拥抱开源.根据知名代码协作项目网站GitHub上的最新数据,我们发现微软已经位列开源贡献榜的第一名(16419),超过了Facebook(15682).docker(14059).angular(12841).以及Google(12140).过去12个月,微软有超过580万活跃用户在其平台上. 这样的成绩并非一蹴而就,2014年10月的时候,微软开源了其.NET框架(该公司用于打造和运行 应用+服务 的编程基础工具),吸引了

DT科技评论第29期: 《MIT科技评论》杂志公布2017年度十大突破技术

DT科技评论 Data Technology Review 第 29 期           人民网研究院,阿里云研究中心 本期目录 <MIT科技评论>杂志公布2017年度十大突破技术 亚马逊云停摆4小时震动硅谷 我们赖以生存的互联网有多脆弱? 亚马逊AWS正在调查S3故障 基础架构即服务云安全最佳实践及AWS 身份识别和访问管理的演进 波士顿动力正式推出轮腿式机器人Handle 谷歌发布"tf.Transform"简化机器学习数据预处理过程 Nuix黑客行为调查报告来看企

2017年度TOP 10大数据应用最佳实践 案例征集活动最新启动

2017年5月18日上午,CCF大数据专家委员会召开新闻会,正式发布和启动了"2017年度TOP10大数据应用最佳实践案例征集"活动. CCF大数据专家委员会副秘书长.北京启明星辰信息技术有限公司首席战略官潘柱廷(左),中国科学院计算技术研究所副研究员查礼(右) 发布会上,CCF大数据专家委员会副秘书长.北京启明星辰信息技术有限公司首席战略官潘柱廷,中国科学院计算技术研究所副研究员查礼代表活动发起方,向现场数十家记者阐述了2017年大数据技术发展的现状及未来趋势,并就本次最佳实践案例征

谁是2012年度中国最牛逼CIO?

谁是2012年度中国最牛逼CIO? CIO在企业IT建设中的价值与地位已经毋庸置疑,在刚刚过去的2012年,谁是这个群体中的翘楚呢?2013年1月13日,大中华地区最权威的"年度中国优秀CIO评选"在北京举行颁奖典礼并揭晓最终榜单,榜单中最重量级的5名"2012年度中国杰出CIO"浮出水面. 蔡阳 中国东方航空股份有限公司 总信息师 蔡阳: 新东航 新三年任期开始,东航零号楼里的蔡阳,终于可以暂时卸下"救火队员"的角色. 2009底年走马上任东方

Rafy 开源贡献中心 - 组织成立,并试运行一月小结

背景 最近两年,工作中虽然大量使用了 Rafy 框架作为各个产品.项目的开发框架.我是 2015 年的年中加入现在这家公司的,由于我个人工作太忙的缘故,一直没怎么编码,Rafy 框架底层的核心成长也比较慢.这两年只是在必须更新时,安排了一些开发者做了很少的一些代码更新. 这几年,Rafy 框架 2.0 版本没怎么大力推广.目标客户不精确.产品的设计有些问题.框架本身的价值也没有被大众认可,这些都需要对框架本身不断地进行更新.由于最近两年编码较少,我也停下来在更高的维度思考了框架 3.0 版本应该

信息网络安全公安部重点实验室2017年度开放课题指南

一. 实验室简介信息网络安全公安部重点实验室(公安部第三研究所),以下简称"实验室",以信息网络安全技术为主要研究领域,以电子数据取证.网络犯罪侦查.信息系统安全管理为三个主要研究方向,以应用综合研究为特色,以信息网络安全科学的重大理论问题.科技前沿问题和公安部重大需求为主要研究内容,以获取原始创新成果和自主知识产权为主要研究目标,实行"开放.联合.流动.竞争"的运行机制,为科学研究提供良好的科研环境和实验条件. 二. 实验室开放基金简介为充分发挥实验室的学科优势,

金融科技大咖去哪儿? —— 第九届金融科技与支付创新2017年度盛会为您开启精彩之旅!

新兴科技和金融创新企业越来越多地改变着人们的日常生活.颠覆性新技术的出现正倒逼传统金融机构进行适应性创新.金融科技作为技术驱动的金融创新,为金融发展注入了新的活力,但也给金融安全带来了新挑战.同时,随着移动设备.高速数据通信以及电子商务的蓬勃发展,人们对随时随地获取便捷.安全.实时支付的需求也油然而生.在技术变革和期望升温的背景下,我们对金融科技和支付创新方式的分析和探讨显得尤为重要. 由决策者金融研究院(CFRI)主办.决策者会议策划集团协办的第九届金融科技与支付创新2017年度盛会(IFPI

90后CEO的开源心得:Github 2500 star是如何炼成的

90后CEO的开源心得:Github 2500 star是如何炼成的 如果你是一名iOS开发者同时还是Github的重度使用者,那么你多半见过这个项目:PNChart,一个提供带动画的图表控件.截止到目前为止,PNChart在Github上的star数已经超过2500,是一个备受开发者喜爱的iOS第三方开源库.那么,你知道它的第一作者其实是国人.90后,并且已经有自己的公司了吗? 这个人就是周楷雯,除了PNChart,最近他还开源了Waver,一个类似Siri中的声波效果库.当记者联系他表达采访

Linux 基金会宣布 2017 年开源领袖峰会计划

Linux 基金会近日宣布 2017 年开源领袖峰会将于 2 月 14 日-17 日在美国 Squaw Creek 城举行. 该活动由开源界领导者及协作开发者共同召开,是世界最盛大的年度开源峰会.活动包含 90 多个会议,主题涵盖最佳实践.领导战略.专业开源管理等,旨在进一步探索开源战略及协作开发计划. 官方称,与会者除参与基本会议外,还可参加 Open Spaces 非正式会议及会议外的组织活动. 活动主要演讲者及演讲主题: Katharina Borchert:Mozilla 首席战略总监,