这是一个针对 GitHub 资源库的交互式数据分析与可视化工具,能方便地对各开源算法库的活动、状态、人气进行比对,包括新 commits 和 pull requests。开发者可用它来考察开源项目大趋势,以及筛选感兴趣的项目。顺便说一句,它免费使用。
它基于 GitHub 和谷歌去年公开的 3TB GitHub 项目数据。
据雷锋网了解,操作它不需要写代码,界面简洁。因此,即便是新手也能轻松使用,用它来挖掘 GitHub 项目信息,在时间轴上与趋势进行交互。另外,数据范围也可任意调节。
DataScience Inc. CTO William Mercha 表示:
“当下,正是开源工具不断蚕食有偿解决方案市场空间的时候。使用 DataScience Trends 挖掘出的开源项目信息,对于需要找到合适开源软件的开发团队非常宝贵。去年在 Burtch Works 的市场调查中,有 62% 的数据分析从业者表示,相比经典解决方案 SAS,他们更倾向于使用开源语言 Python 和 R。在企业级领域,这是一个市场大趋势。
在 GitHub 文档里,有许多可探索的领域。比如某个资源库的热门程度(从星标数量、书签收藏数量获知) ,还有开源工具集的合作(从 pull requests 看出)。
我们使用 DataScience Trends 来寻找最受欢迎的开源工具,然后把它们整合入我们的企业平台 DataScience Cloud。比如,我们通过 DataScience Trends 能清楚看出,TensorFlow 刺激了开发者对与之兼容的神经网络库 Keras 的兴趣;还有,数据可视化工具 ggplot 在 Python 开发者群体中的影响力不断壮大。随着 GitHub 的存档不断增长,DataScience Trends 用户能够挖掘出更多的有价值信息。“
由于数据集多达 3 TB,DataScience Trends 带来的探索可能性几乎是无限的。它覆盖了一万个最热门 GitHub 资源库的数据,包含项目开发活动、流行程度、合作等方面的信息。此外,DataScience Trends 还内置了其它几项功能,以方便探索开源软件数据:
- 具体日期与数值
用户可利用任意数据可视化方法,来观察某一日期节点的数据与数值。
- 标准化的比较趋势
任意大小、任意流行度的算法库,可通过一个通用检索框架来进行比较。只需一次点击,就能从“相对”视图返回到“绝对值”视图。
- 共享功能
每次探索都会生成一个独立的 URL。当然,用户也可点击“共享”图标。
本文作者:三川
本文转自雷锋网禁止二次转载,原文链接