谷歌 BigQuery 现允许查询所有 GitHub 开源项目

谷歌和GitHub宣布,谷歌BigQuery现在为GitHub上280多万个托管开源项目提供了一个完整的快照。这让用户可以使用SQL查询托管在GitHub上的将近20亿个开源文件。

GitHub的BigQuery数据集以GitHub Archive项目为基础,该项目旨在获取GitHub特定时点的快照,以便存储用来进行进一步的分析。借助GitHub的BigQuery数据集,现在随时可以通过任意类似SQL的查询查询GitHub Archive项目的内容。

GitHub开源项目经理Arfon Smith举了一个例子,新的BigQuery数据集可以用来找出哪个Go程序包最常用,或者哪一所美国学校的开源贡献者最多。他还指出,总体上,该数据集还有利于研究人员研究开源社区或者最新的开发趋势。

谷歌开发大使Felipe Hoffa另外添加了几个有关潜在用途的示例,比如找出使用给定开源库的每个项目,或者分析其使用方式,以便收集有用的数据,确定那个库的未来发展方向。

在Medium上发表的一篇博文中,Hoffa列出了一些由谷歌工程师及其他开发人员创建的查询。这些查询可以用来分析Go程序,找出最常用的Java导入、最常用的angular指令以及最常用的emacs程序包。

GitHub的BigQuery数据集包含大约1.5TB的数据,每小时自动更新。下面是基本的使用步骤:

登录谷歌开发者控制台;

创建一个项目;

激活BigQuery API;

打开GitHub公共数据集并执行查询。

谷歌每月免费提供1TB的数据处理,但是,正如谷歌开发大使给我们的提醒,在主数据集(bigquery-public-data:github_repos.contents)上执行一个查询就会用完这1TB的免费数据。因此,他建议使用23GB的官方摘录数据(bigquery-public-data:github_repos.sample_contents)或者谷歌提供的任意专注于流行语言的摘录数据,诸如Go、Ruby、JavaScript、PHP、Python和Java。BigQuery还可以用来创建自定义数据集,但在这种情况下,用户需要支付存储费用。

谷歌BigQuery公共数据集是谷歌根据一项特别计划通过BigQuery提供的一系列数据集,用户只需要为他们执行的查询付费,但不用为数据集存储付费。谷歌BigQuery公共数据集提供的其他数据集包括美国人名、Hacker News自2006年以来的故事和评论、1029年和2016年之间的全球气候数据,等等。

文章转载自 开源中国社区[http://www.oschina.net]

时间: 2024-09-16 12:12:55

谷歌 BigQuery 现允许查询所有 GitHub 开源项目的相关文章

谷歌BigQuery现在允许查询所有GitHub开源项目了

谷歌和GitHub宣布,谷歌BigQuery现在为GitHub上280多万个托管开源项目提供了一个完整的快照.这让用户可以使用SQL查询托管在GitHub上的将近20亿个开源文件. GitHub的BigQuery数据集以GitHub Archive项目为基础,该项目旨在获取GitHub特定时点的快照,以便存储用来进行进一步的分析.借助GitHub的BigQuery数据集,现在随时可以通过任意类似SQL的查询查询GitHub Archive项目的内容. GitHub开源项目经理Arfon Smit

GitHub 开源项目负责人谈开源

在All Things Open 2015上,GitHub的开源项目负责人Brandon Keepers给出题目为"open source principles for better engineering teams"的报告.在此之前,OpenSource.com的Robin Muilwijk对其进行了采访. Brandon就其与开源的缘分.当前工作的职责.GitHub及员工与开源的关系等方面的问题一一进行了回答. Brandon简介及其与开源的缘分 在2011年加入GitHub之前

安全专业人士最爱的 19 个 GitHub 开源项目

GitHub上有许多开源项目可供安全专业人士选择,而且每天都有新的项目出现.不妨将这些项目添加到你的工具库,让你工作起来更得心应手. 说到执行常规维护.化解危机或研究新项目,大多数管理员要么手动执行任务,要么编写让这个过程自动化的脚本.但是那些聪明人在寻找功能强大的工具来完成这项工作. GitHub上有800多个面向安全的项目,为IT管理员和信息安全专业人士提供了丰富的工具和框架,它们可以用于恶意软件分析.渗透测试.计算机及网络取证分析.事件响应.网络监控及其他众多任务. 下面介绍了一些最出色的

Github 开源项目(二) jsmpeg-vnc

参考文章:http://blog.csdn.net/qq_28877125/article/details/70141713 适用于Windows的低延迟,高帧率屏幕共享服务器以及用于浏览器的客户端 (A low latency, high framerate screen sharing server for Windows and client for browsers) 开源项目地址:https://github.com/phoboslab/jsmpeg-vnc 二进制文件下载地址:htt

10个热门的Github开源项目(PKRevealController、Nimbus以及Reachability等)

PKRevealController PKRevealController是一个iOS平台上的视图控制器集合,通过展现多个视图控制器来进行控制器之间的切换.设置简单,高度灵活. PKRevealController是ZUUIRevealController的进化,ZUUIRevealController是一个类似Facebook 客户端的视图横向切换的效果.PKRevealController整个控制器从头至尾进行了重写,API不兼容以前的版本,不过你也可以访问使用以前的版本. 项目地址>>

Github 开源项目(一)websocketd (实战:实时监控服务器内存信息)

官方地址:https://github.com/joewalnes/websocketd websocketd是WebSocket守护进程,它负责处理WebSocket连接,启动您的程序来处理WebSockets,并在程序和Web浏览器之间传递消息.  一.安装:websocketd  wget https://github.com/joewalnes/websocketd/releases/download/v0.2.12/websocketd-0.2.12-linux_amd64.zip u

提高开源项目逼格-为你的github项目添加Travis CI

1.背景                  每当我们浏览github开源项目的时候,比较牛的项目,往往在readme文件里,会有如下图这样的小绿标.因为博主的好奇心比较强,所以就研究了下怎么添加这个.大家也不妨动手试试! 2.步骤           (1)登陆以下网站,它会自动绑定你的github账号-https://travis-ci.org/            (2)会自动生成你的所有repo的列表,选择你要添加icon的repo,开启开关.     (3)到相应repo的github

【黑马Android】(05)短信/查询和添加/内容观察者使用/子线程网络图片查看器和Handler消息处理器/html查看器/使用HttpURLConnection采用Post方式请求数据/开源项目

备份短信和添加短信 操作系统短信的uri: content://sms/ <?xml version="1.0" encoding="utf-8"?> <manifest xmlns:android="http://schemas.android.com/apk/res/android" package="com.itheima28.backupsms" android:versionCode="1

.NET平台开源项目速览(7)关于NoSQL数据库LiteDB的分页查询解决过程

原文:.NET平台开源项目速览(7)关于NoSQL数据库LiteDB的分页查询解决过程 在文章:这些.NET开源项目你知道吗?让.NET开源来得更加猛烈些吧!(第二辑) 与 .NET平台开源项目速览(3)小巧轻量级NoSQL文件数据库LiteDB中,介绍了LiteDB的基本使用情况以及部分技术细节,我还没有在实际系统中大量使用,但文章发布后,有不少网友( loogn)反应在实际项目中使用过,效果还可以吧.同时也有人碰到了关于LiteDB关于分页的问题,还不止一个网友,很显然这个问题从我的思考上来