GitHub是个敏感数据宝库 可以从中收割数据

本文讲的是GitHub是个敏感数据宝库 可以从中收割数据,就算不是程序员,也一定知晓GitHub的大名。如果真不熟,那可以将此文看做入门指南。

GitHub是采用git协议的大型云软件库。任何人都可以很容易地创建GitHub账户,不仅免费,甚至不用提供真实的电子邮件地址。

登录GitHub,你便可以自由发布代码,而世界上任何人都能看到你的代码,下载它,或者以它为蓝本形成新的分支。

GitHub模式非常强大,使得软件开发能够轻松写意地协作完成。但正如事物都有两面性,方便的同时有那么几个安全问题也就不足为奇了。

GitHub对用户提交的内容不做任何过滤。因为对上传的内容没有任何限制,人们常将之用作个人存储和备份空间。而因为被用作了个人存储和备份空间,只要找到正确的打开方式,这里简直就是敏感数据的宝库。甚至,还准备好了宝矿探测的大法宝——搜索。
与谷歌的Dorks非常相像,GitHub也有一定数量的关键字可以用于精炼搜索结果。其中一些就是“filename(文件名)”、“extension(后缀)”和“path(路径)”。

顾名思义,“文件名”和“后缀”可用于检索特定文件名或文件后缀。“路径”这个关键字就比较有意思了,可以搜索文件路径中的特定目录。比如,你可以用检索项“path:etc”来查找“etc”文件夹下的文件。

如果想玩过界,尝试一下检索项的邪恶用法,你可以将这些关键字串联起来使用,检索结果会相当有趣。比如说,使用“filename:shadow path:etc”这个复合检索项。

成就此文时,用这个检索项可以找出736条Unix系统的shadow文件。对Unix稍有涉猎的人都知道,/etc/shadow文件包含了系统中所有用户密码的哈希值。

利用John或Hashcat之类广为流传的密码破解器,根据密码复杂度的不同,这些哈希值可在数秒到几年之间被破解出来。去年10月中旬检索出来的所有/etc/shadow文件哈希中,仅仅3天时间,就被破解出了60%。

Unix系统的shadow文件还仅仅只是个开始。在GitHub上,WordPress配置文件、SFTP服务器配置文件、RSA私钥、SQL转储文件等等,应有尽有。

很多人都已经开始意识到GitHub上的数据根本就是任君采撷,而且越多的人意识到他们自己或其他人可能无意中把敏感数据放到了GitHub上,也就意味着更多的人有机会去搜一下看看,并帮助将这些敏感数据撤下来。而一些威胁情报公司早已把GitHub当成一个重要的数据收集源。
那么问题来了:这么多数据摆在你面前,你该怎么做呢?收割啊!

GitHarvester就是这样一款辅助你从GitHub上收割数据的自动化工具。它可以利用GitHub检索字符串,拉出检索结果,然后应用正则表达式匹配结果数据,从中找出敏感文件及其中特定数据。

举个例子,如果你想查找含有root用户密码哈希的shadow文件,就可以使用GitHarvester达成目的。

为什么要写这么个能让坏人更容易地染指别家系统的工具呢?原因太多了,“因为这是开始一个新编程项目的借口啊”、“只是想看看GitHub上到底有多少数据啊”等等等等。不过,主要原因,还是在于要揭露这个安全缺口。

时间: 2025-01-25 18:57:59

GitHub是个敏感数据宝库 可以从中收割数据的相关文章

谁是2017年度开源贡献之王?—— GitHub 数据分析报告

这位作者分析了 2017 年截至今天 GitHub 上所有的 PushEvents,对于每个 GitHub 用户都尽量分辨了他们属于哪个组织,并且只关注在 2017 年增长超过 20 个 star 的仓库(比如 Apache 目前在 GitHub 有超过 1500 个仓库,但只有 205 个在今年获得了 20 个以上的 star.因此,这里只分析这 205 个仓库的提交情况). 各公司的贡献情况 按仓库 star 数排名 顶尖的贡献组织比较: 微软大约有 1,300 名员工积极地将代码推送到 G

超350个政府项目托管在GitHub 政府开源会成主流?

超350个政府项目托管在GitHub 政府开源会成主流? 发表于2013-03-19 14:28| 次阅读| 来源O'REILLY radar| 0 条评论| 作者Alex Howard 开源GitHub 摘要:在开放成为主流的情况下,许多人学会了利用GitHub这样的托管服务处理 大量新的.有分歧的想法.而政府也不忘赶潮流,美国.英国.加拿大等诸多也都纷纷在GitHub上开源应用源代码和数据集. 如今,越来越多的政府选择在GitHub上开源数据集,近日,英国政府在发布的<政府服务设计手册( G

如何追踪GitHub项目的流行度

介绍 GitHub 是世界上最大的开源软件托管平台,因此追踪 GitHub 流行度对于软件开发者和用户都非常重要.本篇文章是介绍一个 GitHub 流行度追踪框架,使用他们的 Stars 数目来评估 GitHub 的流行软件.本文使用的数据是 GitHub 5 月 1 日的数据. 度量流行度 这里我们考虑 GitHub 上前 24 强编程语言,通过 GitHub 先进的搜索引擎分类出来的.下面的数据是每个语言前 1000 个库的 stars 数分布. 假设在 24000 个样例中系统中前 10%

报告称大多数企业没有正确保护敏感数据

本文讲的是报告称大多数企业没有正确保护敏感数据,Trustwave在其2014年风险状态报告发现了一些令人惊讶的数据安全趋势,其中包括这样的事实,即大多数企业没有完全成熟的方法来控制和追踪敏感数据. 对于数据安全问题,企业间有着很高程度对法律责任的认识,但并没有弄清楚如何通过追踪敏感数据来控制风险.该报告采访了50多个国家的476名IT专业人士,其中大部分受访者位于美国和英国.根据该报告显示,63%的企业没有完全成熟的方法来控制和追踪敏感数据. "这意味着很多企业不知道他们的敏感数据在什么位置,

部分博客中的代码已放到了GitHub上,欢迎大家下载阅读!

GitHub上的代码与CSDN博文之间的对应关系为: 代码 博文 https://github.com/zhouzxi/ReadConfig Linux下配置文件读取操作流程及其C代码实现:http://blog.csdn.net/zhouzhaoxiong1227/article/details/45563263 https://github.com/zhouzxi/SimpleLogSystem-Linux Linux下一个简单的日志系统的设计及其C代码实现:http://blog.csdn

你猜!GitHub 最大开源贡献者是谁?

在今年的GitHub Universe大会上,GitHub展示了一项很有趣的数据.根据Octoverse 2016统计数据,GitHub上最大的开源贡献者居然是微软,其贡献条目是16419.第二三名是Facebook和Docker,贡献条目分别是15682和14059.Google贡献条目是12140,位于第五. 自从萨提亚·纳德拉2014年出任微软CEO以来,微软开源了很多项目,去年还发布了开源的Visual Studio Code编辑器,大获好评.还有很多其他深受广大程序员喜爱的项目,包括微

Facebook、微信团队、Twitter、微软开源软件列表一览

  编者按:本文来自微信公众号"InfoQ"(ID:infoqchina),编辑小智:36氪经授权发布. 对于为什么要发布开源项目,Facebook开源项目负责人曾经解释过:一是开源能够帮助他人更快地开发软件,促进世界创新,主要是社会价值层面的考虑.二是开源能够倒逼Facebook的工程师写出更好的代码.三是开源能够更有效利用社区的力量,帮助Facebook一起解决难题.开源,让世界更美好,不是吗? Facebook开源软件列表 从Facebook的GitHub账户中可以看到,Face

PHP 直接在共享内存中存储数据集

共享内存是一种在相同机器中的应用程序之间交换数据的有效方式.一个进程可创建一个可供其他进程访问的内存段,只要它分配了正确的权限.每个内存段拥有一个惟一的 ID(称为 shmid),这个 ID 指向一个物理内存区域,其他进程可在该区域操作它.创建并提供了合适的权限之后,同一台机器中的其他进程就可以操作这些内存段:读取.写入和删除. 这表明使用 C 语言编写的应用程序可与使用其他语言(比如 Java 或 PHP)编写的应用程序共享信息.它们都可以共享信息,只要它们可访问和理解该信息.共享内存在针对大

在Python中使用mechanize模块模拟浏览器功能

  这篇文章主要介绍了在Python中使用mechanize模块模拟浏览器功能,包括使用cookie和设置代理等功能的实现,需要的朋友可以参考下 知道如何快速在命令行或者python脚本中实例化一个浏览器通常是非常有用的. 每次我需要做任何关于web的自动任务时,我都使用这段python代码去模拟一个浏览器. ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 import mechanize import cookielib # Br