密码又泄露?!大数据告诉你什么样的密码最牢靠

编者按:乌云漏洞报告平台昨日宣布网易邮箱数据泄露,目前网易与乌云的撕逼大战虽然还没有一个确切的结果,但已让亿万邮箱用户惊出一身冷汗,也顺带反思自己的邮箱密码是否够牢靠。大数据文摘为想要“加固”重要密码的读者献上一篇旧文,到底什么样的密码才真正牢靠?

FreeBuf黑客与极客授权转载

www.FreeBuf.com

对于密码,我们已经知道了不少。比如,多数密码短小、简单、且容易破解。但我们对一个人选择某个密码的心理原因却所知甚少。在本文中,我们分析了包括企业CEO、科学家在内的1000万人们的密码选择,来看看密码背后所揭示的意义。

1000万个小窗口

你脑海中浮现出的第一个超级英雄是谁?从1到10你首先会想到哪个数字?最后一个问题,你会选择哪种鲜艳的色彩?快速想出答案,然后将它们组合成一个短语。

现在,轮到我们猜测这个密码了。

是Superman7red?不对不对。那是Batman30range?如果我们都能正确地猜到每个问题的答案,那是因为人类是可预知的。而这恰恰就是密码存在的问题。我们在选择这些密码时确实很小心谨慎,但跟已成产业规模且特意构建的密码破解软件相比,未免小巫见大巫。比如HashCat可以在一秒时间内猜测30万次密码(次数取决于哈希方式),因此即使你的密码是Hawkeye6yellow,也迟早会被破解。

密码之所以经常会被猜中,是因为我们很多人会想到显而易见的词语、数字并将它们简单组合。本文探索了这个概念,并借此了解当人们以特定的顺序组合词语、数字及(希望如此)符号时,大脑是如何运作的。

我们首先选择了两个数据集进行分析。

两个数据集,几个说明

第一个数据集我们称之为“Gmaildump”,它是2014年9月出现在俄罗斯比特币论坛上的500万个凭证。这些凭证似乎是Gmail账户(有一些是Yandex.ru),但经过进一步的调查发现,虽然其中的邮件地址多为有效的Gmail地址,但大多数明文密码或者老旧不再被使用或者密码跟邮箱地址不匹配。但WordPress.com重设了10万个账户并表示还有60万个账户存在风险。尽管这些数据是在几年时间里通过多种方式从多个地方收集起来的密码,但对于我们的学术研究来讲,丝毫没有问题。而且这些密码曾被Gmail账户拥有者使用过,即使不是他们自己在使用,并且鉴于98%的密码不再有效,我们可以安全地一探究竟。

我们利用这些数据集回答一些人口统计学的问题(尤其是与密码选择有关的性别及年龄问题)。我们从500万个邮件地址中提取出了包含名字及出生日期的地址。比如,如果邮件地址是John.Smith1984@gmail.com,那么我们就会解读为男性,出生于1984年。我们从500万个地址中解读出了48.5万个性别、22万个年龄。这时候,我们就应该想一个问题,“这些将名字跟出生日期包含在邮件地址中的人会选择跟别人不同的密码吗?”因为从理论上来讲答案有可能是肯定的。我们稍后分析。

如下,我们按照出生日期跟性别对用户进行了分类。

▲22万被攻陷凭证(按出生日期分类)

▲48.5万被攻陷凭证(按性别分类)

Gmail dump显示,或者至少是将名字跟/或出生日期包含在邮件地址中的人群多为80后男性。这可能是因为这些被攻陷网站的人口概况导致的。在这个dump中查找包含“+”标志(Gmail用户用来追踪站点对邮件地址的用途)的地址后发现,大量凭证来自File Dropper、eHarmony、以及Friendster。

我们的多数结果是通过第二个数据集收集到的,详情可参见安全咨询Mark Burnett的网站。这个数据集由100万个密码组成,它们是在几年的时间里从网络中搜刮到的。

我们不会花费太长时间来说明这个数据集的基础概念,因为之前已有不少人做过很多次这种工作。让我们看一下这1000万个数据中最为常用的50种密码。然后我们再讨论一些更加有趣的东西。

50种最常用的密码

我们可以发现,或者早就知道,这些最为常见的密码都是网站要求人们创建密码时,瞬间映入脑海的选择。这些密码极其容易记住而且对于字典攻击来说简直是小菜一碟。不过,现在使用这种密码的人比之前要少。用户有点意识到如何设置强密码的问题了。比如在文本后添加一两个数字就会让强度提高,是不是?

“我会添加一个数字让密码更安全。”

▲42万密码末尾中最常用的数字(0-99)

▲密码末尾最常用的数字(0-99)

▲密码末尾最不常用的数字(0-99)

在这1000万个密码中,几乎有50万密码(或42万密码,8.4%)以0-99的数字结尾。其中超过1/5的人选择了1。或许他们认为1最容易记住。也可能是因为网站要求在已选词语之后添加一个数字做出的即时反应。其他最常见的数字是2、3、12(这里的“12”是1跟2的组合,而不是单独一个数字)、7等等。有研究显示,当有人让你说出1到10中的一个数字时,多数人会说3跟7,而且人们似乎对质数的选择存在偏好。这可能行得通。但也有可能人们是为了用这些个位数替代曾使用过且还想继续使用的密码,这样就不会“攻陷”在其他网站上的凭证了。

尽管存在争议,但你可以想想,一个密码破解高手可以轻易将一个数字或几千个数字添加到字典里或者蛮力破解方式中。所以,一个密码的强度就取决于它的熵。

评估密码熵

简单来说,密码的熵越大,强度就越大。熵会随着密码长度及字符变化而增加。然而,虽然字符变化确实会影响熵的分值(以及密码被猜到的难度),但密码的长度更为重要。这是因为随着密码长度增加,数字的组合方式会呈指数式增长,因此也就难以被猜到。

▲48.5万密码长度的分类

Gmail dump中的密码平均长度为8个字符(如password),而且男性与女性在密码平均长度的选择上没有太大差别。

▲48.5万个男性跟女性密码的熵

从密码熵的角度来讲,Gmaildump的密码平均熵为21.6。而男性跟女性在这一点上的区别也非常微小。但熵为0的密码要多于熵超过60的密码。

这些示例密码以一两个不同字符区分作为熵的范围。一般来讲,熵会随着长度的变化而变化,不过添加数字、大写字母及符号也会增加字符的范围。

那么,熵是如何计算出来的?方法很多,而且效果各异。不过最为基本的假设是,只能通过尝试字符的每种组合才会猜到密码。但一种更加聪明的方法意识到人类对模式情有独钟,所以针对人类的多数密码进行了某些假设。随后基于这些假设制定一些猜测密码的规则,从从而加快破解密码的速度。这些方法都很聪明。它们都是由Dan Wheeler创建的Zxcvbn而来。

简单来说,熵构建了一种“知识”,可以知道人们是如何在潜意识中将密码中的模式包含到一个密码破解高手需要确定这些模式的猜测中。比如,password的熵为37.6位。但Zxcvbn给出的分数是0(最低最差劲的熵分数),因为密码破解者所用的词汇表包含password这个词。另外Zxcvbn也给另外一些常用密码打分:第一眼看上去,这些密码是随机设置的,但熵值为0。比如qaz2wsx(在最常用的密码中排名30)看起来非常具有随机性是吧?但实际上它是一种键盘模式(从一个键重复“走”到另一个键很容易)。而Zxcvbn本身也是通过这种模式命名的。

我们从1000万个密码数据集中提取出了20中最常见的键盘模式,但并未包含123456等数字模式,因为这些模式只是一种键盘步法,而且它们已经占据最常用密码列表的半壁江山,在这里我们来看看更有趣的密码。

在这20种键盘模式中,有19种如你所想的那样可被猜到,除了最后一个Adgjmptw。你能猜到为什么会把它列到最常用的模式中吗?

试试智能手机上从2到9的拨号薄,将每个键盘数字对应的第一个字母进行组合。这个模式引出一个有趣的问题:随着更多的人会通过触摸设备创建密码让选择某些字符比使用普通的键盘更难,密码选择是如何改变的呢?

当然,对于键盘模式来说,尤其是上述键盘模式对于密码破解高手来讲并非难事。但多数人并不会使用键盘模式,而是会使用古典的且经常不安全的方式即随机词语来作为密码。

▲1000万密码中最常见的词语选择

现在,你知道为什么文章开头会猜Batman及Superman了吧:它们是这1000万密码数据集中最常用的超级英雄名字。但上述列表中反映出的一个重要事实是,有时候很难知道人们在选择密码时是基于什么考虑。比如在“颜色”列表中,black有时候可能指的是姓氏Black。为了减少这个问题的困扰,我们在统计上述词语频率时,对每个列表都进行了单独的研究。比如,对于“颜色”来说,只有当密码以颜色开头并且以数字或记号结尾时,我们才会统计进来。这样就会避免在Alfred中统计red等。通过这种方式意味着我们错过了很多合法的颜色名称,但知道上面的列表只包含“限定词”似乎更好。其它列表中也有各自的规则。比如,只有当所使用的名词跟动词出现在我们平常使用的词语中排名前1000时,我们才会统计它们,否则这些列表会充满诸如password等名词以及love等动词了。

并不是说love这个词不好,其实人们以惊人的频率使用它作为密码的一部分。我们在1000万个密码中发现了4万次,在500万个Gmail凭证中也发现很多。而且通过分析用户名时,80后及90后使用的次数要比其他年代的人多。而且女性使用love的频率是男性的两倍。

▲按出生年代划分的“Love”使用情况

土豪、高端人士们都使用哪些密码?

Mark Burnett指出,密码泄露极其严重。我们感到好奇的是,Gmail数据是如何确定高级别人群的呢?换句话说,这些被公开的密码是谁的?我们通过Full Contact的人物API提取出一个邮件地址列表并且通过几家主要的社交网络站点如Twitter、LinkedIn及Google+运行这些地址。此外,它还提供了一些所找到的数据点如年龄、性别及职业。

我们已经知道可从Gmaildump中找到一些高级别人士。不过我们没有想到Full Contact会列出这么多人。

在我们所找到的7.8万个匹配中,我们发现了上千名高级别人士。我们选择了最有名的40位。有几个点需要注意:

1、我们有意没有指出这些人的名字。
2、公司logo只是表示这些人现在的工作地点,但不意味着他们在之前单位工作时也用了相同的密码。
3、我们无法知道这些密码最初的用途。可能是他们自己的个人Gmail密码,但作为File Dropper等网站密码的可能性更大。因此,许多弱密码并不意味着这些人现在在工作场所或其他场所也使用这些密码。

谷歌确认当这些列表被公布时,少于2%(10万)的密码可能跟所使用的Gmail地址匹配。而且所有受影响的账户所有者被要求重设密码。换句话说,下面的密码虽然具有教育意义,但不再被使用。他们可能换了其它密码,希望这些密码更安全吧。

然而,如果这些密码没有被重设,就更该引起人们的重视了。一些研究指出许多人会在不同的服务中使用相同的密码。而且鉴于下表涉及一些CEO、很多记者、一名Justin Bieber及Ariana Grande天才管理公司的身居高位的人士,这个dump可能会引发一些关注。希望不会出现这种情况,不过现在这种情况也不会出现了。

从上面密码中可看到,如果使用离线破解进程,很多密码都非常容易猜到。最强的密码属于一名GitHub开发人员

(ns8vfpobzmx098bf4co),熵为96,密码看起来太具有随机性了,可能是用随机密码生成器或密码管理器生成的。最弱的密码属于IBM一名高级管理(123456),看起来太基础,可能是在某个地方随机注册设置的。其它很多人都在复杂度及简单度上做了平衡,看得出公司所有人非常重视密码安全问题。

在文末,我们来说说几个很有趣的点:

美国国务院处长使用linco1n(Lincoln)作为密码,而Huffington Post的作家使用trustno1作为密码。更有意思的是,这么多高级别人士所做的跟我们当中的很多人没有什么两样:将姓名、出生日期、简单词语跟一组数字组合成一个糟糕的密码。但我们觉得这也是情有可原的。即使是美国总统奥巴马最近也承认自己曾使用1234567作为密码。熵值更高的一个密码是PoTuS.1776。然而对于一个聪明的破解者来说,这也有点太显而易见了。

那么,你的密码如何呢?在读这篇文章的时候,你可能会想到自己,“会有人猜到我的网上银行密码、邮件密码或博客密码吗?”如果你使用的是大的邮件提供商如Gmail,你不必太担心你的密码会被蛮力破解。Gmail会立即阻止非法尝试行为。你的在线银行密码也得到了类似的保护。但是如果你有博客,情况就复杂了,因为攻击者会有更多方法来入侵,所以每个人都应该采取主动防御措施。

原文发布时间为:2015-10-21

本文来自合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

时间: 2024-10-10 18:25:25

密码又泄露?!大数据告诉你什么样的密码最牢靠的相关文章

生儿子幸福还是生女儿幸福?让大数据告诉你!

儿子是"建设银行",所以生了儿子的爸妈会马上开始省吃俭用攒钱买房,而女儿是"招商银行",生女儿的爸妈可能就会计划买辆新车.那么到底生女儿好还是生儿子好,爸妈们一直是各说各有理,并没有统一的答案. 最近一项名为<新经济时期的子女性别和父母幸福感>的课题研究,其内容包括个体幸福感指标.子女的数量.性别和年龄以及教育.收入.健康等.研究在采集了国内72个地级市4309个家庭的样本之后,得出"生儿子的父母,在儿子长到17岁至30岁期间,幸福感明显比生女

未来房价涨or跌?大数据告诉你

文章讲的是未来房价涨or跌,大数据告诉你,提到大数据,许多人的第一反应就是"虚无缥缈"."关我什么事"."搞不懂的存在",且好像产品只要冠上大数据的名号就十分高大上.其实,大数据并不是那么遥不可及,它无形的遍布于人们生活中的各个角落,只是很多时候我们都忽略了它.近日在ITPUB技术论坛的一个讨论帖中,网友们列举了很多大数据"接地气"的应用,预测房价.指导交通.商业决策等等,并对大数据的未来发展方向发表了各自的观点,整个讨论帖好

多家酒店信息泄露 大数据时代个人信息安全拉响警

今年美国爆发的"棱镜门"事件,引起了全球对于个人信息安全的思考. 的确,身处大数据时代,任何一个小动作都可能成为信息泄露的源头.近日,国内安全漏洞监测平台乌云就发布报告称,浙江慧达驿站网络有限公司(以下简称"慧达驿站")为国内 大量酒店提供的无线门户 认证系统存在信息泄露的安全隐患. 酒店Wi-Fi 疑为泄露源头 乌云网于10月5日公开的报告显示,如家.汉庭.7天.格林豪泰等不少知名经济型连锁酒店全部或部分使用了慧达驿站开发的酒店Wi-Fi管理.认证管理系统.慧达驿

大数据告诉你,电商都把假货发给谁?

"看人下刀",电商玩得更科幻 内幕:你在网上买件大牌化妆品,在订单提交→发货之前,系统会查询分析你在全平台的购物数据(大数据内部共享):购买均价,常购品牌,退货率. 如果你同类产品消费倾向绝对大部分在100~200元品牌,系统就判定你没用过大牌真品,在后台将你备注:低风险,发的货有30%几率是高仿货.如果在你购买记录里多次购买品牌,就自动分配真品. 真相1 你的消费记录,购买记录,客单价记录,将作为发货参考数据被系统识别,看人下刀更精准. 妥协的人,最后被玩坏 内幕:很多人有类似经历:

震惊!大数据告诉你,电商会把假货发给谁?

网上购物的姑娘都是"女诸葛",斗智斗勇,36计样样拿手.你不把电商玩疯,电商就把你玩儿疯.话说现在已进入"大数据"时代,电商陷阱越来越科幻,今天照妖镜再次揭露,网上奸商的新玩法. "看人下刀",电商玩的更科幻 内幕 你在网上买件大牌化妆品,在订单提交→发货之前,系统会查询分析你在全平台的购物数据(大数据内部共享):购买均价,常购品牌,退货率. 如果你同类产品消费倾向绝对大部分在100~200元品牌,系统就判定你没用过大牌真品,在后台将你备注:低风

消失的马航 大数据告诉你航空安全现状

http://www.aliyun.com/zixun/aggregation/38399.html">马来西亚航空公司编号MH370客机飞行途中失联的事件发生至今已超过24小时.马航9日早上9点在吉隆坡举行最新发布会,马航表示目前仍未找到任何残骸证据.观察者网将继续追踪报道最新消息. 3月9日09时,马来西亚飞机失踪最新消息:马来西亚航空公司编号MH370客机飞行途中失联的事件发生至今已超过24小时.马航9日早上9点在吉隆坡举行最新发布会,马航表示目前仍未找到任何残骸证据.观察者网将继续

大数据告诉你梅西如何制霸足坛!

转载|数据客 微信|idacker 大数据在体育方面的应用很多,比如算法可以告诉你,如果百米之王博尔特和奥运会10000米金牌得主莫法拉如果比赛,492米将是他们的"公平距离",详情请点击<算法告诉你,"跑男的能力有多强">: 回复"体育"查看大数据文摘关于数据与体育的文章 北京时间今天凌晨上演的欧冠决赛,巴萨以3比1击败尤文,赢得历史上第5座欧冠奖杯.虽然比赛中梅西没有取得进球,不过梅西的发挥依然获得<每日邮报>赛后为球

让大数据告诉你,网红“小龙虾”究竟有多火

近日小龙虾彻底火了,成了现在赤手可热的网红,茶余饭后的谈资.它的味道让人欲罢不能,回味无穷,人们为了能品尝到正宗的小龙虾不惜早早地在夜宵摊前起了长队,再多的等待对于这些慕名而来,想品尝小龙虾的顾客来说都是值得的.而那些专门制作小龙虾的店铺的老板们看到有这么多顾客,想必也是高兴得合不拢嘴了,赚得盆满钵满. 不过话说回来,小龙虾这种司空见惯的夜宵为何一下子就火起来了呢?现在"网红"小龙虾究竟有多火爆呢?作为程序员的我们,本着程序员认真,严谨,细心的态度,应该理性分析,用大数据方式来生动形象

今年会不会感冒?大数据告诉你!

"叮叮"手机响了,你拿起来一看,屏幕上红色的打字闪烁着"该地区已经有35人患有流感,请谨慎前往,做好必要防护措施!"如此智能的预测可能不再是梦.想知道今年冬天会不会感冒,什么时候得感冒吗?TwitterHealth可以告诉你! TwitterHealth是纽约罗彻斯特大学发起的一个研究项目,可以通过分析用户的Twitterhttp://www.aliyun.com/zixun/aggregation/7686.html">微博内容来预测用户会不会感冒