谷歌街景照片的另一种用途:预测总统大选结果

摘要下次你沿着一座美国城市的道路开行 15 分钟,如果看到的三厢轿车数量多于皮卡,那么民主党候选人就有很有可能在总统大选中拿下此地。

俗话说:“人靠衣装马靠鞍”。可见,穿戴装束和出行座驾等显而易见的外在特征,常会提供判断他人社会地位和风格品味的信息。最近,来自斯坦福大学等美国高校的一组研究人员,把这种 “以貌取人” 的技术玩到了一个新高度,只不过他们的分析单位是社区而非个人。按照这些研究者通过分析谷歌街景照片得出的结论,下次你在正常时间段沿着一座美国城市的道路开行 15 分钟,如果看到的三厢轿车数量多于皮卡,那么民主党候选人有近九成概率在总统大选中拿下此地。

美国是一个生活在汽车轮子上的国家。统计数据显示,超过九成美国家庭拥有至少一辆汽车。而美国人对汽车的选择,往往是综合考虑家庭需要、个人偏好和经济能力的结果,这其中蕴含着丰富的经济社会信息。利用 “深度学习” (deep learning)技术,研究者们为计算机练就出了一副从谷歌街景照片中抓取和识别汽车信息的火眼金睛。他们指出,通过让学会了识别技术的计算机分析谷歌街景照片上汽车的品牌、型号和出厂年份等信息,不用前往现场打听,就能判断出某个美国社区的收入、种族、教育和投票偏好等重要特征。

为了展开分析,研究者们收集了谷歌街景项目在 200 个美国城市中所拍摄的五千万幅照片,其中包含约两千二百万辆汽车的图像,覆盖了这些城市中近三分之一的汽车。利用 “深度学习” 技术,研究者们训练计算机对这些汽车的品牌、型号、出厂年份、外形门类和排量等特征做出判断,并将谷歌街景照片上的每辆汽车归置到 2657 个互不重叠的组别当中。这些组别几乎覆盖了 1990 年以来所有在美国街道上行驶过的汽车。

基于上述信息,研究者们系统分析了车辆情况与美国社区人口、经济与政治特征之间的联系。统计结果显示,“车如其人” 这种说法,的确颇有实证根基。例如,与许多人的印象一致,亚裔居民比例较高的美国社区,本田和丰田等亚洲品牌的汽车比例也较高。克莱斯勒、别克和通用旗下的奥兹莫尔比等品牌的汽车,更多地出现在非裔美国人社区中。而皮卡和大众、阿斯顿马丁等品牌汽车云集的社区,其居民则往往以白人为主。

不仅如此,车辆特征还可以帮助我们识别美国社区的其他许多情况。例如,在坚定的民主党选区,三厢轿车是无可撼动的主流车型;而在坚定的共和党选区,街上的主流车型则往往是各类皮卡。通过与美国人口调查局旗下 “美国社区调查”(American Community Survey)项目所收集的数据进行比对,研究者们发现,利用各种汽车特征识别某个社区平均水平和教育程度,准确程度也相当令人满意。

与在大规模抽样基础上通过问卷或访谈收集数据的传统调研方式相比,使用汽车特征来判断社区基本情况,至少具有四个显著优势。首先,这种新的调查方法主要依赖电脑进行计算、分析和判断,可以大大节省人工、提高效率。通过 “深度学习”,研究者们开发的电脑程序只需 0.2 秒时间就能在 2657 个组别中为谷歌街景照片上的汽车找到最合适的归宿,项目组仅用两周就完成了对全部五千万张照片的识别工作。即便某位超常聪慧的专家能在 10 秒钟内将一辆汽车准确归入 2657 个组别中的某一组,他不吃不喝地连续工作,也无法在 15 年内完成这项任务。

由此带来的另外两个好处,在于节约经费和提高数据的时效性。上文提到的 “美国社区调查” 是美国联邦政府的一个国家级项目,采用入户询问的方式采集关于美国社区的各类人口结构信息,每年需要花费十亿美元,而实际情况发生的变化可能需要长达五年时间才能在数据中显示出来。采用基于汽车信息的新研究方法,一个研究团队依靠自己的力量就能获得质量比较可靠的类似数据;而随着无人驾驶技术的普及,包含汽车信息的街景照片将会越来越频繁地更新——目前,特拉斯汽车每天所拍摄的照片数量,就可高达五千万张。

更为重要的是,人们在回答问题时,可能对自己的收入状况、教育水平和政治偏好进行有意无意的伪装,而对汽车的选择是难以伪装的。因此,采用汽车特征这类稳定的外在信息对社区基本情况进行判断,受到干扰的可能性往往更低。

需要指出,“户均一车” 是美国的特征,而汽车对于其他国家民众的意义或许与对美国人的意义并不相同;因此,这套通过车辆特征识别社区情况的方法,未必可以直接推广到美国之外。然而,这套方法背后那种利用大数据中结构化信息识别区域特征的思路,却能够为学术研究者和政策制定者提供许多启发。

当然,如果你不想活得这么较真儿,下次和小伙伴们在电脑前科学浏览美国城市的谷歌街景照片时,能够在默默数完皮卡后以老司机般的淡定娴熟悠悠说出此地是否曾被特朗普拿下,想必也是极好的。

原文发布时间为:2017-03-22

时间: 2024-09-11 21:44:26

谷歌街景照片的另一种用途:预测总统大选结果的相关文章

婚纱的101种用途

  老婆的婚纱能干什么?除了穿上身后,去拍漂亮的婚纱照,还能干些啥呢?你能想到它们还可以被用于雪地中的伏击战衣.战旗,甚至风筝!    一名叫做凯文科特的男子,终于在去年与他的妻子结束了长达12年的婚姻生活,当妻子离开他时,带走除了蕾丝镶嵌珍珠的婚纱外的一切东西,她告诉即将成为她 第一任前夫的 科特可以任意处置.这时正在气头上的科特把所有的气都撒在了这件婚纱上.38岁的凯文科特确实证明了婚纱并不是无用的,夜不能寐的他觉得咽不下这口气,最 后想到一个妙招:开个博客,专门记载前妻留下婚纱的101种用

常用宝典:微软拼音的N种用途

微软拼音的N种用途(一) 没带镜子时,才发现手机可以当镜子用;没带直尺时,才发现课本也可以划出直线;没带字典时,才发现微软拼音的N个用途. 这一刻,我想到了微软拼音 一.繁体输入 设计好自己的签名,最后要加盖上章.可印章要繁体输入法才好看啊~~ 1.显示输入法状态 图一 输入法状态 ① 按Ctrl+shift,直到切换为微软拼音输入法. ② 单击笔状图标. ③ 选择"显示输入法状态". 2.设置输入法 图二 设置输入法 ① 点击选项箭头,弹出"选项". ② 分别在&

工业大数据的四种用途和两大价值

随着新一代信息技术与制造业的深度融合,工业企业的运营管理,越来越依赖工业大数据.工业大数据的潜在价值也日益呈现.随着越来越多的生产设备.零部件.产品以及人力物力不断加入工业互联网,也致使工业大数据呈现出爆炸性增长的趋势. 对工业企业而言,工业大数据有四种区别于一般大数据应用的特殊用途,能够带来两大价值: 图:工业大数据的产生和应用 优化网络:在一个网络系统内实现互联的各种设备或机器,可以通过互联网相互协作,提高网络整体的运营效率.在医疗领域也是如此,如果将到医生和护士等医疗数据互联,数据就可以无

人类才分对错,AI只看成败,MogIA如何预测美国总统大选?

美国总统选举结果揭晓,共和党总统候选人唐纳德·川普战胜民主党候选人.前国务卿希拉里·克林顿赢得总统选举,即将成为美国第四十五任总统. 在此之前,一套由迈阿密创新人士Sanjiv Rai开发的.名为MogIA的人工智能系统成功预测出川普将成为美国总统.作为一套初次亮相于2004年的系统,也曾经对以往三次总统选举进行过成功预测. 根据Rai的介绍,其算法已经从以往几轮选举当中"学习经验",因此预测结果更为准确.MogIA一名来自<森林王子>中的莫格利(Mowgli).正如原著中

大数据成功预测美国大选

显然,"大数据"并不真正关心谁来当选下一届美国总统.不过所有的数据都显示:政治科学家和其他人相关人士都认为奥巴马获得连任可能性比较大.本次的成功预言,展示了大数据强大的能量. 统计模型在过去的几个星期里一直关注纽约时报FiveThirtyEight的博客作者和统计学家Nate Silver引导的热门话题(甚至可以说是争论).Silver已经成为本次争议的焦点人物,在"旋风般"地宣传他的新书的同时,他的模型预测:奥巴马有超过80%的机会赢得周二的大选(后来模型提升到9

云计算一周热文回顾:大数据成功预测美国大选

大数据成功预测美国大选 显然,"大数据"并不真正关心谁来当选下一届美国总统.不过所有的数据都显示:政治科学家和其他人相关人士都认为奥巴马获得连任可能性比较大.本次的成功预言,展示了大数据强大的能量. 统计模型在过去的几个星期里一直关注纽约时报FiveThirtyEight的博客作者和统计学家Nate Silver引导的热门话题(甚至可以说是争论).Silver已经成为本次争议的焦点人物,在"旋风般"地宣传他的新书的同时,他的模型预测:奥巴马有超过80%的机会赢得周二

Topsy如何预测美国大选和奥斯卡结果

研究结论 Topsy提供基于Twiiter数据的搜索分析服务,销售人员.新闻工作者可以通过它了解商品或新闻事件的讨论热度: Topsy准确预测了iPhone 4S上市后的市场表现,同时还成功预测美国大选结果和奥斯卡颁奖结果.它在商业分析.市场销售.新闻等领域拥有很高价值: 苹果以2亿多美元的价格收购Topsy,未来将集中发展互联网搜索业务,借此挑战谷歌. 序 · 这家公司准确预测了iPhone 4S的上市表现 2011年10月4日,万众期待的iPhone 5并未到来,苹果推出的只是小幅升级版的i

关于typedef之四种用途 和 两个陷进

typedef用来声明一个别名,typedef后面的语法,是一个声明.本来笔者以为这里不会产生什么误解的,但结果却出乎意料,产生误解的人 不在少数.罪魁祸首又是那些害人的教材.在这些教材中介绍typedef的时候通常会写出如下形式: typedef int PARA; 这种形式跟#define int PARA几乎一样,如前面几章所述,这些教材的宗旨是由浅入深,但实际做出来的行为却是以偏盖全.的确,这种形式在所有形式中是最简单的,但却没有对 typedef进一步解释,使得不少人用#define的

Swift延迟加载的一种用途

大熊猫猪·侯佩原创或翻译作品.欢迎转载,转载请注明出处. 如果觉得写的不好请多提意见,如果觉得不错请多多支持点赞.谢谢! hopy ;) 有以下一种情况: 我们试图用Cocoa的语音合成类NSSpeechSynthesizer来完成对字符串的朗读,这很容易.但是我们还有一个附加条件,就是在朗读完一段文本后触发一个动作. 这貌似也不难,我们只要遵守NSSpeechSynthesizerDelegate协议即可,但是光这样还不行,我们还必须将NSSpeechSynthesizer实例的delegat