如何用大数据发现纽约最糟糕的停车位?

如果你曾经去过罗斯福岛,你应该见识过那里的六千英里公路,六百英里地铁线路,四百英里自行车专用道和半英里的有轨电车轨道。

这些数字组成了纽约的基础建设。这是我们基础建设的统计数据。你可以在市政机关发布的报告中找到这些关于基础建设的统计数字。例如,运输部可能会告诉你他们维护着多少英里的公路,纽约交通管理局(MTA)会自夸他们有多少英里的地铁线。许多政府机关能向我们提供这些统计数字。这里有一份来自出租车和轿车委员会的报告,告诉我们纽约有约13500辆出租车。很有趣,是么?但是你们有没有想过这些数字从哪里来?这些数字的存在,一定是因为市政机关的某个人想到:“可能有人想知道这些数字。”我们的市民想知道这些数字,所以他们找回原始数据,计数,相加,计算,然后发布报告,这些报告给出那样的数字。

那么问题来了,他们怎样知道我们所有的疑问?我们有许多的问题。事实上,从某些方面讲我们关于自己的城市有无数的疑问。机关部门永远也赶不上我们的节奏。所以现有的模式并不十分有效,并且我认为决策者也意识到了这一点,因为2012年,市长彭博(Bloomberg)签署了一项决议,被称作是”全美最有雄心和最综合性的开放数据法令“。从很多方面看,他都是对的。在最近两年,纽约市把1000个数据库发布在了公开数据的门户网站上,简直是棒极了。所以我们可以来审视这些数据,除了出租车的数量,我们开始问出各种各样的问题。

我有一个问题。纽约交通的高峰是什么时候?这个问题很烦人。准确的交通繁忙时段到底是什么时候呢?我自己在想,这些出租车不仅仅是一些数字,他们是行驶在我们城市每条道路上的GPS记录器。它们会产生数据,我查看这些数据,制作一天内出租车平均速度的图表。你可以看到大约从午夜到早晨5:18,速度在增加,到5:18这个拐点,速度开始越来越慢,直到清晨8:35左右,时速开始保持在十一英里半,一整天都是如此。所以我说,纽约根本没有交通高峰时段,这里一整天都是高峰。这个结论是有意义的,原因有几点:如果你是个交通规划者,可能对此很感兴趣。但是如果你想快点到达某个地方,现在你该知道怎么办了——把闹钟设在凌晨4:45。在纽约,这样做没错吧?

不过这些数据背后还有个故事。数据被证明不是现成的。实际上还需要做一个自由信息法案申请,也叫FOIL申请。在出租车和轿车委员会的网站上你能找到这个表格。你需要填写这个表格,然后等待他们的通知。一个叫做Chris Whong的人这样做了。他们告诉Chris,“带一个新的移动硬盘过来,五小时后再来取,我们会把数据复制在你的硬盘里。”你看,数据就是这么来的。现在,像Chris这样的人希望把数据公开,所以它被发布到网上,才能做出这张图表。这一切那么不可思议——这些GPS记录仪是在是太酷了。但是事实却是我们的市民要带着硬盘跑到市政机关去拷贝数据再把他们公开,这的确是某种“公开”,但不是真正的公开。我们可以做的更好,不需要让市民带着硬盘跑来跑去的。

现在,不是所有的数据库都需要FOIL申请。我根据自行车事故数据做了一个地图,标出了纽约最危险的路口。红色区域更危险。先来看,在曼哈顿的东边,特别是下城区,有更多的自行车事故,这可能是因为更多骑自行车的人从桥下过来。其他的热点如威廉斯堡,皇后区罗斯福大道也很值得研究。这就是Vision Zero需要的数据,也是我们正在寻找的。

这些数据的背后也有一个故事。这些数据也不是现成的。有多少人认识这个标志(Adobe PDF的logo)?我看到一些人在点头。你们有没有试过从PDF文件复制粘贴数据?我看到更多人在点头了,比起认识这个标志,你们中更多的人试过PDF复制和粘贴,这很有趣。

你们刚看到的数据实际上就在PDF中。成百上千页这样的PDF由纽约警察局发布。为了访问数据,你要么就得花费数百小时的时间复制粘贴,要么你就成为John Krauss。John Krauss 就是这样做:“我不想复制粘贴这些数据,我要写个程序。”这个程序就是”纽约警察局事故数据创可贴“(NYPD Crash Data Band-Aid),从NYDP的网站上下载PDF。每天进行搜索,下载搜索到的PDF文件,运行PDF解码程序,提取文本,发布到网络上,然后人们就可以制作这样的地图了。这些数据就在那里,我们都可以访问——每个事故都是数据表里的一行数据。你可以想象那里有多少这样的PDF。我们有权访问固然很棒,但是请别发布在PDF里,幸亏我们的市民自己写了PDF解码器。这是对市民时间的浪费,我们本可以做的更好。

现在有个好消息是de Blasio 行政部门在几个月前发布了这些数据,我们可以直接访问,但是仍有许多数据是PDF格式。例如,犯罪数据和城市预算数据只有PDF格式的,不仅是我们不能拿数据做分析,连我们的立法者都只能得到PDF格式的预算数据。所以立法者也不能分析他们要为之投票的市政预算可不可行。我们的城市肯定可以做的比这好。

当然,有很多的数据不再被埋藏在PDF里了,比如我制作的这个地图,纽约最肮脏的水路。我是怎么衡量“肮脏”的?可能听上去有点奇怪,我衡量粪便菌群的水平,这是水路粪便物的一个衡量指标。大家看内陆水道就是:圆圈越大,水质越脏。就是说大圆圈内是脏水,小圆圈的是干净水。这是纽约市在过去五年里采样的所有数据。通过这个图我了解到几件事,1:永远不要在某“溪”或某“运河”里游泳。2:纽约最脏的水,仅就粪便菌群这个衡量指标而言,是康尼岛溪。幸好不是你们去游泳的康尼岛,它在岛的另一面。而康尼岛溪在过去五年内,有94%的采样显示含有超标的粪便含量,以至于被州立法律禁止游泳。

这肯定不是你想在市政报告里炫耀的事实,它肯定不能出现在纽约政府官网的首页,你在那肯定看不到它,但值得庆幸的使我们还能够得到这样的数据。但是再强调一次,这并不容易,因为这些数据并没有公布在公开数据的门户网站上。如果你去公开数据的门户网站,你可以看到其中的片段,一年或者几个月的数据。这确实是环境保护部的网站上找到的数据。每个链接都是一张Excel表格,并且每一张表格都是不同的。每个标题都不一样,你需要复制、粘贴、确认。你能够做出地图当然是好的,但是我们的城市可以比这做的更好,我们可以使数据标准化。

我们正在慢慢改进,因为Socrata公司建立了一个网站,叫做“纽约市公开数据门户网站”。这有1100个数据库,在这里得到数据并不需要经历我刚说的那些痛苦,并且这个数字还在增加,这很棒。你可以用任何格式下载数据,CSV,PDF或Excel文件。无论你想要什么,你都可以下载。但问题又来了,一旦你这样做,你会发现每个机构用的地址代码都不一样。有街道名,路口名,自治区,地址,建筑物,建筑物地址。你不得不花时间规范地址数据,即使我们已经有了这个网站。这也不是最好的利用市民时间,我们的城市依然可以做的更好。我们可以标准化地址信息,做出更多这样的地图。

这是纽约市火警消防栓的地图,但不只是消防栓。这可是最容易吃到违章停车罚单的250个消防栓。从这个地图我也学到了几件事,1:别在上东区停车,千万别。不管你停在哪,你都会吃罚单。2:我发现了全纽约最容易吃罚单的两个消防栓,它们都在下东区,而且他们每年在停车罚单上都要挣超过55,000美元。我注意到这点有些奇怪,所以深挖了一下,发现原来每一个消防栓都有一个叫控制扩展的东西,有七英尺的的空间可以步行,然后是一个停车位。所以当车开过来,到消防栓附近,司机会想,“还有一点距离,没问题的,”何况这还有那么棒的一个停车位呢。于是他们停过来,可纽约警察局不同意这种行为,就给他们开出了罚单。可不仅仅是我吃到过这样的违章停车罚单,谷歌地图拍到过一辆车就是这样吃了罚单。

因此我把这件事写在我的博客和“I Quant NY”上,交通部回复说,“尽管交通部没有在此地点收到过任何的投诉,但是我们将检查道路标志并且做出相应的调整。”我心里想,多么典型的官方回复,那好吧,我就没有再管这件事。

没想到几周后,不可思议的事情发生了。他们重画了停车位,那一刻我觉得我看到了公开数据的未来。想想这些年发生的事,这五年来,这个停车位一直让人吃罚单,这很让人费解,一个市民发现了某些原因,反应给了政府,然后在短短几周之内,问题就被解决了。这太不可思议了。很多人把公开数据视作是对政府部门的监察,而它并不是,它是个好帮手。我们允许市民成为政府更好的伙伴,并不是那么的难。我们所需要的不过是一点点改变。如果你正在申请信息自由法案(FOIL)数据,如果你看到你要的数据被反复的请求获得,让我们直接把这些数据向公众公开,这是一个这些数据应该获得公开的信号。如果你负责政府机构PDF数据的发布,让我们通过立法要求你直接发布源数据,因为这些PDF数据肯定来自于哪里,我不知道是哪儿,但是它肯定有来源,让你得以发布在PDF中。让我们采用和共享公开数据的标准,让我们从地址信息开始,开始规范我们的地址。因为纽约是开放数据的引领者。抛开问题,纽约无疑是开放数据的领导者,如果我们做规划化的工作,制定数据公开的标准,其他人也会跟随。纽约州会跟随,联邦政府可能会,其他国家也会。我们也许在不久的时间内开发出涵盖100个国家地理信息的程序。这不是科幻小说,我们已经很接近这个目标。顺便说一下,谁是被帮助的人?不仅仅是John Krauss 或者Chris Whong。纽约有几百个聚会正在举行,活跃的聚会。几千个人参与这些聚会,这些人用工作之外和周末的时间参加聚会,研究开发数据,帮助我们的城市变的更好。BetaNYC就是一个这样的团体,他们上周刚刚发布了citygram.nyc,允许人们订阅自己家或公司周围的311个投诉。你输入地址,就能看到本地的投诉。这些事背后的不只是技术社区,我在Pratt教的学生们也在做城市规划,还有政策推动人,还有每个人,有着不同背景的多样化的市民。有了这些小小的改变,我们能够释放市民的激情和能力利用开放数据,使我们的城市变的更好,哪怕一次只公开一个数据库,或者发现一个停车位。

原文发布时间为:2015-03-16

时间: 2024-09-25 07:55:22

如何用大数据发现纽约最糟糕的停车位?的相关文章

用大数据解决人才发现问题

人才创新要以时代为背景 讲一个时代变革的问题.我们讲机制.体制离不开时代,如果工业化时代已经成为过去,而我们的思维还在过去,你无论如何是讲不好创新的.刚才林泽炎同志的观点引起我强烈共鸣,有同志认为大数据对他们的企业是摧残,这种人我估计很快就会被时代所淘汰.我认为现在是大数据.智慧化.移动终端.云数据的时代,这个变革如果你没有感受,你还要谈创新,那请你免谈."大智移云"时代人才创新怎么谈呢?以时代为背景来谈. 怎么样大题小作呢?比如说人才发现.人才争夺.人才引进,这个机制是发现评价机制,

从卫报到谷歌:Simon Rogers是如何用大数据玩转新闻的?

武汉大学新闻与传播学院副教授.镝次元数据传媒实验室负责人的王琼老师,告诉你什么是现在正夯的大数据新闻,其中她分享了很多谷歌趋势(Google Trends)著名数据新闻编辑Simon Rogers的案例. 1数据新闻前身是计算机辅助报道 感谢DT财经和SODA能够提供这样的机会,让我们一起交流.大家好!我是来自武汉大学镝次元数据传媒实验室的王琼,我想跟大家分享的是大数据新闻的概念.机会和风险. 什么是数据新闻?很多人对它赋予了不同的概念,有很多人都非常好奇什么是数据新闻,这是不是一个噱头?我们如

如何用大数据和开放平台创新

在一个大部分数据可以实时获取而且存储没有限制的世界里,金融机构该如何竞争?更多的数据和更多的数据归档服务不一定能帮助金融机构更好地服务客户,除非可以以一种能为顾客带来便利的独特方式使用这些数据.你的银行现在所处的位置有利于他们想出新的而且具有创造性的办法使用数据吗?如果不是,你或许得考虑与某个能够为你的机构和客户拿出新的数据形式,并让它们变得更有价值而且有意义的人展开合作.在本章,我们将讨论金融机构如何才能最大限度地利用数据,以及为什么数据和开放平台常常携手出现.我们将谈谈贝宝在开放其平台时候的

经济学家用大数据预测奥斯卡:准确率80%以上

虽然,大数据一直在被人诟病.但是i黑马发现,经济学家大卫·罗斯柴尔德居然用大数据成功预测了747.html">奥斯卡...准确率高达80%以上! 去年,微软纽约研究院的经济学家大卫·罗斯柴尔德(http://www.aliyun.com/zixun/aggregation/16482.html">David Rothschild)成功预测24个奥斯卡奖项中的19个,成为人们津津乐道的话题. 今年罗斯柴尔德再接再厉,成功预测第86届奥斯卡金像奖颁奖典礼24个奖项中的21个!继

美使用大数据软件评估威胁级别

大数据一词近来被频繁提及并被广泛应用到多个领域.在美国,执法部门目前开始应用一款新的大数据软件给人们的威胁级别"打分",划定出绿色.黄色和红色三个威胁级别,警方在出警并抓捕罪犯的过程中,这一利用大数据评估出的威胁级别被着重列入参考范围.随着这一大数据软件将被愈加广泛地用于全美多地,民众的担忧也随之加剧. 用大数据给威胁级别打分 据美国媒体报道,加利福尼亚州弗雷斯诺市警方2016年开始通过一款名为"当心"的大数据软件给人们的威胁级别"打分".这一评

调查报告:企业使用大数据现状

摘要:美国网络世界主导进行的<2014大数据调查>发现,有些企业已经实施(19%)或正在实施(25%)大数据项目.其他企业已制定了实施计划--会在未来12个月(16%)或未来13-24个月(16%)实施.          围绕着大数据的炒作可谓极其疯狂,这种炒作也在推动着大量的投资进入这一领域.市场研究公司IDC预计,大数据技术及服务市场的年增长率为27%,到2017年将达到324亿美元.IDC称,大数据市场的这种增长比整体ICT市场增长高出6倍多.然而尽管资金充裕,但是企业界在渡过了大数据

大数据调查:企业使用大数据现状

围绕着大数据的炒作可谓极其疯狂,这种炒作也在推动着大量的投资进入这一领域. 市场研究公司IDC预计,大数据技术及服务市场的年增长率为27%,到2017年将达到324亿美元.IDC称,大数据市场的这种增长比整体ICT市场增长高出6倍多. 然而尽管资金充裕,但是企业界在渡过了大数据的早期采用阶段之后是否找到了成功之路却并不清楚.为了寻找到明确的答案,研究人员调查了诸多企业的IT经理和管理人员,受访者们分享了他们组织的大数据计划.投资和重点细节. 由Network World主导实施,IDG五大企业出

如何用大数据帮你找到知己?Tata UFO颠覆社交玩法

每天,你都会和许多人擦肩而过,他们可能会成为你的朋友或是知己.所以我从来没有放弃和任何人擦肩而过的机会.但是有时候我和某些人有太多机会擦肩而过,衣服都擦破了,却也没有看到火花. 其实,我们可能只是没有找对方法而已,我知道一个故事,靠一款APP,有情人终成眷属--他和她生活在同一座城市,都在大三的青春岁月中,曾经的无数次擦肩而过依然保持着路人的关系,但是在那个夜晚,在tataUFO的每日十点推荐中,他们相识了.后来,在大学毕业时他们面临考研和就业的抉择,两人约定一起去南方读研,他们彼此鼓励,最终一

揭秘一个城市如何“智慧交通”:高德地图用大数据“治堵”,圈地逾百城

互联网正在改变城市交通,而高德地图欲打造城市交通大脑.今天,在北京"互联网+城市交通管理创新"论坛上,高德地图宣布已经与国内100逾城市战略合作,共建智慧交通.高德地图交通大数据平台已经能够支持全国362个城市,进行交通研判和分析,帮助实现交通智能化管理. 城市交通的互联网+进化  之所以说互联网让城市交通迎来巨变,阿里文娱集团董事长兼CEO.阿里影业集团董事长俞永福指出原因有二:   阿里文娱集团董事长兼CEO.阿里影业集团董事长俞永福 1.2017年,全国主要城市"互联网