聚焦开放数据:全球恐怖袭击事件数据库

在Kaggle上发布数据是各个组织机构去接触形形色色对求知和协作充满热情的数据科学家的一种方式。(译者注:Kaggle是一个数据建模和数据分析的竞赛平台。企业和研究者可在其上发布数据,统计学者和数据科学家可在其上进行竞赛以产生最好的模型。)对于START(the National Consortiumfor the Study of Terrorism,研究恐怖袭击及应对恐怖袭击的全国性联盟)的Erin Miller博士而言,把START的全球恐怖袭击事件数据库(GlobalTerrorism Database:https://www.kaggle.com/START-UMD/gtd)发布到Kaggle上,让kaggle的用户来分析这些数据,能帮助他们对恐怖袭击有新的认识。

在这篇访谈里,Erin Miller博士将介绍Kaggle用户将如何在业余时间对这个涵盖了超过150,000次袭击事件的惊天数据集进行建设性的分析,从而得出可能挑战公众对恐怖袭击的认识的新见解。我们还将继续介绍更多关于全球恐怖袭击事件数据库的内容,以及如何获取和分析它的开放数据来为反恐事业添砖加瓦。

开始

在START联盟中,你的背景和角色是什么?

我(译者注:Erin Miller博士)是马里兰大学(University of Maryland)的一名刑事学家,目前任START全球恐怖袭击数据库(GTD)项目的项目经理。我从十二年前开始当助教清理这个数据库的原始数据,到现在管理着整个项目团队、工作流程、资源、以及与最终用户和相关研究项目之间的互动。

能不能跟我们介绍一下START联盟?

START是由美国国土安全部和大学计划办公室于2005年创建的一个高级研发中心(åCenter of Excellence)。这个高级研发中心的理念是为了让综合性大学里的研究者去关注与国土安全有关的问题。START的组织框架是社会科学。我们开发了一系列科研、培训和教育资源,用于对恐怖袭击的因果研究。

你能描述一下全球恐怖袭击事件数据库吗?

全球恐怖袭击事件数据库(GTD)是一个收录了全球恐怖袭击事件的数据库,最早可追溯至1970年。GTD的发展是一个漫长的历程,目前它包括了超过150,000次恐怖袭击的数据,并用超过100个变量来详尽地描述袭击发生的时间和地点,袭击者和受害者是谁,袭击者使用的策略,袭击的结果是什么,等等。所有的数据都基于未分类信息–––大部分来自媒体的报道。而且数据的收集工作还在持续地进行中,我们每年都会更新GTD数据库。

随着在线媒体的发展,我们还开发出“混合”数据收集策略。我们利用一些自动化方法(自然语言处理,机器学习模型)来筛选每个月几百万篇的新闻报道,再通过人工阅读选出来几千篇关于恐怖袭击的报道来尽可能精确地添加新的数据库条目。

 

深入数据

你希望公布这些数据给公众进行分析将如何帮助到你们的工作和这个世界?

基于原则上和实际中的一些原因,让用户了解和使用GTD一直是我们工作的一个重点。一开始我们花了几年的时间来整理和数字化成千上万条手写数据记录,从那时起我们在START网站上的GTD数据库就已经比较规范。我们发现人们对关于恐怖袭击这个热点的客观数据越来越感兴趣,而且让Kaggle这么大的数据分析用户群来使用这些数据要比我们继续像过去十年这样自己使用这些数据能产生重大发现的可能性要大得多。

此外,对于任何数据采集项目而言,透明度非常关键。其中很重要的一点是让人们可以了解到这些数据是如何采集的以及每条记录长怎么样的,这样可以增加大家使用数据的灵活性和数据本身的可信度。最后,让用户使用这些数据有利于提高数据本身的质量。改善数据精确度的最好方式就是去关注它,从而发现潜在问题以便我们审查和改进。

你们在Kaggle上分享这些数据的动机是什么?

两个原因:第一,Kaggle这个平台有一些比我们自己的系统更出色的功能。它允许用户做自定义分析,然后分享给其他用户。这个功能非常有用,能够推动更多的合作和新的发现。

第二,尽管我们在START网站分享数据已经差不多十年了,但我们的用户群体与Kaggle的用户群体似乎只有少量的重叠。可能因为我们和Kaggle的用户往往来自不同的圈子,有着不一样的技能和兴趣。Kaggle用户可能很难“偶然”发现GTD网站,那么在Kaggle上分享GTD的数据是一个让更多人去了解和使用GTD的好机会。

 

Kaggle用户群

到目前为止,你最喜欢的Kaggle用户对GTD数据的分析工作是什么?

Kaggle上已经有很多对GTD数据的分析,我们很难跟踪所有的这些分析。但这也是Kaggle的一个优点:各种技能水平的用户(包括初学者)都能在上面找到一些数据进行练习。

我特别喜欢Umesh的“使用Highcharter来探索全球恐怖袭击”的分析。(译者注:Highcharter是一个网络可视化工具Highchart在R里面的程序包。)Umesh的分析不仅使用了多种可视化工具,他的许多图表还包含了一些承前启后的要点。这表明他了对数据有着非常深入的了解。要知道用图表来总结这些数据是一件多么具有挑战性的工作。

Pranav Pandya的“世界范围内的恐怖袭击 ”项目也相当出色。尽管我对恐怖袭击的模式已经相当了解,但新用户会觉得PranavPandya对美国恐怖袭击数据的分析非常有趣(就像Abigail Larion的分析一样),因为这些结果公然挑战了大众对恐怖袭击的认知。

迄今为止最让你感到惊奇的方面是什么?

我喜欢Kaggle用户如何去激励其他的Kaggle用户参与到项目中来。我和许多出色的分析人员进行过一对一的接触,但是我的社交平台经验(好吧,主要是Twitter)是:当GTD被提及时,常常是因为人们争论恐怖袭击这个问题时,有人给出GTD的连接来试图证明他们的观点。

当人们出于兴趣(而不是作为日常工作的一部分)来研究GTD数据,他们往往变得更具积极性。我喜欢阅读来自Kaggle的关于有人试图回答另一个用户的问题或者只是评论说“你的工作超赞,谢谢!”这类的电子邮件。

如何看待利用GTD数据进行反恐行动?

GTD数据库可以通过多种形式来协助反恐行动:从提供各辖区内出现的恐吓与密谋以及它们如何随时间变化等基本信息,到更复杂的试图分析在既定情境中什么类型的反恐策略更有效。我很乐意看到GTD能为决策者提供准确且有用的数据。

关于开放数据的思考

你认为开放数据将如何改变世界?

我认为开放数据非常有用,尤其对Kaggle读者。然后我想重点讨论一下使用开放数据在这个瞬息万变的世界里的将会遇到的一个潜在问题:当这些数据被多次处理和重新发布后,用户可能无法查到数据的原出处,甚至可能想当然的接受处理后的数据。但不要忘了这就像某些经改写的新闻可能会偏离作者的原意一样,某些对原始数据的处理很可能改变了数据本身。

在过去的几年里,为了收集GTD的数据,我们幸运地得到了来自美国司法部、美国国土安全部和美国国务院的资助。但GTD的运营是一个相当劳动密集的工作,它涉及到马里兰大学的研究人员和学生。而START 是一个非营利性研究联盟。尽管GTD已被数据科学家、政策制定者、媒体、研究人员和教育工作者广泛使用,但我们并不能预测未来能否持续地获得维持数据采集的资金。所以我鼓励所有开放数据的用户:如果你觉得一个数据集有用,我建议你花点时间去了解它来自哪里。如果你发现它确实有用,请考虑给采集此数据的机构发送一条使用记录,这将帮助该机构继续获得相关部门的资助。

对于那些有兴趣学习如何分析START数据的人,你有什么建议?

我最大建议是去看一看GTD的代码书(http://www.start.umd.edu/gtd/downloads/Codebook.pdf) 。关于恐怖袭击的数据往往不是那么简单直接,GTD代码书能帮助新老用户解答很多关于这些数据的问题。

那些对数据采集感兴趣的用户还可以看看GTD的培训模块。这些培训旨在展示GTD数据库的特点以及一些需要注意的地方。此外,我们还介绍了在MS Excel中如何使用数据透视表(PivotTables)进行数据的互动演示,而这里面的原理也适用于其他分析工具。

 

原文发布时间为:2017-5-13

时间: 2024-10-03 14:28:57

聚焦开放数据:全球恐怖袭击事件数据库的相关文章

恐怖袭击事件频发 小扎称欲创造互相理解的世界

Facebook CEO扎克伯格 北京时间3月28日消息,据国外网站Mashable报道,Facebook 创始人兼CEO马克·扎克伯格(Mark Zuckburg)周日在其主页发表声明谈论了近日于全球多地发生的恐怖袭击事件,他表示,希望"创造一个理解和同情心比仇恨传播更加快速的世界." 在声明发布的数小时前,Facebook的"安全检查"(Safety Check)功能出现了故障,它在巴基斯塔拉合尔市发生致命爆炸袭击后,向远在欧洲和美国的用户推送警报,询问这些用户

巴黎恐怖袭击事件后近19000网站遭受瘫痪

法国网络防御长官称由于流量突增,法国近19000网站瘫痪.网络防御长官称这次是在巴黎恐怖袭击事件后的网络袭击. 据美联社报道称,1月15日法国网络防御长官古斯蒂利尔(Arnaud Coustilliere)向记者表示,此次网络袭击来自"有一定规模"的黑客组织,其中一些则是著名的伊斯兰黑客组织. "我们以前从未见过这种事情.这是第一次在国家层面上遭遇这么大一波网络攻击者."他说. 当地时间2015年1月11日,法国巴黎,民众集会参加反恐大游行. 据美联社报道,这些攻击

巴黎恐怖袭击面前:科技巨头做的还不够

法国巴黎遭遇大规模恐怖袭击的消息让全球震惊,社交媒体Facebook和Twitter等科技公司也及时推出了相关功能与服务来应对恐怖袭击.Facebook于当地时间周五激活了"Safety Check"(安全确认)功能,让位于恐袭地区的用户能够在其Facebook个人页面贴上标记,告知亲友其安全状态.Google在Google Map上标注了发生爆炸和枪击案的地点.Twitter则推出的新闻筛选标签"Moments",可利用数据抓取来收集新闻机构和目击者提供的推文.图

在巴黎恐怖袭击面前,科技巨头做的还不够

法国巴黎遭遇大规模恐怖袭击的消息让全球震惊,社交媒体Facebook和Twitter等科技公司也及时推出了相关功能与服务来应对恐怖袭击. Facebook于当地时间周五激活了"Safety Check"(安全确认)功能,让位于恐袭地区的用户能够在其Facebook个人页面贴上标记,告知亲友其安全状态.Google在Google Map上标注了发生爆炸和枪击案的地点.Twitter则推出的新闻筛选标签"Moments",可利用数据抓取来收集新闻机构和目击者提供的推文.

2015年:恐怖袭击引发数字加密争议

在巴黎和加州圣博娜迪诺(San Bernardino)发生的恐怖袭击事件再次引发人们对网络加密的争论. 一年多来,执法部门一直在指责苹果和谷歌,警告称加密手机让执法人员无法读取存储在手机上的数据,因而阻碍了刑事调查.在美国国家安全局(NSA)前承包商雇员爱德华·斯诺登曝光美国政府大规模监控美国公民之后,美国科技公司开始对用户数据进行加密.然而,美国联邦调查局局长詹姆斯·科米(James Comey)认为,从这些数字加密工具得益将是儿童色情制作者.绑架者和其他企图隐藏行踪的坏人. 接连发生的大规模

恐怖袭击警报邮件暗藏木马

网络犯罪者假借迪拜.巴林岛.土耳其.加拿大执法机构官员的名义发送恐怖袭击警报邮件,实质上这些邮件是暗藏Sockrat后门的钓鱼邮件. 本月早些时候,赛门铁克发现恶意邮件冒用阿拉伯联合酋长国执法部门(尤其是迪拜警方)的邮件地址发送鱼叉式钓鱼邮件.这些钓鱼邮件伪装成迪拜警方发出的警告邮件,借着人们对恐怖袭击事件恐惧的弱点,诱骗用户点开恶意附件.附件伪装是提供一些有价值的安全建议,以帮助收件人在遭遇恐怖袭击时更好的保护好他们自己.保护他们的公司和他们的家庭. 为了增加邮件的可信度,网络犯罪者在邮件的最

伦敦遭遇恐怖袭击 Facebook承诺与极端主义斗争到底

Facebook 北京时间6月5日消息,Facebook在声明中表示,它要将社交媒体平台变成不利于恐怖分子的"敌对环境".声明发表前不久,伦敦遭遇恐怖袭击,7人丧生,英国首相特蕾莎·梅(Theresa May)要求互联网公司采取行动. 周六晚上,三名袭击者租了一辆货车冲进伦敦桥附近的人群,他们还刺伤了附近一些人,这是英国近几个月来发生的第三次大型恐怖袭击事件. 受到袭击的影响,特蕾莎·梅要求修改打击极端主义的策略,例如,她要求对互联网进行更严格的国际监管.特蕾莎·梅说,极端意识形态拥有

“匿名者”因比利时恐怖袭击再次正面向ISIS宣战

就像在去年11月份发生巴黎恐怖袭击之后的反应一样,现在,黑客组织匿名者(Anonymous)就比利时恐怖袭击事件向恐怖组织IS发布警告,他们将对其展开一系列的网络攻击.匿名者在YouTube上传的视频中指出:"我们日常都有在进行反恐工作,我们已经禁掉了上千个跟ISIS存有直接关联的Twitter账号...... 我们在暗网中严惩了达伊沙(对ISIS的蔑称).攻击了他们的电子档案,并且还从恐怖分子那里偷走了钱.我们已经包围了你们的宣传网站,并用我们的网络攻击在上面进行测试." 虽然匿名者

巴黎恐怖袭击震惊全球 网络战场硝烟从未停止

法国当地时间11月13日晚上,巴黎市中心一餐馆和法兰西球场附近等多处发生枪击和爆炸事件,目前已造成100多人死伤,伤亡人数在不断上升. 法国总统奥朗德称此次袭击系"史无前例的恐怖袭击",并宣布全境进入紧急状态,并关闭了法国所有边境口岸.巴黎的安全形势仍"极度紧张",警方高度怀疑仍有袭击者在逃.此外为应对本次恐怖袭击,巴黎警方要求所有市民呆在家中,不要外出.媒体称,这是法国自1944年以来首次实施宵禁. 据英国独立报报道,IS已经正式发文宣布对巴黎恐怖袭击负责,公告分