在Kaggle上发布数据是各个组织机构去接触形形色色对求知和协作充满热情的数据科学家的一种方式。(译者注:Kaggle是一个数据建模和数据分析的竞赛平台。企业和研究者可在其上发布数据,统计学者和数据科学家可在其上进行竞赛以产生最好的模型。)对于START(the National Consortiumfor the Study of Terrorism,研究恐怖袭击及应对恐怖袭击的全国性联盟)的Erin Miller博士而言,把START的全球恐怖袭击事件数据库(GlobalTerrorism Database:https://www.kaggle.com/START-UMD/gtd)发布到Kaggle上,让kaggle的用户来分析这些数据,能帮助他们对恐怖袭击有新的认识。
在这篇访谈里,Erin Miller博士将介绍Kaggle用户将如何在业余时间对这个涵盖了超过150,000次袭击事件的惊天数据集进行建设性的分析,从而得出可能挑战公众对恐怖袭击的认识的新见解。我们还将继续介绍更多关于全球恐怖袭击事件数据库的内容,以及如何获取和分析它的开放数据来为反恐事业添砖加瓦。
开始
在START联盟中,你的背景和角色是什么?
我(译者注:Erin Miller博士)是马里兰大学(University of Maryland)的一名刑事学家,目前任START全球恐怖袭击数据库(GTD)项目的项目经理。我从十二年前开始当助教清理这个数据库的原始数据,到现在管理着整个项目团队、工作流程、资源、以及与最终用户和相关研究项目之间的互动。
能不能跟我们介绍一下START联盟?
START是由美国国土安全部和大学计划办公室于2005年创建的一个高级研发中心(åCenter of Excellence)。这个高级研发中心的理念是为了让综合性大学里的研究者去关注与国土安全有关的问题。START的组织框架是社会科学。我们开发了一系列科研、培训和教育资源,用于对恐怖袭击的因果研究。
你能描述一下全球恐怖袭击事件数据库吗?
全球恐怖袭击事件数据库(GTD)是一个收录了全球恐怖袭击事件的数据库,最早可追溯至1970年。GTD的发展是一个漫长的历程,目前它包括了超过150,000次恐怖袭击的数据,并用超过100个变量来详尽地描述袭击发生的时间和地点,袭击者和受害者是谁,袭击者使用的策略,袭击的结果是什么,等等。所有的数据都基于未分类信息–––大部分来自媒体的报道。而且数据的收集工作还在持续地进行中,我们每年都会更新GTD数据库。
随着在线媒体的发展,我们还开发出“混合”数据收集策略。我们利用一些自动化方法(自然语言处理,机器学习模型)来筛选每个月几百万篇的新闻报道,再通过人工阅读选出来几千篇关于恐怖袭击的报道来尽可能精确地添加新的数据库条目。
深入数据
你希望公布这些数据给公众进行分析将如何帮助到你们的工作和这个世界?
基于原则上和实际中的一些原因,让用户了解和使用GTD一直是我们工作的一个重点。一开始我们花了几年的时间来整理和数字化成千上万条手写数据记录,从那时起我们在START网站上的GTD数据库就已经比较规范。我们发现人们对关于恐怖袭击这个热点的客观数据越来越感兴趣,而且让Kaggle这么大的数据分析用户群来使用这些数据要比我们继续像过去十年这样自己使用这些数据能产生重大发现的可能性要大得多。
此外,对于任何数据采集项目而言,透明度非常关键。其中很重要的一点是让人们可以了解到这些数据是如何采集的以及每条记录长怎么样的,这样可以增加大家使用数据的灵活性和数据本身的可信度。最后,让用户使用这些数据有利于提高数据本身的质量。改善数据精确度的最好方式就是去关注它,从而发现潜在问题以便我们审查和改进。
你们在Kaggle上分享这些数据的动机是什么?
两个原因:第一,Kaggle这个平台有一些比我们自己的系统更出色的功能。它允许用户做自定义分析,然后分享给其他用户。这个功能非常有用,能够推动更多的合作和新的发现。
第二,尽管我们在START网站分享数据已经差不多十年了,但我们的用户群体与Kaggle的用户群体似乎只有少量的重叠。可能因为我们和Kaggle的用户往往来自不同的圈子,有着不一样的技能和兴趣。Kaggle用户可能很难“偶然”发现GTD网站,那么在Kaggle上分享GTD的数据是一个让更多人去了解和使用GTD的好机会。
Kaggle用户群
到目前为止,你最喜欢的Kaggle用户对GTD数据的分析工作是什么?
Kaggle上已经有很多对GTD数据的分析,我们很难跟踪所有的这些分析。但这也是Kaggle的一个优点:各种技能水平的用户(包括初学者)都能在上面找到一些数据进行练习。
我特别喜欢Umesh的“使用Highcharter来探索全球恐怖袭击”的分析。(译者注:Highcharter是一个网络可视化工具Highchart在R里面的程序包。)Umesh的分析不仅使用了多种可视化工具,他的许多图表还包含了一些承前启后的要点。这表明他了对数据有着非常深入的了解。要知道用图表来总结这些数据是一件多么具有挑战性的工作。
Pranav Pandya的“世界范围内的恐怖袭击 ”项目也相当出色。尽管我对恐怖袭击的模式已经相当了解,但新用户会觉得PranavPandya对美国恐怖袭击数据的分析非常有趣(就像Abigail Larion的分析一样),因为这些结果公然挑战了大众对恐怖袭击的认知。
迄今为止最让你感到惊奇的方面是什么?
我喜欢Kaggle用户如何去激励其他的Kaggle用户参与到项目中来。我和许多出色的分析人员进行过一对一的接触,但是我的社交平台经验(好吧,主要是Twitter)是:当GTD被提及时,常常是因为人们争论恐怖袭击这个问题时,有人给出GTD的连接来试图证明他们的观点。
当人们出于兴趣(而不是作为日常工作的一部分)来研究GTD数据,他们往往变得更具积极性。我喜欢阅读来自Kaggle的关于有人试图回答另一个用户的问题或者只是评论说“你的工作超赞,谢谢!”这类的电子邮件。
如何看待利用GTD数据进行反恐行动?
GTD数据库可以通过多种形式来协助反恐行动:从提供各辖区内出现的恐吓与密谋以及它们如何随时间变化等基本信息,到更复杂的试图分析在既定情境中什么类型的反恐策略更有效。我很乐意看到GTD能为决策者提供准确且有用的数据。
关于开放数据的思考
你认为开放数据将如何改变世界?
我认为开放数据非常有用,尤其对Kaggle读者。然后我想重点讨论一下使用开放数据在这个瞬息万变的世界里的将会遇到的一个潜在问题:当这些数据被多次处理和重新发布后,用户可能无法查到数据的原出处,甚至可能想当然的接受处理后的数据。但不要忘了这就像某些经改写的新闻可能会偏离作者的原意一样,某些对原始数据的处理很可能改变了数据本身。
在过去的几年里,为了收集GTD的数据,我们幸运地得到了来自美国司法部、美国国土安全部和美国国务院的资助。但GTD的运营是一个相当劳动密集的工作,它涉及到马里兰大学的研究人员和学生。而START 是一个非营利性研究联盟。尽管GTD已被数据科学家、政策制定者、媒体、研究人员和教育工作者广泛使用,但我们并不能预测未来能否持续地获得维持数据采集的资金。所以我鼓励所有开放数据的用户:如果你觉得一个数据集有用,我建议你花点时间去了解它来自哪里。如果你发现它确实有用,请考虑给采集此数据的机构发送一条使用记录,这将帮助该机构继续获得相关部门的资助。
对于那些有兴趣学习如何分析START数据的人,你有什么建议?
我最大建议是去看一看GTD的代码书(http://www.start.umd.edu/gtd/downloads/Codebook.pdf) 。关于恐怖袭击的数据往往不是那么简单直接,GTD代码书能帮助新老用户解答很多关于这些数据的问题。
那些对数据采集感兴趣的用户还可以看看GTD的培训模块。这些培训旨在展示GTD数据库的特点以及一些需要注意的地方。此外,我们还介绍了在MS Excel中如何使用数据透视表(PivotTables)进行数据的互动演示,而这里面的原理也适用于其他分析工具。
原文发布时间为:2017-5-13