比大数据还要可怕的是什么?没有数据!

导读当有太多数据需要处理的时候,你可能会为此抓狂,而旧金山警局却对此求之不得。原来,没有更多的可利用数据才是巨大的挑战。

怎么才能从多结构和非结构化的数据源中提取并整合数据?对一些机构来说,这是一个艰巨的挑战;对另一些人却刚好相反,他们正经历着巧妇难为无米之炊的困境。从他们的角度来看,没有更多的可利用数据才是巨大的挑战。这不禁让人联想起在东部的波士顿白雪皑皑,寸步难行的时候,西部的旧金山却是旱情绵绵。

这个再恰当不过的比喻,是受到了一次谈话的启发。旧金山郡警督Ross Mirkarimi和他们IT组成员Dave Hardy跟我聊起他们现在怎么处理相关数据。在旧金山警局,现在处于一个吃力不讨好的境地,他们试图将大量的结构化数据汇集在一起。这可不是一件轻而易举的事情:Hardy使用Microstrategy的商务智能工具尝试着从多种结构化数据库中收集数据。这些工具包括FoxPro, Access, Filemaker Pro等

既然旧金山警局有大量的结构化数据需要处理,那么所谓的数据旱情又是怎么来得?他们没有非结构化的数据。他们希望自己能像其它公司一样,拥有需要整合的非结构数据。 “我喜欢科技”,Hardy说。他曾是一名巡逻警员,目前已成为信息技术支持与服务部的指挥官。他还说:“这是一件好事,创新和自动化让一线同事的工作更容易。我喜欢利用数据做一些重要的举措。”

但Mirkarimi,这位前旧金山城市监察员,却哀叹可供执法使用的数据就跟加州的雨一样少得可怜。“执法需要更多警力来应对犯罪威胁” ,他说,在现实中,我们希望对犯人的问责是由数据决定的。与其让一个活生生的人像接力棒一样在警察、公设辩护人办公室(美政府对无钱聘请律师的被告指聘的律师)、缓刑与假释部门间传递,我们不如放弃成见,共享数据。这样,使我们在判断个人是否守法时,能够更清晰的了解他的倾向性,个人历史并预测他的个人行为。

州政府计划削减已超载的州监狱人数,并将犯人送返至各个郡下设的监狱。因此,旧金山警局被要求做一项他们从来没做过的分析项目(旧金山是一个罕见的行政实体,在编制上,它即是一个市又是一个郡)。即使没有结构化数据,Mirkarimi 依然声称,累犯人数已经从60%以上下降到差不多40%,然而州政府的标准是接近78%。

旧金山警局还想做更多,但是它无能为力。必须得承认,手头只有结构化数据确实是其中的问题之一。Hardy说,能整合的只有“小数据”,这些小数据是人们在通过系统时生成的,像是地址、量刑、指纹;他们在监狱里参与了哪种治疗或是教育项目;他们是否再次因罪获捕,如果是,那又是为什么?所有的这一切都在一个SQL结构化数据库里。可是为了能够达到目的,Hardy和Mirkarimi需要更多。

旧金山警局罪案调查处署已经开始追踪社交网络,及时识别“热点事件”,但是在追踪和分析整合数据之间,还有很大的距离(Microstrategy有分析社交网络的工具,但是旧金山警局没有用)。 Hardy设想,建立一个网络来联系所有的政府部门,从警长办公室到健康卫生部门甚至延伸到学校社区。“我的设想是,在不侵犯隐私的情况下,我们能够进入这些部门的数据库收集所需数据,并与我们现有的数据相比较。想想看,我们是否可以识别某个学校或是某个居住区的某个群体是否有更大的可能性在他们22岁之前被逮捕? ”Hardy还想进入联邦数据库去看看囚犯是否是退伍军人,是否有资格享受美国政府的一些特设项目。

为了能采取积极措施,Mirkarimi特别注重分析监禁过程对囚犯子女的影响。“最终,当你可以将这些完全不同的数据源结合起来,它能帮助我们了解那些坐在拘押室里的人。” 他的目标很明确:真正改变旧金山,为过度拥挤的监狱减负,通过了解对家庭的影响,“为犯人的家庭与子女带来更积极的帮助”。他同意收集和分析如此之多的数据,有点像奥威尔的小说《1984》中所描写的监视社会。尽管如此,就目前的情况来看,这种方法是有实际意义的。我们将不得不摸着石头过河。

“刑事司法机构也很难人性化与系统内部监禁人员的关系”,Mirkarimi说。“数据越周详,我们越能人性化的调整监禁对当事人以及他们的家人的影响。我宁愿站着数人头,也不愿坐着做统计。这就是我们如何能使这套系统更有效。”

固然,这是个大挑战。让这个挑战变得更为艰巨的,是目前旧金山警局还无法获得他们所需要得到有效数据。请记住!当有太多数据需要处理的时候,你可能会为此抓狂,而旧金山警局却对此求之不得。

原文发布时间为:2015-06-01

时间: 2024-09-10 10:21:43

比大数据还要可怕的是什么?没有数据!的相关文章

XTools观点:大数据太薄CRM助探索厚数据

文章讲的是XTools观点:大数据太薄CRM助探索厚数据,人的一生会给这个世界留下痕迹,呱呱坠地.童言无忌.青梅竹马;三两知己,把酒言欢,激情四射;大山大河.奇峰怪石.高峡平湖;浮华背后,机关算尽,如此种种.随着互联网时代的到来,更多的社交方式愈加普及,人们的痕迹,就像"孙悟空到此一游"一样,以数据的形式被记录下来.喜欢的书.音乐.电影.景色.同道中人 -- 数据之大,难以想象. 许多人现在似乎相信,理解我们这个世界的最佳方式,就是坐在电脑屏幕前分析我们称之为"大数据&quo

大数据量数据库如何简单备份迁移数据

今天真汗颜啊....由于我的一不小心,我把几百万条数据给删了,囧.客户的几年重要数据就这样没了,我当时愁的,还好后来找回来了. 对于大数据的操作,大家一定要慎重操作. 在SQLServer2005中,想从一个数据库服务器迁移一个数据表的数据到另一数据库服务器的表中,大家一般会怎么做呢? 我先来说说我今天的做法:(因为自己的笔记本上没有装软件,不能截图给大家看了,大家可以自己动手操作下) 刚开始我利用一种方法,很笨且不安全的,大家引以为戒. 老大交给我任务了,我一想那么多数据,总不能一条一条手工插

如何在一个1亿行的大oracle表中删除1千万行数据

要在一个1亿行的大表中,删除1千万行数据 在对数据库其他应用影响最小的情况下,以最快的速度完成 那么操作期间应该注意什么?如果中途中断了,有木有方法再继续? 如果应用不可停,又该怎么办呢? 删除了10分之一的数据,索引可能还需重建,统计信息可能也得更新 由于昂贵的delete操作,Undo空间亚历山大.Redo log 也要担心被撑爆 而且批量delete虽然影响最小,但是可能会造成大量的空数据块 如此种种,剪不断.理还乱.是删除,别是一番滋味在心头啊 很显然,删除或更新的方法和数据库的设计及软

用sql语句遍历一个表里异常(时间段内很大或者很小)的数据,并将异常数据修改成相应时间段前的数据

问题描述 用sql语句遍历一个表里异常(时间段内很大或者很小)的数据,并将异常数据修改成相应时间段前的数据 我有一张表,里面3字段id.time.value. 由于value中的部分值异常的大,我想批量修改数据,比如说4.1日-4.20日出现中出现异常大的数据,我想把异常大的数据修改成和他时间段(时间段前或者后)差不多的数据,请问下这个sql应该怎么写啊.我用游标的方法怎么实现.谢谢啊! 解决方案 不知道你的数据库是什么,用MS SQL SERVER示意 建表SQL如下 CREATE TABLE

求数据啊-求大神给我发个ARCGIS实验数据及教程 小弟 急求啊!谢谢!

问题描述 求大神给我发个ARCGIS实验数据及教程 小弟 急求啊!谢谢! 求大神给我发个ARCGIS实验数据及教程 小弟 急求啊!谢谢!tobypop@163.com 求大神发个啊!

sql server-求助大神一个ASP.NET下增加删除数据的问题,真心请教!

问题描述 求助大神一个ASP.NET下增加删除数据的问题,真心请教! public partial class _Default : System.Web.UI.Page { string constr = "server=192.168.1.113;database=HH;Uid=sa;pwd=000000;"; protected void Page_Load(object sender, EventArgs e) { if (!IsPostBack) { Bind(); } }

c-求大神指点怎样从文件中读取数据!!

问题描述 求大神指点怎样从文件中读取数据!! int main() { double data; FILE *fp=fopen("e://in.txt","r"); if(!fp) { printf("can't open file "); return -1; } while(!feof(fp)) { fscanf(fp,"sfdf =%lf",&data); printf("%lf",data)

大数据环境下该如何优雅地设计数据分层

发个牢骚,搞大数据的也得建设数据仓库吧.而且不管是传统行业还是现在的互联网公司,都需要对数据仓库有一定的重视,而不是谈一句自己是搞大数据的就很厉害了.数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了etl.调度.建模在内的完整的理论体系.现在所谓的大数据更多的是一种数据量级的增大和工具的上的更新. 两者并无冲突,相反,而是一种更好的结合. 话说,单纯用用Hadoop.Spark.Flume处理处理数据,其实只是学会几种新的工具,这是搞工具的,只是在数据仓库中etl中的一部分.

大数据征信如何为一个人建立数据肖像?| 硬创公开课

"凡走过必留下痕迹",大数据时代,你的一举一动都在为你建立一个电子档案,从你有多少张信用卡.每个月消费多少.还款记录如何到你喜欢浏览什么网站.手机是什么型号甚至IP地址对应的位置,有一万多个词条可以刻画你的肖像,银行在不需要跟你打交道的情况下可以靠这种数据肖像决定要不要给你放款.放多少合适.这就是大数据征信. 每个人每天会产生无数的信息,征信机构如何从这里面抽丝剥茧找到有效的数据,又如何给每个数据设置合理的权重去建立模型?机器出现故障之后又如何修正?我们请到了在征信上有多年经验的嘉宾.