马航MH370客机失踪谜底如果被大数据分析揭开,对此我并不感觉到意外。人在做,天在看,瞒天过海是不可能,只是需要发现真相的细节和线索。
如今,美国卫星运营商DigitalGlobe(数字全球)启动了Tomnod众包网站平台(crowdsourcing),发布疑似事发区域的卫星图像,供志愿者进行“地毯式”搜索。类似人肉搜索,这也是一种大数据应用,我想也许真相就隐藏在卫星图像数据的背后。
人肉搜索当然是一种迫不得已的方式。其实,目前公安办案也是依赖这种办法,通过人工来排查事发当地的监控录像。波士顿马拉松爆炸案就是一个成功案例,通过录像排查,发现了疑犯的线索,最后成功破案。波士顿警方采用了什么样方法,大数据,还是人肉搜索,不得而知。但有一点,如果能够依赖系统,则办案的效率会提升,依靠人肉,除非是一场人们战争,否则人力和物力都会受限,效率很难有保障。
据说,用机器对数据进行排查并不难,核心是建模,其余事情就可以交给机器了。大数据应用的难点也是在建模。以Google为例,针对搜索的特点,通过建模,构建了Google搜索的商业模式,取得了成功。行业企业要进行大数据应用,成功建模至关重要。
针对MH370,如果有一个成功建模,一定会为事件追踪创造更多有力的线索。有关数据也不一定局限在DigitalGlobe提供卫星数据。万物之间都有联系,任何事情都会有踪迹,当把这些散落在各地的数据聚集起来的时候,有些事物的本质、真相就会浮现出来。DigitalGlobe之所以采用“地毯式”搜索,我想也是受困于建模,没有一个合理分析数据的思路,也只好用人海战术了。
公安破案也经常采用人海战术,对各个卡口的视频监控数据进行人工排查。如果通过建模,能够自动绘制嫌疑车辆、嫌疑人的行动轨迹,这对于公安办案而言,堪称福音。对于视频信息的排查,也许会牵涉到影像识别这样的技术,实际上,技术并不是难点,建模才是难点。建模完成之后,如何通过Map/Reduce对数据进行分析检索/聚合,最终形成结果,这也是需要考虑的问题。
对于互联网企业而言,由于聚集了大量的软件人才,自身具备足够的软件开发能力,可以根据自己的业务需要,建模、Map/Reduce自己的商业模型。但对于MH370、对于公安,这就不是一件简单的事情了。以我看来,MH370更加负载,车辆好歹还有一个车牌,而Mh370连一个明显的标识都没有,所以大海捞针。
正因为难,大数据对MH370才是雪中送炭。透过MH370事件,但愿会有一个大数据分析的模型,果真如此,则是人类的福音。相信大数据,相信大数据的力量。 通过大数据的实际应用,图型搜索技术能够为企业带来货真价实的价值——Neo Technology公司软件工程师Max De Marzi。
不同的事物之间有哪些联系,通过找到这些联系就能够揭示出隐藏在背后的洞察和模式。Max De Marzi的工作就是利用Neo4j NoSQL数据库与Cypher查询语言,为客户建立一套概念验证(poc)模型。换句话说,他能够向我们展示如何运用这一新技术来解决特定的业务难题。
Max De Marzi最近的一个poc项目受到了Facebook社交搜索工具Graph Search的启发,这相当于是一个通过“自然语言”查询来为用户提供特定结果的搜索引擎。这今年的Big Data TechCon大会上,Max De Marzi将为我们展示如何利用大数据来创建企业自身的Graph Search。
让大数据发挥效能
最能从大数据中获取价值的往往是那些面向消费者的企业,或者更直接点说就是零售企业。Max De Marzi表示,他去访问的大部分零售企业网站,都仅仅会问消费者的一般兴趣点。在他看来这是不够的,如果零售商能够深入地收集关于消费者家庭情况,年龄以及其他感兴趣的事物的时候,他们就能够更精准地向消费者推送感兴趣的商品。
“这关系到你如何利用数据,你可以利用社交媒体数据,比如微博的数据。你并不一定非要自己去向消费者收集这些数据。在社交媒体上已经有大量的信息可供挖掘,你所需要的只是一个动态的手段来加以整合和利用。” Max De Marzi说。
虽然零售企业最能从graph search中获取价值,但并不是说企业行业就不行。Max De Marzi还举了结果例子,比如银行可以通过大数据来检测可以的连接,从而避免欺诈行为。如果一张信用卡被20个人拿来用,那么它很可能就存在欺诈的行为。
一些更复杂的情况,比如团伙诈骗等,都是通过将数据隐藏在误导的背后。传统欺诈检测的方法会讲这些信息作为单独的数据点进行处理,而忽视了数据之间的关系,就比如上述的那种20个人用一张卡的情况。而在大数据分析的指导下,银行就能很快地查找到这其间存在的蹊跷。
创建你自己的graph search
“无论是传统的DBA还是熟悉NoSQL的技术人员,这期间都会有一个学习的过程。” Max De Marzi说。首先,开发者需要学习如何理解自然语言,以便创建新的Cypher查询。他认为过渡阶段的难点并不是在技术层面,而是思维的转变。开发者需要转变传统的思维方式,更多地接受动态数据点以及相互连接对象的概念。
“这种思维的转变也许只用几个小时,也可能会用上好几天。但一旦开发者完成了这一过程,所有的事情就变得简单易用了。” Max De Marzi说。
幸运的是,这是一个信息爆炸的时代,目前无论是在网上还是书店都有很多相关的内容资料可供开发者来入门。