11.2 研究内容
大规模带地理位置信息的媒体数据的出现,使得从媒体内容信息估计其地理位置属性成为可能。研究者们做了大量的工作来研究利用海量的带地理位置标签的图像数据进行地理位置识别。现有的基于媒体内容识别地理位置方法分成数据驱动的方法[1]和基于模型的方法[2]两类。
数据驱动的方法采用相似性匹配简单有效,但是扩展性有限;基于模型的方法泛化识别,但缺乏解释性。因此有必要结合数据驱动和基于模型的方法来进行地理位置识别。通常来说,一个地理区域的图像包含一些独特的模式,其能够有效地帮助地理位置识别。如一些城市中典型独特的建筑元素(如屋檐、窗户等)可以帮助判断图片的地理位置属性。我们将挖掘城市区域的这些独特地理模式称作为地理属性,其需要满足两方面性质:① 判别性,它们能帮助区分出这个地理位置区域;② 代表性,它们在这个地理位置区域频繁存在并且是语义性可解释的。为挖掘一个地理区域的地理属性,对该地理区域的图像进行判别性分析,并提出一个基于图像区域隐式支持向量机模型 , 如图 2(a) 所示。对地理图像进行建模,(a) 基于区域的隐式支持向量机模型 (b) 多主题新加坡可视化(c) mmAOM 的概率图模型图 2 地理位置计算每块图像区域被赋予一个隐变量来指示该区域是否对帮助识别该地理区域有帮助,即是否有地理判别性。RLSVM 通过在一个地理区域图像上建模学习,能得到每个图像区域是否地理判别性;然后选择有地理判别性的区域并聚类生成地理模式簇类作为地理属性;最后利用 Flickr 上用户标注的文本标签并提出区域标签相关性学习方法,对所挖掘的地理属性进行标注,使得挖掘的地理属性具有语义可解释性。在收集来自 GoogleStreetView 和 Flickr 上的城市地理图像数据库上,验证了所挖掘的地理属性能够有效地提升地理位置识别的效果。