如何寻找并发掘地理大数据的价值?

如今,地理大数据产业在中国方兴未艾。通过地理大数据为企业提供决策服务的GeoHey,是其中的代表。如何寻找并发掘地理大数据的价值。我们请来GeoHey的数据总监高楠,分享了他对地理大数据这座金矿的“掘金秘籍”。

如何获取“无处不在”的地理大数据?

我们先来说说如何获取和清洗地理大数据。

作为一个互联网用户,你是否会留意到不少手机应用在启动时会向你发出获得个人位置定位的请求?比如,你在马路上打开喜马拉雅的FM广播听个相声,边走边听的时候你的位置数据便被不断采集起来,这些被采集的位置数据,便是地理数据,也是值得挖掘的对象。另外,现实中的地理单位,比如一条马路,一栋房屋,它们也是一个个地理数据,可以被采集。

当我们把这些搜集起来的数据赋予维度并交叉应用时,便产生了它的应用价值。

既然位置数据来源于互联网,那么我们就去互联网上爬。

我们将这个过程设定为四个步骤:首先是开发爬虫,我们会开发挖掘数据的爬虫程序,这是我们的核心工具;在爬虫程序设定之后,我们便设定策略,确定要抓取哪一方面的数据,这也是我们的关键环节;在策略设定好之后,我们便设定生产排程,说通俗点就是排好工期;最后获得到我们想要的数据。

正如淘金需要过滤泥沙一样,我们获取到的数据其实有很多“废渣”,会影响整体价值。清洗数据和获取数据也是同样重要。按照上述这套流程下来,我们的系统不仅可以获得数据,还可以清洗数据。

要做到数据去重和清洗,首先要保证数据的获取量足够大。此外,还对数据来源进行评估,保证数据来源的“干净”。

我们是一个仅16人的团队,所以处理数据更多是依靠机器而非人力完成。我们要赋予机器学习能力,即借助计算机强大的计算能力去发现更多的数据信息。

依靠机器,使我们保持了较高的工作效率。所需的数据最快半小时,最多1天就能将全部爬完。而这些数据清洗的工作也仅依靠3、4个人便能完成。

除了提高效率,机器学习还具备三个功能:

数据补全:从网上爬下来的数据很多质量不高,而数据补全功能就是在当数据不完整时,可以根据已有的数据去推测估算缺失的数据;

新数据:在缺少某种数据时,可以从已有的数据提取生产出新数据。就像通过影像数据可以提取建筑数据;

数据生长:从现有的数据中,可以提取出某些数据内在的规律,根据规律生产新数据。凭借完整的流程设置和机器学习,目前我们获得数据量是非常可观的,仅以位置数据为例,目前GeoHey的位置数据总量将近8亿,位置数据年平均增量达到了58%。同时,我们还对数据实行周期更新,更新频率从小时到每季度不等。

当数据被掌握了之后,我们可以用它做哪些事情呢?这就是一个发掘地理大数据价值的过程,我想通过三个案例来介绍。

1. 用大数据来展现,哪家运营商的4G信号好?

如何用地理大数据判断哪里的4G信号哪家强?作为非专业人士,面对这个问题很难回答。不过,我们通过挖掘地理数据,能够给出答案。

首先,万事开头找数据。

那么这些数据从哪里挖掘呢?我们都知道,作为通讯运营商,信号离不开通信基站的支持,每个通信基站上都有一个传感器,传输的信号数据便可以被我们获取,来判断移动、电信和联通三家运营商的4G信号差异。

对此,我们采集了7500万通信基站的数据。(DT君注:在现场,高楠还演示了上图右边的这些数据采集后的三维可视化效果。)

在不同区域不同运营商的4G信号强度是不同的。比如,电信的数据应用最普遍且信号强度最高,而在北方尤其是东北地区,联通则更加强势,信号也要明显电信和移动两家运营商。

除了判别不同地区4G信号的差异,我们还能看到不同运营商的信号覆盖密集程度。以西南地区的贵州省为例,在当地除了移动一家独大之外,信号的密集程度也明显要低于中东部地区。从侧面来看,这也说明贵州省的基站分布不均,对于各大运营商而言,依旧存在竞争的可能。

所以,当你吐槽4G信号不给力的时候,不妨拿出这张图,看看你在哪个位置,在用哪家运营商的网络服务。

2. 为商业服务,大数据可以帮助星巴克开下一家店

地理大数据的商业应用,则可以直观体现在店铺选址上。我们就拿星巴克如何开下一家店这个命题来举例。

首先,要判断星巴克此前的选址偏好以及消费人群结构,这样就能了解你会在哪儿遇见星巴克,又能在星巴克遇上哪些人。

举个栗子,交通便利的路段容易获得星巴克青睐,而消费人群中又有20%的商旅乘客。

还记得之前提到的机器学习吗?在星巴克选址上,我们能不能通过机器学习的方式去获得选址的解决方案呢?

通过机器,以北京的星巴克门店为例,根据不同交通工具的通勤时间情况,我们找到了星巴克门店的辐射范围,也能比较出各家门店辐射范围的重叠(注:以下展现的是演示数据)。

然后我们通过机器学习,发现了星巴克的“朋友圈”(DT君注:也就是星巴克之前开的店,老是跟哪些其他品牌店铺在一起)。

这个“朋友圈”的一些秘密,通过这张结构图可以体现出来(注:以下是演示数据,不是真实分析结果):

上图中,以星巴克为中心的朋友圈,连线越粗,关系越亲密,比如肯德基与麦当劳,两者紧密相连,各自的产品也颇为接近。而麦当劳和肯德基,和星巴克之间的关系则是比较弱的。相比较之下,同样被人熟知的咖世家(COSTA),无论从客群构成到店铺规模,再到产品定位都与星巴克极为相似,两家极有可能出现在邻近的地方。

那么按照大数据的学习方式,如果我看到一家COSTA咖啡店附近没有星巴克,是不是这里就可以开一家呢?

不过,GeoHey开发出的地理大数据产品,目前并不直接面向市场终端消费者,作为为企业决策提供地理大数据服务的机构,我们的产品是面向B端。这就意味着,从这座金矿中淘到的金,普通消费者要感受到地理大数据的价值,至少需要一道其他的“加工手续”。

3. 避免看病难,大数据提供一些解决方案

第三个案例,我们来看看大数据怎么提供帮助解决民生问题的方案。

看病难一直是个困扰多数人的问题。如何破解这个问题?

我们采集了全国三甲医院的数据,包括就医数据、医生资料情况等。根据这些采集的数据进行分析,我们能够得出这些结论:

首先是三甲医院的地域分布不均,全国80%的三甲医院被20%的城市瓜分。和三甲医院分布不均的还有教授医师的数量,20%的城市占据了全国85%的教授医师资源。其实,大家普遍吐槽的看病难其实就是集中前往大城市的三甲医院寻找教授医师看病造成的。

另外,结合就医数据,我们还可以得出一些普遍性的结论,其实在一个城市里头,忙碌的科室仅占全部科室的29%。在同城的医生里头,仅有22%的医生会非常忙碌。

要避免看病难,如无大病,不一定要前往三甲医院找教授医师就诊。

本文作者:佚名

来源:51CTO

时间: 2024-10-22 06:35:44

如何寻找并发掘地理大数据的价值?的相关文章

寻找大数据真正价值:决策支持系统

文章讲的是寻找大数据真正价值:决策支持系统,2012年秋天,全球广告巨头WPP集团首席执行官苏铭天爵士约访谷歌首席执行官拉里•佩奇时,佩奇派出无人驾驶汽车去接他.这是一辆集大量高科技设备.自动驾驶的雷克萨斯SUV汽车,车上配有雷达.传感器和每秒可测量超过150万次的激光扫描仪.它自助行进了20分钟,驶过280号州际公里和繁忙的85号州公路.汽车通过自动驾驶仪进行自动巡航,自行校正路线,在前方出现车辆和行人时减速,然后又加速驶出临近车辆的盲区,最后来到距谷歌公司约32公里外的瑰丽酒店.(根据<财富

大数据的价值实现之旅

大数据开启了人类数据管理史的一段崭新旅程.人类想要测量.记录和分析世界的渴望是驱动大数据技术不断向前的动力.但如同此前的电子商务.云计算等创新构想一样,大数据也不得不怀抱变革理想在现实中披荆斩棘. 我们该如何定义我们所身处的信息技术时代?是云计算.社交.移动,还是大数据?相信每位从业者和客户都会有自己的认知与解读."一千个人眼中就有一千个哈姆雷特",很多时候是一个放之四海皆准的道理,更何况我们正在经历一段创新趋势叠加.创新领域融合的独特时期.而对于那些想要体会技术创新真正内涵的人士,有

大数据进入价值变现的2.0时代

文章讲的是大数据进入价值变现的2.0时代,移动互联网和传感器出现推动了大数据时代的出现,大量非结构化数据的出现令数据处理面临了难题,在大数据时代初期,有关大数据应用主要集中在收集数据,存储数据.处理数据等方面,解决的是主要是数据效率问题.当数据效率问题被解决之后,大数据价值变现问题将摆到面前,也就是说大数据将进入2.0时代(价值变现时代). 一大数据1.0时代的特征 大数据1.0时代的主要特征是发现大数据,存储和处理大数据.大数据4个V中的前3个V(大量的数据.多变的数据.高速的数据)都被有效的

创业必称“大数据”?是时候重新审视大数据的价值了

"大数据"这个概念大约是从2011年开始火起来的,如果从Apache Hadoop项目的正式启动算起,海量数据的分布式存储.管理和计算技术已有10年的历史.这10年里,创业圈逐渐流行起一种通病,但凡创业必称"大数据",似乎每个创业项目都会多少与之关联.大数据到底是什么?它是一项技术.一个产业还是一种思维方式?当越来越多的人将兴趣转移到AI.VR上时,也许是时候重新审视大数据的价值了. 在IT领域,一项技术的价值得以验证并实现往往需要走完四个阶段:技术原创.开源.产业

安防行业的大数据应用价值

       视频信息的丰富与清晰让安防数据不再仅仅局限于事后的查证功能,同时也给了智能化技术应用的空间.如何利用现有视频存储数据,更有效率地满足客户安全需求,甚至是提高客户的业务发展,近年来一直是业内关注的热点.从云平台与大数据,随着IT技术的不断演进,它们对安防业务的影响也逐渐凸显,谁能在这种大融合.大发展的时代受益? 安防大数据的价值在哪? 谈到大数据始终绕不过云计算.IT界对两者的关系也有过一些不同的观点,不过总体来看,认为这两者是互相补充的仍为多数.比如,VMware全球高级副总裁范承

充分挖掘信访大数据的价值

信访大数据的价值在于信访调研.访情预判.绩效考核.管理决策.记录历史. 日前,最高人民法院院长周强会见出席第三届世界互联网大会智慧法院暨网络法治论坛客人时指出,在全球信息化深入发展的大背景下,世界各国法院都在努力推动信息技术在法院工作中的应用.如何与时俱进,摸准时代的脉搏,搭上人工智能的快车,这是智慧型法院建设需要思考的问题.如何借助信访大数据将信访工作引领上快车道,并借助人工智能推动信访工作变革,这是新时期信访工作面临的重大课题. 信访之所以产生,一个重要原因在于,在当事人看来没有感受到公平正

拥抱Hadoop领跑大数据 实现价值回报

本文讲的是拥抱Hadoop领跑大数据 实现价值回报,当大数据风暴来临的时候,你是否已经做好准备?2012年对于企业来讲最为企业CIO所关心的话题之一必然要属于大数据.我们看到无论是个人还是企业,随着互联网.3G技术的普及以及企业自身数据的积累,大量的数据被产生,而这些大数据最终在存储.安全以及价值转换将成为企业关注的焦点. 相关数据调查显示,到2020年,电子数据存储量将在2009年的基础上增加44倍,达到35万亿GB.根据IDC数据显示,截止到2010年,这个数字已经达到了120万PB,或1.

PureData专家力量成就大数据时代价值

本文讲的是PureData专家力量成就大数据时代价值,在人类发展的历史上经历过几次大的变革阶段,这是今天人们有目共睹的.第一个阶段,人类语言的产生;第二个阶段,铁器时代的到来;第三个阶段,印刷术让人类文明能够得到承载;第四阶段,19世纪利用电磁波技术传播信息的时代,加速了信息传播的速度和广度;第五个阶段,二十世纪开始的新变化,数据的变化. 有一个触目惊心的数字对比能够充分展现人类进步的速度."近3500年人类文明发展所产生的数据放到今天,大约等于我们这个世界两天所产生的数据." IBM

如何正确认识大数据的价值和效益?

大数据已成为媒体与大众关注的新技术,大数据的应用也预示着信息时代将进入一个新阶段,但人们对大数据的认识有一个不断加深的过程.首先从"信息时代新阶段".数据文化和认识论的高度阐述了对大数据的理解:接着通过对驱动效益和大成智慧的解释,探讨了如何正确认识大数据的价值和效益,并从复杂性的角度分析了大数据研究和应用面临的挑战:最后对发展大数据应避免的误区提出几点看法. 1 大数据兴起预示"信息时代"进入新阶段 1.1 看待大数据要有历史性的眼光 信息时代是相对于农业和工业时代