走进大数据之拓扑数据分析方法

拓扑数据分析(TDA),顾名思义,就是把拓扑学与数据分析结合的一种分析方法,用于深入研究大数据中潜藏的有价值的关系。

相比于主成分分析、聚类分析这些常用的方法,TDA不仅可以有效地捕捉高维数据空间的拓扑信息,而且擅长发现一些用传统方法无法发现的小分类。这种方法也因此曾在基因与癌症研究领域大显身手。

1.什么是拓扑数据分析

拓扑学研究的是一些特殊的几何性质,这些性质在图形连续改变形状后还能继续保持不变,称为“拓扑性质”。而在复杂的高维数据内部也存在着类似的结构性质,我们可以形象地称之为数据的形状(特征)。

和通常研究的成对关系相比,这种相互关系的形状之中可能潜藏了巨大的研究价值。要理解数据的形状,就必须求助于拓扑学。TDA所做的就是抽取这种形状并进行分析。

那么到底如何来刻画数据的形状呢?下图是一个简单的例子:

左边是一只手的采样数据点,宏观看来像一只手。右边则是经过拓扑数据分析得到的图,有点像一只手的骨架。从左边到右边,就是一次形状重构的过程。这种重构用了很少量的点和边去刻画原始数据集,同时保留了原始数据的基本特征。

2.拓扑数据分析的三个要点

1)TDA的输入可以是一个距离矩阵,表示任意两数据点之间的距离。

它研究的是与坐标无关的形状,完全不受坐标的限制。这也意味着拓扑形状的构建依赖于距离函数的定义,或者说相似度概念的定义。坐标无关的特性,使得TDA可以整合来自不同平台的数据,尽管这些数据的结构不太一样,你只需要给出合理的距离函数。这是TDA的一个优点,通用性。

举个例子,TDA在癌症分析领域的成功,这种通用性是一个重要原因。因为不同癌症数据集的指标、结构都不尽相同,而TDA可以轻松整合。

2)TDA研究的数据形状,可以容忍数据小范围的变形与失真。

想象在一块橡皮上写了一个字母”A”,你用力挤压拉扯这块橡皮,字母”A”虽然有点扭曲变形,但是“一个三角形带两个脚”这样的基本特征仍然存在。从上面“手”的例子也可以看出,TDA对小误差的容忍度很大。

3)如果我们要粗略的描绘一个湖泊轮廓,最简洁的就是使用一个多边形。

拓扑处理的是抽象的形状,最典型的例子就是用六边形来表示圆,这只需要用到6个点和6条边。

TDA使用这种形式压缩数据,用有限的点和边来表示大量的数据,并且保留了数据重要的特征。

3.拓扑数据分析的主要步骤

用一个滤波函数对每个数据点计算一个滤波值。这个滤波函数可以是数据矩阵的线性投影,比如PCA。也可以是距离矩阵的密度估计或者中心度指标,比如L-infinity(L-infinity的取值是该点到离它最远的点的距离,是一个中心度指标)。

数据点按照其滤波值,从小到大被分到不同的滤波值区间里。参照下图中“手”被切成等宽的块。但需要注意的是,相邻的滤波值区间设置有一定的重叠区域,也就是重叠区域的点同时属于两个区间(这一点很重要)。

对每个区间里的数据分别做聚类。

把上一步骤中各区间聚类的得到的小类放在一起,每一个小类用一个大小不同的圆表示。若两个类之间存在相同的原始数据点(这就是区间需要相互重叠的原因),则在它们之间加上一条边。

对上述圆和边组成的图形施加一层力学布局,让其达到平衡,就得到最终的“数据图形”。

下图是一个简单的示意图,便于理解:

4.案例:ayasdi公司关于NBA球员的研究

有一份关于NBA球员的数据集,这份数据集编码了球员在场上表现的各个方面,包括篮板、助攻、失误、抢断、封锁、犯规、得分等各项指标的每分钟频率。对这份数据集进行拓扑化后,得到了下面这张图。

篮球运动员的位置一般分为控球后卫、得分后卫、小前锋、大前锋、中锋。然而在上图的网络中,我们看到了比传统的五个位置更为精细的结构。比如在网络的左侧,守卫被细分成了三个组,攻击守卫、防守守卫、击球守卫。在网络的中下部我们可以看到三个比较小的块,其中有“NBA全明星”(Allstar NBA) 和“NBA全明星第二梯队”(Allstar NBA 2nd Team)。

“NBA全明星”这个组几乎由NBA历史上最优秀的球员组成,“第二梯队”虽然也都是由全能的优秀球员组成但表现上可能不如全明星组。

有意思的是,在全明星组中还有一些不太知名的球员,这些球员也许就是潜在的未来明星球员。

本文作者:杨晓东

来源:51CTO

时间: 2024-07-31 05:48:06

走进大数据之拓扑数据分析方法的相关文章

快上车!老司机带你走进“大数据及阿里云数据分析平台”

本次培训讲座是由阿里巴巴创新中心·优客工场(天津于家堡)和天津云顶云科技有限公司联合举办,由阿里云大数据高级认证讲师--宋亚奇博士主讲,旨在通过对大数据及阿里云数加平台的介绍,帮助天津市企业更好的理解大数据,以及更合理有效的利用数据资源促进公司业务发展. | 目标人群 | 1.管理人员以及技术/市场/销售人员2.有兴趣了解大数据的所有人员 | 培训相关 | 时间:2017年5月27日,14:00-17:00地点:天津自贸试验区新华路3678号新金融大厦11层[阿里巴巴创新中心·优客工场(天津于家

大数据时代审计技术方法的发展趋势

步入新世纪以来,信息技术迅猛发展,与之相伴随的是给整个社会带来了一场生产生活方式以及思维模式的变革,从而使我们的工作生活环境发生了巨大的变化,大数据已经成为与石油相媲美的一项战略资源,可以说,大数据时代已经到来.国家审计机关作为与数据密切接触的部门,必将会迎来大数据时代所带来的机遇与挑战.面对大数据时代这一发展趋势,国家审计机关已经开展了"金审工程"一期.二期,并部署了三期工程."金审工程"的稳步推进,必将有助于实现国家审计的"免疫系统"功能,充

《大数据管理概论》一3.2 大数据存储与管理方法

本节书摘来自华章出版社<大数据管理概论>一书中的第3章,第3.2节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 3.2 大数据存储与管理方法 闪存.PCM等新型存储介质的引入使得大数据存储架构有了多种选择.但由于新型存储介质在价格.寿命等方面与传统的磁盘相比不具优势,因此目前主流的观点是在大数据存储系统中同时使用新型存储介质和传统存储介质,由此产生了多种基于新型存储的大数据存储架构,如基于PCM的主存架构.基于闪存的主存扩展架构.基于多存储介质的分层存储架构

MySQL 大数据量快速插入方法和语句优化

MySQL大数据量快速插入方法和语句优化是本文我们主要要介绍的内容,接下来我们就来一一介绍,希望能够让您有所收获! 一.INSERT语句的速度 插入一个记录需要的时间由下列因素组成,其中的数字表示大约比例: 连接:(3) 发送查询给服务器:(2) 分析查询:(2) 插入记录:(1x记录大小) 插入索引:(1x索引) 关闭:(1) 这不考虑打开表的初始开销,每个并发运行的查询打开. 表的大小以logN (B树)的速度减慢索引的插入. 加快插入的一些方法 如果同时从同一个客户端插入很多行,使用含多个

软件业2013十大预言:大数据更注重数据分析

大数据.云计算.社交网络和移动计算是眼下推动IT业发展的几大趋势.这些大趋势在2012年造就了很多的新闻故事,在2013年还将会驱动众多的IT厂商和解决方案提供商进入快速发展的软件市场,以便维持其竞争优势. 微软能利用Windows 8在移动计算领域夺得一片天地吗?戴尔和惠普还会继续收购软件公司以扩张它们的产品线吗?当一些旧的技术如关系数据库逐渐衰落时,HTML5之类的新技术会赢得业界的接受吗? 让我们来看看2013年,软件行业将会发生哪些故事吧. 有效管理BYOD的工具将成主要增长点 据For

大数据及2014数据分析趋势

[ 大数据及2014数据分析趋势]http://www.aliyun.com/zixun/aggregation/33721.html">2014年,将是大数据和数据分析大放异彩的一年.那么今年,大数据和数据有什么样的发展趋势呢?其中最核心的是速度--

Google BigQuery带你走进大数据

在大数据时代,大数据这三个字被好多人经常挂在嘴边.但大于大部分普通人来说,对大数据真正的含义并不十分清晰,很多人仍处于懵懂的入门阶段.乍一看,大数据项目可能会有些吓人,尤其是如果包含了设置和管理Hadoop集群.如果你更习惯于SQL,而不是MapReduce,但是发现关系型数据库不符合分析需求.若想对大数据有一些真正的了解,Google BigQuery值得一看.它为我们提供了大数据分析入门级方法. BigQuery减少了分析大型数据集面临的一些实现挑战.价格模型促进了统计分析技能的发掘,因此可

【干货】郭朝晖:工业大数据的特征、方法与价值创造

嘉宾介绍: 郭朝晖,现为宝钢中央研究院首席研究员.教授级高工.分别于1990.1994.1997年在浙江大学应用数学.化学工程和自动化专业获得学士.硕士和博士学位.1997年加盟宝钢,2005年晋升教授级高工.长期从事信息.模型.自动控制.大数据等领域的技术研发工作. 曾先后担任中国工业与应用数学学会副理事长,中国现场统计学会第八届理事会理事,上海工业与应用学会常务理事,上海人工智能学会理事,上海交大.浙江大学.宝钢人才开发院兼职教授,东北大学兼职博导,宝钢集团党外知识分子联谊会会长,上海市知联

量子计算:解决大数据洪流的未来方法?

从基因图谱到太空探索,人类不断产生着越来越大的数据集--远超过了人类可以处理.管理和理解的范畴. 机器学习系统能够帮助研究者处理这些日渐增长的信息洪流.一些最强大的分析工具是建立在一种奇特的几何学分支上的,称为拓扑学.拓扑学研究的是那些即使在弯曲或拉伸的状态下依然保持不变的性质. 这样的拓扑系统在分析复杂网络中的联系时,特别有用,例如大脑内部.美国电力网络或国际互联网中的连接.但是,即使用现代最强大的超级计算机,这种问题还是令人生畏,很难解决.现在,MIT.滑铁卢大学和南加州大学共同开发出一种新