深度学习和拓扑数据分析的六大惊人之举

假如你有一个一千列和一百万行的数据集。无论你从哪个角度看它——小型,中型或大型的数据——你不可能看到它的全貌。将它放大或缩小。使它能够在一个屏幕里显示完全。由于人的本质,如果能够看到事物的全局的话,我们就会有更好的理解。有没有办法把数据都放到一张图里,让你可以像观察地图一样观察数据呢?

将深度学习与拓扑数据分析结合在一起完全能够达到此目的,并且还绰绰有余。

1、它能在几分钟内创建一张数据图,其中每一个点都是一个数据项或一组类似的数据项。

基于数据项的相关性和学习模式,系统将类似的数据项组合在一起。这将使数据有唯一的表示方式,并且会让你更清晰地洞察数据。可视化图中的节点由一个或多个数据点构成,而点与点之间的链接则代表数据项之间高相似性。

2、它展示了数据中的模式,这是使用传统商业智能无法识别的。

下面是个案例,展示的是算法是如何仅仅通过分析用户行为来识别两组不同的人群。典型的特征区分,黄色和蓝色点:女性和男性。

如果我们分析行为类型,我们会发现,其中一组大部分是发送信息(男性),而另一组则多为接收信息(女性)。

3、它能在多层面上识别分段数据

分段数据表现在多种层面上——从高层次分类到具有相同数据项的分组。

在一个Netflix数据集的例子中,每个数据项是一部电影。最高层次的一组是音乐,孩子,外交和成人电影。中层次的部分包含不同分段:从印度片和港片到惊悚片和恐怖片。在低层次中是电视连续剧分组,比如“万能管家”,“办公室”,“神秘博士”等。

4、它能分析任何数据:文本,图像,传感器数据,甚至音频数据。

任何数据都可以被分段并理解,如果可以将它展现为数字矩阵,其中每一行是一个数据项,列是一个参数。下面这些是最常见的用例:

5、如果你引导它,它能学习更复杂的依赖关系。

选择一组数据项,将它们分组,算法就会发现所有相关或类似的数据项。重复这个过程数次,那么神经网络可以学习到它们之间的差异,比如Mac硬件,PC硬件和一般电子文本的差异。

对20000篇属于20个不同主题的文章进行了初步分析,得出一个密集的点云图(左图)。在使用深度学习迭代几次之后,算法会将它们进行分类,错误率仅仅1.2%(右图)。

6、即使没有监督它也能够学习

深度学习和自编码器模拟了人类大脑活动,并且能够在数据集中自动识别高层次的模式。例如,在谷歌大脑计划中,自编码器通过“观看”一千万条YouTube视频截取的数字图像,成功地学习并识别出人和猫脸:

我最近在使用拓扑数据分析和深度学习,并开发出一套工具,它将这些技术转换成了一个用户友好型界面,能够让人们观察数据并发现潜在联系。

本文作者:佚名

来源:51CTO

时间: 2024-08-01 22:06:08

深度学习和拓扑数据分析的六大惊人之举的相关文章

开源深度学习库BigDL在阿里云E-MapReduce上的实践

近些年来机器学习中的子领域深度学习成为一个热门的话题,特别是在围棋领域,谷歌的AlphaGo也使用了深度学习的技术. 在大数据领域,Spark MLlib是一个很流行的机器学习算法库,如果你想用Spark来做深度学习训练,MLlib还无法很好的支持.本文要介绍Intel开源的深度学习框架BigDL,他也是在Spark上的一个算法库,提供了全面的深度学习算法支持,包括数值计算(Tensor)和高阶神经网络等. 因为BigDL是在Spark上运行的,借助Spark平台的分布式扩展性,可以方便的扩展到

IBM推出云深度学习图形芯片Tesla P100 GPU加速器

IBM加大云托管服务力度,日前宣布推出Nvidia 的Tesla P100 图形处理器(GPU),成为在云里提供Tesla P100 图形处理器的第一大云提供商. IBM在旗下的云平台上推出Tesla P100 GPU,标志着企业可以更迅速.更有效地用Nvidia的加速技术运行大型计算工作负载,如人工智能.深度学习和高性能数据分析等. Nvidia GPU与服务器的中央处理器(CPU)一起可以提高应用程序的性能,因此大型计算数据工作负载可以更快.更高效地运行.各种不同的领域用了GPU后取得突破性

为恶意文件“画像” 瀚思科技基于深度学习技术快速锁定未知威胁

至顶网安全频道 07月26日 北京报道:"阿尔法狗"(AlphaGo)的一战成名让很多人记住了人工智能.深度学习.大数据分析等一系列新兴科技热词,而真正要把这些新技术应用到商业领域则又是另外一个过程.因此,我们现在看到很多创新型企业开始将人工智能技术引入到传统领域中,以求创造出颠覆性的发展机遇. 众所周知,在安全领域对于已知的安全威胁一般都比较容易防范,最棘手的问题是对未知安全威胁的检测和防护,这让很多安全企业非常困惑,而目前比较理想和成熟的防范手段是业界普遍采取的沙箱技术,沙箱的优点

英特尔开源分布式深度学习库BigDL:支持高性能大数据分析

近日,英特尔开源了一个运行在 Apache Spark 上的分布式深度学习库 BigDL,其可以利用已有的 Spark 集群来运行深度学习计算,并且还能简化从 Hadoop 的大数据集的数据加载. 开源地址>>> 据介绍,在 Xeon 服务器上的测试表明,BigDL 相比于 Caffe.Torch 或 TensorFlow 等开源框架实现了显著的速度提升.其速度可与主流的 GPU 相媲美,而且 BigDL 也能扩展到多达数十个 Xeon 服务器. BigDL 库支持 Spark 1.5.

IROS数据分析:中国论文第四 深度学习不敌路径规划

加拿大温哥华当地时间晚上7点,IROS 2017在温哥华会展中心的大演播厅(Ballroom B,C&D)举行晚宴,招待来参加IROS 2017的付费参会者们.一直以来,参会者购买的门票收入都是大会收入的重要来源,占到了大会总收入的80%以上,借此宴会,IROS也希望能更好地与会员及社区成员交流,成为揭示最新研究动态的风向标. 在今天晚上的晚宴上,大会方公布了几个有意思的数据,雷锋网总结如下: 中国收录论文排名第四 本次IROS大会共收到2164篇论文投稿,最终收录970篇,录取率44.8%.在

深度学习必备手册(下)

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 请收下这份关于人工智能的根目录--博客整理系列(一) 关于数据科学的那些事--博客整理系列(二) 机器学习必备手册--博客整理系列(三) 扩展眼界的都在这--博客整理系列(四) 深度学习必备手册(上)--博客整理系列(五) 深度学习的概念源于人工神经网络的研究,如果追溯深度学习的概念还是要回到2006年Hinton那篇论文,基于深信度网(DNB)提出非监督贪心逐层训练算法,未解决深层结构相关的优化难题出现的论

分析全球334家真正的深度学习创业公司,盘点25家AI芯片创业公司 | IEEE Fellow Chris Rowen演讲

在回顾Chris的演讲前,我们先来了解一下Chris本人.Chris Rowen是一位著名的硅谷企业家和技术专家.他目前是Cognite Venture的CEO,斯坦福SystemX联盟顾问,Cadence设计系统的顾问.他正在开发认知计算领域新的创业企业.他曾担任Cadence IP集团首席技术官,在那里他带领团队为移动.汽车.基础设施.深度学习和物联网系统的高级应用开发新的处理器和内存.Chris在1997年创建了Tensilica公司并担任CEO,开发可扩展处理器,成为领先的嵌入式架构之一

确定不收藏?十张机器学习和深度学习工程师必备速查表!

本文讲的是十张机器学习和深度学习工程师必备速查表,对于初学者,机器学习和深度学习课程会很困难,此外各类深度学习库也十分难理解.我在Github上创建了一个本地库(https://github.com/kailashahirwar/cheatsheets-ai ),里面包含了从不同渠道收集的速查表,可以直接下载.尽管拿去用吧,同时欢迎补充完善! 1. Keras Karas是Theano和TensorFlow平台上一款强大易用的深度学习库.它为发展和训练深度学习模型提供高阶神经网络API接口. 来

如何玩转网络安全下的深度学习?最全的学习资料清单看这里

近日,外媒 KDnuggets 刊登了一篇机器学习与网络安全相关的资料大汇总,文中列出了相关数据源的获取途径,优秀的论文和书籍,以及丰富的教程.大部分都是作者在日常工作和学习中亲自使用并认为值得安利的纯干货,雷锋网(公众号:雷锋网)现编译总结如下.   数据源 SecRepo.com 网站,该网站汇聚了大量的与机器学习和网络安全相关的数据源,并提供免费下载.据网站首页介绍,所有可用的数据源包含两个部分:一是网站方面自己整理的,二是来自第三方的.其内容包括互联网扫描数据,恶意软件源码,以及和网络安