[独家]MIT课程笔记:数据可视化会撒谎

这篇文章取材于David Karger教授讲授的Data Visualizations课程,此课程是MIT ProfessionalEducation开设的网络课程Tackling the Challenges of Big Data的一部分。文中部分图片经Karger教授本人授权,请勿转载。

上一期的可视化专栏中,我们推出了一篇文章《人类历史上最有影响力的5张信息图》,相信读过这篇文章的读者都会对下面这幅图有印象。这是排名第二的“战争死亡统计图”,作者FlorenceNightingale(南丁格尔)是一名护士,她用数据图表的方式展示了那些可预防疾病(蓝色和灰色区域)导致的惊人死亡数字,成功的说服了将军们投钱在医院和医疗设施上。

看到这幅图,相信读者都会像我一样惊叹于160年前的这位护士的智慧,但是在惊叹的同时,或许你也会像我一样有疑惑:这幅图看起来并不是那么直观明了,问题出在哪里呢?Karger教授解释说,因为南丁格尔采用了图形面积作为可视化变量来表示死亡人数,而我们的眼睛已经在某种程度上习惯于比较单一的长度或宽度,而不是面积。另外一个问题是,她把这些颜色叠放在一起,粉红色区域的下面,还有很多蓝色;而有些地方看不到任何的粉红色,因为它被盖在灰色的下面。

下面这幅图也存在同样的问题。这是1979年Time杂志在石油危机爆发时发表的一张图,用来表示1973-1979年间石油价格的变化。

这幅图的本意是用桶的高度来表示石油价格的变化,离我们最近的桶是最远的桶的5.5倍。但由于角度和阴影的关系,我们直觉上会认为桶的体积表示了价格的变化。尽管这个图上的数字是正确的,1979年石油价格是1973年的5.5倍,但是由于这幅图给我们的误导,我们会把体积变化(270倍)当成一个与价格有关的变量。

这是在创建可视化过程中容易进入的误区,也是我们应该尽量避免的。一般的规则是,尽量避免使用多维变量来代表数量。如果你想用一个可视变量代表一个数,那么只使用长度或者高度, 但不要两者同时用。

下面三张图显示的是2000年的股市崩盘。

看第一张图,我们会觉得2000年的股市崩盘是灾难性的。但是,如果我们把纵坐标范围扩大到整个股票市场的价格区间0-$10,000,这个下跌曲线看起来就平缓多了。如果我们再把横坐标的年份放大到1950-2000年,那么这个下降看起来根本就不算什么。

下面这两张图可谓恶劣之作。这两张图出现在一本杂志的封面,企图披露康奈尔大学在学校排名直线下降的同时学费持续飙升。让我们来看看真实情况是怎么回事。

首先,我们来看看排名。不要忘了,学校的排名是数字越小越好,所以图中下降的曲线实际是表明康奈尔排名上升了。另外,两幅图表示年份的横坐标使用的是不同的时间尺度。第一张图的学费数据,从1965年开始;而第二张图的排名,从1988年开始。最后,关于学费的数据也有问题。它实际上并不是图文中所说的学费,而是学费/收入比。所以,这两张照片放在一起,根本无法说明他们所说的问题。

再来看一个例子,下面这张图来自纽约时报,显示了1978年到1985年汽车燃料标准的改变。

这个图的问题是,这里用0.6英寸代表1978年的18英里/加仑,用5.3英寸代表1985年的27.5英里/加仑,并试图用透视图使它看起来更漂亮。但这样做,在视觉上大幅度放大了长度的变化。因此,我们看到的不是每加仑英里数增加了52%,而是780%。

下面的例子是Karger教授制作的关系数据可视化图。

这是对一个特殊虚拟社交网络的可视化图。从图中你会看到有几个核心人物,周围环绕一堆边缘人物。但是,这其实是一种假象。事实上,这里的数据是一个对称的圆环,也就是说任何一个人跟他周围人的关系跟其他人和周围人的关系是完全一样的。而图中的核心人物,是由于制作时把三维物体投影成两维造成的。显然,这张图会给在视觉上造成很强的欺骗性。

总的来说,可视化是一个非常强大的工具,有时候比统计数据本身更强大。这意味着它可以更好地揭示真相,但同时也可能更显著地放大错误。在可视化的过程中,要经常反问自己:这个图有没有什么不正确的暗示?要做到这一点,需要考虑:一、显示完整的坐标区间;二、显示全面的数据;三、选择适当的可视化变量。

有一本著作,名为《统计数字会撒谎》。虽然还没有人写过“可视化会撒谎“,但我相信有一天会出现这样一本书,因为这实在是一个值得探讨的话题。

原文发布时间为:2015-02-28

时间: 2024-10-25 16:17:43

[独家]MIT课程笔记:数据可视化会撒谎的相关文章

【独家】我的数据可视化之旅——从天文学家到数据可视化专家养成记

我经常收到很多人的邮件,询问我步入数据可视化道路的各种问题.在我将自己的故事写了九遍之后,我想在博客上公开这个故事也许会更轻松一些.这样,我也能够叙述得更加详尽,甚至添加一些图片. 从天文学家到数据科学家(我学习R的时候)再到自学而成的数据可视化设计师,这一过程中最大部分时间我都在做大量的数据可视化工作,我还花了很多业余时间学习网络语言和D3,阅读了最佳实践的相关书籍,参与线上数据可视化社区,并在各种学术会议或见面会中阐释自己对于这一课题的热爱.现在,我在为Adyen工作的同时,也是一个数据可视

数据分析学习笔记:数据可视化

本篇来源于书籍<数据之美-一本书学会可视化设计>的学习后整理所得.全篇主要围绕数据可视化的5个步骤展开,其中重点内容是第三步:"应该使用哪种可视化形式".本篇旨在带你全面认识了解可视化,所以一些具体的工具的使用并未涉及,只是罗列类一些常用的可视化工具. 你有什么数据 关于可视化,人们一般的理解是先设想要达到的可视化效果,然后在去寻找相应的数据. 这样经常会造成:"现有的数据不能够做出事先设想的可视化效果,或者是想要制作理想的图表需要获取更多的数据." 而

哥伦比亚大学数据科学课程笔记

第一周:什么是数据科学? 课程大纲 Rachel Schutt教授以梳理课程大纲开始,下面是她主要的摘要: 1. 课程需要的基础知识有:线性代数,基础统计学,以及一些编程课程. 2. 课程目标:学习数据科学家都做些什么,并学会做其中的一些事儿. 3. Rachel主讲几个礼拜的课,然后会有客席讲座. 4. 客座教授的简历跨度非常大,他们的背景也是如此.但他们都是数据科学家. 5. 我们将有丰富的阅读材料:做一名数据科学家的一种能力就是认识到许多还未记录下来的东西. 6. 差不多每两周一次家庭作业

独家 | 手把手教数据可视化工具Tableau

前言 数据的世界正在发生急剧变化,任何人都应该访问自己需要的数据,并具备获取任何数据的洞察力,而tableau正是帮我们洞察数据的好帮手. Tableau作为BI tool leader ( 2016 Gartner BI chart), 它不仅是一款可视化软件,还具备不可忽略的强大的Data connection, collaboration, security management, multi-platform功能性: Data connection:Tableau Desktop可直接连

【独家】一文读懂数据可视化

前言 数据可视化,是指将相对晦涩的的数据通过可视的.交互的方式进行展示,从而形象.直观地表达数据蕴含的信息和规律. 早期的数据可视化作为咨询机构.金融企业的专业工具,其应用领域较为单一,应用形态较为保守.步入大数据时代,各行各业对数据的重视程度与日俱增,随之而来的是对数据进行一站式整合.挖掘.分析.可视化的需求日益迫切,数据可视化呈现出愈加旺盛的生命力,表现之一就是视觉元素越来越多样,从朴素的柱状图/饼状图/折线图,扩展到地图.气泡图.树图.仪表盘等各式图形.表现之二是可用的开发工具越来越丰富,

数据可视化设计在PPT中的运用

  图表数据的展示,是PPT设计中最常用的功能.要想让听众能快速理解PPT数据的内容,需要我们对PPT图表的数据进行可视化的设计处理.今天为大家带来Visage的数据可视化设计指南,我们可以了解到数据可视化设计的价值和数据可视化设计的科学根据,并且了解数据可视化设计的内容. 商务数据可视化设计指南  仅用文字不足以传达信息 作为人类,我们在生理上便倾向于阅读图形信息,我们能够更快速的理解图像--很久很久之前,人类便能理解图像的含义,而创造语言是为了更好地描述图像.这是我们的天性,因此视觉图形是信

数据可视化:基本图表

"数据可视化"可以帮助用户理解数据,一直是热门方向. 图表是"数据可视化"的常用手段,其中又以基本图表----柱状图.折线图.饼图等等----最为常用. 用户非常熟悉这些图表,但如果被问道,它们的特点是什么,最适用怎样的场合(数据集)?恐怕答得上来的人就不多了. 本文是电子书<Data Visualization with JavaScript>第一章的笔记,总结了六种基本图表的特点和适用场合,非常好地回答了上面的问题. 零.序言 进入正题之前,先纠正一

Linux 数据可视化工具

Linux 上用来实现数据的图形可视化的应用程序有很多,从简单的 2-D 绘图到 3-D 制图,再到科学图形编程和图形模拟.幸运的是,这方面的工具有很多开放源码实现,包括 gnuplot.GNU Octave.Scilab.MayaVi.Maxima 等.每个工具都有自己的优缺点,并且都是针对不同的应用程序而设计的.对这些开放源码图形可视化工具进行一下探索,有助于我们更好地决定哪个工具最适合我们的应用程序. 内容 Gnuplot GNU Octave Scilab MayaVi Maxima 展

如何做好基于地图的数据可视化?

这个地图是Audubon鸟类和气候变化报告中的一部分,预测了季节变化的区域,黄色代表该地区处于夏季,蓝色代表冬季. 地图具有神奇的能力,可以给我们展示不能直接看到的东西,例如Curiosity在火星上的路径,北达科他州地下水力压裂井的混乱,加州未接种疫苗儿童的簇状分布.对于记者来说,地图既是一个强大的数据可视化工具,也是一个强大的报告工具. "地图是信息密度最大的数据通信方式,"洛杉矶时报的数据可视化主管Len De Groot说.因为人们在日常生活中就使用地图,所以能直观理解地图.L