谷歌经济学家推崇的数据艺术,现在教你入门

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud



简介
去年,职业社交网站 Linkedin 报道称,近年来雇主最重视的技能就是数据技能。而推崇数据导向文化的谷歌,其首席经济学家 Hal R.Varian 博士更完整地阐述了行业真正的数据技能需要——“理解数据、处理数据、从中抽取价值、将其可视化、并表达其中的意义,这是未来十年及其重要的技能。”简而言之,就是用数据讲故事的能力。

谷歌首席经济学家 Hal R. Varian 博士

不管是朝你砸玩具的熊小孩,还是不知道如何沟通的客户,最好解决办法无非是:给你讲个故事。要让你的老板、客户或者从未谋面的听众“听话”,最好的办法,就是放弃容易引发数据恐惧症的Excel 表格,拿出可视化工具,用数据讲故事。

举个例子。如果你想说明“男性与女性在驾驶分心因素中的差异”,你可以这样说:

  • 6%的男人和4.2%的女性觉得发短信聊天是驾驶中分心的原因;
  • 车里有小孩是9.8%的男性和26.3%的女性驾驶分心的原因。

或者,你可以这样说:

上图是儿童慈善机构 kids4kars.org 的作品。
你更喜欢哪一种叙事方式?

我们都爱听故事
讲故事很简单、也很难。在很多数据驱动的团队里,大家很容易觉得故事是肤浅的,觉得事实本身就足够说服听众了,但是讲故事可以最好的体现和解释数据的价值。
数据为什么有用?因为数据能告诉我们,如何更好的制定决策。很多企业中,分析的第一步是故事板。故事板的概念源于电影制作,安排剧情中的重要镜头,相当于一个可视化的剧本。有时候,不用做复杂的相关分析,将数据可视化就能够讲好一个故事。
安斯库姆四重奏(Anscombe’s Quartet)就是一个很好的例子,里面包含里里四个数据库,每一个的数据总结都非常相似。

但是如果你这些数据可视化:

是不是听到了美妙的四重奏!

如何讲故事
第一步,故事都有情节。让我用一个包含 NASDAQ 100 科技公司新闻标题的数据库为例子,一步步来分解讲故事的步骤。项目栏包括以下部分:

  • Headlines.Securities.Symbol: 依据每一个公司的代码对数据进行筛选和分组。
  • Headline.Securities.CategoryorIndustry: 哪一些新闻对其行业具有相关性。市场情绪也许只针对行业内某一些公司。
  • Headlines.Title:标题,理解当天市场情况最重要的因素之一。
  • Headlines.Date:基于月份和日期分类新闻。
  • Headlines.Source:新闻来源。
  • Headlines.Url:新闻链接。

具体步骤
1. 回归复古的纸和笔。
虽然我们生活在数字化的时代,不过,有些超棒的数据故事在进入 PPT 之前,其实是在餐巾纸上画出来的。在开始制作故事结构之前,写下你的想法和故事流。
亚里士多德有一个经典的“五大要点”方法:
1)先做一个陈述,引起观众的注意。
2)提出一个需要解决的问题。
3)提出一个解决方法。
4)描述你的解决方法会带来哪些好处。
5)提出一个行动呼吁。

假设现在我要写一个报告,如何用数据更好地进行投资决策。做一个折线图可以分析出这些股价的趋势。

我们可以看出,2016年2月所有股价都下跌了。我们可以抓取那个时期的新闻,分析到底发生了什么。

我们可以找到哪一个媒体对某一个股票的报道最多,这个媒体也许就是关于这个股票最好的消息来源。

2. 深挖故事的意义
为什么你在讲这个故事?故事本身并不重要,重要的是故事如何能让我们更好地进行决策。
用一句话,说明为什么你对你所做的这件事抱有热情。

3.取一个强大的标题
一句话概括你的故事、标题和分析。最有效的标题必须简洁、具体、并告诉读者你能从中得到什么好处。
记住,标题是给读者看的,不是给你自己看的。

4. 设计一个路线图
写下你想让观众知道的是什么,写下所有的关键点。
将你的关键点归类、合并,直到最后你手上有的不是100个关键点,而是三个大类。
这三个大类就是你的路线图。
在每一个大类下面,加上支持你论点的证据,可以包括个人故事、事实、例子、类比等等。

5. 简短总结
既然已经陈述了所有的要点,现在,就该来一个强大的收尾了。我的报告结尾,在每一个股票后面都写了三到四行,总结为什么要买这个股票。

数据类型及适合图标
常见的数据类型如下:
1. 文字数据
文字数据适合研究文字中的情绪,这种数据最适合讲故事。
WordCloud 是最适合文字数据的可视化类型,将最常见的文字放在最中心、字体最大,让读者一眼就看出文字要体现的总体思想。

上图直观地体现了一个 Twitter 数据库的内容,一眼就能看出其中最突出的情绪:“阴沉”、“缺失”、“失望”等。

2. 混合数据
当数据中不仅有数字,还有其他的数据形式,我们需要确定哪一种形式最能体现数据中的洞见。
我先以网格分面为例,分析泰坦尼克号乘客的数据。

而下图直观地体现了不同性别和舱位级别的生存率。

我们可以看出,女性和头等舱乘客的生存率稍高一些,而男性、低级别舱位及工作人员的生存率更低。嗯,这和我们从电影中得到的印象一致。

另一种可视化的方式是多元变量图。以下使用的数据库是汽车性能规格数据库。

这让人看得一百个头大。所以我们做出了下图,这样不难看出,更重的车身会让汽车跑得更慢。

3. 数字数据
通常对于数字数据我们要找的是趋势。

横轴是时间,纵轴是票价,黑色线是成人,灰色线是小孩。我们可以清楚看到在这个游乐园,成人和小孩的价格都上涨了,而且对每一年上涨的程度也有个直观的感觉。

4. 股票
股票市场的信息基本上就是一个时间序列数据,而投资人希望能够理解每一个时间点与价格下跌。
下图的 K 线图是一个很好的例子。

我们可以看看特斯拉的股价。2016年2月特斯拉股价出现了较大的下跌,我们可以去调查当时的市场情况和经济环境,在未来更好地进行股票投资。

5. 地理数据
把不同地区的信息标记在地图上,能让分析更加清楚和有意义。

上图中,我们可以看到2002年世界杯各国到进球数,德国的进球数最高。

预测性模型如何讲故事
我们先来理解建造模型的步骤,看看故事能在其中发挥什么作用。

1. 数据探索
建立模型的第一步是理解你的数据。不一定先得进行复杂的统计计算。
我们来看看红酒质量的数据库,数据库的结构如下:

以下是数据总结

如果我们想知道酒精量和红酒质量之间的关系,该怎么办?
我们可以计算 Pearson R值,可以帮助打造一个模型。但是对于分析没有什么用。

这意味着酒精量和红酒质量之间有很强的关联。此外你还了解到了什么?并没有。
所以我们来将数据可视化一下:

首先,我们看到更高的酒精量与更好的红酒质量相关,我们也可以更清楚地看到有一些例外存在。
然后,你觉得红酒的酸度与质量有关吗?

我们可以用小提琴图来体现酸度,小提琴图能体现在哪些区域内有更多的数据点。

2. 特征可视化
生成了特征之后,你如何看到预测得如何?

我们可以以主成分分析(PCA)为例。关于 PCA 更深入的内容可以看这篇文章
这是 RStudio 中的 Iris 数据库。

我们进行 PCA 的时候会发现这些数据:

一直盯着这张表可能也看不出什么。如果做成可视化图表,我们得到的信息会更多。

3. 创造和比较模型
这个模型能基于道路颠簸度的情况,预测车辆应该走快一点还是放慢一点。

决策边界将大部分数据清楚分类了,不过,88.21%的精确度并不算一个故事。
以下是另一个使用 Iris 数据库的例子:

要推导出有价值的内容,这里的信息不够多。要更深入地了解支持向量机,可以看这篇文章

另一方面,这张图表展示了一个清楚的分类边界。

讲故事的实用贴士

  • 图表一定要标记好横轴和纵轴,写好恰当的标题。
  • 必要的时候使用图例。
  • 使用视觉上比较柔和的颜色。
  • 避免增加非必须的信息,例如过于复杂、降低可读性的背景或主题。
  • 基于横纵位置信息、要同时编码两个量值的话,只能使用一个点。
  • 制作时间序列编码的时候,不要用点进行可视化。

结束语
数据中特征与数据的关系,数字揭示不了的,但故事和图表可以。故事可以在各种情况下更好地解释细节。现在,你也可以开始讲述你的数据故事了。

文章原标题:《The Art of Story Telling in Data Science and how to create data stories?》文章为简译,更为详细的内容,请查看原文
译者:炫。

本文由用户为个人学习及研究之目的自行翻译发表,如发现侵犯原作者的版权,请与社区联系处理yqgroup@service.aliyun.com

时间: 2024-10-02 21:25:14

谷歌经济学家推崇的数据艺术,现在教你入门的相关文章

谷歌 Ngrams :大数据如何创造错觉

如果我说美国人现在开始越来越以自我为中心了,你也许会想这个老家伙肯定又要嘟囔些「过去才是好日子」之类的.但是,如果我说我有着对1500亿个文本词语的分析来支持这个的宣称呢?在几十年前,这样规模的证据简直是天方夜谭.而在今天,1500亿个数据已经过时了.「大数据」分析的热潮已经卷过了生物学.语义学.金融学以及其相间的各种领域. 尽管没有人能够在如何定义上取得一致,但大致概念是找到足够大的数据库,这样他们可以发现传统调查里无法发现的规律.这些数据来源于数百万个现实用户的行为,例如,发推特或信用卡消费

DropDownList绑定数据表实现两级联动示例

 这篇文章主要介绍了DropDownList绑定数据表实现两级联动具体实现,需要的朋友可以参考下 场景一:平时我们在DropDownList控件下添加下拉选项时,都会使用它的Item.Add方法,直接在代码下添加.如果我们想添加或修改下拉选项,则必须去修改源代码.如果几个DropDownList控件的下拉选项相同,我们则需要重复添加好多次,后期的维护工作很不方便.    场景二:我们在12306网站买票时,肯定遇到过这么一种情景:我们需要先选定目的地的省份,选完省份后在城市选框中会自动加载该省份

hibernate 循环遍历 list对象,只保存最后一条数据,偶现

问题描述 hibernate 循环遍历 list对象,只保存最后一条数据,偶现 @Transactional(readOnly = false, propagation = Propagation.REQUIRED) public String rankScoreIn(MultipartFile file, String classid, String testname, String grad, String subject) { StringBuilder failureMsg = new

谷歌宣布台湾彰化数据中心已经正式开建

[赛迪网讯]北京时间4月3日消息,据国外媒体报道,谷歌今日宣布台湾彰化数据中心已经正式开建,它预计该数据中心将于2013年下半年进行有限测试后上线. 这将是谷歌在亚洲建立的第三个数据中心,其他两个数据中心位于新加坡和香港,目前均尚未完建.谷歌计划在2013年初完成新加坡和香港数据中心的建设.据谷歌称,彰化数据中心将是第一个通过夜间冷却和热能存储系统节能的数据中心. 谷歌将在台湾本地为新数据中心招聘员工,它已经在网站上发布了若干职位的招聘启事. 彰化数据中心的投资规模为3亿美元,这是谷歌在台湾地区

谷歌在荷兰设立数据中心事件深陷受贿门

据荷兰财经日报报道,一荷兰地产公司与全球互联网巨头谷歌前总监互相勾结,通过行贿的方式让谷歌在荷兰设立数据中心的事件被荷兰检察部起诉. 荷兰地产商人Rudy Stroink涉嫌贿赂美国计算机软件公司谷歌的一名前总监Simon Tusha,换取谷歌在荷兰北部的Eemshaven买地建设新的数据中心,他和妻子二人涉嫌洗钱.贿赂.伪造文件以及是犯罪组织的成员.检察部日前正式起诉,周一Almelo法院将开始审理这一案件. 谷歌在荷兰已经活跃了10多年, 2007年初,谷歌表达了希望在荷兰扩充发展的意愿,当

谷歌新建三个数据中心 为亚洲地区服务提速

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; 腾讯科技讯(冰尘)北京时间1月3日消息,据国外媒体报道,谷歌(微博)向亚洲用户表示,新建的三个亚洲数据中心投入使用后,谷歌在亚洲地区的服务访问速度可提高30%. 谷歌印度产品经理拉利特什·卡特拉格达(Lalitesh Katragadda)接受<经济时报>采访时表示,新加坡和台湾的谷歌数据中心将于2013年投入使用,而位于香港的第三个数据中心正在建设中.

《连线》:谷歌Dremel让大数据变小

北京时间8月16日消息,<连线>杂志近日刊载文章称,开源云计算软件平台Hadoop已经在整个网络中得到了广泛的运用,无论是在数据分析领域还是在其他各种数据运算任务中都是如此:但是,谷歌已经开发出了更新的技术Dremel,这是一种用来分析信息的方法,它可以在数以千计的服务器上运行,能以极快的速度处理网络规模的海量数据,从而让"大数据"看起来变小. 以下是这篇文章的全文: 迈克·奥尔森,Hadoop运动背后的首脑之一. 迈克·奥尔森(Mike Olson)运营着一家专业致力于全

[大数据之Spark]——Transformations转换入门经典实例

Spark相比于Mapreduce的一大优势就是提供了很多的方法,可以直接使用:另一个优势就是执行速度快,这要得益于DAG的调度,想要理解这个调度规则,还要理解函数之间的依赖关系. 本篇就着重描述下Spark提供的Transformations方法. 依赖关系 宽依赖和窄依赖 窄依赖(narrow dependencies) 窄依赖是指父RDD仅仅被一个子RDD所使用,子RDD的每个分区依赖于常数个父分区(O(1),与数据规模无关). 输入输出一对一的算子,且结果RDD的分区结构不变.主要是ma

IDG与谷歌联手投资互联网数据服务公司

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客 站长团购 云主机 技术大厅 尽管 金融风暴让各行业 感到寒意,但在互联网行业仍有一些新兴公司保持着旺盛生机.记者11月6日获悉,国内第三方数据统计公司CNZZ获得投资商青睐,著名风投机构IDG和谷歌公司已联手对其投资. 互联网是"眼球经济",网站的价值取决于流量.但是,以流量为唯一衡量指标的竞争方式也让国内互联网陷入危机,各类针对流量统计造假