黄志敏:数据新闻制作7步法,一张图抵3万字

导读:9月12日,在由中国传媒大学国际传媒教育学院、财新数据可视化实验室、百度新闻实验室联合主办的“京华论道——2015可视化与数据新闻分享会”上,财新传媒首席技术官、财新数据可视化实验室负责人黄志敏带着案例与现场听众进行了分享。他根据自己从业的经验,将数据新闻的生产切割成七个步骤,庖丁解牛般地将数据新闻的选题确定、数据整理和可视化呈现进行了清晰地分析。声名在外的财新数据可视化实验室实是怎样完成一个大体量的数据新闻制作的?

以下为演讲实录:

今天我用一个案例,给大家拆解数据新闻的生产过程。

  • 什么是可视化?

讲数据新闻离开不可视化,可视化是数据新闻的基础。什么是可视化?我们把可视化分为三个领域,第一个叫科学可视化,第二个叫信息可视化,第三个叫可视分析。

科学可视化主要用于处理科学数据,如地理信息、医疗数据等,以自然科学领域为主。我们日常接触到的地图、气象图、CT等都属于典型的科学可视化。

信息可视化主要用于处理抽象的、非结构化、非几何的抽象数据,如金融交易、社交网络和文本数据。传统的信息可视化起源于统计图形学,又与信息图形、视觉设计等现代技术相关。我们在路上看到的交通标志都属于信息可视化。

第三类叫可视分析。北大的袁晓如老师一直强调我们不应该叫可视化分析,应该叫可视分析。可视分析用可视化的方式来帮助分析数据,以找到我们平常不容易发现的内容。平常我们接触最多的可视分析可能是是最近大家又爱又恨的那个东西(上半年主要是爱,下半年主要是恨)——K线图,将最高价、最低价、开盘价收盘都合并到一个曲线里,非常的方便,特别典型的可视分析。

可视化的好处是直观。炒股的朋友,如果早上一打开炒股软件或网页,满眼都是红的,顿时精神愉快容光焕发,能开心一整天;万一看到满眼绿色,立刻整个人都不好了。这个效果特别明显,都不需要看具体的数字,有点颜色刺激就行。所以有个炒股软件提供了一个功能,叫红绿对调,逢股灾的日子把这个功能打开,整个屏幕刷的一下就变红了,虽然明知道是假的,可心情还是好很多。这也是可视化的功劳。

科学可视化,信息可视化和可视分析,这三个都称为可视化,把可视化和精确新闻报道结合在一起,就成了数据新闻。

讲到这里不能不提精确新闻报道。精确新闻报道产生于二十世纪六七十年代,提出者认为传统新闻报道向艺术的方向发展,追求讲故事,追求文字优美动人,但还可以有另外一个发展方向,就是科学的方向,追求精确的分析和表达,这个方向就是精确新闻报道。所谓精确新闻报道,是将社会科学的研究方法,比如抽样调查、实验和内容分析等引入到新闻报道中。所以它更像一篇论文或调查报告。现在看到的财经报道,很多都可以被归入精确新闻报道。但精确新闻报道往往充斥了大量的数字,不容易理解和记忆,这种情况下可视化发挥了重要的作用,它可以帮助作者和读者从数据中挖掘出隐藏的真相,还可以帮助读者理解文章的内容。将可视化和精确新闻报道相结合,就成了数据新闻。

数据新闻可以用静态的图表来表现,也可以用代码来实现。前者也称为信息图,后者可以叫互动图表。今天我所讲的数据新闻,主要指互动图表。

  • 数据新闻团队怎么构建?

做数据新闻需要图中这些角色:数据分析师、记者编辑、美术设计师、程序员。这里头记者编辑必不可少,负责内容的组织;美术设计师会考虑这些数据用什么样的图形去表现更好看;程序员要把这个图形用代码把它实现出来;还有数据分析师,负责数据的分析。在实际操作中,往往一个人会身兼多个角色,所以一个项目有可能由三四个人以上完成,也可以由一两个人完成,只要参与者具备相应的能力。

财新数据可视化实验室有十几个成员,大家组成不同的项目组,完成不同的数据新闻,这是我们的工作方式。

  • 一个案例告诉你数据新闻生产的7个步骤

第一步——找选题

一个好的选题会决定这个数据新闻的受欢迎程度。我们实验室成立于2013年10月8日,成立两三个月之后我们就碰到一个非常好的选题,是什么呢?就是周老虎的案件。这是几十年一遇的好选题。

第二步——找角度

一个选题可以从不同的角度去表现,当时关于这个选题,财新组织了6万字的调查报道,从里面可以找出丰富的素材。在这个报道里头什么角度最引人关注,什么素材最适合做数据新闻,我们花了不少时间讨论。

仔细阅读文章后,我发现其中有一个内容特别有意思——这起案件涉及了几十个被调查的人,有他的亲属、亲家、下属,甚至下属的下属,调查了几十个人。我想如果能把这几十个人的关系讲清楚是很好的一个题材。第二部分是关于公司,里头讲了一百多家公司,都是周氏家族直接间接持有的公司,通过这些公司赚钱。这些公司有的并不直接在周氏家族成员名下,有些公司已经被转让了。能不能把这些公司讲清楚,也是很有意思的事情。于是我决定用这个角度,从人和公司的角度,来做这个数据新闻。

第三步——数据搜集整理和清洗

当我们完成前两个步骤就需要启动第三步:数据收搜集整理和清洗。前两步可以认为是策划阶段,以口头讨论为主,如果觉得不合适可以推倒重来,成本损失不大。从第三步进行实操环节,会有较大的工作量。把这些数据从报道里抽出来之后,按照我们设计的格式把它变成了图中这个数据库的样子。

为什么要整理成有规律的数据?这是为了后面写代码的时候便于数据提取。除了把数据按各个字段分开,还要将错误的数字剔除,再整理成统一的格式,这个过程称为数据清洗。

第四步——数据分析

这一步首先要分析这些数据的特征。从前面这张数据库的图可以看出:数据基本都是定性分析,主要讲的是人跟人之间的关系,以及人跟公司、公司与公司之间的关系。分析这些数据之后,会发现核心两个关键点:一个叫人,一个叫公司。关系有三种,一是人跟人之间的关系,第二个是人跟公司之间的关系,第三个是公司跟公司之间的关系。

首先看人跟人之间的关系,可以归纳为三种关系:血缘关系、利益关系和工作关系;人跟公司之间或公司跟公司之间的关系,也可以归纳为三种:第一种是现股东,目前持有这家公司的股份;第二种是前股东,以前是公司的股东,现在把公司转让了;第三种叫获取收益,以前、现在都不是公司的股东,只是从这个公司赚钱。

然后,再把这些关系分别合并为几种类型。

人跟人的关系合并为三种类型,第一种叫直系亲属,第二种叫上下级,第三种是老板和秘书。直系亲属关系没有方向性,关系是相互的。上下级和老板秘书这个反系,则有明显的方向性,得讲清楚谁是谁的下级,谁是谁的秘书。

人与公司或公司与公司之间的关系,可以合并成两种:第一种是持股,第二种叫转让或者收益。这样数据就简单了,变成对这些关系做定性分析。

第五步——要选择合适的图形

做数据新闻我最喜欢这个环节。你必须找出最合适的图形来表现前面那一堆数据,没有标准答案,只有最佳答案,可以不断地改进,让图形更简洁、更优美、更准确,就像解智力题。

我们先看一下图形的分类,数据新闻中常用的图形大致有两类。

当我们对数据做定量分析的时候,通常使用基于坐标绘制的图形。例如折线图和散点图,基于直线坐标画出;例如饼图,基于极坐标画出。

如果对数据做定性分析,你会发现通常你画的图不需要基于坐标。下周第一个叫流程图,第二个叫树性图。这些跟坐标都没关系,主要是靠点、线、和箭头来表现。你可以根据需要对图形做扭屈和变形,只要元素相互关系不变,一般不会影响内容的表达。

具体到这个案例,我们主要做的是定性分析,基本上不需要基于坐标轴的图形。

我举一个简化的例子。我们看一下左边这个图形,如果我用一个点来表现一个人,用一根点和点的连线来表现人与人的关系,人际关系基本上可以表现为一些相互连接的点和线。假如把六个点平均的分布在一个圆周上,形成六角形的六个顶点,大致会看到左边的样子,这是很常见的情况。

右边的图形用来表现公司。用一个点表现一间公司,用线把母公司和子公司连起来。图中上方第一排是一间母公司,第二排是三间子公司,其中第二间子公司有两家孙公司,并且第二间孙公司是两家子公司合资成立的。这个是表现公司关系常见的图形。

如果我还要表现人跟公司之间的关系,把公司的股东跟他持有的公司再一连,这图形就变得复杂了,看了不太好理解。怎么办?我们反复推敲很多的方案,用什么样的图形表现最合适呢?

最后我们讨论出一个图形。我们把点平均分布到一条直线上,把联线变成弧线,这样整个图形看起来显得很美观、整齐、有规律。左边将有关系的人用弧线连起来。右边将持股的公司用弧线连起来。实际做的时候还会在一些弧线上添加运动的小点表示它的方向。

我们还做了一件很重要的事,就是反复调整点的前后位置,以便弧线的交叉最少。在这个图中,基本上左边的图形也好,右边的图形也好,把弧线的交叉全部清除了。

第六步——丰富图形的内涵

到第五步已经确定了基本的图形,第六步要丰富这个图形的内涵。

我们来看一下这个图。前面已经说了,我们把人与人的关系总结为三种,我们可以把弧线用三种颜色来表现;人与公司的关系总结为两种,可以把弧线用两种颜色来表现。这样只要一看弧线的颜色,就能理解是什么关系的含义。

然后再怎么做?我把代表人的这一行放在上方,把代表公司的这一行放在下方,把人和公司之间的连线用直线从上到下连接起来,这样就整个图形就形成了。

第七步——代码呈现图形

图形设计好了,接下来怎么用代码来呈现呢?在座有很多朋友做数据新闻相关的工作,或者在公司和学校里希望做可视化的东西,但遇到很大的困难。前面我都会了,后面怎么办呢?两个办法:第一是自己学写代码,自力更生,丰衣足食;第二个办法找能写代码的人合作。我们这个作品是通过合作完成的。

刚才演示的那个图形要比作品要简洁很多,但这个复杂的图形,就是我跟大家描述的思路一步一步做出来的,所有的事情都有章可循,有规律可找。

这样一个作品,真正要实现的时候,还有很多需要考虑和丰富的地方。例如:你怎么引导用户视线?能不能让用户不要眼花缭乱?能不能让他知道应该先看什么后看什么?能不能把它不关注的内容隐藏掉?当他关注某项特定内容的时候,能不能给他展现更多的数据?

这个作品最终在一个屏幕的空间呈现了三万字的信息。

原文发布时间为:2015-09-18

时间: 2024-08-26 20:53:23

黄志敏:数据新闻制作7步法,一张图抵3万字的相关文章

[转载] 黄志敏:一条数据新闻是如何用7步生产出来的?

PS:文章主要转载自36大数据的文章:           http://www.36dsj.com/archives/33280      最近同学找工作,在百度搜索引擎面试时就被问到"一条新闻是如何被发现的呢?"我能想到就是实时性,某段时间内突然关注的词汇可能是新闻,再或则是通过模板打分判断.      下面这篇文章就详细讲述了一条数据新闻是如何产生的?遗憾的是没有论述如何探索一条信息是有价值的新闻.但同样希望对你有所帮助,尤其是从事搜索引擎.信息挖掘相关的专业或面试的同学. 9月

对话黄志敏|探索数据领域的新可能 文科生如何做编程和统计?

◆ ◆ ◆ 导读 "数据新闻"这个词,对大家来说并不陌生,国内数据新闻始于国外精确新闻的传入,发端于2009年.2012年前后,国内门户网站才开始纷纷进行数据新闻的初步实践. "2012年网易新闻中心成立了数读栏目,在数据的运用.视觉设计及数据展示等方面开始了探索."这位数据新闻的开拓者有感于现在良好的发展势头,"目前,我国数据新闻的发展仍处于起步阶段,但是声势比较大.除了财新,还有澎湃.腾讯.人民.新华.网易和搜狐等都在做数据新闻,团队较多:另外,已经有

黄志忠亮相云南跨年晚会现场朗诵公益迎新(图)

黄志忠在台上朗诵 新浪娱乐讯 2010年12月31日晚,演员黄志忠应邀出席地球之声--云南卫视大型跨年公益晚会.切合当晚的晚会主题--"给地球一个承诺,做绿色生态公民",黄志忠现场为观众奉上了一首朗诵词,以此恭贺新年. 黄志忠此次参加跨年晚会,是特意从片场赶来,节目结束之后又连夜赶回剧组,2011年新年第一天,仍在继续拍摄工作的黄志忠表示,参加这样的公益主题晚会,能以自身倡导大家多做公益,即使再累也值得. 2010年无疑是黄志忠的收获之年,在第16届上海电视节上黄志忠一举摘得"

盘点:数据新闻的七种生产模式

全球化时代的新闻界,"数据新闻"已经不是新名词,它代表着全球新闻业在大数据时代背景下新的实践.在信息爆炸的时代,如何通过分析不断变化的数据以发现其中的相关性,并使受众及时清晰的了解哪些信息是与他们的生活息息相关的,显得尤为重要. "数据新闻"是新环境下新闻传播模式的创新.旨在把事件发生背后的趋势和意义以崭新的方式呈现给受众.其表现方式不只有文字和配图,而是在传统表达方式基础上加上多种媒体技术,运用分析和过滤,把大量数据融合到一个整体中.开放数据.共享资源是数据新闻的

句话让你了解数据新闻!

1.数据新闻虽然引领潮流,但它并不是新事物 有数据的地方就有数据新闻.早在1858年,弗洛伦斯·南丁格尔①就用图表的形式写了一篇关于英国士兵健康状况的报告:在更早之前的1821年,<卫报>创刊号上就有一张占据了大半个版面的表格,罗列了曼彻斯特每所学校的收费标准和学生人数.这些与我们今天所做的数据新闻难道有很大不同吗?以前,数据刊印在昂贵的书本中,被当成一幅幅美丽的插图,几无他用:而现在,数据能以电子表格和各种电子格式的文件储存,这就赋予了它无限的价值,可以让电脑通过数据分析来发现问题.找出故事

天图资本汤志敏:服务业已到3.0版 需品类先位及结合大数据

http://www.aliyun.com/zixun/aggregation/33721.html">2014年6月27日,由宁波市人民政府主办,清科集团.宁波市金融办.宁波国家高新区管委会承办的2014中国股权投资论坛@宁波在宁波洲际酒店举行. 以下是天图资本汤志敏的发言: 天图消费品其中就包括消费,比如说有一些医院或者是第三方体检等等都有.我们认为服务业的发展,已经发展到3.0版本了.刚开始是传统的服务业,单店的形式.后来发展到2.0版本就是连锁的形式,连锁的形式主要的标志,这块是基

大数据新闻生产的实践与反思

如今,人们所掌握的数据量相比从前来说已经是天文数字,无论是巨大的数据采集量,还是新闻报道文字为主的表达形式,抑或个性化生产的可能性,大数据新闻都从根本上改变了新闻生产的思路与流程.①大数据思维和方式正全面介入从内容采集到制作.分发的新闻生产全过程. 一.新闻内容采集 1.选题价值的精准判断 传统的新闻选题主要是头脑风暴和任务分派的结果,而将大数据引入选题决策环节则使其更为客观.更有效率,真正让用户参与到新闻生产流程中.过去受众反馈渠道有限,受众分析也是以传统的抽样调查为主,样本量有限,而且获得数

数据新闻周报:资本活跃,“数据美国”在线大数据可视化工具上线

行业趋势 近日,麻省理工学院推出了一款名为"数据美国"的在线大数据可视化工具,可以实时分析展示美国政府公开数据库.用户只需要输入任意美国地名,就可以检索到反映当地人口统计数据的可视化图表,包括平均家庭收入.房价等.该工具不但对求学.就业.生活.旅游.购物具有极高的参考价值,而且这些社会学大数据经过各种不同的可视化图表展示,可以生成大量"数据新闻",揭示超出人们经验范围的数据.同时,"数据美国"也是政务公开大数据造福社会的一个活生生的应用案例.该项

大数据时代的数据新闻:源于数据但高于数据

数据新闻报道是互联网发展背景下催生的新型报道,可视化表达是数据新闻的一种重要表现方式.数据新闻不仅仅是指在新闻实践中直接引入数据分析技术和可视化设计,其更核心内容是数据背后的新闻叙事. 为了将抽象数据具体而直观地展现出来,从而通过数据表达其背后的概念和内涵,可视化是数据新闻叙事的一种主要的表达手段. 类型 7种视觉叙事分类交融 美国学者爱德华·西格和杰弗里·希尔曾在相关研究中把数据新闻的视觉叙事类型做出如下分类:杂志式.图表式.分栏图式.流程图式.连环画式.幻灯片式及视频式.这7种分类并不相互排