数据科学中的“数据智慧”

在大数据时代,学术界和工业界的大量研究都是关于如何以一种可扩展和高效率的方式对数据进行储存、交换和计算(通过统计方法和算法)。这些研究非常重要。然而,只有对数据智慧(data wisdom)也给予同等程度的重视,大数据(或者小数据)才能转化为真正有用的知识和可被采纳的信息。换言之,我们要充分认识到,只有拥有足够数量的数据,才有可能对复杂度较高的问题给出较可靠的答案。“数据智慧”对于我们从数据中提取有效信息和确保没有误用或夸大原始数据是至关重要的。

“数据智慧”一词是我对应用统计学核心部分的重新定义。这些核心部分在伟大的统计学家(或者说是数据科学家)约翰·图基(John W. Tukey)的文章1和乔治·伯克斯(Geogre Box) 的文章2中都有详细介绍。

将统计学核心部分重新命名为“数据智慧”非常必要,因为它比“应用统计学”这个术语能起到更好的概括作用。对于这一点,最好让统计学领域之外的人也能了解到。因为这样一个有信息量的名称可以使人们意识到应用统计作为数据科学一部分的重要性。

依据维基百科对“智慧”词条进行解释的第一句话,我想说:“数据智慧”是将领域知识、数学和方法论与经验、理解、常识、洞察力以及良好的判断力相结合,思辨性地理解数据并依据数据做决策的一种能力。

“数据智慧”是数学、自然科学和人文主义三方面能力的融合,是科学和艺术的结合。如果没有实践经验者的指导,仅通过读书很难学习到“数据智慧”。学习它的最好方法就是和拥有它的人一起共事。当然,我们也可以通过问答的方式来帮助你形成和培养“数据智慧”能力。我这里有10个基本问题,我鼓励人们在开始从事数据分析项目或者在项目进行过程中要经常问问自己这些问题。这些问题是按照一定顺序排列的,但是在不断重复的数据分析过程中,这个顺序完全可以被打乱。

这些问题也许无法详尽、彻底地解释“数据智慧”,但是它们体现了“数据智慧”的一些特点。

1.要回答的问题

数据科学问题最初往往来自统计学或者数据科学以外的学科。例如,神经科学中的一个问题:大脑是如何工作的?或银行业中的一个问题:该对哪组顾客推广新服务?要解决这些问题,统计学家必须要与这些领域的专家进行合作。这些专家会提供有助于解决问题的领域知识、早期的研究成果、更广阔的视角,甚至可能对该问题进行重新定义。而与这些专家(他们往往很忙)建立联系需要很强的人际交流技巧。

与领域专家的交流对于数据科学项目的成功是必不可少的。在数据来源充足的情况下,经常发生的事情是在收集数据前还没有精确定义要回答的问题。我们发现自己处在图基所说的“探索性数据分析(Exploratory Data Analysis, EDA)”的游戏中。我们寻找需要回答的问题,然后不断地重复统计调查过程(就像乔治·伯克斯的文章中所述)。由于误差的存在,我们谨慎地避免对数据中出现的模式进行过度拟合。例如,当同一份数据既被用于对问题进行建模又被用于对问题进行验证时,就会发生过度拟合。避免过度拟合的黄金准则就是将数据进行分割,在分割时考虑到数据潜在的结构(如相关性、聚类性、异质性),使分割后的每部分数据都能代表原始数据。其中一部分用来探索问题,而另一部分通过预测或者建模来回答问题。

2.数据收集

什么样的数据与第1条中要回答的问题最相关?

实验设计(统计学的一个分支)和主动学习(机器学习的一个分支)中的方法有助于解决这个问题。即使在数据收集好了以后考虑这个问题也是很有必要的。因为对理想的数据收集机制的理解可以暴露出实际数据收集过程的缺陷,能够指导下一步分析的方向。

下面的问题会对提问有所帮助:数据是如何收集的?在哪些地点?在什么时间段?谁收集的?用什么设备收集的?中途更换过操作人员和设备吗?总之,试着想象自己在数据收集现场。

3.数据含义

数据中的某个数值代表什么含义?它测量了什么?它是否测量了需要测量的?哪些环节可能会出差错?在哪些统计假设下可以认为数据收集没有问题?(对数据收集过程的详细了解在这里会很有帮助。)

4.相关性


收集来的数据能够完全或部分回答要研究的问题吗?如果不能,还需要收集其他什么数据?第2条中提到的要点在此处同样适用。

5.问题转化


如何将第1条中的问题转化成一个与数据相关的统计问题,使之能够很好地回答原始问题呢?有多种转换方式吗?比如,我们可以把问题转换成一个与统计模型有关的预测问题或者统计推断问题吗?在选择模型前,请列出与回答实质性问题相关的每一种转化方式的优点和缺点。

6.可比性


各数据单元是否是可比的,或经过标准化处理后可视为可交换的?苹果和橘子是否被组合在一起了?数据单元是否是相互独立的?两列数据是不是同一个变量的副本?

7.可视化


观察数据(或其子集),制作一维或二维图表,并检验这些数据的统计量。询问数据范围是什么?数据正常吗?是否有缺失值?使用多种颜色和动态图来标明这些问题。是否有意料之外的情况?值得注意的是,我们大脑皮层的30%是用来处理图像的,所以可视化方法在挖掘数据模式和特殊情况时非常有效。在通常情况下,为了找到大数据的模式,在某些模型建立之后使用可视化方法最有用,比如计算残差并进行可视化展示。

8. 随机性


统计推断的概念(比如p值和置信区间)都依赖于随机性。数据中的随机性是什么含义呢?我们要使统计模型的随机性尽可能地明确。哪些领域知识支持统计模型中的随机性描述?一个表现统计模型中随机性的最好例子是因果关系分析中内曼-鲁宾(Neyman-Rubin)的随机分组原理(在AB检验中也会使用)。

9.稳定性


你会使用哪些现有的方法?不同的方法会得出同一个定性的结论吗?举个例子,如果数据单元是可交换的,可以通过添加噪声或二次抽样对数据进行随机扰动(一般来说,应确定二次抽样样本遵守原样本的底层结构,如相关性、聚类特性和异质性,这样二次抽样样本能较好地代表原始数据),这样做得出的结论依然成立吗?我们只相信那些能通过稳定性检验的方法,稳定性检验简单易行,能够抗过度拟合和过多假阳性发现,具有可重复性(要了解关于稳定性重要程度的更多信息,请参看文章“Stability”(http://projecteuclid.org/euclid.bj/1377612862))。

可重复性研究最近在学术界引起了很多关注(请参照《自然》(Nature)特刊(http://www.nature.com/news/reproducibility-1.17552))。《科学》(Science)的主编玛西亚·麦克纳特(Marcia McNutt)指出“实验再现是科学家用以增加结论信度的一种重要方法”。同样,商业和政府实体也应该要求从数据分析中得出的结论在用新的同质数据检验时是可重复的。

10.结果验证


如何知道数据分析做得是不是好呢?衡量标准是什么?可以考虑用其他类型的数据或者先验知识来验证,不过可能需要收集新的数据。

在数据分析时还有许多其他问题要考虑,但我希望上面的这些问题能使你对如何获取“数据智慧”产生一点感觉。作为一个统计学家,这些问题的答案需要在统计学之外获得。要找到可靠的答案,有效的信息源包括“死的”(如科学文献、报告、书籍)和“活的”(如人)。出色的人际交流技能使寻找正确信息源的过程简单许多,即使是在寻求“死的”信息源的过程中也是这样。因此,为了获取充足的有用信息,人际交流技能变得更加重要,因为在我的经验中,知识渊博的人通常是你最好的指路人。

原文发布时间为:2016-01-21

时间: 2024-11-10 10:26:56

数据科学中的“数据智慧”的相关文章

《Python数据科学指南》——第1章 Python在数据科学中的应用 1.1 简介

第1章 Python在数据科学中的应用 在这一章里,我们将探讨以下主题. 使用字典对象 使用字典的字典 使用元组 使用集合 写一个列表 从另一个列表创建列表--列表推导 使用迭代器 生成一个迭代器和生成器 使用可迭代对象 将函数作为变量传递 在函数中嵌入函数 将函数作为参数传递 返回一个函数 使用装饰器改变函数行为 使用lambda创造匿名函数 使用映射函数 使用过滤器 使用zip和izip函数 从表格数据使用数组 对列进行预处理 列表排序 采用键排序 使用itertools 1.1 简介 Py

什么是数据科学?如何把数据变成产品?

未来属于那些知道如何把数据变成产品的企业和个人. --麦克·罗克德斯(Mike Loukides) 据哈尔·瓦里安(Hal Varian)说,统计学家是下一个性感的工作.五年前,在<什么是Web 2.0>里蒂姆•奥莱利(Tim O'Reilly)说"数据是下一个Intel Inside".但是这句话到底是什么意思?为什么我们突然间开始关注统计学和数据? 在这篇文章里,我会检视数据科学的各个方面,技术.企业和独特技能集合. 互联网上充斥着"数据驱动的应用"

详谈数据科学与大数据技术专业

从IT时代进入DT时代,高校在大数据方向上设置了哪些专业,具体学什么,就业怎么样,作为新兴专业,考生如何报考? 具体内容: 专业名称:数据科学与大数据技术; 人才培养目标:以大数据为核心研究对象,利用大数据的方法解决具体行业应用问题. 学制:四年;学位:工学或理学学位. 目前已有35所高校申报了大数据专业: 第一批(3所):北京大学.对外经济贸易大学.中南大学; 第二批(32所):中国人民大学.复旦大学.北京邮电大学.华东师范大学.电子科技大学.北京信息科技大学.中北大学.长春理工大学.上海工程

企业的数据科学团队如何挖掘数据价值

单纯地雇用数据科学家并不意味着企业能够充分利用数据科学带来的优势.来看看以下几家企业如何通过数据科学团队让数据价值最大化. 数据科学看上去是一项很"高大上"的工作,企业正在利用数据科学提取巨大的运营价值. 福特汽车公司全球分析总监Alan Jacobson在Gartner数据分析峰会上表示,数据科学的重点为公司带来了巨大的收益. 从2015年开始,该公司聘请了一位首席数据科学官,并从业务部门中抽取了大约200位数据分析师,形成了一个集中的数据科学团队.如今,该团队在每一个业务领域都发挥

上海多所高校均新设“数据科学与大数据技术”专业

教育部日前下发关于公布2016年度普通高等学校本科专业备案和审批结果的通知.在上海高校中,包括复旦.上海交大.华师大.上外在内,共有57个新专业获备案或审批.记者发现,多所高校均新增"数据科学与大数据技术"专业. 据悉,按照<普通高等学校本科专业设置管理规定>,教育部开展了2016年度普通高等学校本科专业设置工作,经申报.公示.审核等程序,对各地各高校正式申请备案的专业予以备案.同时,根据教育部学科发展与专业设置专家委员会评议结果,以及在征求有关行业部门意见后,确定了审批同

《数据科学家修炼之道》一第1章 数据科学与大数据

第1章 数据科学与大数据 数据科学家修炼之道我们今天面临着诸多来自大数据和其他数据分析带来的困难,而数据科学正是对这些挑战的回应.在介绍中,我们简要剖析了一下大数据,但那仅仅是"冰山的一角".事实上,围绕着大数据,能说的太多了,单凭这一章仍无法得其全貌.但是,你能够通过本章认识到大数据在今时今日的重要性.更重要的是,这一章能让你拨开大数据的迷雾(过去几年里日益弥散的炒作),让你明白数据科学的重要性. 大数据是当今商业的基础资产.大数据以及大数据相关的技术能够得到这么广泛地利用绝不是巧合

在PowerScript脚本中访问数据窗口中的数据

访问|脚本|数据 在PowerScript脚本中访问数据窗口中的数据张健姿 01-6-22 下午 03:50:25 在4.0 以 前 的 版 本, 如 果 您 想 在PowerScript 脚 本 中 访 问数 据 窗 口 中 的 数 据, 方 法 只 有 一 种, 那 就 是 使 用SetItem 和GetItem 系 列 的 函 数, 指 定 您 所 要 访 问 的 某 一 行 列 的 值, 这 一 方 法的 局 限 性 在 于 您 一 次 只 能 访 问 到 一 个 数 值. 而 在5.0

在数据窗口中检索数据

数据 在数据窗口中检索数据 我们往往需要数据窗口仅显示我们需要的数据.在数据窗口中检索数据的方法很多,常用的是设置SetFilter和使用SQL语句来实现. 1.使用SetFilter进行数据过滤 首先需要构造条件语句.如数据窗口中有一列名为xyh,我们需要检索xyh等于"叶秋枫"的数据.那么可写语句如下: string bl;bl="xyh='叶秋枫'";dw_1.setfilter(bl)//数据窗口的名为dw_1dw_1.retrieve()//重新检索数据

Excel表格中汇总多个数据表中的数据的方法

  Excel表格中汇总多个数据表中的数据的方法           1.打开需要处理的工作簿,在这个工作簿中,"11月采购表"和"12月采购表"工作表包含需要合并的数据,如图1所示."合计"工作表用于放置进行合并计算后的数据,其结构如图2所示. 图1 需要合并的两张工作表 图2 "合计"工作表的结构 2.在"合计"工作表中单击选择放置合并计算结果的单元格区域中的第一个单元格,然后在功能区"数据&