《数据整理实践指南》一第1章 从头说起:什么是噪音数据

第1章 从头说起:什么是噪音数据

数据整理实践指南
我们都口口声声说喜欢数据,实际上并非真的喜欢。

我们喜欢的只是洞察数据,这和喜欢数据本身并不一样。

实际上,很多人和我一样,甚至可以说并不关心数据本身。

什么是噪音数据(Bad Data)呢?很难给它下个准确的定义。有些人认为它纯粹属于经验上的、技术方面的问题:缺失值、记录格式不对或者是蹩脚的文件格式。当然,这些都属于噪音数据,但是实际上噪音数据涵盖的范围要比这广得多。噪音数据还包含那些浪费你的时间、导致你不得不在公司加班以及那些让你崩溃欲哭无泪的数据。那些你无法访问的、曾经拥有又丢失的以及发生了变更的数据,可能都属于噪音数据。

简而言之,噪音数据是那些“给你惹麻烦的数据”。有很多种情况都会产生噪音数据,比如蹩脚的存储、糟糕的说明,甚至是让人误解的策略。如果你从事数据科学这方面时间足够长,必定会遇到很多不同的噪音数据。

因此,我们想要编一本《数据整理实践指南》,一本关于“烦人的数据”大典。在本书中,19位来自不同领域的数据专家和我们分享关于噪音数据的故事,以及他们是如何从中走出来的痛苦经历。

下面是他们的故事。

Grubby的动手实践指南
通常不能假设一个新的数据集是干净的并且已经可以分析了。在第2章“是我的问题还是数据的问题”探讨了尝试驾驭数据的一些技术。

在电子表格中还有很多数据难以使用,电子表格格式过于纷繁复杂,对数据分析很不方便。在第3章“数据是给人看的不是给机器看的”中,Paul Murrel展示了一些提取数据的方法。

如果你和文本数据打交道,迟早会因为文字编码而“屡受重创”。在第4章“纯文本中潜在的噪音数据”阐述了存在哪些问题以及如何解决。

总而言之,在第5章“重组Web数据”帮你分析了在Web开发中会碰到的种种“坑”。

数据——让人充满意外
人们在网上评论时不会说真话,Jacob Perkins发现人们的撒谎方式很奇怪。在第6章“检测撒谎者以及相互矛盾网上评论的困惑”中揭示了Jacob的自然语言处理时如何揭露这股新的“撒谎力量”。

即使数据中的一切都会出错,我们还可以依赖唯一标志符吗?在第9章“当数据和现实不匹配”中,Spencer Burns分享了其在金融市场的经历,解释了为什么唯一标识符也不靠谱。

方法
目前工业界依然在努力准确定义“数据科学家”,但我们都知道写代码是其中的一部分。第8章“血、汗和尿”从软件开发者角度给出了一些充满智慧的建议。

第7章,Philipp K. Janert在“请噪音数据站出来”中分享了是否有真正的噪音数据。

你的数据可能有问题,而你却还蒙在鼓里。正如Jonathan A. Schwabish在第10章“偏差和误差的来源”中所述,收集数据的方法决定了数据会带给你什么样的麻烦。

在第11章“不要把完美和正确对立起来:噪音数据真是噪音吗”中,Brett J. Goldstein的一些回顾阐释了噪音数据如何给传统的统计训练带来实际的挑战。

数据存储和基础设施
如何存储数据对你如何分析数据影响至关重大。在第13章“卧库表,隐网络”中,Bobby Norton解释了如何查看关系数据库中的图形数据结构。

云计算的可扩展性和弹性使得它成为大规模数据分析的理想选择,在第14章“云计算神话”中,Steve Francia详细解释了其中一些概念和理念,以便你快速入门。

我们探讨关系数据库以及NoSQL、Mongo和Couch、某两个基于Hadoop的存储之间的区别。在第12章“数据库攻击:什么时候使用文件?”提供了另一种存储选择的探讨。

数据的商业化
有时聘请一名全职的数据科学家并不合适,或者需要一项你所不知道的技能。在第16章“如何雇佣机器学习专家”,Pete Warden阐述了如何把机器学习工作外包出去。

企业的官僚制度可能会成为你数据分析的障碍,使得你几乎无法分析数据。在第15章“数据科学的阴暗面”描述了应该避免的一些最差的方式。

数据策略
显然,你知道自己使用的方法,但是你真的理解这些数据图是怎么生成的吗?在第17章“数据的可追踪性”是对数据处理流程的思考。

当数据没有正确处理时会变得格外糟糕:想要的东西不存在,想要删掉的却还在那里。在第18章“社交媒体:是可以抹去的印记吗”中,Jud Valeski探讨了社交媒体的未来,并分享对不远的未来的一些思考。

在本书的最后,第19章“揭秘数据质量分析:了解数据什么时候足够优质”。第19章是第2章内容的补充,我们阐述了如何评估数据质量,以及如何构建数据质量相关平台。

时间: 2024-11-08 22:42:13

《数据整理实践指南》一第1章 从头说起:什么是噪音数据的相关文章

《数据整理实践指南》一第2章 是我的问题还是数据的问题

第2章 是我的问题还是数据的问题 数据整理实践指南 Kevin Fink 假设给你一份未知来源的数据集,如何确定数据是否有用呢? 这种情况并不少见,给了你一份数据集,却无法提供关于数据来源.如何收集.字段含义等方面的诸多信息.事实上,收到这样的数据可能再正常不过了.在很多情况下,收到的数据可能经过了很多人的处理和加工,和收集的原始数据已经差别甚大,确实也没有人知道这些数据是什么含义了.在本章中,我将一步步引导你如何理解数据.验证数据并最终把数据集转换成可用的信息.特别地,我将探讨洞察数据的特殊方

《数据整理实践指南》一导读

前 言 数据整理实践指南本书使用的体例提示 这个图标代表小窍门.建议或一般注解.警告 这个图标代表警示或警告.代码范例的使用本书是帮助你完成工作的.一般说来,你可以在没有我们许可的情况下,在程序和文件里使用本书中的代码,除非你在重复创建代码中极为重要的一部分.比如说,写一段程序要用好几段本书中的代码,不需要经过许可.而销售或发布来自O'Reilly书籍中配套的CD-ROM是需要经过许可的.通过引用本书内容和代码示例回答问题不需经过许可.但将来自本书的大量代码示例合并到你的产品文档时,必须经过许可

《Python数据科学实践指南》——第0章 发现、出发 0.1 何谓数据科学

第0章 发现.出发 最近一年里,知乎社区有不少朋友邀请我回答关于数据挖掘的问题,其中提问最多的是关于"如何改行做数据挖掘".我想他们之所以邀请我回答这类问题,不是因为我做数据挖掘做得好,而是好奇我是如何改行做数据挖掘的?说来也巧,我本科是学电子的,研究生是学控制的,而我的职业理想是成为一个"先知",但我并不知道如何才能实现这一职业理想.自公元632年人类最后一位先知默罕默德去世之后,将近1400年没人做先知了,既没有人可以指导我,也没有可以效仿的对象.2011年到2

《数据整理实践指南》一2.3 可视化

2.3 可视化 我觉得特别有帮助的另一种技术是根据字段值创建直方图.这对于大规模数据集尤其有用,而前面提到的简单的统计方式只能看到数据的表面.直方图是每个值在数据集中出现次数的统计,因此直方图还适用于非数值字段,而统计方法就不适用. 举个例子,假设有个包含推荐关键字的数据集,这些关键字是使用Google.Bing或其他搜索引擎进行搜索的词,使用户能够浏览网站的网页.一个大型网站每天可以通过搜索引擎带来数百万的PV,其中搜索关键字可能有数百万,在一段时间后可能会有数十亿的唯一关键字.对于这些关键字

《Python数据科学实践指南》——第1章 Python介绍 1.1 Python的版本之争

第1章 Python介绍 本书主要介绍数据科学所使用的工具,但因为每一种语言都有自己的生态系统,而笔者多用Python,所以本书主要会从Python的角度来介绍这些工具.阅读本书的读者,不管之前的基础如何,如果对Python这门编程语言有一定的了解,将能更好地掌握书中内容.可能有很多读者曾经在学校里学过C/C++或是VB,又或者听说过Java.PHP等这样广泛使用的编程语言,初闻Python的时候可能会对这个名字略感陌生,不过这一点并不能阻碍Python成为数据科学领域的"一等公民".

《Python数据科学实践指南》——第1章Python介绍

第1章Python介绍本书主要介绍数据科学所使用的工具,但因为每一种语言都有自己的生态系统,而笔者多用Python,所以本书主要会从Python的角度来介绍这些工具.阅读本书的读者,不管之前的基础如何,如果对Python这门编程语言有一定的了解,将能更好地掌握书中内容.可能有很多读者曾经在学校里学过C/C++或是VB,又或者听说过Java.PHP等这样广泛使用的编程语言,初闻Python的时候可能会对这个名字略感陌生,不过这一点并不能阻碍Python成为数据科学领域的"一等公民".从本

《数据整理实践指南》一2.2 校验

2.2 校验 2.2.1 字段校验 一旦数据格式已经可读且可操作,下一步是要弄清楚数据的含义.在某些情况(遗憾的是,这种情况非常罕见)下,提供了关于数据的所有信息.通过需要对数据做一些探索.有些数据第一行可能会提供一些信息,有些数据可能每个字段都有一个键值,这些取决于数据的格式.幸运的话,这些数据可能稍有些冗余信息,你可以理解,或者至少你认识的一些人可以理解.关于这方面,我常常求助于一位俄罗斯藉QA.这是工作场所多样化的另一个优势. 一个常见的错误是误解字段的单位或含义.货币字段的单位可以是美元

《Python数据科学实践指南》——第2章 Python基础知识 2.1 应当掌握的基础知识

第2章 Python基础知识 为了开启我们的数据科学之旅,本章会进行一些基础的编程训练.第1章中已经搭建好了Python的运行环境,读者应该已经能够在Python shell中执行简单的打印和四则运算了.接下来我们要完整地学习一遍构成一个Python程序的基本要素. 2.1 应当掌握的基础知识 本节会介绍一些学习Python前应当掌握的基础知识,这一部分内容在所有的编程语言学习中基本上都是类似的,Python当然也遵守这些通用的规则,熟悉这些内容的读者可以跳过这一节. 2.1.1 基础数据类型

《Python数据科学实践指南》——第2章Python基础知识

第2章Python基础知识为了开启我们的数据科学之旅,本章会进行一些基础的编程训练.第1章中已经搭建好了Python的运行环境,读者应该已经能够在Python shell中执行简单的打印和四则运算了.接下来我们要完整地学习一遍构成一个Python程序的基本要素.