第1章 从头说起:什么是噪音数据
数据整理实践指南
我们都口口声声说喜欢数据,实际上并非真的喜欢。
我们喜欢的只是洞察数据,这和喜欢数据本身并不一样。
实际上,很多人和我一样,甚至可以说并不关心数据本身。
什么是噪音数据(Bad Data)呢?很难给它下个准确的定义。有些人认为它纯粹属于经验上的、技术方面的问题:缺失值、记录格式不对或者是蹩脚的文件格式。当然,这些都属于噪音数据,但是实际上噪音数据涵盖的范围要比这广得多。噪音数据还包含那些浪费你的时间、导致你不得不在公司加班以及那些让你崩溃欲哭无泪的数据。那些你无法访问的、曾经拥有又丢失的以及发生了变更的数据,可能都属于噪音数据。
简而言之,噪音数据是那些“给你惹麻烦的数据”。有很多种情况都会产生噪音数据,比如蹩脚的存储、糟糕的说明,甚至是让人误解的策略。如果你从事数据科学这方面时间足够长,必定会遇到很多不同的噪音数据。
因此,我们想要编一本《数据整理实践指南》,一本关于“烦人的数据”大典。在本书中,19位来自不同领域的数据专家和我们分享关于噪音数据的故事,以及他们是如何从中走出来的痛苦经历。
下面是他们的故事。
Grubby的动手实践指南
通常不能假设一个新的数据集是干净的并且已经可以分析了。在第2章“是我的问题还是数据的问题”探讨了尝试驾驭数据的一些技术。
在电子表格中还有很多数据难以使用,电子表格格式过于纷繁复杂,对数据分析很不方便。在第3章“数据是给人看的不是给机器看的”中,Paul Murrel展示了一些提取数据的方法。
如果你和文本数据打交道,迟早会因为文字编码而“屡受重创”。在第4章“纯文本中潜在的噪音数据”阐述了存在哪些问题以及如何解决。
总而言之,在第5章“重组Web数据”帮你分析了在Web开发中会碰到的种种“坑”。
数据——让人充满意外
人们在网上评论时不会说真话,Jacob Perkins发现人们的撒谎方式很奇怪。在第6章“检测撒谎者以及相互矛盾网上评论的困惑”中揭示了Jacob的自然语言处理时如何揭露这股新的“撒谎力量”。
即使数据中的一切都会出错,我们还可以依赖唯一标志符吗?在第9章“当数据和现实不匹配”中,Spencer Burns分享了其在金融市场的经历,解释了为什么唯一标识符也不靠谱。
方法
目前工业界依然在努力准确定义“数据科学家”,但我们都知道写代码是其中的一部分。第8章“血、汗和尿”从软件开发者角度给出了一些充满智慧的建议。
第7章,Philipp K. Janert在“请噪音数据站出来”中分享了是否有真正的噪音数据。
你的数据可能有问题,而你却还蒙在鼓里。正如Jonathan A. Schwabish在第10章“偏差和误差的来源”中所述,收集数据的方法决定了数据会带给你什么样的麻烦。
在第11章“不要把完美和正确对立起来:噪音数据真是噪音吗”中,Brett J. Goldstein的一些回顾阐释了噪音数据如何给传统的统计训练带来实际的挑战。
数据存储和基础设施
如何存储数据对你如何分析数据影响至关重大。在第13章“卧库表,隐网络”中,Bobby Norton解释了如何查看关系数据库中的图形数据结构。
云计算的可扩展性和弹性使得它成为大规模数据分析的理想选择,在第14章“云计算神话”中,Steve Francia详细解释了其中一些概念和理念,以便你快速入门。
我们探讨关系数据库以及NoSQL、Mongo和Couch、某两个基于Hadoop的存储之间的区别。在第12章“数据库攻击:什么时候使用文件?”提供了另一种存储选择的探讨。
数据的商业化
有时聘请一名全职的数据科学家并不合适,或者需要一项你所不知道的技能。在第16章“如何雇佣机器学习专家”,Pete Warden阐述了如何把机器学习工作外包出去。
企业的官僚制度可能会成为你数据分析的障碍,使得你几乎无法分析数据。在第15章“数据科学的阴暗面”描述了应该避免的一些最差的方式。
数据策略
显然,你知道自己使用的方法,但是你真的理解这些数据图是怎么生成的吗?在第17章“数据的可追踪性”是对数据处理流程的思考。
当数据没有正确处理时会变得格外糟糕:想要的东西不存在,想要删掉的却还在那里。在第18章“社交媒体:是可以抹去的印记吗”中,Jud Valeski探讨了社交媒体的未来,并分享对不远的未来的一些思考。
在本书的最后,第19章“揭秘数据质量分析:了解数据什么时候足够优质”。第19章是第2章内容的补充,我们阐述了如何评估数据质量,以及如何构建数据质量相关平台。