《数据科学家修炼之道》一2.4 要点

2.4 要点

  • 数据科学的历史比人们通常想象得要悠久,然而,直到上一个10年(2000~2010年)才得以落地。
  • Drew Conway在2010年9月创作的著名的韦恩图,有效地总结了数据科学的本质。
  • 数据科学带来了许多新规则,它们改变了我们传统处理数据的方式,主要有如下几个。
    • MapReduce。
    • Hadoop分布式文件系统(HDFS)。
    • 高级文本分析。
    • 大规模数据编程语言(如Pig、R、ECL等等)。
    • 替代性数据库结构(如HBase、Cassandra、MongoDB等等)。
  • 数据科学的规则转变了我们处理数据的手段,而这对我们的生活产生了巨大的影响。正如它带来对处理大数据有至关重要价值的新思维一样。
  • 数据科学的提升带来的新思维,同样带来了数据科学家的职业生活和他与人相处的新变化。
时间: 2024-09-14 02:15:48

《数据科学家修炼之道》一2.4 要点的相关文章

《数据科学家修炼之道》一第1章 数据科学与大数据

第1章 数据科学与大数据 数据科学家修炼之道我们今天面临着诸多来自大数据和其他数据分析带来的困难,而数据科学正是对这些挑战的回应.在介绍中,我们简要剖析了一下大数据,但那仅仅是"冰山的一角".事实上,围绕着大数据,能说的太多了,单凭这一章仍无法得其全貌.但是,你能够通过本章认识到大数据在今时今日的重要性.更重要的是,这一章能让你拨开大数据的迷雾(过去几年里日益弥散的炒作),让你明白数据科学的重要性. 大数据是当今商业的基础资产.大数据以及大数据相关的技术能够得到这么广泛地利用绝不是巧合

《数据科学家修炼之道》一第2章 数据科学的重要性

第2章 数据科学的重要性 数据科学家修炼之道在上一章中,我们对数据科学的来历和它与大数据的关系有一个粗浅的了解.我们同样介绍了这个领域的重要里程碑以及为什么这些年它会变得这么流行.然而,这仅仅是轻轻地掠过了表面,因为数据科学仍有很多的内容等待我们揭开.为了能更好地理解数据科学,我们即将翻开历史,检视它所包含的新规则,以及它所带来的新思维,同样,还有它所带来的新变化.

《数据科学家修炼之道》一2.1 数据科学领域的历史

2.1 数据科学领域的历史 "数据科学"这一术语的流行要早于"大数据"的出现(就像"数据"一词要早于"计算机(computer)"400年出现).1962年,当John W. Tukey[1]写了<数据分析的未来>(The Future of Data Analysis)[2],他预见了数据分析的新方法的崛起相比于方法论来说更像是一门科学.1974年,Peter Naur在瑞典和美国出版了<计算机方法的简明调

《数据科学家修炼之道》一2.3 新思维与随之而来的变化

2.3 新思维与随之而来的变化 到现在为止,你大概能认识到数据科学不仅仅是一些聪明的工具.方法论和运用方法了.这是一种对数据的全新的整体认知.很自然地,这种规则转变带来了人们在处理相关项目时的方式,如何参与亟待解决的问题,以及如何以从业者的身份使自己成长. 数据科学需要我们更系统地思考,将对问题的创见性方法与实际情况结合在一起.这就好像是以一个优秀的建筑师一样的思维方式,将艺术的角度(通过设计)与工程本身,以及时间的管理一起结合起来.规划对于使用大数据来说是至关重要的,尽管是同一件任务,但不同的

《数据科学家修炼之道》一2.2 新规则

2.2 新规则 数据科学带来了许多新规则的繁荣,这些新规则由一些很棒的工具组成,主要有如下几种. MapReduce是一个并行.分布式的算法,用来把负责的任务分割成一系列简化的任务,之后用一种非常有效率的手段解决它们,基于此可以增加处理复杂任务的性能以及降低计算资源的成本.尽管这个算法之前就存在,但它在数据科学中的广泛应用仍增加了它的知名度. Hadoop分布式文件系统(HDFS)是一个旨在充分利用并行计算技术的开源平台,它基本上是通过把大数据分拆成小块然后分发给在网络上计算机来实现管理. 高级

《数据科学家修炼之道》一1.2 大数据产业

1.2 大数据产业 很自然地,并不是所有的行业都会被大数据运动施以相同的影响.基于这些公司在多大程度上依赖他们的数据以及数据会给予他们多大程度上的回报,他们可能视大数据为一座金矿,或者一项可有可无的投资.根据最近的统计,下面一些行业已经从中受益,或资产中的大部分即将受益于大数据: 零售业(特别是在提高生产力方面) 电信业(特别是在提高收益方面) 咨询业 医疗护理 航空运输 建筑业 食品加工 钢铁以及广义上的制造业 工业设备 汽车产业 客户关怀 金融服务 出版业 物流行业 注意,收益并不总是直接与

《数据科学家修炼之道》一1.3 数据科学的诞生

1.3 数据科学的诞生 数据科学领域起源于揭示大数据中潜在的价值,以及克服之前提及的4个V的挑战.这在过去是可以通过组合先进的现代计算设备达到的.特别地,并行计算.复杂数据分析流程(主要是通过机器学习)以及低成本的强劲计算能力使这种需求变成可能.此外,在不远的将来,不断加快的IT基础架构以及技术进步将使我们可以产生.收集以及处理更多的数据.通过这些,数据科学可以凭借智能化应用以及发展和使用这些技术的创新能力在技术层面上处理大数据难题.这也就是说,大数据在一定程度上是可以被管理并至少能够提供一些有

《数据科学家修炼之道》一1.4 要点

1.4 要点 大数据是一个最近发生的现象,具有大规模的数据.快速移动.各种各样的从结构化到非结构化的数据结构(以及在两者中间的其他结构),以及各不相同的可靠性的特点.这常常被引用为大数据的4个V的维度:体量.高速.多样以及精确性. 由于这4个V的维度,处理大数据是一个极具挑战性的难题.数据科学是我们对于大数据挑战的应对之法. 数据科学家是那些将数据整理出规则的人.通过利用最新的技术和原理,他们可以从中导出可操作的信息,通常是推出一个数据产品. 大数据在各行各业都会产生:利用它们可以在包括提速生产

《数据科学家修炼之道》一1.1 深挖大数据

1.1 深挖大数据 大数据含有与我们身边的业务难题息息相关的丰富信息.举例来说,如果你是一个电商公司的经理,你就可以在你公司网站上收集到关于你客户和访客的丰富信息,若能对此善加利用,你就能够增加公司的销售额.提升网站设计并改善客户服务,它还能为你提供市场策略和提升公司的整体策略的建议.这些都是由居住在你的服务器中的0和1实现的.你只需要从你的资源中分出一小部分,并从这些数据中间提炼出信息.这当然不是一桩赔本买卖,我们稍后会再回到这个例子.尽管有些网络数据披着大数据的外衣,但并不是每一种数据融合都