《Spark与Hadoop大数据分析》——1.2 大数据科学以及Hadoop和Spark在其中承担的角色

1.2　大数据科学以及Hadoop和Spark在其中承担的角色

数据科学的工作体现在以下这两个方面：

要从数据中提取其深层次的规律性，意味着要使用统计算法提炼出有价值的信息。数据产品则是一种软件系统，其核心功能取决于对数据的统计分析和机器学习的应用。Google AdWords或Facebook里的“你可能认识的人”就是数据产品的两个例子。

1.2.1　从数据分析到数据科学的根本性转变

从数据分析到数据科学的根本转变的根源，是对更准确的预测和创建更好的数据产品需求的不断增长。

让我们来看一个示例，其中解释了数据分析和数据科学之间的差异。

问题：某大型电信公司有多个呼叫中心，负责收集呼叫者信息并将其存储在数据库和文件系统中。该公司已经对呼叫中心数据实施数据分析，提供了以下分析结果：

现在，该电信公司希望减少客户流失，改善客户体验，提高服务质量，并通过以接近实时的方式了解客户的情况，进行交叉销售和向上销售。

解决方案：分析客户的声音。客户的声音比任何其他信息都有更深刻的含义。我们可以使用CMU Sphinx等工具将所有呼叫转换为文本，并在Hadoop平台上进行扩展。我们可以进行文本分析以从数据中获取分析结果，获得高精确度的呼叫–文本转换，创建适合该公司的模型（语言和声学），并根据业务发生变化的频度，随时重新训练模型。此外，可以利用机器学习和自然语言处理（natural language processing，NLP）技术创建用于文本分析的模型，提供以下指标，合并到数据分析的指标里：

请注意，这个用例的业务需求产生了从数据分析到实现机器学习和NLP算法的数据科学的根本转变。为了实施这个解决方案，需要使用新的工具和技术，还需要一个新的角色：数据科学家。

数据科学家具备多种技能—统计、软件编程和业务专业知识。数据科学家能够创建数据产品，并从数据中提炼出价值。让我们来看看数据科学家与其他角色有什么不同。这会有助于我们理解在数据科学和数据分析项目中有哪些角色，以及他们要承担哪些工作。

1. 数据科学家与软件工程师

数据科学家和软件工程师角色之间的区别如下：

2. 数据科学家与数据分析师

数据科学家和数据分析师角色之间的区别如下：

3. 数据科学家与业务分析师

数据科学家和业务分析师角色之间的区别如下：

1.2.2　典型数据科学项目的生命周期

让我们学习如何了解和执行典型的数据科学项目。

从图1-4中所示的典型数据科学项目的生命周期可以看出，数据科学项目的生命周期是迭代的，而如图1-3所示的数据分析项目的生命周期却不是迭代的。在对项目结果进行改善的情况下，定义问题和结果以及沟通这两个阶段没有包含在迭代中。然而，整个项目的生命周期是迭代式的，它需要在生产实施后不断地改进。

在数据预处理阶段，定义问题和结果的步骤与数据分析项目类似，如图1-3所示。所以，让我们来讨论数据科学项目所需的新步骤。

1. 假设和建模

对于具体问题，要考虑所有能够和预期结果相匹配的可行解决方案。这通常涉及关于这个问题的根本原因的假设。这样，关于业务状况的问题就会浮现出来，例如为什么客户会取消服务，为什么支持电话会显著增加，以及为什么客户会放弃购物车。

如果我们对数据有更深入的理解，根据某个假设就可以确定合适的模型。这就关系到理解数据的属性及其相互关系，并通过定义用于测试、训练和生产的数据集来构建建模所需的环境。我们可以利用机器学习算法（如逻辑回归、K均值聚类、决策树或朴素贝叶斯等）来构建合适的模型。

2. 衡量有效性

模型的执行是通过针对数据集运行确定的模型来进行的。通过利用正确的输出对结果进行核对可以衡量模型的有效性。我们可以使用测试数据验证结果，并创建像均方差（Mean Squared Error，MSE）之类衡量有效性的指标。

3. 做出改进

从衡量结果可以看到需要改进的程度有多大。要考虑你会做出哪些改变。你可以问自己以下问题：

一旦你实施了改进措施，就要对它们再次进行测试，并将它们与以前的衡量结果进行比较，以进一步改进解决方案。

4. 交流结果

针对结果的交流是数据科学项目生命周期中的重要一步。数据科学家描述数据中的发现的方式是把这些发现和业务问题关联起来。报表和仪表板是交流结果的常用工具。

1.2.3　Hadoop和Spark 承担的角色

Apache Hadoop为你提供了分布式存储和资源管理功能，而Spark为你提供了数据科学应用程序所需的内存级性能。对于数据科学项目来说，Hadoop和Spark有以下的优点：

时间： 2024-09-10 14:13:47

《Spark与Hadoop大数据分析》——1.2 大数据科学以及Hadoop和Spark在其中承担的角色的相关文章

《Spark与Hadoop大数据分析》一一1.2　大数据科学以及Hadoop和Spark在其中承担的角色

1.2 大数据科学以及Hadoop和Spark在其中承担的角色数据科学的工作体现在以下这两个方面:从数据中提取其深层次的规律性创建数据产品要从数据中提取其深层次的规律性,意味着要使用统计算法提炼出有价值的信息.数据产品则是一种软件系统,其核心功能取决于对数据的统计分析和机器学习的应用.Google AdWords或Facebook里的"你可能认识的人"就是数据产品的两个例子.1.2.1 从数据分析到数据科学的根本性转变从数据分析到数据科学的根本转变的根源,是对更准确的预测和创建更好

《Spark与Hadoop大数据分析》一一2.1　Apache Hadoop概述

2.1 Apache Hadoop概述 Apache Hadoop 是一个软件框架,可以在具有数千个节点和 PB 级数据的大型集群上进行分布式处理.Apache Hadoop 集群可以使用故障率一般较高的低价通用硬件来构建.Hadoop 的设计能够在没有用户干预的情况下优雅地处理这些故障.此外,Hadoop 采用了让计算贴近数据(move computation to the data)的方法,从而显著降低了网络流量.它的用户能够快速开发并行的应用程序,从而专注于业务逻辑,而无需承担分发数据.分

《Spark与Hadoop大数据分析》一一2.4　安装 Hadoop 和 Spark 集群

2.4 安装 Hadoop 和 Spark 集群在安装 Hadoop和Spark之前,让我们来了解一下 Hadoop和Spark的版本.在 Cloudera.Hortonworks和MapR这所有三种流行的Hadoop发行版中,Spark都是作为服务提供的.在本书编写的时候,最新的Hadoop和Spark版本分别是2.7.2和2.0.但是,Hadoop发行版里可能是一个较低版本的Spark,这是因为Hadoop和 Spark 的发行周期并不同步.对于后续章节的实践练习,我们会使用来自 Clou

《Spark大数据分析：核心概念、技术及实践》Spark Core

本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问"华章计算机"公众号查看. Spark Core Spark是大数据领域最活跃的开源项目,甚至比Hadoop还要热门.如第1章所述,它被认为是Hadoop的继任者.Spark的使用率大幅增长.很多组织正在用Spark取代Hadoop. 从概念上看,Spark类似于Hadoop,它们都用于处理大数据.它们都能用商用硬

《R与Hadoop大数据分析实战》一1.7　Hadoop的子项目

1.7 Hadoop的子项目 Mahout是一个很强大的数据挖掘库,其中包含大部分与数据挖掘有关的机器学习算法,可实现聚类.分类.回归分析及统计建模等,可用于智能应用,它也是一个不错的机器学习库. Apache Mahout是一个商用软件,需要Apache软件分发的许可证.Apache Mahout的目标是建立一个充满活力.反应灵敏.多样化的社区,以方便对项目本身以及潜在使用案例的讨论. 使用Mahout的一些公司如下: Amazon:这是一个提供个性化推荐的购物网站. AOL:这是一个有购物建

《R与Hadoop大数据分析实战》一1.4　Hadoop的安装

1.4 Hadoop的安装现在假定你已经了解了R语言,知道它是什么,如何安装它,它的主要特点是什么,以及为什么要使用它.现在,我们需要知道R的局限性(这样能更好地引入对Hadoop的介绍).在处理数据前,R需要将数据加载到随机存取存储器(RAM).因此,数据应该小于现有机器内存.对于数据比机器内存还要大的,我们将其看做大数据(由于大数据还有许多其他定义,这只适用于我们现在所说的例子). 为了避免这类大数据问题,我们需要扩展硬件配置,但这只是一个临时解决方案.为了解决这一问题,我们需要使用一个H

《R与Hadoop大数据分析实战》一1.5　Hadoop的特点

1.5 Hadoop的特点 Hadoop是围绕两个核心概念专门设计的:HDFS和MapReduce.这两者都与分布式计算相关.MapReduce被认为是Hadoop的核心并对分布式数据执行并行处理.Hadoop的特点如下:HDFSMapReduce 1.5.1 HDFS简介 HDFS是Hadoop自带的机架感知文件系统,这是Hadoop中的一个基于UNIX的数据存储层.HDFS起源于Google文件系统概念.Hadoop的一个重要特征是数据分区和通过许多(成千的)主机的计算以及以并行.接近它们的

戴尔通过提升大数据分析能力巩固“全数据”战略帮助企业在现代数据经济中蓬勃发展

戴尔今天宣布推出一系列新的大数据和分析解决方案与服务,旨在帮助企业快速安全地把数据转化为洞察力,实现更好.更快速的决策.这些新品包括戴尔先进分析软件平台的新版本,以及针对银行.医疗和保险等垂直行业的全新分析即服务产品.这些新产品和能力结合起来让企业能够在核心流程中融入分析功能并在整个企业内传播分析专业知识,以获得更好的业绩. 在现代数据经济中,数据驱动型决策是实现竞争优势的一种方式.戴尔2015年全球技术采用指数(GTAI 2015)显示,积极使用大数据的企业的增长率比不使用大数据的企业高50%

周涛：大数据分析基础衍变定量科学

大数据带来的科学变化是以往很多在实验室小规模控制的科学问题,一些科学学科,比如http://www.aliyun.com/zixun/aggregation/39459.html">社会科学,本质上是定性,现在大数据分析的基础上都会变成定量的科学. 互联网科学中心主任<大数据时代>中文译者周涛博士以社会科学为例,互联网科学中心主任<大数据时代>中文译者周涛博士表示以前做社会科学大的试验无非是几百人.上千人做问卷,现在我们自己做的问题涉及的都是几千万,甚至超过一个

猜你喜欢

c++-C++怎么实现异步的读取

问题描述 C++怎么实现异步的读取我想把 pHttpFile->Read 部分,就是写入pBUFFER的过程改成异步的 if (m_pCallback != NULL) m_pCallback ...

web 2.0用户行为-狡兔三窟

数一数,你有几个博客?我个人的博客至少超过10个.直播客(www.moobol.com)是我的大本营,作为CEO,我需要和我会员有沟通的平台,让他们知道我想的,也让我知道他们的意见. 我最早开博客是在 ...

以太网交换机走向“三维”

三维出新目前,越来越多的厂商进军以太网市场,新品牌.新产品不断涌现,似乎已经出现了同质化竞争的趋势.但是,值得一提的是,以太网交换机在市场数量扩大的同时,质量要求也在不断提升.只是满足简单的连接和数 ...

浅谈综合布线系统的名和实

综合布线系统是一种标准通用的信息传输系统.更为确切的是,综合布线是一种模块化的.灵活性极高的建筑物内或建筑群之间的信息传输通道. 众所周知,所谓综合布线系统是指按标准的.统一的和简单的结构化方式编制和 ...

C#拖放技术的典型应用

在应用程序中,有时用户希望将数据从一个控件中拖到另一个控件中,此时就需要用到拖放技术. 程序开发步骤: (1)新建一个窗体,在窗体中添加两个Label控件和两个TextBox控件,并将两个TextBo ...

C#获取web.config配置文件内容的方法

本文实例讲述了C#获取web.config配置文件内容的方法.分享给大家供大家参考.具体实现方法如下: 1.ConfigurationManager提供对客户端应用程序配置文件的访问. 其有两个属性: ...

如何制作PowerPoint模板

1.ppt模板的制作过程非常简单,用世界地图的PNG图片插入母版,在底版中对背景色用渐变色调节至合适的色调往往渐变色比纯色看起来更舒服,当然WIN8风格除外. 2.模板从上到下采用同色系; 中间 ...

jquery实现鼠标拖动图片效果示例代码

鼠标拖动图片的效果想必大家都有见到过吧,其实实现起来很简单的,下面使用query来实现下,感兴趣的朋友不要错过代码如下: <!DOCTYPE html PUBLIC "-//W3 ...

Win7系统中禁止启动QQ宠物的方法

1.打开QQ面板,然后点击设置; 2.在QQ设置"常规"选项下,取消勾选"登录后自动启动QQ宠物"选项; 3.取消这个选项哦,再次win7系统启动时就不会再 ...

玩游戏的时候弹出虚拟内存不足的窗口怎么解决？

在玩游戏的时候弹出虚拟内存不足,玩的好好的游戏就这么跳出来了,相当的郁闷. 那么我们该怎么去解决这个问题?虚拟内存不足是由于什么引起的呢? 出现这样的情况一般都是由于虚拟内存没有设置或者虚拟内存设置不 ...

IBM将花2.5亿收购第二家以色列移动软件开发商

Red Bend创建于1999年,当时的公司名称为Emony,2011年更名为Red Bend.Red Bend Software公司在全球有 80 家大客户,包括中国移动.Intel.LG.摩托罗拉 ...

使用CachedRowSet实现数据库的断接(含源代码)

目前通过网络(物理连接的或无线的)访问数据库存在的主要问题是,无法保证与数据库的连接在任何时候都没有中断.由于其它资源的限制,即使可以获得可靠的数据库连接,也存在着如何合理地使用这些连接的问题.直 ...

高效程序员的特征：聪明，懒惰

这里我使用了聪明,懒惰和程序员这几个词.我说的这几个词的意思是: 程序员:有积极活力的,专注于用代码解决真实世界里的问题不是指那些梦想家,那些永远只想不做的人聪明:能够周全的思考问题(不是那些耍小 ...

MySQL SQL 分析 - 参数化查询 vs query cache 功能

query cache, mysql 5 开始附带的一个功能, 与引擎无关, 只与数据查询语法相关. 测试描述: 当前使用中是 MySQL-5.6.14 Linux RHEL6 64 位系统产 ...

广告效果有狭义和广义之分

狭义的广告效果是指广告所获得的经济效益,即广告传播促进产品销售的增加程度,也就是广告带来的销售效果.广义的广告效果则是指广告活动目的的实现程度,是广告信息在传播过程中所引起的直接或间接变化的总和,它包 ...

【可视化、安全】盘点全球网络攻击实时追踪系统

FreeBuf科普:攻击数据从何而来? 这是一些很形象.生动.有趣的攻击可视化记录.所有在地图上展示的大数据都是来自真实的生活目标."蜜罐"和安全公司部署的"诱饵系统&q ...

后台用java实现的在线阅读文档，支持office、pdf，类似百度文库，求解决方案！

问题描述后台用java实现的在线阅读文档,支持office.pdf,类似百度文库,求解决方案! 目前上传的文档只能下载下来后,用户通过本地软件打开.不能通过网页直接浏览,无需下载到本地. 解决方案 ...

更高效的比特币挖矿方法：允许错误

比特币的挖矿难度会根据已挖出的比特币区块所需的时间进行调整.随着挖矿难度越来越大,个人矿工早已销声匿迹,只剩下使用工业化矿机的矿池在维持比特币网络的运作.现在,伊利诺伊大学香槟分校Rakesh Kum ...

Linux/Redhat源码编译安装mysql5.5教程

一.源码编译安装mysql5.5.2 操作系统:Redhat Enterprise Linux 6.2 1. 创建用户.目录和修改权限 # mkdir -p /usr/local/mysql/data ...

tcl 变量输出-关于tcl中的变量输出问题

问题描述关于tcl中的变量输出问题在TCL中,通常可以采用 puts 语句输出变量,例如: set a 1 puts "a = $a" 现在的问题是我想输出下面语句中的变量b. ...

app-iOS开发，怎么将自己的APP添加到如下图UC所在的位置？该功能模块怎么称呼？怎么实现？求解，谢谢

问题描述 iOS开发,怎么将自己的APP添加到如下图UC所在的位置?该功能模块怎么称呼?怎么实现?求解,谢谢解决方案这是iOS8的Widget具提可以参照http://www.cocoachina ...

要开始深入VMM了。

得到一个VMM机器所有的节点状态 Quick one-liner to generate a CSV of virtual machines, sorted by their hosts. Repor ...

分享20个Unix/Linux 命令技巧_linux shell

让我们用这些Unix/Linux命令技巧开启新的一年,提高在终端下的生产力.我已经找了很久了,现在就与你们分享. > /path/to/file.log # 或使用如下格式 : > /pa ...

Java数据结构及算法实例：汉诺塔问题 Hanoi_java

/** * 汉诺塔大学的时候就学过,但是根本没搞明白,唯一知道的就是要用递归的方法来求解. * 问题描述: * 有三根杆子A,B,C.A杆上有N个(N>1)穿孔圆盘,盘的尺寸由下到上依次变小. ...

js中各种类型的变量在if条件中是true还是false_javascript技巧

js的弱类型让人感觉很多东西都比较迷惑,例如变量在if条件中到底是true还是false,如果在强类型语言中将一个非boolean类型的变量放在if条件中时,是需要进行类型转换的,但是js不需要,下面 ...

Dada Mail v4.4.0发布邮件列表管理系统

Dada Mail v4.4.0发布,Dada Mail是一个邮件列表管理系统可在WEB上进行订阅.它便于安装,便于管理,便于与用户交互,界面友好,支持自定义CGI脚本. Dada Mail is a ...

网友质疑百度失却用户心何以搜天下

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅习惯性百度又是深秋时节.清晨,窗 ...

用VBS实现音乐播放的多个代码小结_vbs

第一个代码,会使用默认mp3文件关联的程序,会出现音乐播放框复制代码代码如下: wscript.sleep 12000 set ws=createobject("wscript.shel ...

风投入股造就阶段性高增长理邦仪器看着有点虚

招股书是IPO最为重要的文件,应能使投资者对公司的各个方面获取充分和客观的信息,以做出合理的投资判断.而理邦仪器的招股书在某些方面的披露明显不足,在另一些地方又刻意包装突出亮点,使得招股书在某种程度上 ...

华为旗下公司推海思手机芯片智能手机998元起

7月6日消息,华为旗下海思科技在手机晶片市场初试啼声,结合手机厂商推出998元到1020元的智能手机,高端智能手机跌破万元:联发科第四季也将跟进,全球智能手机市场有望大洗牌. 目前智能手机多数处于高端 ...

热搜