《Hadoop大数据分析与挖掘实战》——3.4节小结

3.4 小结
本章先介绍大数据仓库Hive的基础概念,接着,详细介绍了使用VMware虚拟机搭建分布式Hive客户端环境的步骤,使读者可以根据搭建步骤一步步搭建自己的本地学习环境,方便后面的学习实验。然后,分析了Hive的原理,主要包括Hive的架构,Hive各个组件的功能以及Hive数据模型、数据存储原理等。最后,给出了详细设计的实验,使读者动手实践,加深对原理的认识和理解。

时间: 2024-08-22 05:57:48

《Hadoop大数据分析与挖掘实战》——3.4节小结的相关文章

《Hadoop大数据分析与挖掘实战》——导读

目 录 前 言 基 础 篇 第1章 数据挖掘基础 1.1 某知名连锁餐饮企业的困惑 1.2 从餐饮服务到数据挖掘 1.3 数据挖掘的基本任务 1.4 数据挖掘建模过程 1.5 餐饮服务中的大数据应用 1.6 小结第2章 Hadoop基础 2.1 概述 2.2 安装与配置 2.3 Hadoop原理 2.4 动手实践 2.5 小结 第3章 Hadoop生态系统:Hive 3.1 概述 3.2 Hive原理 3.3 动手实践 3.4 小结 第4章 Hadoop生态系统:HBase 4.1 概述 4.2

《Hadoop大数据分析与挖掘实战》——1.4节数据挖掘建模过程

1.4 数据挖掘建模过程从本节开始,将以餐饮行业的数据挖掘应用为例来详细介绍数据挖掘的建模过程,如图1-1所示. 1.4.1 定义挖掘目标针对具体的数据挖掘应用需求,首先要明确本次的挖掘目标是什么?系统完成后能达到什么样的效果?因此必须分析应用领域,包括应用中的各种知识和应用目标,了解相关领域的有关情况,熟悉背景知识,弄清用户需求.要想充分发挥数据挖掘的价值,必须要对目标有一个清晰明确的定义,即决定到底想干什么. 针对餐饮行业的数据挖掘应用,可定义如下挖掘目标:实现动态菜品智能推荐,帮助顾客快速

《Hadoop大数据分析与挖掘实战》——2.5节小结

2.5 小结本章从介绍大数据基础概念讲起,引入了Hadoop大数据处理平台,简要介绍了Hadoop以及Hadoop生态系统.接着,详细介绍了使用VMware虚拟机搭建分布式Hadoop集群环境的步骤,使读者可以根据搭建步骤一步步来搭建自己的集群,方便后面的学习实验.然后,介绍了Hadoop的各个模块,包括Hadoop HDFS文件系统.Hadoop MapReduce编程框架.Hadoop YARN资源管理和分配器的原理.最后,给出了详细设计的实验,可以使读者在了解原理的前提下,动手实践,加深对

《Hadoop大数据分析与挖掘实战》——2.1节概述

2.1 概述2.1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台.Hadoop以分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce(Google MapReduce的开源实现)为核心,为用户提供了系统底层细节透明的分布式基础架构.分布式文件系统HDFS的高容错性.高伸缩性等优点允许用户将Hadoop部署在低廉的硬件上,形成分布式文件系统:MapReduce分布式编程模型允许用户在不了解分布式系统底层

《Hadoop大数据分析与挖掘实战》——第2章Hadoop基础

第2章 Hadoop基础 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合.大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力.适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘,分布式文件系统,分布式数据库,云计算平台,互联网和可扩展的存储系统. 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的<大数据时代>中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理.大数据的主要特点为数据量大(Volume),数据类别复

《Hadoop大数据分析与挖掘实战》——2.3节Hadoop原理

2.3 Hadoop原理2.3.1 Hadoop HDFS原理 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统.它和现有的分布式文件系统有很多共同点,同时,它和其他的分布式文件系统的区别也是很明显的.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用.HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的.HDFS最开始是作为Apache

《Hadoop大数据分析与挖掘实战》——1.6节小结

1.6 小结本章从一个知名餐饮企业经营过程中存在的困惑出发,引出数据挖掘的概念.基本任务.建模过程.针对建模过程,简要分析了定义挖掘目标.数据取样.数据探索.数据预处理以及挖掘建模的各个算法概述和模型评价.最后,针对餐饮企业规模的日益扩大,企业数据的巨幅增长,引出了餐饮服务中的大数据应用.如何帮助企业从数据中洞察商机,提取价值,这是现阶段几乎所有企业都关心的问题.通过发生在身边案例,由浅入深引出深奥的数据挖掘理论,让读者在不知不觉中感悟到数据挖掘的非凡魅力!

《Hadoop大数据分析与挖掘实战》——2.2节安装与配置

2.2 安装与配置 使用表2-1中的软件版本进行配置. 2.准备机器 通过VMware新建一台CentOS 6.4虚拟机,操作系统安装完成后,使用root用户登录,添加一个新用户hadoop.设置hadoop用户的密码并授予hadoop用户sudo权限. \[root@localhost ~\]$useradd hadoop \[root@localhost ~\]$passwd hadoop \[root@localhost ~\]$chmod u+w /etc/sudoers \[root@

《Hadoop大数据分析与挖掘实战》——3.3节动手实践

3.3 动手实践按照3.1.2节以及第2章的详细配置步骤进行操作,部署完成后即可进行下面的实验(默认使用Hadoop 2.6和Hive 1.2.1版本).实践一:Hive表1)下载"02-上机实验/visits_data.txt"文件,并查看数据. \[root@slave2 opt\]# head -n 5 visits_data.txt BUCKLEY SUMMER 10/12/2010 14:48 10/12/2010 14:45 WH CLOONEYGEORGE10/12/20