pig—WordCount analysis概述

grunt> cat /opt/dataset/input.txt
    keyword1 keyword2
    keyword2 keyword4
    keyword3 keyword1
    keyword4 keyword4
 A = LOAD '/opt/dataset/input.txt' using PigStorage('\n')  as (line:chararray);
 B = foreach A generate TOKENIZE((chararray)$0);
 C = foreach B generate flatten($0) as word;
 D = group C by word;
 E = foreach D generate COUNT(C), group;
 dump B;
({(keyword1),(keyword2)})
({(keyword2),(keyword4)})
({(keyword3),(keyword1)})
({(keyword4),(keyword4)})
 dump C;
(keyword1)
(keyword2)
(keyword2)
(keyword4)
(keyword3)
(keyword1)
(keyword4)
(keyword4)
 dump D;
(keyword1,{(keyword1),(keyword1)})
(keyword2,{(keyword2),(keyword2)})
(keyword3,{(keyword3)})
(keyword4,{(keyword4),(keyword4),(keyword4)})
 dump E;
(2,keyword1)
(2,keyword2)
(1,keyword3)
(3,keyword4)
 store E into './wordcount';
<pre code_snippet_id="327646" snippet_file_name="blog_20140505_2_6349649" name="code" class="java">TOKENIZE
Splits a string and outputs a bag of words.  

Syntax
TOKENIZE(expression)         

Terms
expression  

An expression with data type chararray.  

Usage
Use the TOKENIZE function to split a string of words (all words in a single tuple) into a bag of words (each word in a single tuple). The following characters are considered to be word separators: space, double quote("), coma(,) parenthesis(()), star(*).  

Example
In this example the strings in each row are split.  

A  = LOAD 'data' AS (f1:chararray);  

DUMP A;
(Here is the first string.)
(Here is the second string.)
(Here is the third string.)  

X = FOREACH A GENERATE TOKENIZE(f1);  

DUMP X;
({(Here),(is),(the),(first),(string.)})
({(Here),(is),(the),(second),(string.)})
({(Here),(is),(the),(third),(string.)})</pre><br>
<br>
<pre></pre>
<br>

更多精彩内容:http://www.bianceng.cnhttp://www.bianceng.cn/Programming/extra/

以上是小编为您精心准备的的内容,在的博客、问答、公众号、人物、课程等栏目也有的相关内容,欢迎继续使用右上角搜索按钮进行搜索grunt
, string
, c:foreach
, keyword
, The
, HERE
, keywords
tokenize
pig wordcount、pig count、pig count计数、pig group count、pig group by count,以便于您获取更多的相关知识。

时间: 2024-09-01 14:04:40

pig—WordCount analysis概述的相关文章

Pig系统分析(1) 概述

本系列文章分析Pig运行主线流程,目的是借鉴Pig Latin on Hadoop,探索(类)Pig Latin on Spark的可能性. Pig概述 Apache Pig是Yahoo!为了让研究人员和工程师能够更简单处理.分析和挖掘大数据而发明的.从数据访问的角度来看,可以把YARN当成大数据的操作系统,那么Pig是各种不同类型的数据应用中不可或缺的一员. 尽管Pig的学习成本比Hive要高一些,但是Pig的优点是表达能力和灵活性更胜一筹.如果说用户使用声明式的Hive Hql表达的只是想要

MATLAB 数据分析方法(第2版)1.2 MATLAB基础概述

1.2 MATLAB基础概述   1.2.1 MATLAB的影响   MATLAB源于Matrix Laboratory,即矩阵实验室,是由美国Mathworks公司发布的主要面对科学计算.数据可视化.系统仿真以及交互式程序设计的高科技计算环境.自1984年该软件推向市场以来,历经30多年的发展与竞争,现已成为适合多学科.多种工作平台的功能强大的大型软件.MATLAB应用广泛,其中包括信号处理和通信.图像和视频处理.控制系统.测试和测量.计算金融学及计算生物学等众多应用领域.在国际学术界,MAT

Hadoop项目实战-用户行为分析之应用概述(二)

1.概述 本课程的视频教程地址:<项目整体概述> 本节给大家分享的主题如下图所示: 下面我开始为大家分享第二节的内容--<项目整体概述>,下面开始今天的分享内容. 2.内容 从本节开始,我们将进入到Hadoop项目的整体概述一节学习,本节课程为大家介绍的主要知识点有一下内容,如下图所示: 下面,我们首先来看看项目的整体流程,其流程如下图所示: 项目流程可以分为4个模块,他们分别是数据收集,集群存储,分析计算和结果处理. 下面我分别为大家讲解这4个模块的作用. 我们知道,在做统计时,

Apache Pig简介与实践

Apache Pig是一个用来分析大数据集的平台,它由两部分组成:一部分是用于表达数据分析程序的高级脚本语言,另一部分是用于评估分析程序的基本工具.目前来看,Pig主要用于离线数据的批量处理应用场景,但是随着Pig的发展处理数据的速度会不断地提升,这可能依赖于Pig底层的执行引擎.比如,Pig通过指定执行模式,可以使用Hadoop的MapReduce计算引擎来实现数据处理,也可以使用基于Tez的计算引擎来实现(Tez是为了绕开MapReduce多阶段Job写磁盘而设计的DAG计算引擎,性能应该比

《中国人工智能学会通讯》——7.17 篇章语义分析方法概述

7.17 篇章语义分析方法概述 篇章语义分析主要有以下三个主流的研究方向. 以篇章结构为核心此类研究工作的目标是识别不同文本块之间的语义关系,例如条件关系.对比关系等,亦称为修辞关系识别.根据是否需要将文本分割为一系列彼此不相交的覆盖序列,可以将本类方法进一步分成两大类:第一类以修辞结构理论(RhetoricalStructure Theory) 和 篇 章 图 树 库(DiscourseGraphBank)为代表,要求先将文本切分为彼此不相交的语义单元,并随后分析各部分之间的语义关系及结构组成

《实用机器学习》——1.4 本书概述

1.4 本书概述 本书主要从解决实际问题的角度来介绍常用的机器学习算法.在1.3节中我们讨论了机器学习中常见的4类典型问题,基本上覆盖了目前实际中可以使用机器学习算法来解决的主要问题类型.在本书中,我们将主要讨论对应的4类算法,包括: 回归算法: 分类算法: 推荐算法: 排序算法. 其中回归算法和分类算法是两类最常用的算法,也是其他很多算法的基础,因此我们首先予以介绍.推荐系统在目前有了越来越多的应用,而排序算法在搜索引擎等领域也获得了广泛的应用,因此我们也会对常用的推荐算法和排序算法进行介绍.

Apache Beam WordCount编程实战及源码解读

概述:Apache Beam WordCount编程实战及源码解读,并通过intellij IDEA和terminal两种方式调试运行WordCount程序,Apache Beam对大数据的批处理和流处理,提供一套先进的统一的编程模型,并可以运行大数据处理引擎上.完整项目Github源码 负责公司大数据处理相关架构,但是具有多样性,极大的增加了开发成本,急需统一编程处理,Apache Beam,一处编程,处处运行,故将折腾成果分享出来. 1.Apache Beam编程实战–前言,Apache B

《Spark与Hadoop大数据分析》一一2.1 Apache Hadoop概述

2.1 Apache Hadoop概述 Apache Hadoop 是一个软件框架,可以在具有数千个节点和 PB 级数据的大型集群上进行分布式处理.Apache Hadoop 集群可以使用故障率一般较高的低价通用硬件来构建.Hadoop 的设计能够在没有用户干预的情况下优雅地处理这些故障.此外,Hadoop 采用了让计算贴近数据(move computation to the data)的方法,从而显著降低了网络流量.它的用户能够快速开发并行的应用程序,从而专注于业务逻辑,而无需承担分发数据.分

《Hadoop与大数据挖掘》——第2章 大数据存储与运算利器—Hadoop 2.1 Hadoop概述

第2章 大数据存储与运算利器-Hadoop 本章主要介绍了Hadoop框架的概念.架构.组件.生态系统以及Hadoop相关编程,特别是针对Hadoop组件HDFS.MapReduce.YARN,Hadoop MapReduce编程做了较详细的介绍.在介绍各个知识点的同时,结合动手实践章节,帮助读者理解对应的内容. 2.1 Hadoop概述 2.1.1 Hadoop简介 随着现代社会的发展,各种信息数据存量与增量都非常大,很多情况下需要我们能够对TB级,甚至PB级数据集进行存储和快速分析,然而单机