Spark处理存储于Hive中的Twitter数据

本文将介绍使用Spark batch作业处理存储于Hive中Twitter数据的一些实用技巧。

首先我们需要引入一些依赖包，参考如下：
name := "Sentiment"version := "1.0"

scalaVersion := "2.10.6"

assemblyJarName in assembly := "sentiment.jar"

libraryDependencies += "org.apache.spark" % "spark-core_2.10" % "1.6.0" % "provided"
libraryDependencies += "org.apache.spark" % "spark-sql_2.10" % "1.6.0" % "provided"
libraryDependencies += "org.apache.spark" %% "spark-hive" % "1.6.0" % "provided"
libraryDependencies += "edu.stanford.nlp" % "stanford-corenlp" % "3.5.1"
libraryDependencies += "edu.stanford.nlp" % "stanford-corenlp" % "3.5.1" classifier "models"

resolvers += "Akka Repository" at "http://repo.akka.io/releases/"

assemblyMergeStrategy in assembly := {
case PathList("META-INF", xs @ _*) => MergeStrategy.discard
case x => MergeStrategy.first}

编写一个Scala case class用于存储解析好的Twitter Json数据：
case class Tweet(coordinates: String, geo:String, handle: String,
                   hashtags: String, language: String,
                   location: String, msg: String, time: String,
                   tweet_id: String, unixtime: String,
                   user_name: String, tag: String,
                   profile_image_url: String,
                   source: String, place: String, friends_count: String,
                   followers_count: String, retweet_count: String,
                   time_zone: String, sentiment: String,
                   stanfordSentiment: String)

引入以下的包：
import java.util.Properties
import com.vader.SentimentAnalyzer
import edu.stanford.nlp.ling.CoreAnnotations
import edu.stanford.nlp.neural.rnn.RNNCoreAnnotations
import edu.stanford.nlp.pipeline.StanfordCoreNLP
import edu.stanford.nlp.sentiment.SentimentCoreAnnotations
import org.apache.log4j.{Level, Logger}
import org.apache.spark.{<span class="wp_keywordlink_affiliate"><a data-original-title="View all posts in Spark" href="/archives/tag/spark" title="" target="_blank">Spark</a></span>Conf, <span class="wp_keywordlink_affiliate"><a data-original-title="View all posts in Spark" href="/archives/tag/spark" title="" target="_blank">Spark</a></span>Context}
import org.apache.spark.serializer.KryoSerializer

import org.apache.spark.sql._

用Scala编写的用于从Hive中读取数据的Spark代码片段：
def main(args: Array[String]) {
Logger.getLogger("org.apache.spark").setLevel(Level.ERROR)
Logger.getLogger("org.apache.spark.storage.BlockManager").setLevel(Level.ERROR)
val logger: Logger = Logger.getLogger("com.iteblog.sentiment.TwitterSentimentAnalysis")
val sparkConf = new SparkConf().setAppName("TwitterSentimentAnalysis")
sparkConf.set("spark.streaming.backpressure.enabled", "true")
sparkConf.set("spark.cores.max", "32")
sparkConf.set("spark.serializer", classOf[KryoSerializer].getName)
sparkConf.set("spark.sql.tungsten.enabled", "true")
sparkConf.set("spark.eventLog.enabled", "true")
sparkConf.set("spark.app.id", "Sentiment")
sparkConf.set("spark.io.compression.codec", "snappy")
sparkConf.set("spark.rdd.compress", "true")
val sc = new SparkContext(sparkConf)
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
import sqlContext.implicits._
val tweets = sqlContext.read.json("hdfs://www.iteblog.com:8020/social/twitter")
sqlContext.setConf("spark.sql.orc.filterPushdown", "true")
tweets.printSchema()
tweets.count
tweets.take(5).foreach(println)

其中我们需要注意的是我们需要创建Hive context而不是标准的SQL context

在运行我们的代码之前，先确认Hive中存储Twitter Json数据的表，以及用于存放结果数据的表格是否存在，本文用于存储结果数据的表格使用了ORC 格式
beeline
!connect jdbc:hive2://localhost:10000/default;
!set showHeader true;
set hive.vectorized.execution.enabled=true;
set hive.execution.engine=tez;
set hive.vectorized.execution.enabled =true;
set hive.vectorized.execution.reduce.enabled =true;
set hive.compute.query.using.stats=true;
set hive.cbo.enable=true;
set hive.stats.fetch.column.stats=true;
set hive.stats.fetch.partition.stats=true;
show tables;
describe sparktwitterorc;
describe twitterraw;
describe sparktwitterorc;
analyze table sparktwitterorc compute statistics;
analyze table sparktwitterorc compute statistics for columns;

上面名为twitterraw的表格是用于存放Twitter Json数据的表；而名为sparktwitterorc的表格是用于存放Spark处理结果的表。

如何将RDD或者DataFrame中的数据写入到Hive ORC表呢？操作如下：
outputTweets.toDF().write.format("orc").mode(SaveMode.Overwrite).saveAsTable("default.sparktwitterorc")

在编译的程序时候设置JVM相关参数
export SBT_OPTS="-Xmx2G -XX:+UseConcMarkSweepGC -XX:+CMSClassUnloadingEnabled -XX:MaxPermSize=2G -Xss2M -Duser.timezone=GMT"
sbt -J-Xmx4G -J-Xms4G assembly

将Spark作业提交到YARN集群：
spark-submit --class com.iteblog.sentiment.TwitterSentimentAnalysis --master yarn-client sentiment.jar --verbose

这里附上我们的rawtwitter表建表语句：
CREATE TABLE rawtwitter
(
   handle              STRING,
   hashtags            STRING,
   msg                 STRING,
   language            STRING,
   time                STRING,
   tweet_id            STRING,
   unixtime            STRING,
   user_name           STRING,
   geo                 STRING,
   coordinates         STRING,
   `location`          STRING,
   time_zone           STRING,
   retweet_count       STRING,
   followers_count     STRING,
   friends_count       STRING,
   place               STRING,
   source              STRING,
   profile_image_url   STRING,
   tag                 STRING,
   sentiment           STRING,
   stanfordsentiment   STRING
)
ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe'
LOCATION 'hdfs://www.iteblog.com:8020/social/twitter'

时间： 2024-09-28 01:25:34

Spark处理存储于Hive中的Twitter数据的相关文章

Hive中如何查看数据来源文件和具体位置

通常用户在HIVE中用SELECT语句出来结果,无法确定结果是来自哪个文件或者具体位置信息,HIVE中考虑到了这点,在Virtual Column虚列中可以指定三个静态列: 1. INPUT__FILE__NAME map任务读入File的全路径 2. BLOCK__OFFSET__INSIDE__FILE 如果是RCFile或者是SequenceFile块压缩格式文件则显示Block file Offset,也就是当前快在文件的第一个字偏移量,如果是TextFil

Hive中如何确定map数

Hive 是基于 Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 sql 查询功能,可以将 sq l语句转换为 MapReduce 任务进行运行.当运行一个 hql 语句的时候,map 数是如何计算出来的呢?有哪些方法可以调整 map 数呢? 本文测试集群版本:cdh-4.3.0 . hive 默认的 input format 在 cdh-4.3.0 的 hive 中查看 hive.input.format 值(为什么是hive.input.format?

漫谈数据仓库之拉链表（原理、设计以及在Hive中的实现）

本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理.设计.以及在我们大数据场景下的实现方式. 全文由下面几个部分组成: 先分享一下拉链表的用途.什么是拉链表. 通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别. 举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在Hive的大规模使用,我们会以Hive场景下的设计为例). 分析一下拉链表的优缺点,并对前面的提到的一些内容进行补充说明,比如说拉链表和流水表的区别.

Hive中分区表和桶

Hive分区表在hive Select 查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作.有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念.分许表指的是在创建表时指定的partition的分区空间. Hive可以对数据按照某列或者某些列进行分区管理,所谓分区我们可以拿下面的列子进行解释. 当前互联网应用每天都要存储大量的日志文件.几G.十几G甚至更大都是有可能的.存储日志,其中必然有个属性是日志产生的日期.在产生分区时,就可以按照日志产生的日期列进行划分.把

hive中partition如何使用

网上有篇关于hive的partition的使用讲解的比较好,转载了: 一.背景 1.在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作.有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念. 2.分区表指的是在创建表时指定的partition的分区空间. 3.如果需要创建有分区的表,需要在create表的时候调用可选参数partitioned by,详见表创建的语法结构. 二.技术细节 1.一个表可以拥有一个或者多个分区,每个分区以文件夹的形

HIVE中关于collect_set与explode函数妙用

hive的复合数据类型 Hive中的列支持使用三类复杂的集合数据类型,即:array,map及struct,这些类型的名称是保留字,具体用法可参见该篇博文,里面有关于三类基本集合数据类型的操作实例,注:map中可嵌套array类型. 例如,定义表: create table example ( device_id string, login_ip array<string>, user_info map<string,array<string>&

Apache Kylin权威指南2.2　在Hive中准备数据

2.2 在Hive中准备数据 2.1节介绍了Kylin中的常见概念.本节将介绍准备Hive数据的一些注意事项.需要被分析的数据必须先保存为Hive表的形式,然后Kylin才能从Hive中导入数据,创建Cube. Apache Hive是一个基于Hadoop的数据仓库工具,最初由Facebook开发并贡献到Apache软件基金会.Hive可以将结构化的数据文件映射为数据库表,并可以将SQL语句转换为MapReduce或Tez任务进行运行,从而让用户以类SQL(HiveQL,也称HQL)的方式管理和

在 Apache Hive 中轻松生存的12个技巧

在 Apache Hive 中轻松生存的12个技巧 Hive 可以让你在 Hadoop 上使用 SQL,但是在分布式系统上优化 SQL 则有所不同.这里是让你可以轻松驾驭 Hive 的12个技巧. Hive 并不是关系型数据库(RDBMS),但是它大多数时候都表现得像是一个关系型数据库一样,它有表.可以运行 SQL.也支持 JDBC 和 ODBC. 这种表现既有好的一面,也有不好的一面:Hive 并不像关系型数据库那样执行 SQL 查询.我在 Hive 上花费了大量时间,光是我自己在工作中就为了

大数据-spark能在WEB项目中使用吗？

问题描述 spark能在WEB项目中使用吗? ssh的web项目中想使用spark大数据分析,导入spark的jar包在初始化sparkconf时报求助啊.............大神在哪里解决方案用法有问题,根本不是包的问题.spark更像是操作系统,你的调用是在其上的,而不是平行调用以为加个包就可以了

猜你喜欢

PS合成奇幻的暗紫色外星场景

最终效果 1.在一开始时,我们要在Photoshop中新建一个尺寸为1200 x 1200像素文件,白色背景. 2.让我们置入我们的风景图片,并使用自由变换工具(Ctrl/Cmd + T)调整图片 ...

JAVA--JDK环境变量的配置

1.我的电脑-->属性-->高级-->环境变量. 2.配置用户变量: a.新建 JAVA_HOME C:Program FilesJavaj2sdk1.5.0 (JDK的安装路径) ...

最新更新做高权重外链方法大全

这两年百度对于个人网站和企业网站关注的比较多,各种调整SEO方式的算法也比较多,但在绿萝算法与原创星火计划之后,其他的一些小规模的调整,整体来说对网站的影响不大.经过了几个月的调整与摸索,小编终于摸索 ...

PHP生成HTML的思路

前网络上好多网站的新闻发布系统都采用了动态服务器技术生成静态HTML的做法,这样做的好处是:一是能减轻其服务器的负担,二是因为生成了HTML静态页面,所以其网站被搜索引擎搜索到的机率更大一些. 笔者的 ...

百度快照存重大漏洞交换友链不应看快照

百度快照的日期一直以来都被各位站长作为交换友情链接时评判网站某方面质量的一个标准.然而,百度快照的日期的更新频率真的与网站质量有关吗?没有任何关系.我们先来看一个百度快照的bug: www.why ...

ps合成花卉小提琴效果图

注:更多精彩教程请关注三联photoshop教程栏目,三联PS群:311270890欢迎你的加入分类: PS合成图片教程

如何使用Javascript获取距今n天前的日期

本篇文章是对使用Javascript获取距今n天前日期的实现代码进行了详细的分析介绍,需要的朋友参考下复制代码代码如下: function Test(day) { ...

如何获取chinanet wifi密码?

1.安装WiFi天翼通,官方会赠送100翼豆. 2.手机打开wlan,看能搜到的热点是chinanet还是chinanet edu,然后再选择对应的卡密进行兑换. 3.兑换后就能看到账号密码了. ...

教你两招轻松杀死顽固不化木马病毒进程

根据进程名查杀这种方法是通过WinXP系统下的taskkill命令来实现的,在使用该方法之前,首先需要打开系统的进程列表界面,找到病毒进程所对应的具体进程名. 接着依次单击"开始→运行&q ...

哪些会引起电脑蓝屏？

主要有以下几种原因造成: 1. 散热不好.由于天气温度的影响或CPU风扇的转数不够所引起的系统过热,从而会导致电脑的自动关机,建议可以检查一下系统温度是否正常. 2. 内存原因.当内存与主板插槽 ...

flash随机显示文本程序

问题:随即显示10个数字我知道,新建一400px*300px的flash文档,背景为黑色.按CTRL+F8建一MC,在此MC中建一动态文本,变量名为num,在其帧上加上AS,num=random(10 ...

asp封闭成dll文件

ASP 文件做成DLL文件当创建或使用复杂的ASP Web应用你一定会碰到一个需要使用的DLL .该DLL通常包括代码,汇编在VB , C + +中,或者其他Windows编程语言,用于ASP应用程 ...

cacti监控中出现的问题

问题描述 cacti监控中出现的问题大神,求救.我用cacti监控了公司内部很多台服务器,大部分都正常.就其中有三台的磁盘使用显示的图像一模一样.仔细发现,1.三台服务器显示的图像是其中一台服务器的 ...

搜索引擎里的特殊符号使用

双引号用(" ") 给要查询的关键词加上双引号(半角,以下要加的其它符号同此),可以实现精确的查询,这种方法要求查询结果要精确匹配,不包括演变形式. 使用加号(+) 在关键词的前面 ...

JAVA 得到本进程的CPU占用率

问题描述 JAVA 得到本进程的CPU占用率各位大神们!现在可以得到CPU总体的占用率,但是我想得到本进程的CPU占用率是多少,怎么实现? 解决方案如何得到本进程的CPU占用率?如何得到本进程的C ...

【Android开发】网路编程及Internet应用-使用WebView显示网页

Android提供了内置的浏览器,该浏览器使用了开源的WebKit引擎.WebKit不仅能够搜索网址.查看电子邮件,而且能够播放视频节目.在Android中,要使用内置的浏览器,需要通过WebView ...

重磅|携万人基因组,基因组学先驱Craig Venter再出重拳

在研究了10545个基因组之后,我们可以清晰的看到要了解超过70亿全球人口的DNA序列的所有变异,我们还有很长的路要走.某些变异和种族相关,另外一些则是单体突变的结果.即使是基因组的长度也因人而异,稍 ...

在myeclipse中有必要配置数据库连接吗？

问题描述在myeclipse中有必要配置数据库连接吗? 拿oracle为例,myeclipse中新建了一个web项目,也有了相应的oracle的jar包,通过代码获取连接不就行了吗?为什么myecl ...

为什么CNN说百度比阿里更值得投资？

处在上市关口的阿里,眼下受到了资本市场的追捧,近日阿里将IPO定价区间上调至每股66到68美元.9月17日,CNN Money资深副总编Paul R.La Monica却给阿里泼了一盆冷水,他提醒投资 ...

排除读取数据

问题描述请看我的表表classcidctitlesid1a12b13c24d3表sasidstitle1po2xo3co表hdhidhtitlesid1ds12fd13dfd14gfd25dfg3表 ...

maven 项目中pom依赖到其他pom【A】，如何递归下载这个pom【A】中的依赖包？

问题描述 maven 项目中pom依赖到其他pom[A],如何递归下载这个pom[A]中的依赖包? 用maven管理的项目,其中引入了 org.apache.hadoop hadoop-yarn ${ ...

Guava学习笔记：EventBus（转）

EventBus是Guava的事件处理机制,是设计模式中的观察者模式(生产/消费者编程模型)的优雅实现.对于事件监听和发布订阅模式,EventBus是一个非常优雅和简单解决方案,我们不用创建复杂的类和 ...

Oracle数据库rman备份计划及恢复

原文:http://www.cnblogs.com/vijayfly/p/5045175.html 1.rman完全恢复的前提条件:历史的datafile,controlfile和spfile备份,加 ...

简明 TensorFlow 教程 — 第二部分：混合学习

本文讲的是简明 TensorFlow 教程 - 第二部分:混合学习, 快速上手世界上最流行的深度学习框架. 确保你已经阅读了第一部分在本文中,我们将演示一个宽 N 深度网络,它使用广泛的线性模型与前 ...

数据中心网络架构最新变革一览

由于混合云服务和容器的普及,现如今的数据中心网络比以往任何时候都更加难以被破解.但是如若遵循一条简单的路径,IT人员就可以成功. 在不太遥远的过去,数据中心内的流量转发其实很简单.一个IP地址能够与另 ...

sqlite3-如何在eclipse中建立数据库并与SQLite developer连接

问题描述如何在eclipse中建立数据库并与SQLite developer连接如题,如何在eclipse中代码建立数据库,或者用哪种更为简洁的方法能够建立数据库并与SQLite develope ...

Java栈的实例-数组和链表两种方法（转）

一.栈栈的定义栈(Stack)是限制仅在表的一端进行插入和删除运算的线性表. (1)通常称插入.删除的这一端为栈顶 (Top),另一端称为栈底 (Bottom). (2)当表中没有元素时称为空栈. ...

js中调用WebService的问题

问题描述今天客户给了个WebServicehttp://xxxxxx:8001/xxxx/xxxxx/xxxxx/Service.svc?wsdl然后给了个文档,里面才传入参数是xml类型的,返回数 ...

JS制作的炸金花小游戏的例子

学习JS的时候突然想起了小时候经常玩的一个游戏,叫做"炸金花",然后就试着把这个小游戏做了出来,在整个游戏实现的过程中,获益匪浅."炸金花"的业务流程主要是:构 ...

jsp-Java web编程求助！参数传递丢失问题

问题描述 Java web编程求助!参数传递丢失问题图里面那个参数tclass在jsp里面还是正确的,我加过out.print测试过.在CardApplet中取这个参数用的是tclass = get ...

热搜