让CarbonData使用更简单

CarbonData 是什么
引用官方的说法:
Apache CarbonData是一种新的高性能数据存储格式,针对当前大数据领域分析场景需求各异而导致的存储冗余问题,CarbonData提供了一种新的融合数据存储方案,以一份数据同时支持“任意维度组合的过滤查询、快速扫描、详单查询等”多种应用场景,并通过多级索引、字典编码、列存等特性提升了IO扫描和计算性能,实现百亿数据级秒级响应。

CarbonData的使用

我之前写过一篇使用的文章。CarbonData集群模式体验。到0.3.0版本,已经把kettle去掉了,并且我提交的PR已经能够让其在Spark Streaming中运行。之后将其集成到StreamingPro中,可以简单通过配置即可完成数据的流式写入和作为SQL服务被读取。

准备工作
CarbonData 使用了Hive的MetaStore。

  • MySQL数据库
  • hive-site.xml 文件
  • 下载StreamingPro with CarbonData

MySQL

创建一个库:

create database hive CHARACTER SET latin1;

hdfs-site.xml
新建文件 /tmp/hdfs-site.xml,然后写入如下内容:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>

<property>
  <name>javax.jdo.option.ConnectionURL</name>
  <value>jdbc:mysql://127.0.0.1:3306/hive?createDatabaseIfNoExist=true</value>
</property>

<property>
  <name>javax.jdo.option.ConnectionDriverName</name>
  <value>com.mysql.jdbc.Driver</value>
</property>

<property>
  <name>javax.jdo.option.ConnectionUserName</name>
  <value>你的账号</value>
</property>

<property>
  <name>javax.jdo.option.ConnectionPassword</name>
  <value>你的密码</value>
</property>

<property>
  <name>hive.metastore.warehouse.dir</name>
  <value>file:///tmp/user/hive/warehouse</value>
</property>

<property>
<name>hive.exec.scratchdir</name>
<value>file:///tmp/hive/scratchdir</value>
</property>

<property>
 <name>hive.metastore.uris</name>
 <value></value>
</property>

<property>
  <name>datanucleus.autoCreateSchema</name>
  <value>true</value>
</property>

</configuration>

启动Spark Streaming写入数据
新建一个文件,/tmp/streaming-test-carbondata.json,内容如下:

{
  "test": {
    "desc": "测试",
    "strategy": "spark",
    "algorithm": [],
    "ref": [
      "testJoinTable"
    ],
    "compositor": [
      {
        "name": "streaming.core.compositor.spark.streaming.source.MockInputStreamCompositor",
        "params": [
          {
            "data1": [
              "1",
              "2",
              "3"
            ],
            "data2": [
              "1",
              "2",
              "3"
            ],
            "data3": [
              "1",
              "2",
              "3"
            ],
            "data4": [
              "1",
              "2",
              "3"
            ]
          }
        ]
      },
      {
        "name": "streaming.core.compositor.spark.streaming.transformation.SingleColumnJSONCompositor",
        "params": [
          {
            "name": "a"
          }
        ]
      },
      {
        "name": "stream.table",
        "params": [
          {
            "tableName": "test"
          }
        ]
      },
      {
        "name": "stream.sql",
        "params": [
          {
            "sql": "select a, \"5\" as b from test",
            "outputTableName": "test2"
          }
        ]
      },
      {
        "name": "stream.sql",
        "params": [
          {
            "sql": "select t2.a,t2.b from test2 t2, testJoinTable t3 where t2.a = t3.a"
          }
        ]
      },
      {
        "name": "stream.output.carbondata",
        "params": [
          {
            "format": "carbondata",
            "mode": "Append",
            "tableName": "carbon4",
            "compress": "true",
            "useKettle": "false",
            "tempCSV":"false"
          }
        ]
      }
    ],
    "configParams": {
    }
  },
  "testJoinTable": {
    "desc": "测试",
    "strategy": "refTable",
    "algorithm": [],
    "ref": [],
    "compositor": [
      {
        "name": "streaming.core.compositor.spark.source.MockJsonCompositor",
        "params": [
          {
            "a": "3"
          },
          {
            "a": "4"
          },
          {
            "a": "5"
          }
        ]
      },
      {
        "name": "batch.refTable",
        "params": [
          {
            "tableName": "testJoinTable"
          }
        ]
      }
    ],
    "configParams": {
    }
  }
}

运行即可(spark 1.6 都可以)

./bin/spark-submit   --class streaming.core.StreamingApp \
--master local[2] \
--name test \
--files /tmp/hdfs-site.xml \
/Users/allwefantasy/CSDNWorkSpace/streamingpro/target/streamingpro-0.4.7-SNAPSHOT-online-1.6.1-carbondata-0.3.0.jar    \
-streaming.name test    \
-streaming.platform  spark_streaming  \
-streaming.job.file.path file:///tmp/streaming-test-carbondata.json \
-streaming.enableCarbonDataSupport true \
-streaming.carbondata.store /tmp/carbondata/store \
-streaming.carbondata.meta /tmp/carbondata/meta

如果/tmp/carbondata/store/default/ 目录生成了文件就代表数据已经写入。

启动SQL查询服务
新建一个/tmp/empty.json文件,内容为:

{}

启动命令:

./bin/spark-submit   --class streaming.core.StreamingApp \
--master local[2] \
--name test \
--files /tmp/hdfs-site.xml \
/Users/allwefantasy/CSDNWorkSpace/streamingpro/target/streamingpro-0.4.7-SNAPSHOT-online-1.6.1-carbondata-0.3.0.jar    \
-streaming.name test    \
-streaming.rest true \
-streaming.spark.service true \
-streaming.platform  spark  \
-streaming.job.file.path file:///tmp/empty.json \
-streaming.enableCarbonDataSupport true \
-streaming.carbondata.store /tmp/carbondata/store \
-streaming.carbondata.meta /tmp/carbondata/meta

查询方式:

curl --request POST \
  --url http://127.0.0.1:9003/sql \
  --header 'cache-control: no-cache' \
  --header 'content-type: application/x-www-form-urlencoded' \
  --data 'sql=select%20*%20from%20carbon4%20where%20a%3D%223%22&resultType=json'

如果放在PostMan之类的东西里,是这样子的:

常见问题
如果出现类似

File does not exist: /tmp/carbondata/store/default/carbon3/Fact/Part0/Segment_0

则是因为在你的环境里找到了hadoop相关的配置文件,比如hdfs-site.xml之类的。去掉或者自己写一个,比如新建一个 hdfs-site.xml,然后写入如下内容:

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>

    <property>
        <name>fs.default.name</name>
        <value>file:///</value>
    </property>
</configuration>

这样就会读本地文件了。

时间: 2024-10-21 18:18:10

让CarbonData使用更简单的相关文章

Graphael Search让搜索变得更简单

近来,Facebook推出了其最新的社交搜索Graphael Search.就在众人为Facebook抄袭一事惋惜并且认为其不再具有创新力的时候,Facebook这一极具创新意义的举措让人们再次对其恢复了信心.这次Graphael Search的上线对于Facebook来说无论是在社交领域的巩固还是在搜索领域的扩张都是具有非常重要的意义. 对此也有人指出Facebook是极具野心的,Facebook不仅仅要称霸社交领域甚至还要与搜索领域当中的霸主Google拼上一拼.而在社交领域当中Google

smarty 分列显示:有些可以变得更简单

<?php /** * * @author 风卷残云, <bighuang at 126 dot com> * @copyright Copyright (c) 闲情网站, 2004-2005 * @since ~ */ /*+++++++++++++++++++++++++ * Copyright (c) 2004,闲情网站 * All rights reserved * * 系统名称:闲情音乐 * 文件名称:diary.php * 文件标识:见配置管理计划书 * 功        能

wps让更改图片更简单、省事

相信大家在日常工作和生活中,编辑和制作文档.电子表格或者幻灯片时都会有在文件里插入图片的经历.但是当您完成编辑与排版后,也许会发现某个图片并不怎么合适或与内容不协调.此时,您就需要更换所插入的图片. 对于更换图片您一般是怎么操作的呢?您是否会把原图片删掉,然后再在原处重新插入一张心仪的图片?也许当您忙完这一切之后,却发现大事不妙.原来,苦心调整好的版面被后来更换的那张图片搞得一塌糊涂.看着自己的功夫被毁,您是否特心痛呢?也许为了版面,您会放弃您所心仪的图片,而选择一张和原来图片大小差不多的图片:

Symbian学习笔记(20)——用gSOAP更简单地实现Web Services Client

昨天折腾了一下那个gSOAP,发现这东西比Symbian自带的WebServiceAPI更简单方便,推荐使用! gSOAP的官方网站是:http://gsoap2.sourceforge.net/ 具体使用方法不多说,因为网上GOOGLE 一下很多资料.下面只对在symbian环境下使用略说几点. 我下载的是最新版的v2.7.10,下载的压缩包里就有一个symbian目录,里面是在symbian的例子,可以参考. 试着做了一个HelloWorld,还是访问前面做的那个web service,按照

如何让Win7环境数学公式的输入更简单

  如何让Windows7环境数学公式的输入更简单快捷,有了Windows 7后,数学公式的输入变得简单方便了,附带的数学输入面板可以手写输入数学公式.用过word办公软件的都知道,在里面要输入一些复杂的数学公式或者符号,比较麻烦,Word自带的Microsoft 公式3.0功能有限,而且编辑使用起来很不方便,有时候还要安装第三方公式编辑器软件,如MathType. 现在看我们如何具体的应用这个技巧,使得数学公式的输入更简单快捷. Step1:单击开始,选择运行,在里面输入Mip,再按回车,或者

如何让Windows7环境数学公式的输入更简单快捷

如何让Windows7环境数学公式的输入更简单快捷,有了Windows 7后,数学公式的输入变得简单方便了,附带的数学输入面板可以手写输入数学公式.用过word办公软件的都知道,在里面要输入一些复杂的数学公式或者符号,比较麻烦,Word自带的Microsoft 公式3.0功能有限,而且编辑使用起来很不方便,有时候还要安装第三方公式编辑器软件,如MathType. 现在看我们如何具体的应用这个技巧,使得数学公式的输入更简单快捷. Step1:单击开始,选择运行,在里面输入Mip,再按回车,或者在所

让Windows7环境数学公式的输入更简单快捷的小技巧

如何让Windows7环境数学公式的输入更简单快捷,有了Windows 7后,数学公式的输入变得简单方便了,附带的数学输入面板可以手写输入数学公式.用过word办公软件的都知道,在里面要输入一些复杂的数学公式或者符号,比较麻烦,Word自带的Microsoft 公式3.0功能有限,而且编辑使用起来很不方便,有时候还要安装第三方公式编辑器软件,如MathType. 现在看我们如何具体的应用这个技巧,使得数学公式的输入更简单快捷. Step1:单击开始,选择运行,在里面输入Mip,再按回车,或者在所

百度卫士3.0全新设计使用起来更简单

  一.全新设计,使用起来更简单 二.新增视频加速功能,免费提升家庭带宽速度,最高可达10倍 三.主动防御让安防全面升级 四.可以使用百度账号登录百度卫士,登录越久等级越高 五.运行加速功能重新设计 六.支持直接弹窗修复漏洞,补丁推送精度大幅提升

手机U盘装系统让生活更简单

手机U盘装系统让生活更简单 采用启动易U盘装系统制作的手机内存卡轻松实现用手机给电脑装系统,让你彻底忘掉系统盘. 本人亲测: 第一步:将手机插入电脑中,设置U盘模式. 第二步:启动一键U盘装系统软件并选择你的U盘. 第三步:点击开始等待制作完成. 第四步:重新启动设置BIOS,进入WINpe测试.