Apache Kylin权威指南2.4　构建Cube

2.4　构建Cube

本节将快速介绍构建Cube相关的操作说明和设置，因受到篇幅的限制，许多具体内容无法深入展开，读者可以从后续的第3章和第4章中获得更详细的介绍。

新创建的Cube只有定义，而没有计算的数据，它的状态是“DISABLED”，是不会被查询引擎挑中的。要想让Cube有数据，还需要对它进行构建。Cube的构建方式通常有两种：全量构建和增量构建；两者的构建步骤是完全一样的，区别只在于构建时读取的数据源是全集还是子集。

Cube的构建包含如下步骤，由任务引擎来调度执行。

1）创建临时的Hive平表（从Hive读取数据）。

2）计算各维度的不同值，并收集各Cuboid的统计数据。

3）创建并保存字典。

4）保存Cuboid统计信息。

5）创建HTable。

6）计算Cube（一轮或若干轮MapReduce）。

7）将Cube的计算结果转成HFile。

8）加载HFile到HBase。

9）更新Cube元数据。

10）垃圾回收。

以上步骤中，前5步是为计算Cube而做的准备工作，例如遍历维度值来创建字典，对数据做统计和估算以创建HTable等；第6）步是真正的Cube计算，取决于所使用的Cube算法，它可能是一轮MapReduce任务，也可能是N（在没有优化的情况下，N可以被视作是维度数）轮迭代的MapReduce。由于Cube运算的中间结果是以SequenceFile的格式存储在HDFS上的，所以为了导入到HBase中，还需要第7）步将这些结果转换成HFile（HBase文件存储格式）。第8）步通过使用HBase BulkLoad工具，将HFile导入进HBase集群，这一步完成之后，HTable就可以查询到数据了。第9）步更新Cube的数据，将此次构建的Segment的状态从“NEW”更新为“READY”，表示已经可供查询了。最后一步，清理构建过程中生成的临时文件等垃圾，释放集群资源。

Monitor页面会显示当前项目下近期的构建任务。图2-19显示了一个正在运行的Cube构建的任务，当前进度为46%多。

图2-19　任务列表

单击任务右边的“”按钮，展开可以得到任务每一步的详细信息，如图2-20所示。

如果任务中的某一步是执行Hadoop任务的话，那么会显示Hadoop任务的链接，单击即可跳转到对应的Hadoop任务监测页面，如图2-21所示。

如果任务执行中的某一步出现报错，那么任务引擎会将任务状态置为“ERROR”并停止后续的执行，等待用户排错。在错误排除之后，用户可以单击“Resume”从上次失败的地方恢复执行。或者如果需要修改Cube或重新开始构建，那么用户需要单击“Discard”来丢弃此次构建。

接下来将介绍几种不同的构建方式。

图2-21　MapReduce任务监测页面

2.4.1　全量构建和增量构建

1.?全量构建

对数据模型中没有指定分割时间列信息的Cube，Kylin会采用全量构建，即每次从Hive中读取全部的数据来开始构建。通常它适用于以下两种情形。

事实表的数据不是按时间增长的。

事实表的数据比较小或更新频率很低，全量构建不会造成太大的开销。

2.?增量构建

增量构建的时候，Kylin每次都会从Hive中读取一个时间范围内的数据，然后进行计算，并以一个Segment的形式进行保存。下次再构建的时候，会自动以上次结束的时间为起点时间，再选择新的终止时间进行构建。经过多次构建，Cube中将会有多个Segment依次按时间顺序进行排列，如Seg-1, Seg-2，…，Seg-N。查询的时候，Kylin会查询一个或多个Segment然后再做聚合计算，以便返回正确的结果给请求者。

使用增量构建的好处是，每次只需要对新增数据进行计算，从而避免了对历史数据进行重复计算。对于数据量很大的Cube，使用增量构建是非常有必要的。

图2-22是构建一个Segment的Cube时的输入框，需要用户选择时间范围。

图2-22　提交增量构建

在从Hive读取源数据的时候，Kylin会带上此时间条件，如图2-23所示。

图2-23　增量构建的SQL

增量构建抽取数据的范围，采用了前包后闭的原则，即包含了开始时间，但不包含结束时间，从而保证上一个Segment的结束时间与下一个Segment的起始时间相同，但数据不会重复。

下一次构建的时候，起始时间必须是上一次的结束时间。如果使用Kylin的Web GUI触发，那么起始时间会被自动填写，用户只需要选择结束时间。如果使用Rest API触发，用户则需要确保时间范围不会与已有的Segment有重合。

2.4.2　历史数据刷新

Cube构建完成以后，如果某些历史数据发生了改动，那么需要针对相应的Segment进行重新计算，这种构建称为刷新。刷新通常只针对增量构建的Cube而言，因为全量构建的Cube只要重新全部构建就可以得到更新；而增量更新的Cube因为有多个Segment，因此需要先选择要刷新的Segment，然后再进行刷新。

图2-24是提交刷新的请求页面，用户需要在下拉列表中选择一个时间区间。

图2-24　刷新已有的Segment

提交以后，生成的构建任务与最初的构建任务完全一样。

在刷新的同时，Cube仍然可以被查询，只不过返回的是陈旧数据。当Segment刷新完毕时，新的Segment会立即生效，查询开始返回最新的数据。老Segment则成为垃圾，等待回收。

2.4.3　合并

随着时间的迁移，Cube中可能会存在较多数量的Segment，使得查询性能下降，并且会给HBase集群管理带来压力。对此，需要适时地将一些Segment进行合并，将若干个小Segment合并成较大的Segment。

合并的好处具体如下。

合并相同的Key，从而减少Cube的存储空间。

由于Segment减少了，因此可以减少查询时的二次聚合，提高了查询性能。

HTable的数量得以减少，更便于集群的管理。

下面来看看合并的操作步骤，图2-25中的Cube有两个Segment。

现在触发一个合并，单击Actions →Merge；选择要合并的起始Segment和结束Segment，生成一个合并的任务，如图2-26所示。

图2-26　提交合并任务

合并的时候，Kylin将直接以当初各个Segment构建时生成的Cuboid文件作为输入内容，而不需要从Hive加载原始数据。后续的步骤跟构建时基本一致。直到新的HTable加载完成后，Kylin才会卸载旧的HTable，从而确保在整个合并过程中，Cube都是可以查询的。

合并完成之后，此Cube的Segment减少为1个，如图2-27所示。

时间： 2025-01-26 21:51:54

Apache Kylin权威指南2.4　构建Cube

Apache Kylin权威指南2.4　构建Cube的相关文章

Apache Kylin权威指南2.3　设计Cube

Apache Kylin权威指南3.1　为什么要增量构建

Apache Kylin权威指南1.5　Apache Kylin的主要特点

Apache Kylin权威指南导读

Apache Kylin权威指南1.4　Apache Kylin的技术架构

Apache Kylin权威指南2.2　在Hive中准备数据

Apache Kylin权威指南2.7　小结

Apache Kylin权威指南3.5　小结

Apache Kylin权威指南2.6　SQL参考

Apache Kylin权威指南2.4 构建Cube

Apache Kylin权威指南2.4 构建Cube的相关文章

Apache Kylin权威指南2.4　构建Cube

Apache Kylin权威指南2.4　构建Cube的相关文章